Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GP

2022-12-28 13:45 来源: IT之家齐鲁经济网   阅读量:15604   

Meta发布了第一个非参数掩蔽语言模型NPM:那一年,我把手放在口袋里,不知道什么是词汇之外。

虽然大规模语言模型在NLP领域的强大表现令人惊叹,但也带来了严重的负成本,比如训练太贵,更新困难而且很难处理长尾知识

而且语言模型在预测层通常采用一个词汇量有限的softmax层,基本不会输出生僻字或短语,大大限制了模型的表达能力。

为了解决模型的长尾问题,最近来自华盛顿大学,Meta AI和艾伦人工智能研究所的学者联合提出了首个非参数掩蔽语言模型,通过参考语料库中每个短语的非参数分布来替代softmax输出。

通过比较目标和在批量中搜索完整的语料库,可以有效地训练NPM。

研究人员对9个封闭任务和7个开放任务进行了零射评估,其中包括强调需要预测新事实或罕见短语的时空转换和单词级翻译的任务。

发现NPM明显优于更大的参数模型,如参数量高500倍的GPT—3和参数量高37倍的OPT 13B,NPM尤其擅长处理稀有模式和预测稀有或几乎未知的词。

第一个非参数语言模型

虽然结合一些现有的检索和生成相关工作可以缓解这个问题,但是这些模型的最终预测部分仍然需要一个softmax层来预测token,并没有从根本上解决长尾问题。

NPM由编码器和参考语料库组成编码器将文本映射到一个固定大小的向量中,然后NPM从中检索一个短语并填充它

可以看出,NPM选择了在短语上获得的非参数分布,而不是使用固定输出词汇softmax作为其输出。

但是训练非参数模型也会带来两个关键问题:

1.在训练过程中搜索完整的语料库是非常费时费力的。研究人员通过使用完整语料库搜索的批内近似来解决它,

2.没有解码器,很难学会预测任意长度的短语研究者通过扩展跨度掩蔽和短语水平的比较目标来解决这个问题

总之,NPM完全删除了输出词汇的softmax,通过预测任意数量的N—gram,实现了有效的无界输出空间。

由此产生的模型可以预测极其罕见甚至完全未知的单词,并且可以有效地支持无限的词汇量,这是现有模型所做不到的。

NPM方法

NPM的核心思想是通过使用编码器将语料库中的所有短语映射到密集的向量空间在推理中,当给定一个带有的查询时,编码器用于从语料库中找到最近的短语并填充它

纯编码器模型是一个非常有竞争力的表示模型,但现有的纯编码器模型不能预测未知的令牌数,这限制了它们在没有微调的情况下的使用。

NPM通过检索一个短语来填充任意数量的令牌来解决这个问题。

理由

编码器将参考语料库C中的每个不同短语映射到密集向量空间。

在测试期间,编码器将屏蔽的查询映射到相同的向量空间,并从C中检索短语来填充它。

这里,C不必与训练语料库相同,并且可以在测试期间替换或扩展,而无需重新训练编码器。

在实践中,语料库中有大量的短语,对所有的短语进行索引是非常昂贵的。

例如,如果我们考虑一个最多有L个标记的短语,我们需要索引l×

化简为|C|,然后在测试中,分别在开头和结尾用K—近邻搜索逼近所有短语的非参数分布。

例如,由四个BPE令牌组成的短语Thessaloniki由c1和c4的连接来表示,分别对应于该短语的开头和结尾。

然后用同一个向量空间中的两个向量q_start和q_end来表示一个查询,再用每个向量来检索似是而非的短语的开头和结尾,然后进行聚合。

这样做的前提是开头和结尾有很好的表现,即Q起点足够接近c1,Q终点足够接近c4,这一点在训练过程中已经得到保证。

火车

NPM在未标记的文本数据上被训练,以确保编码器将文本映射到良好的密集向量空间。

在训练NPM时存在两个主要问题:1)完整的语料库搜索将使训练非常耗时,2)用任意长度的短语代替标记进行掩码。

1.掩模掩蔽

段掩码是对长度从几何分布中采样的连续令牌进行掩码。

研究人员对此进行了扩展:

1)如果一些片段同时出现在该批中的其他序列中,屏蔽它们以确保在训练期间该批中的批内阳性。

例如,封锁部分2010年,西雅图海鹰队和所有出现在另一个序列。

但是对于bigram游戏来说,它是不能一起面具的虽然它们都出现在两个序列中,但它们不会同时出现

2)不是用(掩码)替换一个段中的每个记号,而是用两个特殊记号(掩码)(掩码)替换整个段。

比如上面的例子,不管要屏蔽的线段有多长,都用(mask)代替,这样就可以得到每一段的起始和结束向量,更便于推理。

2.训练目的

假设面具片段是西雅图海鹰,模型应该在测试期间从参考语料库的其他序列中检索短语西雅图海鹰。

在推理阶段,该模型从sum (MASKe)中获得向量,并使用它们从语料库中检索短语的开头和结尾。

因此,训练目标应该鼓励向量更接近西雅图海鹰队中的the ,而远离其他token,而不应该是任何短语中的the ,例如be the first。

这可以通过训练模型来完成,训练是通过将完整的语料库批量地近似到其他序列具体来说,训练模型从同一批的其他序列中检索西雅图海鹰队的起点和终点

值得注意的是,这种屏蔽策略可确保每个屏蔽跨度在一个批次中有一个公共段。

实验部分

从结果来看,NPM在零镜头设置下的性能优于其他基线模型。

在参数模型中,RoBERTa的性能最好,出人意料地超过了包括GPT—3等在内的模型,可能是因为纯编码器模型的双向性质起着至关重要的作用,这也表明因果语言模型可能不是一个合适的分类选择

KNN—LM方法在参数模型中加入了非参数成分,其性能优于其他所有基线可是,在GPT—2中单独检索的性能较差,这表明仅在推理中使用kNN是有限的

NPM单和NPM的表现明显优于所有基线,在所有数据集上都取得了一致的优越表现这表明,即使对于不明确需要外部知识的任务,非参数模型也是非常有竞争力的

定性分析使用罗伯塔和NPM在情感分析任务中的预测结果在第一个例子中,便宜意味着不贵,在第二个例子中,便宜意味着质量差

罗伯塔对这两个例子的预测是肯定的,而NPM通过搜索廉价在与输入相同的上下文中使用的上下文,做出了正确的预测。

还可以发现,NPM输出的表征可以带来更好的词义消歧例如,RoBERTa在廉价和便宜(质量差)之间分配了很高的相似性分数

另一方面,NPM成功地在廉价和廉价之间分配了一个低的相似性分数,这也表明非参数训练和对比目标是有效的,可以更好地改善表征学习,而未经训练的算法如kNN推理根本做不到。

参考资料:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

责任编辑:叶知秋