您现在的位置是:首页 >技术交流 >BERT中的MLM和NSP网站首页技术交流

BERT中的MLM和NSP

失眠的树亚 2024-08-17 12:01:02
简介BERT中的MLM和NSP

MLM和NSP

BERT采用两个无监督任务进行参数预训练,MLM和NSP。

利用Mask LM和NSP这两个任务来训练BERT模型,也就是BERT的预训练过程包括两个任务:NSP和MLM。

MLM:

**内容:**在一个句子中,随机选中一定百分比(实际是15%)的token,将这些token用"[MASK]“替换。然后用分类模型预测”[MASK]"实际上是什么词;

**改进:**在被选中的15%的token中,有80%被替换为"[MASK]",有10%被替换为一个随机token,有10%保持不变。

举例:

原始句子为:my dog is hairy;

假设随机mask的过程中,第4个token "hairy"被选中,则对"hairy"的处理有3中可能的情况:

①、80%的情况下将"hairy"替换为"[MASK]",即 my dog is hairy -> my dog is [MASK];

②、10%的情况下将"hairy"替换为一个随机词,例如my dog is hairy -> my dog is apple;

③、10%的情况下,保持"hairy"不变,即my dog is hairy -> my dog is hairy;

NSP:

**内容:**为了训练一个理解句子关系的模型,作者提出了Next Sentence Prediction(NSP)任务。即每个样本都是由A和B两句话构成,分为两种情况:①、句子B确实是句子A的下一句话,样本标签为IsNext;②、句子B不是句子A的下一句,句子B为语料中的其他随机句子,样本标签为NotNext。在样本集合中,两种情况的样本占比均为50%。

举例:

一个样本的两个句子用[SEP]隔开,第一个句子的句首加上[CLS],第二个句子的句尾加上[SEP]。

样本一:[CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP],

标签:IsNext。

样本二:[CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP],

标签:NotNext。

风语者!平时喜欢研究各种技术,目前在从事后端开发工作,热爱生活、热爱工作。