您现在的位置是:首页 >技术交流 >BERT中的MLM和NSP网站首页技术交流
BERT中的MLM和NSP
MLM和NSP
BERT采用两个无监督任务进行参数预训练,MLM和NSP。
利用Mask LM和NSP这两个任务来训练BERT模型,也就是BERT的预训练过程包括两个任务:NSP和MLM。
MLM:
**内容:**在一个句子中,随机选中一定百分比(实际是15%)的token,将这些token用"[MASK]“替换。然后用分类模型预测”[MASK]"实际上是什么词;
**改进:**在被选中的15%的token中,有80%被替换为"[MASK]",有10%被替换为一个随机token,有10%保持不变。
举例:
原始句子为:my dog is hairy;
假设随机mask的过程中,第4个token "hairy"被选中,则对"hairy"的处理有3中可能的情况:
①、80%的情况下将"hairy"替换为"[MASK]",即 my dog is hairy -> my dog is [MASK];
②、10%的情况下将"hairy"替换为一个随机词,例如my dog is hairy -> my dog is apple;
③、10%的情况下,保持"hairy"不变,即my dog is hairy -> my dog is hairy;
NSP:
**内容:**为了训练一个理解句子关系的模型,作者提出了Next Sentence Prediction(NSP)任务。即每个样本都是由A和B两句话构成,分为两种情况:①、句子B确实是句子A的下一句话,样本标签为IsNext;②、句子B不是句子A的下一句,句子B为语料中的其他随机句子,样本标签为NotNext。在样本集合中,两种情况的样本占比均为50%。
举例:
一个样本的两个句子用[SEP]隔开,第一个句子的句首加上[CLS],第二个句子的句尾加上[SEP]。
样本一:[CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP],
标签:IsNext。
样本二:[CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP],
标签:NotNext。