BERT中的MLM和NSP网站首页 技术交流

BERT中的MLM和NSP

失眠的树亚 2024-08-17 12:01:02

简介BERT中的MLM和NSP

MLM和NSP

BERT采用两个无监督任务进行参数预训练，MLM和NSP。

利用Mask LM和NSP这两个任务来训练BERT模型，也就是BERT的预训练过程包括两个任务：NSP和MLM。

MLM：

**内容：**在一个句子中，随机选中一定百分比（实际是15%）的token，将这些token用"[MASK]“替换。然后用分类模型预测”[MASK]"实际上是什么词；

**改进：**在被选中的15%的token中，有80%被替换为"[MASK]"，有10%被替换为一个随机token，有10%保持不变。

举例：

原始句子为：my dog is hairy；

假设随机mask的过程中，第4个token "hairy"被选中，则对"hairy"的处理有3中可能的情况：

①、80%的情况下将"hairy"替换为"[MASK]"，即 my dog is hairy -> my dog is [MASK]；

②、10%的情况下将"hairy"替换为一个随机词，例如my dog is hairy -> my dog is apple；

③、10%的情况下，保持"hairy"不变，即my dog is hairy -> my dog is hairy；

NSP：

**内容：**为了训练一个理解句子关系的模型，作者提出了Next Sentence Prediction（NSP）任务。即每个样本都是由A和B两句话构成，分为两种情况：①、句子B确实是句子A的下一句话，样本标签为IsNext；②、句子B不是句子A的下一句，句子B为语料中的其他随机句子，样本标签为NotNext。在样本集合中，两种情况的样本占比均为50%。

举例：

一个样本的两个句子用[SEP]隔开，第一个句子的句首加上[CLS]，第二个句子的句尾加上[SEP]。

样本一：[CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]，

标签：IsNext。

样本二：[CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]，

标签：NotNext。

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。