清华p-tuning | GPT也能做NLU？清华推出p-tuning方法解决GPT系列模型fine-tuning效果比BERT差问题网站首页 技术交流

HxShine 2024-06-18 12:01:02

简介清华p-tuning | GPT也能做NLU？清华推出p-tuning方法解决GPT系列模型fine-tuning效果比BERT差问题

title：GPT Understands, Too

1.1 Motivation

1.2 Methods

提出了新的P-tuning方法，构造一个可训练的连续prompt embedding，通过在连续空间中搜索更好的提示语prompt，来提升预训练模型的NLU能力。

1.3 Conclusion

二、详细内容

1. 效果对比

模型大小为110M时，原始Fine-tuning方法中，在SuperGlue任务中，GPT效果比BERT效果差的比较多，使用P-tuning方法后，GPT反而比BERT效果好，同时BERT模型效果也比Fine-tuning效果好。
模型大小为340M时，GPT效果的提升更大。

2. 模型结构

- 利用embedding构建pseudo prompts，可以自动搜索最佳的prompt，提升效果。
- 也可以加一下anchor tokens例如（b）中蓝色Britain提升效果。

3. LAMA数据集表现

4 SuperGlue数据集表现

5 few-shot效果

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。

U8W/U8W-Mini使用与常见问题解决
U8W/U8W-Mini使用与常见问题解决
分享几个国内免费的ChatGPT镜像网址(亲测有效)
分享几个国内免费的ChatGPT镜像网址(亲测有效)
stm32使用HAL库配置串口中断收发数据（保姆级教程）
stm32使用HAL库配置串口中断收发数据（保姆级教程）
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。...
SpringSecurity实现前后端分离认证授权
SpringSecurity实现前后端分离认证授权