您现在的位置是：首页 >技术交流 >大模型训练数据多样性的重要性网站首页 技术交流

大模型训练数据多样性的重要性

herosunly 2024-06-17 10:29:51

简介大模型训练数据多样性的重要性

大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。

在这里插入图片描述

本文介绍核心内容为大模型训练数据多样性的重要性，希望对学习大模型的同学们有所帮助。

文章目录

1. 引言
2. 摘要
3. 结果
4. 讨论

1. 引言

模型A和模型B进行PK，假设模型A的参数量为800M，模型B的参数量为400M。模型A的训练数据是由90%不重复的数据和10%的重复数据构成的，其中10%的数据是由0.1%的数据复制一百份而成的。大家可以先猜猜哪个模型的效果更好。是模型A还是模型B，或者两者相差不大。

如果在模型A的基础上将重复数据进行删除，相当于只保留90.01%的数据量，从而得到模型C，那么模型A、模型B、模型C三者的效果如何呢？

数据复制也称为是数据上采样或者过采样，是机器学习较为常用的解决数据不均衡的方法之一。但该操作对于大模型而言，效果究竟是好还是坏呢？

究竟效果

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。

上一篇
Doker相关命令

下一篇
Zabbix如何自定义时间采集数据

站长推荐

QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。...
U8W/U8W-Mini使用与常见问题解决
U8W/U8W-Mini使用与常见问题解决
stm32使用HAL库配置串口中断收发数据（保姆级教程）
stm32使用HAL库配置串口中断收发数据（保姆级教程）
分享几个国内免费的ChatGPT镜像网址(亲测有效)
分享几个国内免费的ChatGPT镜像网址(亲测有效)
Allegro16.6差分等长设置及走线总结
Allegro16.6差分等长设置及走线总结