您现在的位置是:首页 >技术交流 >[论文评析]mixup: B EYOND E MPIRICAL R ISK M INIMIZATION, ICLR 2018,网站首页技术交流
[论文评析]mixup: B EYOND E MPIRICAL R ISK M INIMIZATION, ICLR 2018,
mixup: B EYOND E MPIRICAL R ISK M INIMIZATION
介绍
采用ERM训练的模型往往存在泛化能力差的情形-可能是在简单的记忆样本, 对于噪声干扰的鲁棒性很差.
这篇论文提出了一种新的数据增广方法-Mixup, 这里主要介绍该方法的使用, 及其提出的缘由.
Mixup
简单易句话来讲, Mixup实际上就是在训练集的样本对之间进行插值(Input和Output同时进行插值)来产生新的样本, 这些新生成的Samples就是训练集中Input-Output的凸组合, 然后模型在这些增广的数据集上再进行训练,能够提升泛化能力.
上图就是Mixup的pytorch代码代码实现, 可以看到: 每次随机选择两个样本对,然后进行插值, 插值过程如下:
其中插值系数
λ
lambda
λ从Beta分布中进行采样.
右图是ERM和Mixup训练的模型决策边界对比. 可以看到与ERM相比, Mixup的类别之间决策边界过度非常平滑 (线性过度),
Mixup的提出动机
先来回顾下ERM的理论:
理论上, 我们希望通过最新化模型在分布P上的期望风险来训练模型, 如下:
然而P往往是未知的. 实际中我们只能获取到有限个样本用于训练模型(即所谓的训练集), 因此,实际上我们是通过最小化模型在训练集上的经验风险ERM来优化模型, 如下:
当采用了ERM,关于P的一个潜在假设是:
对这个函数的简单理解是: P仅在样本空间中训练集对应的n个点处采样概率相等且为1/n, 换言之在除了这n个点以外的其他区与采样概率为0.
这就不难理解了, 训练模型时只要在这n个samples拟合好就行了, 这可能导致模型在其他区域的泛化能力极差.
那么Mixup关于P的潜在假设是什么?
Mixup实际上假设P服从如下的类邻近分布:
可以看到,其相当于是在任意两个sample-pair之间进行插值, 而且是x和y同时进行插值, 这样一种线性插值的方式决定了训练后的模型在不同类别之间的预测呈现出一种线性/平滑过度,
关于Mixup方法的更深层次理论分析参见ICLR 2021的一篇论文: HOW DOES MIXUP HELP WITH ROBUSTNESS AND GENERALIZATION?
Mixup与常规数据增广方法的区别
规数据增广方法非常多,本质上都是仅对输入进行扰动, 并没有对样本的近邻关系进行建模.
Mixup方法实际上对样本间的近邻关系进行了建模.
References
1.mixup: B EYOND E MPIRICAL R ISK M INIMIZATION, ICLR 2018;
2.HOW DOES MIXUP HELP WITH ROBUSTNESS AND GENERALIZATION? ICLR 2021.