您现在的位置是:首页 >学无止境 >分类与回归的区别与联系网站首页学无止境
分类与回归的区别与联系
“在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间( input space)与输出空间( output space).输入与输出空间可以是有限元素的集合,也可以是整个欧氏空间.
输入变量 X 和输出变量Y 有不同的类型,可以是连续的,也可以是离散的.人们根据输入、输出变量的不同类型,对预测任务给予不同的名称:输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题.”
----《统计学习方法--第1版(第4页)》
1. 分类问题与回归问题的区别
基于以上定义,分类问题与回归问题的主要区别在于需要预测的数值的类型:
(1)分类问题:预测的值是离散的(通常是定性的,具有非可度量性)。
分类问题的输出空间通常是一个非可度量空间,空间中的不同实例之间没有大小/序的关系,如“猫”和“狗”这两个类别之间没有大小的关系。
(2)回归问题:预测的值是连续的(通常是定量的,具有可度量性)。
回归问题的输出空间通常是一个可度量的空间,空间中的不同实例相互之间有数值上的大小/序的关系。如预测天气的温度,图像目标检测任务中目标框的位置。
2. 分类问题与回归问题的联系
预测离散的数值可以用连续的数值逼近;预测得到的连续数值也可以被离散为离散的数值。 因此,分类问题与回归问题在算法实现上可以互相转换。
(1)回归任务-->分类任务:将回归结果离散化/阈值化,回归结果可以看做分类结果。
(2)分类任务-->回归任务:将分类结果以连续数值(概率)的方式表示,就是将分类问题转换为了回归问题。例如,在图像分类任务中,在执行one-hot操作之前,神经网络得到的是图像属于每一类的概率。分类任务可以看做是向类别概率数值的回归。
如果只看最终结果:分类的结果需要是离散的,回归的结果需要是连续的。