深度学习(神经网络)网站首页 技术杂谈

深度学习(神经网络)

Elsa的迷弟 2024-07-23 12:01:02

简介深度学习(神经网络)

神经网络历史

提出形式神经元模型(M-P模型)（1943）
提出感知器（1958）
感知器无法解决线性不可分问题（1969）

提出神经认知机（1980）
提出霍普菲尔德模型（1982）
提出误差反向传播算法（1986）
提出卷积神经网络（1989）

提出将预训练和自编码器与深度神经网络相结合（2006）
提出在卷积神经网络中引入ReLU作为激活函数（2012）

形式神经元模型（M-P模型）

多个输入结点 $x_i$ 对应一个输出结点
每个输入结点乘以连接权重 $w_i$ ,相加得到 $y$
y大于阈值h，输出1，否则输出0。

感知器

感知器能够通过训练自动确定参数

引入误差修正学习：根据实际输出与期望输出的差值调整权重 $w_i$ 和阈值 $h$ 。

多层感知器

由 多层结构的感知器 递阶组成 输入值向前传播的网络。（前馈网络、正向传播网络）

通常采用三层结构：输入层，中间层，输出层。

误差反向传播算法

通过比较实际输出和期望输出得到的误差信号，把误差信号从输出层逐层向前传播得到各层的误差信号，再通过调整各层的连接权重以减小误差。

通过实际输出和期望输出之间的误差 $E$ 和梯度进行调整。

例：
$y_1 = w_1x + 1，w_1 = 2\ y_2 = w_2y_1^2，w_2 = 1;$
现输入 $x = 1$ ,期望输出 $y_2 = 3$

代入求得： $y_1 = 2 * 1 + 1 = 3$ ， $y_2 = 1 * 3^2 = 10$

误差 $E$ ：与期望值相差 $3 - 10 = - 7$

误差反向传播的梯度：
$y_2}{partial w_2} = y_1^2 = 9 \ quad\ frac{partial y_2}{partial w_1} = frac{partial (w_1x+1)^2}{partial w_1} = 2x^2w_1 + 2x = 6\ 或\ =frac{partial y_2}{partial y_1}frac{partial y_1}{partial w_1} = 2w_2y_1 * x= 6$

梯度的意义：
$∂ y ∂ w ：当 w = w + △ w ，则 y = y + ∂ y ∂ w △ w frac{partial y}{partial w}：当w = w + igtriangleup w，则y = y + frac{partial y}{partial w}igtriangleup w$

已知：
$y_2}{partial w_2} = 9，frac{partial y_2}{partial w_1} =6$
故可修改( $η 表示学习率，设 η = 1$ )
$w_1 = w_1 + frac{eta E}{frac{partial y_2}{partial w_1} } = 2 + 1*(-7)/6 = 2 - 7/6= 5/6\ quad\ w_2 = w_2 + frac{eta E}{frac{partial y_2}{partial w_2} } = 1 + 1 * (-7)/9 = 1-7/9 = 2/9$

$w_1,w_2已被调整为新值，w_1 = frac{5}{6}，w_2=frac{2}{9}$
将此值带入原式计算，
$y_1 = frac{11}{6} , y_2 = frac{121}{162}$
可看到， $y_2$ 从原先的 $10$ 被调整到了 $121/162$ ，可以看到，通过误差反向传播确实可以修正权值 $w_1,w_2$ 。
但是过大的学习率会导致结果过拟合，如上，我们需要最后值为3，但修改后的值甚至小于了1。因此调整合适的学习率 $η$ 是必须的。

误差函数和激活函数

【机器学习基础】2、代价函数损失函数汇总

误差函数

用于计算误差值 $E$

引自：https://www.cnblogs.com/go-ahead-wsg/p/12346744.html

二次代价函数

$sum_{x_{1}, ldots x_{n}}left|y(x)-a^{L}(x) ight|^{2}$

C表示代价函数
x表示样本
y表示实际值
a表示输出值
n表示样本的总数；

其中 $w_j*x_j +b$

a代表激活函数的输出值
σ代表sigmoid函数

$\quad\ frac {partial C} {partial b} = (a-y)sigma' (z)$

注：由于反向误差梯度与sigmoid函数的导数有关，而sigmoid函数的导数会在值较大时有较小的倒数，故会导致权值调整较小。
如下图所示：
在这里插入图片描述
因此引入交叉熵代价函数

交叉熵代价函数

交叉熵代价函数（Cross-entropy cost function）是用来衡量人工神经网络（ANN）的预测值与实际值的一种方式。与二次代价函数相比，它能更有效地促进ANN的训练。

$sum_{x_{1}, x_{n}}[y ln a+(1-y) ln (1-a)]$

C表示代价函数
x表示样本
y表示实际值
a表示输出值
n表示样本的总数；
$w_j*x_j +b\ quad\ sigma'(z) = sigma(z)(1-sigma (x))$

梯度求解
$w_{j}} & =-frac{1}{n} sum_{x}left(frac{y}{sigma(z)}-frac{(1-y)}{1-sigma(z)} ight) frac{partial sigma}{partial w_{j}} \ & =-frac{1}{n} sum_{x}left(frac{y}{sigma(z)}-frac{(1-y)}{1-sigma(z)} ight) sigma^{prime}(z) x_{j} \ & =frac{1}{n} sum_{x} frac{sigma^{prime}(z) x_{j}}{sigma(z)(1-sigma(z))}(sigma(z)-y) \ & =frac{1}{n} sum_{x} x_{j}(sigma(z)-y) \ frac{partial C}{partial b} & =frac{1}{n} sum_{x}(sigma(z)-y) end{aligned}$

可以看出：权值 $w$ 和偏执值 $b$ 的调整与 $σ' (z)$ 无关，另外，梯度公式中的 $σ (z) - y$
表示输出值与实际值放入误差。所以当误差越大时，梯度就越大，参数w和b的调整就越快，训练的速度也就越快。

总结：当输出神经元是线性的，那么二次代价函数就是一种合适的选择。如果输出神经元是S型函数，那么比较适合交叉墒代价函数。

激活函数

激活函数类似于人类神经元，对输入信号进行线性或非线性变换。

M-P模型中使用step函数作为激活函数
多层感知器中使用sigmoid函数，或tanh函数（双曲正切函数）
最近几年在深度学习中，修正线性单元（Rectified Linear Unit，ReLU）

sigmoid函数

$frac{1}{1+e^{-u}} \quad\ u = sum_{i=1}^nw_ix_i$
偏导数：
$∂ f ( u ) ∂ u = f ( u ) ( 1 − f ( u ) ) frac{partial f(u)}{partial u} = f(u)(1-f(u))$

RELU函数

$max(0,u)\ quad\ frac{partial f(u)}{partial u} = 1$

似然函数

似然函数用于计算多层感知器的输出结果，通常以softmax函数作为似然函数。

softmax函数

$p(y^k) = frac{exp(u_{2k})}{sum_{q=1}^Q exp(u_{2q})}$
softmax函数的分母是对输出层所有单元(q = 1，······，Q)的激活函数值的求和，起到归一化的作用。

随机梯度下降法

使用部分训练样本进行迭代计算，这种方法叫做随机梯度下降法（Stochastic Gradient Descent，SGD），与之相对的是批量学习方法。

批量学习方法

计算时遍历全部训练样本，设第 $t$ 次迭代各训练样本误差为 $E_n^t$ ,通过所有误差项计算全部训练样本误差：
$sum_{n=1}^n E_n$
基于全部训练样本得到权重权重调整值并修正网络连接权重
$w = w − η ∂ E ∂ w w = w - eta frac{partial E}{partial w}$
然后使用调整后的连接权重测试全部训练样本，如此反复迭代计算权重调整并修正网络。

优点：能有效抑制训练集内带噪声的样本所导致的输入模式剧烈变动
缺点：每次调整连接权值，所有样本都要参与训练，所有训练时间长

在线学习

逐个输入训练样本

由于在线学习每次迭代计算一个训练样本，所以训练样本的差异会导致结果出现大幅变动。
迭代结果的变动可能导致训练无法收敛。

小批量梯度下降法

介于在线学习和批量学习之间，将训练集分成几个子集D，每次迭代使用一个子集。

小批量下降法能够缩短单次训练时间，又能降低迭代结果的变动。

由于随机梯度下降法只使用部分训练样本，每次迭代后样本集的趋势都会发生变化，所以减少了迭代结果陷入局部最优解的情况。

学习率

用来确定权重连接调整的系数。

如果学习率过大，则有可能修正过头
如果学习率较小，收敛速度会很慢。

自适应调整学习率—AdaGrad方法

用学习率除以截至当前时刻 $t$ 的梯度 $▽ E$ 的累计值，得到神经网络的连接权重 $w$ .

$E^{(t)}}{sqrt{ sum_{i=1}^t(igtriangledown E^{(i)})^2 +}varepsilon }$

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。

上一篇
Kali Linux 2023.2 发布（Hyper-V 和 Pipe...

下一篇
Spring MVC的高级功能（异常处理器，拦截...

站长推荐

U8W/U8W-Mini使用与常见问题解决
U8W/U8W-Mini使用与常见问题解决
分享几个国内免费的ChatGPT镜像网址(亲测有效)
分享几个国内免费的ChatGPT镜像网址(亲测有效)
stm32使用HAL库配置串口中断收发数据（保姆级教程）
stm32使用HAL库配置串口中断收发数据（保姆级教程）
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。...
SpringSecurity实现前后端分离认证授权
SpringSecurity实现前后端分离认证授权

您现在的位置是：首页 >技术杂谈 >深度学习(神经网络)网站首页技术杂谈