神经网络（容易被忽视的基础知识）_资讯

神经网络（容易被忽视的基础知识）

创始人

2024-05-30 03:04:48

主要内容：

基本神经元
作为线性分类器的单个神经元
为什么要是深度神经网而不是”肥胖“神经网络？
为什么在人工神经网络中的神经元需要激活函数？
一些主要的激活函数
神经网络中的偏置有什么意义？
初始化神经网络的参数可以全为0吗，其他普通线性分类器呢？
交叉熵损失存在的意义和与平方差损失相比有什么好处？

神经元

下面图表的左边展示了一个生物学的神经元，右边展示了一个常用的数学模型。乍一看还是有点相似的，事实上也是，人工神经网络中的神经元也有受到生物神经元的启发。总结要点：

在生物的神经元（也就是左图）中，树突将信号传递到细胞体，信号在细胞体中相加。如果最终之和高于某个阈值，那么神经元将会_激活_，向其轴突输出一个峰值信号，注意这里输出是一个脉冲信号！
在数学计算模型（也就是右图）中，首先将输入进行加权求和加上偏执，得到待激励值，然后将该值作为输入，输入到激活函数中，最后输出的是一个激励后的值，这里的激活函数可以看成对生物中神经元的激活率建模。由于历史原因，激活函数常常选择使用**sigmoid函数 σ\sigmaσ\sigma，**当然还有很多其他激活函数，下面再仔细聊！
需要注意：1.一个神经元可以看成包含两个部分，一个是对输入的加权求和加上偏置，一个是激活函数对求和后的激活或者抑制。2.注意生物中的神经元要复杂的多，其中一个是生物中的输出是一个脉冲，而现在大多数的数学模型神经输出的就是一个值，当然现在也有一些脉冲人工神经网络，可以自行了解！

作为线性分类器的单个神经元

比如基础的逻辑回归，结合上面的神经元知识，可以发现，逻辑回归就是激活函数是sigmoid的单层简单神经网络。也就是说，只要在神经元的输出端有一个合适的损失函数，就能让单个神经元变成一个线性分类器。因此说，那些线性的分类器本身就是一个单层神经网络
**但注意，对于非线性的模型：SVM和神经网络走了两条不同的道路：神经网络通过多个隐层的方法来实现非线性的函数，有一些理论支持（比如说带隐层的神经网络可以模拟任何函数），但是目前而言还不是非常完备；SVM则采用了kernel trick的方法，这个在理论上面比较完备（RKHS，简单地说就是一个泛函的线性空间）。**两者各有好坏，神经网络最近的好处是网络设计可以很灵活，有很多的trick&tip，很多理论都不清不楚的；SVM的理论的确漂亮，但是kernel设计不是那么容易，所以最近也就没有那么热了。

为什么要是深度神经网而不是”肥胖“（宽度）神经网络？

“肥胖”网络的隐藏层数较少，如上左图。虽然有研究表明，浅而肥的网络也可以拟合任何的函数，但它需要非常的“肥胖”，可能一层就要成千上万个神经元。而这直接导致的后果是参数的数量增加到很多很多。

也有实验表明，也就是上图的实验，我们可以清楚的看出，当准确率差不多的时候，参数的数量却相差数倍。这也说明我们一般用深层的神经网络而不是浅层“肥胖”的网络。

注意：说神经网络多少层数的时候一般不包括输入层。在神经网络中的激活主要讲的是梯度的更新的激活

为什么在人工神经网络中的神经元需要激活函数？

上图可看做普通的线性分类器，也就是线性回归方程。这个比较基础，效果如右图。当然有时候我们发现这样的线性分类器不符合我们要求时，我们很自然的想到那我们就加多一层，这样可以拟合更加复杂的函数，如下图a：

图a

图b

但同时当我们动笔算下, 就会发现, 这样一个神经网络组合起来,输出的时候无论如何都还是一个线性方程。如上图b右边，就只能这样分类。（那也太蠢了吧）。下图表示一层加如激活函数的情况！

一层很多时候是远远不够的，前面讲过，简单的线性分类器就可以看成是一层的神经网络，比如上图，激活函数是signmoid，那就可以看成是二分类的逻辑回归！

下面扩展到多层，如下图1,2：

图1

图2

图1是一个简单的MLP（全链接神经网络），图2的右边课简单表示左图的可视化，那么对比之前的无激活函数的图，很明显是更加的非线性，拟合能力也会更强，同时可以想到，当层数更多，其能力也会越来越强！

简单来说：就是使得神经网络具有的拟合非线性函数的能力，使得其具有强大的表达能力！

简单扩展，神经网络的万能近似定理:一个前馈神经网络如果具有线性层和至少一层具有"挤压"性质的激活函数（如signmoid等），给定网络足够数量的隐藏单元，它可以以任意精度来近似任何从一个有限维空间到另一个有限维空间的borel可测函数。

要相符上面的定理，也就是想拟合任意函数，一个必须点是“要有带有“挤压”性质的激活函数”。这里的“挤压”性质是因为早期对神经网络的研究用的是sigmoid类函数，所以对其数学性质的研究也主要基于这一类性质：将输入数值范围挤压到一定的输出数值范围。（后来发现，其他性质的激活函数也可以使得网络具有普适近似器的性质，如ReLU 。

一些主要的激活函数

sigmoid

**优点：**有较好的解释性

缺点：1.Sigmoid函数饱和使梯度消失。sigmoid神经元有一个不好的特性，就是当神经元的激活在接近0或1处时会饱和：在这些区域，梯度几乎为0。2.输出不是零中心的，这一情况将影响梯度下降的运作，因为如果输入神经元的数据总是正数，那么关于w的梯度在反向传播的过程中，将会要么全部是正数，要么全部是负数，这样梯度下降权重更新时出现z字型的下降。这样收敛会变得异常的慢。（这也是为什么要一直保持为数据的0中心化）—–但这个问题比较小3.exp（）在深度神经网络时候相比其他运算就比较慢

Tanh非线性函数

**优点：1.**它的输出是零中心的。因此，在实际操作中，tanh非线性函数比sigmoid非线性函数更受欢迎。

**缺点：**1.和Sigmoid函数一样，饱和使梯度消失。计算慢

ReLU

优点：1.ReLU对于随机梯度下降的收敛有巨大的加速作用（ Krizhevsky 等的论文alexnet指出有6倍之多）。据称这是由它的线性，非饱和的公式导致的；2.注意：现在大部分的DNN用的激活函数就是ReLu

**缺点：1.**当x是小于0的时候，那么从此所以流过这个神经元的梯度将都变成0；这个时候这个ReLU单元在训练中将死亡（也就是参数无法更新），这也导致了数据多样化的丢失（因为数据一旦使得梯度为0，也就说明这些数据已不起作用）。

Leaky ReLU

**优点：1.**非饱和的公式;2.Leaky ReLU是为解决“ReLU死亡”问题的尝试

**缺点：**1.有些研究者的论文指出这个激活函数表现很不错，但是其效果并不是很稳定

Kaiming He等人在2015年发布的论文Delving Deep into Rectifiers中介绍了一种新方法PReLU，把负区间上的斜率当做每个神经元中的一个参数。然而该激活函数在在不同任务中均有益处的一致性并没有特别清晰。

ELU

指数线性单元（Exponential Linear Units, ELU） ELU的公式为：

ELU.png 函数曲线如下：

Maxout

Maxout是对ReLU和leaky ReLU的一般化归纳

**优点：**1.拥有ReLU单元的所有优点（线性操作和不饱和），而没有它的缺点（死亡的ReLU单元）

**缺点：1.**每个神经元的参数数量增加了一倍，这就导致整体参数的数量激增。难训练,容易过拟合

怎么用激活函数

“那么该用那种呢？”用ReLU非线性函数。注意设置好学习率，(如果学习率设置得太高，可能会发现网络中40%的神经元都会死掉（在整个训练集中这些神经元都不会被激活）。通过合理设置学习率，这种情况的发生概率会降低。),_解决方案：_或许可以监控你的网络中死亡的神经元占的比例。如果单元死亡问题困扰你，就试试Leaky ReLU或者Maxout，不要再用sigmoid了。也可以试试tanh，但是其效果应该不如ReLU或者Maxout。

神经网络中的偏置有什么意义？

最基础的神经元感知器如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vEC0xkPO-1678155273995)(https://pic4.zhimg.com/602ceee97d817007fdf4eebb58082eeb_b.png)]

这个例子中输入为x1,x2,x3x_1, x_2, x_3x1,x2,x3x_1, x_2, x_3 三个变量, 输出为0或1. 当三个变量的加权和∑iwixi\sum_i w_ix_i∑iwixi\sum_i w_ix_i大于某个阈值的时候, 输出为1, 反之为0.

$output = \left{ \begin{array}{ll} 0 & \textrm{if $\sum_iw_ix_i < $threshold }\ 1 & \textrm{if $\sum_iw_ix_i \geq KaTeX parse error: Expected 'EOF', got '}' at position 11: threshold }̲ \end{array} \r… output = \left\{ \begin{array}{ll} 0 & \textrm{if $\sum_iw_ix_i < $threshold }\\ 1 & \textrm{if $\sum_iw_ix_i \geq $threshold } \end{array} \right.

注意这里的阈值, 它度量了神经元产生正(负)激励的难易程度.也就是说，在上文的模型中, 阈值越大, 产生正激励的难度越大.

而为了更好的计算和表达，我们可以把其中的b和 ∑iwixi\sum_i w_ix_i∑iwixi\sum_i w_ix_i 移到同一边，同时给他取了一个不错的名字，叫做偏置Bias，而w叫做权重weight！

$output = \left{ \begin{array}{ll} 0 & \textrm{if ∑iwixi+b<0\sum_iw_ix_i +b< 0∑iwixi+b<0}\ 1 & \textrm{if ∑iwixi+b≥0\sum_iw_ix_i +b\geq 0∑iwixi+b≥0 } \end{array} \right.$ output = \left\{ \begin{array}{ll} 0 & \textrm{if sum_iw_ix_i+b<0\\sum\_iw\_ix\_i +b< 0sum_iw_ix_i+b<0}\\ 1 & \textrm{if sum_iw_ix_i+bgeq0\\sum\_iw\_ix\_i +b\\geq 0sum_iw_ix_i+bgeq0 } \end{array} \right.

也就是说： 偏置的大小度量了神经元产生正(负)激励的难易程度.

这是最简单的感知器神经元. 而现代神经网络中常用的Sigmoid, tanh或是ReLU都是在w⋅x+b\textbf{w} \cdot \textbf{x} + bw⋅x+b\textbf{w} \cdot \textbf{x} + b的基础上加上一个激活函数, Bias也就是b的意义是一样的。

同时对于偏置需要注意的点是：**偏置是不需要正则化的，并且正则化偏置的话会导致欠拟合。**我们从意义上去理解话，若对偏置正则化（惩罚），会导致激活变得更加简单，偏差就会上升，学习的能力就会下降！

初始化神经网络的参数可以全为0吗，其他普通线性分类器呢？

在讲初始化前，先简单复习下反向传播算法可表示为以下几个步骤：

进行前馈传导计算，利用前向传导公式，得到 L2,L3L_{2},L_{3}L2,L3L_{2},L_{3} ，直到输出层 LnlL_{nl}LnlL_{nl} 的激活值。
对输出层（第 nlnlnlnl 层），计算：

3. 对于 l=nl−1,nl−2,nl−3,...,2l=nl-1,nl-2,nl-3,...,2l=nl−1,nl−2,nl−3,...,2l=nl-1,nl-2,nl-3,…,2 的各层，计算：

4. 计算最终需要的偏导数值：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qq0p6Vts-1678155273996)(https://pic1.zhimg.com/v2-3019483d69a9cb3ba4cdf5a523b6bea4_b.jpg)]

5. 对 ffff 举个例子，若表示sigmoid函数，就可以计算得到

从上往下，其中_y代表正确label，_ anla^{nl}anla^{nl} 代表最后一层的输出， znlz^{nl}znlz^{nl} 表达的是最后一层的加权求和值， ffff 代表的是激活函数，δ代表的是要反向传播回去的误差， llll 代表第l层，w，b表示权重和偏置。

我们前面说过：线性分类器逻辑回归模型可以算作为一个简单的单层神经网络。为了更好的说明问题，假设一个场景，在十类分类的数字手写识别中，我们将本来二分类的逻辑回归推到多分类的_softmax，也就是说，神经元的激活函数是softmax。也就是下图，然后分析：_

输入层（不算是一层）：28×28=784个输入单元。也就是n=784
输出层：10个输出单元, 激活函数为_softmax，也就是m=10_
它由两组参数组成: _W_和b, 前者是一个10×784维的权值矩阵, 后者是长度为10的bias 列向量.现在我们假设把它们全部初始化为0：
第一次正向计算过程中, 简单算出，输出层的所有输出为0.5.
反向时,根据前面复习的反向传播算法，首先计算_δ，假如 yiy^{i}yiy^{i} =1, 即输入_x_对应的数字为_i, 那么除了第_i_个神经元的_δ是不同的，其他的值都是一样_, 又于计算权重w梯度的公式得知，注意此时的 ala^{l}ala^{l} 就是输入值x，又由于输入向量_x_的元素之间的不同, 所以即使_δ是一样的，但_最终得到的10个梯度值有很大概率是不同且非0的, 所以第一次BP过程可以取得成效并将一些_w_和所有的_b_变成非0值.
由于w值已经变得不相同了，这个时候前向传播和后向传播也就会正常的进行, 后面的训练显然也可以顺利进行.

得出结论，没有隐层时, 可以将所有的参数初始化为0.

如果有隐层呢?假如还是用sigmoid激活函数呢。来个更简单MLP，

第一次正向计算过程中, 简单算出，输出层的所有输出为神经元4,5,6输出的值（初始化w，b为0,激活函数是sigmoid）都是一样的，都是0.5
第一个反向传播过程，由权重的更新公式，算出即 W6,4,W6,5W_{6,4},W_{6,5}W6,4,W6,5W_{6,4},W_{6,5} (神经元6和4,5之间的权重)是一样的，同样算出 W4,1,W4,2,W4,3,W5,1,W5,2,W5,3W_{4,1},W_{4,2},W_{4,3},W_{5,1},W_{5,2},W_{5,3}W4,1,W4,2,W4,3,W5,1,W5,2,W5,3W_{4,1},W_{4,2},W_{4,3},W_{5,1},W_{5,2},W_{5,3} 都一样，但非0,由sgd算法赋值。
然后第二次正向时，算出神经元4,5的输出一样（因为4,5都是接受1,2,3神经元的输入，且权重相同），但和神经元6的输出不一样。
然后第二次反向时，根据公式，得出 W4,1,W5,1一样，W4,2,W5,2一样，W4,3,W5,3W_{4,1},W_{5,1}一样，W_{4,2},W_{5,2}一样，W_{4,3},W_{5,3}W4,1,W5,1一样，W4,2,W5,2一样，W4,3,W5,3W_{4,1},W_{5,1}一样，W_{4,2},W_{5,2}一样，W_{4,3},W_{5,3} 一样。原因在于计算 W4,1,W5,1W_{4,1},W_{5,1}W4,1,W5,1W_{4,1},W_{5,1} 用的是一样的输出，这个也可以从公式得出！
最后结论，一直循环，发现学习得到的模型中, 所有的隐单元都是相同的（在这里就是神经元4,5永远 W4,1,W5,1一样，W4,2,W5,2一样，W4,3,W5,3W_{4,1},W_{5,1}一样，W_{4,2},W_{5,2}一样，W_{4,3},W_{5,3}W4,1,W5,1一样，W4,2,W5,2一样，W4,3,W5,3W_{4,1},W_{5,1}一样，W_{4,2},W_{5,2}一样，W_{4,3},W_{5,3} 一样）. 学习失败.

对于隐层使用了其他函数比如ReLU: f(net)=max(0,_net)_其结果也是一样的: 除了输入层的输出值为_x_本身, 不为0, 其余的所有层的输出都为0. BP时所有梯度也都为0, 包括输出层. 这意味着所有的非输入神经元都是无意义的. 学习失败.对于卷积神经网络，循环神经网络也是一样的，故一般会用其他初始化方式。

最后最后的结论是, 一般只在训练SLP/逻辑回归模型时才使用0初始化所有参数., 更实用的结论是, 深度模型都不会使用0初始化所有参数.