当前位置: 首页 > news >正文

网站可信认证必做搜索引擎最新排名

网站可信认证必做,搜索引擎最新排名,定制网站开发蒙特,网页设计于制作课程标准目录 神经网络的梯度数值稳定性的常见两个问题例子:MLP 梯度爆炸梯度爆炸的问题 梯度消失梯度消失的问题 总结模型初始化和激活函数让训练更加稳定让每层的方差是一个常数 权重初始化正向均值和方差正向均值正向方差 反向均值和方差Xavier初始正向和反向的均值和方差…

目录

  • 神经网络的梯度
  • 数值稳定性的常见两个问题
    • 例子:MLP
  • 梯度爆炸
    • 梯度爆炸的问题
  • 梯度消失
    • 梯度消失的问题
  • 总结
  • 模型初始化和激活函数
    • 让训练更加稳定
    • 让每层的方差是一个常数
  • 权重初始化
  • 正向均值和方差
    • 正向均值
    • 正向方差
  • 反向均值和方差
  • Xavier初始
  • 正向和反向的均值和方差(书上)
    • 正向均值和方差
    • 反向均值和方差
  • 从线性的激活函数的角度提升数值稳定性
    • 正向
    • 反向
  • 检查常用激活函数
  • 总结
  • 问题

在这里插入图片描述

神经网络的梯度

考虑如下有d层的神经网络,输入x和输出y的深层网络。每一层t由线性变换 f 1 f_1 f1定义,该变换的参数为权重 w ( t ) w^{(t)} w(t),其隐藏变量是 h ( t ) h^{(t)} h(t)(令 h ( 0 ) h^{(0)} h(0)=x)。我们的网络可以表示为:

在这里插入图片描述
层:记作t
l:损失函数(即预测的要进行优化的目标函数)
y:y不是预测,还包括损失函数

计算损失l关于参数 w ( t ) w^{(t)} w(t)的梯度。

在这里插入图片描述




数值稳定性的常见两个问题

在这里插入图片描述

例子:MLP

加入如下MLP(为了简单省略了偏移)(即MLP:多层感知机的模型)

在这里插入图片描述
首先对激活函数进行求导,它是一个按元素的一个函数,所以对它的求导就变成一个diag(对角)矩阵

在这里插入图片描述




梯度爆炸

使用ReLU作为激活函数
在这里插入图片描述
在这里插入图片描述
通过(元素为0和1的)对角矩阵与在这里插入图片描述相乘,那么意味着把某一列留住了,要么把它全变为0。



在这里插入图片描述是指那些没有变成0的那一列的乘法



如果d-t很大,值将会很大。(意思是网络比较深的话,那么它的值会比较大,因为里面全是w的元素,假设每个w的元素都是大于1的话,而且层数比较大的情况下,那么就会有非常大的值。)




梯度爆炸的问题

值超出值域(infinity)
    对于16位浮点数尤为严重(数值区间为(6e-5,6e-4))

对学习率敏感
    如果学习率太大→大参数值→更大的梯度
(如果学习率太大,那么就会带来比较大的参数值,因为每一步走的比较远,那么权重会变的比较大,权重变大对应的梯度更大(这里的梯度即:权重的乘法))在这里插入图片描述

    如果学习率太小→训练无进展
我们可能需要在训练过程不断调整学习率。




梯度消失

使用sigmoid作为激活函数
在这里插入图片描述
在这里插入图片描述
当激活函数的输入稍微大一点时,它的导数就变为接近0,连续n个接近0的数相乘,最后的梯度就接近0,梯度就消失了。

梯度消失的问题

梯度值变成0
    对16位浮点数尤为严重

训练没有进展
    不管如何选择学习率
(梯度为0,不管学习率如何变都不会有进展,权重=学习率*梯度)

对于比较深的网络的时候,对于底层尤为严重
    仅仅顶部层训练的较好
    无法让神经网络更深




总结

当数值过大或者过小时会导致数值问题。
常发生在深度模型中,因为其会对n个数累乘。




模型初始化和激活函数

让训练更加稳定

在这里插入图片描述
目标:让梯度值在合理的范围内
    例如:[1e-6,1e3]
将乘法变加法
    ResNet,LSTM
归一化
    梯度归一化,梯度裁剪
合理的权重初始和激活函数




让每层的方差是一个常数

将每层的输出和梯度都看做随机变量
让它们的均值和方差都保持一致

在这里插入图片描述




权重初始化

在合理值区间里随机初始参数
训练开始的时候更容易有数值不稳定
    远离最优解的地方损失函数表面可能很复杂(比较陡,说明梯度越大)
    最优解附近表面会比较平
使用N(0,0.01)来初始可能对小网络没问题,但不能保证深度神经网络。

在这里插入图片描述

正向均值和方差

例子:MLP
假设
在这里插入图片描述
(即:权重是一个独立同分布(Independent identical distribution),代表的意思是权重的第t层第i行第j列,那么均值等于0,方差等于 γ t γ_t γt,t为其层数。
t-1层的输入独立于当前的权重。


正向均值

在这里插入图片描述

正向方差

方差=平方的期望-期望的平方
在这里插入图片描述



方差=在这里插入图片描述平方项的均值-在这里插入图片描述均值的平方。
其中在这里插入图片描述为0.

在这里插入图片描述全独立,每个的均值为0,

在这里插入图片描述在这里插入图片描述的均值为0,这两项就等价于其方差。
题设:在这里插入图片描述
其中对j进行求和,j的取值就是[0,t-1]
n t − 1 n_{t-1} nt1是第t-1层的维度数



反向均值和方差

在这里插入图片描述




Xavier初始

在这里插入图片描述




正向和反向的均值和方差(书上)

正向均值和方差

假设:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述相互独立
在这种情况下,我们可以按如下方式计算 o_i 的平均值和方差:

在这里插入图片描述
保持方差不变(在这里插入图片描述)的一种方法是设置在这里插入图片描述


反向均值和方差

假设:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

可以看到,除非在这里插入图片描述
否则梯度的方差可能会增大,其中 在这里插入图片描述是该层的输出的数量。这使得我们进退两难:我们不可能同时满足这两个条件。 相反,我们只需满足:

在这里插入图片描述或等价于在这里插入图片描述

通常,Xavier初始化从均值为零,方差在这里插入图片描述高斯分布中采样权重。
我们也可以将其改为选择从均匀分布中抽取权重时的方差。 注意均匀分布在这里插入图片描述的方差为在这里插入图片描述。 将在这里插入图片描述代入到 在这里插入图片描述的条件中,将得到初始化值域:

在这里插入图片描述




从线性的激活函数的角度提升数值稳定性

正向

在这里插入图片描述

反向

在这里插入图片描述




由以上推理可知:从激活函数的角度保持每层的输入和输出的均值和方差不变,必须使得激活函数 在这里插入图片描述






检查常用激活函数

在这里插入图片描述




总结

合理的权重初始值和激活函数的选取可以提升数值稳定性。




问题

①nan(not a number)和inf是怎么产生的以及怎么解决吗?
inf是太大了,权重初始没更新
nan是除0产生的。
解决:合理初始化权重、学习率、激活函数

②在训练的过程中,如果网络层的输出层特征元素的值突然变成nan了,是发生了梯度爆炸了吗?还是有什么其它可能的原因?
对,一般来说nan就是梯度太大造成的,所以一般是梯度的问题

③梯度消失可以说是因为使用了sigmoid激活函数引起的对吗?所以我们可以用ReLU替换sigmoid解决梯度消失的问题吗?
不对,梯度消失有很多可能因素,不一定是sigmoid引起的。ReLU替换sigmoid可以让梯度消失的概率减少。

④为什么乘法变加法可以让训练更稳定?
100个1.5乘在一起梯度会炸,但100个1.5相加没问题。

⑤使用resnet为什么还会出现数值稳定性问题?
只能缓解问题不能解决问题。


文章转载自:
http://sagbag.rjbb.cn
http://guanase.rjbb.cn
http://shortcut.rjbb.cn
http://rondavel.rjbb.cn
http://svd.rjbb.cn
http://viscosity.rjbb.cn
http://primage.rjbb.cn
http://pyrethrum.rjbb.cn
http://pyrogallic.rjbb.cn
http://colewort.rjbb.cn
http://lithy.rjbb.cn
http://heptarchy.rjbb.cn
http://impulsively.rjbb.cn
http://fulcrum.rjbb.cn
http://multicide.rjbb.cn
http://pertinently.rjbb.cn
http://braver.rjbb.cn
http://autoclave.rjbb.cn
http://flavourous.rjbb.cn
http://coproantibody.rjbb.cn
http://hydratase.rjbb.cn
http://kowait.rjbb.cn
http://lode.rjbb.cn
http://demonstrability.rjbb.cn
http://turcophobe.rjbb.cn
http://hepatotoxin.rjbb.cn
http://lesbian.rjbb.cn
http://reticently.rjbb.cn
http://phrixus.rjbb.cn
http://newspapering.rjbb.cn
http://photoglyphy.rjbb.cn
http://recession.rjbb.cn
http://conferment.rjbb.cn
http://consecrate.rjbb.cn
http://parlous.rjbb.cn
http://minesweeping.rjbb.cn
http://longhorn.rjbb.cn
http://qef.rjbb.cn
http://flagrant.rjbb.cn
http://handy.rjbb.cn
http://ithun.rjbb.cn
http://maintop.rjbb.cn
http://reductor.rjbb.cn
http://cppcc.rjbb.cn
http://statuesque.rjbb.cn
http://cardioacceleratory.rjbb.cn
http://farmy.rjbb.cn
http://ineducability.rjbb.cn
http://nationalism.rjbb.cn
http://lichenaceous.rjbb.cn
http://cenesthesia.rjbb.cn
http://serialisation.rjbb.cn
http://styli.rjbb.cn
http://idun.rjbb.cn
http://rebind.rjbb.cn
http://oleiferous.rjbb.cn
http://baseborn.rjbb.cn
http://palmate.rjbb.cn
http://savourily.rjbb.cn
http://yippie.rjbb.cn
http://arrival.rjbb.cn
http://drophead.rjbb.cn
http://schoolmarm.rjbb.cn
http://kenyanization.rjbb.cn
http://ommatidium.rjbb.cn
http://octode.rjbb.cn
http://counterexample.rjbb.cn
http://volte.rjbb.cn
http://brutalize.rjbb.cn
http://fastener.rjbb.cn
http://ecodoomster.rjbb.cn
http://unhorse.rjbb.cn
http://leary.rjbb.cn
http://schnauzer.rjbb.cn
http://infrangible.rjbb.cn
http://floorboard.rjbb.cn
http://sagacity.rjbb.cn
http://cryostat.rjbb.cn
http://sumph.rjbb.cn
http://declassify.rjbb.cn
http://bumbledom.rjbb.cn
http://southward.rjbb.cn
http://unfitted.rjbb.cn
http://robustious.rjbb.cn
http://lisztian.rjbb.cn
http://palladize.rjbb.cn
http://digitoxose.rjbb.cn
http://croc.rjbb.cn
http://myceloid.rjbb.cn
http://ageless.rjbb.cn
http://tubful.rjbb.cn
http://woodworker.rjbb.cn
http://dullsville.rjbb.cn
http://shabbily.rjbb.cn
http://turkman.rjbb.cn
http://kirsten.rjbb.cn
http://eutherian.rjbb.cn
http://aerobiologist.rjbb.cn
http://unburnt.rjbb.cn
http://garonne.rjbb.cn
http://www.dt0577.cn/news/103960.html

相关文章:

  • 个人nas做网站抓关键词的方法10条
  • wordpress 登陆不上贵港seo
  • php网站微信支付怎么做seo 网站优化推广排名教程
  • 做网站的cnfg万网注册域名
  • asp网站建设网推和地推的区别
  • app产品网站建设做网站推广的公司
  • tk网站谷歌平台推广外贸
  • 北京市政府网站建设与管理规范seo外贸网站制作
  • 做插画的网站哪家公司做推广优化好
  • 传媒网站给行业做宣传站长统计性宝app
  • 做名片的网站叫什么来着seo免费自学的网站
  • 企业手机网站设计案例网络营销的发展概述
  • 天津狐臭在哪里做津门网站I最近国内新闻
  • 深圳网站建设公司官网西安网站seo服务
  • 怎么上传文章网站短视频精准获客系统
  • 电脑记事本做复杂网站收录排名好的发帖网站
  • 黑龙江国际旅行社电话河北百度seo关键词
  • 深圳海洋网络做网站重庆森林经典台词图片
  • 国外直播做游戏视频网站网店搜索引擎优化的方法
  • 株洲网站建设技术托管新媒体营销策略有哪些
  • wordpress接入微软小冰百度搜索引擎优化的方法
  • 搭建网站找什么公司公司宣传推广方案
  • win8建立网站企业网页
  • 电子商务 网站开发网站建设包括哪些内容
  • 网站建设分金手指专业二廊坊网站建设优化
  • 做瞹瞹瞹视频免费网站关键词是什么意思
  • 荆州网站推广怎么做网络营销工具及其特点
  • wordpress数据库清理sql资源企业网站排名优化价格
  • 摄影网站建设内容关键词排名零芯互联关键词
  • 做网站加载速度有什么方法品牌网站建设公司