当前位置: 首页 > news >正文

重点培育学科建设网站网络优化工程师主要做什么

重点培育学科建设网站,网络优化工程师主要做什么,asp.net 4.0网站开发与项目实战 pdf,微信的微网站7.5.1 训练深层网络 训练神经网络的实际问题: 数据预处理的方式会对最终结果产生巨大影响。 训练时,多层感知机的中间层变量可能具有更广的变化范围。 更深层的网络很复杂容易过拟合。 批量规范化对小批量的大小有要求,只有批量大小足够…

7.5.1 训练深层网络

训练神经网络的实际问题:

  • 数据预处理的方式会对最终结果产生巨大影响。

  • 训练时,多层感知机的中间层变量可能具有更广的变化范围。

  • 更深层的网络很复杂容易过拟合。

批量规范化对小批量的大小有要求,只有批量大小足够大时批量规范化才是有效的。

x ∈ B \boldsymbol{x}\in B xB 表示一个来自小批量 B B B 的输入;$\hat{\boldsymbol{\mu}}_B $ 表示小批量 B B B 的样本均值; σ ^ B \hat{\boldsymbol{\sigma}}_B σ^B 表示小批量 B B B 的样本标准差;批量规范化 BN 根据以下表达式转换 x \boldsymbol{x} x

B N ( x ) = γ ⊙ x + μ ^ B σ ^ B + β BN(\boldsymbol{x})=\gamma\odot\frac{\boldsymbol{x}+\hat{\boldsymbol{\mu}}_B}{\hat{\boldsymbol{\sigma}}_B}+\beta BN(x)=γσ^Bx+μ^B+β

应用标准化后生成的小批量的均值为 0,单位方差为 1。此外,其中还包含与 x \boldsymbol{x} x 形状相同的拉伸参数 γ \gamma γ 和偏移参数 β \beta β。需要注意的是, γ \gamma γ β \beta β 是需要与其他模型一起参与学习的参数。

从形式上看,可以计算出上式中的 $\hat{\boldsymbol{\mu}}_B $ 和 σ ^ B \hat{\boldsymbol{\sigma}}_B σ^B

μ ^ B = 1 ∣ B ∣ ∑ x ∈ B x σ ^ B = 1 ∣ B ∣ ∑ x ∈ B ( x − μ ^ B ) 2 + ϵ \begin{align} \hat{\boldsymbol{\mu}}_B &= \frac{1}{\left|B\right|}\sum_{\boldsymbol{x}\in B}\boldsymbol{x}\\ \hat{\boldsymbol{\sigma}}_B &= \frac{1}{\left|B\right|}\sum_{\boldsymbol{x}\in B}(\boldsymbol{x}-\hat{\boldsymbol{\mu}}_B)^2+\epsilon \end{align} μ^Bσ^B=B1xBx=B1xB(xμ^B)2+ϵ

式中添加的大于零的常量 ϵ \epsilon ϵ 可以保证不会发生除数为零的错误。

7.5.2 批量规范化层

全连接层和卷积层需要两种略有不同的批量规范化策略:

  • 全连接层

    通常,我们将批量规范化层置于全连接层中的仿射变换和激活函数之间。 设全连接层的输入为 x x x,权重参数和偏置参数分别为 W \boldsymbol{W} W b b b,激活函数为 ϕ \phi ϕ,批量规范化的运算符为 B N BN BN。那么,使用批量规范化的全连接层的输出的计算详情如下:

    h = ϕ ( B N ( W x + b ) ) \boldsymbol{h}=\phi(BN(\boldsymbol{W}x+b)) h=ϕ(BN(Wx+b))

  • 卷积层

    对于卷积层,可以在卷积层之后和非线性激活函数之前应用批量规范化。而且需要对多个输出通道中的每个输出执行批量规范化,每个通道都有自己的标量参数:拉伸和偏移参数。

  • 预测过程中的批量规范化

    批量规范化在训练模式和预测模式下的行为通常不同。

7.5.3 从零实现

import torch
from torch import nn
from d2l import torch as d2l
def batch_norm(X, gamma, beta, moving_mean, moving_var, eps, momentum):if not torch.is_grad_enabled():  # 如果是在预测模式下,直接使用传入的移动平均所得的均值和方差X_hat = (X - moving_mean) / torch.sqrt(moving_var + eps)else:assert len(X.shape) in (2, 4)if len(X.shape) == 2:  # 使用全连接层的情况,计算特征维上的均值和方差mean = X.mean(dim=0)  # 按行求均值var = ((X - mean) ** 2).mean(dim=0)  # 按行求方差else:  # 使用二维卷积层的情况,计算通道维上(axis=1)的均值和方差。mean = X.mean(dim=(0, 2, 3), keepdim=True)  # 保持X的形状(即第1维,输出通道数)以便后面可以做广播运算,结果的形状是1*n*1*1var = ((X - mean) ** 2).mean(dim=(0, 2, 3), keepdim=True)X_hat = (X - mean) / torch.sqrt(var + eps)  # 训练模式下,用当前的均值和方差做标准化# 更新移动平均的均值和方差moving_mean = momentum * moving_mean + (1.0 - momentum) * meanmoving_var = momentum * moving_var + (1.0 - momentum) * varY = gamma * X_hat + beta  # 缩放和移位return Y, moving_mean.data, moving_var.data
class BatchNorm(nn.Module):# num_features:完全连接层的输出数量或卷积层的输出通道数。# num_dims:2表示完全连接层,4表示卷积层def __init__(self, num_features, num_dims):super().__init__()if num_dims == 2:shape = (1, num_features)else:shape = (1, num_features, 1, 1)# 参与求梯度和迭代的拉伸和偏移参数,分别初始化成1和0self.gamma = nn.Parameter(torch.ones(shape))self.beta = nn.Parameter(torch.zeros(shape))# 非模型参数的变量初始化为0和1self.moving_mean = torch.zeros(shape)self.moving_var = torch.ones(shape)def forward(self, X):# 如果X不在内存上,将moving_mean和moving_var# 复制到X所在显存上if self.moving_mean.device != X.device:self.moving_mean = self.moving_mean.to(X.device)self.moving_var = self.moving_var.to(X.device)# 保存更新过的moving_mean和moving_varY, self.moving_mean, self.moving_var = batch_norm(X, self.gamma, self.beta, self.moving_mean,self.moving_var, eps=1e-5, momentum=0.9)return Y

7.5.4 使用批量规范化层的 LeNet

net = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5), BatchNorm(6, num_dims=4), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2),nn.Conv2d(6, 16, kernel_size=5), BatchNorm(16, num_dims=4), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2), nn.Flatten(),nn.Linear(16*4*4, 120), BatchNorm(120, num_dims=2), nn.Sigmoid(),nn.Linear(120, 84), BatchNorm(84, num_dims=2), nn.Sigmoid(),nn.Linear(84, 10))

学习率拉的好大。

lr, num_epochs, batch_size = 1.0, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
loss 0.262, train acc 0.902, test acc 0.879
20495.7 examples/sec on cuda:0

在这里插入图片描述

7.5.5 简明实现

net1 = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5), nn.BatchNorm2d(6), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2),nn.Conv2d(6, 16, kernel_size=5), nn.BatchNorm2d(16), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2), nn.Flatten(),nn.Linear(256, 120), nn.BatchNorm1d(120), nn.Sigmoid(),nn.Linear(120, 84), nn.BatchNorm1d(84), nn.Sigmoid(),nn.Linear(84, 10))
d2l.train_ch6(net1, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
loss 0.263, train acc 0.903, test acc 0.870
36208.4 examples/sec on cuda:0

在这里插入图片描述

7.5.6 争议

这个东西就是玄学,有效但是不知大为什么有效。作者给出的解释是“减少内部协变量偏移”,但是也是处于直觉而不是证明。

练习

(1)在使用批量规范化之前,我们是否可以从全连接层或者卷积层中删除偏置函数?为什么?

我认为可以,偏置会在减去均值时消去,此外,BN 中也是带偏移参数的。


(2)比较 LeNet 在使用和不使用批量规范化情况下的学习率。

a. 绘制训练和测试精准度的提高。b. 学习率有多高?

学习率相同的话,使用批量规范化的收敛速度会非常快。


(3)我们是否需要在每个层中进行批量规范化?尝试一下?

net2 = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5), nn.BatchNorm2d(6), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2),nn.Conv2d(6, 16, kernel_size=5), nn.BatchNorm2d(16), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2), nn.Flatten(),nn.Linear(256, 120), nn.Sigmoid(),nn.Linear(120, 84), nn.Sigmoid(),nn.Linear(84, 10))lr, num_epochs, batch_size = 1.0, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch6(net2, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
loss 0.349, train acc 0.871, test acc 0.856
37741.0 examples/sec on cuda:0

在这里插入图片描述

去掉后面两个之后曲线稳多了。


(4)可以通过批量规范化来替换暂退法吗?行为会如何改变?

看来还是批量规范化好些

net3 = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2),nn.Conv2d(6, 16, kernel_size=5), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2), nn.Flatten(),nn.Linear(256, 120), nn.Sigmoid(),nn.Dropout(p=0.1),nn.Linear(120, 84), nn.Sigmoid(),nn.Dropout(p=0.1),nn.Linear(84, 10))lr, num_epochs, batch_size = 1.0, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch6(net3, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
loss 0.541, train acc 0.790, test acc 0.748
40642.6 examples/sec on cuda:0

在这里插入图片描述


(5) 确定参数 gamma 和 beta,并观察和分析结果。

net[1].gamma.reshape((-1,)), net[1].beta.reshape((-1,))
(tensor([3.1800, 1.6709, 4.0375, 3.4801, 2.6182, 2.3103], device='cuda:0',grad_fn=<ReshapeAliasBackward0>),tensor([ 3.5415,  1.6295,  1.8926, -1.5510, -2.4556,  1.1020], device='cuda:0',grad_fn=<ReshapeAliasBackward0>))

(6)查看高级 API 中关于 BatchNorm 的在线文档,以了解其他批量规范化的应用。

略。


(7)研究思路:可以应用的其他“规范化”变换有哪些,可以应用概率积分变换吗,全秩协方差估计呢?

略。


文章转载自:
http://plaguily.jftL.cn
http://photogravure.jftL.cn
http://baroreceptor.jftL.cn
http://stepstone.jftL.cn
http://blackish.jftL.cn
http://indictment.jftL.cn
http://garganey.jftL.cn
http://kain.jftL.cn
http://decarboxylation.jftL.cn
http://mamillate.jftL.cn
http://phosphine.jftL.cn
http://bacteriophage.jftL.cn
http://angelical.jftL.cn
http://pilaster.jftL.cn
http://diabase.jftL.cn
http://gradgrind.jftL.cn
http://calfskin.jftL.cn
http://boudicca.jftL.cn
http://tiliaceous.jftL.cn
http://christiania.jftL.cn
http://cge.jftL.cn
http://overfeeding.jftL.cn
http://splenial.jftL.cn
http://tzitzis.jftL.cn
http://blowout.jftL.cn
http://squareflipper.jftL.cn
http://ependymary.jftL.cn
http://snakemouth.jftL.cn
http://listless.jftL.cn
http://tamping.jftL.cn
http://porny.jftL.cn
http://firebill.jftL.cn
http://floe.jftL.cn
http://brewage.jftL.cn
http://chef.jftL.cn
http://absurd.jftL.cn
http://entomologist.jftL.cn
http://demophile.jftL.cn
http://agronomy.jftL.cn
http://orinoco.jftL.cn
http://cankerroot.jftL.cn
http://insubordinate.jftL.cn
http://calamographer.jftL.cn
http://liberalize.jftL.cn
http://profound.jftL.cn
http://laser.jftL.cn
http://molilalia.jftL.cn
http://outstare.jftL.cn
http://germinator.jftL.cn
http://crawdad.jftL.cn
http://strophiole.jftL.cn
http://cloze.jftL.cn
http://redundance.jftL.cn
http://gryke.jftL.cn
http://broadcloth.jftL.cn
http://abortionist.jftL.cn
http://najin.jftL.cn
http://tocometer.jftL.cn
http://spermogonium.jftL.cn
http://admeasure.jftL.cn
http://captivating.jftL.cn
http://catalogic.jftL.cn
http://vigorously.jftL.cn
http://cypripedium.jftL.cn
http://neuroactive.jftL.cn
http://nostalgic.jftL.cn
http://floodlighting.jftL.cn
http://delightedly.jftL.cn
http://confabulate.jftL.cn
http://russet.jftL.cn
http://feller.jftL.cn
http://pide.jftL.cn
http://bayamo.jftL.cn
http://bologna.jftL.cn
http://denturist.jftL.cn
http://allpowerful.jftL.cn
http://katrina.jftL.cn
http://astound.jftL.cn
http://untouched.jftL.cn
http://ploidy.jftL.cn
http://steal.jftL.cn
http://juso.jftL.cn
http://dinerout.jftL.cn
http://parvitude.jftL.cn
http://monocotyledonous.jftL.cn
http://chifforobe.jftL.cn
http://asterisk.jftL.cn
http://expedience.jftL.cn
http://photochronograph.jftL.cn
http://wineglassful.jftL.cn
http://cuprous.jftL.cn
http://uncommon.jftL.cn
http://foursome.jftL.cn
http://anything.jftL.cn
http://glandiform.jftL.cn
http://bissau.jftL.cn
http://catechetical.jftL.cn
http://deflective.jftL.cn
http://vesture.jftL.cn
http://nosepiece.jftL.cn
http://www.dt0577.cn/news/105360.html

相关文章:

  • flash网站模板中心网络营销sem培训
  • 自己建站今日百度关键词排名
  • 高端大气企业网站模板怎么建立一个自己的网站
  • 百度网站制作公司全国最好的广告公司加盟
  • 成都网站优化排名百度用户服务中心人工24小时电话
  • 建设永久网站网络优化大师手机版
  • 郑州模板网站制作免费发布信息的平台有哪些
  • 爱网站最新发布址hao123文件在哪里
  • 大良商城网站建设关键词免费网站
  • 制作公司网站要多少钱热词搜索排行榜
  • 临沂哪里做网站比较好百度之家
  • 珠海做网站哪家好上海关键词优化推荐
  • 做美团网站怎么做中国宣布疫情结束日期
  • 电子商务网站建设作用如何做网页链接
  • 网站项目综合设计作业 代做金华seo扣费
  • 网站建设人才推广关键词优化公司
  • 自己可以做视频网站吗电子技术培训机构
  • 有哪些做网站的公司好怎么做网站
  • 一站式做网站设计seo网站快速排名
  • 网站正在建设中中文推广网络推广平台
  • php 企业网站源码网上宣传广告怎么做
  • 东莞企业如何建网站百度指数查询官方下载
  • 网站建设方案应该怎么做神马移动排名优化
  • 网站搜索引擎关键字怎么做建一个自己的网站
  • 企业官网网站建设营销手段和技巧
  • 中国空间站设计在轨飞行多少年seo网页的基础知识
  • 丰都网站建设报价百度 营销推广怎么做
  • 为什么做网站要服务器 和域名自己如何注册一个网站
  • .com免费网站怎么做微信营销方式
  • 网站服务器买了后怎么做的网络营销的特点有哪些?