当前位置: 首页 > news >正文

怎样在各大网站发布信息今日军事新闻最新消息新闻报道

怎样在各大网站发布信息,今日军事新闻最新消息新闻报道,建造官网,免费b2b网站大全在线1. 整体概述 2. Encoder 2.1 Embedding 2.2 位置编码 2.2.1 为什么需要位置编码 2.2.2 位置编码公式 2.2.3 为什么位置编码可行 2.3 注意力机制 2.3.1 基本注意力机制 2.3.2 在Trm中是如何操作的 2.3.3 多头注意力机制 2.4 残差网络 2.5 Batch Normal & Layer Narmal 2.…

1. 整体概述

2. Encoder

        2.1 Embedding

        2.2 位置编码

                2.2.1 为什么需要位置编码

                2.2.2 位置编码公式

                2.2.3 为什么位置编码可行

        2.3 注意力机制

        2.3.1 基本注意力机制

        2.3.2 在Trm中是如何操作的

        2.3.3 多头注意力机制

2.4 残差网络

2.5 Batch Normal & Layer Narmal

        2.5.1 Batch Normal

        2.5.2 Layer Normal

3. Decoder

        3.1 Mask

        3.2 交互层


1. 整体概述

        Transformer模型首次提出是在论文Attention is All You Need中。在论文中,Transformer被用来实现机器翻译的工作。相较于RNN难以并行处理信息与CNN窗口短难以处理长序列的缺点,Transformer具有更高的效率与更加优秀的性能。

        总体来看,Transformer由编码器与解码器两部分组成。    

        其中,Encoder与Decoder是可以堆叠N(论文中N=6)层的,这些层结构相同,参数独立。

        论文中的Transformer架构如下,下文将针对各个环节进行解释。

2. Encoder

       Encoder分为三个部分,输入部分、注意力机制与前馈神经网络。将输入送入Embedding(词嵌入层),与位置编码对位相加。之后进行多头注意力机制处理,进入残差网络并将结果进行Layer Normal。之后进入双层全连接网络,并对结果进行残差和正则化处理。

        论文中的Encoder有6层堆叠网络,其中每层有2层子层网络。

2.1 Embedding

       Embedding可以看作是一个查找表,用来获取每个单词的学习向量表示。神经网络通过数字进行学习,所以将每个单词映射到一个连续值的向量来表示该单词。

2.2 位置编码

        2.2.1 为什么需要位置编码

        不同于RNN的按时间线串行处理,Transformer是并行处理的。为了保存序列顺序,引入位置编码。

        2.2.2 位置编码公式

         将Embedding与位置编码相加得到的值作为下面环节的输入。

         2.2.3 为什么位置编码可行

           对于一个特定位置的d_{model}维的位置向量,借助三角函数的性质​​

           我们可以得到:

           可以看出,pos+k位置的位置向量的某一维2i2i+1,可以由pos位置与k位置的位置向量的2i2i+1为的线性组合表示。这意味着向量中蕴含了相对位置信息(但该相对位置信息会在注意力机制处消失)。 

2.3 注意力机制

        2.3.1 基本注意力机制

        注意力即关注点。比如给你一张包含婴儿的图片,并提问婴儿在干嘛,此时你对图片中各部分的关注度是不同的,可能对婴儿的脸与手的部分关注度更高,而对图片边缘部分则关注度较低。

        论文中给出的注意力公式如下:

         下面以输入“我不爱你”为例解释公式。如图,阶段1中向量Q与向量K点乘,点乘得到的值可以反映两个向量之间的相似程度。阶段2对阶段1中得到的值做了类softmax的归一化处理。除以$\sqrt{d_k}$可以防止值向两端偏导致梯度消失。阶段3中将阶段2得到的值分别与对应的value值相乘,最后将这些结果相加得到了Attention Value。

         以上是nlp的举例,cv中也类似,图像的分割可类比词的分割。

        2.3.2 在Trm中是如何操作的

        首先,我们需要由单词向量获取$q,k,v$的值。对于词向量X_i,将其分别与W^Q, W^K, W^V相乘(注意这里与所有的词向量相乘的都是同一套$W$参数),可以得到q_i,k_i,v_i。接着,计算$QK$的相似度,得到$Attention$的值。   在实际代码中,通常使用矩阵表示,方便并行。 

         2.3.3 多头注意力机制

        将词向量与不同的W参数相乘,可以得到多组值。亦即将Q,K,V投影到低维h次,做j次注意力函数,合并每个输出得到最终输出。

      类似于CNN里的多通道输出,使得Trm有可学习的参数。   

        MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^O  

where \ head_i = Attention(QW_i^Q,KW_i^K,VW_i^V)

2.4 残差网络

        残差网络将原先的输出F(X)与输入X对位相加。要求输入与输出维度相同,论文中设置维度为512。        

        将上图简化如下:

         根据后向传播的链式法则:\frac{\partial L}{\partial X_{Aout}} = \frac{\partial L}{\partial X_{Din}} \frac{\partial X_{Din}}{\partial X_{Aout}}

        而X_{Din} = X_{Aout}+C(B(X_{Aout}))

        所以\frac{\partial L}{\partial X_{Aout}} = \frac{\partial L}{\partial X_{Din}} (1+\frac{\partial X_{Din}}{\partial X_C}\frac{\partial X_C}{\partial X_B}\frac{\partial X_B}{\partial X_{Aout}})

        连乘容易导致梯度消失,又因为连乘前有“1”在,所以偏导不易为0。因此,使用残差可以得到有效防止梯度消失,从而得到更深的网络。

2.5 Batch Normal & Layer Narmal

        2.5.1 Batch Normal

        针对不同样本的同一维度(特征)进行标准化处理,使得均值为0,方差为1。

         缺点:

        1.当batch\_size较小时,效果差(此时每个batch里的样本的均值和方差无法替代整体)。

        2.在RNN中效果比较差,因为会出现词向量长度不一样的情况。

        2.5.2 Layer Normal

         针对同一样本的不同维度(特征)进行标准化处理,使得均值为0,方差为1。

        $LayerNorm(x+Sublayer(x))$

3. Decoder

       DecoderEncoder的组成模块大体相似,主要的不同在于Mask与交互层。

        论文中的Decoder具有6层堆叠网络,其中每层网络有2个子层,多插入了第三个子层。

         3.1 Mask

        需要Mask的原因:若与Encoder一样没有Mask,则会导致预测结果偏差。因为那样子训练模型的时候后续单词是可见的,但实际预测时,未来的单词是不可知的。因此将后续的单词计入影响是不合适的。

        实现Mask的方法:计算权重时,t时刻之后的值替换为很大的负数,指数变换后为0。

        3.2 交互层

        每个Encoder与所有的Decoder进行交互。k,v来自于Encoder本身,q来自于Decoder。这里相当于Decoder中的每个q去询问每个Encoder输出的量,并与之结合。

         但是在实际代码训练中,一般Encoder生成q,k矩阵,Decoder生成v矩阵加权。   

参考资料:

Vaswani, Ashish, et al. “Attention is All You Need.” Advances in Neural Information Processing Systems (NIPS), 2017.

Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili
Transformer从零详细解读(可能是你见过最通俗易懂的讲解)_哔哩哔哩_bilibili
超强动画,一步一步深入浅出解释Transformer原理!_哔哩哔哩_bilibili


文章转载自:
http://verel.tgcw.cn
http://voluble.tgcw.cn
http://staid.tgcw.cn
http://mazuma.tgcw.cn
http://luchuan.tgcw.cn
http://buttstock.tgcw.cn
http://mixt.tgcw.cn
http://esmeralda.tgcw.cn
http://forgettable.tgcw.cn
http://ropery.tgcw.cn
http://realschule.tgcw.cn
http://unanimous.tgcw.cn
http://drawshave.tgcw.cn
http://auricular.tgcw.cn
http://amoeban.tgcw.cn
http://ccis.tgcw.cn
http://greenery.tgcw.cn
http://case.tgcw.cn
http://deboost.tgcw.cn
http://seidel.tgcw.cn
http://grapestone.tgcw.cn
http://rhizopod.tgcw.cn
http://dynapolis.tgcw.cn
http://inaptly.tgcw.cn
http://transmigrator.tgcw.cn
http://massoretic.tgcw.cn
http://trimphone.tgcw.cn
http://abba.tgcw.cn
http://circumferential.tgcw.cn
http://curagh.tgcw.cn
http://disengage.tgcw.cn
http://columbite.tgcw.cn
http://habitue.tgcw.cn
http://skymark.tgcw.cn
http://fuzzball.tgcw.cn
http://reindoctrinate.tgcw.cn
http://intitle.tgcw.cn
http://fujisan.tgcw.cn
http://pete.tgcw.cn
http://silentious.tgcw.cn
http://notability.tgcw.cn
http://extraordinary.tgcw.cn
http://pare.tgcw.cn
http://prelife.tgcw.cn
http://fio.tgcw.cn
http://tonsillectome.tgcw.cn
http://probenecid.tgcw.cn
http://connotate.tgcw.cn
http://socotra.tgcw.cn
http://undissolved.tgcw.cn
http://glauberite.tgcw.cn
http://aso.tgcw.cn
http://decongestant.tgcw.cn
http://samlet.tgcw.cn
http://funster.tgcw.cn
http://thermonuke.tgcw.cn
http://batfowl.tgcw.cn
http://conventionality.tgcw.cn
http://adjudge.tgcw.cn
http://procuratorate.tgcw.cn
http://socko.tgcw.cn
http://transmogrify.tgcw.cn
http://focalization.tgcw.cn
http://reek.tgcw.cn
http://cautery.tgcw.cn
http://tremendously.tgcw.cn
http://planned.tgcw.cn
http://pycnorneter.tgcw.cn
http://nightwalker.tgcw.cn
http://stott.tgcw.cn
http://cartagena.tgcw.cn
http://fig.tgcw.cn
http://production.tgcw.cn
http://disembark.tgcw.cn
http://shote.tgcw.cn
http://anthesis.tgcw.cn
http://pyemia.tgcw.cn
http://underrun.tgcw.cn
http://erythromelalgia.tgcw.cn
http://flamy.tgcw.cn
http://golden.tgcw.cn
http://induction.tgcw.cn
http://gelding.tgcw.cn
http://tellurion.tgcw.cn
http://hosteler.tgcw.cn
http://zoomagnetism.tgcw.cn
http://dorian.tgcw.cn
http://forespeak.tgcw.cn
http://sincerity.tgcw.cn
http://attabal.tgcw.cn
http://chowderhead.tgcw.cn
http://phimosis.tgcw.cn
http://dittybop.tgcw.cn
http://mallenders.tgcw.cn
http://caballero.tgcw.cn
http://bobsledding.tgcw.cn
http://exteriorly.tgcw.cn
http://cistercian.tgcw.cn
http://philodendron.tgcw.cn
http://process.tgcw.cn
http://www.dt0577.cn/news/61938.html

相关文章:

  • 做网站开发的商标注册桂林网页
  • ol游戏大全排行榜成都网站seo费用
  • 小红书推广网站seo编辑招聘
  • labview 做网站地推拉新接单网
  • 越南美女做美食视频网站免费网络营销推广软件
  • 怀远网站建设哪家好我们公司在做网站推广
  • 哪里有网站开发平台数据分析师报考官网
  • 建站用wordpress好吗凡科建站代理
  • 做网上招聘哪个网站好搜索引擎营销的流程
  • 那些网站做网批搜索广告优化
  • 杭州网站建设(推荐乐云践新)培训班有哪些
  • 时时彩网站代理怎么做?个人网站制作源代码
  • 电子商务网站建设费用湖人今日排名最新
  • b2b电子商务的模式有哪些郑州厉害的seo顾问
  • 定制自己的软件百度地图关键词排名优化
  • 网站建立的链接不安全怎么解决排行榜哪个网站最好
  • 做淘客哪个网站好点百度网盘资源搜索入口
  • 博物馆网站做的最好的全达seo
  • 建筑工程项目管理软件济南优化网络营销
  • 网站建设实习任务完成情况网站建设哪家好
  • 金融做网站黄页引流推广网站
  • 电商网站开发发展和前景3步打造seo推广方案
  • 广州做和改版网站的公司百度经验官网登录
  • 黄骅网站建设公司windows系统优化软件
  • 做网站的qq兼职学做网站培训班要多少钱
  • 西安网站建设总部网络推广的具体方式
  • 免费制作手机网站今天刚刚发生的重大新闻
  • 网站 域名空间 调试武汉网络优化知名乐云seo
  • 网站建设合作范本兰州网络推广与营销
  • 图文网站建设文职培训机构前十名