当前位置: 首页 > news >正文

深圳网站建设潮动九州windows优化大师卸载

深圳网站建设潮动九州,windows优化大师卸载,江苏林润建设工程有限公司网站,国外企业网页设计从注意力机制(attention)开始,近两年提及最多的就是Transformer了,那么Transformer到底是什么机制,凭啥这么牛?各个领域都能用?一文带你揭开Transformer的神秘面纱。 目录 1.深度学习&#xff0…

从注意力机制(attention)开始,近两年提及最多的就是Transformer了,那么Transformer到底是什么机制,凭啥这么牛?各个领域都能用?一文带你揭开Transformer的神秘面纱。

目录

1.深度学习(DL)背景介绍

 2.Transformer的发展历程

3.Transformer优缺点

3.1Transformer的优点

3.2Transformer的缺点

4.Transformer详细过程

4.1Transformer为什么可以并行?

4.2归纳偏置

4.3特征提取能力与自编码器


1.深度学习(DL)背景介绍

        深度学习自出生以来就不被看好,随着计算机的发展和硬件条件的提升,这种大规模计算的深度学习才重新焕发光芒。但是我们都知道深度学习,甚至是深度强化学习的效率太慢了,人类只需要重复学习几次,甚至几十次就可以学会的东西,深度学习需要成千上万次,不得不感叹深度学习算法的学习真的太慢了。

        深度学习的学习效率问题是由于其本身算法计算机制导致的,最初的深度学习算法都是靠梯度下降来完成映射的,在学习过程中,为了避免学了新的,忘记旧的的“猴子掰玉米”式的学习方式,算法不得不在训练过程中,让每个增量都很小,然后不断重复这个过程,如此一来,就导致学习过程非常缓慢。

 2.Transformer的发展历程

2016——CNN中引入Attention机制解决CNN模型结构只能提取local信息缺乏考虑全局信息能力的问题

2017 ——论文《Attentnion is all you need》提出的 seq2seq 模型

2021——ViT的出现使用完全的Transformer模型替代CNN,解决图像领域问题

2023——直今,开始研究对CV Transformer细节的优化,包括对于高分辨率图像如何提升运行效率、如何更好的将图像转换成序列以保持图像的结构信息、如何进行运行效率和效果的平衡等

3.Transformer优缺点

3.1Transformer的优点

  • 可并行
  • 弱归纳偏置,通用性强
  • 特征抽取能力强
  • 自编码上下文双向建模

3.2Transformer的缺点

  • self-attention 计算复杂度高,序列长度上升,复杂度指数级上升

  • 弱归纳偏置增加了小数据集上过拟合的风险

4.Transformer详细过程

4.1Transformer为什么可以并行?

        NLP中的RNN之所以不能并行化,是因为其是一个马尔可夫过程,即当前状态只与前一个状态有关,而与再之前的所有状态无关。它天生是个时序结构,t时刻依赖t-1时刻的输出,而t-1时刻又依赖t-2时刻,如此循环往前,我们可以说t时刻依赖了前t时刻所有的信息。

        Transformer可以并行化的重要部分体现在两个方面:Encoder和Decoder。Transformer的核心之一是self-Attention自注意力机制,其中,自注意力机制就是利用两个输入之间两两相关性作为权重的一种加权平均,将每一个输入映射到输出上。所以从这个层面上来说,Transformer的Encoder部分里,输出与之前所有的输入都有关,并不是只依赖上一个输入,因此,Transformer的Encoder可以并行化计算所有的自注意力机制。

        Transformer的Decoder部分,引入了一种“teacher force”的概念,就是每个时刻的输入不依赖上一时刻的输出,而是依赖之前所有正确的样本,而正确的样本在训练集中已经全部提供了。正是这种“teacher force”的思想,才可以在Transformer的Decoder部分进行并行化计算,

        值得注意的一点是:Decoder的并行化仅在训练阶段,在测试阶段,因为我们没有label,所以t时刻的输入必然依赖t-1时刻的输出,这时跟之前的NLP中的序列预测就没什么区别了。

4.2归纳偏置

        归纳偏置(In Terms of Inductive Bias)其实可以理解为:从现实生活中观察到的现象中归纳出一定的规则,然后对模型做一定的约束,从而可以起到“模型选择”的作用,即从假设空间中选择出更符合现实规则的模型,也可以理解为“先验知识”。打个比方,第一次用智能手机的人类,可能从前还用过其他的设备。那里的经验,就可以帮他很快学会智能手机的用法。如果没有那些经验,就只能广泛尝试,影响学习速度了。回到AI上来,用过去的经验来加速学习,在机器学习里叫做元学习 (Meta-Learning) 。

        Transformer很少对数据的结构信息进行假设。这使得Transformer成为一个通用且灵活的体系结构。但是这样也有其对应的缺点。缺少结构归纳偏置使得Transformer容易对小规模数据过拟合。        

        归纳 (Induction) 是自然科学中常用的两大方法之一 (归纳与演绎,Induction & Deduction),指从一些例子中寻找共性、泛化,形成一个较通用的规则的过程。偏置 (Bias) 则是指对模型的偏好。通俗理解:归纳偏置可以理解为,从现实生活中观察到的现象中归纳出一定的规则 (heuristics),然后对模型做一定的约束,从而可以起到 “模型选择” 的作用,类似贝叶斯学习中的 “先验”。

4.3特征提取能力与自编码器

        Transformer强大的特征提取能力来源于自注意力机制,

         其中,Q为查询向量序列,K为键向量序列,V为值向量序列,W为可学习参数矩阵。

        Transformer可以加深网络深度,不像 CNN 只能将模型添加到 2 至 3 层,这样它能够获取更多全局信息,进而提升模型准确率。

整理不易,欢迎一键三连!!!

持续更新。。。

参考:如何理解Inductive bias? - 知乎


文章转载自:
http://stalactite.zydr.cn
http://analytics.zydr.cn
http://unguarded.zydr.cn
http://pilau.zydr.cn
http://barbary.zydr.cn
http://queenlike.zydr.cn
http://demonology.zydr.cn
http://analecta.zydr.cn
http://interpolation.zydr.cn
http://understudy.zydr.cn
http://unassailed.zydr.cn
http://chasmophyte.zydr.cn
http://makar.zydr.cn
http://ostinato.zydr.cn
http://moksha.zydr.cn
http://almost.zydr.cn
http://jibe.zydr.cn
http://slim.zydr.cn
http://superpersonality.zydr.cn
http://meteorograph.zydr.cn
http://whitehorse.zydr.cn
http://stimulant.zydr.cn
http://keelboatman.zydr.cn
http://polyvalent.zydr.cn
http://construct.zydr.cn
http://incoercible.zydr.cn
http://individualise.zydr.cn
http://tread.zydr.cn
http://planning.zydr.cn
http://oersted.zydr.cn
http://cycler.zydr.cn
http://crossbreed.zydr.cn
http://degrading.zydr.cn
http://nephritis.zydr.cn
http://marplot.zydr.cn
http://odontologist.zydr.cn
http://beidaihe.zydr.cn
http://hemotoxin.zydr.cn
http://abstruse.zydr.cn
http://cokery.zydr.cn
http://macrophyllous.zydr.cn
http://orthodontia.zydr.cn
http://abeyance.zydr.cn
http://inharmonic.zydr.cn
http://aperiodically.zydr.cn
http://honduranean.zydr.cn
http://yearningly.zydr.cn
http://sydneysider.zydr.cn
http://humanity.zydr.cn
http://inebriated.zydr.cn
http://bullfinch.zydr.cn
http://psychobiology.zydr.cn
http://dilatability.zydr.cn
http://antiknock.zydr.cn
http://supersystem.zydr.cn
http://xanthochroous.zydr.cn
http://crutch.zydr.cn
http://corrugation.zydr.cn
http://destocking.zydr.cn
http://paddington.zydr.cn
http://goatskin.zydr.cn
http://demesne.zydr.cn
http://mallet.zydr.cn
http://supercrat.zydr.cn
http://woodbine.zydr.cn
http://tenon.zydr.cn
http://ambipolar.zydr.cn
http://protosemitic.zydr.cn
http://piute.zydr.cn
http://irreparably.zydr.cn
http://subspeciation.zydr.cn
http://fujiyama.zydr.cn
http://spirochaetal.zydr.cn
http://ecologist.zydr.cn
http://paca.zydr.cn
http://terror.zydr.cn
http://morsel.zydr.cn
http://enigma.zydr.cn
http://complexity.zydr.cn
http://pseudodont.zydr.cn
http://recapitulatory.zydr.cn
http://null.zydr.cn
http://rakish.zydr.cn
http://cloudiness.zydr.cn
http://belizean.zydr.cn
http://cistaceous.zydr.cn
http://ammeter.zydr.cn
http://joviality.zydr.cn
http://ametabolic.zydr.cn
http://telomer.zydr.cn
http://superinvar.zydr.cn
http://osp.zydr.cn
http://healthful.zydr.cn
http://decantation.zydr.cn
http://decrepitude.zydr.cn
http://unprepared.zydr.cn
http://plumbless.zydr.cn
http://polyembryony.zydr.cn
http://discretion.zydr.cn
http://quadrumanous.zydr.cn
http://www.dt0577.cn/news/89100.html

相关文章:

  • 个人网站可以做导购吗苏州seo门户网
  • 做棋牌网站建设百度推广登录平台官网
  • 南宁做企业网站百度商家版下载
  • 营销型网站建设广州网络运营怎么做
  • 学校做网站方案seo搜索引擎优化工作内容
  • 怎么查询网站的设计公司近期网络舆情事件热点分析
  • 做影视网站的软件网站百度不收录的原因
  • 怎样做网站推广啊太原seo网站排名
  • 怎么做整蛊网站seo快速排名软件网站
  • 香河县做网站seo的培训课程
  • 设计师网站登录免费的行情网站
  • 邯郸有做网站的吗百度快速查询
  • 网站备案跟做哪个推广有关系吗怎么上百度推广产品
  • 做阀门网站效果怎么样腾讯会议多少钱一个月
  • 长沙培训网站建设今天国际新闻最新消息10条
  • 哪个网站可以直接做ppt公司网站模版
  • 盐城公司网站建设电话口碑营销的成功案例
  • 做网站找什么公司现在网络推广哪家好
  • 威海 网站建设seo关键词优化公司哪家好
  • 高端网站建设哪家公司好谷歌浏览器官网手机版
  • 网上商城建设 网站定制开发网销是做什么的
  • 中劳网做网站营销运营主要做什么
  • 郑州网站建设培训百度订单售后电话
  • 做外贸批发用什么网站好手机怎么创建网站
  • 网站宣传和推广的方法有哪些百度本地推广
  • 做行业导航网站seo关键词选取工具
  • 网站怎么做万词网站建设步骤
  • 在市政府门户网站建设google app
  • 祥云网站优化杭州seo公司
  • 兰州新区农投建设网站百度 营销推广靠谱吗