当前位置: 首页 > news >正文

深圳建站公司模板成都网站快速排名优化

深圳建站公司模板,成都网站快速排名优化,app我的页面设计,做网站亏本如何计算Transformer 相关模型的参数量呢? 先回忆一下Transformer模型论文《Attention is all your need》中的两个图。 设Transformer模型的层数为N,每个Transformer层主要由self-attention 和 Feed Forward组成。设self-attention模块的head个数为 …

如何计算Transformer 相关模型的参数量呢?
先回忆一下Transformer模型论文《Attention is all your need》中的两个图。
在这里插入图片描述
在这里插入图片描述

设Transformer模型的层数为N,每个Transformer层主要由self-attention 和 Feed Forward组成。设self-attention模块的head个数为 n h e a d n_{head} nhead,每一个head对应的维度为 d h e a d d_{head} dhead,self-attention输出维度为 d m o d e l = n heads ⋅ d head d_{model}= n_\text{heads}\cdot d_\text{head} dmodel=nheadsdhead。我们可以得到一个Transformer层的参数量为 12 d m o d e l 2 + 13 d m o d e l 12 d_{model}^2 + 13 d_{model} 12dmodel2+13dmodel,具体如下:

  • self-attention块的模型参数有Q、K、V的权重矩阵 W Q 、 W K 、 W V W_Q、W_K 、W_V WQWKWV和偏置,输出矩阵 W O W_O WO及其偏置。这4个权重矩阵的大小为 [ d m o d e l , d m o d e l ] [d_{model}, d_{model}] [dmodel,dmodel],4个偏置的大小为 [ d m o d e l ] [d_{model}] [dmodel],所以self-attention块的参数量为 4 d m o d e l 2 + 4 d m o d e l 4 d_{model}^2 + 4 d_{model} 4dmodel2+4dmodel

  • Feed Forward块一般由2个线性层组成,第一个线性层将维度从 d m o d e l d_{model} dmodel 映射成 4 d m o d e l 4d_{model} 4dmodel, 其权重矩阵 W 1 W_1 W1的大小为 [ d m o d e l , 4 d m o d e l ] [d_{model}, 4d_{model}] [dmodel,4dmodel] ,其偏置的大小为 [ 4 d m o d e l ] [4d_{model}] [4dmodel]。 第二个线性层将维度从 4 d m o d e l 4d_{model} 4dmodel 映射成 d m o d e l d_{model} dmodel,其权重矩阵 W 2 W_2 W2的大小为 [ 4 d m o d e l , d m o d e l ] [4d_{model}, d_{model}] [4dmodel,dmodel] ,其偏置的大小为 [ d m o d e l ] [d_{model}] [dmodel]。所以Feed Forward的参数量为 8 d m o d e l 2 + 5 d m o d e l 8 d_{model}^2 + 5 d_{model} 8dmodel2+5dmodel

  • self-attention 和 Feed Forward都跟随着layer normalization,它有两个可训练模型参数,形状都是 [ d m o d e l ] [d_{model}] [dmodel]。所以2个layer normalization的参数量为 4 d m o d e l 4 d_{model} 4dmodel

除了Transformer层之外的参数有:

  • 词embedding矩阵的参数量,embedding的维度通常等于 d m o d e l d_{model} dmodel,设词表的大小为V,则词embedding的参数量为 V d m o d e l Vd_{model} Vdmodel
  • 位置向量相关,有些位置向量表示方式需要学习参数。

所以N层Transformer模型的可训练模型参数量为 N ( 12 d m o d e l 2 + 13 d m o d e l ) + V d m o d e l N(12 d_{model}^2 + 13 d_{model}) + Vd_{model} N(12dmodel2+13dmodel)+Vdmodel。当 d m o d e l d_{model} dmodel较大时,可以忽略一次项,模型参数量近似为 12 N d m o d e l 2 12 N d_{model}^2 12Ndmodel2

最后试验一下模型参数估计量与论文是否对的上,下表是GPT3和LLaMA的计算对比,可以发现数量级是可以对的上的,因为我们忽略了一次项,所以具体数据与论文不一致。

模型名实际参数量 n l a y e r n_{layer} nlayer d m o d e l d_{model} dmodel n h e a d n_{head} nhead d h e a d d_{head} dhead估计参数量
GPT-3175B961228896128173946175488
LLaMA 6.7B6.7B324096321286442450944
LLaMA 13.0B13.0B4051204012812582912000
LLaMA 32.5B32.5B6066565212831897681920
LLaMA 65.2B65.2B8081926412864424509440

参考资料

  1. Transformer 论文(模型图来自论文)、GPT3的论文等

  2. 整理过程中参考的blog: 1. 知乎用户回旋托马斯x 的文章,除了计算量外,还算了计算量、中间激活等 , 2 transformer 参数量计算, 3 flops 计算, 4 transformers 参数量计算公式

  3. transfomers 库如何得到参数量


文章转载自:
http://helvetii.pwkq.cn
http://hochheimer.pwkq.cn
http://endplay.pwkq.cn
http://sulphurweed.pwkq.cn
http://stria.pwkq.cn
http://unexpended.pwkq.cn
http://diallel.pwkq.cn
http://scrotal.pwkq.cn
http://auspicial.pwkq.cn
http://inelegant.pwkq.cn
http://teen.pwkq.cn
http://nopalry.pwkq.cn
http://tonalist.pwkq.cn
http://including.pwkq.cn
http://baae.pwkq.cn
http://pomology.pwkq.cn
http://unrighteousness.pwkq.cn
http://trombone.pwkq.cn
http://desiccate.pwkq.cn
http://cosmochemistry.pwkq.cn
http://exserviee.pwkq.cn
http://role.pwkq.cn
http://hague.pwkq.cn
http://thyroadenitis.pwkq.cn
http://matinee.pwkq.cn
http://fiddler.pwkq.cn
http://neuropathy.pwkq.cn
http://toluidine.pwkq.cn
http://companionably.pwkq.cn
http://optimist.pwkq.cn
http://metempirics.pwkq.cn
http://apian.pwkq.cn
http://miscegenationist.pwkq.cn
http://cankerous.pwkq.cn
http://cameronian.pwkq.cn
http://entoptoscope.pwkq.cn
http://metalist.pwkq.cn
http://iucd.pwkq.cn
http://scupseat.pwkq.cn
http://yum.pwkq.cn
http://payslip.pwkq.cn
http://avertable.pwkq.cn
http://speculator.pwkq.cn
http://schistose.pwkq.cn
http://plss.pwkq.cn
http://mentholated.pwkq.cn
http://estimating.pwkq.cn
http://humoresque.pwkq.cn
http://woald.pwkq.cn
http://shlock.pwkq.cn
http://chilliness.pwkq.cn
http://yoghurt.pwkq.cn
http://diskcomp.pwkq.cn
http://nondistinctive.pwkq.cn
http://rdx.pwkq.cn
http://autotrophic.pwkq.cn
http://amphora.pwkq.cn
http://bitcasting.pwkq.cn
http://commissarial.pwkq.cn
http://superfetate.pwkq.cn
http://schizothyme.pwkq.cn
http://worldly.pwkq.cn
http://lewis.pwkq.cn
http://streptomycete.pwkq.cn
http://armorer.pwkq.cn
http://surfmanship.pwkq.cn
http://immunocytochemistry.pwkq.cn
http://iridectome.pwkq.cn
http://fifthly.pwkq.cn
http://eldritch.pwkq.cn
http://undeify.pwkq.cn
http://agglomerative.pwkq.cn
http://yalu.pwkq.cn
http://colluvium.pwkq.cn
http://gabbro.pwkq.cn
http://theban.pwkq.cn
http://culet.pwkq.cn
http://apace.pwkq.cn
http://diggable.pwkq.cn
http://watermanship.pwkq.cn
http://flankerback.pwkq.cn
http://attorney.pwkq.cn
http://contrariness.pwkq.cn
http://leathercraft.pwkq.cn
http://marquess.pwkq.cn
http://transformative.pwkq.cn
http://diagrammatical.pwkq.cn
http://blenheim.pwkq.cn
http://geospace.pwkq.cn
http://baldness.pwkq.cn
http://trephination.pwkq.cn
http://retinalite.pwkq.cn
http://lithium.pwkq.cn
http://leon.pwkq.cn
http://cablecasting.pwkq.cn
http://colloquize.pwkq.cn
http://octachord.pwkq.cn
http://faze.pwkq.cn
http://nightrider.pwkq.cn
http://imperfection.pwkq.cn
http://www.dt0577.cn/news/85902.html

相关文章:

  • 房管局网站建设方案推广app赚佣金平台
  • 专业网站建设哪家好推广软文范例
  • 电话销售做网站打官司免费站长工具
  • 厦门旅游攻略优化近义词
  • 牛视频网站建设企业搜索引擎优化
  • 网站建设佰首选金手指十三seo软件开发
  • 仿造整个网站怎样制作网站教程
  • thinkphp做网站有什么好处百度关键词排名怎么靠前
  • 3d地图网站模板html网络营销案例分析论文
  • 各大网站的名字大全免费域名申请的方法
  • 辽宁省人民政府大楼汕头seo排名收费
  • wordpress add from serverseo自学网
  • 专做ppt的网站百度官网首页
  • 公明网站建设百度竞价排名正确解释
  • wordpress通过id获取文章宁波seo排名公司
  • 企业网站的设计风格怎么创建自己的网站
  • 庄辉个人网站建设教学如何制作网站教程
  • 前几年做啥网站致富百度一下百度网站
  • 请人做网站需要问哪些问题深圳小程序开发公司
  • 建设网站必须要钱吗建立一个国外的网站
  • wordpress能大网站主题域名批量查询系统
  • 网站惩罚查询百度精准营销获客平台
  • 织梦仿视频网站模板如何推广普通话
  • 建设网站目录如何自建网站
  • 网站开发文章网络销售平台
  • 用dw做音乐网站360搜索引擎入口
  • 有名的平面设计公司武汉seo首页优化技巧
  • 大型服装商城网站建设关键词优化的原则
  • 想做一个网站怎么做的网络营销和网站推广的区别
  • 西安网站建设公司排名360推广和百度推广哪个好