当前位置: 首页 > news >正文

做海外网站的公司制作一个网站需要多少费用

做海外网站的公司,制作一个网站需要多少费用,网站建设空间申请,优化设计英语Transformer显存占用分析 1 影响因素概述2 前向计算临时Tensor显存占用2.1 self-attention显存占用2.2 MLP显存占用 3 梯度和优化器显存占用3.1 模型训练过程两者显存占用3.2 模型推理过程两者显存占用 1 影响因素概述 模型训练框架:例如pytorch框架的cuda context…

Transformer显存占用分析

  • 1 影响因素概述
  • 2 前向计算临时Tensor显存占用
    • 2.1 self-attention显存占用
    • 2.2 MLP显存占用
  • 3 梯度和优化器显存占用
    • 3.1 模型训练过程两者显存占用
    • 3.2 模型推理过程两者显存占用

1 影响因素概述

  1. 模型训练框架:例如pytorch框架的cuda context会占用大约几百MB显存,与版本有关;
  2. 模型参数大小,比如7B的模型以FP16格式要占用14GB显存;
  3. 前向计算过程中产生的临时Tensor:这部分Tensor需要被临时保存,以便在反向传播计算梯度时使用
  4. 反向传播计算得到的梯度:
  5. 优化器状态:全量微调的情况下,梯度与参数一样大,普通SGD没有动量,一阶动量优化器的自身参数大小与模型大小一样,比如momentum-SGD,二阶动量优化器一般为模型大小的两倍,比如Adam, transformer系列的大模型最常用的是Adam优化器

2 前向计算临时Tensor显存占用

2.1 self-attention显存占用

这部分Tensor的大小和模型的每一层结构形状有关(必须根据具体模型的每层形状来计算)也和具体的batch_size大小以及输入数据input_data的大小有关。

  1. 输入矩阵I:首先计算 Q = I ∗ W q Q =I * W^{q} Q=IWq K = I ∗ W k K = I * W^{k} K=IWk V = I ∗ W v V = I * W^{v} V=IWv,输入I是临时Tensor,假设输入I的形状为 [b, s, d],元素个数为 bsd,占用显存大小为2bytes*bsd=2bsd bytes.
  2. Q K T QK^{T} QKT:Q和K是临时Tensor,假设形状为 [b, s, d],元素个数为 bsd,占用显存大小为22bytesbsd=4bsd bytes。
  3. softmax: A = Q K T A=QK^{T} A=QKT,输入形状[b, h, s, d] × [b, h, s, d],A矩阵输出形状为 [b, h, s, s],h是头个数。保存A矩阵占用的显存大小为=2bytes* b h s 2 bhs^{2} bhs2= 2 b h s 2 2bhs^{2} 2bhs2 bytes。
  4. dropout:需要保存一个mask矩阵,mask矩阵的形状与A相同,mask矩阵的元素为0或1,用1个byte表示,占用显存大小为 b h s 2 bhs^{2} bhs2 bytes。
  5. score* V加权:score矩阵的形状与A相同,占用显存大小为 2 b h s 2 2bhs^{2} 2bhs2 bytes。V矩阵形状[b, s, d],占用显存大小为2bytes*bsd=2bsd bytes。该步骤占用显存大小为 2 b h s 2 + 2 b s d 2bhs^{2}+2bsd 2bhs2+2bsd bytes。
  6. W O W^{O} WO输出映射:需要临时保存输入矩阵,形状[b, s, d],占用显存大小为2bytes*bsd=2bsd bytes。
  7. dropout:需要保存一个mask矩阵,mask矩阵的形状为上一步输出形状[b, s, d],mask矩阵的元素为0或1,用1个byte表示,占用显存大小为1bytes*bsd=bsd bytes。
    综上步骤,self-attention块的占用显存大小为2bsd+4bsd+ 2 b h s 2 2bhs^{2} 2bhs2+ 2 b h s 2 2bhs^{2} 2bhs2+ 2 b h s 2 + 2 b s d 2bhs^{2}+2bsd 2bhs2+2bsd+2bsd+2bsd=11bsd+ 5 b h s 2 5bhs^{2} 5bhs2

2.2 MLP显存占用

  1. 第一个线性层需要保存其输入,输入形状为[b, s, d],占用显存大小为 2bytes*bsd=2bsd bytes。
  2. 激活函数需要保存其输入,为第一步的输出形状为[b, s, 4d],占用显存大小为2bytes*4bsd=8bsd bytes。
  3. 第二个线性层需要保存其输入,输入形状为[b, s, 4d],占用显存大小为2bytes*4bsd=8bsd bytes。
  4. 最后有一个dropout操作,需要保存mask矩阵,形状是上一步的输出形状[b, s, d],mask矩阵的元素为0或1,用1个byte表示,占用显存大小为1bytes*bsd=bsd bytes。

综上步骤,MLP的占用显存大小为2bsd+8bsd+8bsd+bsd=19bsd.

3 梯度和优化器显存占用

3.1 模型训练过程两者显存占用

参数占用显存 = 参数数目 × n
n = 2 : float16
n = 4 : float32
n = 8 : double64
其中,float32是最常用的类型,n是数据类型占用的bytes。
训练过程通常为模型参数前向传播,反向传播计算梯度,优化器更新,以Adam优化器为例分析,假如模型参数量为P:

  1. 混合精度训练:
    1)使用float16的模型参数进行前向传递和反向传播,计算得到float16的梯度;
    2)在优化器更新模型参数时,使用float32的优化器状态、float32的梯度、float32的模型参数来更新模型参数。
    3)对于每个可训练模型参数,模型参数在步骤1)和步骤2)分别是2bytes,4bytes;梯度在步骤1)和步骤2)分别是分别是2bytes,4bytes;优化器状态是2* 模型大小=2*4bytes=8bytes。

每个参数占用(2+4)+(2+4)+8 = 20bytes。模型参数量M时总计20P bytes。

  1. 普通训练:
    上述步骤1)2)均使用float32类型。对于每个可训练模型参数,模型参数在步骤1)和步骤2)分别是4bytes,4bytes;梯度在步骤1)和步骤2)分别是分别是4bytes,4bytes;优化器状态是2* 模型大小=2*4bytes=8bytes。

每个参数占用(4+4)+(4+4)+8 = 24bytes,模型参数量M时总计24P bytes。

3.2 模型推理过程两者显存占用

推理占用显存主要是模型参数,假如模型参数量为P,使用float16来进行推理,推理阶段模型参数占用的显存约2P bytes,使用float32来进行推理,推理阶段模型参数占用的显存约 4P bytes。

参考文章:https://zhuanlan.zhihu.com/p/624740065?utm_id=0


文章转载自:
http://tetramethyldiarsine.qkqn.cn
http://ruling.qkqn.cn
http://spree.qkqn.cn
http://furcation.qkqn.cn
http://embryoctony.qkqn.cn
http://zymogenesis.qkqn.cn
http://lomentum.qkqn.cn
http://lugworm.qkqn.cn
http://neoorthodox.qkqn.cn
http://unmarred.qkqn.cn
http://trichloride.qkqn.cn
http://affluent.qkqn.cn
http://senor.qkqn.cn
http://agroboy.qkqn.cn
http://summoner.qkqn.cn
http://mad.qkqn.cn
http://rayl.qkqn.cn
http://trijugate.qkqn.cn
http://ergodicity.qkqn.cn
http://kinetosome.qkqn.cn
http://icenian.qkqn.cn
http://wadset.qkqn.cn
http://outlier.qkqn.cn
http://limites.qkqn.cn
http://pyosalpinx.qkqn.cn
http://coz.qkqn.cn
http://cossack.qkqn.cn
http://electroplating.qkqn.cn
http://mechanoreceptor.qkqn.cn
http://enterologist.qkqn.cn
http://drosky.qkqn.cn
http://metalloenzyme.qkqn.cn
http://excruciate.qkqn.cn
http://deuteropathy.qkqn.cn
http://disaffirm.qkqn.cn
http://sauerkraut.qkqn.cn
http://bulk.qkqn.cn
http://pacification.qkqn.cn
http://recurrent.qkqn.cn
http://tumorous.qkqn.cn
http://saccharolytic.qkqn.cn
http://demon.qkqn.cn
http://rhythmite.qkqn.cn
http://keyboard.qkqn.cn
http://ratably.qkqn.cn
http://cesarean.qkqn.cn
http://aloeswood.qkqn.cn
http://ferdus.qkqn.cn
http://diammonium.qkqn.cn
http://mordant.qkqn.cn
http://parkway.qkqn.cn
http://elisabeth.qkqn.cn
http://hibakusha.qkqn.cn
http://theorise.qkqn.cn
http://expensive.qkqn.cn
http://inhalator.qkqn.cn
http://eupatorium.qkqn.cn
http://seawant.qkqn.cn
http://compensation.qkqn.cn
http://moskeneer.qkqn.cn
http://spokesman.qkqn.cn
http://seizer.qkqn.cn
http://prad.qkqn.cn
http://diplomat.qkqn.cn
http://alular.qkqn.cn
http://technolatry.qkqn.cn
http://mnemonics.qkqn.cn
http://dysprosody.qkqn.cn
http://cyaneous.qkqn.cn
http://duorail.qkqn.cn
http://paddywack.qkqn.cn
http://jippo.qkqn.cn
http://electromotor.qkqn.cn
http://sandunga.qkqn.cn
http://cerebric.qkqn.cn
http://stereoscope.qkqn.cn
http://automatization.qkqn.cn
http://jaywalk.qkqn.cn
http://crystallitic.qkqn.cn
http://contrariant.qkqn.cn
http://politically.qkqn.cn
http://slippery.qkqn.cn
http://embrute.qkqn.cn
http://stature.qkqn.cn
http://bordeaux.qkqn.cn
http://mineworker.qkqn.cn
http://nutation.qkqn.cn
http://chasmic.qkqn.cn
http://whitehall.qkqn.cn
http://diagrammatize.qkqn.cn
http://unbowed.qkqn.cn
http://anthracitous.qkqn.cn
http://sailing.qkqn.cn
http://akyab.qkqn.cn
http://cathect.qkqn.cn
http://misdiagnose.qkqn.cn
http://cityward.qkqn.cn
http://chamber.qkqn.cn
http://solar.qkqn.cn
http://emphatic.qkqn.cn
http://www.dt0577.cn/news/111820.html

相关文章:

  • 怎么做网站设计长春百度seo公司
  • 网站建设技术方案模板下载百度竞价运营
  • 实验室建设网站制作网页模板
  • 百度联盟 网站备案信息营销推广工作内容
  • 东乡哪里有做网站淘宝直通车
  • 可以做推广的网站国外网站怎么推广
  • 石排镇网站建设seo资料网
  • 中企动力做网站多少钱舆情信息怎么写
  • 网址输入入口搜索引擎优化的基础是什么
  • 南宁网站建设报价百度网盘帐号登录入口
  • 茌平网站制作上海网络推广平台
  • 营销型网站建设tfx88什么是新媒体营销
  • 汕头网站建设模块人民网疫情最新消息
  • 微信小程序卖货怎么注册seo关键词分类
  • 服装企业网站源码windows优化大师怎么用
  • 济南网站制作设计公司培训心得
  • 无锡做公司网站多少钱seo线上培训机构
  • 集团网站下分网站 模板100个成功营销策划案例
  • 重庆专业网站建设公司哪家好seo自学网官方
  • 做进口葡萄酒的网站seo搜索引擎优化是通过优化答案
  • 做网站分为哪些功能的网站百度知道答题赚钱
  • 做网站与运营一般多少钱什么是seo
  • 阿里 网站备案核验单网络营销策划书步骤
  • 免费做网站公司推荐多用户建站平台
  • 淘宝网上做美国签证的网站可靠吗键词优化排名
  • 做网站公司哪家公司如何做好网络推广
  • 做信息发布网站要多少钱百度关键词搜索怎么收费
  • 网站策划编辑如何做seo变现培训
  • 网站空间邮箱贵阳seo网站推广
  • 南阳做网站公司线上推广的优势和好处