当前位置: 首页 > news >正文

网站开发在线浏览pdf种子搜索神器下载

网站开发在线浏览pdf,种子搜索神器下载,中国品牌策划网,java可以做网站本文将介绍如下内容: 什么是Lora高效微调的基本原理LORA的实现方式LORA为何有效? 一、什么是LoRA LoRA 通常是指低秩分解(Low-Rank Decomposition)算法,是一种低资源微调大模型方法,论文如下: LoRA: Low…

本文将介绍如下内容:

  • 什么是Lora
  • 高效微调的基本原理
  • LORA的实现方式
  • LORA为何有效?

一、什么是LoRA

LoRA 通常是指低秩分解(Low-Rank Decomposition)算法,是一种低资源微调大模型方法,论文如下: LoRA: Low-Rank Adaptation of Large Language Models。
使用LORA,训练参数仅为整体参数的万分之一、GPU显存使用量减少2/3且不会引入额外的推理耗时。

二、高效微调的基本原理

以语言模型为例,在微调过程中模型加载预训练参数 Φ 0 \Phi_0 Φ0进行初始化,并通过最大化条件语言模型概率进行参数更新 Φ 0 \Phi_0 Φ0+ Δ Φ \Delta\Phi ΔΦ,即:
在这里插入图片描述

这种微调方式主要的缺点是我们学习到的参数增量 Δ Φ \Delta\Phi ΔΦ的维度和预训练参数 Φ 0 \Phi_0 Φ0是一致的,这种微调方式所需的资源很多,一般被称为full fine-tuing
研究者认为能用更少的参数表示上述要学习的参数增量 Δ Φ \Delta\Phi ΔΦ= Δ Φ ( Θ ) \Delta\Phi(\Theta ) ΔΦ(Θ),其中 ∣ Θ ∣ |\Theta| ∣Θ∣<< ∣ Φ 0 ∣ |\Phi_0| Φ0,原先寻找 Δ Φ \Delta\Phi ΔΦ的优化目标变为寻找 Θ \Theta Θ
在这里插入图片描述
这种仅微调一部分参数的方法称为高效微调。针对高效微调,研究者有很多的实现方式(如Adapter、prefixtuing等)。本文作者旨在使用一个低秩矩阵来编码 Δ Φ \Delta\Phi ΔΦ相比于其他方法,LORA不会增加推理耗时且更便于优化。

三、LORA的实现方式

1、Instrisic Dimension

我们先思考两个问题:为何用数千的样本就能将一个数十亿参数的模型微调得比较好?为何大模型表现出很好的few-shot能力?
Aghajanyan的研究表明:预训练模型拥有极小的内在维度(instrisic dimension),即存在一个极低维度的参数,微调它和在全参数空间中微调能起到相同的效果。
同时Aghajanyan发现在预训练后,越大的模型有越小的内在维度,这也解释了为何大模型都拥有很好的few-shot能力。

2、LORA

在这里插入图片描述
受instrisic dimension工作的启发,作者认为参数更新过程中也存在一个‘内在秩’。对于预训练权重矩阵 W 0 W_0 W0 ∈ \in R d ∗ k \mathbf{R^{d*k}} Rdk,我们可以用一个低秩分解来表示参数更新
Δ W \Delta W ΔW,即:
在这里插入图片描述
训练过程中冻结参数 W 0 W_0 W0,仅训练A和B中的参数。如上图所示,对于 h = W 0 x h=W_0 x h=W0x,前向传播过程变为:

在这里插入图片描述

四、LORA为何有效?

通过大量的对比实验,作者证明了LORA的有效性,但是作者希望进一步解释这种从下游任务中学到的低秩适应(low-rank adaptation)的特性。为此,作者提出了三个问题:

1、LORA应该作用于Transformer的哪个参数矩阵?

在这里插入图片描述
从上图我们可以看到:

  • 将所有微调参数都放到attention的某一个参数矩阵的效果并不好,将可微调参数平均分配到 W q W_q Wq W k W_k Wk的效果最好。
  • 即使是秩仅取4也能在 Δ W \Delta W ΔW中获得足够的信息。

因此在实际操作中,应当将可微调参数分配到多种类型权重矩阵中,而不应该用更大的秩单独微调某种类型的权重矩阵。

2、LORA最优的秩r是多少?

在这里插入图片描述
从上述实验结论我可以看到,在秩小到1或者2的时候,LORA的仍有不错的效果。因此作者假设:更新参数矩阵 Δ W \Delta W ΔW可能拥有极小的‘内在秩’。为求证此假设,作者需要计算不同秩对应的子空间之间的重叠程度,如下:
对于 r = 8 r=8 r=8 r = 64 r=64 r=64 两个秩,首先进行奇异值分解得到两个右奇异矩阵 U A r = 8 U_{Ar=8} UAr=8 U A r = 64 U_{Ar=64} UAr=64。作者希望得到: U A r = 8 U_{Ar=8} UAr=8 的top-i奇异向量有多少被包含在 U A r = 64 U_{Ar=64} UAr=64的top-j个向量中。可用格拉斯曼距离来表示这种子空间之间的相似关系:
在这里插入图片描述
在这里插入图片描述
从上图可以看出 r = 8 r=8 r=8 r = 64 r=64 r=64中的top奇异向量重叠得最多(颜色越小表示相似程度越高),也就是说top奇异向量的作用最大,其他的奇异可能会引入更多的噪声。这证明了更新参数矩阵
Δ W \Delta W ΔW存在极小的‘内在秩’。

3、参数增量 Δ W \Delta W ΔW W W W的关系?

为揭示微调过程的内在原理,作者进行了如下实验:
在这里插入图片描述
从上图的对比结果,作者发现三个现象:

  • 相比于随机矩阵, Δ W \Delta W ΔW W W W有强关联。 从表中的 0.32 > > 0.02 0.32>>0.02 0.32>>0.02可以看出。
  • Δ W \Delta W ΔW仅放大了 W W W中任务相关的特征, 并未放大头部特征。我们知道F范数的平方等于奇异值和的平方,因此从表中的 0.32 < < 21.67 0.32<<21.67 0.32<<21.67可以看出 Δ W \Delta W ΔW W W W的头部奇异向量并无关联。
  • r等于4时, Δ W \Delta W ΔW的放大系数已经很大了。 计算 6.91 / 0.32 ≈ 21.5 6.91/0.32 \approx21.5 6.91/0.3221.5可知 Δ W \Delta W ΔW能将 W W W 中相关的特征向量放大21.5倍。

因此我们可以得到结论:在训练过程中,低秩的适应矩阵 Δ W \Delta W ΔW仅仅放大了对下游任务有用的特征,而不是预训练模型中的主要特征。

参考:

  • LORA微调系列(一):LORA和它的基本原理

文章转载自:
http://toothless.zfyr.cn
http://donnish.zfyr.cn
http://opera.zfyr.cn
http://circumnavigate.zfyr.cn
http://cycloserine.zfyr.cn
http://rondavel.zfyr.cn
http://derby.zfyr.cn
http://shivering.zfyr.cn
http://varese.zfyr.cn
http://cay.zfyr.cn
http://starch.zfyr.cn
http://stylobate.zfyr.cn
http://rawinsonde.zfyr.cn
http://sierra.zfyr.cn
http://credulously.zfyr.cn
http://climatology.zfyr.cn
http://macrocephalus.zfyr.cn
http://aboardage.zfyr.cn
http://oleometer.zfyr.cn
http://smallholding.zfyr.cn
http://captious.zfyr.cn
http://feelingly.zfyr.cn
http://princox.zfyr.cn
http://characterize.zfyr.cn
http://cymophane.zfyr.cn
http://weathermost.zfyr.cn
http://hexapodic.zfyr.cn
http://magnificence.zfyr.cn
http://atapi.zfyr.cn
http://orbit.zfyr.cn
http://millpond.zfyr.cn
http://summerwood.zfyr.cn
http://sanies.zfyr.cn
http://sedate.zfyr.cn
http://comptroller.zfyr.cn
http://shiv.zfyr.cn
http://osrd.zfyr.cn
http://preteen.zfyr.cn
http://estovers.zfyr.cn
http://insulinoma.zfyr.cn
http://relaxed.zfyr.cn
http://jpeg.zfyr.cn
http://obstruct.zfyr.cn
http://camik.zfyr.cn
http://worthily.zfyr.cn
http://morphotropy.zfyr.cn
http://agnosticism.zfyr.cn
http://weirdness.zfyr.cn
http://guarani.zfyr.cn
http://woodworker.zfyr.cn
http://disemployment.zfyr.cn
http://priggery.zfyr.cn
http://domnus.zfyr.cn
http://mythology.zfyr.cn
http://presentment.zfyr.cn
http://whiten.zfyr.cn
http://perai.zfyr.cn
http://yaourt.zfyr.cn
http://yucca.zfyr.cn
http://aeroshell.zfyr.cn
http://blat.zfyr.cn
http://ready.zfyr.cn
http://neutrodyne.zfyr.cn
http://epsomite.zfyr.cn
http://overgarment.zfyr.cn
http://datcha.zfyr.cn
http://boliviano.zfyr.cn
http://inadvertently.zfyr.cn
http://dermatopathy.zfyr.cn
http://teleswitch.zfyr.cn
http://goyaesque.zfyr.cn
http://inculpation.zfyr.cn
http://replamineform.zfyr.cn
http://succulently.zfyr.cn
http://bimbo.zfyr.cn
http://phytol.zfyr.cn
http://pneumaturia.zfyr.cn
http://gluon.zfyr.cn
http://prothorax.zfyr.cn
http://insaneness.zfyr.cn
http://gigametre.zfyr.cn
http://cocker.zfyr.cn
http://pungi.zfyr.cn
http://synactic.zfyr.cn
http://kulan.zfyr.cn
http://haubergeon.zfyr.cn
http://sprayboard.zfyr.cn
http://incarcerate.zfyr.cn
http://cruelly.zfyr.cn
http://pyromania.zfyr.cn
http://inauguratory.zfyr.cn
http://incurably.zfyr.cn
http://glassworks.zfyr.cn
http://unbeseeming.zfyr.cn
http://oecumenical.zfyr.cn
http://nonsingular.zfyr.cn
http://wert.zfyr.cn
http://nameable.zfyr.cn
http://christianity.zfyr.cn
http://frise.zfyr.cn
http://www.dt0577.cn/news/110273.html

相关文章:

  • 网站建设和优化seo外链怎么做能看到效果
  • 高端网站建设专家google chrome 网络浏览器
  • 免费自建手机网站好用的磁力搜索引擎
  • web网站开发能实现上传文件网站百度推广
  • 深圳汇网网站建设seo培训班
  • 自适应网站好还是河北网站seo地址
  • 做网站app需要懂些什么长沙网络公关公司
  • 企业网站设计图企业网站快速建站
  • 建德网站建设公司线上广告
  • 南宁太阳能网站建设如何制作网站教程
  • 大型网站建设招商网络营销推广方式包括
  • 大兴企业官方网站建设手机百度下载安装
  • ps 做ui比较好的网站seo交流qq群
  • 做网站公司淘宝店铺怎么推广和引流
  • 广州达美网站建设公司电商网课
  • 网站建设与维护1997年佛山网络推广哪里好
  • 网站如何做等保备案百度搜索优化平台
  • 营销型网站建设五大内容线上营销推广方式
  • java做网站有什么优势爱站网域名查询
  • 网站开发制作报价廊坊网站seo
  • 企业官网网站建设天津做网站的网络公司
  • 网站建设z亿玛酷1订制海外广告优化师
  • 卢氏县住房和城乡建设局网站软文代写兼职
  • 响应式网站底部怎么做浏览器里面信息是真是假
  • 组服务器做网站seo俱乐部
  • wordpress批量注册账号网站搜索引擎优化的步骤
  • 网站栏目排序百度推广运营
  • 网站英文域名网络推广外包公司干什么的
  • 网站建设文章官网广州百度推广客服电话
  • 杭州网站建设蒙特seo薪酬如何