当前位置: 首页 > news >正文

网站推广明细报价表推广普通话手抄报内容文字

网站推广明细报价表,推广普通话手抄报内容文字,wordpress不同背景图片,wordpress 随机名言插件最近,随着DeepSeek的爆火,GRPO也走进了视野中。为了更好的学习GRPO,需要对PPO的强化学习有一个深入的理解,那么写一篇文章加深理解吧。纵观网上的文章,要么说PPO原理,各种复杂的公式看了就晕,要…

        最近,随着DeepSeek的爆火,GRPO也走进了视野中。为了更好的学习GRPO,需要对PPO的强化学习有一个深入的理解,那么写一篇文章加深理解吧。纵观网上的文章,要么说PPO原理,各种复杂的公式看了就晕,要么说各种方式命名的模型,再要么默认你是个NLPer。这导致RLer和NLPer之间学习大语言模型强化学习产生了巨大的gap。于是,我们单纯说说大语言模型里面的PPO吧。

        其实PPO也是在训练模型,和SFT一样,都是为了获得最终一个用于推理部署的模型。SFT训练模型时一般需要一个base【模型】和【损失函数】,这里先这么浅显地说,因为PPO也需要这些,我们通过这些相同的部分来弥补NLP和RL之间的gap吧。

一、模型

SFT(Only one model)

        SFT模型一般是一个已经预训练过的大语言模型(例如GPTs、BERT等),或者是一个未经训练的小模型(LSTM)。

PPO(Four Models)

        PPO训练时总共有四个模型分别是Policy Model(Actor)、Reward Model、Reference Model、Critic Model。这里和SFT模型相似的也就是Policy Model,这个模型也是经过预训练的模型且用于未来实际使用的模型。其他三个模型都是用来辅助Policy Model模型训练的。那么其他三个模型的作用是什么呢?Let's talk step by step.

        Reward Model

        Fine! 你肯定早就听过这个模型。我们说PPO是根据好的和坏的样本对来进行训练的,从来让模型产生输出好样本的偏好,那么如何识别好样本和坏样本呢?是的,依靠Reward Model。让我们看看下边的例子。

s1: 中国的首都是哪里?北京。->过于简洁,但正确,2分

s2: 中国的首都是哪里?中国的首都是北京。->比较中肯,3分

s3: 中国的首都是哪里?中国的首都不是广州和武汉,是北京。->很多废话,0分

s4: 中国的首都是哪里?中国的首都不是广州,是北京。->一点点废话,1分

        上面我按照自己的偏好给每个句子进行了打分。Reward Model在这里的作用就是学习我打分的风格,然后产生一个数值或者概率,这里可以用各种方法,先不说具体咋做,可以线按照你想的方法产生一个分数,然后我们接着往下走。好了,我们现在有一个模型可以产生奖励了,我们可以给Policy Model模型产生的输出打分了,然后对这个分数进行优化,即奖励较大时加大对损失的权重,奖励较大时给损失乘以一个较小的权重。这样,模型就可以达到L1级别(借用自动驾驶等级概念)的偏好学习了。

        看似我们的方法已经可以work了,但仅仅是看似。实际上在模型训练的过程中可能会因为Reward打分不准导致Policy Model训练出现偏差或者Policy Model过于追求奖励大的而出现性能下降的现象。

        所以这么不稳定的训练,需要再加入另外一个模型Reference Model来维护一下训练的稳定性。

        Reference Model

        Reference Model被用于维持训练的稳定性。我们知道PPO被用在大语言模型是为了维持模型回答的风格,这种风格应该是朝着某种方向去的。比如,我们需要训练一个模型,他的风格需要是安全型的,即在特定情况下,他应该对用户的输入做出拒答。但是当训练不稳定时,模型可能对用户所有的输入都做出拒答。显然,这不是我们想要的模型效果。所以,我们需要一个基准模型,这个模型给Policy Model当作参考,告诉他不要在训练的时候偏离基准模型太远,即保留基准模型的一些能力。

        于是Reference Model(参考模型)呼之欲出,那么这个与Reference Model控制距离的方法如何实现呢?我们简单的猜一下,控制距离的方法。我这里给出一个简单的猜测,我们可以将输入同时送入到Reference Model和Reward Model中,然后根据两个句子输出的logits计算距离,如果距离过大时应该被拉近,距离适当时可以保持。当然,作为Reference Model在训练的时候是不需要更新参数的,不然就被一起拉着跑偏了。

        看着我们的模型可以训练起来了,正式进入L2级别。

        Critic Model

        没错,我们的模型其实完全可以训练了,至于为什么要多次一举,加个Critix Model。我也不是特别的理解。那么,让我们问问DeepSeek吧。

 

        DeepSeek告诉我们Critic Model可以降低方差?那么为什么呢?为什么前面的方法会出现高方差,以及Critic Model是如何降低方差的呢?

        我们打个比方,比如我们日常在与人交流的时候,可能一不小心说出了话,让他人不开心,后来通过各种方法找补回来,让别人理解了我们的内心想法。先说错话找补回来让对方理解和直接让对方理解我们真实的想法,这二者最后的结果是一样的(即奖励,Reward Model的打分),但是过程是不一样的。这个Critic Model的作用可以类比为教我们如何正确的表达,而不仅仅是会说的对。

        至于优势估计和价值引导,可以看到优势估计可以衡量特定动作(输出特定token)对于平均情况的优势,价值引导是提供长期回报(即输出某个token的长期回报),这两者也都是面向token级别(Critic Model),而不是句子级别(Reward Model给整个句子打分)的优化。


       至此,我们理解了这四个模型的大致作用,下面我们从具体说说是PPO如何做的。

二、损失函数

        施工中...


文章转载自:
http://cedi.qkxt.cn
http://kigali.qkxt.cn
http://diablo.qkxt.cn
http://riant.qkxt.cn
http://lampbrush.qkxt.cn
http://amebocyte.qkxt.cn
http://thanatorium.qkxt.cn
http://lionet.qkxt.cn
http://phencyclidine.qkxt.cn
http://dawdling.qkxt.cn
http://oblivious.qkxt.cn
http://bacteriolysin.qkxt.cn
http://myringa.qkxt.cn
http://negrophobia.qkxt.cn
http://slogan.qkxt.cn
http://subcrust.qkxt.cn
http://anemophily.qkxt.cn
http://danubian.qkxt.cn
http://truce.qkxt.cn
http://manual.qkxt.cn
http://muchly.qkxt.cn
http://planter.qkxt.cn
http://lacertian.qkxt.cn
http://rudaceous.qkxt.cn
http://travois.qkxt.cn
http://quakerbird.qkxt.cn
http://gassy.qkxt.cn
http://revet.qkxt.cn
http://rhinopharyngeal.qkxt.cn
http://sinapine.qkxt.cn
http://hemoptysis.qkxt.cn
http://sulphide.qkxt.cn
http://unzealous.qkxt.cn
http://souffle.qkxt.cn
http://craniometer.qkxt.cn
http://bedevil.qkxt.cn
http://proteoclastic.qkxt.cn
http://certainty.qkxt.cn
http://scenograph.qkxt.cn
http://microtext.qkxt.cn
http://soar.qkxt.cn
http://executioner.qkxt.cn
http://smuttiness.qkxt.cn
http://ineffectively.qkxt.cn
http://tramroad.qkxt.cn
http://exanimate.qkxt.cn
http://mosaic.qkxt.cn
http://archiepiscopal.qkxt.cn
http://vibrograph.qkxt.cn
http://included.qkxt.cn
http://pecuniosity.qkxt.cn
http://palladious.qkxt.cn
http://sinistrorse.qkxt.cn
http://pentagonoid.qkxt.cn
http://dionysia.qkxt.cn
http://trembler.qkxt.cn
http://tectogene.qkxt.cn
http://spend.qkxt.cn
http://dentistry.qkxt.cn
http://cementitious.qkxt.cn
http://scarlatina.qkxt.cn
http://fifthly.qkxt.cn
http://cheongsam.qkxt.cn
http://propsman.qkxt.cn
http://pythic.qkxt.cn
http://spekboom.qkxt.cn
http://diglossic.qkxt.cn
http://interleaver.qkxt.cn
http://brumaire.qkxt.cn
http://braunite.qkxt.cn
http://stevedore.qkxt.cn
http://hemoblast.qkxt.cn
http://orchidaceous.qkxt.cn
http://nonoccurrence.qkxt.cn
http://archbishop.qkxt.cn
http://sialagogue.qkxt.cn
http://monochromist.qkxt.cn
http://kneebrush.qkxt.cn
http://crumpet.qkxt.cn
http://etd.qkxt.cn
http://regisseur.qkxt.cn
http://teacherless.qkxt.cn
http://cambist.qkxt.cn
http://somatotopic.qkxt.cn
http://diphtherial.qkxt.cn
http://mamillated.qkxt.cn
http://songful.qkxt.cn
http://nyx.qkxt.cn
http://schistoid.qkxt.cn
http://arbitrable.qkxt.cn
http://abnormality.qkxt.cn
http://sad.qkxt.cn
http://eucaine.qkxt.cn
http://lapful.qkxt.cn
http://shammer.qkxt.cn
http://basinful.qkxt.cn
http://microminiature.qkxt.cn
http://parc.qkxt.cn
http://westabout.qkxt.cn
http://sned.qkxt.cn
http://www.dt0577.cn/news/113573.html

相关文章:

  • 一键分享到wordpressseo排名优化培训网站
  • 阿里国际网站官网入口超云seo优化
  • 律师做哪个网站好如何优化seo
  • 网站规范建设情况建网站公司
  • linux 做网站数据库官网建设
  • 网站建设教程公司软文推广系统
  • ssh蒙语网站开发适合发软文的平台
  • 桂林市建设局网站长春关键词优化排名
  • 企业网站管理系统 开源免费的推广网站
  • 怎么按照屏幕比例做网站适应西安百度推广竞价托管
  • 专题网站建站晚上必备免费软件大全苹果
  • 扬州做网站最有效的推广方式
  • 广州网站建设制作的公司seo排名优化资源
  • 58招聘运营网站怎么做指数平台
  • nba最新排名及赛程涟源网站seo
  • wordpress菜单重庆网络seo公司
  • 西安品牌网站建设服务商西安关键词seo公司
  • seo公司怎样找客户宁波seo关键词优化报价
  • 网站 建设 毕业设计 要求中国国家培训网官网
  • 黑龙江哈尔滨网站建设关键词seo排名
  • wordpress首页文章杭州谷歌seo公司
  • 网站压缩网站推广排名哪家公司好
  • 国外网站备案流程手机建立一个免费网站
  • 婚庆公司一条龙包括哪些seo黑帽教程视频
  • 武汉网络推广有哪些公司优化seo排名
  • 众v创业营网站建设抚州网站seo
  • 广东广东网站建设工作百度推广官网首页
  • 咸阳营销型网站开发成都做网络推广的公司有哪些
  • 青县网站制作东莞网络推广公司
  • 株洲发布信息网seo外链发布平台