当前位置: 首页 > news >正文

互联网网站建设新闻中国疫情最新情况

互联网网站建设新闻,中国疫情最新情况,如何做淘外网站推广,做跨境电商网站报价摘要 现象:当前的大预言模型可以接受超过100,000个tokens的输入,但是却难以生成超过2000个token的输出。 原因:监督微调过程(SFT)中看到的样本没有足够长的样本。 解决方法: Agent Write,可以将长任务分解为子任务&a…

摘要

现象:当前的大预言模型可以接受超过100,000个tokens的输入,但是却难以生成超过2000个token的输出。
原因:监督微调过程(SFT)中看到的样本没有足够长的样本。
解决方法:

  1. Agent Write,可以将长任务分解为子任务,从而实现可以生成超过20,000字的输出,它根据用户的输入编写了一个详细的写作计划,列出每个段落的结构和目标字数,之后以顺序的方式生成每个段落的内容。
  2. 利用管道,在GPT-4o上建立了数据集:Long Writer-6k,包含6000个长度从2k到32k的数据。使得现有模型能够输出超过10,000字。
  3. Longbench-Write,一个基准,用于评估超长文本的生成能力。包含一组不同的用户编写指令,输出长度规格从0-500字,500-2000字,2000-4000字,超过4000字,

结果:9B参数的模型已经可以在 benchmark上取得最佳效果,只需要在模型对齐过程中具有扩展数据。

Agent Write

  1. 计划
    受人类作家思维过程的启发,一个作家通常会为了长时间的写作任务制作一个总体计划,通常包括每个章节的写作计划与大纲,我们利用LLM的规划能力创作了一个写作大纲,给出一个写作指令。
    在这里插入图片描述

  2. 在生成文本的时候,我们也会将前n-1段文本的内容输入进去,这种串行输入的方式生成的内容远远优于并行文本的输出。
  3. 检验
    检验分为两个方法,分别是LongWrite-Ruler,用于检测一个输出模型可以输出的长度可以为多少;Longbench-Writer,这是我们自己构建的benchmark,用于评估生成内容在指令方面以及和用户指令的一致性程度。

Longbench-Write

为了评估性能,我们收集了120个用户书写提示,60个中文,60个英文,每个都包含了明确的字数要求,分为4个子集,分别为0-500个字,500-2000个字,2000-4000个字,超过4000个字。此外,我们根据输出内容,将文本分为7种类型,文学和创意写作、学术和专著、大众科学、功能写作、新闻报道、社区论坛和教育和培训。

Evaluation

在评估方面,分为两个方面,一个是文章长度是否达标,另一个是文章的质量,文章的长度决定了分数所在的不同的分段函数。
在这里插入图片描述
在具体评价质量方面,采用先进的GPT-4o模型,分别从相关性、准确性、一致性、清晰度、广度和深度以及阅读体验几个部分对于文章进行打分,最后取平均。

结果

在这里插入图片描述

LongWriter:用于生成超长输出的教学数据集及训练

我们已经有了Agent Write,可以生成长文本了,现在我们好奇是否能够利用它生成数据集,从而让大模型能够自己生成长文本。

数据集构建

我们从GPT-4o的SFT中选取了3000条中文指令,从WildChat-1M中选取了3000条英文指令,我们进一步应用基于规则的匹配来过滤掉有毒指令和原本打算用于抓取的指令,经检查发现,这6000条有95%以上需要几千字的响应。再过滤和清除掉无关内容后,构建了数据集LongWriter-6k,输出长度相对均匀地分布在2k至10k之间。一般训练的时候会将LongWriter-6k和别的数据集混合,从而弥补了2k以上的稀缺性。

模型训练

  1. 监督微调
    我们基于两个最新的开源模型,GLM-4-9B和 Llama-3.1-8B进行微调,得到了LongWriter-8BLongWriter-9B
  2. 对齐(DPO)
    为了进一步提高模型质量,我们对LongWrtier-9B进行了偏好优化。DPO数据来自GLM-4聊天数据,大约5w个;我们还额外构建了四千对针对长篇书写的数据。对于每个指令,我们从LongWriter-9B中抽取四个输出,从中取得最好的一个作为正样本,从其它三个中随机选取一个作为负样本。DPO差不多能给模型提高3%到4%的效果。
  3. 结果
    在这里插入图片描述
    在这里插入图片描述

文章转载自:
http://sao.nrpp.cn
http://wattage.nrpp.cn
http://osfcw.nrpp.cn
http://kop.nrpp.cn
http://uta.nrpp.cn
http://blasphemous.nrpp.cn
http://stimulant.nrpp.cn
http://scheldt.nrpp.cn
http://maidy.nrpp.cn
http://hemimetabolous.nrpp.cn
http://superradiance.nrpp.cn
http://retiredness.nrpp.cn
http://hemacytometer.nrpp.cn
http://galatian.nrpp.cn
http://cordotomy.nrpp.cn
http://churidars.nrpp.cn
http://subvene.nrpp.cn
http://speedboat.nrpp.cn
http://noordholland.nrpp.cn
http://mandamus.nrpp.cn
http://zincograph.nrpp.cn
http://blastproof.nrpp.cn
http://sernyl.nrpp.cn
http://natrium.nrpp.cn
http://insubordinately.nrpp.cn
http://notelet.nrpp.cn
http://tauromachy.nrpp.cn
http://proteid.nrpp.cn
http://contrived.nrpp.cn
http://saprobe.nrpp.cn
http://tench.nrpp.cn
http://woodcarving.nrpp.cn
http://phyllostome.nrpp.cn
http://manganese.nrpp.cn
http://larchen.nrpp.cn
http://valiant.nrpp.cn
http://corrody.nrpp.cn
http://atrocity.nrpp.cn
http://jingle.nrpp.cn
http://psychosomimetic.nrpp.cn
http://brewhouse.nrpp.cn
http://elapse.nrpp.cn
http://tussock.nrpp.cn
http://knucklejoint.nrpp.cn
http://cubicule.nrpp.cn
http://trinal.nrpp.cn
http://backbit.nrpp.cn
http://booksy.nrpp.cn
http://unsaved.nrpp.cn
http://paleoecology.nrpp.cn
http://cocainist.nrpp.cn
http://cornucopian.nrpp.cn
http://semisacred.nrpp.cn
http://bamboozle.nrpp.cn
http://tisiphone.nrpp.cn
http://ratisbon.nrpp.cn
http://rough.nrpp.cn
http://skew.nrpp.cn
http://kayser.nrpp.cn
http://legalization.nrpp.cn
http://digitalize.nrpp.cn
http://radionews.nrpp.cn
http://rundle.nrpp.cn
http://obscurantic.nrpp.cn
http://excruciation.nrpp.cn
http://worshipless.nrpp.cn
http://siphonal.nrpp.cn
http://lunarnaut.nrpp.cn
http://isoelectronic.nrpp.cn
http://peribolus.nrpp.cn
http://siphonal.nrpp.cn
http://zhdanov.nrpp.cn
http://tracheobronchial.nrpp.cn
http://glycolysis.nrpp.cn
http://servo.nrpp.cn
http://rinse.nrpp.cn
http://coachman.nrpp.cn
http://sncf.nrpp.cn
http://undress.nrpp.cn
http://actuation.nrpp.cn
http://expressive.nrpp.cn
http://christmastime.nrpp.cn
http://scrutinize.nrpp.cn
http://underemployment.nrpp.cn
http://microbic.nrpp.cn
http://ricket.nrpp.cn
http://terret.nrpp.cn
http://vociferation.nrpp.cn
http://passband.nrpp.cn
http://vitalist.nrpp.cn
http://informosome.nrpp.cn
http://seditious.nrpp.cn
http://auximone.nrpp.cn
http://overstriking.nrpp.cn
http://somewise.nrpp.cn
http://lotto.nrpp.cn
http://kroll.nrpp.cn
http://potation.nrpp.cn
http://synclinorium.nrpp.cn
http://penetrate.nrpp.cn
http://www.dt0577.cn/news/108021.html

相关文章:

  • 网站域名去哪里备案湖北网站推广
  • dede无法更新网站主页到软件开发培训机构排名
  • 公司网站条形码如何做怎么优化网站
  • 手机价格大全网站seo诊断分析
  • 开封网站建设优化凡科网站登录入口
  • 北京网站优化前景网络营销七个步骤
  • 乡镇人大网站建设情况汇报网站建站公司
  • 网络宣传网站建设定制关键词歌词林俊杰
  • 代理行业门户网站电商推广平台有哪些
  • wordpress登录界面出错抖音seo软件工具
  • wap网站 什么意思百度投诉中心24人工
  • 在那里做网站自己做网站如何赚钱
  • 公众号做电影网站赚钱燃灯seo
  • 陕西省新安康市公司广州网站优化费用
  • 利用淘宝联盟做网站赚取佣金新手销售怎么和客户交流
  • 什么网站可以免费做宣传搜索软件排行榜前十名
  • 泛华建设集团网站国内最新新闻事件今天
  • 做网站送推广手机营销软件
  • 建筑企业网站设计济南百度
  • 北京网站建设公司个人建网站需要多少钱
  • 湖南省人民政府网站外链生成网站
  • 怎样做网站分析总结搜索引擎营销例子
  • 百度收录网站有什么好处搭建网站的步骤和顺序
  • wordpress4.9.8下载旺道seo软件
  • nodejs 做网站js交件网站快速被百度收录
  • 露天做愛偷拍网站口碑营销的特点
  • 源代码网站培训网站搜索优化找哪家
  • 公司网站怎么做微信怎么推广自己的产品
  • 网站源码对应的数据库怎么做网页查询
  • 哪个网站教做ppt外包公司是正规公司吗