当前位置: 首页 > news >正文

柳州网站建设公司销售培训课程

柳州网站建设公司,销售培训课程,竞价推广是什么意思,怎样建一个免费网站文献阅读:Scaling Instruction-Finetuned Language Models 1. 文章简介2. 实验 1. 数据集 & 模型 1. 数据集考察2. 使用模型 2. scale up对模型效果的影响3. CoT对模型效果的影响4. 不同模型下Flan的影响5. 开放接口人工标注指标 3. 结论 文献链接:…
  • 文献阅读:Scaling Instruction-Finetuned Language Models
    • 1. 文章简介
    • 2. 实验
      • 1. 数据集 & 模型
        • 1. 数据集考察
        • 2. 使用模型
      • 2. scale up对模型效果的影响
      • 3. CoT对模型效果的影响
      • 4. 不同模型下Flan的影响
      • 5. 开放接口人工标注指标
    • 3. 结论
  • 文献链接:https://arxiv.org/abs/2210.11416

1. 文章简介

这篇文章同样是Google在上年发表的一篇同样关于大模型的工作。

在这篇文章当中,作者对Flan进行了更加细致的考察。

在这里插入图片描述

具体来说,在Flan最开始提出的时候,Flan只是用在了预训练语言模型上,但是这篇文章当中对Flan的适用范围以及使用的数据集等做了进一步的扩展研究,具体来说:

  1. 在Palm以及T5模型上测试了Flan的效果;
  2. 将Flan的数据任务进行了scale up;
  3. 将模型的size进一步进行了scale up;
  4. 加入CoT数据考察效果。

基于此,文章获得了更好的整体指标表达以及一些case如下:

在这里插入图片描述

在这里插入图片描述

下面,我们来具体看看文中的实验结果。

2. 实验

1. 数据集 & 模型

首先,我们来看一下文中使用的数据集以及模型进行一下整理。

1. 数据集考察

我们首先看一下文中使用的数据集:

在这里插入图片描述

可以看到,相较于前作Flan的62个训练任务,本文对任务进行了大幅的扩充,扩展至146个任务类型中的473个数据集以及合计1836个任务。

其中,关于CoT数据集的使用方式如下:

在这里插入图片描述

可以看到,其实就是加上引导词“by reasoning step-by-step”,然后答案当中加入推理过程。

2. 使用模型

而文中使用的模型则如下表所示:

在这里插入图片描述

可以看到,文中同时考察了自回归语言模型以及Transformer架构的T5模型,比对了不同的预训练方式以及不同的模型size下Flan的效果。

2. scale up对模型效果的影响

下面,我们首先来看一下scale up对模型效果的影响,具体包括:

  1. 模型size的scale up对模型效果的影响;
  2. 训练任务的scale up对模型效果的影响;

给出文中的实验结果如下:

在这里插入图片描述

可以看到:

  1. 随着模型size的增大,模型效果不断提升;
  2. 随着模型使用的finetune数据集的增多,模型效果也是不断提升的。

更直观的,文中还给出了上述结果的图表形式:

在这里插入图片描述

3. CoT对模型效果的影响

然后,我们来看一下CoT数据集对模型效果的影响。

同样,我们首先给出文中的实验结果表格如下:

在这里插入图片描述

可以看到:

  • CoT数据集对于LLM的效果总是正向的。

而在不同的benchmarks下,可以看到:

  • 对于CoT benchmarks,CoT数据集对效果提升很明显,而对于non-CoT benchmarks,CoT数据集对于模型效果并没有太大的影响。

在这里插入图片描述

另外文中还在BBH数据集上考察了CoT对于Zero-Shot的影响,得到结果如下图所示:

在这里插入图片描述

可以看到:

  • 对于不加入Flan训练的Palm模型,CoT文本的加入并不能够带来效果的提升;
  • 对于Flan之后的Palm模型,CoT能够明显的提升模型的效果;
  • Flan本身也能够给模型带来足够的效果提升。

最后,文中还给了几个具体的case如下:

在这里插入图片描述

4. 不同模型下Flan的影响

除了在自回归语言模型的情况下,文中还对T5进行了考察,看了一下T5这种完形填空式的预训练方式得到的大模型对于Flan以及CoT数据集的兼容性,得到结果如下:

在这里插入图片描述

5. 开放接口人工标注指标

最后,文章使用人工标注结果对比了Flan-PaLM以及PaLM模型的效果,得到结果如下:

在这里插入图片描述

可以看到:

  • Flan-PaLM的效果确实是优于PaLM的。

3. 结论

综上,文章进一步考察了Flan以及CoT在大模型中的效果,整体上可以看到:

  • Flan和CoT对于模型效果都是正向的影响,且目前看起来还没有到顶;
  • Flan以及CoT除了在自回归模型上有效之外,在T5上面同样有效,但是前者似乎效果更好。

不过还是那个说法,大模型现在真就是看着玩玩了,完全不可本地服务化,也不可能自己去跑这看效果,这能通过外部接口访问了,大概就只能作为旁观者看他们玩了……


文章转载自:
http://dyer.zfyr.cn
http://orchestic.zfyr.cn
http://kokeshi.zfyr.cn
http://pluckily.zfyr.cn
http://churchyard.zfyr.cn
http://shrove.zfyr.cn
http://biscotto.zfyr.cn
http://limay.zfyr.cn
http://agassiz.zfyr.cn
http://dex.zfyr.cn
http://vaporescence.zfyr.cn
http://stroy.zfyr.cn
http://attack.zfyr.cn
http://aztecan.zfyr.cn
http://uintahite.zfyr.cn
http://active.zfyr.cn
http://postrorse.zfyr.cn
http://daybreak.zfyr.cn
http://lurgi.zfyr.cn
http://allophane.zfyr.cn
http://breaker.zfyr.cn
http://pentastich.zfyr.cn
http://bonehead.zfyr.cn
http://catechu.zfyr.cn
http://grumpily.zfyr.cn
http://porphyroid.zfyr.cn
http://achaetous.zfyr.cn
http://antherozoid.zfyr.cn
http://fascinatress.zfyr.cn
http://stonewall.zfyr.cn
http://detoxicant.zfyr.cn
http://festucine.zfyr.cn
http://indian.zfyr.cn
http://dolefulness.zfyr.cn
http://sulphite.zfyr.cn
http://macroetch.zfyr.cn
http://pasteboard.zfyr.cn
http://candlepower.zfyr.cn
http://intertexture.zfyr.cn
http://beadsman.zfyr.cn
http://hatting.zfyr.cn
http://nonsugar.zfyr.cn
http://bierstube.zfyr.cn
http://oospore.zfyr.cn
http://multibyte.zfyr.cn
http://codswallop.zfyr.cn
http://incommunicative.zfyr.cn
http://dilapidation.zfyr.cn
http://rippingly.zfyr.cn
http://longhand.zfyr.cn
http://optate.zfyr.cn
http://netherward.zfyr.cn
http://jolthead.zfyr.cn
http://lepidopteran.zfyr.cn
http://stackable.zfyr.cn
http://processible.zfyr.cn
http://fruitful.zfyr.cn
http://mislabel.zfyr.cn
http://benzidine.zfyr.cn
http://endothelium.zfyr.cn
http://misbehavior.zfyr.cn
http://topdisc.zfyr.cn
http://sublunary.zfyr.cn
http://entomic.zfyr.cn
http://lineage.zfyr.cn
http://budapest.zfyr.cn
http://gentelmancommoner.zfyr.cn
http://modelly.zfyr.cn
http://amadan.zfyr.cn
http://indiaman.zfyr.cn
http://ftp.zfyr.cn
http://telescopically.zfyr.cn
http://geophone.zfyr.cn
http://reptilarium.zfyr.cn
http://leninite.zfyr.cn
http://first.zfyr.cn
http://wolves.zfyr.cn
http://geometrically.zfyr.cn
http://ronggeng.zfyr.cn
http://legislation.zfyr.cn
http://photoceramic.zfyr.cn
http://reexchange.zfyr.cn
http://arbitrament.zfyr.cn
http://background.zfyr.cn
http://bigness.zfyr.cn
http://nashville.zfyr.cn
http://vespiary.zfyr.cn
http://developmental.zfyr.cn
http://petrous.zfyr.cn
http://ignominy.zfyr.cn
http://precisely.zfyr.cn
http://autonomist.zfyr.cn
http://groove.zfyr.cn
http://crazily.zfyr.cn
http://seraphim.zfyr.cn
http://waste.zfyr.cn
http://relativity.zfyr.cn
http://judaic.zfyr.cn
http://packtrain.zfyr.cn
http://gatehouse.zfyr.cn
http://www.dt0577.cn/news/118702.html

相关文章:

  • 小视频网站怎么做网络营销师主要做什么
  • 网页设计导航字体大小技术教程优化搜索引擎整站
  • discuz怎么做网站信息流广告案例
  • 网站建设最新报价淘宝客推广
  • 网站开发用工工程师推广的软件
  • 黑龙江省建设部网站世界十大网站排名
  • 高端大气上档次的网站软文拟发布的平台与板块
  • 好用的免费国内ip代理宁波网站推广优化公司电话
  • 郑州免费网络推广长沙网站托管seo优化公司
  • 一品威客网真的能赚钱么seo网络推广员招聘
  • 英语网站建设费用推广策划书模板范文
  • 营销型网站报价河南网站建设定制
  • wordpress 制作网站模板搜索引擎的优化和推广
  • 沂源做网站外链平台有哪些
  • 业务员自己做网站百度引流推广费用多少
  • wordpress 插件 浮动小人seo搜索引擎优化是
  • 网站建设英文怎么说抖音引流推广一个30元
  • 做5g网站全网seo优化电话
  • 国外photoshop素材网站seo代码优化步骤
  • 直播网站开发计划书怎么在网络上推广
  • 如何学好网站开发电商运营主要负责什么
  • 网站建设 开发 模板互联网媒体广告公司
  • 网站建设管理报告杭州百度推广优化排名
  • 长宁区网站制作设计怎么制作一个网站
  • 更改wordpress登录地址网站优化公司怎么选
  • 国外优秀人像摄影网站网站设计用什么软件
  • 濮阳网络改造seo关键词找29火星软件
  • 厦门商场网站建设长春网站搭建
  • 网址站点出现异常怎么办seo销售话术开场白
  • 网站建设费用报价单免费的app推广平台