当前位置: 首页 > news >正文

柳州网站建设公司seo网站优化培训公司

柳州网站建设公司,seo网站优化培训公司,手表网站 云,广州市财经商贸职业学校文献阅读:Scaling Instruction-Finetuned Language Models 1. 文章简介2. 实验 1. 数据集 & 模型 1. 数据集考察2. 使用模型 2. scale up对模型效果的影响3. CoT对模型效果的影响4. 不同模型下Flan的影响5. 开放接口人工标注指标 3. 结论 文献链接:…
  • 文献阅读:Scaling Instruction-Finetuned Language Models
    • 1. 文章简介
    • 2. 实验
      • 1. 数据集 & 模型
        • 1. 数据集考察
        • 2. 使用模型
      • 2. scale up对模型效果的影响
      • 3. CoT对模型效果的影响
      • 4. 不同模型下Flan的影响
      • 5. 开放接口人工标注指标
    • 3. 结论
  • 文献链接:https://arxiv.org/abs/2210.11416

1. 文章简介

这篇文章同样是Google在上年发表的一篇同样关于大模型的工作。

在这篇文章当中,作者对Flan进行了更加细致的考察。

在这里插入图片描述

具体来说,在Flan最开始提出的时候,Flan只是用在了预训练语言模型上,但是这篇文章当中对Flan的适用范围以及使用的数据集等做了进一步的扩展研究,具体来说:

  1. 在Palm以及T5模型上测试了Flan的效果;
  2. 将Flan的数据任务进行了scale up;
  3. 将模型的size进一步进行了scale up;
  4. 加入CoT数据考察效果。

基于此,文章获得了更好的整体指标表达以及一些case如下:

在这里插入图片描述

在这里插入图片描述

下面,我们来具体看看文中的实验结果。

2. 实验

1. 数据集 & 模型

首先,我们来看一下文中使用的数据集以及模型进行一下整理。

1. 数据集考察

我们首先看一下文中使用的数据集:

在这里插入图片描述

可以看到,相较于前作Flan的62个训练任务,本文对任务进行了大幅的扩充,扩展至146个任务类型中的473个数据集以及合计1836个任务。

其中,关于CoT数据集的使用方式如下:

在这里插入图片描述

可以看到,其实就是加上引导词“by reasoning step-by-step”,然后答案当中加入推理过程。

2. 使用模型

而文中使用的模型则如下表所示:

在这里插入图片描述

可以看到,文中同时考察了自回归语言模型以及Transformer架构的T5模型,比对了不同的预训练方式以及不同的模型size下Flan的效果。

2. scale up对模型效果的影响

下面,我们首先来看一下scale up对模型效果的影响,具体包括:

  1. 模型size的scale up对模型效果的影响;
  2. 训练任务的scale up对模型效果的影响;

给出文中的实验结果如下:

在这里插入图片描述

可以看到:

  1. 随着模型size的增大,模型效果不断提升;
  2. 随着模型使用的finetune数据集的增多,模型效果也是不断提升的。

更直观的,文中还给出了上述结果的图表形式:

在这里插入图片描述

3. CoT对模型效果的影响

然后,我们来看一下CoT数据集对模型效果的影响。

同样,我们首先给出文中的实验结果表格如下:

在这里插入图片描述

可以看到:

  • CoT数据集对于LLM的效果总是正向的。

而在不同的benchmarks下,可以看到:

  • 对于CoT benchmarks,CoT数据集对效果提升很明显,而对于non-CoT benchmarks,CoT数据集对于模型效果并没有太大的影响。

在这里插入图片描述

另外文中还在BBH数据集上考察了CoT对于Zero-Shot的影响,得到结果如下图所示:

在这里插入图片描述

可以看到:

  • 对于不加入Flan训练的Palm模型,CoT文本的加入并不能够带来效果的提升;
  • 对于Flan之后的Palm模型,CoT能够明显的提升模型的效果;
  • Flan本身也能够给模型带来足够的效果提升。

最后,文中还给了几个具体的case如下:

在这里插入图片描述

4. 不同模型下Flan的影响

除了在自回归语言模型的情况下,文中还对T5进行了考察,看了一下T5这种完形填空式的预训练方式得到的大模型对于Flan以及CoT数据集的兼容性,得到结果如下:

在这里插入图片描述

5. 开放接口人工标注指标

最后,文章使用人工标注结果对比了Flan-PaLM以及PaLM模型的效果,得到结果如下:

在这里插入图片描述

可以看到:

  • Flan-PaLM的效果确实是优于PaLM的。

3. 结论

综上,文章进一步考察了Flan以及CoT在大模型中的效果,整体上可以看到:

  • Flan和CoT对于模型效果都是正向的影响,且目前看起来还没有到顶;
  • Flan以及CoT除了在自回归模型上有效之外,在T5上面同样有效,但是前者似乎效果更好。

不过还是那个说法,大模型现在真就是看着玩玩了,完全不可本地服务化,也不可能自己去跑这看效果,这能通过外部接口访问了,大概就只能作为旁观者看他们玩了……

http://www.dt0577.cn/news/57477.html

相关文章:

  • 男女做爰高清免费视频网站优化推广网站seo
  • 镇江做网站多少钱淘宝优化关键词的步骤
  • 做网站用html还是python好百度怎么找人工客服
  • 360网站上做宣传要多少钱今日特大新闻新事
  • 网站建设的想法企业建站公司热线电话
  • 网站里的搜索怎么做的软文素材
  • 温州做网站多少钱北京网络营销推广外包
  • golang建设网站网站优化seo怎么做
  • 如何建网站运营网站怎么在百度上做广告
  • 青海市建设局网站营销策略4p
  • 网站怎么自己做优化宝鸡seo排名
  • 做网站程序看什么书巨量引擎广告投放平台代理
  • 网站维护与更新软文吧
  • php动态网站设计作业成品安卓优化大师手机版
  • 贸易网站开发站长工具seo源码
  • 没有网站没有推广如何做外贸seo去哪里学
  • 住房建设部官方网站居住区政策短视频seo询盘系统
  • 做网站是靠什么赚钱的云南网络营销seo
  • 网站开发调试iisseo搜索引擎优化薪资水平
  • 怎么查看网站有没有备案北京百度快速优化排名
  • 大学生创业做创意宿舍装修网站网络营销策略内容
  • 杭州网站建设哪里好各大搜索引擎提交入口
  • wordpress与微信对接seo教学
  • 做培训体系的网站附近的成人电脑培训班
  • 潍坊制作网站公司泰安短视频seo
  • 如何利用java工具做网站单页网站排名优化
  • 网站规划书包括哪些方面昆山网站制作哪家好
  • 许昌做网站如何提高关键词搜索排名
  • 网站怎么做跳转安全狠抓措施落实
  • 做视频直播的网站有哪些抖音seo教程