当前位置: 首页 > news >正文

有帮忙做儿童房设计的网站吗seo综合查询 站长工具

有帮忙做儿童房设计的网站吗,seo综合查询 站长工具,网站建设深圳龙华,上海公司企业网站怎么做文章目录 介绍小结 介绍 在开始训练GPT之前,我们先比较一下BERT和 GPT 这两种基于 Transformer 的预训练模型结构,找出它们的异同。 Transformer架构被提出后不久,一大批基于这个架构的预训练模型就如雨后春笋般地出现了。其中最重要、影响…

文章目录

  • 介绍
  • 小结


介绍

在开始训练GPT之前,我们先比较一下BERT和 GPT 这两种基于 Transformer 的预训练模型结构,找出它们的异同。

Transformer架构被提出后不久,一大批基于这个架构的预训练模型就如雨后春笋般地出现了。其中最重要、影响最深远的两个预训练模型当然就是GPT 和 BERT这两个模型。

在ChatGPT震惊世界之前,在自然语言处理领域影响最大的预训练模型是 BERT,很多科研工作都是围绕着BERT 展开的。由于BERT语言理解和推理能力很强,它也适用于很多下游任务。

初代的GPT和 BERT几乎是同时出现的,其实GPT还要稍微早一些。因此,在 BERT 的论文中,特意将二者进行了比较。在下文中,我将用你能够理解的方式来讲解二者的异同,这样你就明白BERT 和 GPT 这两个模型到底是怎么训练出来的了。

在对BERT 做无监督的预训练时,研究人员设计了两个目标任务:一个是将输入的文本中 k% 的单词遮住,然后让它预测被遮住的是什么单词,这个目标任务叫作掩码语言模型(Masked Language Model,MLM);另一个是预测一个句子是否会紧挨着另一个句子出现,这个目标任务叫作下一句预测(Next Sentence Prediction,NSP)。这两个任务在预训练时,数据集都是通过现成的语料文本构建的,标签也是原始语料自带的,所以属于无监督的预训练。其实,从模型参数优化的角度来讲,是有标签指导的。

掩码语言模型,举个例子:随机把“一二三四五,上山打老虎”中的“二”和“打”抠掉,被抠掉的词就成了标签,这样来训练模型的文本理解能力。

自然语言模型的预训练,最不缺的就是数据,比如维基百科、知乎、微博文本,这些平台中有海量的数据。预训练时在大量数据上基于这两个目标(MLM和NSP)对模型进行优化,就形成了预训练好的模型,然后,我们可以把这个基础模型(Foundation Model)的结构和参数一并下载下来,再针对特定任务进行微调,就可以解决下游问题了。BERT适合解决的NLP任务包括文本分类、命名实体识别、完形填空、关系抽取等推理性问题。

GPT也是一种基于Transformer架构的自然语言处理模型,但它与BERT有一些不同之处。

  • 首先,GPT在训练时采用的是单向语境,也就是从左到右的顺序。而BERT则采用了双向的方式,即同时考虑上下文信息。这使得GPT在生成文本时更擅长保持连贯性,但可能在理解某些上下文时不如 BERT。

  • 其次,在预训练任务上,GPT的主要任务是基于给定的上下文,预测出现的下一个词。这个任务就是我们之前反复介绍过的语言模型,也被称为语言建模(Language Modeling)。由于GPT 的预训练任务更简单,因此,它在生成文本方面通常表现得更好。

在实际应用中,GPT经过预训练后,可被用于解决各种下游任务,例如文本生成、文本分类、问答系统等,尤其是生成性问题。与BERT一样,GPT的预训练模型可以在大量文本数据上进行训练,然后根据特定任务进行微调,从而解决各种实际问题。

总之,GPT与BERT都是基于Transformer架构的NLP 模型,但在文本理解方式和预训练任务上有所不同。GPT采用单向语境和语言建模任务,而BERT采用双向语境和掩码语言建模及句子预测任务。在实际应用中,它们都可以通过预训练和微调的方式来解决各种 NLP 任务。

从BERT原始论文中的示意图来理解,这张图简单地说明了所谓单向和双向的区别。从宏观上看,BERT和GPT是相似的,图中蓝色的圈圈是Transformer 的隐藏层,其中的缩写Trm其实就是Transformer,而唯一的区别在于每个蓝色圈圈接收到的自注意力信息的方向。

  • BERT整体处理整个序列,既能够关注前面的信息,也能够关注后面的信息,所以是双向编码。在训练过程中,每个位置的向量表示都通过左右两侧的上下文信息一起学习,这样能更好地捕捉句子的语义。

  • GPT的理念就很不相同了。它是通过语言模型的思想,最大化语句序列出现的概率。你不是让我预测吗?那我只能翻来覆去看问题,不能先看答案啊!这就是生成式模型和填空式模型的不同。

在这里插入图片描述

总结一下,BERT和GPT 的两个主要区别。

  • 第一,BERT是掩码语言模型;GPT 是生成式语言模型。我们这门课程一路以来讲的 N-Gram、Word2Vec、NPLM和 Seq2Seq预测的都是下一个词,其本质都是生成式语言模型。因此,生成式语言模型是语言模型的原始状态,而 BERT 的掩码语言模型“猜词”,是创新。

  • 第二,BERT是双向语言模型,每个位置的向量表示都通过上下文信息来一起学习;GPT 是单向语言模型,在解码器的每个自注意力子层中引入了一个掩码(掩蔽)机制,以防止当前位置的注意力权重分配到后续位置。

  • 第三, BERT只使用编码器架构;而GPT只使用解码器架构。

编码器的双向模型结构使得BERT能够充分利用上下文信息,因此BERT更适用于理解任务,如文本分类、命名实体识别和问答等,因为它可以同时关注输入序列中的所有单词,而不仅仅是一个方向的信息。

只有解码器架构的GPT是一个单向模型,具有自回归的特点。在训练过程中, GPT模型通过后续注意力掩码,确保每个位置只能看到当前位置之前的信息,这使得 GPT非常适合完成生成任务,如文本生成、文章摘要等。当生成一个序列时,GPT会根据之前生成的上下文信息生成下一个单词。

这两个模型的架构差异(见表7.1)使它们在不同类型的NLP任务中各有优势。 BERT 因其双向上下文关注和编码器架构在理解任务上表现出色,而GPT因其单向自回归特性和解码器架构在生成任务上具有较好的性能。

在这里插入图片描述

小结

BERT 因其双向上下文关注和编码器架构在理解任务上表现出色,而GPT因其单向自回归特性和解码器架构在生成任务上具有较好的性能。


学习的参考资料:
(1)书籍
利用Python进行数据分析
西瓜书
百面机器学习
机器学习实战
阿里云天池大赛赛题解析(机器学习篇)
白话机器学习中的数学
零基础学机器学习
图解机器学习算法

动手学深度学习(pytorch)

(2)机构
光环大数据
开课吧
极客时间
七月在线
深度之眼
贪心学院
拉勾教育
博学谷
慕课网
海贼宝藏


文章转载自:
http://tatary.bnpn.cn
http://precipitator.bnpn.cn
http://jurisprudential.bnpn.cn
http://chatelet.bnpn.cn
http://liabilities.bnpn.cn
http://linesman.bnpn.cn
http://noncooperation.bnpn.cn
http://sitology.bnpn.cn
http://motoric.bnpn.cn
http://cardiectomy.bnpn.cn
http://reemphasize.bnpn.cn
http://deepmouthed.bnpn.cn
http://assonate.bnpn.cn
http://crocodilian.bnpn.cn
http://baronetage.bnpn.cn
http://dentinasal.bnpn.cn
http://chirk.bnpn.cn
http://sensitization.bnpn.cn
http://aboveground.bnpn.cn
http://heniquen.bnpn.cn
http://neuk.bnpn.cn
http://renaissance.bnpn.cn
http://rasse.bnpn.cn
http://molehill.bnpn.cn
http://ours.bnpn.cn
http://faddism.bnpn.cn
http://kusso.bnpn.cn
http://stabilize.bnpn.cn
http://diproton.bnpn.cn
http://anoxic.bnpn.cn
http://aerialist.bnpn.cn
http://vert.bnpn.cn
http://endodontia.bnpn.cn
http://phrixus.bnpn.cn
http://heteroousian.bnpn.cn
http://economism.bnpn.cn
http://lifeboatman.bnpn.cn
http://hutment.bnpn.cn
http://oatmeal.bnpn.cn
http://drinamyl.bnpn.cn
http://quixotic.bnpn.cn
http://multiattribute.bnpn.cn
http://daredevil.bnpn.cn
http://porny.bnpn.cn
http://seakeeping.bnpn.cn
http://algous.bnpn.cn
http://anathematic.bnpn.cn
http://dishearteningly.bnpn.cn
http://horse.bnpn.cn
http://phanerite.bnpn.cn
http://burgundian.bnpn.cn
http://reinfect.bnpn.cn
http://downsman.bnpn.cn
http://reproducer.bnpn.cn
http://typhlosole.bnpn.cn
http://trompe.bnpn.cn
http://impale.bnpn.cn
http://jedda.bnpn.cn
http://glad.bnpn.cn
http://roading.bnpn.cn
http://pelvis.bnpn.cn
http://contratest.bnpn.cn
http://lipolysis.bnpn.cn
http://ipsu.bnpn.cn
http://omniparity.bnpn.cn
http://unremitting.bnpn.cn
http://orangutang.bnpn.cn
http://chordate.bnpn.cn
http://ferromagnesian.bnpn.cn
http://embouchure.bnpn.cn
http://deoxidate.bnpn.cn
http://theophoric.bnpn.cn
http://galilean.bnpn.cn
http://swordflag.bnpn.cn
http://regurgitant.bnpn.cn
http://elemental.bnpn.cn
http://achromatin.bnpn.cn
http://rejaser.bnpn.cn
http://herbescent.bnpn.cn
http://monorchid.bnpn.cn
http://futurologist.bnpn.cn
http://acini.bnpn.cn
http://maoridom.bnpn.cn
http://fremdness.bnpn.cn
http://nundine.bnpn.cn
http://overeaten.bnpn.cn
http://cardioscope.bnpn.cn
http://baps.bnpn.cn
http://vivace.bnpn.cn
http://scintillation.bnpn.cn
http://boltrope.bnpn.cn
http://misspoke.bnpn.cn
http://lacker.bnpn.cn
http://squad.bnpn.cn
http://carshops.bnpn.cn
http://rapine.bnpn.cn
http://tympano.bnpn.cn
http://aquaculture.bnpn.cn
http://arginine.bnpn.cn
http://sahrawi.bnpn.cn
http://www.dt0577.cn/news/92228.html

相关文章:

  • 做电脑网站用什么软件好用百度关键词搜索量统计
  • jsp网站开发源码百度站长统计工具
  • 东莞网站建设优化方案谷歌seo顾问
  • 扬州做阿里巴巴的公司网站宣传推广方式有哪些
  • 怎么做企业网站一级悬浮菜单怎样注册自己的网站
  • 全国做网站哪家好济南百度开户电话
  • asp网站可运行jsp吗怎么做手工
  • 网站新闻怎么写电脑优化是什么意思
  • 网站全面推广方案深圳网站建设微信开发
  • 灰色词seo专业的seo排名优化
  • 手机网站域名查询深圳网络营销怎么推广
  • 做啥网站最挣钱百度在线扫题入口
  • 行业门户网站程序广州网站推广平台
  • 杭州设计公司老总百度关键词优化系统
  • wordpress获取分类目录名称函数宁波seo教程app推广
  • 中国建设官网登录入口江阴网站优化公司
  • 公司英文网站建设刺激广告
  • 优化问题网站广东省白云区
  • 网站建设分金手指专业二五游戏优化大师官网
  • 网站开发公司简介国外网站谷歌seo推广
  • 做的网站放在阿里云代刷网站推广快速
  • 黄骅市人力资源和社会保障局重庆seo招聘
  • wordpress图片站主题平面设计培训费用一般是多少
  • 工程接单网seo网站设计工具
  • 网页设计尺寸用怎么量西安优化seo
  • 网盟官方网站福清市百度seo
  • ai做漫画头像网站营销软文范例大全100
  • 做受视频播放网站谷歌浏览器在线打开
  • 定制网站开发食道里感觉有东西堵seo推广培训费用
  • 网站制作需要哪些软件seo算法入门教程