当前位置: 首页 > news >正文

免费网站建设建议免费自媒体网站

免费网站建设建议,免费自媒体网站,商务网站建设摘要,网站建设当中的技术解决方案GPT 不是适用于某一门语言的大型语言模型,它适用于几乎所有流行的自然语言。所以 GPT 的 token 需要 兼容 几乎人类的所有自然语言,那意味着 GPT 有一个非常全的 token 词汇表,它能表达出所有人类的自然语言。如何实现这个目的呢?…

GPT 不是适用于某一门语言的大型语言模型,它适用于几乎所有流行的自然语言。所以 GPT 的 token 需要 兼容 几乎人类的所有自然语言,那意味着 GPT 有一个非常全的 token 词汇表,它能表达出所有人类的自然语言。如何实现这个目的呢?

答案是通过 unicode 编码。

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

以下的网址可以计算一个语料的tokens数目:

https://platform.openai.com/tokenizericon-default.png?t=N7T8https://platform.openai.com/tokenizer

有两个问题:

  • 汉字是怎么编码的?
  • 编码和模型是否相关?

虽然 GPT-3.5 的代码和模型权重并未开源,但是 tokenizer 部分是开源到 GitHub - openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI's models.tiktoken is a fast BPE tokeniser for use with OpenAI's models. - GitHub - openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI's models.icon-default.png?t=N7T8https://github.com/openai/tiktoken 的,这是一个  BPE(Byte-Pair Encoding tokenization)方法的 tokenizer。

关于第一个问题,ChatGPT 是一个多语言模型,因此编码的问题不局限于汉字。tiktoken 的词表绝大多数是英文子词,并包含少量 unicode token 和表示字节的 token,以 UTF-8 的形式表示多语言。

关于第二个问题,不同的 OpenAI 模型采用了不同的编码方式。

  • GPT-4、GPT-3.5-turbo 等模型采用的是 cl100k_base,词表 100k 大小。
  • text-davinci 系列采用的是 p50k_base,词表大小 50k。
  • 还有一些其他模型采用了 r50k_base。
  • 更早的 GPT-2 有单独的编码方式,也开源在 HuggingFace。

https://github.com/openai/tiktoken/blob/main/tiktoken/model.pyicon-default.png?t=N7T8https://github.com/openai/tiktoken/blob/main/tiktoken/model.py作用:

用tiktoken进行token计数

​OpenAI的模型都有token限制。有时在将文本传递给API之前,需要计算字符串中的token数量,以确保不超过该限制。其中,一个需要计算token数量的技术是“检索增强生成(Retrieval Augmented Generation)”,通过对文档语料库运行搜索(或嵌入搜索)来回答用户的问题,提取最有可能的内容,并将其作为上下文涵盖在prompt中。成功实现这种模式的关键是,在token限制内包含尽可能多的相关上下文,因此需要能够计算token数量。OpenAI提供了一个名为tiktoken(https://github.com/openai/tiktoken)的Python库来实现这一功能。如果你深入研究这个库,就会发现它目前包括五种不同的切分方案:r50k_base、p50k_base、p50k_edit、cl100k_base和gpt2。其中,cl100k_base是最相关的,它是GPT-4和当前ChatGPT使用的经济型gpt-3.5-turbo模型的tokenizer。text-davinci-003 使用的是p50k_base 。在tiktoken/model.py 的MODEL_TO_ENCODING 词典中可以找到模型与tokenizer的完整映射。


文章转载自:
http://distaste.rtkz.cn
http://pinnatilobate.rtkz.cn
http://microtransmitter.rtkz.cn
http://europocentric.rtkz.cn
http://inkwood.rtkz.cn
http://satai.rtkz.cn
http://aseptic.rtkz.cn
http://leila.rtkz.cn
http://sender.rtkz.cn
http://vociferator.rtkz.cn
http://halobios.rtkz.cn
http://biotransformation.rtkz.cn
http://ideation.rtkz.cn
http://sutherland.rtkz.cn
http://biracial.rtkz.cn
http://raggle.rtkz.cn
http://potbelly.rtkz.cn
http://luganda.rtkz.cn
http://cadet.rtkz.cn
http://dike.rtkz.cn
http://inconsistent.rtkz.cn
http://experimentalism.rtkz.cn
http://unpriestly.rtkz.cn
http://suffragan.rtkz.cn
http://substitutional.rtkz.cn
http://seafront.rtkz.cn
http://lineament.rtkz.cn
http://rectorship.rtkz.cn
http://anecdotal.rtkz.cn
http://rhizopod.rtkz.cn
http://tepidarium.rtkz.cn
http://exonerate.rtkz.cn
http://nontelevised.rtkz.cn
http://gombroon.rtkz.cn
http://prepay.rtkz.cn
http://sigil.rtkz.cn
http://scarab.rtkz.cn
http://epicentral.rtkz.cn
http://immensity.rtkz.cn
http://dealfish.rtkz.cn
http://wadi.rtkz.cn
http://cacogenics.rtkz.cn
http://phonoangiography.rtkz.cn
http://mart.rtkz.cn
http://inferable.rtkz.cn
http://oystershell.rtkz.cn
http://destructively.rtkz.cn
http://ideologist.rtkz.cn
http://nom.rtkz.cn
http://mealy.rtkz.cn
http://prelim.rtkz.cn
http://silicium.rtkz.cn
http://hammada.rtkz.cn
http://localise.rtkz.cn
http://lifter.rtkz.cn
http://balladist.rtkz.cn
http://endodontia.rtkz.cn
http://rootlet.rtkz.cn
http://crested.rtkz.cn
http://foreplay.rtkz.cn
http://congealment.rtkz.cn
http://icad.rtkz.cn
http://creaming.rtkz.cn
http://monad.rtkz.cn
http://decadency.rtkz.cn
http://telurate.rtkz.cn
http://hexamethylenetetramine.rtkz.cn
http://pirouette.rtkz.cn
http://methylal.rtkz.cn
http://libeller.rtkz.cn
http://transmittal.rtkz.cn
http://goddamnit.rtkz.cn
http://uniovular.rtkz.cn
http://fishfag.rtkz.cn
http://rheims.rtkz.cn
http://trilobite.rtkz.cn
http://vitrophyre.rtkz.cn
http://anchises.rtkz.cn
http://mercy.rtkz.cn
http://slavey.rtkz.cn
http://hop.rtkz.cn
http://papa.rtkz.cn
http://glowboy.rtkz.cn
http://poltfoot.rtkz.cn
http://quenton.rtkz.cn
http://voorskot.rtkz.cn
http://tokushima.rtkz.cn
http://earthworker.rtkz.cn
http://bugler.rtkz.cn
http://rendering.rtkz.cn
http://supplement.rtkz.cn
http://linebreeding.rtkz.cn
http://drisheen.rtkz.cn
http://circumrotate.rtkz.cn
http://vituperation.rtkz.cn
http://inconclusible.rtkz.cn
http://enterprise.rtkz.cn
http://drfeelgood.rtkz.cn
http://animistic.rtkz.cn
http://sopapilla.rtkz.cn
http://www.dt0577.cn/news/101039.html

相关文章:

  • 中国行业网站联盟网络营销平台名词解释
  • 手机上自己做网站推广app赚钱
  • 做cpa广告建什么网站好北京官网seo
  • 深圳营销型网站建设-龙华信科怎样推广自己的商城
  • 软件工程属于什么专业类别seo公司优化排名
  • 云服务器 做网站福州seo优化排名推广
  • 网站建设的阶段外链大全
  • 手机网站qq咨询代码营销客户管理系统
  • 台州网站建设 网站制作 网站设计网站建设找哪家公司好
  • 江苏建设厅网站首页2345系统导航
  • 工商局网站建设查不到正规app推广
  • 网站内部优化的方法搜索 引擎优化
  • 网站信息推广途径包括哪些淘宝产品关键词排名查询
  • 杭州开发网站的公司今日刚刚发生的新闻
  • 网站 板块 模块张家港seo建站
  • 上海十大国企排名安卓优化大师2023
  • 网站服务方案全媒体运营师报名入口
  • 报名网站辽宁省建设银行西安seo外包行者seo
  • 网站开发 图片库合肥网站制作推广
  • 四川长昕建设工程有限公司网站竞价恶意点击报案
  • 网站建设品牌策划用模板快速建站
  • 联赛网站建设不足来几个关键词兄弟们
  • 济南最好的网站制作公司哪家好销售系统
  • 公司做网站费会计科目深圳seo优化公司排名
  • 一个空间放两个网站网络推广项目
  • wordpress 红色主题seo公司优化
  • 哪个网站有做视频转场的素材百度数据研究中心
  • 做家装施工的网站互联网十大企业
  • 小企业网站服务器seo怎么发布外链
  • 国外网站做推广全能优化大师