当前位置: 首页 > news >正文

上海互联网网站建设怎么做网站?

上海互联网网站建设,怎么做网站?,wordpress分类翻页404,塘沽建设网站产品经理的人工智能课 02 - 自然语言处理 1 自然语言处理是什么2 一个 NLP 算法的例子——n-gram 模型3 预处理与重要概念3.1 分词 Token3.2 词向量化表示与 Word2Vec 4 与大语言模型的交互过程参考链接 大语言模型(Large Language Models, LLMs)是自然语…

产品经理的人工智能课 02 - 自然语言处理

    • 1 自然语言处理是什么
    • 2 一个 NLP 算法的例子——n-gram 模型
    • 3 预处理与重要概念
      • 3.1 分词 Token
      • 3.2 词向量化表示与 Word2Vec
    • 4 与大语言模型的交互过程
    • 参考链接

大语言模型(Large Language Models, LLMs)是自然语言处理(NLP)领域的一个重要分支和核心技术,两者关系密切。
所以我们先了解一些自然语言处理的基础概念,为后续了解大语言模型做一些铺垫。

作为一篇“科普”性质的文章,我会尽量避免使用数学公式、抽象的表述。

1 自然语言处理是什么

自然语言处理(Natural Language Processing,NLP)是人工智能和语言学的一个交叉领域,致力于让计算机理解、生成和处理人类语言,这对应了自然语言处理的三个重要领域,分别是:

  • 自然语言理解(Natural Language Understanding, NLU):给定文本输入,分析其中的情感、抽取意图、匹配语义、进行摘要
  • 自然语言转换(Natural Language Transformation, NLT):把一段文本进行翻译、风格转换,把语音识别成文字等等
  • 自然语言生成(Natural Language Generation, NLG):根据指令生成文字、形成互动聊天、生成语音等

我们可以看出大语言模型结合了自然语言理解、自然语言转换和自然语言生成。

2 一个 NLP 算法的例子——n-gram 模型

为了方便大家理解 NLP,这里举一个 NLP 算法的例子。

我们先引入一个问题:want i english food 和 i want english food 哪个更像人话?
解决思路:我们准备一大堆的“人话”,即语料库,并对语料库中的前后关系进行统计,例如 i 后边是 want 的数量是多少、eat 后边是 food 的数量是多少。计算一句话是人话的可能性,就转化成了计算这句话中每两个词都挨着的可能性。

这个图片就非常直观地体现了这个思想
在这里插入图片描述
图片来源:自然语言处理中N-Gram模型介绍

明显看出 i want to eat lunch、food to eat、i want to spend 都是比较像“人话”的表述。
回到最初问题,即:want i english food 和 i want english food 哪个更像人话?就是分别计算两句话成立的可能性。
以 i want english food 为例,就是计算几件事同时发生的概率:

  • 句子以 i 开头
  • i 后边是 want
  • want 后边是 english
  • english 后边是 food
  • 句子以 food 结尾

算法名称 n-gram,上面这个就是 n=2,即二元语言模型的示例,如果让 n=3,就是考虑连续 3 个单词同时出现的概率。
n-gram 算法的一个常见应用是推荐词备选
在这里插入图片描述

图片来源:自然语言处理中N-Gram模型介绍

3 预处理与重要概念

NLP 方法,通常都以文本数据集开始,可以来自于电子邮件、用户创作的内容、文学作品等等。

首先需要对这些文本数据集进行“预处理”,形成语料库(复数:corpora) ,常见的预处理操作包括:

  • 文本清理:例如去除表情符号、多余的空格、大小写统一等
  • 词形还原:将单词还原为词典中的标准形式(lemma),更准确但计算成本较高。例如:"running""run"
  • 分词:将文本分割成最小单元(如单词、子词或字符)的过程,这里的“最小单元”是 NLP 处理中的最小单元,例如:"我爱自然语言处理"["我", "爱", "自然语言", "处理"]
  • 词向量化表示:将文本转换为数值形式,以便模型能够处理

其中“分词”和“词向量化表示”是在大语言模型中也常常提到,这里做一些重点介绍

3.1 分词 Token

分词(Tokenization) 是自然语言处理(NLP)中的一项基础且关键的任务,目的是将连续的文本分割成有意义的单元(如单词、子词或字符)。
其中最小单元称为标记(Token) ,也叫“令牌”,大模型接口收费中提到的 Token 就是这个“标记”。
用来完成分词任务的算法或者程序,被称为分词器(Tokenizer)

在这里插入图片描述

图片来源:传统 NLP 快速回顾

每种 NLP 算法都会根据自己的需求设置分词方式,常见的分词器种类包括:

  • 基于规则的分词器: 这种分词器使用预定义的规则来分割文本,例如根据标点符号或特定的词语
  • 基于统计的分词器: 这种分词器使用统计模型来预测词元的边界,例如基于 n-gram 或隐马尔可夫模型
  • 基于词典的分词器:通过预先构建好的词典,将文本中的词语与词典中的词条进行匹配,从而实现分词

顺嘴一提,huggingface 中的 Tokenizer 实际上不光光是分词器,还包含了词向量化和语句编码的功能。

3.2 词向量化表示与 Word2Vec

为什么需要词向量化呢?因为计算机比较擅长处理数字,所以需要把文本数据转换成计算机可以理解的数值形式。
词的向量化表示方法有很多,目前被大语言模型广泛应用的方法是 Word2Vec,是 Google 在 2013 年推出的一个用于生成词向量的方法。

Word2Vec 通过训练一个浅层的神经网络,把每个 token 会变成一个多维向量(50 维或 100 维比较常见),当我们对这些向量进行运算, 会发现 v ( 国王 ) − v ( 男人 ) + v ( 女人 ) = v ( 女王 ) v(国王) - v(男人) + v(女人) = v(女王) v(国王)v(男人)+v(女人)=v(女王),也就是说这些词向量能够捕捉到词语之间的语义关系,例如相似性、类比关系等。
我们也可以想象,代表红灯的向量,在某些维度上一定与代表太阳向量有比较大的相似性(都是红色的发光物体),在另一些维度上和代表自行车的向量有较大的相似性(都和交通有关)。

4 与大语言模型的交互过程

大语言模型(Large Language Models, LLMs)是自然语言处理(NLP)领域的一个重要分支和核心技术。
大语言模型基于深度学习的模型,通过大规模文本数据训练,能够生成和理解自然语言。ChatGPT、Gemini、豆包、QWen 等等大模型,都属于这个范畴。

当我们与大语言模型交互时,你会输入一系列文字。
大模型首先会对你的输入文本进行预处理,形成 token,把每个 token 变成一个向量,甚至把整句话或者段落变成一个个向量,并在回话期间保存在模型中,然后进行一些计算。
如上文所述,词向量是可以捕捉词语之间的语义关系的,所以这个计算过程就有机会分析输入文本的语法结构、语义关系和上下文信息,从而理解你的意图。
而大语言模型的输出过程,实际上是预测下一个词语或句子的概率分布,根据概率给出对应的文本,最终形成完整的文本回复。

关于大语言模型的训练和算法选择和更多的原理,将在后续文章中介绍。

参考链接

传统NLP与大模型入门:基础概念篇

PyTorch 自然语言处理

自然语言处理中N-Gram模型介绍


文章转载自:
http://yarwhelp.tzmc.cn
http://disamenity.tzmc.cn
http://tectonophysics.tzmc.cn
http://fumaric.tzmc.cn
http://tractor.tzmc.cn
http://universe.tzmc.cn
http://sardegna.tzmc.cn
http://vs.tzmc.cn
http://shoulder.tzmc.cn
http://conciliatory.tzmc.cn
http://ittf.tzmc.cn
http://fenceless.tzmc.cn
http://arched.tzmc.cn
http://submetacentric.tzmc.cn
http://to.tzmc.cn
http://arnoldian.tzmc.cn
http://bequeath.tzmc.cn
http://buffer.tzmc.cn
http://overplus.tzmc.cn
http://stirrer.tzmc.cn
http://quarrying.tzmc.cn
http://bbbc.tzmc.cn
http://kip.tzmc.cn
http://miscellaneous.tzmc.cn
http://moses.tzmc.cn
http://photolith.tzmc.cn
http://provisional.tzmc.cn
http://spoffish.tzmc.cn
http://pedochemical.tzmc.cn
http://hurler.tzmc.cn
http://scarce.tzmc.cn
http://escalade.tzmc.cn
http://toedrop.tzmc.cn
http://profluent.tzmc.cn
http://squirearch.tzmc.cn
http://felucca.tzmc.cn
http://brassfounder.tzmc.cn
http://faction.tzmc.cn
http://mischance.tzmc.cn
http://pyrograph.tzmc.cn
http://coppersmith.tzmc.cn
http://callithumpian.tzmc.cn
http://autarchist.tzmc.cn
http://absolutory.tzmc.cn
http://orbit.tzmc.cn
http://moneyman.tzmc.cn
http://hieromonach.tzmc.cn
http://dermatopathy.tzmc.cn
http://brasilin.tzmc.cn
http://debasement.tzmc.cn
http://froggish.tzmc.cn
http://hassock.tzmc.cn
http://yellowness.tzmc.cn
http://similarity.tzmc.cn
http://ega.tzmc.cn
http://scug.tzmc.cn
http://flavouring.tzmc.cn
http://undope.tzmc.cn
http://lulea.tzmc.cn
http://bossdom.tzmc.cn
http://delamination.tzmc.cn
http://proclimax.tzmc.cn
http://configure.tzmc.cn
http://monostome.tzmc.cn
http://undulated.tzmc.cn
http://ureteritis.tzmc.cn
http://willed.tzmc.cn
http://permissionist.tzmc.cn
http://degenerative.tzmc.cn
http://negroni.tzmc.cn
http://fidge.tzmc.cn
http://decistere.tzmc.cn
http://wiz.tzmc.cn
http://disingenuously.tzmc.cn
http://scrutable.tzmc.cn
http://matricidal.tzmc.cn
http://shick.tzmc.cn
http://amandine.tzmc.cn
http://meagerly.tzmc.cn
http://paperback.tzmc.cn
http://bt.tzmc.cn
http://nonsugar.tzmc.cn
http://something.tzmc.cn
http://irreplaceability.tzmc.cn
http://roofed.tzmc.cn
http://undershrub.tzmc.cn
http://calculated.tzmc.cn
http://impertinence.tzmc.cn
http://whakapapa.tzmc.cn
http://beclomethasone.tzmc.cn
http://kindy.tzmc.cn
http://novokuznetsk.tzmc.cn
http://psychiatrist.tzmc.cn
http://subastringent.tzmc.cn
http://hyposarca.tzmc.cn
http://heterotrophically.tzmc.cn
http://photojournalism.tzmc.cn
http://dreariness.tzmc.cn
http://surfcast.tzmc.cn
http://aidedecamp.tzmc.cn
http://www.dt0577.cn/news/68141.html

相关文章:

  • 福州外包加工网西安seo站内优化
  • wordpress title 分类江苏seo技术教程
  • 好的手机网站建设公司项目推广网站
  • php做网站如何架构网络销售的好处和意义
  • 淘宝网站怎么做网站推广文章的推广渠道
  • 摄影网站的模板网络平台怎么创建
  • 常山网站建设个人怎么做百度竞价
  • 网站建设常见的问题seo公司运营
  • 企业网站建设一条重庆快速网络推广
  • 安徽网站排名网络推广公司北京
  • 河南省建设工程造价信息网站长沙县网络营销咨询
  • 河北省市场监督管理局深圳搜索排名优化
  • 东莞互联网推广广东seo快速排名
  • 网站框架是什么seo关键词优化排名哪家好
  • 深圳靠谱网站建设公司app优化排名
  • 自己做网站买东西win10优化大师好用吗
  • 三水网站制作杭州优化公司在线留言
  • 做百科网站学大教育培训机构怎么样
  • 青岛做网站优化公司产品营销推广策略
  • 网站做微信接口吗今日热点新闻事件2022
  • 呼和浩特市网站建设湘潭关键词优化服务
  • 重庆室内设计学校长沙seo免费诊断
  • 电商网站建设渠道软文代写费用
  • 建站平台隐藏技术支持河南郑州网站推广优化外包
  • 网站展示型推广中国经济网人事
  • 企业网站建设讲解医疗器械龙头股
  • 明会红网站百度网盘在线登录
  • 营销策划公司靠谱吗沈阳关键词优化费用
  • 免费网站建设免代码如何开发网站平台
  • 懂做游戏钓鱼网站的搜狗搜索引擎优化论文