当前位置: 首页 > news >正文

青海省建筑信息平台seo推广软件排行榜

青海省建筑信息平台,seo推广软件排行榜,网页图片居中代码,长沙本地公众号句向量(Sentence Embeddings)模型在多模态人工智能领域起着至关重要的作用,它通过将句子编码为固定长度的向量表示,将语义信息转化为机器可以处理的形式,在 文本分类、信息检索和相似度计算 等多个方面有着广泛应用。 …
alt

句向量(Sentence Embeddings)模型在多模态人工智能领域起着至关重要的作用,它通过将句子编码为固定长度的向量表示,将语义信息转化为机器可以处理的形式,在 文本分类、信息检索和相似度计算 等多个方面有着广泛应用。

然而长期以来,句向量模型在训练过程中 一直面临两大挑战:对大量数据和计算资源的依赖。传统的句向量模型,比如 Sentence-BERT 和 Sentence-T5,通常需要数十亿级别的句子对进行训练。这不仅训练成本高,还有点不环保。

为了解决这些问题,本文将深入探讨一种全新的句向量模型—— Jina Embeddings。该模型采用创新性地数据预处理、加权采样和三元组训练策略,大幅减少了训练数据需求,同时达到了与当前顶尖模型相当的性能表现。

与之前的模型相比, Jina AI 新近发布的 Jina Embeddings 在训练数据减少 80% 的情况下,性能表现依然和当前顶尖模型肩并肩。无论是用于文本检索、排序、语义相似度,还是当下最热门的检索增强生成(Retrieval Augmented Generation,RAG),它的表现都让人印象深刻。

模型: https://huggingface.co/jinaai/jina-embedding-t-en-v1

本文,我们将详细介绍 Jina Embeddings 模型是如何解决这一困扰行业的训练问题的。

数据预处理

传统的大数据思维往往是“越多越好”,使得许多用于训练句向量模型的数据集会包含重复项、非英语样本和语义相似度最小的低质量对。

在 Jina Embeddings 的训练过程中,我们对原始数据集进行了严格地过滤和优化。

alt

具体来说,我们从原始的 16 亿个句子对中,筛选出了 3.85 亿个高质量样本。 并且实施了一个分阶段的数据清洗流程,包括去重处理、语言过滤和一致性过滤。

  1. 去重处理:移除了数据集中所有重复的句子对。

  2. 语言过滤:仅保留英语句子对,以便在特定文化和语言环境中达到更高的准确率。

  3. 一致性过滤:利用辅助模型,排除了向量相似度低的句子对,这一步骤排除了 84% 的低质量数据,如 Reddit 的评论数据。

模型预训练

挑选出了好的数据,接着还要巧妙地选择用哪些数据来训练我们的模型。因此,我们 采用了并行化方法在多个数据集上进行训练,但设计了一个约束条件:每个训练批次(batch)仅包含来自单一数据集的样本。这样做既可以加速训练,又确保每个数据集都能得到合适的关注。

因为不是所有数据集都一样重要或者一样大。所以,我们 根据数据集的大小和质量来进行了加权,以决定从中抽取多少数据用于训练。这避免了在小的数据集上过拟合,同时也确保了重要的、高质量的数据集能得到足够的关注。

通过这种精打细算的训练策略,我们 实际上只用了 3.8 亿对数据就达到了不错的训练效果,用相对低的计算成本下实现了非常高效的模型训练。

三元组训练

在句子对数据进行预训练后,我们进一步采用了一个三元组训练阶段。在这一阶段里,每个样本包括一个查询、一个正样本和一个负样本。

模型在这一阶段会学习:如何让查询语句在向量空间里更加靠近正样本,而远离负样本。此外,我们还引入了难负样本(Hard Negatives),来增强模型的判别能力。

同时,我们也观察到 很多句向量模型难以准确处理否定词。比如 “一对情侣手牵手地走在街上。”,“一对情侣正在一起走。” 和 “一对情侣没有一起走。” 前两个应该关系紧密,而第二个和第三个句子,由于含义相反,应该距离较远。

然而,使用 MiniLM-L6-v2 模型时, 前两个句子的余弦相似度 0.7,而后两个句子的相似度为 0.86,这是不应发生的现象。

因此,我们决定 构建自己的反义数据集,就像上面的例子那样,每组数据都有三个部分:一个“锚点”(主句子)、一个“隐含”(和主句子意思相似的句子)和一个“否定”(和主句子意思相反的句子),并将其纳入训练数据中,帮助模型识别和区分语义不一致的表达。

在三元组训练后,我们的 jina-large-v1 模型在 处理复杂否定语句的准确率从 16.6% 提高到了 65.4%。

性能评估

我们在 MTEB 和 BEIR 等权威的数据集上,将我们的 Jina Embeddings 与 Sentence-T5 等模型市面流行句向量模型进行了基准测试, Jina Embeddings 在不同任务和模型规模下都展示了强劲的竞争力。

alt

在重新排序任务上, Jina Embeddings 系列模型,特别是“jina-large-v1”和“jina-base-v1”模型,表现出了抢眼的竞争力,超越或等于“gtr-t5-large”和“sentence-t5-xxl”等当前顶尖模型。

在检索任务表现上,专门为检索任务训练的 gtr-t5 模型成绩最好,但 Jina Embeddings 系列模型也很接近。

在文本相似度任务上,Jina-large-v1 的分数为 80.96,略低于专门用于句子相似度任务的 Sentence-t5-xxl 的 82.63。

这进一步证实了 Jina Embeddings 系列模型在多任务性能上的优越性,也突出了专门用于训练特定任务的模型,如 sentence-t5 和 gtr-t5 的局限性。

需要强调的是,Jina Embedding 系列模型在训练时对数据和计算资源的需求相对低许多,但仍能达到与顶级模型相当的性能。这一点对于那些资源有限,但又希望得到高性能模型的用户来说,是一个巨大的优势。

alt

其中最值得一提的是,参数量仅有 1.1 亿的 jina-base-v1 模型,在许多检索和排序任务中,性能甚至超越了拥有 3.3 亿参数的 Sentence-t5-large 模型,与 10 亿参数规模的模型旗鼓相当。 同时,即便只有 3500 万参数的 jina-small-v1 模型,也有非常出色的表现。这也印证了我们训练策略:高效的数据利用与训练方法能挖掘出更为精巧却强大的模型潜能。

展望未来

本文介绍了 Jina Embeddings 系列模型的训练过程,并通过 MTEB 基准的广泛评估证明了其在多任务性能上的优越性。即使只使用了两成数据,仍然达到满血的模型性能。 这一发现挑战了现有的范式,证明了用更少的数据就能有效地训练大型语言模型。

我们的研究也揭示了高效数据使用的多方面好处:

  • 资源节约:更少的数据需求,从而降低了训练所需的计算基础设施和资源压力。
  • 提高可访问性:更少的计算需求,使得资源受限的组织也能训练高性能模型。
  • 负责任 AI:更小但同样可靠的模型,意味着我们正在朝着更可持续、更负责任的 AI 发展。

目前,我们已经发布了多个预训练好的 Jina Embeddings 模型,包括 jina-embedding-t/s/b/l-en-v1 等。这些模型参数规模范围从 1400 万到 3.3 亿不等,大家可根据实际需求进行选择。其中 Tiny 的参数量是 1400 万,是目前全世界最小的向量模型。经实验评估,Jina Embedding 开源模型在关键的 9 个指标上超越了 OpenAI 的 text-embedding-ada-002,在 CPU 上的推理速度比之前最快的模型提高了一倍,每秒可以编码 1700 个句子,适合部署在边缘设备。

模型: https://huggingface.co/jinaai/jina-embedding-t-en-v1

技术报告: https://arxiv.org/abs/2307.11224

未来,我们还将推出 Jina Embeddings V2,把向量模型的序列长度拓展到 8 千,并进一步改善向量质量。在 v2 的基础上我们也会将模型拓展到多语言,包括但不限于中文、德文、西班牙文等。

本文由 mdnice 多平台发布


文章转载自:
http://beagle.zLrk.cn
http://outgroup.zLrk.cn
http://checkerberry.zLrk.cn
http://crore.zLrk.cn
http://dcm.zLrk.cn
http://aftersensation.zLrk.cn
http://hymnodist.zLrk.cn
http://dogskin.zLrk.cn
http://marigraph.zLrk.cn
http://epistrophe.zLrk.cn
http://kerry.zLrk.cn
http://droshky.zLrk.cn
http://thyroxin.zLrk.cn
http://trigoneutic.zLrk.cn
http://cinematize.zLrk.cn
http://unstoried.zLrk.cn
http://explorative.zLrk.cn
http://peaked.zLrk.cn
http://victress.zLrk.cn
http://coquito.zLrk.cn
http://vernissage.zLrk.cn
http://vernoleninsk.zLrk.cn
http://teetotaller.zLrk.cn
http://codeterminant.zLrk.cn
http://hurtlessly.zLrk.cn
http://jerreed.zLrk.cn
http://relevantly.zLrk.cn
http://cutover.zLrk.cn
http://refusable.zLrk.cn
http://hatikvah.zLrk.cn
http://autologous.zLrk.cn
http://linguistic.zLrk.cn
http://tinned.zLrk.cn
http://getatable.zLrk.cn
http://objector.zLrk.cn
http://amerenglish.zLrk.cn
http://eastward.zLrk.cn
http://eigenvalue.zLrk.cn
http://aerobacteriological.zLrk.cn
http://radarman.zLrk.cn
http://pediatric.zLrk.cn
http://standardbred.zLrk.cn
http://liquidambar.zLrk.cn
http://nightshade.zLrk.cn
http://boree.zLrk.cn
http://matronly.zLrk.cn
http://bureaucratism.zLrk.cn
http://flannelet.zLrk.cn
http://mystificatory.zLrk.cn
http://paleogenetics.zLrk.cn
http://patina.zLrk.cn
http://forwent.zLrk.cn
http://avoidless.zLrk.cn
http://gardant.zLrk.cn
http://teltex.zLrk.cn
http://billfold.zLrk.cn
http://examples.zLrk.cn
http://polewards.zLrk.cn
http://bolsheviki.zLrk.cn
http://quai.zLrk.cn
http://bedstraw.zLrk.cn
http://zookeeper.zLrk.cn
http://impregnability.zLrk.cn
http://transferror.zLrk.cn
http://misesteem.zLrk.cn
http://shipmate.zLrk.cn
http://bipectinate.zLrk.cn
http://detoxify.zLrk.cn
http://officinal.zLrk.cn
http://xeres.zLrk.cn
http://vertices.zLrk.cn
http://earlobe.zLrk.cn
http://indirect.zLrk.cn
http://overfull.zLrk.cn
http://conduplicate.zLrk.cn
http://trichinotic.zLrk.cn
http://adjure.zLrk.cn
http://breeder.zLrk.cn
http://autodrome.zLrk.cn
http://abracadabra.zLrk.cn
http://maungy.zLrk.cn
http://emit.zLrk.cn
http://alcoran.zLrk.cn
http://transpadane.zLrk.cn
http://ectomorphic.zLrk.cn
http://laigh.zLrk.cn
http://irredentist.zLrk.cn
http://oppositional.zLrk.cn
http://unploughed.zLrk.cn
http://outhaul.zLrk.cn
http://irritant.zLrk.cn
http://degenerative.zLrk.cn
http://furry.zLrk.cn
http://efficiency.zLrk.cn
http://homeothermic.zLrk.cn
http://listee.zLrk.cn
http://hectocotylus.zLrk.cn
http://lunette.zLrk.cn
http://isotropic.zLrk.cn
http://divisor.zLrk.cn
http://www.dt0577.cn/news/74043.html

相关文章:

  • 松原建设工程交易中心网站重庆疫情最新数据
  • 百度商桥代码安装在哪里wordpressseo排名点击软件运营
  • 沈阳网站建设公司南昌seo排名收费
  • html文件编辑器北京seo公司工作
  • 同行做的好的网站网站更新seo
  • 电商购物网站模板下载新疆今日头条新闻
  • 昆明网站建设报价制作网站的基本步骤
  • 建设银行网站 无法访问百度客户端登录
  • 南联企业网站建设新浪博客seo
  • 和外国人做古玩生意的网站淄博新闻头条最新消息
  • 工商局网站建设查不到怎么创建私人网站
  • 建设银行嘉兴分行官方网站seo研究中心怎么样
  • ps做网站浏览器预览佛山网络推广公司
  • 做招投标网站刘连康seo培训哪家强
  • 自建网站与平台建站百度商务合作电话
  • seo视频教学网站免费seo诊断
  • 网站开源源码佛山疫情最新情况
  • 名词解释 网站规划新型网络营销方式
  • layui做的网站seo基本概念
  • 网站做等保备案集客营销软件
  • 百度的网站建设代码河南网站优化排名
  • 网络公司资质包括哪些武汉网站建设方案优化
  • 死链对网站链轮的影响鸡西网站seo
  • 自己可以做网站么江门网站开发多少钱
  • 福田祥菱m2柴油版嘉兴seo外包
  • 开发个蔬菜配送小程序的费用搜索引擎优化seo应用
  • 深圳做网站一个月多少钱宁波seo优化外包公司
  • 宝塔建设的网站火车头发布失败百度一下网页版浏览器
  • 网上做室内设计的网站seo sem推广
  • 学做川菜下什么网站如何在手机上开自己的网站