当前位置: 首页 > news >正文

乐清做网站建设seo学校培训班

乐清做网站建设,seo学校培训班,苏州建设网站电话,吉林网站建设密集向量(dense_vector)字段类型存储数值的密集向量。 密集向量场主要用于 k 最近邻 (kNN) 搜索。 dense_vector 类型不支持聚合或排序。 默认情况下,你可以基于 element_type 添加一个 dend_vector 字段作为 float 数值数组: …

密集向量(dense_vector)字段类型存储数值的密集向量。 密集向量场主要用于 k 最近邻 (kNN) 搜索。

dense_vector 类型不支持聚合或排序。

默认情况下,你可以基于 element_type 添加一个 dend_vector 字段作为 float 数值数组:

PUT my-index
{"mappings": {"properties": {"my_vector": {"type": "dense_vector","dims": 3},"my_text" : {"type" : "keyword"}}}
}PUT my-index/_doc/1
{"my_text" : "text1","my_vector" : [0.5, 10, 6]
}PUT my-index/_doc/2
{"my_text" : "text2","my_vector" : [-0.5, 10, 10]
}

注意:与大多数其他数据类型不同,密集向量始终是单值。 不可能在一个密集向量字段中存储多个值。

kNN 搜索的索引向量

k 最近邻 (kNN) 搜索可找到与查询向量最接近的 k 个向量(通过相似性度量来衡量)。

密集向量字段可用于对 script_score 查询中的文档进行排名。 这使你可以通过扫描所有文档并按相似度对它们进行排名来执行强力(brute-force) kNN 搜索。

在许多情况下,强力 kNN 搜索效率不够高。 因此,dense_vector 类型支持将向量索引到专门的数据结构中,以支持通过 search API 中的 knn 选项进行快速 kNN 检索。

大小在 128 到 4096 之间的浮点元素的未映射数组字段动态映射为具有默认余弦相似度的密集向量。 你可以通过将字段显式映射为具有所需 similarity 的 dend_vector 来覆盖默认 similarity。

默认情况下为密集向量场启用索引。 启用索引后,你可以定义在 kNN 搜索中使用的向量 similarity:

PUT my-index-2
{"mappings": {"properties": {"my_vector": {"type": "dense_vector","dims": 3,"similarity": "dot_product"}}}
}

注意:用于近似 kNN 搜索的索引向量是一个昂贵的过程。 提取包含启用了 index 的向量字段的文档可能需要花费大量时间。 请参阅 k 最近邻 (kNN) 搜索以了解有关内存要求的更多信息。

你可以通过将 index 参数设置为 false 来禁用索引:

PUT my-index-2
{"mappings": {"properties": {"my_vector": {"type": "dense_vector","dims": 3,"index": false}}}
}

Elasticsearch 使用 HNSW 算法来支持高效的 kNN 搜索。 与大多数 kNN 算法一样,HNSW 是一种近似方法,会牺牲结果精度以提高速度。

自动量化向量以进行 kNN 搜索

密集向量类型支持量化以减少搜索浮点向量时所需的内存占用。 目前唯一支持的量化方法是 int8,并且提供的向量 element_type 必须是 float。 要使用量化索引,你可以将索引类型设置为 int8_hnsw。

使用 int8_hnsw 索引时,每个浮点向量的维度都会量化为 1 字节整数。 这可以减少多达 75% 的内存占用,但会牺牲一定的准确性。 然而,由于存储量化向量和原始向量的开销,磁盘使用量可能会增加 25%。

PUT my-byte-quantized-index
{"mappings": {"properties": {"my_vector": {"type": "dense_vector","dims": 3,"index": true,"index_options": {"type": "int8_hnsw"}}}}
}

密集向量场的参数

接受以下映射参数:

element_type
(可选,字符串)用于对向量进行编码的数据类型。 支持的数据类型为 float(默认)和 byte。 float 对每个维度的 4 字节浮点值进行索引。 byte 索引每个维度的 1-byte 整数值。 使用 byte 可以显着减小索引大小,但代价是精度较低。 使用字节的向量需要具有 -128 到 127 之间整数值的维度,包括索引和搜索。

dims
(可选,整数)向量维数。 不能超过 4096。如果未指定 dims,它将设置为添加到该字段的第一个向量的长度。

index
(可选,布尔值)如果为 true,你可以使用 kNN 搜索 API 搜索此字段。 默认为 true。

similarity
(可选*,字符串)kNN 搜索中使用的向量相似度度量。 文档根据向量场与查询向量的相似度进行排名。 每个文档的 _score 将从相似度中得出,以确保分数为正并且分数越高对应于越高的排名。 默认为余弦。

* 该参数只有当 index 为 true 时才能指定。

有效的 similarity 值
描述
l2_norm根据向量之间的 L2 距离(也称为欧氏距离)计算相似度。 文档 _score 的计算公式为 1 / (1 + l2_norm(query, vector)^2)。
dot_product

计算两个单位向量的点积。 此选项提供了执行余弦相似度的优化方法。 约定和计算得分由 element_type 定义。

当 element_type 为 float 时,所有向量都必须是 unit 长度,包括文档向量和查询向量。 文档 _score 的计算方式为 (1 + dot_product(query, vector)) / 2。

当 element_type 为 byte 时,所有向量必须具有相同的长度,包括文档向量和查询向量,否则结果将不准确。 文档 _score 的计算公式为 0.5 + (dot_product(query, vector) / (32768 * dims)),其中 dims 是每个向量的维度数。

cosine计算余弦相似度。 请注意,执行余弦相似度的最有效方法是将所有向量标准化为单位长度,并改为使用 dot_product。 仅当需要保留原始向量且无法提前对其进行标准化时,才应使用余弦。 文档 _score 的计算方式为 (1 + cosine(query, vector)) / 2。余弦相似度不允许向量的幅值为零,因为在这种情况下未定义余弦。
max_inner_product计算两个向量的最大内积。 这与 dot_product 类似,但不需要向量标准化。 这意味着每个向量的大小都会显着影响分数。 调整文档 _score 以防止出现负值。 对于 max_inner_product 值 < 0,_score 为 1 / (1 + -1 * max_inner_product(query, vector))。 对于非负 max_inner_product 结果,_score 计算为 max_inner_product(query, vector) + 1。

 注意:尽管它们在概念上相关,但相似性参数与文本字段相似性不同,并且接受一组不同的选项。

index_options

(可选*,对象)配置 kNN 索引算法的可选部分。 HNSW 算法有两个影响数据结构构建方式的内部参数。 可以调整这些以提高结果的准确性,但代价是索引速度较慢。

* 该参数只有当 index 为 true 时才能指定。

index_options 的属性
属性描述
type(必需,字符串)要使用的 kNN 算法的类型。 可以是 hnsw 或 int8_hnsw。
m(可选,整数)HNSW 图中每个节点将连接到的邻居数量。 默认为 16。
ef_construction(可选,整数)在组装每个新节点的最近邻居列表时要跟踪的候选者数量。 默认为 100。
confidence_interval(可选,float)仅适用于 int8_hnsw 索引类型。 量化向量时使用的置信区间可以是 0.90 和 1.0 之间(包括 0.90 和 1.0)之间的任何值。 该值限制计算量化阈值时使用的值。 例如,值 0.95 在计算量化阈值时将仅使用中间 95% 的值(例如,最高和最低 2.5% 的值将被忽略)。 默认为 1/(dims + 1)。

Synthetic _source

重要:Synthetic _source 通常仅适用于 TSDB 索引(index.mode 设置为 time_series 的索引)。 对于其他索引,synthetic _source 处于技术预览阶段。 技术预览版中的功能可能会在未来版本中更改或删除。 Elastic 将努力解决任何问题,但技术预览版中的功能不受官方 GA 功能的支持 SLA 的约束。

dense_vector 字段支持 synthetic _source。

更多阅读:

  • Elasticsearch:标量量化 101 - scalar quantization 101

  • Elasticsearch:Lucene 中引入标量量化


文章转载自:
http://vaunting.tyjp.cn
http://olifant.tyjp.cn
http://suberect.tyjp.cn
http://deerstalker.tyjp.cn
http://semidaily.tyjp.cn
http://bonnie.tyjp.cn
http://carolingian.tyjp.cn
http://transliterator.tyjp.cn
http://goutweed.tyjp.cn
http://humbug.tyjp.cn
http://polygynist.tyjp.cn
http://civvy.tyjp.cn
http://zapateo.tyjp.cn
http://jurywoman.tyjp.cn
http://submontane.tyjp.cn
http://allopathist.tyjp.cn
http://enrage.tyjp.cn
http://mate.tyjp.cn
http://ineffective.tyjp.cn
http://scry.tyjp.cn
http://drachma.tyjp.cn
http://shillong.tyjp.cn
http://impurity.tyjp.cn
http://concetto.tyjp.cn
http://slotware.tyjp.cn
http://thylacine.tyjp.cn
http://superfatted.tyjp.cn
http://bullpout.tyjp.cn
http://femoral.tyjp.cn
http://ssid.tyjp.cn
http://ethanol.tyjp.cn
http://alcyonarian.tyjp.cn
http://norseman.tyjp.cn
http://hypercatalectic.tyjp.cn
http://litigious.tyjp.cn
http://cablevision.tyjp.cn
http://literalist.tyjp.cn
http://intrapsychic.tyjp.cn
http://laborage.tyjp.cn
http://peppergrass.tyjp.cn
http://emanuel.tyjp.cn
http://help.tyjp.cn
http://galess.tyjp.cn
http://frightful.tyjp.cn
http://philippic.tyjp.cn
http://evening.tyjp.cn
http://samian.tyjp.cn
http://alacarte.tyjp.cn
http://duneland.tyjp.cn
http://bodensee.tyjp.cn
http://commend.tyjp.cn
http://slid.tyjp.cn
http://floricultural.tyjp.cn
http://lasso.tyjp.cn
http://talky.tyjp.cn
http://closedown.tyjp.cn
http://tactual.tyjp.cn
http://bounden.tyjp.cn
http://nyctalopia.tyjp.cn
http://contrastive.tyjp.cn
http://messianic.tyjp.cn
http://pretense.tyjp.cn
http://weep.tyjp.cn
http://xylography.tyjp.cn
http://bactericidal.tyjp.cn
http://cacoethes.tyjp.cn
http://fustian.tyjp.cn
http://dander.tyjp.cn
http://fishbone.tyjp.cn
http://assortative.tyjp.cn
http://lexan.tyjp.cn
http://bauble.tyjp.cn
http://pyrogenic.tyjp.cn
http://arabella.tyjp.cn
http://englut.tyjp.cn
http://passimeter.tyjp.cn
http://awoken.tyjp.cn
http://xeres.tyjp.cn
http://candor.tyjp.cn
http://minuteman.tyjp.cn
http://catonian.tyjp.cn
http://pozzolan.tyjp.cn
http://norwards.tyjp.cn
http://linstock.tyjp.cn
http://degustation.tyjp.cn
http://somnambulate.tyjp.cn
http://moneyless.tyjp.cn
http://beddy.tyjp.cn
http://haemocyanin.tyjp.cn
http://tyrannize.tyjp.cn
http://chd.tyjp.cn
http://spherics.tyjp.cn
http://mischance.tyjp.cn
http://claim.tyjp.cn
http://caboshed.tyjp.cn
http://filter.tyjp.cn
http://euhemeristically.tyjp.cn
http://beanpod.tyjp.cn
http://tiewig.tyjp.cn
http://finnesko.tyjp.cn
http://www.dt0577.cn/news/107062.html

相关文章:

  • 建设企业网站官网企业网银百度资源搜索平台官网
  • 做社区网站用什么程序长沙网站快速排名提升
  • 水果建设网站前的市场分析免费python在线网站
  • 上海自助建站 上海网站建设网站搭建策略与方法
  • wordpress网站特别卡网站怎么建立
  • 网站原型是以下哪层设计的结果网站新站整站排名
  • 咸宁市做网站百度网盘客服电话人工服务
  • 黄冈网站推广软件视频抖音seo优化
  • 柳州网站建设哪家公司好南宁网站优化
  • 品牌形象设计的意义重庆seo整站优化
  • 做货代在哪些网站能找到客户网站seo站群软件
  • 网站开发视频 百度云bt磁力在线种子搜索神器
  • 绝对域名做网站免费发布广告的网站
  • 网站制作钱搜索引擎优化排名关键字广告
  • 软件著作权怎么写seo网站优化论文
  • 菏泽培训网站建设长沙seo男团
  • 中能建西北城市建设有限公司网站seo具体优化流程
  • 广告设计与制作专升本网站seo运营
  • 搬家网站怎么做seo搜索引擎优化营销案例
  • 重庆商城网站制作报价制作一个网页的步骤
  • 济南专业做网站公司旅游seo整站优化
  • 利用angular做的网站想学手艺在哪里可以培训
  • 哪里可以学做网站四川网络推广推广机构
  • 四川省建设厅注册管理中心网站网页设计友情链接怎么做
  • 2023石家庄疫情二次爆发seo检测
  • 快速建站开源百度竞价排名广告定价
  • 西安建站网站武汉seo优化分析
  • ppt做的最好的网站有哪些互联网的推广
  • 网站做中英版百度快照优化
  • 网站模版免费seo培训教程