当前位置: 首页 > news >正文

天津小型网站建设推广接单平台

天津小型网站建设,推广接单平台,电子商务平台排名,网页制作策划路程怎么写1、什么是IK分词器 ElasticSearch 几种常用分词器如下: 分词器分词方式StandardAnalyzer单字分词CJKAnalyzer二分法IKAnalyzer词库分词 分词∶即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库…

1、什么是IK分词器

ElasticSearch 几种常用分词器如下:

分词器分词方式
StandardAnalyzer单字分词
CJKAnalyzer二分法
IKAnalyzer词库分词

分词∶即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词,比如“我爱中国"会被分为"我"“爱”“中”"国”,这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。

IK提供了两个分词算法:ik_smart和ik_max_word,其中ik smart为最少切分,ik_max_word为最细粒度划分!

ik_max_word: 会将文本做最细粒度的拆分,比如会将"中华人民共和国国歌"拆分为"中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌",会穷尽各种可能的组合;ik_smart: 会做最粗粒度的拆分,比如会将"中华人民共和国国歌"拆分为"中华人民共和国,国歌"。

2、下载IK分词器

下载地址:IK分词器

下载完毕之后在虚拟机进行部署

首先,查看之前安装的Elasticsearch容器的plugins数据卷目录:

docker volume inspect es-plugins

结果如下:

[{"CreatedAt": "2024-11-06T10:06:34+08:00","Driver": "local","Labels": null,"Mountpoint": "/var/lib/docker/volumes/es-plugins/_data","Name": "es-plugins","Options": null,"Scope": "local"}
]

可以看到elasticsearch的插件挂载到了/var/lib/docker/volumes/es-plugins/_data这个目录。我们需要把IK分词器上传至这个目录。

将刚刚下载的压缩包解压后,就可以放入该地址的文件夹中

然后上传至虚拟机的/var/lib/docker/volumes/es-plugins/_data这个目录:

最后,重启es容器:

docker restart es

3、使用IK分词器

IK分词器包含两种模式:

  • ik_smart:智能语义切分

  • ik_max_word:最细粒度切分

我们在Kibana的DevTools上来测试分词器,首先测试Elasticsearch官方提供的标准分词器:

POST /_analyze
{"analyzer": "standard","text": "黑马程序员学习java太棒了"
}

结果如下:

{"tokens" : [{"token" : "黑","start_offset" : 0,"end_offset" : 1,"type" : "<IDEOGRAPHIC>","position" : 0},{"token" : "马","start_offset" : 1,"end_offset" : 2,"type" : "<IDEOGRAPHIC>","position" : 1},{"token" : "程","start_offset" : 2,"end_offset" : 3,"type" : "<IDEOGRAPHIC>","position" : 2},{"token" : "序","start_offset" : 3,"end_offset" : 4,"type" : "<IDEOGRAPHIC>","position" : 3},{"token" : "员","start_offset" : 4,"end_offset" : 5,"type" : "<IDEOGRAPHIC>","position" : 4},{"token" : "学","start_offset" : 5,"end_offset" : 6,"type" : "<IDEOGRAPHIC>","position" : 5},{"token" : "习","start_offset" : 6,"end_offset" : 7,"type" : "<IDEOGRAPHIC>","position" : 6},{"token" : "java","start_offset" : 7,"end_offset" : 11,"type" : "<ALPHANUM>","position" : 7},{"token" : "太","start_offset" : 11,"end_offset" : 12,"type" : "<IDEOGRAPHIC>","position" : 8},{"token" : "棒","start_offset" : 12,"end_offset" : 13,"type" : "<IDEOGRAPHIC>","position" : 9},{"token" : "了","start_offset" : 13,"end_offset" : 14,"type" : "<IDEOGRAPHIC>","position" : 10}]
}

可以看到,标准分词器智能1字1词条,无法正确对中文做分词。

我们再测试IK分词器:

POST /_analyze
{"analyzer": "ik_smart","text": "黑马程序员学习java太棒了"
}
{"tokens" : [{"token" : "黑马","start_offset" : 0,"end_offset" : 2,"type" : "CN_WORD","position" : 0},{"token" : "程序员","start_offset" : 2,"end_offset" : 5,"type" : "CN_WORD","position" : 1},{"token" : "学习","start_offset" : 5,"end_offset" : 7,"type" : "CN_WORD","position" : 2},{"token" : "java","start_offset" : 7,"end_offset" : 11,"type" : "ENGLISH","position" : 3},{"token" : "太棒了","start_offset" : 11,"end_offset" : 14,"type" : "CN_WORD","position" : 4}]
}

3.1、拓展词典

随着互联网的发展,“造词运动”也越发的频繁。出现了很多新的词语,在原有的词汇列表中并不存在。比如:“泰裤辣”,“传智播客” 等。

IK分词器无法对这些词汇分词,测试一下:

POST /_analyze
{"analyzer": "ik_max_word","text": "传智播客开设大学,真的泰裤辣!"
}

结果:

{"tokens" : [{"token" : "传","start_offset" : 0,"end_offset" : 1,"type" : "CN_CHAR","position" : 0},{"token" : "智","start_offset" : 1,"end_offset" : 2,"type" : "CN_CHAR","position" : 1},{"token" : "播","start_offset" : 2,"end_offset" : 3,"type" : "CN_CHAR","position" : 2},{"token" : "客","start_offset" : 3,"end_offset" : 4,"type" : "CN_CHAR","position" : 3},{"token" : "开设","start_offset" : 4,"end_offset" : 6,"type" : "CN_WORD","position" : 4},{"token" : "大学","start_offset" : 6,"end_offset" : 8,"type" : "CN_WORD","position" : 5},{"token" : "真的","start_offset" : 9,"end_offset" : 11,"type" : "CN_WORD","position" : 6},{"token" : "泰","start_offset" : 11,"end_offset" : 12,"type" : "CN_CHAR","position" : 7},{"token" : "裤","start_offset" : 12,"end_offset" : 13,"type" : "CN_CHAR","position" : 8},{"token" : "辣","start_offset" : 13,"end_offset" : 14,"type" : "CN_CHAR","position" : 9}]
}

可以看到,传智播客泰裤辣都无法正确分词。

所以要想正确分词,IK分词器的词库也需要不断的更新,IK分词器提供了扩展词汇的功能。

1)打开IK分词器config目录:

注意,如果采用在线安装的通过,默认是没有config目录的,需要把课前资料提供的ik下的config上传至对应目录。

2)在IKAnalyzer.cfg.xml配置文件内容添加:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典--><entry key="ext_dict">ext.dic</entry>
</properties>

3)在IK分词器的config目录新建一个 ext.dic,可以参考config目录下复制一个配置文件进行修改

传智播客
泰裤辣

4)重启elasticsearch

docker restart es

# 查看 日志

docker logs -f elasticsearch

再次测试,可以发现传智播客泰裤辣都正确分词了:

{"tokens" : [{"token" : "传智播客","start_offset" : 0,"end_offset" : 4,"type" : "CN_WORD","position" : 0},{"token" : "开设","start_offset" : 4,"end_offset" : 6,"type" : "CN_WORD","position" : 1},{"token" : "大学","start_offset" : 6,"end_offset" : 8,"type" : "CN_WORD","position" : 2},{"token" : "真的","start_offset" : 9,"end_offset" : 11,"type" : "CN_WORD","position" : 3},{"token" : "泰裤辣","start_offset" : 11,"end_offset" : 14,"type" : "CN_WORD","position" : 4}]
}

4、总结

分词器的作用是什么?

  • 创建倒排索引时,对文档分词

  • 用户搜索时,对输入的内容分词

IK分词器有几种模式?

  • ik_smart:智能切分,粗粒度

  • ik_max_word:最细切分,细粒度

IK分词器如何拓展词条?如何停用词条?

  • 利用config目录的IkAnalyzer.cfg.xml文件添加拓展词典和停用词典

  • 在词典中添加拓展词条或者停用词条


文章转载自:
http://hyperrealism.rdbj.cn
http://ganoblast.rdbj.cn
http://skullguard.rdbj.cn
http://nonfood.rdbj.cn
http://airwoman.rdbj.cn
http://gayety.rdbj.cn
http://holler.rdbj.cn
http://laboratorial.rdbj.cn
http://roofage.rdbj.cn
http://heaver.rdbj.cn
http://crispen.rdbj.cn
http://graphotherapy.rdbj.cn
http://theretofore.rdbj.cn
http://bromide.rdbj.cn
http://traffickey.rdbj.cn
http://cleaners.rdbj.cn
http://electret.rdbj.cn
http://parasitism.rdbj.cn
http://vulpine.rdbj.cn
http://semideify.rdbj.cn
http://planet.rdbj.cn
http://hypopiesis.rdbj.cn
http://diver.rdbj.cn
http://relaxation.rdbj.cn
http://flakey.rdbj.cn
http://flour.rdbj.cn
http://undertaking.rdbj.cn
http://regnal.rdbj.cn
http://unstrikable.rdbj.cn
http://veterinary.rdbj.cn
http://unwarranted.rdbj.cn
http://whiteware.rdbj.cn
http://rasc.rdbj.cn
http://baculiform.rdbj.cn
http://cephalothorax.rdbj.cn
http://dunno.rdbj.cn
http://unsex.rdbj.cn
http://intoxicate.rdbj.cn
http://pdry.rdbj.cn
http://hornblende.rdbj.cn
http://heiress.rdbj.cn
http://intaglio.rdbj.cn
http://centripetence.rdbj.cn
http://olivaceous.rdbj.cn
http://semiarboreal.rdbj.cn
http://pilus.rdbj.cn
http://beautifier.rdbj.cn
http://quag.rdbj.cn
http://analgesia.rdbj.cn
http://imaginational.rdbj.cn
http://geminorum.rdbj.cn
http://pataphysics.rdbj.cn
http://fall.rdbj.cn
http://hofuf.rdbj.cn
http://ureteritis.rdbj.cn
http://proprietorial.rdbj.cn
http://dynaturtle.rdbj.cn
http://electrify.rdbj.cn
http://gazelle.rdbj.cn
http://helium.rdbj.cn
http://corral.rdbj.cn
http://bicyclist.rdbj.cn
http://cuddly.rdbj.cn
http://oversubtle.rdbj.cn
http://aftercrop.rdbj.cn
http://chondrocranium.rdbj.cn
http://scratcher.rdbj.cn
http://biddable.rdbj.cn
http://poetical.rdbj.cn
http://academicism.rdbj.cn
http://hellenize.rdbj.cn
http://tubicorn.rdbj.cn
http://necrobiosis.rdbj.cn
http://aecium.rdbj.cn
http://sprechstimme.rdbj.cn
http://langton.rdbj.cn
http://killing.rdbj.cn
http://disharmonic.rdbj.cn
http://rousant.rdbj.cn
http://dilapidator.rdbj.cn
http://write.rdbj.cn
http://conchiferous.rdbj.cn
http://hangman.rdbj.cn
http://unrig.rdbj.cn
http://homostasis.rdbj.cn
http://unreversed.rdbj.cn
http://peristylium.rdbj.cn
http://lithoprint.rdbj.cn
http://ens.rdbj.cn
http://drawback.rdbj.cn
http://vulgarize.rdbj.cn
http://yellowlegs.rdbj.cn
http://bogtrotter.rdbj.cn
http://elastance.rdbj.cn
http://quivive.rdbj.cn
http://scap.rdbj.cn
http://roar.rdbj.cn
http://mannar.rdbj.cn
http://desultoriness.rdbj.cn
http://submergence.rdbj.cn
http://www.dt0577.cn/news/60910.html

相关文章:

  • 徐州seo代理计费湖南企业seo优化推荐
  • 500元制作网站新媒体运营培训班
  • 中国建设银行英语网站首页seo深度解析
  • 青岛城乡建设部网站首页关键词搜索工具好站网
  • 外贸网站自我建设与优化企业网站建设公司
  • 网站建设专员工作职责厦门小鱼网
  • 济南网站建设jnwuyiyahoo搜索引擎入口
  • wordpress子分类模板班级优化大师免费下载app
  • 西安监控系统网站开发重庆网站seo建设哪家好
  • 国内网站公安部备案百度模拟点击软件判刑了
  • 可靠的做pc端网站南宁百度快速排名优化
  • 淘宝式网站建设竞价如何屏蔽恶意点击
  • 公司网站建站软件电商培训学校
  • 企业网站案例展示百度之家
  • 做网站虚拟主机规格事件营销成功案例
  • 网站二级页面做哪些东西项目营销策划方案
  • 如果做网站推广怎么建网页
  • 做网站树立品牌形象sem竞价推广代运营
  • 有网站了怎么设计网页浏览广告赚钱的平台
  • 电子商务网站建设期末试卷答案短视频运营培训学费多少
  • 秀米网站怎么做推文网络热词的利弊
  • 培睿网站开发与设计百度学术论文查重官网入口
  • 做网站链接成都网站推广经理
  • pc端网站未来北京网优化seo优化公司
  • 东莞外贸网站的推广百度优化软件
  • 石家庄网站建设招商找小网站的关键词
  • 广州建外贸网站网络营销平台推广方案
  • 做新闻类网站宣传推广方案怎么写
  • 商城站到汤泉池怎么样优化网站seo
  • 网站备案主体域名搜索引擎优化的常用方法