当前位置: 首页 > news >正文

温州正规制作网站公司韶山百度seo

温州正规制作网站公司,韶山百度seo,做网站推广选哪家,日照网站建设jicowjieba分词和TF-IDF分析 目录 jieba分词和TF-IDF分析1 jieba1.1 简介1.2 终端下载1.3 基本语法 2 TF-IDF分析2.1 什么是语料库2.2 TF2.3 IDF2.4 TF-IDF2.5 函数导入2.6 方法 3 实际测试3.1 问题解析3.2 代码测试 1 jieba 1.1 简介 结巴分词(Jieba)是一个…

jieba分词和TF-IDF分析

目录

  • jieba分词和TF-IDF分析
    • 1 jieba
      • 1.1 简介
      • 1.2 终端下载
      • 1.3 基本语法
    • 2 TF-IDF分析
      • 2.1 什么是语料库
      • 2.2 TF
      • 2.3 IDF
      • 2.4 TF-IDF
      • 2.5 函数导入
      • 2.6 方法
    • 3 实际测试
      • 3.1 问题解析
      • 3.2 代码测试

1 jieba


1.1 简介

结巴分词(Jieba)是一个广泛使用的中文分词Python库,它支持多种分词模式,并且可以添加自定义词典来提高分词的准确性。

1.2 终端下载

pip install jieba

1.3 基本语法

  • jieba.lcut(sentence=切分语句变量),会根据自带的词典进行切分
  • jieba.add_word(‘词句’),添加词句到词典,之后会以此切分
  • jieba.load_userdict(‘文件’),文件添加到词典,文件需要一词一行

代码展示:

import jieba
w1 = '我们在学习python办公自动化'
w2 = jieba.lcut(sentence=w1)
print(w2)
jieba.add_word('python办公自动化')
w3 = jieba.lcut(sentence=w1)
print(w3)
w4 = '我在想你,在今天的风里。'
w5 = jieba.lcut(sentence=w4)
print(w5)
jieba.load_userdict(r'.\dic.txt')
w4 = '我在想你,在今天的风里。'
w6 = jieba.lcut(sentence=w4)
print(w6)

运行结果:

在这里插入图片描述

2 TF-IDF分析


2.1 什么是语料库

(1)语料库中存放的是在语言的实际使用中真实出现过的语言材料;
(2)语料库是以电子计算机为载体承载语言知识的基础资源;
(3)真实语料需要经过加工(分析和处理),才能成为有用的资源。

2.2 TF

指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。
TF=某个词在文章中的出现次数/文章总词数

2.3 IDF

逆向文档频率。IDF的主要思想是:如果包含词条t的文档越少,IDF越大,则说明词条具有很好的类别区分能力。
IDF=log(语料库文档总数/(含该词条的文档数+1))

2.4 TF-IDF

TF-IDF倾向于过滤掉常见的词语,保留重要的词语。TF-IDF越高,越重要。
TF -IDF = 词频(TF)x 逆文档频率(IDF)

2.5 函数导入

from sklearn.feature_extraction.text import TfidfVectorizer

2.6 方法

  • tfi =TfidfVectorizer()引用函数
  • tfi.fit_transform(words),按顺序获取文章词汇的TF-IDF
  • tfi.get_feature_names_out(),按顺序切分的文章词汇

3 实际测试


3.1 问题解析

数据如下,其中一行为一篇文章,词汇顺序非文章顺序,而是词汇排列顺序。
在这里插入图片描述

3.2 代码测试

代码展示:

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizerf = open('task2_1.txt')
words = f.readlines()tfi =TfidfVectorizer()
tfi_words = tfi.fit_transform(words)
print(tfi_words)
wordslist = tfi.get_feature_names_out()
print(wordslist)
df = pd.DataFrame(tfi_words.T.todense(),index=wordslist)
print(df)
featurelist = df.iloc[:,5].to_list()res = {}
for i in range(0,len(wordslist)):res[wordslist[i]] = featurelist[i]
res = sorted(res.items(),key=lambda x:x[1],reverse=True)
print(res)
print(res[2])

运行结果:

在这里插入图片描述

http://www.dt0577.cn/news/18212.html

相关文章:

  • 有做敦煌网站的吗做游戏推广怎么找客户
  • 苏州网站建设开发seo手机关键词排行推广
  • 广州旅游攻略沈阳网站推广优化
  • 做镜像网站违法seo人员培训
  • 做网站制作步骤深圳seo关键词优化外包公司
  • 建设机械网站策划百度云搜索引擎入口百度网盘
  • 山东网站开发制作网站提交收录入口
  • 只做衬衣网站重庆seo网站
  • 规模以上工业企业是指什么宁波seo外包哪个品牌好
  • 织梦开发小说网站教程信息流优化师职业规划
  • 建网站维护需要多少钱怎么开通网站平台
  • 网站首页快照不更新武汉网站维护公司
  • 大气网站案例郑州网络营销排名
  • 做网站可以用python么百度快速收录权限
  • 有专门做食品的网站吗做网站推广
  • 吉林票务通appseo蜘蛛池
  • 网站建设上线多久推广手段和渠道有哪些
  • 电子工程师网站app推广有哪些渠道
  • 烟台做网站打电话话术企业推广文案范文
  • 深圳做网站哪家便宜百度公司推广
  • 设计网站推荐平面网络推广方法有哪几种
  • 湖南专业做网站公司推广方案范例
  • springboot企业网站开发nba最新交易新闻
  • wordpress小说网站广东新闻今日最新闻
  • 有限公司怎么纳税seo 360
  • 手机网站要域名吗seo岗位工作内容
  • 三国曹魏古城建设网站网络营销管理办法
  • 新市区做网站网页制作公司
  • 郑州中原区网站建设uc浏览器关键词排名优化
  • 建设动态网站常见的问题九个关键词感悟中国理念