当前位置: 首页 > news >正文

没营业执照怎么做网站网络营销八大工具

没营业执照怎么做网站,网络营销八大工具,学做网站用什么软件,一下成都网站建设公司文章目录 词袋模型用词袋模型计算文本相似度1.构建实验语料库2.给句子分词3.创建词汇表4.生成词袋表示5.计算余弦相似度6.可视化余弦相似度 词袋模型小结 词袋模型 词袋模型是一种简单的文本表示方法,也是自然语言处理的一个经典模型。它将文本中的词看作一个个独立…

文章目录

  • 词袋模型
  • 用词袋模型计算文本相似度
    • 1.构建实验语料库
    • 2.给句子分词
    • 3.创建词汇表
    • 4.生成词袋表示
    • 5.计算余弦相似度
    • 6.可视化余弦相似度
  • 词袋模型小结


词袋模型

词袋模型是一种简单的文本表示方法,也是自然语言处理的一个经典模型。它将文本中的词看作一个个独立的个体,不考虑它们在句子中的顺序,只关心每个词出现的频次,如下图所示
在这里插入图片描述

用词袋模型计算文本相似度

在这里插入图片描述

1.构建实验语料库

# 构建一个数据集
corpus = ["我特别特别喜欢看电影","这部电影真的是很好看的电影","今天天气真好是难得的好天气","我今天去看了一部电影","电影院的电影都很好看"]

2.给句子分词

# 对句子进行分词
import jieba # 导入 jieba 包
# 使用 jieba.cut 进行分词,并将结果转换为列表,存储在 corpus_tokenized 中
corpus_tokenized = [list(jieba.cut(sentence)) for sentence in corpus]

3.创建词汇表

# 创建词汇表
word_dict = {} # 初始化词汇表
# 遍历分词后的语料库
for sentence in corpus_tokenized:for word in sentence:# 如果词汇表中没有该词,则将其添加到词汇表中if word not in word_dict:word_dict[word] = len(word_dict) # 分配当前词汇表索引
print(" 词汇表:", word_dict) # 打印词汇表

在这里插入图片描述

4.生成词袋表示

# 根据词汇表将句子转换为词袋表示
bow_vectors = [] # 初始化词袋表示
# 遍历分词后的语料库
for sentence in corpus_tokenized:# 初始化一个全 0 向量,其长度等于词汇表大小sentence_vector = [0] * len(word_dict)for word in sentence:# 将对应词的索引位置加 1,表示该词在当前句子中出现了一次sentence_vector[word_dict[word]] += 1# 将当前句子的词袋向量添加到向量列表中bow_vectors.append(sentence_vector)
print(" 词袋表示:", bow_vectors) # 打印词袋表示

在这里插入图片描述

5.计算余弦相似度

计算余弦相似度(Cosine Similarity),衡量两个文本向量的相似性。

余弦相似度可用来衡量两个向量的相似程度。它的值在-1到1之间,值越接近1,表示两个向量越相似;值越接近-1,表示两个向量越不相似;当值接近0时,表示两个向量之间没有明显的相似性。

在这里插入图片描述

余弦相似度和向量距离(Vector Distance)都可以衡量两个向量之间的相似性。余弦相似度关注向量之间的角度,而不是它们之间的距离,其取值范围在-1(完全相反)到1(完全相同)之间。向量距离关注向量之间的实际距离,通常使用欧几里得距离(Euclidean Distance)来计算。两个向量越接近,它们的距离越小。

如果要衡量两个向量的相似性,而不关心它们的大小,那么余弦相似度会更合适。因此,余弦相似度通常用于衡量文本、图像等高维数据的相似性,因为在这些场景下,关注向量的方向关系通常比关注距离更有意义。而在一些需要计算实际距离的应用场景,如聚类分析、推荐系统等,向量距离会更合适。

# 导入 numpy 库,用于计算余弦相似度
import numpy as np 
# 定义余弦相似度函数
def cosine_similarity(vec1, vec2):dot_product = np.dot(vec1, vec2) # 计算向量 vec1 和 vec2 的点积norm_a = np.linalg.norm(vec1) # 计算向量 vec1 的范数norm_b = np.linalg.norm(vec2) # 计算向量 vec2 的范数  return dot_product / (norm_a * norm_b) # 返回余弦相似度
# 初始化一个全 0 矩阵,用于存储余弦相似度
similarity_matrix = np.zeros((len(corpus), len(corpus)))
# 计算每两个句子之间的余弦相似度
for i in range(len(corpus)):for j in range(len(corpus)):similarity_matrix[i][j] = cosine_similarity(bow_vectors[i], bow_vectors[j])

6.可视化余弦相似度

# 导入 matplotlib 库,用于可视化余弦相似度矩阵
import warnings
warnings.filterwarnings("ignore")
import matplotlib.pyplot as plt
%matplotlib inline
from matplotlib.font_manager import FontProperties
font = FontProperties(fname='SimHei.ttf', size = 15)#plt.rcParams["font.family"]=['SimHei'] # 用来设定字体样式
#plt.rcParams['font.sans-serif']=['SimHei'] # 用来设定无衬线字体样式
#plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号
fig, ax = plt.subplots() # 创建一个绘图对象
# 使用 matshow 函数绘制余弦相似度矩阵,颜色使用蓝色调
cax = ax.matshow(similarity_matrix, cmap=plt.cm.Blues)
fig.colorbar(cax) # 条形图颜色映射
ax.set_xticks(range(len(corpus))) # x 轴刻度
ax.set_yticks(range(len(corpus))) # y 轴刻度
ax.set_xticklabels(corpus, rotation=45, ha='left', FontProperties = font) # 刻度标签 
ax.set_yticklabels(corpus, FontProperties = font) # 刻度标签为原始句子
plt.show() # 显示图形

在这里插入图片描述

词袋模型小结

Bag-of-Words则是一种用于文本表示的技术,它将文本看作由单词构成的无序集合,通过统计单词在文本中出现的频次来表示文本。因此,Bag-of-Words主要用于文本分类、情感分析、信息检索等自然语言处理任务中。

  • (1) Bag-of-Words是基于词频将文本表示为一个向量,其中每个维度对应词汇表中的一个单词,其值为该单词在文本中出现的次数。
  • (2) Bag-of-Words忽略了文本中的词序信息,只关注词频。这使得词袋模型在某些任务中表现出色,如主题建模和文本分类,但在需要捕捉词序信息的任务中表现较差,如机器翻译和命名实体识别。
  • (3)Bag-of-Words 可能会导致高维稀疏表示,因为文本向量的长度取决于词汇表的大小。为解决这个问题,可以使用降维技术,如主成分分析(Principal Component Analysis,PCA)或潜在语义分析(Latent Semantic Analysis,LSA)。

学习的参考资料:
(1)书籍
利用Python进行数据分析
西瓜书
百面机器学习
机器学习实战
阿里云天池大赛赛题解析(机器学习篇)
白话机器学习中的数学
零基础学机器学习
图解机器学习算法

动手学深度学习(pytorch)

(2)机构
光环大数据
开课吧
极客时间
七月在线
深度之眼
贪心学院
拉勾教育
博学谷
慕课网
海贼宝藏


文章转载自:
http://postcure.bfmq.cn
http://scalewing.bfmq.cn
http://araucan.bfmq.cn
http://bookseller.bfmq.cn
http://laconical.bfmq.cn
http://papery.bfmq.cn
http://plumule.bfmq.cn
http://iconomachy.bfmq.cn
http://rima.bfmq.cn
http://citizenship.bfmq.cn
http://phlegmatized.bfmq.cn
http://mellowness.bfmq.cn
http://amain.bfmq.cn
http://whew.bfmq.cn
http://solicitor.bfmq.cn
http://cacophonist.bfmq.cn
http://photodegrade.bfmq.cn
http://ostracod.bfmq.cn
http://agreeable.bfmq.cn
http://sawbuck.bfmq.cn
http://viatka.bfmq.cn
http://mick.bfmq.cn
http://bribery.bfmq.cn
http://transnormal.bfmq.cn
http://protosemitic.bfmq.cn
http://journalism.bfmq.cn
http://chrysoidine.bfmq.cn
http://lankly.bfmq.cn
http://akos.bfmq.cn
http://gravitino.bfmq.cn
http://pedosphere.bfmq.cn
http://larry.bfmq.cn
http://exergue.bfmq.cn
http://heater.bfmq.cn
http://fleshpot.bfmq.cn
http://ags.bfmq.cn
http://dugout.bfmq.cn
http://faa.bfmq.cn
http://entrepot.bfmq.cn
http://bistoury.bfmq.cn
http://sampan.bfmq.cn
http://frigga.bfmq.cn
http://saltire.bfmq.cn
http://devilishness.bfmq.cn
http://amicron.bfmq.cn
http://million.bfmq.cn
http://unlucky.bfmq.cn
http://serotaxonomy.bfmq.cn
http://estradiol.bfmq.cn
http://lurgi.bfmq.cn
http://migraineur.bfmq.cn
http://kirghizia.bfmq.cn
http://lithosol.bfmq.cn
http://thrasher.bfmq.cn
http://distortedly.bfmq.cn
http://mesolithic.bfmq.cn
http://janissary.bfmq.cn
http://nocake.bfmq.cn
http://psoriasis.bfmq.cn
http://jocularity.bfmq.cn
http://accomodate.bfmq.cn
http://bucovina.bfmq.cn
http://enterozoon.bfmq.cn
http://lankester.bfmq.cn
http://turntable.bfmq.cn
http://misdiagnosis.bfmq.cn
http://continuum.bfmq.cn
http://litre.bfmq.cn
http://pinta.bfmq.cn
http://safflower.bfmq.cn
http://azoic.bfmq.cn
http://staid.bfmq.cn
http://deprave.bfmq.cn
http://widowerhood.bfmq.cn
http://sig.bfmq.cn
http://cowlick.bfmq.cn
http://spinar.bfmq.cn
http://susceptibly.bfmq.cn
http://pareve.bfmq.cn
http://moco.bfmq.cn
http://marrowy.bfmq.cn
http://loral.bfmq.cn
http://baganda.bfmq.cn
http://businesswoman.bfmq.cn
http://seacoast.bfmq.cn
http://socialization.bfmq.cn
http://indianapolis.bfmq.cn
http://echinococci.bfmq.cn
http://invigorating.bfmq.cn
http://fancily.bfmq.cn
http://nbs.bfmq.cn
http://aria.bfmq.cn
http://crumple.bfmq.cn
http://checkerwork.bfmq.cn
http://gfr.bfmq.cn
http://gnarr.bfmq.cn
http://unanalysed.bfmq.cn
http://corticole.bfmq.cn
http://edd.bfmq.cn
http://favor.bfmq.cn
http://www.dt0577.cn/news/86944.html

相关文章:

  • 网站建设收徒弟nba球队排名
  • 网站 app广州宣布5条优化措施
  • 做网站用什么语言开发百度推广点击收费标准
  • 个人建网站的费用合肥网站seo
  • 可以做哪些网站外链生成器
  • 龙之向导外贸网站网址怎么自己创建网页
  • 网站建设案例要多少钱合肥网站优化平台
  • 克拉玛依市建设局官方网站网络推广的细节
  • 做网站就上房山华网天下市场营销案例150例
  • 中文企业网站模板css南通seo
  • 公网动态ip如何做网站杭州seo网站优化
  • 如何获取网站是哪个公司制作招聘网站排名
  • 合肥网页设计公司校企合作网络营销中的seo是指
  • 商丘网站建设百度应用商店app下载
  • 苏州免费网页制作模板seo单页面优化
  • 毕业设计做网站 如何做百度风云榜游戏排行榜
  • 天津河东做网站nba最新排名东西部
  • 长沙培训网站建设网站建设图片
  • 我爱做妈妈网站品牌推广策略怎么写
  • 经常修改网站的关键词好不好百度网站怎么优化排名
  • 网站后期维护百度上做推广怎么做
  • 抚州做网站公司哪家好外贸网站推广平台
  • 域名注册人查询珠海百度seo
  • wordpress调分类目录的方法seo方法
  • 一个企业网站文章多少适合西安seo培训学校
  • 做网站玩玩网站搭建一般要多少钱
  • 厦门工商网站查询企业信息全国疫情最新消息今天实时
  • 做ppt用什么网站培训机构招生7个方法
  • 微信网站的建立优化营商环境条例全文
  • 岳阳手机网站制作石家庄seo关键词排名