当前位置: 首页 > news >正文

石岩做网站哪家好品牌策划的五个步骤

石岩做网站哪家好,品牌策划的五个步骤,建设学校网站前的需求分析报告,南海网站制作公司1 问题 通过以下代码,实现加载word2vec词向量,每次加载都是几分钟,效率特别低。 from gensim.models import Word2Vec,KeyedVectors# 读取中文词向量模型(需要提前下载对应的词向量模型文件) word2vec_model KeyedV…

1 问题

通过以下代码,实现加载word2vec词向量,每次加载都是几分钟,效率特别低。

from gensim.models import Word2Vec,KeyedVectors# 读取中文词向量模型(需要提前下载对应的词向量模型文件)
word2vec_model = KeyedVectors.load_word2vec_format('hy-tmp/word2vec.bz2', binary=False)

2 解决方案

(1)方案一
第一次加载后保存为能够快速加载的文件,第二次加载就能快读读取。

file_path = "word2vec/train_bio_word"
if os.path.exists(file_path):word2vec_model = KeyedVectors.load(file_path,mmap='r')
else:# 读取中文词向量模型(需要提前下载对应的词向量模型文件)word2vec_model = KeyedVectors.load_word2vec_format('hy-tmp/word2vec.bz2', binary=False)word2vec_model.init_sims(replace=True)word2vec_model.save(file_path)

(2)方案二
第一次加载后,只将使用到的词向量以表格的形式保存到本地,第二次读取就不需要加载全部word2vec的,只加载表格中的词向量。

file_path = "word2vec/train_vocabulary_vector.csv"
if os.path.exists(file_path):# 读取词汇-向量字典,csv转字典vocabulary_vector = dict(pd.read_csv(file_path))# 此时需要将字典中的词向量np.array型数据还原为原始类型,方便以后使用for key,value in vocabulary_vector.items():vocabulary_vector[key] = np.array(value)else:# 所有文本构建词汇表,words_cut 为分词后的list,每个元素为以空格分隔的str.vocabulary = list(set([word for item in text_data1 for word in item]))# 构建词汇-向量字典vocabulary_vector = {}for word in vocabulary:if word in word2vec_model:vocabulary_vector[word] = word2vec_model[word]# 储存词汇-向量字典,由于json文件不能很好的保存numpy词向量,故使用csv保存pd.DataFrame(vocabulary_vector).to_csv(file_path)

(3)方案三
不使用word2vec的原训练权重,使用Embedding工具库。自动下载权重文件后,高效使用。
参考:https://github.com/vzhong/embeddings
安装库

pip install embeddings  # from pypi
pip install git+https://github.com/vzhong/embeddings.git  # from github
from embeddings import GloveEmbedding, FastTextEmbedding, KazumaCharEmbedding, ConcatEmbeddingg = GloveEmbedding('common_crawl_840', d_emb=300, show_progress=True)
f = FastTextEmbedding()
k = KazumaCharEmbedding()
c = ConcatEmbedding([g, f, k])
for w in ['canada', 'vancouver', 'toronto']:print('embedding {}'.format(w))print(g.emb(w))print(f.emb(w))print(k.emb(w))print(c.emb(w))
http://www.dt0577.cn/news/25939.html

相关文章:

  • 网站建设程序都有哪些域名ip地址在线查询
  • 制作一个网站首页志鸿优化网
  • 即墨有做网站的吗百度手机端排名
  • 做网站seo百度搜索大数据查询
  • 毕设做网站什么主题比较好百度推广关键词和创意
  • 建设网站方案怎么宣传自己新开的店铺
  • 网站导航栏的设计与实现北京官网seo收费
  • 做ppt的网站叫什么名字网络销售管理条例
  • 企业型网站建设咨询电话b站网页入口
  • 庆阳市西峰区做网站网站内部seo优化包括
  • 贵州最近爆发的传染病seo博客教程
  • 网站建设要备案吗seo排名点击手机
  • 公司网站开发 nodejs怀化网络推广
  • 可以做外贸私单的网站网站没有友情链接
  • 公司建设网站算入什么会计科目seo策略是什么意思
  • 美国做deals的网站百度快照首页
  • wordpress标签增加彩色背景宁波seo网络推广软件系统
  • 做网站的语言版本台州网站建设优化
  • 手机网站制作代码与web有什么不同广州网站建设技术外包
  • 营销型网站能解决什么问题seo工程师是做什么的
  • 广东佛山建筑工程有限公司宁德seo公司
  • 福州网络营销推广产品优化seo网站关键词排名快速
  • 外贸独立站有哪些平台长沙网站推广服务公司
  • 公司做网站卖东西要什么证竞价推广套户渠道商
  • 营销型网站价格实惠百度游戏排行榜
  • 有哪些外国网站做精油的成都高端网站建设哪家好
  • 网站开发都是使用框架吗四川seo推广方案
  • 临沂恒商做网站软文是什么
  • 上海房地产网站建设报价网址查询地址查询
  • 建设一个网站需要什么硬件在线制作网页网站