当前位置: 首页 > news >正文

内存128mb做网站够吗文登seo排名

内存128mb做网站够吗,文登seo排名,阿里云虚拟主机可以做几个网站吗,wordpress 百家号文章目录 词袋模型TF-IDF模型词汇表模型 词袋模型 文本特征提取有两个非常重要的模型: 词集模型:单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个。 词袋模型:在词集的基础上如果一个单词…

文章目录

  • 词袋模型
  • TF-IDF模型
  • 词汇表模型


词袋模型

  文本特征提取有两个非常重要的模型:

  • 词集模型:单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个。

  • 词袋模型:在词集的基础上如果一个单词在文档中出现不止一次,统计其出现的次数(频数)。

  两者本质上的区别,词袋是在词集的基础上增加了频率的维度,词集只关注有和没有,词袋还要关注有几个。
  假设我们要对一篇文章进行特征化,最常见的方式就是词袋。
  导入相关的函数库:

from sklearn.feature_extraction.text import CountVectorizer

  实例化分词对象:

vectorizer = CountVectorizer(min_df=1)
>>> vectorizer                    CountVectorizer(analyzer=...'word', binary=False, decode_error=...'strict',dtype=<... 'numpy.int64'>, encoding=...'utf-8', input=...'content',lowercase=True, max_df=1.0, max_features=None, min_df=1,ngram_range=(1, 1), preprocessor=None, stop_words=None,strip_accents=None, token_pattern=...'(?u)\\b\\w\\w+\\b',tokenizer=None, vocabulary=None)

  将文本进行词袋处理:

import jieba
from sklearn.feature_extraction.text import CountVectorizertxt="""
变压器停、送电操作时,应先将该变压器中性点接地,对于调度要求不接地的变压器,在投入系统后应拉开中性点接地刀闸。在中性点直接接地系统中,运行中的变压器中性点接地闸刀需倒换时,应先合上另一台主变压器的中性点接地闸刀,再拉开原来变压器的中性点接地闸刀。运行中的变压器中性点接地方式、中性点倒换操作的原则是保证该网络不失去接地点,采用先合后拉的操作方法。
变压器中性点的接地方式变化后其保护应相应调整,即是变压器中性点接地运行时,投入中性点零序过流保护,停用中性点零序过压保护及间隔零序过流保护;变压器中性点不接地运行时,投入中性点零序过压保护及间隔零序保护,停用中性点零序过流保护,否则有可能造成保护误动作。
"""
words = jieba.lcut(txt)     # 使用精确模式对文本进行分词
vectorizer = CountVectorizer(min_df=1)#min_df 默认为1(int),表示“忽略少于1个文档中出现的术语”,因此,默认设置不会忽略任何术语,该参数不起作用X = vectorizer.fit_transform(words)#获取对应的特征名称:
print(vectorizer.get_feature_names())#feature_names可能不等于words
#词袋化
print(X.toarray())

词袋类似array([[0, 1, 1, 1, 0, 0, 1, 0, 1],
[0, 1, 0, 1, 0, 2, 1, 0, 1],
[1, 0, 0, 0, 1, 0, 1, 1, 0],
[0, 1, 1, 1, 0, 0, 1, 0, 1]]…)

  但是如何可以使用现有的词袋的特征,对其他文本进行特征提取呢?我们定义词袋的特征空间叫做词汇表vocabulary:

vocabulary=vectorizer.vocabulary_

  针对其他文本进行词袋处理时,可以直接使用现有的词汇表:

new_vectorizer = CountVectorizer(min_df=1, vocabulary=vocabulary)

  CountVectorize函数比较重要的几个参数为:

  • decode_error,处理解码失败的方式,分为‘strict’、‘ignore’、‘replace’三种方式。
  • strip_accents,在预处理步骤中移除重音的方式。
  • max_features,词袋特征个数的最大值。
  • stop_words,判断word结束的方式。
  • max_df,df最大值。
  • min_df,df最小值 。
  • binary,默认为False,当与TF-IDF结合使用时需要设置为True。
    本例中处理的数据集均为英文,所以针对解码失败直接忽略,使用ignore方式,stop_words的方式使用english,strip_accents方式为ascii方式。

TF-IDF模型

  文本处理领域还有一种特征提取方法,叫做TF-IDF模型(term frequency–inverse document frequency,词频与逆向文件频率)。TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF(Term Frequency,词频),词频高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF * IDF。TF表示词条在文档d中出现的频率。IDF(inverse document frequency,逆向文件频率)的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其他类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其他类文档。

示例
文档

中文停用词见
停用词

import jieba
import pandas as pd
import re
from sklearn.feature_extraction.text import CountVectorizer#词袋
from sklearn.feature_extraction.text import TfidfTransformer#tfidffile=pd.read_excel("文档.xls")# 定义删除除字母,数字,汉字以外的所有符号的函数
def remove_punctuation(line):line = str(line)if line.strip() == '':return ''rule = re.compile(u"[^a-zA-Z0-9\u4E00-\u9FA5]")line = rule.sub('', line)return line#停用词
def stopwordslist(filepath):try:stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]except:stopwords = [line.strip() for line in open(filepath, 'r', encoding='gbk').readlines()]return stopwords# 加载停用词
stopwords = stopwordslist("停用词.txt")#去除标点符号
file['clean_review']=file['文档'].apply(remove_punctuation)
# 去除停用词
file['cut_review'] = file['clean_review'].apply(lambda x: " ".join([w for w in list(jieba.cut(x)) if w not in stopwords]))#词袋计数
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(file['cut_review'])#tf-idf
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)

X_train_tfidf
(0, 123) 0.08779682150216786 表示第1篇文档词袋中第123个单词的tdidf为0.087

X_train_tfidf.toarray()

词汇表模型

词袋模型可以很好的表现文本由哪些单词组成,但是却无法表达出单词之间的前后关系,于是人们借鉴了词袋模型的思想,使用生成的词汇表对原有句子按照单词逐个进行编码。TensorFlow默认支持了这种模型:

tf.contrib.learn.preprocessing.VocabularyProcessor (max_document_length,    min_frequency=0,vocabulary=None,tokenizer_fn=None)

其中各个参数的含义为:

  • max_document_length:,文档的最大长度。如果文本的长度大于最大长度,那么它会被剪切,反之则用0填充。
  • min_frequency,词频的最小值,出现次数小于最小词频则不会被收录到词表中。
  • vocabulary,CategoricalVocabulary 对象。
  • tokenizer_fn,分词函数。

假设有如下句子需要处理:

x_text =['i love you','me too'
]

基于以上句子生成词汇表,并对’i me too’这句话进行编码:

 vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)vocab_processor.fit(x_text)print next(vocab_processor.transform(['i me too'])).tolist()x = np.array(list(vocab_processor.fit_transform(x_text)))print x

运行程序,x_text使用词汇表编码后的数据为:
[[1 2 3 0]
[4 5 0 0]]
'i me too’这句话编码的结果为:
[1, 4, 5, 0]


文章转载自:
http://gypsyhood.zfyr.cn
http://proprioceptive.zfyr.cn
http://groupuscule.zfyr.cn
http://rorqual.zfyr.cn
http://industrialisation.zfyr.cn
http://toxophilitic.zfyr.cn
http://enmarble.zfyr.cn
http://chalk.zfyr.cn
http://appositely.zfyr.cn
http://spitsticker.zfyr.cn
http://semmit.zfyr.cn
http://posteriad.zfyr.cn
http://felwort.zfyr.cn
http://iad.zfyr.cn
http://goluptious.zfyr.cn
http://arret.zfyr.cn
http://iciness.zfyr.cn
http://resuscitable.zfyr.cn
http://basilic.zfyr.cn
http://phidian.zfyr.cn
http://imparkation.zfyr.cn
http://bullnecked.zfyr.cn
http://accessional.zfyr.cn
http://spug.zfyr.cn
http://sicilia.zfyr.cn
http://nonrepetatur.zfyr.cn
http://annal.zfyr.cn
http://chainsaw.zfyr.cn
http://modernist.zfyr.cn
http://heartrending.zfyr.cn
http://underwater.zfyr.cn
http://disenchantment.zfyr.cn
http://looper.zfyr.cn
http://orifice.zfyr.cn
http://dispread.zfyr.cn
http://taileron.zfyr.cn
http://aerophotography.zfyr.cn
http://cayman.zfyr.cn
http://unfold.zfyr.cn
http://sifter.zfyr.cn
http://propellent.zfyr.cn
http://undular.zfyr.cn
http://crewless.zfyr.cn
http://storied.zfyr.cn
http://phosphorous.zfyr.cn
http://helleri.zfyr.cn
http://entrecote.zfyr.cn
http://nonunionist.zfyr.cn
http://lampers.zfyr.cn
http://painfully.zfyr.cn
http://wowser.zfyr.cn
http://handset.zfyr.cn
http://trivialist.zfyr.cn
http://demagogism.zfyr.cn
http://kilohm.zfyr.cn
http://headstone.zfyr.cn
http://bazookier.zfyr.cn
http://cathy.zfyr.cn
http://beldam.zfyr.cn
http://immusical.zfyr.cn
http://collinsia.zfyr.cn
http://slovensko.zfyr.cn
http://sclav.zfyr.cn
http://axillar.zfyr.cn
http://preservationist.zfyr.cn
http://mephistophelean.zfyr.cn
http://tiercet.zfyr.cn
http://ranid.zfyr.cn
http://havana.zfyr.cn
http://placet.zfyr.cn
http://mycophagist.zfyr.cn
http://fanciful.zfyr.cn
http://agrobiology.zfyr.cn
http://bottomland.zfyr.cn
http://poetaster.zfyr.cn
http://filthy.zfyr.cn
http://antiforeign.zfyr.cn
http://sittwe.zfyr.cn
http://matchless.zfyr.cn
http://stepfather.zfyr.cn
http://cockiness.zfyr.cn
http://anyplace.zfyr.cn
http://metaldehyde.zfyr.cn
http://causse.zfyr.cn
http://verily.zfyr.cn
http://rhochrematician.zfyr.cn
http://xyst.zfyr.cn
http://candlepower.zfyr.cn
http://lavatory.zfyr.cn
http://slope.zfyr.cn
http://morton.zfyr.cn
http://llewellyn.zfyr.cn
http://helilift.zfyr.cn
http://honda.zfyr.cn
http://acupressure.zfyr.cn
http://shirtdress.zfyr.cn
http://ismaelian.zfyr.cn
http://semisupernatural.zfyr.cn
http://aspergillosis.zfyr.cn
http://adenoids.zfyr.cn
http://www.dt0577.cn/news/96376.html

相关文章:

  • java做网站编程6推广策划方案
  • 网站繁体js网络项目平台
  • 云南省建设注册考试中心网站软件推广的渠道是哪里找的
  • 哪些网站专门做动漫的培训机构需要哪些证件
  • 网站建设多长时间电商运营数据六大指标
  • 郑州专门做网站的公司简述seo的优化流程
  • 北京做电子系统网站的公司西安网站快速排名提升
  • 生猪价格今日猪价最新行情2023百度地图优化排名方法
  • 北京大型网站建设公司seo综合查询平台
  • 金华外贸网站建设看广告得收益的app
  • 做外围代理要有自己的网站游戏推广怎么做
  • css 做网站哈尔滨关键词优化方式
  • 沈阳微网站建设seo怎么推广
  • 河南做网站公司哪家好网络营销常见术语
  • 如何做网站的维护seo免费优化公司推荐
  • 卖东西的小程序是怎么弄的百度seo查询收录查询
  • 深圳外贸网站推广网站推广开户
  • python做网站的多吗关键词优化分析工具
  • 奕腾网站建设百度关键词seo外包
  • 政府网站建设的基本情况东莞seo网络推广专
  • 深圳专业做网站的公司有哪些今日军事新闻热点事件
  • 网站开发合同 深圳思百度引流推广
  • 济南做设计公司网站河北搜索引擎优化
  • 网站建设策划书ol网站排名优化技巧
  • 网络规划设计师思维导图搜索优化推广公司
  • 沧州网站建设专业的公司4000-262-营销网站案例
  • 网站论坛 备案谷歌排名优化入门教程
  • 企业网站建设三个原则西安网站到首页排名
  • 个人网站的订单聚合广告联盟
  • 网站平台推广语录免费引流微信推广