当前位置: 首页 > news >正文

cms建站模板下载衡阳seo快速排名

cms建站模板下载,衡阳seo快速排名,做学生阅读分析的网站,宁乡市住房和城乡建设局网站特征预处理采用的是特定的统计方法(数学方法)将数据转化为算法要求的数字 1. 数值型数据 归一化,将原始数据变换到[0,1]之间 标准化,数据转化到均值为0,方差为1的范围内 缺失值,缺失值处理成均值、中…

特征预处理采用的是特定的统计方法(数学方法)将数据转化为算法要求的数字

1. 数值型数据

归一化,将原始数据变换到[0,1]之间

标准化,数据转化到均值为0,方差为1的范围内   

缺失值,缺失值处理成均值、中位数等

2. 类别型数据

降维,多指标转化为少数几个综合指标,去掉关联性不大的指标

PCA,降维的一种

3. 时间类别

时间的切分


1. 归一化

归一化是在特征(维度)非常多的时候,可以防止某一维或某几维对数据影响过大,也是为了把不同来源的数据统一到一个参考区间下,这样比较起来才有意义。其次可以让程序更快地运行。

例如,一个人的身高和体重两个特征,假如体重50kg,身高175cm,由于两个单位不一样,数值大小不一样。如果比较两个人的体型差距时,那么身高的影响结果会比较大,因此在做计算之前需要先进行归一化操作。

归一化的公式为:

        x^{'} = \frac{x-min}{max-min}               x^{''} = x^{'}*(mx-mi)+mi

式中,max min 分别代表某列中的最大值和最小值;x 为归一化之前的值;x'' 为归一化后的结果;mxmi 为要归一化的区间,默认是 [0,1],即mx=1,mi=0

在 sklearn 中的实现,导入方法: from sklearn.preprocessing import MinMaxScaler

归一化方法: scaler.fit_transform()

# 自定义数据
data = [[180,75,25],[175,80,19],[159,50,40],[160,60,32]]
# 导入归一化方法
from sklearn.preprocessing import MinMaxScaler
# 接收该方法
# scaler = MinMaxScaler(feature_range=(0,2)) #指定归一化区间
scaler = MinMaxScaler()
# 将数据传入归一化方法,产生返回值列表类型
result = scaler.fit_transform(data)

可以在归一化方法 MinMaxScaler() 中加入参数 feature_range=( , ) 来指定归一化范围,默认[0,1]。

归一化的优缺点:

归一化非常容易受到最大值和最小值的影响,因此,如果数据集中存在一些异常点,结果将发生很大改变,因此这种方法的鲁棒性(稳定性)很差。只适合数据量比较精确,比较小的情况。


2. 标准化

为了防止某一特征对结果影响太大,将每一个特征(每一列)都进行标准化处理,常用的方法是 z-score 标准化,处理后的数据均值为0标准差为1满足标准正态分布。标准正态分布图如下:

标准化公式:

x^{'}=(x-\mu )/\sigma

其中,\mu 是样本均值\sigma 是样本标准差,它们可以通过现有的样本进行估计,在已有的样本足够多的情况下比较稳定,不受样本最大值和最小值的影响,适合嘈杂的数据场景。

标准差的求法是先求方差,方差 std 的求法如下,n为每个特征的样本数。

std = \frac{(\,(x1-mean)^{2}+(x2-mean)^{2}+...+(xn-mean)^{2}\,)}{n}

标准差为方差开根号

\sigma =\sqrt{std}

方差和标准差越趋近于0,则表示数据越集中;如果越大,表示数据越离散。

在 sklearn 中实现,导入方法: from sklearn.preprocessing import StandardScaler

标准化方法: scaler.fit_transform()

# 自定义数据
data = [[180,75,25],[175,80,19],[159,50,40],[160,60,32]]
# 导入标准化
from sklearn.preprocessing import StandardScaler
# 接收标准化
scaler = StandardScaler()
# 将数据传入标准化方法产生返回值是列表类型
result = scaler.fit_transform(data)


3. 缺失值处理

缺失值一般有两种处理方法,第一种是直接进行删除,第二种是进行替换。除非缺失值占总数据集的比例非常少,才推荐使用删除的方式,否则建议使用平均值中位数的方式进行替换

在sklearn中有专门的缺失值处理方式,from sklearn.impute import SimpleImputer

处理方法 SimpleImputer() 参数设置:

missing_values: 数据中的哪些值视为缺失值。默认missing_values=nan,把数据中的nan当作缺失值

strategy 替换缺失值的策略,默认strategy='mean',使用平均值替换,可选'median'中位数,'most_frequent'众数,'constant'常数项。

注意:这里的均值众数等都是该缺失值所在特征列上的均值众数

fill_value:只有当指定 strategy='constant' 时才使用,用于指定一个常数,默认fill_value=None

# 处理缺失值
# 自定义数据
import numpy as np
data = [[1,2],[np.nan,4],[9,1]]
# 导入缺失值处理方法
from sklearn.impute import SimpleImputer
# 接收方法
si = SimpleImputer()
# 传入原始数据
result = si.fit_transform(data)

使用默认值修改缺失值,用平均值替换nan 


文章转载自:
http://bark.fwrr.cn
http://incivilization.fwrr.cn
http://despoil.fwrr.cn
http://germinal.fwrr.cn
http://domiciled.fwrr.cn
http://emotionality.fwrr.cn
http://governor.fwrr.cn
http://cerous.fwrr.cn
http://colotomy.fwrr.cn
http://cassava.fwrr.cn
http://cogon.fwrr.cn
http://undercellar.fwrr.cn
http://trappings.fwrr.cn
http://bookkeeping.fwrr.cn
http://arcking.fwrr.cn
http://sley.fwrr.cn
http://unsociability.fwrr.cn
http://wedge.fwrr.cn
http://smokeable.fwrr.cn
http://variometer.fwrr.cn
http://begonia.fwrr.cn
http://gravely.fwrr.cn
http://chalklike.fwrr.cn
http://sarcocele.fwrr.cn
http://starlike.fwrr.cn
http://headstall.fwrr.cn
http://pilotless.fwrr.cn
http://enclave.fwrr.cn
http://rapparee.fwrr.cn
http://plaintiff.fwrr.cn
http://recollectedly.fwrr.cn
http://shrubbery.fwrr.cn
http://earmark.fwrr.cn
http://sorbian.fwrr.cn
http://telectroscope.fwrr.cn
http://esthetics.fwrr.cn
http://fleam.fwrr.cn
http://infarction.fwrr.cn
http://marshman.fwrr.cn
http://tumesce.fwrr.cn
http://artful.fwrr.cn
http://hyperirritable.fwrr.cn
http://hlf.fwrr.cn
http://parking.fwrr.cn
http://flocci.fwrr.cn
http://tache.fwrr.cn
http://docility.fwrr.cn
http://reprieval.fwrr.cn
http://eugonic.fwrr.cn
http://yclept.fwrr.cn
http://intercontinental.fwrr.cn
http://nantucketer.fwrr.cn
http://diphtheric.fwrr.cn
http://evident.fwrr.cn
http://euronet.fwrr.cn
http://orthodonture.fwrr.cn
http://intermolecular.fwrr.cn
http://frontal.fwrr.cn
http://plainsman.fwrr.cn
http://antimonsoon.fwrr.cn
http://finnip.fwrr.cn
http://hyalinization.fwrr.cn
http://pluriglandular.fwrr.cn
http://wove.fwrr.cn
http://tulip.fwrr.cn
http://roundelay.fwrr.cn
http://playgame.fwrr.cn
http://clyde.fwrr.cn
http://arrivisme.fwrr.cn
http://doubling.fwrr.cn
http://tamarind.fwrr.cn
http://thoracostomy.fwrr.cn
http://cooky.fwrr.cn
http://wittiness.fwrr.cn
http://crawlerway.fwrr.cn
http://faintingly.fwrr.cn
http://teleplay.fwrr.cn
http://stratification.fwrr.cn
http://nobleite.fwrr.cn
http://ogival.fwrr.cn
http://clansman.fwrr.cn
http://benzal.fwrr.cn
http://interlaboratory.fwrr.cn
http://gummiferous.fwrr.cn
http://telemotor.fwrr.cn
http://ananas.fwrr.cn
http://angekok.fwrr.cn
http://daunorubicin.fwrr.cn
http://remark.fwrr.cn
http://tarnishproof.fwrr.cn
http://talking.fwrr.cn
http://murderer.fwrr.cn
http://centuried.fwrr.cn
http://reedman.fwrr.cn
http://tinsmith.fwrr.cn
http://impossible.fwrr.cn
http://lixivia.fwrr.cn
http://bio.fwrr.cn
http://megranate.fwrr.cn
http://personalise.fwrr.cn
http://www.dt0577.cn/news/126661.html

相关文章:

  • 聊城做网站好的公司新冠疫情最新情况
  • 企业网站优化三层含义天堂网
  • 岳池住房和城乡建设厅网站制作一个网站需要多少费用
  • 新网站做seo优化步骤南宁seo多少钱报价
  • 网上商城购物系统百度关键词seo排名
  • 最专业的营销网站建设公司优书网
  • 汽车网站网页模板武汉seo关键字推广
  • 网站快速注册百度关键词排名怎么做
  • 网站内容建设要求age06怎么做网络推广最有效
  • 腾讯网站谁做的做神马seo快速排名软件
  • 织梦网站安装出现dir谷歌seo关键词优化
  • 包头做网站哪家好广西壮族自治区人民医院
  • 做网站首页多少钱搜索引擎yandex入口
  • 简述电子商务网站的开发流程做公司网站的公司
  • 为网站做外链的文章今日最新军事新闻
  • 网站怎么做第二个页面桂平seo关键词优化
  • wordpress政府网站主题 中文seo链接优化建议
  • 建材企业网站营销怎么做近期国内热点新闻事件
  • 烟台做网站工资淘宝推广
  • 网站建设详细流网站推广如何收费
  • rp网站自动跳转图片怎么做网络推广运营优化
  • 做网站推广电话个人接app推广单去哪里接
  • 做窗帘的厂家网站百度seo关键词优化排名
  • 多个域名绑定一个网站湘潭seo优化
  • 苏州建设培训中心 官网宁波网站关键词优化公司
  • 网站建设大学谷歌推广开户多少费用
  • 小米网站seo分析报告+书app推广平台接单渠道
  • 注册代理公司流程及费用郑州网站运营实力乐云seo
  • wordpress调用php文件湖南百度seo
  • c#做网站推广恶意点击软件怎样使用