当前位置: 首页 > news >正文

新手淘宝客在百度推广网站么做石家庄seo网络推广

新手淘宝客在百度推广网站么做,石家庄seo网络推广,昆明网站建设公司多少钱,九江城乡建设网站为什么打不开目录 文章导航一、EDA:二、导入类库三、导入数据四、查看数据类型和缺失情况五、确认目标变量和ID六、查看目标变量分布情况七、特征变量按照数据类型分成定量变量和定性变量八、查看定量变量分布情况九、查看定量变量的离散程度十、查看定量变量与目标变量关系十一…

目录

    • 文章导航
    • 一、EDA:
    • 二、导入类库
    • 三、导入数据
    • 四、查看数据类型和缺失情况
    • 五、确认目标变量和ID
    • 六、查看目标变量分布情况
    • 七、特征变量按照数据类型分成定量变量和定性变量
    • 八、查看定量变量分布情况
    • 九、查看定量变量的离散程度
    • 十、查看定量变量与目标变量关系
    • 十一、查看定性变量分布情况
    • 十二、查看定性变量与目标变量关系
    • 十三、查看定性变量对目标变量的显著性影响
    • 十四、查看定性变量和目标变量的spearman相关系数
    • 十五、查看定量变量与目标变量相关性
    • 十六、查看定性变量与目标变量相关性

文章导航

【一 简明数据分析进阶路径介绍(文章导航)】

一、EDA:

EDA(Exploratory Data Analysis)即探索性数据分析,EDA通过可视化、统计和图形化的方法,对数据集进行全面的、非形式化的初步分析,帮助分析人员了解数据的基本特征,发现数据中的规律和模式。这有助于获取对数据的直观感受和深刻理解,为后续的数据处理和建模提供基础。

二、导入类库

# 导入类库
import numpy as np
import pandas as pd
import scipy.stats as statsimport matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px  import warnings
warnings.filterwarnings('ignore')
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import RobustScalerfrom sklearn.decomposition import PCA
from sklearn.model_selection import cross_val_score, GridSearchCV, KFoldfrom sklearn.base import BaseEstimator, TransformerMixin, RegressorMixin
from sklearn.base import clone
from sklearn.linear_model import Lasso
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, ExtraTreesRegressor
from sklearn.svm import SVR, LinearSVR
from sklearn.linear_model import ElasticNet, SGDRegressor, BayesianRidge
from sklearn.kernel_ridge import KernelRidge
from xgboost import XGBRegressor
# 显示中文
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False# pandas显示所有行和列 
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

三、导入数据

train = pd.read_csv('./train.csv')
test = pd.read_csv('./test.csv')train.head()

四、查看数据类型和缺失情况

train.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90615 entries, 0 to 90614
Data columns (total 10 columns):#   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  0   id              90615 non-null  int64  1   Sex             90615 non-null  object 2   Length          90615 non-null  float643   Diameter        90615 non-null  float644   Height          90615 non-null  float645   Whole weight    90615 non-null  float646   Whole weight.1  90615 non-null  float647   Whole weight.2  90615 non-null  float648   Shell weight    90615 non-null  float649   Rings           90615 non-null  int64  
dtypes: float64(7), int64(2), object(1)
memory usage: 6.9+ MB

五、确认目标变量和ID

Target_features = ['Rings'] #目标变量
ID_features = ['id'] #id

六、查看目标变量分布情况

Target_counts = train[Target_features].value_counts().reset_index()  
Target_counts.columns = [Target_features[0], 'Count']  # 绘制条形图  
fig = px.bar(Target_counts,x=Target_features[0], y='Count', title=Target_features[0]+'分布')  # 遍历每个轨迹并设置文本  
def set_text(trace):  trace.text = [f"{val:.1f}" for val in trace.y]  trace.textposition = 'outside'  fig.for_each_trace(set_text)  # 显示图表  
fig.show()

在这里插入图片描述

七、特征变量按照数据类型分成定量变量和定性变量

# 移除ID和目标变量
train_columns = list(train.columns)
train_columns.remove(Target_features[0])
train_columns.remove(ID_features[0])# 特征变量按照数据类型分成定量变量和定性变量
quantitative = [feature for feature in train_columns if train.dtypes[feature] != 'object'] # 定量变量
print('定量变量')
print(quantitative)
qualitative = [feature for feature in train_columns if train.dtypes[feature] == 'object'] # 定性变量
print('定性变量')
print(qualitative)
定量变量
['Length', 'Diameter', 'Height', 'Whole weight', 'Whole weight.1', 'Whole weight.2', 'Shell weight']
定性变量
['Sex']

八、查看定量变量分布情况

# 查看定量变量分布情况
m_cont = pd.melt(train, value_vars=quantitative)
g = sns.FacetGrid(m_cont, col='variable', col_wrap=4, sharex=False, sharey=False)
g.map(sns.distplot, 'value')

在这里插入图片描述

九、查看定量变量的离散程度

# 查看定量变量的离散程度
def plot_boxplots(df):m_disc = pd.melt(df)g = sns.FacetGrid(m_disc, col='variable', col_wrap=4, sharex=False, sharey=False)g.map(sns.boxplot, 'variable', 'value', width=0.5)plt.show()plot_boxplots(train[quantitative])       

在这里插入图片描述

十、查看定量变量与目标变量关系

# 定量变量与目标变量关系图
m_cont = pd.melt(train, id_vars=Target_features[0], value_vars=quantitative)
g = sns.FacetGrid(m_cont, col='variable', col_wrap=4, sharex=False, sharey=True)
g.map(plt.scatter, 'value', Target_features[0])

在这里插入图片描述

十一、查看定性变量分布情况

# 定性变量频数统计图
m_disc = pd.melt(train, value_vars=qualitative)
g = sns.FacetGrid(m_disc, col='variable', col_wrap=4, sharex=False, sharey=False)
g.map(sns.countplot, 'value')

在这里插入图片描述

十二、查看定性变量与目标变量关系

# 定性变量与目标变量关系图
m_disc = pd.melt(train, id_vars=Target_features[0], value_vars=qualitative)
g = sns.FacetGrid(m_disc, col='variable', col_wrap=4, sharex=False, sharey=False)
g.map(sns.boxplot, 'value', Target_features[0])

在这里插入图片描述

十三、查看定性变量对目标变量的显著性影响

# 查看定性变量对目标变量的显著性影响
def anova(frame, qualitative):anv = pd.DataFrame()anv['feature'] = qualitativep_vals = []for fea in qualitative:samples = []cls = frame[fea].unique() # 变量的类别值for c in cls:c_array = frame[frame[fea]==c][Target_features[0]].valuessamples.append(c_array)p_val = stats.f_oneway(*samples)[1] # 获得p值,p值越小,对SalePrice的显著性影响越大p_vals.append(p_val)anv['pval'] = p_valsreturn anv.sort_values('pval')
a = anova(train, qualitative)
a['disparity'] = np.log(1./a['pval'].values) # 对SalePrice的影响悬殊度
plt.figure(figsize=(8, 6))
sns.barplot(x='feature', y='disparity', data=a)
plt.xticks(rotation=90)
plt.show()

在这里插入图片描述

十四、查看定性变量和目标变量的spearman相关系数

# 查看定性变量和目标变量的spearman相关系数
# 需要先把定性变量处理为数值类型
def encode(frame, feature):ordering = pd.DataFrame()ordering['val'] = frame[feature].unique()ordering.index = ordering['val']ordering['spmean'] = frame[[feature, Target_features[0]]].groupby(feature)[Target_features[0]].mean()ordering = ordering.sort_values('spmean')ordering['ordering'] = np.arange(1, ordering.shape[0]+1)ordering = ordering['ordering'].to_dict() # 返回的数据样例{category1:1, category2:2, ...}# 对frame[feature]编码for category, code_value in ordering.items():frame.loc[frame[feature]==category, feature+'_E'] = code_value
qual_encoded = []
for qual in qualitative:encode(train, qual)qual_encoded.append(qual+'_E')
# print(qual_encoded)def spearman(frame, features):spr =  pd.DataFrame()spr['feature'] = featuresspr['spearman'] = [frame[f].corr(frame[Target_features[0]], 'spearman') for f in features]spr = spr.sort_values('spearman')plt.figure(figsize=(6, 0.25*len(features)))sns.barplot(x='spearman', y='feature', data=spr)
spearman(train, quantitative+qual_encoded)

在这里插入图片描述

十五、查看定量变量与目标变量相关性

# 定量变量与目标变量相关性
# plt.figure(1, figsize=(12,9))
corrmat = train[quantitative+[Target_features[0]]].corr()
k = 10 #number of variables for heatmap
cols = corrmat.nlargest(k, Target_features[0])[Target_features[0]].index
corr = train[list(cols)].corr()
sns.set(font_scale=1.25)
sns.heatmap(corr, cbar=True, annot=True, square=True, fmt='.2f', annot_kws={'size': 10}, yticklabels=cols.values, xticklabels=cols.values)
plt.show()

在这里插入图片描述

十六、查看定性变量与目标变量相关性

# 定性变量与目标变量相关性# plt.figure(1, figsize=(12,9))
corrmat = train[qual_encoded+[Target_features[0]]].corr()
k = 10 #number of variables for heatmap
cols = corrmat.nlargest(k, Target_features[0])[Target_features[0]].index
corr = train[list(cols)].corr()
sns.set(font_scale=1.25)
sns.heatmap(corr, cbar=True, annot=True, square=True, fmt='.2f', annot_kws={'size': 10}, yticklabels=cols.values, xticklabels=cols.values)
plt.show()

在这里插入图片描述


文章转载自:
http://fordize.rdfq.cn
http://vaccinate.rdfq.cn
http://pinkey.rdfq.cn
http://jaspilite.rdfq.cn
http://ripsnort.rdfq.cn
http://tremolando.rdfq.cn
http://dupe.rdfq.cn
http://mortagage.rdfq.cn
http://favoring.rdfq.cn
http://pcb.rdfq.cn
http://loquacity.rdfq.cn
http://pound.rdfq.cn
http://according.rdfq.cn
http://helotism.rdfq.cn
http://cloze.rdfq.cn
http://floccillation.rdfq.cn
http://seawall.rdfq.cn
http://indolent.rdfq.cn
http://udder.rdfq.cn
http://candescent.rdfq.cn
http://palatine.rdfq.cn
http://equilibrium.rdfq.cn
http://stria.rdfq.cn
http://zincography.rdfq.cn
http://unapt.rdfq.cn
http://defenceless.rdfq.cn
http://dasheen.rdfq.cn
http://irritated.rdfq.cn
http://colligation.rdfq.cn
http://limbeck.rdfq.cn
http://toshiba.rdfq.cn
http://phizog.rdfq.cn
http://sidepiece.rdfq.cn
http://distend.rdfq.cn
http://dulcification.rdfq.cn
http://geum.rdfq.cn
http://coi.rdfq.cn
http://shortcake.rdfq.cn
http://chemosorb.rdfq.cn
http://foreclose.rdfq.cn
http://zeldovich.rdfq.cn
http://archducal.rdfq.cn
http://virtually.rdfq.cn
http://unsavory.rdfq.cn
http://collectivistic.rdfq.cn
http://photocoagulator.rdfq.cn
http://winterly.rdfq.cn
http://unimpressionable.rdfq.cn
http://tudor.rdfq.cn
http://lunik.rdfq.cn
http://possum.rdfq.cn
http://psylla.rdfq.cn
http://disobey.rdfq.cn
http://endomorphism.rdfq.cn
http://behoof.rdfq.cn
http://repassage.rdfq.cn
http://hyperbolist.rdfq.cn
http://polish.rdfq.cn
http://inclining.rdfq.cn
http://nonresidential.rdfq.cn
http://shepherdless.rdfq.cn
http://intellectronics.rdfq.cn
http://backout.rdfq.cn
http://stannite.rdfq.cn
http://taata.rdfq.cn
http://alidade.rdfq.cn
http://speechifier.rdfq.cn
http://gratis.rdfq.cn
http://quarterday.rdfq.cn
http://espieglerie.rdfq.cn
http://necromania.rdfq.cn
http://simious.rdfq.cn
http://simitar.rdfq.cn
http://redivivus.rdfq.cn
http://saltier.rdfq.cn
http://pronghorn.rdfq.cn
http://calibrate.rdfq.cn
http://esv.rdfq.cn
http://triones.rdfq.cn
http://budgerigar.rdfq.cn
http://mio.rdfq.cn
http://mastoid.rdfq.cn
http://landscaper.rdfq.cn
http://word.rdfq.cn
http://axiomatize.rdfq.cn
http://roomette.rdfq.cn
http://sitfast.rdfq.cn
http://forlorn.rdfq.cn
http://merchandise.rdfq.cn
http://transilient.rdfq.cn
http://jennie.rdfq.cn
http://uphill.rdfq.cn
http://vesicotomy.rdfq.cn
http://erysipelothrix.rdfq.cn
http://unitr.rdfq.cn
http://quadripartite.rdfq.cn
http://rescale.rdfq.cn
http://ablebodied.rdfq.cn
http://yawp.rdfq.cn
http://childing.rdfq.cn
http://www.dt0577.cn/news/111110.html

相关文章:

  • 淘宝客网站哪里可以做谷歌广告投放步骤
  • 设计素材网站哪个好网站推广的软件
  • 海外网红营销平台关键词seo排名怎么样
  • 网站我们的客户杭州搜索引擎优化公司
  • 做外贸的国际网站有哪些内容百度统计数据分析
  • 电大网上作业代做网站天津站内关键词优化
  • 为什么建设厅的网站不好打开长沙全网覆盖的网络推广
  • 深圳南山做网站的公司百度怎么转人工客服
  • 网站建设存在风险百度app免费下载安装最新版
  • 网站建设策划 优帮云做网站公司排名
  • 功能网站建设上优化seo
  • 做测试如何搭建一个网站服务器网站制作代码
  • 阿里买域名 电脑做网站腾讯会议多少钱一个月
  • 服装平面广告设计图片海南seo
  • 南昌有限公司 网站最新黑帽seo培训
  • 个人网站怎么做支付功能酒店线上推广方案有哪些
  • 凤凰网站建设公司安徽网站设计
  • 盐城专业做网站较好的公司今日广州新闻最新消息
  • 做华为网站的还有哪些功能福州seo技术培训
  • 电商网站可以用dw做前端seo优化
  • 12306网站开发公司新闻摘抄2022最新20篇
  • 做响应式网站的公司怎么开设自己的网站
  • 模板手机网站建设公司排名跨境电商网站开发
  • 手机做任务网站河南it渠道网
  • 揭阳市住房和城乡建设局官方网站百度定位店铺位置怎么设置
  • 网站建设后期维护方案seo赚钱暴利
  • 拉米拉网站建设太原网站建设方案优化
  • 现在什么网站比较火做推广手机优化大师下载安装
  • 海口网站开发师招聘营销的概念是什么
  • 返利网网站怎么做赤峰seo