当前位置：首页 > news >正文

东莞网站建设网站建设百度推广一天烧多少钱

news 2025/7/18 18:50:29

东莞网站建设网站建设,百度推广一天烧多少钱,响应式网站测试,雄安邯郸网站制作多少钱文章目录环境配置（必看）头文件引用1.朴素贝叶斯算法代码运行结果优缺点 2.决策树代码运行结果决策树可视化图片优缺点 3.随机森林代码RandomForestClassifier()运行结果总结本章学习资源环境配置（必看） Anaconda-创建虚拟环境…

文章目录

环境配置（必看）
头文件引用
- 1.朴素贝叶斯算法
- - 代码
  - 运行结果
  - 优缺点
- 2.决策树
- - 代码
  - 运行结果
  - 决策树可视化图片
  - 优缺点
- 3.随机森林
- - 代码
  - RandomForestClassifier()
  - 运行结果
  - 总结
本章学习资源

环境配置（必看）

Anaconda-创建虚拟环境的手把手教程相关环境配置看此篇文章，本专栏深度学习相关的版本和配置，均按照此篇文章进行安装。

头文件引用

from sklearn.datasets import load_iris, fetch_20newsgroups
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction import DictVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt
import pandas as pd

1.朴素贝叶斯算法

查看存放数据集的路径（手动下载数据集存放在这个路径下）

print(sklearn.datasets.get_data_home())

参考这篇文章进行的数据集的适配–
sklearn的英文20新闻数据集fetch_20newsgroups在MAC电脑上的加载
我的电脑是win10，最终修改的路径为：

archive_path = 'C:/Users/asus/scikit_learn_data/20news_home/20news-bydate.tar.gz'

代码

调参：
MultinomialNB()默认的alpha=1，但是准确率只有84%，设置为alpha=0.01，准确率有很大提高

def nb_news():"""用朴素贝叶斯算法对新闻进行分类:return:"""# 1）获取数据# subset参数 默认是获取训练集，如果训练集和目标集都要就是subset='all'news = fetch_20newsgroups(subset='all')# 2）划分数据集 random_state=10x_train, x_test, y_train, y_test = train_test_split(news.data, news.target)# 3）特征工程：文本特征抽取transfer = TfidfVectorizer()# 抽取训练集和测试集的特征值x_train = transfer.fit_transform(x_train)x_test = transfer.transform(x_test)# 4）朴素贝叶斯算法算法预估器流程estimator = MultinomialNB(alpha=0.01)estimator.fit(x_train, y_train)# 5.模型评估# 方法1: 直接比对真实值和预测值y_predict = estimator.predict(x_test)print(f"y_predict:\n{y_predict}")print(f"直接比对真实值和预测值: {y_test == y_predict}")# 方法2: 计算准确率score = estimator.score(x_test, y_test)print(f"准确率为: {score}")

运行结果

在这里插入图片描述

优缺点

优点：对缺失数据不太敏感，算法也比较简单，常用于文本分类。分类准确度高，速度快
缺点：由于使用了样本属性独立性的假设，所以如果特征属性有关联时其效果不好

2.决策树

代码

def decision_iris():"""用决策树对鸢尾花进行分类:return:"""# 1.获取数据集iris = load_iris()# 2.划分数据集x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)# 3.决策树预估器estimator = DecisionTreeClassifier()estimator.fit(x_train, y_train)# 4.模型评估# 方法1: 直接比对真实值和预测值y_predict = estimator.predict(x_test)print(f"y_predict:\n{y_predict}")print(f"直接比对真实值和预测值: {y_test == y_predict}")# 方法2: 计算准确率score = estimator.score(x_test, y_test)print(f"准确率为: {score}")# 可视化决策树 feature_names=iris.feature_names 传输特征名字显示在结构图中plot_tree(estimator, feature_names=iris.feature_names)# 保存决策树可视化结构图片plt.savefig("tree_struct.png")# 显示图像plt.show()

运行结果

在这里插入图片描述

决策树可视化图片

petal_width(cm): 花瓣宽度
entropy: 信息增益
samples:样本（第一个框：150*0.75≈112）
value:每个类别中有多少个符合条件的元素
在这里插入图片描述

优缺点

优点：简单的理解和解释，树木可视化。
缺点：决策树学习者可以创建不能很好地推广数据的过于复杂的树,容易发生过拟合。
改进：减枝cart算法随机森林（集成学习的一种）
注：企业重要决策，由于决策树很好的分析能力，在决策过程应用较多， 可以选择特征

3.随机森林

代码

def random_forest():"""随机森林对泰坦尼克号乘客的生存进行预测:return:"""# 1.获取数据集titanic = pd.read_csv("titanic.csv")# 筛选特征值和目标值x = titanic[["pclass", "age", "sex"]]y = titanic["survived"]# 2.数据处理# 1) 缺失值处理x["age"].fillna(x["age"].mean(), inplace=True)# 2) 转换成字典x = x.to_dict(orient="records")# 3.划分数据集 random_state=10x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)# 4.字典特征抽取transfer = DictVectorizer()x_train = transfer.fit_transform(x_train)x_test = transfer.transform(x_test)# 5.算法预估器estimator = RandomForestClassifier()# 加入网格搜索和交叉验证# 参数准备  "max_depth" 最大深度param_dict = {"n_estimators": [120, 200, 300, 500, 800, 1200], "max_depth": [5, 8, 15, 25, 30]}  # 网格搜索# cv=10 代表10折运算（交叉验证）estimator = GridSearchCV(estimator, param_grid=param_dict, cv=3)estimator.fit(x_train, y_train)# 6.模型评估# 方法1: 直接比对真实值和预测值y_predict = estimator.predict(x_test)print(f"y_predict:\n{y_predict}")print(f"直接比对真实值和预测值: {y_test == y_predict}")# 方法2: 计算准确率score = estimator.score(x_test, y_test)print(f"准确率为: {score}")# 最佳参数：print("最佳参数: \n", estimator.best_params_)# 最佳结果：print("最佳结果: \n", estimator.best_score_)# 最佳参数：print("最佳估计器: \n", estimator.best_estimator_)# 交叉验证结果：print("交叉验证结果: \n", estimator.cv_results_)

RandomForestClassifier()

在这里插入图片描述

运行结果

在这里插入图片描述

总结

能够有效地运行在大数据集上，
处理具有高维特征的输入样本，而且不需要降维

本章学习资源

黑马程序员3天快速入门python机器学习我是跟着视频进行的学习，欢迎大家一起来学习！

查看全文

http://www.dt0577.cn/news/43064.html

南昌专业网站建设信息竞价排名名词解释

网站开发文件上传到服务器交换友情链接的目的

如何做网站策划百度网址链接

dede后台网站主页重庆百度推广开户

怎么看网站是不是h5做的广告软文是什么意思

淘宝联盟链接的网站怎么做最新国际新闻事件今天

山西省网站建设关键词推广排名软件

net网站开发教程sem是什么意思的缩写

贾汪网站开发什么是白帽seo

网站icp备案信息不能为空搜索排名优化策划

wordpress防注册新手做seo怎么做

宝鸡网站公司排名做网站用什么软件好

自己怎么建网站做推广的技巧

wordpress整站程序本地推荐本地推荐

北京建设网站官网百度推广怎么做步骤

改网站js代码哪个搜索引擎最好用

文章目录

环境配置（必看）

头文件引用

1.朴素贝叶斯算法

代码

运行结果

优缺点

2.决策树

代码

运行结果

决策树可视化图片

优缺点

3.随机森林

代码

RandomForestClassifier()

运行结果

总结

本章学习资源

相关文章：