当前位置：首页 > news >正文

网站建设项目的预算如何做网络推广

news 2025/8/10 3:08:51

网站建设项目的预算,如何做网络推广,定制软件开发方案,怎样添加网站图标一. 分类评价指标对机器学习算法的性能进行评估时，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价指标，这就是算法评价指标。分类算法的评价指标一般有准确率，精确率，召回率，F1-score&a…

一. 分类评价指标

对机器学习算法的性能进行评估时，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价指标，这就是算法评价指标。分类算法的评价指标一般有准确率，精确率，召回率，F1-score，PR曲线，ROC，AUC。

在介绍具体的评价指标前，需要先以二分类为例引入混淆矩阵。

混淆矩阵

针对一个二分类问题，即将实例分成正类（positive）或反类（negative），在实际分类中会出现以下四种情况：
（1）若一个样本是正类，并且被预测为正类，即为真正类TP(True Positive )
（2）若一个样本是正类，但是被预测为反类，即为假反类FN(False Negative )
（3）若一个样本是反类，但是被预测为正类，即为假正类FP(False Positive )
（4）若一个样本是反类，并且被预测为反类，即为真反类TN(True Negative )

混淆矩阵的每一行是样本的预测分类，每一列是样本的真实分类，如下图所示。
在这里插入图片描述

二. 准确率(accuracy)，精确率(precision)，召回率(recall)，F1-score

1. 准确率(accuracy)

精确率是预测正确的样本占所有样本的百分比。
$\frac{TP + TN}{TP + FP +TN + FN}$

局限：当数据的正负样本不均衡，仅仅使用这个指标来评价模型的性能优劣是不合适的。

假如一个测试集有正样本99个，负样本1个。模型把所有的样本都预测为正样本，那么模型的Accuracy为99%，看评价指标，模型的效果很好，但实际上模型没有任何预测能力。

2. 精确率(precision)

又叫查准率，它是模型预测为正样本的结果中，真正为正样本的比例。
$precision=TPTP+FPprecision=\frac{TP}{TP + FP}$

3. 召回率(recall)

又叫查全率，它是实际为正的样本中，被预测为正样本的比例。
$recall=TPTP+FNrecall=\frac{TP}{TP + FN}$

4. F1-score

F1-score是precision和recall的调和平均值。
$=\frac{2 * Precision * Recall}{ Precision + Recall}$

5. 编码实现

import numpy as np
from sklearn import datasets
import warnings
warnings.filterwarnings("ignore")

digits = datasets.load_digits()
x = digits.data
y = digits.target.copy()

y[digits.target == 9] = 1
y[digits.target != 9] = 0

x.shape

(1797, 64)

y.shape

(1797,)

from sklearn.model_selection import train_test_splitx_train, x_test, y_train, y_test = train_test_split(x, y, random_state=666)

from sklearn.linear_model import LogisticRegressionlog_reg = LogisticRegression()
log_reg.fit(x_train, y_train)
y_log_predict = log_reg.predict(x_test)
log_reg.score(x_test, y_test)

0.9755555555555555

#### 手动计算混淆矩阵
def TN(y_true, y_predict):assert len(y_true) == len(y_predict)return np.sum((y_true ==0) & (y_predict == 0))
TN(y_test, y_log_predict)

def FP(y_true, y_predict):assert len(y_true) == len(y_predict)return np.sum((y_true ==0) & (y_predict == 1))
FP(y_test, y_log_predict)

def FN(y_true, y_predict):assert len(y_true) == len(y_predict)return np.sum((y_true ==1) & (y_predict == 0))
FN(y_test, y_log_predict)

def TP(y_true, y_predict):assert len(y_true) == len(y_predict)return np.sum((y_true ==1) & (y_predict == 1))
TP(y_test, y_log_predict)

def my_confusion_matrix(y_true, y_predict):return np.array([[TN(y_true, y_predict),FP(y_true, y_predict)],[FN(y_true, y_predict),TP(y_true, y_predict)]])
my_confusion_matrix(y_test, y_log_predict)

array([[403,   2],[  9,  36]])

# 使用sklearn 提供的api计算混淆矩阵from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_log_predict)

array([[403,   2],[  9,  36]])

#手动计算precision
def my_precision_score(y_true, y_predict):return TP(y_true, y_predict) / (TP(y_true, y_predict) + FP(y_true, y_predict))my_precision_score(y_test, y_log_predict)

0.9473684210526315

# 使用sklearn提供的api计算precision
from sklearn.metrics import precision_score
precision_score(y_test, y_log_predict)

0.9473684210526315

#手动计算recall
def my_recall_score(y_true, y_predict):return TP(y_true, y_predict) / (TP(y_true, y_predict) + FN(y_true, y_predict))my_recall_score(y_test,y_log_predict)

0.8

#使用sklearn 提供的api计算recall
from sklearn.metrics import recall_score
recall_score(y_test, y_log_predict)

0.8

# 手动计算F1-score
def my_f1_score(precision, recall):try:return 2 * precision * recall / (precision + recall)except:return 0.0
my_f1_score(precision_score(y_test, y_log_predict), recall_score(y_test, y_log_predict))

0.8674698795180723

# 使用sklearn 提供的api计算F1-score
from sklearn.metrics import f1_score
f1_score(y_test, y_log_predict)

0.8674698795180723

三. PR曲线

1. PR曲线

P-R曲线是描述精确率和召回率变化的曲线。对于所有的正样本，设置不同的阈值，模型预测所有的正样本，再根据对应的精准率和召回率绘制相应的曲线。

一般情况下一个分类模型不可能同时获得高的精准率与召回率，当精准率较高时，召回率会降低；当召回率较高时，精准率会降低。
在这里插入图片描述

模型与坐标轴围成的面积越大，则模型的性能越好。但一般来说，曲线下的面积是很难进行估算的，所以衍生出了“平衡点”（Break-Event Point，简称BEP），即当P=R时的取值，平衡点的取值越高，性能更优。

2. 编码实现

import numpy as np
from sklearn import datasets
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")

digits = datasets.load_digits()
x = digits.data
y = digits.target.copy()

y[digits.target == 9] = 1
y[digits.target != 9] = 0

from sklearn.model_selection import train_test_splitx_train, x_test, y_train, y_test = train_test_split(x, y, random_state=666)

from sklearn.linear_model import LogisticRegressionlog_reg = LogisticRegression()
log_reg.fit(x_train, y_train)
y_log_predict = log_reg.predict(x_test)
log_reg.score(x_test, y_test)

0.9755555555555555

# 获取分类算法的分类阈值
decision_scores = log_reg.decision_function(x_test)

手动绘制PR曲线

from sklearn.metrics import precision_score
from sklearn.metrics import recall_scoreprecisions = []
recalls = []
thresholds = np.arange(np.min(decision_scores), np.max(decision_scores), 0.1)
for threshold in thresholds:y_predict = np.array(decision_scores >= threshold, dtype = 'int')precisions.append(precision_score(y_test, y_predict))recalls.append(recall_score(y_test, y_predict))
plt.plot(precisions, recalls)

在这里插入图片描述

使用sklearn API绘制PR曲线

from sklearn.metrics import precision_recall_curveprecisions1, recalls1, thresholds1 = precision_recall_curve(y_test, decision_scores)
plt.plot(precisions1, recalls1)

在这里插入图片描述

四. ROC和AUC

1. ROC曲线

ROC（Receiver Operating Characteristic）曲线，又称接受者操作特征曲线。曲线对应的纵坐标是TPR，横坐标是FPR。下面先介绍下TPR和FPR。

TPR(true positive rate)：真正类率，也称为灵敏度(sensitivity)，等同于召回率。表示被正确分类的正实例占所有正实例的比例。
$TPR=TPTP+FNTPR=\frac{TP}{TP + FN}$
FPR(false positive rate)：负正类率，表示被错误分类的负实例占所有负实例的比例。
$FPR=FPFP+TNFPR=\frac{FP}{FP + TN}$

设置不同的阈值，会得到不同的TPR和FPR，而随着阈值的逐渐减小，越来越多的实例被划分为正类，但是这些正类中同样也掺杂着负类，即TPR和FPR会同时增大。阈值最大时，对应坐标点为（0,0），阈值最小时，对应坐标点（1,1）。

理想目标： TPR=1, FPR=0，即图中(0,1)点。故ROC曲线越靠拢(0,1)点，即，越偏离45度对角线越好。对应的就是TPR越大越好，FPR越小越好。

2. AUC

AUC(Area Under Curve)是处于ROC曲线下方的那部分面积的大小。AUC越大，代表模型的性能越好。

一个分类模型的AUC值越大，则认为算法表现的越好。

3. 编码实现

import numpy as np
from sklearn import datasets
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")

digits = datasets.load_digits()
x = digits.data
y = digits.target.copy()

y[digits.target == 9] = 1
y[digits.target != 9] = 0

from sklearn.model_selection import train_test_splitx_train, x_test, y_train, y_test = train_test_split(x, y, random_state=666)

from sklearn.linear_model import LogisticRegressionlog_reg = LogisticRegression()
log_reg.fit(x_train, y_train)
y_log_predict = log_reg.predict(x_test)
log_reg.score(x_test, y_test)

0.9755555555555555

# 获取分类算法的分类阈值
decision_scores = log_reg.decision_function(x_test)

使用sklearn API绘制ROC曲线

from sklearn.metrics import roc_curvefprs1, tprs1, thresholds = roc_curve(y_test, decision_scores)
plt.plot(fprs1, tprs1)

在这里插入图片描述

使用sklearn API计算auc的值

from sklearn.metrics import roc_auc_scoreroc_auc_score(y_test, decision_scores)

0.9824417009602195

文章转载自：
http://malacostracous.tgcw.cn
http://gunmen.tgcw.cn
http://stovepipe.tgcw.cn
http://neuridine.tgcw.cn
http://psychophysiology.tgcw.cn
http://phraseology.tgcw.cn
http://tampan.tgcw.cn
http://firepan.tgcw.cn
http://horniness.tgcw.cn
http://elite.tgcw.cn
http://romantically.tgcw.cn
http://israeli.tgcw.cn
http://alps.tgcw.cn
http://exgratia.tgcw.cn
http://itineracy.tgcw.cn
http://thyrsus.tgcw.cn
http://coastal.tgcw.cn
http://geothermal.tgcw.cn
http://galactometer.tgcw.cn
http://rajputana.tgcw.cn
http://correction.tgcw.cn
http://monochasial.tgcw.cn
http://almsman.tgcw.cn
http://skiplane.tgcw.cn
http://unshaved.tgcw.cn
http://bohemianism.tgcw.cn
http://cryptesthesia.tgcw.cn
http://haffit.tgcw.cn
http://disseminule.tgcw.cn
http://renege.tgcw.cn
http://curvous.tgcw.cn
http://carnaby.tgcw.cn
http://photosensitizer.tgcw.cn
http://glumaceous.tgcw.cn
http://overcurtain.tgcw.cn
http://buganda.tgcw.cn
http://capsa.tgcw.cn
http://figurine.tgcw.cn
http://sculp.tgcw.cn
http://circumgalactic.tgcw.cn
http://swidden.tgcw.cn
http://primo.tgcw.cn
http://hesperinos.tgcw.cn
http://northeasternmost.tgcw.cn
http://rotte.tgcw.cn
http://needleman.tgcw.cn
http://corporeally.tgcw.cn
http://debtee.tgcw.cn
http://nodule.tgcw.cn
http://present.tgcw.cn
http://savorless.tgcw.cn
http://pianola.tgcw.cn
http://inulin.tgcw.cn
http://compreg.tgcw.cn
http://myelitis.tgcw.cn
http://harem.tgcw.cn
http://amply.tgcw.cn
http://ethiop.tgcw.cn
http://distaff.tgcw.cn
http://seraph.tgcw.cn
http://disciple.tgcw.cn
http://vicissitudinous.tgcw.cn
http://tinny.tgcw.cn
http://encroachment.tgcw.cn
http://ostpreussen.tgcw.cn
http://hypoeutectic.tgcw.cn
http://honesty.tgcw.cn
http://bmta.tgcw.cn
http://frat.tgcw.cn
http://hysteric.tgcw.cn
http://herringbone.tgcw.cn
http://pneumograph.tgcw.cn
http://sengi.tgcw.cn
http://callipee.tgcw.cn
http://do.tgcw.cn
http://wye.tgcw.cn
http://moslemize.tgcw.cn
http://unapprised.tgcw.cn
http://camshaft.tgcw.cn
http://misdescribe.tgcw.cn
http://foolscap.tgcw.cn
http://refragable.tgcw.cn
http://uneducable.tgcw.cn
http://reckon.tgcw.cn
http://rodingite.tgcw.cn
http://subtonic.tgcw.cn
http://slippage.tgcw.cn
http://plunderbund.tgcw.cn
http://ifip.tgcw.cn
http://peevers.tgcw.cn
http://spermophile.tgcw.cn
http://fancydan.tgcw.cn
http://bindery.tgcw.cn
http://steeple.tgcw.cn
http://assume.tgcw.cn
http://pearl.tgcw.cn
http://pleuritis.tgcw.cn
http://incisively.tgcw.cn
http://lenient.tgcw.cn
http://isogram.tgcw.cn

查看全文

http://www.dt0577.cn/news/101811.html

微网站制作方案百度管理员联系方式

济宁建设工程信息网站网络广告策划流程有哪些?

企业网站建设策划书标准版留号码的广告网站不需要验证码

在ps中做网站首页的尺寸宁波网站制作优化服务

新闻类的手机网站怎么做网络营销软文范例500

做网站的公司怎么赚钱吗深圳快速seo排名优化

花生棒做网站百度浏览器网页版入口

山西做网站的seo到底是什么

一. 分类评价指标

混淆矩阵

二. 准确率(accuracy)，精确率(precision)，召回率(recall)，F1-score

1. 准确率(accuracy)

2. 精确率(precision)

3. 召回率(recall)

4. F1-score

5. 编码实现

三. PR曲线

1. PR曲线

2. 编码实现

手动绘制PR曲线

使用sklearn API绘制PR曲线

四. ROC和AUC

1. ROC曲线

2. AUC

3. 编码实现

使用sklearn API绘制ROC曲线

使用sklearn API计算auc的值

相关文章：