當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

模型评估——定量分析预测的质量

發(fā)布時(shí)間：2023/12/13 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了模型评估——定量分析预测的质量小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

https://blog.csdn.net/hustqb/article/details/77922031

- 評分參數(shù)定義模型評價(jià)規(guī)則
  - 公共案例預(yù)定義值
  - 根據(jù)度量函數(shù)定義你的評分策略
  - 應(yīng)用你自己的評分對象
  - 使用多種度量指標(biāo)
- 分類度量
  - 從二分類到多分類多標(biāo)簽
  - 精確度
  - Cohens kappa
  - 混亂矩陣
  - 分類報(bào)告
  - 漢明損失
  - Jaccard 相似性相關(guān)系數(shù)
  - 準(zhǔn)確率召回率和F度量
    - 二分類
    - 多分類多標(biāo)簽
  - Hinge損失
  - Log損失
  - Matthews 相關(guān)系數(shù)
  - ROC
  - 0-1損失
  - Brier score損失
- 多標(biāo)簽分級度量
  - Coverage誤差
  - 分級標(biāo)簽平均準(zhǔn)確度
  - 分級損失
- 回歸度量
  - Explained variance score
  - 均值絕對誤差
  - 均值平方誤差
  - 均值平方對數(shù)誤差
  - 中位數(shù)絕對誤差
  - R2R2 score定義相關(guān)性
- 聚類度量
- 簡陋評分器

在sklearn庫里，用于評估模型預(yù)測的質(zhì)量的API一共有3種：

評分方法：評估者具有score()，面向其要解決的問題，可以提供一個(gè)默認(rèn)評估標(biāo)準(zhǔn)。這部分內(nèi)容不在本文中講述，因?yàn)樗虿煌哪Ｐ投?#xff0c;所以會在各個(gè)模型的介紹文檔中講述。

評分參數(shù)：使用交叉驗(yàn)證的模型評估工具（如model_selection.cross_val_score和model_selection.GridSearchCV）依賴于內(nèi)部評分策略。這些內(nèi)容會在其他章節(jié)（評分參數(shù)：定義模型評判規(guī)則）中討論。

度量函數(shù)：metrics模塊實(shí)現(xiàn)了針對特定目的評估誤差的功能。這些指標(biāo)會在下面這些章節(jié)詳細(xì)介紹：Classification metrics,?Multilabel ranking metrics,?Regression metrics?and?Clustering metrics.?
最后，Dummy estimators對于獲得隨機(jī)預(yù)測的這些指標(biāo)的基準(zhǔn)值是有用的。

聲明：

本文譯自Python庫sklearn里的官方文檔

需要讀者對Python有一定的了解

本文超長…而且因?yàn)樗接邢?#xff0c;有些地方翻譯的較為生硬。

評分參數(shù)：定義模型評價(jià)規(guī)則

??模型選擇和評估通常使用工具（比如model_selection.GridSearchCV和model_selection.cross_val_score），使用一個(gè)scoring參數(shù)控制那個(gè)被我們應(yīng)用在我們的評價(jià)系統(tǒng)的度量方法。

公共案例：預(yù)定義值

??對于最常見的用例，您可以指定一些自帶scoring參數(shù)的評分對象; 下表顯示了所有可能的值。所有得分手對象遵循慣例：返回值越大，分?jǐn)?shù)越高，模型越優(yōu)。因此，衡量模型和數(shù)據(jù)之間距離的度量（如metrics.mean_squared_error）可以用它們的負(fù)值作為評分對象的返回值。

ScoringFunctionComment

分類	?	?
‘a(chǎn)ccuracy’	metrics.accuracy_score	?
‘a(chǎn)verage_precision’	metrics.average_precision_score	?
‘f1’	metrics.f1_score	?
‘f1_micro’	metrics.f1_score	?
f1_macro’	metrics.f1_score	?
‘f1_weighted’	metrics.f1_score	?
‘f1_samples’	metrics.f1_score	?
‘neg_log_loss’	metrics.log_loss	?
‘precision’ etc	metrics.precision_score	?
‘recall’ etc	metrics.recall_score	?
‘roc_auc’	metrics.roc_aur_score	?
聚類	?	?
‘a(chǎn)djusted_mutual_info_score’	metrics.adjusted_mutual_info_score	?
‘a(chǎn)djusted_rand_score’	metrics.adjusted_rand_score	?
‘completeness_score’	metrics.completeness_score	?
‘fowlkes_mallow	s_score’	metrics.fowlkes_mallows_score
‘homogeneity_score’	metrics.homogeneity_score	?
‘mutual_info_score’	metrics.mutual_info_score	?
‘normalized_mutual_info_score’	metrics.normalized_mutual_info_score	?
‘v_measure_score’	metrics.v_measure_score	?
回歸	?	?
‘explained_variance’	metrics.explained_variance_score	?
‘neg_mean_absolute_error’	metrics.mean_absolute_error	?
‘neg_mean_squared_error’	metrics.mean_squared_error	?
‘neg_mean_squared_log_error’	metrics.mean_squared_log_error	?
‘neg_median_absolute_error’	metrics.median_absolute_error	?
‘r2’	metrics.r2_score	?

例子：

from sklearn import svm, datasets # 導(dǎo)入SVM模型庫和數(shù)據(jù)集庫 from sklearn.model_selection import cross_val_score # 導(dǎo)入模型選擇庫中的交叉驗(yàn)證分?jǐn)?shù)函數(shù) '''加載鳶尾花數(shù)據(jù)集''' iris = datasets.load_iris() X, y = iris.data, iris.target clf = svm.SVC(probability=True, random_state=0) # 創(chuàng)建SVC分類器 '''輸出分類器的評分''' score_arr = cross_val_score(clf, X, y, scoring='neg_log_loss') print score_arr # 輸出 [-0.0757138 -0.16816241 -0.07091847] print score_arr.shape # 輸出 (3L,) model = svm.SVC() # 在創(chuàng)建一個(gè)SVC分類器 '''應(yīng)用另一種不存在的評分方式''' cross_val_score(model, X, y, scoring='wrong_choice') # 會報(bào)錯(cuò)ValueError

?
PS：ValueError異常列出的值對應(yīng)于以下部分中描述的測量預(yù)測精度的函數(shù)。這些評分對象存儲在字典sklearn.metrics.SCORERS中。

根據(jù)度量函數(shù)定義你的評分策略

??模塊sklearn.metrics還展示了一組測量預(yù)測誤差（給出了真實(shí)值和預(yù)測值）的簡單函數(shù)：

以_score結(jié)尾的函數(shù)返回值用于最大化，越高越好
以_error或_loss結(jié)尾的函數(shù)返回一個(gè)值用于最小化，越低越好。當(dāng)使用make_scorer()函數(shù)將其轉(zhuǎn)換為評分對象時(shí)，請將greater_is_better參數(shù)設(shè)置為False（默認(rèn)為True）。

可用于各種機(jī)器學(xué)習(xí)任務(wù)的指標(biāo)在下面詳細(xì)介紹。?
??許多指標(biāo)不會以scoring為名稱，有時(shí)是因?yàn)樗鼈冃枰渌麉?shù)，例如fbeta_score。在這種情況下，您需要生成一個(gè)適當(dāng)?shù)膕corer對象。生成可評估對象進(jìn)行評分的最簡單的方法是使用make_scorer()函數(shù)。該函數(shù)將度量轉(zhuǎn)換為可用于模型評估的可調(diào)用的數(shù)據(jù)類型（callable）。?
??一個(gè)典型的用例是使用無默認(rèn)值的參數(shù)轉(zhuǎn)換包裝庫中已存在的度量函數(shù)，例如fbeta_score()函數(shù)的beta參數(shù)：

from sklearn.metrics import fbeta_score, make_scorer # 導(dǎo)入fbeta評分函數(shù)和一個(gè)轉(zhuǎn)換函數(shù) ftwo_scorer = make_scorer(fbeta_score, beta=2) # 通過make_scorer創(chuàng)建新方法 from sklearn.model_selection import GridSearchCV from sklearn.svm import LinearSVC '''待評價(jià)的分類模型是線性SVC，超參數(shù)域?yàn)閧1， 10}，評分方法為前面新轉(zhuǎn)換的方法''' grid = GridSearchCV(LinearSVC(), param_grid={'C': [1, 10]}, scoring=ftwo_scorer)

??第二個(gè)用例是使用make_scorer將一個(gè)簡單的python函數(shù)構(gòu)建一個(gè)完全自定義的scorer對象，它可以使用幾個(gè)參數(shù)：

你要使用的python函數(shù)（在下面的示例中為my_custom_loss_func()）
明確python函數(shù)是否返回一個(gè)分?jǐn)?shù)（greater_is_better = True，默認(rèn)值）或一個(gè)損失值（greater_is_better= False）。如果一個(gè)損失，得分器對象的python函數(shù)的輸出被取負(fù)值以符合交叉驗(yàn)證慣例，更優(yōu)的模型返回更高的值。
僅用于分類度量的時(shí)候：判斷您提供的python函數(shù)是否需要連續(xù)性判斷（needs_threshold = True）。默認(rèn)值為False。
任何其他參數(shù)，如f1_score()函數(shù)中的參數(shù)：beta和labels。

以下是建立自定義scorer，以及使用greater_is_better參數(shù)的示例：

import numpy as np def my_custom_loss_func(ground_truth, predictions): """ 自定義損失函數(shù)——其實(shí)就是典型的SVM損失函數(shù) groud_truth: 真實(shí)值 predictions: 預(yù)測值 """ diff = np.abs(ground_truth - predictions).max() return np.log(1 + diff) loss = make_scorer(my_custom_loss_func, greater_is_better=False) # 創(chuàng)建為scorer score = make_scorer(my_custom_loss_func, greater_is_better=True) ground_truth = [[1], [1]] predictions = [0, 1] from sklearn.dummy import DummyClassifier clf = DummyClassifier(strategy='most_frequent', random_state=0) # 創(chuàng)建簡陋分類模型 clf = clf.fit(ground_truth, predictions) # 訓(xùn)練模型 loss(clf,ground_truth, predictions) # 損失值，False：取負(fù) score(clf,ground_truth, predictions) # 評分， True：取正

這個(gè)代碼是沒有實(shí)際意義的，只是為了體現(xiàn)兩點(diǎn)

自定義評分函數(shù)時(shí)，需要用到真實(shí)值和預(yù)測值，然后根據(jù)自己的想法輸出預(yù)測的誤差或者分值，這里輸出的是誤差。

make_scorer()函數(shù)的參數(shù)greater_is_better是為了適應(yīng)靈活的自定義評分函數(shù)的。當(dāng)你的評分函數(shù)輸出損失值的時(shí)候，參數(shù)為False，即對損失值取負(fù)；輸出分值的時(shí)候，反之。這都是為了遵從前面所說的越大越優(yōu)的慣例。

應(yīng)用你自己的評分對象

??您可以通從頭開始構(gòu)建自己的評分對象，而不使用make_scorer()工廠函數(shù)，這樣生成的scorer模型更靈活。要成為scorer，需要符合以下兩個(gè)規(guī)則所指定的協(xié)議：

可以使用參數(shù)(estimator，X，y)調(diào)用，其中estimator是應(yīng)該評估的模型，X是驗(yàn)證數(shù)據(jù)，y是X（在監(jiān)督的情況下）的真實(shí)標(biāo)簽或None（在無監(jiān)督的情況下）。
它返回一個(gè)浮點(diǎn)數(shù)，用于量化X上的estimator參考y的預(yù)測質(zhì)量。再次，按照慣例，更高的值表示更好的預(yù)測模型，所以如果你的返回的是損失值，應(yīng)取負(fù)。

使用多種度量指標(biāo)

??Scikit-learn還允許在GridSearchCV，RandomizedSearchCV和cross_validate中使用多個(gè)度量指標(biāo)。為評分參數(shù)指定多個(gè)評分指標(biāo)有兩種方法：

作為一個(gè)包含字符串的迭代器：

scoring = ['accuracy', 'precision']

作為一個(gè)scorer名字到scorer函數(shù)的映射：

from sklearn.metrics import accuracy_score from sklearn.metrics import make_scorer scoring = {'accuracy': make_scorer(accuracy_score), 'prec': 'precision'}

??請注意，字典中的值可以是scorer函數(shù)，也可以是一個(gè)預(yù)定義的度量指標(biāo)的字符串。目前，只有那些返回單一分?jǐn)?shù)的scorer函數(shù)才能在dict內(nèi)傳遞。不允許返回多個(gè)值的Scorer函數(shù)，并且需要一個(gè)包裝器才能返回一個(gè)度量：

from sklearn.model_selection import cross_validate # 交叉驗(yàn)證函數(shù) from sklearn.metrics import confusion_matrix X, y = datasets.make_classification(n_classes=2, random_state=0) # 一個(gè)簡陋的二分類數(shù)據(jù)集 svm = LinearSVC(random_state=0) def tp(y_true, y_pred): return confusion_matrix(y_true, y_pred)[0, 0] def tn(y_true, y_pred): return confusion_matrix(y_true, y_pred)[0, 0] def fp(y_true, y_pred): return confusion_matrix(y_true, y_pred)[1, 0] def fn(y_true, y_pred): return confusion_matrix(y_true, y_pred)[0, 1] scoring = {'tp' : make_scorer(tp), 'tn' : make_scorer(tn), 'fp' : make_scorer(fp), 'fn' : make_scorer(fn)} cv_results = cross_validate(svm.fit(X, y), X, y, scoring=scoring) print(cv_results['test_tp']) # 獲取test數(shù)據(jù)集的tp值 [12 13 15] print(cv_results['test_fn']) # 獲取test數(shù)據(jù)集的fn值 [5 4 1]

分類度量

??sklearn.metrics模塊實(shí)現(xiàn)了幾種損失函數(shù)、評分函數(shù)和功能函數(shù)來測量分類性能。某些指標(biāo)可能需要正例，置信度值或二進(jìn)制決策值的概率估計(jì)。大多數(shù)指標(biāo)應(yīng)用的是：通過sample_weight參數(shù)，讓每個(gè)樣本為總分提供加權(quán)貢獻(xiàn)。?
其中一些僅限于二進(jìn)制分類案例：

precision_recall_curve(y_true, probas_pred)

roc_curve(y_true, y_score[, pos_label, …])

還有一些僅限于多分類情形：

cohen_kappa_score(y1, y2[, labels, weights, …])

confusion_matrix(y_true, y_pred[, labels, …])

hinge_loss(y_true, pred_decision[, labels, …])

matthews_corrcoef(y_true, y_pred[, …])

還有一些可用于多標(biāo)簽情形：

accuracy_score(y_true, y_pred[, normalize, …])

classification_report(y_true, y_pred[, …])

f1_score(y_true, y_pred[, labels, …])

fbeta_score(y_true, y_pred, beta[, labels, …])

hamming_loss(y_true, y_pred[, labels, …])

jaccard_similarity_score(y_true, y_pred[, …])

log_loss(y_true, y_pred[, eps, normalize, …])

precision_recall_fscore_support(y_true, y_pred)

precision_score(y_true, y_pred[, labels, …])

recall_score(y_true, y_pred[, labels, …])

zero_one_loss(y_true, y_pred[, normalize, …])

一些是通常用于分級的：

dcg_score(y_true, y_score[, k])

ndcg_score(y_true, y_score[, k])

而且許多是用于二分類和多標(biāo)簽問題的，但不適用于多分類：

average_precision_score(y_true, y_score[, …])

roc_auc_score(y_true, y_score[, average, …])

下面的章節(jié)中，我們會描述每一個(gè)函數(shù)。

從二分類到多分類多標(biāo)簽

??一些度量基本上是針對二進(jìn)制分類任務(wù)（例如f1_score，roc_auc_score）定義的。在這些情況下，假設(shè)默認(rèn)情況下，正類標(biāo)記為1（盡管可以通過pos_label參數(shù)進(jìn)行配置），默認(rèn)情況下僅評估正標(biāo)簽。?
??將二進(jìn)制度量擴(kuò)展為多類或多標(biāo)簽問題時(shí)，數(shù)據(jù)將被視為二分類問題的集合，即一對多類型。下面是綜合二分類度量的值的多種方法，不同的方法可能適用于不同的情況，通過參數(shù)average來選擇：

"macro"簡單地計(jì)算二分類度量的平均值，賦予每個(gè)類別相同的權(quán)重。
"weighted"計(jì)算的是每個(gè)二分類度量的加權(quán)平均。
"micro"，每個(gè)二分類對總體度量的貢獻(xiàn)是相等的（除了作為樣本權(quán)重的結(jié)果）。
"sample"僅適用于多標(biāo)簽問題。它不計(jì)算每個(gè)類別的度量，而是計(jì)算評估數(shù)據(jù)中每個(gè)樣本的真實(shí)和預(yù)測類別的度量，并返回（sample_weight-weighted）平均值。
選擇average = None將返回每個(gè)類的分值。

這里不懂的可以看下面章節(jié)——多分類多標(biāo)簽分類的例子?
??多標(biāo)簽數(shù)據(jù)用于指標(biāo)評估時(shí)，也像二分類的標(biāo)簽傳入一個(gè)類別標(biāo)簽的數(shù)組，傳入的是一個(gè)標(biāo)簽矩陣，元素ij在樣本i的標(biāo)簽是j的時(shí)候取值為1，否則為0。

精確度

??accuracy_score函數(shù)用于計(jì)算預(yù)測的精度。在多標(biāo)簽分類中，函數(shù)返回子集精度。如果樣本的整套預(yù)測標(biāo)簽與真正的標(biāo)簽組一致，則子集精度為1.0; 否則為0.0。如果y^i

import numpy as np from sklearn.metrics import accuracy_score y_pred = [0, 2, 1, 3] y_true = [0, 1, 2, 3] accuracy_score(y_true, y_pred) # 用比值的方式輸出精度輸出：0.5 accuracy_score(y_true, y_pred, normalize=False) # 用計(jì)數(shù)的方式輸出精度輸出：2

'''多標(biāo)簽的情況''' accuracy_score(np.array([[0, 1], [1, 1]]), np.ones((2, 2))) # 輸出 0.5

解釋一下多標(biāo)簽的情況，先看樣本0——第一行，它的真實(shí)標(biāo)簽是[0, 1]，預(yù)測標(biāo)簽為[1, 1]，預(yù)測錯(cuò)誤。樣本1——第二行，它的真實(shí)標(biāo)簽是[1, 1]，預(yù)測標(biāo)簽是[1, 1]，預(yù)測正確。所以最后的預(yù)測精度為0.5。如果將參數(shù)normalize設(shè)為False的話，將輸出1，即表示預(yù)測正確了一個(gè)。

Cohen’s kappa

??函數(shù)cohen_kappa_score()計(jì)算Cohen’s kappa統(tǒng)計(jì)量。這個(gè)方法是想比較不同的人表計(jì)的正確率，而非針對分類器。kappa分?jǐn)?shù)是-1和1之間的數(shù)字。0.8以上的分?jǐn)?shù)通常被認(rèn)為是不錯(cuò)的結(jié)果; 零或更低表示沒有效果（就像瞎蒙的一樣）。?
??Kappa分?jǐn)?shù)可用于二分類問題或多分類問題，但不能用于多重標(biāo)簽問題。

from sklearn.metrics import cohen_kappa_score y_true = [2, 0, 2, 2, 0, 1] y_pred = [0, 0, 2, 2, 0, 2] cohen_kappa_score(y_true, y_pred) # 輸出0.4285...

混亂矩陣

??confusion_matrix()函數(shù)通過計(jì)算混亂矩陣來評估分類精度。根據(jù)定義，元素ij表示：真實(shí)值為i，預(yù)測值為j的情況的個(gè)數(shù)，例子如下：

from sklearn.metrics import confusion_matrix y_true = [2, 0, 2, 2, 0, 1] y_pred = [0, 0, 2, 2, 0, 2] confusion_matrix(y_true, y_pred)

解釋一下，對于元素（0， 0）的值為2，表示真實(shí)值為0，預(yù)測為0的次數(shù)為2次；元素（2，0）的值為1，表示真實(shí)值為2，預(yù)測為0的次數(shù)為1次。矩陣的所有元素和為2+1+1+2 = 6，表示一共有6個(gè)樣本參與預(yù)測。下圖是一個(gè)關(guān)于混亂矩陣的例子：?

y_true = [0, 0, 0, 1, 1, 1, 1, 1] y_pred = [0, 1, 0, 1, 0, 1, 0, 1] '''t表示正例，f表示反例，n表示預(yù)測錯(cuò)誤，p表示預(yù)測正確''' tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel() tn, fp, fn, tp # 輸出 (2, 1, 2, 3)

分類報(bào)告

??函數(shù)classification_report()創(chuàng)建了一個(gè)展示主要分類度量指標(biāo)的文本報(bào)告，這是一個(gè)使用自定義target_name和內(nèi)部標(biāo)簽的小例程。

from sklearn.metrics import classification_report y_true = [0, 1, 2, 2, 0] y_pred = [0, 0, 2, 1, 0] target_names = ['class 0', 'class 1', 'class 2'] cls_rpt = classification_report(y_true, y_pred, target_names=target_names) print cls_rpt print type(cls_rpt)

可以看到，函數(shù)classification_report()的運(yùn)行結(jié)果是一個(gè)字符串，形如一個(gè)列表：列名是各種評分方法，行名是自定義的標(biāo)簽名字。

漢明損失

??函數(shù)hamming_loss()計(jì)算兩組樣本之間的平均漢明損失或漢明距離。如果y^j

是不是感覺很熟悉，哈哈，回憶一下之前的accuracy_score()。但是，漢明損失前面分式的分母是標(biāo)簽個(gè)數(shù)而不像精確度一樣是樣本個(gè)數(shù)，所以它們在多標(biāo)簽問題的結(jié)果不一樣。漢明損失頗像下面的Jaccard相關(guān)系數(shù)。

from sklearn.metrics import hamming_loss y_pred = [1, 2, 3, 4] y_true = [2, 2, 3, 4] hamming_loss(y_true, y_pred) # 二分類單一標(biāo)簽輸出 0.25

hamming_loss(np.array([[0, 1], [1, 1]]), np.zeros((2, 2))) # 二分類多標(biāo)簽輸出：0.75

Jaccard 相似性相關(guān)系數(shù)

??jaccard_similarity_score()函數(shù)計(jì)算標(biāo)簽集對之間的平均（默認(rèn)）或Jaccard相似系數(shù)的總和，也稱為Jaccard索引。設(shè)真實(shí)標(biāo)簽集yi

真實(shí)標(biāo)簽集與預(yù)測標(biāo)簽集的交集就是預(yù)測正確的部分；對于并集來說，一般情況下，預(yù)測機(jī)的結(jié)果都不會超綱，這種情況下并集就是真實(shí)標(biāo)簽集。然而在負(fù)載情況下，預(yù)測機(jī)的結(jié)果可能超出了真實(shí)標(biāo)簽集。?
確實(shí)跟二分類或多分類的accuracy_score()很相似。但是對于多標(biāo)簽問題，它們是截然不同的結(jié)果。

import numpy as np from sklearn.metrics import jaccard_similarity_score y_pred = [0, 2, 1, 3] y_true = [0, 1, 2, 3] jaccard_similarity_score(y_true, y_pred) # 輸出 0.5

jaccard_similarity_score(y_true, y_pred, normalize=False) # 輸出 0.75

到這里，都是大家常見的幾種評分方式，也比較好理解，諸君可能覺得有點(diǎn)無聊，那么下面就是重頭戲了。

準(zhǔn)確率、召回率和F度量

??直觀地說，準(zhǔn)確率(presicion)是分類器不錯(cuò)判的能力，并且召回率(recall)是分類器找到正例的能力。

F-measure()（Fβ
precision_recall_curve()通過改變判定閾值來計(jì)算關(guān)于真實(shí)值的presicion-recall曲線和分類器分值。
average_precision_score()函數(shù)根據(jù)預(yù)測分?jǐn)?shù)計(jì)算出平均精度（AP）。該分?jǐn)?shù)對應(yīng)于presicion-recall曲線下的面積。該值在0和1之間，而且更高更好。?
下面是幾個(gè)計(jì)算準(zhǔn)確率、召回率和F度量的函數(shù)：

functioncomment

average_precision_score(y_true, y_score[, …]	計(jì)算平均準(zhǔn)確度（AP）
f1_score(y_true, y_pred[, labels, …])	計(jì)算F1分?jǐn)?shù)
fbeta_score(y_true, y_pred, beta[, labels, …])	計(jì)算F-beta分?jǐn)?shù)
precision_recall_curve(y_true, probas_pred)	計(jì)算precision-recall曲線
precision_recall_fscore_support(y_true, y_pred)	計(jì)算準(zhǔn)確率、召回率、F度量和類別數(shù)
precision_score(y_true, y_pred[, labels, …])	計(jì)算準(zhǔn)確度
recall_score(y_true, y_pred[, labels, …])	計(jì)算召回率

PS：precision_recall_curve()函數(shù)僅限于二分類；average_precision_score()函數(shù)僅限于二分類和多標(biāo)簽。

二分類

??在二進(jìn)制分類任務(wù)中，術(shù)語positive和negative是指分類器的預(yù)測情況，術(shù)語true和false是指該預(yù)測是否對應(yīng)于外部判斷有時(shí)被稱為’觀察”）。給出這些定義，我們可以制定下表：

?	真實(shí)類別 (observation)
預(yù)測類別(expectation)	tp (true positive) 預(yù)測為positive，預(yù)測正確	fp (false positive) 預(yù)測為positive，預(yù)測錯(cuò)誤
預(yù)測類別(expectation)	fn (false negative)預(yù)測為negetive，預(yù)測錯(cuò)誤	tn (true negative)預(yù)測為negetive，預(yù)測正確

定義準(zhǔn)確率、召回率和F度量：?
precision=tptp+fp

from sklearn import metrics y_pred = [0, 1, 0, 0] y_true = [0, 1, 0, 1] print metrics.precision_score(y_true, y_pred) # 準(zhǔn)確率輸出：1.0 print metrics.recall_score(y_true, y_pred) # 召回率輸出： 0.5 print metrics.f1_score(y_true, y_pred) # f1分?jǐn)?shù) 輸出：0.66 print metrics.fbeta_score(y_true, y_pred, beta=0.5) # f-beta 輸出： 0.83 print metrics.fbeta_score(y_true, y_pred, beta=1) # 輸出： 0.66，與f1分?jǐn)?shù)相等 print metrics.fbeta_score(y_true, y_pred, beta=2) # 輸出： 0.55 print metrics.precision_recall_fscore_support(y_true, y_pred, beta=0.5) # 最后輸出數(shù)組(array([ 0.66..., 1. ]), array([ 1. , 0.5]), array([ 0.71..., 0.83...]), array([2, 2]...))

最后一個(gè)，函數(shù)metrics.precision_recall_fscore_support()的輸出比較復(fù)雜，其實(shí)它是輸出了很多結(jié)果。首先樣本數(shù)據(jù)一共有2中標(biāo)簽：0和1，所以輸出是成對的，分別對應(yīng)著兩種類別。然后4組數(shù)據(jù)分別表示：準(zhǔn)確率、召回率、f度量和支持的類別數(shù)。

import numpy as np from sklearn.metrics import precision_recall_curve from sklearn.metrics import average_precision_score y_true = np.array([0, 0, 1, 1]) y_scores = np.array([0.1, 0.4, 0.35, 0.8]) precision, recall, threshold = precision_recall_curve(y_true, y_scores) '''可以看到準(zhǔn)確率和召回率是負(fù)相關(guān)的''' print precision # 輸出： array([ 0.66..., 0.5 , 1. , 1. ]) print recall # 輸出： array([ 1. , 0.5, 0.5, 0. ]) print threshold # 輸出： array([ 0.35, 0.4 , 0.8 ]) print average_precision_score(y_true, y_scores) # 輸出： 0.83...

多分類多標(biāo)簽

??在多類和多標(biāo)簽分類任務(wù)中，準(zhǔn)確率、召回率和F度量的概念可以獨(dú)立地應(yīng)用于每個(gè)類別。如上所述，有幾種cross標(biāo)簽的方法：特別是由average參數(shù)指定為average_precision_score（僅限多標(biāo)簽），f1_score，fbeta_score，precision_recall_fscore_support，precision_score和recall_score函數(shù)。?
聲明一波記號：

y表示預(yù)測值
y^
L表示標(biāo)簽集
S表示樣本集
ys
yl
y^s
P(A,B):=|A∩B||A|
R(A,B):=|A∩B||B|
Fβ(A,B):=(1+β2)P(A,B)×R(A,B)β2P(A,B)+R(A,B)

from sklearn import metrics y_true = [0, 1, 2, 0, 1, 2] y_pred = [0, 2, 1, 0, 0, 1] print metrics.precision_score(y_true, y_pred, average='macro') # 輸出：0.22 print metrics.recall_score(y_true, y_pred, average='micro') # 輸出：0.33 print metrics.f1_score(y_true, y_pred, average='weighted') # 輸出：0.26 print metrics.fbeta_score(y_true, y_pred, average='macro', beta=0.5) # 輸出：0.23 print metrics.precision_recall_fscore_support(y_true, y_pred, beta=0.5, average=None) #輸出：數(shù)組如下 # (array([ 0.66..., 0. , 0. ]), array([ 1., 0., 0.]), array([ 0.71..., 0. , 0. ]), array([2, 2, 2]...))

解釋一下：對于標(biāo)簽0， 1， 2，它們的準(zhǔn)確率分別是23

print metrics.recall_score(y_true, y_pred, labels=[1, 2], average='micro') # 輸出：0.0 print metrics.precision_score(y_true, y_pred, labels=[0, 1, 2, 3], average='macro') # 輸出：0.166..

上面代碼顯示了label參數(shù)的作用。

Hinge損失

??hinge_loss()函數(shù)使用hinge損失計(jì)算模型和數(shù)據(jù)之間的平均距離，這是僅考慮預(yù)測誤差的單側(cè)度量。（Hinge損失用于最大化邊緣分類器，如SVM支持向量機(jī)）如果標(biāo)簽用+1和-1編碼，則y是真實(shí)值，w是由decision_function()輸出的預(yù)測值，則hinge損失定義為：?
LHinge（y，w）=max{1?wy，0}=|1?wy|+

from sklearn import svm from sklearn.metrics import hinge_loss X = [[0], [1]] y = [-1, 1] est = svm.LinearSVC(random_state=0) est.fit(X, y) # 訓(xùn)練好線性分類器 pred_decision = est.decision_function([[-2], [3], [0.5]]) print pred_decision # 輸出預(yù)測值：array([-2.18..., 2.36..., 0.09...]) print hinge_loss([-1, 1, 1], pred_decision) # 輸出：0.3...

下面的例子演示了多分類問題中，使用svm分類器和hinge_loss函數(shù)：

X = np.array([[0], [1], [2], [3]]) Y = np.array([0, 1, 2, 3]) labels = np.array([0, 1, 2, 3]) est = svm.LinearSVC() est.fit(X, Y) pred_decision = est.decision_function([[-1], [2], [3]]) y_true = [0, 2, 3] hinge_loss(y_true, pred_decision, labels) # 輸出：0.56...

Log損失

??log損失也稱logistic回歸損失或交叉熵?fù)p失，是一個(gè)建立在概率上的定義。它通常用于（多項(xiàng)式）邏輯回歸和神經(jīng)網(wǎng)絡(luò)，以及期望最大化的一些變體中。?
log損失是一個(gè)負(fù)值：?
Llog(y，p)=?logPr(y|p)=?(ylog(p)+(1?y)log(1?p))

from sklearn.metrics import log_loss y_true = [0, 0, 1, 1] y_pred = [[.9, .1], [.8, .2], [.3, .7], [.01, .99]] log_loss(y_true, y_pred) # 輸出：0.1738...

注意，這里的預(yù)測值是概率。比如y_pred[0]為[0.9, 0.1]表示，預(yù)測為0的概率是0.9，預(yù)測為1的概率是0.1。?
下面將0.1738是怎么計(jì)算出來的。首先應(yīng)該知道，在log損失中，y的值只有0和1，其概率的和是1。?
還是對于第一個(gè)樣本y_pred[0]，其log損失為?(0×log(0.9)+1×log(0.9))

Matthews 相關(guān)系數(shù)

??matthews_corrcoef函數(shù)計(jì)算二進(jìn)制類的Matthews相關(guān)系數(shù)（MCC）。引用維基百科：

“The Matthews correlation coefficient is used in machine learning as a measure of the quality of binary (two-class) classifications. It takes into account true and false positives and negatives and is generally regarded as a balanced measure which can be used even if the classes are of very different sizes. The MCC is in essence a correlation coefficient value between -1 and +1. A coefficient of +1 represents a perfect prediction, 0 an average random prediction and -1 an inverse prediction. The statistic is also known as the phi coefficient.”

大意：

Matthews相關(guān)系數(shù)（MCC）用于機(jī)器學(xué)習(xí)，作為二分類質(zhì)量的量度。它考慮到正例反例、判斷對判斷錯(cuò)，通常被認(rèn)為是可以使用的平衡措施，即使類別大小極其不同。 MCC本質(zhì)上是-1和+1之間的相關(guān)系數(shù)值。系數(shù)+1表示完美預(yù)測，0表示平均隨機(jī)預(yù)測，-1表示反向預(yù)測。統(tǒng)計(jì)學(xué)也稱為phi系數(shù)。

在二分類的情況下，tp，tn，fp和fn分別是真正例，真反例，假正例和假反例數(shù)，MCC定義為?
MCC=tp×tn?fp×fn(tp+fp)(tp+fn)(tn+fp)(tn+fn)√

tk=∑KiCik
pk=∑KiCki
c=∑KkCkk
s=∑Ki∑KjCij

然后將多類MCC定義為：?
MCC=c×s?∑Kkpk×tk(s2?∑Kkp2k)×(s2?∑Kkt2k)√

from sklearn.metrics import matthews_corrcoef y_true = [+1, +1, +1, -1] y_pred = [+1, -1, +1, +1] matthews_corrcoef(y_true, y_pred) # 輸出：-0.33

總之，Matthews相關(guān)系數(shù)也是一個(gè)根據(jù)真實(shí)值和預(yù)測值對預(yù)測模型進(jìn)行評分的一個(gè)方法

ROC

??函數(shù)roc_curve()計(jì)算 receiver operating characteristic curve或者說是ROC曲線。引用維基百科：

“A receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied. It is created by plotting the fraction of true positives out of the positives (TPR = true positive rate) vs. the fraction of false positives out of the negatives (FPR = false positive rate), at various threshold settings. TPR is also known as sensitivity, and FPR is one minus the specificity or true negative rate.”

大意：

ROC或者是ROC曲線，是一個(gè)圖形圖，說明了二分類系統(tǒng)在鑒別閾值變化的情形下的性能。它通過在不同閾值設(shè)置下，TPR（正例中判對的概率）與FPR（被錯(cuò)判為正例的概率）。TPR又稱為敏感度，FPR是1減去反例判對的概率。

該函數(shù)需要正確的二分類值和目標(biāo)分?jǐn)?shù)，這可以是正類的概率估計(jì)，置信度值或二分類判決。這是一個(gè)如何使用roc_curve()函數(shù)的小例子：

import numpy as np from sklearn.metrics import roc_curve y = np.array([1, 1, 2, 2]) scores = np.array([0.1, 0.4, 0.35, 0.8]) fpr, tpr, thresholds = roc_curve(y, scores, pos_label=2) print fpr # 輸出：[ 0. 0.5 0.5 1. ] print tpr # 輸出：[ 0.5 0.5 1. 1. ] print thresholds # 輸出：[ 0.8 0.4 0.35 0.1 ]

thresholds閾值的意義：所有的樣本都要和這個(gè)閾值比較，如果大于這個(gè)閾值就是正例。所以，這個(gè)閾值越大，反例被錯(cuò)判為正例的可能性越小，當(dāng)然，很多比較小的正例也會被忽略從而導(dǎo)致TPR也較小。

下圖是一個(gè)ROC曲線的例子：?
?
roc_auc_score()函數(shù)計(jì)算ROC曲線下面積，也由AUC或AUROC表示。通過計(jì)算roc曲線下的面積，曲線信息總結(jié)為一個(gè)數(shù)字。

import numpy as np from sklearn.metrics import roc_auc_score y_true = np.array([0, 0, 1, 1]) y_scores = np.array([0.1, 0.4, 0.35, 0.8]) roc_auc_score(y_true, y_scores) # 輸出：0.75

在多標(biāo)簽分類中，roc_auc_score()函數(shù)通過如上所述的標(biāo)簽平均來擴(kuò)展。?
與諸如子集精確度，漢明損失或F1度量相比，ROC不需要優(yōu)化每個(gè)標(biāo)簽的閾值。如果預(yù)測的輸出已被二進(jìn)制化，則roc_auc_score()函數(shù)也可用于多類分類。

0-1損失

??zero_one_loss()函數(shù)通過nsamples

from sklearn.metrics import zero_one_loss y_pred = [1, 2, 3, 4] y_true = [2, 2, 3, 4] print zero_one_loss(y_true, y_pred) # 輸出：0.25 表示預(yù)測錯(cuò)誤的百分比是0.25 print zero_one_loss(y_true, y_pred, normalize=False) # 輸出：1 表示有1個(gè)預(yù)測錯(cuò)誤

print zero_one_loss(np.array([[0, 1], [1, 1]]), np.ones((2, 2))) # 輸出：0.5 print zero_one_loss(np.array([[0, 1], [1, 1]]), np.ones((2, 2)), normalize=False) # 輸出1

似乎跟前面的accuracy_score()有點(diǎn)像（我覺得是一樣的）。

Brier score損失

??brier_score_loss()函數(shù)計(jì)算二分類的Brier分?jǐn)?shù)。引用維基百科：

The Brier score is a proper score function that measures the accuracy of probabilistic predictions. It is applicable to tasks in which predictions must assign probabilities to a set of mutually exclusive discrete outcomes.

Brier分?jǐn)?shù)在用于衡量預(yù)測的準(zhǔn)確性方面，是一個(gè)合適的評分函數(shù)。它適用于預(yù)測必須將概率分配給一組相互排斥的離散結(jié)果的任務(wù)。

??該函數(shù)返回實(shí)際結(jié)果與可能結(jié)果的預(yù)測概率之間的均方差的得分。實(shí)際結(jié)果必須為1或0（真或假），而實(shí)際結(jié)果的預(yù)測概率可以是0到1之間的值。Brier損失也在0到1之間，分?jǐn)?shù)越低（均方差越小），預(yù)測越準(zhǔn)確。它可以被認(rèn)為是對一組概率預(yù)測的“校準(zhǔn)”的度量。?
BS=1N∑Nt=1(ft?ot)2

from sklearn.metrics import brier_score_loss y_true = np.array([0, 1, 1, 0]) y_true_categorical = np.array(["spam", "ham", "ham", "spam"]) y_prob = np.array([0.1, 0.9, 0.8, 0.4]) y_pred = np.array([0, 1, 1, 0]) print brier_score_loss(y_true, y_prob) # 輸出；0.055 print brier_score_loss(y_true, 1-y_prob, pos_label=0) # 輸出；0.055 print brier_score_loss(y_true_categorical, y_prob, pos_label="ham") # 輸出；0.055 print brier_score_loss(y_true, y_prob > 0.5) # 輸出；0

可以看到與之前不同的地方：真實(shí)標(biāo)簽y_true輸入的不管是字符串還是數(shù)字都沒有規(guī)定正例or反例，而是通過brier_score_loss()函數(shù)的pos_lable參數(shù)決定的。

多標(biāo)簽分級度量

??在多標(biāo)簽學(xué)習(xí)中，每個(gè)樣本可以具有與之相關(guān)的任何數(shù)量的真實(shí)標(biāo)簽，最后靠近真實(shí)標(biāo)簽的獲得更高的分值和等級。

Coverage誤差

??coverage_error()函數(shù)計(jì)算包含在最終預(yù)測中的標(biāo)簽的平均數(shù)，以便預(yù)測所有真正的標(biāo)簽。如果您想知道有多少頂級評分標(biāo)簽，您必須平均預(yù)測，而不會丟失任何真正的標(biāo)簽，這很有用。因此，此指標(biāo)的最好的情況（也就是最小值）是正確標(biāo)簽的平均數(shù)量。?
注意：我們的實(shí)現(xiàn)的分?jǐn)?shù)比Tsoumakas等人在2010年提供的分?jǐn)?shù)大1。這樣就可以包含一種特例：實(shí)例的正確標(biāo)簽為0。?
??給定一個(gè)二進(jìn)制的真實(shí)標(biāo)簽矩陣，y?∈{0,1}nsamples×nlabels

import numpy as np from sklearn.metrics import coverage_error y_true = np.array([[1, 0, 0], [0, 0, 1]]) y_score = np.array([[0.75, 0.5, 1], [1, 0.2, 0.1]]) coverage_error(y_true, y_score) # 輸出：2.5

首先：這是一個(gè)用于多標(biāo)簽的誤差計(jì)算函數(shù)。其次，具體怎么算的筆者也不太清楚，歡迎大家在回復(fù)里指教，最后這個(gè)誤差的意義我是知道的：?
上面例子的y_score實(shí)際上是一個(gè)rank（可以想成排名，積分）列表，只要真實(shí)標(biāo)簽中的1對應(yīng)的y_score中的值（也就是它的rank）是最大的，則誤差最小，最小為nlabel=1nsamples

分級標(biāo)簽平均準(zhǔn)確度

??label_ranking_average_precision_score()函數(shù)實(shí)現(xiàn)標(biāo)簽rank的平均精度（LRAP）。該度量值與average_precision_score()函數(shù)相關(guān)，但是基于標(biāo)簽rank的信息，而不是準(zhǔn)確率和召回率。?
??標(biāo)簽rank的平均精度（LRAP）是分配給每個(gè)樣本的，rank一般較高真實(shí)標(biāo)簽對rank一般較低的總標(biāo)簽的比率的平均值。如果能夠?yàn)槊總€(gè)樣本相關(guān)標(biāo)簽提供更好的rank，這個(gè)指標(biāo)就會產(chǎn)生更好的分?jǐn)?shù)。獲得的分?jǐn)?shù)總是嚴(yán)格大于0，最佳值為1。如果每個(gè)樣本只有一個(gè)相關(guān)標(biāo)簽，則標(biāo)簽排名平均精度等于mean reciprocal rank。?
??給定一個(gè)二進(jìn)制標(biāo)簽矩陣，即y∈Rnsamples×nlabels

import numpy as np from sklearn.metrics import label_ranking_average_precision_score y_true = np.array([[1, 0, 0], [0, 0, 1]]) y_score = np.array([[0.75, 0.5, 1], [1, 0.2, 0.1]]) label_ranking_average_precision_score(y_true, y_score) # 輸出：0.416...

這個(gè)的公式只能說比上一個(gè)coverage_error()函數(shù)的方法更復(fù)雜，但是它們是同根同源的，解決的是同一個(gè)問題。只要知道這個(gè)函數(shù)的最大值是1，最小值大于0就行了。

分級損失

??label_ranking_loss()函數(shù)計(jì)算在樣本上的排序錯(cuò)誤（即正例的rank低于反例）的標(biāo)簽的rank損失的平均值（由正例和反例的倒數(shù)加權(quán)），最小值為0。?
??給定一個(gè)二進(jìn)制標(biāo)簽矩陣y∈{0,1}nsamples×nlabels

import numpy as np from sklearn.metrics import label_ranking_loss y_true = np.array([[1, 0, 0], [0, 0, 1]]) y_score = np.array([[0.75, 0.5, 1], [1, 0.2, 0.1]]) label_ranking_loss(y_true, y_score) # 輸出：0.75

y_score = np.array([[1.0, 0.1, 0.2], [0.1, 0.2, 0.9]]) # 這樣就能輸出最小loss label_ranking_loss(y_true, y_score) # 輸出：0.0

再次，公式不懂，但是label_ranking_loss()還是與上面兩種都是同一問題解決方法的不同表達(dá)。

回歸度量

??sklearn.metrics模塊實(shí)現(xiàn)了幾個(gè)損失，評分和工具函數(shù)來衡量回歸表現(xiàn)。其中一些已被增強(qiáng)以處理多輸出情形：mean_squared_error()，mean_absolute_error()，explain_variance_score()和r2_score()。?
??這些函數(shù)具有一個(gè)multioutput關(guān)鍵字參數(shù)，用于指定平均每個(gè)目標(biāo)的分?jǐn)?shù)或損失的方式。默認(rèn)值為'uniform_average'，它指定輸出均勻加權(quán)均值。如果傳遞形如(n_outputs,)的數(shù)組，則將其解釋為權(quán)重，并返回相應(yīng)的加權(quán)平均值。如果指定了多重輸出為'raw_values'，則所有未更改的單個(gè)分?jǐn)?shù)或損失將以形狀數(shù)組(n_outputs,)返回。?
??r2_score()和interpret_variance_score()為multioutput參數(shù)接受一個(gè)附加值'variance_weighted'。該選項(xiàng)通過相應(yīng)目標(biāo)變量的方差導(dǎo)出每個(gè)單獨(dú)得分的加權(quán)。此設(shè)置量化了全局捕獲的未縮放的方差。如果目標(biāo)變量的scale范圍不同，則該分?jǐn)?shù)更好地解釋較高的方差變量。對于向后兼容性，multioutput ='variance_weighted'是r2_score()的默認(rèn)值。將來會更改為uniform_average。

Explained variance score

??explain_variance_score()計(jì)算explained variance regression score.。?
如果y^

from sklearn.metrics import explained_variance_score y_true = [3, -0.5, 2, 7] y_pred = [2.5, 0.0, 2, 8] explained_variance_score(y_true, y_pred) # 輸出：0.957.。。

y_true = [[0.5, 1], [-1, 1], [7, -6]] y_pred = [[0, 2], [-1, 2], [8, -5]] print explained_variance_score(y_true, y_pred, multioutput='raw_values') # 輸出：[ 0.967..., 1. ] print explained_variance_score(y_true, y_pred, multioutput=[0.3, 0.7]) # 輸出：0.990...

兩個(gè)方差的比值？解釋方差？這個(gè)分值有什么用？

均值絕對誤差

??mean_absolute_error()函數(shù)計(jì)算平均絕對誤差，對應(yīng)于絕對誤差損失或l1范數(shù)損失的預(yù)期值的風(fēng)險(xiǎn)度量。如果y^i

from sklearn.metrics import mean_absolute_error y_true = [3, -0.5, 2, 7] y_pred = [2.5, 0.0, 2, 8] mean_absolute_error(y_true, y_pred) # 輸出：0.5 y_true = [[0.5, 1], [-1, 1], [7, -6]] y_pred = [[0, 2], [-1, 2], [8, -5]] mean_absolute_error(y_true, y_pred) # 輸出：0.75

print mean_absolute_error(y_true, y_pred, multioutput='raw_values') # 輸出：【0.5， 1】 print mean_absolute_error(y_true, y_pred, multioutput=[0.3, 0.7]) # 輸出：0.849...

均值平方誤差

??mean_squared_error()函數(shù)計(jì)算均方誤差，與平方（二次）誤差或損失的預(yù)期值對應(yīng)的風(fēng)險(xiǎn)度量。如果y^i

from sklearn.metrics import mean_squared_error y_true = [3, -0.5, 2, 7] y_pred = [2.5, 0.0, 2, 8] print mean_squared_error(y_true, y_pred) # 輸出：0.375 y_true = [[0.5, 1], [-1, 1], [7, -6]] y_pred = [[0, 2], [-1, 2], [8, -5]] print mean_squared_error(y_true, y_pred) # 輸出：0.7083

均值平方對數(shù)誤差

??mean_squared_log_error()函數(shù)計(jì)算對應(yīng)于平方對數(shù)（二次）誤差或損失的預(yù)期值的風(fēng)險(xiǎn)度量。如果y^i

注意，該度量對低于真實(shí)值的預(yù)測更加敏感。

這是一個(gè)使用mean_squared_log_error函數(shù)的小例子：

from sklearn.metrics import mean_squared_log_error y_true = [3, 5, 2.5, 7] y_pred = [2.5, 5, 4, 8] print mean_squared_log_error(y_true, y_pred) # 輸出：0.039.。 y_true = [[0.5, 1], [1, 2], [7, 6]] y_pred = [[0.5, 2], [1, 2.5], [8, 8]] print mean_squared_log_error(y_true, y_pred) # 輸出：0.044

中位數(shù)絕對誤差

??median_absolute_error()是非常有趣的，因?yàn)樗梢詼p弱異常值的影響。通過取目標(biāo)和預(yù)測之間的所有絕對差值的中值來計(jì)算損失。如果y^i

median_absolute_error()不支持multioutput。

這是一個(gè)使用median_absolute_error()函數(shù)的小例子：

from sklearn.metrics import median_absolute_error y_true = [3, -0.5, 2, 7] y_pred = [2.5, 0.0, 2, 8] median_absolute_error(y_true, y_pred) # 輸出：0.5

R2

??r2_score()函數(shù)計(jì)算R^2，即確定系數(shù)，可以表示特征模型對特征樣本預(yù)測的好壞。最佳分?jǐn)?shù)為1.0，可以為負(fù)數(shù)（因?yàn)槟Ｐ涂赡軙?#xff09;。對于一個(gè)總是在預(yù)測y的期望值時(shí)不關(guān)注輸入特征的連續(xù)模型，它的R^2分值是0.0。如果y^i

from sklearn.metrics import r2_score y_true = [3, -0.5, 2, 7] y_pred = [2.5, 0.0, 2, 8] print r2_score(y_true, y_pred) # 0.948... y_true = [[0.5, 1], [-1, 1], [7, -6]] y_pred = [[0, 2], [-1, 2], [8, -5]] print r2_score(y_true, y_pred, multioutput='variance_weighted') # 0.938... y_true = [[0.5, 1], [-1, 1], [7, -6]] y_pred = [[0, 2], [-1, 2], [8, -5]] print r2_score(y_true, y_pred, multioutput='uniform_average') # 0.936... print r2_score(y_true, y_pred, multioutput='raw_values') # [ 0.965..., 0.908...] print r2_score(y_true, y_pred, multioutput=[0.3, 0.7]) # 0.925...

聚類度量

??sklearn.metrics模塊實(shí)現(xiàn)了多種損失函數(shù)、評分函數(shù)和工具函數(shù)。有關(guān)更多信息，請參閱集聚類性能評估部分。

簡陋評分器

??在進(jìn)行監(jiān)督學(xué)習(xí)的過程中，簡單清晰的檢查包括將一個(gè)估計(jì)模型與簡單的經(jīng)驗(yàn)法則進(jìn)行比較。?DummyClassifier實(shí)現(xiàn)了幾種簡單的分類策略：

stratified根據(jù)訓(xùn)練數(shù)據(jù)類的分布產(chǎn)生隨機(jī)數(shù)據(jù)。
most_frequent總是將結(jié)果預(yù)測為訓(xùn)練集中最常用的標(biāo)簽。
prior總是預(yù)測為先前最大的那個(gè)類。
uniform產(chǎn)生均勻隨機(jī)預(yù)測。
constant總是預(yù)測為用戶提供的常量標(biāo)簽。這種方法的主要靠的是F1分值，此時(shí)的正例數(shù)量較小。

為了說明DummyClassifier，首先讓我們創(chuàng)建一個(gè)不平衡的數(shù)據(jù)集：

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split iris = load_iris() X, y = iris.data, iris.target y[y != 1] = -1 X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

然后再來比較一下SVC和most_frequent：

from sklearn.dummy import DummyClassifier from sklearn.svm import SVC clf = SVC(kernel='linear', C=1).fit(X_train, y_train) print clf.score(X_test, y_test) # 0.63... clf = DummyClassifier(strategy='most_frequent',random_state=0) clf.fit(X_train, y_train) print clf.score(X_test, y_test) # 0.57...

可以看出，SVC的效果不比簡陋的分類器（dummy classifier）號多少，下面，讓我們換一下svc的核函數(shù)：

clf = SVC(kernel='rbf', C=1).fit(X_train, y_train) clf.score(X_test, y_test) # 0.97...

??我們看到準(zhǔn)確率提高到近100％。建議使用交叉驗(yàn)證策略，以便更好地估計(jì)精度。更一般地說，當(dāng)分類器的準(zhǔn)確度太接近隨機(jī)時(shí)，這可能意味著出現(xiàn)了一些問題：特征沒有幫助，超參數(shù)沒有正確調(diào)整，數(shù)據(jù)分布不平衡等?
DummyRegressor還實(shí)現(xiàn)了四個(gè)簡單的經(jīng)驗(yàn)法則：

- mean：預(yù)測訓(xùn)練目標(biāo)的平均值。
- median：預(yù)測訓(xùn)練目標(biāo)的中位數(shù)。
- quantile：預(yù)測用戶提供的分?jǐn)?shù)量的訓(xùn)練目標(biāo)。
- constant：預(yù)測用戶提供的常數(shù)值。

轉(zhuǎn)載于:https://www.cnblogs.com/sddai/p/9581030.html

總結(jié)

以上是生活随笔為你收集整理的模型评估——定量分析预测的质量的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：信用卡授信额度是怎么确定的？主要看这6大
下一篇：光大京东小白卡有年费吗？银联版&