吴恩达《Machine Learning》精炼笔记 10:异常检测
作者 | Peter
編輯 |?AI有道
系列文章:
吳恩達《Machine Learning》精煉筆記 1:監督學習與非監督學習
吳恩達《Machine Learning》精煉筆記 2:梯度下降與正規方程
吳恩達《Machine Learning》精煉筆記 3:回歸問題和正則化
吳恩達《Machine Learning》精煉筆記 4:神經網絡基礎
吳恩達《Machine Learning》精煉筆記 5:神經網絡
吳恩達《Machine Learning》精煉筆記 6:關于機器學習的建議
吳恩達《Machine Learning》精煉筆記 7:支持向量機 SVM
吳恩達《Machine Learning》精煉筆記 8:聚類 KMeans 及其 Python實現
吳恩達《Machine Learning》精煉筆記 9:PCA 及其 Python 實現
在本文中主要講解了機器學習中的異常檢測問題,主要包含:
問題產生
高斯分布
算法使用場景
八種無監督異常檢測技術
異常檢測和監督學習對比
特征選擇
異常檢測Novelty Detection
異常是相對于其他觀測數據而言有明顯偏離的,以至于懷疑它與正常點不屬于同一個數據分布。
異常檢測是一種用于識別不符合預期行為的異常模式的技術,又稱之為異常值檢測。
在商業中也有許多應用,如網絡入侵檢測(識別可能發出黑客攻擊的網絡流量中的特殊模式)、系統健康性監測、信用卡交易欺詐檢測、設備故障檢測、風險識別等
問題動機
異常檢測主要是運用于非監督學習的算法。問題的引出:通過飛機的檢測開始。
檢測飛機的引擎制造商生產了一批飛機引擎,測試了其中的一些特征變量,比如引擎運轉時產生的熱量,或者引擎的振動等。
假設有m個引擎,數據如下:
我們繪制出如下圖表:
對于給定的數據集,需要檢測xtestxtest是不是異常的,即這個測試數據不屬于這組數據的幾率是多少。
從上圖看出,在藍色圈內屬于該組的概率高,越是偏遠的概率,屬于該組的可能性就越低。
另外兩個異常檢測的應用例子是
識別欺騙行為,通過用戶多久登陸一次、訪問過的頁面、發布帖子的數量等建立模型,通過模型來識別那些不符合該模型的用戶。
檢測數據中心的使用情況:內存使用、被訪問的磁盤數量、CPU負載等
高斯分布
高斯分布也叫正態分布。分布滿足:
概率密度函數為:
均值μ為:
方差σ2為 :
高斯分布的樣例為
當均值μ相同的時候
方差的平方越大,圖形是矮胖的
方差的平方越小,圖形是瘦高型的
使用場景
異常檢測算法的使用場景一般是三種:
在做特征工程的時候需要對異常的數據做過濾,防止對歸一化等處理的結果產生影響
對沒有標記輸出的特征數據做篩選,找出異常的數據
對有標記輸出的特征數據做二分類時,由于某些類別的訓練樣本非常少,類別嚴重不平衡,此時也可以考慮用非監督的異常點檢測算法來做
算法
算法的具體過程是
對于給定的數據集:
計算每個特征的μ;σ2?的估計值
兩個參數的估計值為:
利用高斯分布進行計算p(x)
兩個特征的訓練集及特征非部分情況
三維圖表示的是密度函數,z軸為根據兩個特征的值估計的p(x)的值
當?p(x)>ε時候,預測是正常數據, 否則為異常
異常算法的設計
當我們開發一個異常檢測系統時,從帶標記(異常或正常)的數據著手
從其中選擇一部分正常數據用于構建訓練集
然后用剩下的正常數據和異常數據混合的數據構成交叉檢驗集和測試集。
八種無監督異常檢測技術
基于統計的異常檢測技術
MA滑動平均法
3—Sigma(拉依達準則)
基于密度的異常檢測
基于聚類的異常檢測
基于``K-Means`聚類的異常檢測
One Class SVM的異常檢測
Isolation Forest的異常檢測
PCA+MD的異常檢測
AutoEncoder異常檢測
異常檢測和監督學習對比
異常檢測中采用的也是帶標記的數據,和監督學習類似。二者對比為:
當正樣本的數量很少,甚至有時候是0,即出現了太多沒見過的不同的異常類型,對于這些問題,通常應該使用的算法就是異常檢測算法。
特征選擇
異常檢測算法是基于高斯分布的。當然不滿足高斯分布也能處理,但是最好轉成高斯分布。誤差分析是特征選擇中很重要的點。
有些異常數據可能出現較高的p(x)的值,被算法當做是正常數據。通過誤差分析,增加新的特征得到新的算法,幫助我們更好地進行異常檢測。
新特征獲取:通過原有特征進行組合,得到新的特征
參考資料:李航-統計學習方法
推薦閱讀
(點擊標題可跳轉閱讀)
干貨 | 公眾號歷史文章精選
我的深度學習入門路線
我的機器學習入門路線圖
重磅!
AI有道年度技術文章電子版PDF來啦!
掃描下方二維碼,添加?AI有道小助手微信,可申請入群,并獲得2020完整技術文章合集PDF(一定要備注:入群?+ 地點 + 學校/公司。例如:入群+上海+復旦。?
長按掃碼,申請入群
(添加人數較多,請耐心等待)
感謝你的分享,點贊,在看三連??
總結
以上是生活随笔為你收集整理的吴恩达《Machine Learning》精炼笔记 10:异常检测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 25岁,一位女程序员的幸运几年
- 下一篇: 惩罚女人的最有效方法!