机器学习与深度学习基础概念
主要術語(基本)
主要包括標簽、特征、樣本、訓練、模型、回歸模型、分類模型、泛化、過擬合、預測、平穩性、訓練集、驗證集、測試集。
標簽(label)
標簽是我們要預測的事物,在分類任務中的類別,比如是貓或狗;簡單線性回歸中的y變量;。標簽可以是小麥未來的價格、圖片中顯示的動物品種、音頻剪輯的含義或任何實物。
在監督學習中,標簽值是樣本的“答案”或“結果”部分。
特征(feture)
在進行預測時使用的輸入變量。
特征是輸入變量,即簡單線性回歸中的x變量;在分類任務中的輸入圖像特征。
簡單的機器學習項目可能會使用單個特征,而比較復雜的機器學習項目可能會使用數百萬個特征,按如下方式制定:?
在垃圾郵箱檢測器示例中,特征可能包括:
- 電子郵件文件中的字詞
- 發件人的地址
- 發送電子郵件的時段
- 電子郵箱包含“一些敏感詞”
樣本(example)
數據集的一行。在監督學習的樣本中,一個樣本既有特征,也有標簽。在無監督學習的樣本中,一個樣本只有特征。
樣本是指數據的特定示例:x。(x表示一個矢量)將樣本分為以下兩類:
- 有標簽樣本
- 無標簽樣本
有標簽樣本同時包含特征的標簽,即:
labeled examples: {features, label}: (x, y)我們使用有標簽樣本訓練模型;在垃圾郵件檢測器示例中,有標簽樣本是用戶明確標記為“垃圾郵件”或“非垃圾郵件”的各個電子郵件。
例如,下表顯示了從包含加利福尼亞房價信息的數據集中抽取的5個有標簽樣本:
| 15 | 5612 | 1283 | 66900 |
| 19 | 7650 | 1901 | 80100 |
| 17 | 720 | 174 | 85700 |
| 14 | 1501 | 337 | 73400 |
| 20 | 1454 | 326 | 65500 |
無標簽樣本包含特征,但不包含標簽,即:
unlabeled examples: {features, ?}: (x, ?)以下是取自同一住房數據集的3個無標簽樣本,其中不包含medianHoustonValue:
| 42 | 1686 | 361 |
| 34 | 1226 | 180 |
| 33 | 1077 | 271 |
在使用有標簽樣本訓練模型之后,我們會使用該模型預測無標簽樣本的標簽。在垃圾郵件檢測器示例中,無標簽樣本是用戶尚未添加標簽的新電子郵件。
模型(model)
模型定義了特征與標簽之間的關系。比如,垃圾郵件檢測模型可能會將某些特征與“垃圾郵件”緊密聯系起來。模型生命周期的兩個階段:
- 訓練是指創建或學習模型。即:向模型展示有標簽樣本,讓模型逐漸學習特征與標簽之間的關系。
- 推斷是指將訓練后的模型應用于無標簽樣本。即:使用經過訓練的模型做出有用的預測?.在推斷期間,可以針對新的無標簽樣本預測medianHouseValue。
回歸模型(regression model)
一種模型,能夠輸出連續值(通常為浮點值)。
回歸模型可預測連續值。例如,回歸模型做出的預測可回答如下問題:
- xxx地方的一棟房產的價值是多少?
- 用戶點擊此廣告的概率是多少?
分類模型(classification model)
用于區分兩種或多種離散類別。
分類模型可預測離散值。例如,分類模型做出的預測可回答如下問題:
- 某個指定電子郵件是垃圾郵件還是非垃圾郵件?
- 這是一張狗或是貓的圖像?
訓練(training)
構成模型中理想參數的過程;訓練一個好的模型,主要是得到模型中的參數,包括權重?和偏置?等。
泛化(generalization)
是指模型依據訓練時采用的模型,針對未見過的新數據做出爭取預測的能力。
過擬合(overfitting)
創建的模型與訓練數據過于匹配,以至于模型無法根據新數據做出正確的預測。
預測(perdition)
模型在收到數據樣本后的輸出。
平穩性(stationarit)
數據集中數據的一種屬性,表示數據分布在一個或多個維度保持不變。這種維度最常見的是時間,即:表明平穩性的數據不隨時間而變化。
訓練集(training set)
數據集的子集,用于訓練模型。與驗證集和測試集相對。
驗證集(validation set)
數據集的一個子集,從訓練集分離而來,用于調整超參數。與訓練集和測試集相對。
測試集(test set)
數據集的子集,用于在模型經過驗證集的初步驗證后,進行測試模型。與訓練集和驗證集相對。
主要術語(進階版1)
主要包括類別、分類模型、回歸模型、收斂、準確率、精確率、召回率、凸集、凸函數、凸優化、激活函數、反向傳播算法、批次、批次大小。
類別(class)
類別是標簽枚舉的一組目標值中的一個。比如:在二分類中,標簽組一共有兩個,分別為貓、狗;其中“貓”是一個類別;“狗”也是一個類別。
分類模型(classification model)
用于區分兩種或多種離散類別。
比如,在貓狗識別中,模型要區分這個輸入的圖像是“貓”,還是“狗”,這是一個典型的二分類模型。
在語言分類中,模型需要區分輸入的是中文、英語、法語、俄語,還是其他語言;這是一個多分類模型。
回歸模型(regression model)
用于預測輸出連續值,比如浮點值。
比如:在放假預測中,輸入一些與房價有關的數據,銷售日期、銷售價格、臥室數、浴室數、房屋面積、停車面積、房屋評分、建筑面積等等;通過模型來預測房子的價格,比如輸出56.78萬元。
收斂(convergence)
是指在訓練期間達到的一種狀態,模型達到穩定狀態,即經過一定次數的迭代之后,訓練損失和驗證損失在每次迭代中的變換都非常小或根本沒有變化。
準確率(accuracy)
通常用于分類模型,表示分類模型的正確預測所占的比例。在多分類中,定義:
?
acc是指準確率;n是指正確分類的個數;sum是指總樣本數。
比如:一共有100個數據樣本,模型正確預測出98個,有2個預測錯誤了,那么該模型的準確率為:acc = 98 / 100 = 0.98 ,即:98%
精確率(precision)
一種分類模型的指標,是指模型正確預測正類別的頻率,即:
?
pre是指精確率;TP(正例)是指實際為正,預測為正;FP(假正例)是指實際為負,預測為正。
精確率針對的是正類別,一共預測了若干個正類別(正例 + 假正例),其中有多少個是預測正確的。
準確率針對的是整體數據,包括正類別、負類別(正例 + 負類 +假正例 + 假負例),在整體數據中有多少是預測正確的。
召回率(recall)
一種分類模型指標,是指在所有可能的正類別標簽中,
凸集(convex set)
歐幾里得空間的一個子集,其中任意兩點之間的連線仍完成落在該子集內。
比如,下面的兩個圖像都是凸集:
?
相反,下面的兩個圖形都不是凸集:
?
凸函數(convex function)
函數圖像以上的區域為凸集,典型凸函數的形狀類似于字母U,以下是幾種凸函數:
?
相反,以下函數則不是凸函數,請注意圖像上方的區域不是凸集:
?
嚴格凸函數只有一個局部最低點,改點也是全局最低點。
常見的函數都是凸函數:
- L2損失函數
- 對數損失函數
- L1正則化
- L2正則化
梯度下降法的很多變體都一定能找到一個接近嚴格圖函數最小值的點。
隨機梯度下降法的很多變體都很高可能(并非一定能找到)接近嚴格凸函數最小值的點。
兩個凸函數的和也是凸函數,比如L2損失函數+L1正則化。
深度模型絕不會是凸函數。但專門針對凸優化設計的算法往往總能在深度網絡上找到非常好的解決方案,雖然這些解決方案并不一定對應全局最小值。
凸優化(convex optimization)
使用數學方法尋找凸函數最小值的過程。
機器學習方面的大量研究都是專注于如何通過公式將各種問題表示為凸優化問題,以及如何高效解決這些問題。
激活函數(activation function)
本質是一種函數,通常把輸入值映射為另一個值,映射的方式有:線性映射、非線性映射;
比如:在線性映射中,假設激活函數為??,即 y?= 2x,輸入值x, 映射后的輸出值y;當輸入值為3,經過激活函數映射后,輸出值為6。
在非線性映射中,假設激活函數為???,輸入值x, 映射后的輸出值y;輸入值為0時,經過激活函數映射后,輸出值為0.5。
其實這個非線性映射的激活函數是比較常見的Sigmoid函數,看看它的圖像:
?
反向傳播算法(backpropagation)
該算法會先按前向傳播方式計算(并緩存)每個節點的輸出值,然后再按反向傳播遍歷圖的方式計算損失函數值相對于每個參數的偏導數。
批次(batch)
模型訓練的一次迭代(一次梯度更新)中使用的樣本集。
批次大小(batch size)
一個批次中的樣本數。比如,在隨機梯度下降SGD算法中,批次大小為1;在梯度下降算法中,批次大小為整個訓練集;
批量梯度下降算中,批次大小可以自定義的,通常取值范圍是10到1000之間。比如:訓練集為40000個樣本,設置批次大小為32,訓練一次模型,使用到32個樣本。
深度學習主要術語
主要術語,包括偏差、推斷、線性回歸、權重、經驗風險最小化、均方誤差、平方損失函數、損失、梯度下降法、隨機梯度下降、批量梯度下降法、參數、超參數、學習率、特征工程、離散特征、獨熱編碼、表示法、特征組合、合成特征、
偏差(bias)
距離原點的截距或偏移。偏差(也稱為偏差項)在機器學習模型中用b或?表示。例如,在下面的公式中,偏差為b:?
推斷(inference)
在機器學習中,推斷通常指以下過程:通過將訓練過的模型應用于無標簽樣本來做出雨雪。在統計學中,推斷是指在某些觀察數據條件下擬合分布參數的過程。(請參閱維基百科中有關統計學推斷的文章。)
線性回歸(linear regression)
一種回歸模型,通過將輸入特征進行線性組合輸出連續值。
權重(weight)
模型中特征的系數,或深度網絡中的邊。訓練模型的目標是確定每個特征的理想權重。如果權重為0,則相應的特征對模型來說沒有任何影響。
經驗風險最小化(ERM,empirical risk minimization)
用于選擇函數,選擇基于訓練集的損失降至最低的函數。與結構風險最小化相對。
均方誤差(MSE,Mean Squared Error)
每個樣本的平均平方損失。MSE的計算方法是平方損失除以樣本數。
平方損失函數(squared loss)
在線性回歸中使用的損失函數(也稱為L2損失函數)。改行可計算模型為有標簽樣本預測的值,和標簽的真實值之差的平方。? ?由于取平方值,該損失函數會放大不佳預測的影響。與L1損失函數相對,平方損失函數對離群值的反應更強烈。
損失(Loss)
一種衡量指標,用于衡量模型的預測偏離其標簽程度。要確定此值,模型需要定義損失函數。例如:線性回歸模型參與均方誤差MAS損失函數,分類模型采用交叉熵損失函數。
梯度下降法(gradient descent)
一種通過計算梯度,并且將損失將至最低的技術,它以訓練數據位條件,來計算損失相對于模型參數的梯度。梯度下降法以迭代方式調整參數,逐漸找到權重和偏差的最佳組合,從而將損失降至最低。
隨機梯度下降(SGD)
梯度下降法在大數據集,會出現費時、價值不高等情況。如果我們可以通過更少的計算量得出正確的平均梯度,效果更好。通過從數據集中隨機選擇樣本,來估算出較大的平均值。
原理? 它每次迭代只使用一個樣本(批量大小為1)。
如果進行足夠的迭代,SGD也可以發揮作用,但過程會非常雜亂。“隨機”這一術語表示構成各個批量的一個樣本都是隨機選擇的。
批量梯度下降法(BGD)
它是介于全批量迭代與隨機選擇一個迭代的折中方案。全批量迭代(梯度下降法);隨機選擇一個迭代(隨機梯度下降)。
原理? 它從數據集隨機選取一部分樣本,形成小批量樣本,進行迭代。小批量通常包含10-1000個隨機選擇的樣本。BGD可以減少SGD中的雜亂樣本數量,但仍然波全批量更高效。
參數(parameter)
機器學習系統自行訓練的模型變量。例如,權重。它們的值是機器學習系統通過連續的訓練迭代逐漸學習到的;與超參數相對。
超參數(hyperparameter)
在模型訓練的連續過程中,需要人工指定和調整的;例如學習率;與參數相對。
學習率(learning rate)
在訓練模型時用于梯度下降的一個標量。在每次迭代期間,梯度下降法都會將學習速率與梯度相乘;得出的乘積稱為梯度步長。
特征工程(feature engineering)
是指確定哪些特征可能在訓練模型方面非常有用,然后將日志文件及其他來源的原始數據轉換為所需的特征。特征工程有時稱為特征提取。
離散特征(discrete feature)
一種特征,包含有限個可能值。例如,某個值只能是“動物”、或“蔬菜”的特征,這是都能將類別列舉出來的。與連續特征相對。
獨熱編碼(one-hot-encoding)
一種稀疏二元向量,其中:
- 一個元素設為1.
- 其他所有元素均設為0 。
獨熱編碼常用語表示擁有 有限個可能值的字符串或標識符。
表示法(representation)
將數據映射到實用特征的過程。
合成特征(synthetic feature)
一種特征,不在輸入特征之列,而是從一個或多個輸入特征衍生而來。合成特征包括以下類型:
- 對連續特征進行分桶,以分為多個區間分箱。
- 將一個特征值與其他特征值或本身相差(或相除)。
- 創建一個特征組合。
僅通過標準化或縮放創建的特征不屬于合成特征。
特征組合(feature cross)
通過將單獨的特征進行組合(求笛卡爾積),形成的合成特征。特征組合有助于表達非線性關系。
L1正則化(L1 regularization)
一種正則化,根據權重的絕對值的總和,來懲罰權重。在以來稀疏特征的模型中,L1正則化有助于使不相關或幾乎不相關的特征的權重正好為0,從而將這些特征從模型中移除。與L2正則化相對。
L2正則化(L2?regularization)
一種正則化,根據權重的平方和,來懲罰權重。L2正則化有助于使離群值(具有較大正值或較小負責)權重接近于0,但又不正好為0。在線性模型中,L2正則化始終可以進行泛化。
其余術語參考:深度學習的57個術語_huacha__的博客-CSDN博客
總結
以上是生活随笔為你收集整理的机器学习与深度学习基础概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源视频处理工具Shotcut的用法:
- 下一篇: 音视频处理、图像处理、图像识别和字符识别