當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

机器学习与高维信息检索 - Note 2 - 统计决策和机器学习

發布時間：2023/11/27 生活经验 33 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习与高维信息检索 - Note 2 - 统计决策和机器学习小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2. 統計決策和機器學習

統計決策和機器學習

2. 統計決策和機器學習
- - - 定理2.2
- 2.1 監督決策的一般設置和泛化誤差
- 2.2 k近鄰
- 2.3 維度詛咒

基本問題是，對于隨機變量 $X∈RpX\in \mathbb{R}^{p}$ 中的某些觀測，我們想獲得隨機變量 $Y$ 的 "最可能 "值。為簡單起見，我們假設 $Y$ 在 $R\mathbb{R}$ 中的實現。我們進一步假設得到的聯合概率密度 $p_{X, Y}(x, y)$ 已經給出。

例2.1
$X$ 是一個人的（矢量）圖像。在下面的圖2.1中，這個觀測表示了一張只包含一個像素的圖片，它的灰色程度各不相同。

$\begin{cases}1: & X \text { is picture of person } \mathrm{A} \\ 0: & X \text { is not }\end{cases}$

其目的是預測給定 $X$ 的 $Y$ 。如果有個叫 $A\mathrm{A}$ 的人，他主要穿著深色衣服

圖2.1: 兩個離散隨機變量 $X$ 和 $Y$ 的聯合概率分布

有理由認為，事件的各自概率表現為： $p_{42}>p_{32}>p_{22}>p_{12}$ 和 $p_{11}>p_{21}>p_{31}>p_{41}$ .

為了確定 "最可能 "的含義，我們考慮平方損失函數 ${ }^{1}$

${ }^{1}$ 注意，其他損失函數也是可能的，而且也確實有意義，選擇平方距離只是出于方便的原因。

$f(X))=(Y-f(X))^{2} .\tag{2.1}$

我們要選擇 $f$ ，使損失函數的預期值，即所謂的預期預測誤差
$EPE?(f)=E[L(Y,f(X))]\operatorname{EPE}(f)=\mathbb{E}[L(Y, f(X))]$
是最小的。使用第1.2小節中描述的工具進行簡單計算，可以得到

$EPE?(f)=E[L(Y,f(X))]=E[(Y?f(X))2]=∫Rp×R(y?f(x))2pX,Y(x,y)dxdy=∫Rp∫R(y?f(x))2pY∣X=x(y)dy?=:EY∣X=x[(Y?f(X))2]pX(x)dx=EXEY∣X=x[(Y?f(X))2]\begin{aligned} \operatorname{EPE}(f) &=\mathbb{E}[L(Y, f(X))]=\mathbb{E}\left[(Y-f(X))^{2}\right]\\&=\int_{\mathbb{R}^{p} \times \mathbb{R}}(y-f(x))^{2} p_{X, Y}(x, y) \mathrmze8trgl8bvbq x \mathrm{~d} y\\ &=\int_{\mathbb{R}^{p}} \underbrace{\int_{\mathbb{R}}(y-f(x))^{2} p_{Y \mid X=x}(y) \mathrmze8trgl8bvbq y}_{=: \mathbb{E}_{Y \mid X=x}\left[(Y-f(X))^{2}\right]}{p_{X}}(x) \mathrmze8trgl8bvbq x \\ &=\mathbb{E}_{X} \mathbb{E}_{Y \mid X=x}\left[(Y-f(X))^{2}\right] \end{aligned}$
因此 $f(X)=argmin?cEY∣X=x[(Y?c)2]f(X)=\underset{c}{arg\min }\mathbb{E}_{Y \mid X=x}\left[(Y-c)^{2}\right]$ 。由于 $E[?]\mathbb{E}[\cdot]$ 的線性，這可簡化為

$f(X)=arg?min?c(EY∣X=x[Y2]?2cEY∣X=x[Y]+c2).(2.2)f(X)=\underset{c}{\arg \min }\left(\mathbb{E}_{Y \mid X=x}\left[Y^{2}\right]-2 c \mathbb{E}_{Y \mid X=x}[Y]+c^{2}\right) . \tag{2.2}$

二次方項很容易被最小化，最優值為
$f(X)=EY∣X=x[Y].(2.3)f(X)=\mathbb{E}_{Y \mid X=x}[Y] . \tag{2.3}$

定理2.2

在給定 $X$ 的情況下，如果最佳預測是以損失的平方來衡量的，對 $Y$ 的最佳預測是條件平均數。

如上所述，條件平均數作為最佳預測依賴于我們使用平方損失作為質量測量的事實。我們可以證明，如果我們采用絕對值 $∣ Y ? f (X) ∣$ 作為損失函數–所謂的 $?1\ell_{1}$ 損失，最佳預測是條件中值。雖然這個聲明的嚴格證明超出了本講義的范圍，但我們可以很容易地看到，中位數是經驗 $?1\ell_{1}$ 損失最小化的最佳值

$arg?min?c1n∑i∣yi?c∣.(2.4?)\underset{c}{\arg \min } \frac{1}{n} \sum_{i}\left|y_{i}-c\right| . \tag{2.4 }$

我們只需要一個非光滑凸優化的結果，即對于有子梯度的凸函數，當且僅當 $c^{*}$ 處的子梯度包含0時，才能實現 $c^{*}$ 的最小值。在我們的例子中，經驗 $?1\ell_{1}$ 損失相對于 $c$ 的子梯度是 $1n∑isign?(yi?c)\frac{1}{n} \sum_{i} \operatorname{sign}\left(y_{i}-c\right)$ 對于 $\neq y_{i}$ 與 ${1n∑i≠jsign?(yi?c)+t∣?1≤t≤1}\left\{\frac{1}{n} \sum_{i \neq j} \operatorname{sign}\left(y_{i}-c\right)+t \mid-1 \leq t \leq 1\right\}$ 對于 $c=y_{j}$ 。因此，我們看到，只有當小于 $c$ 的 $y_{i}$ 的數量與大于c的 $y_{i}$ 的數量相同時， $c$ 處的子梯度才包含零。在奇數 $n$ 的情況下， $c$ 必須與 $y_{i}$ 的 $(n + 1) / 2$ 的最大值相吻合。這正是中位數的定義。

2.1 監督決策的一般設置和泛化誤差

讓我們從一個更高層次的角度來恢復上述章節的內容。我們引入了一個損失函數，基于訓練樣本 $(xi,yi),i=1,…,N\left(x_{i}, y_{i}\right), i=1, \ldots, N$ ，可以從一個給定的函數類 $F\mathcal{F}$ 中學習最佳預測函數 $f$ 。這種方法被稱為監督學習方法，因為它們需要一個訓練集，其中每個樣本 $x_{i}$ 都有一個相應的 $y_{i}$ 。一般的問題陳述是:

讓 $Y)\in \mathbb{R}^{p}$ 中的隨機變量，讓 $F\mathcal{F}$ 是來自 $Rp?R\mathbb{R}^{p}\Rightarrow\mathbb{R}$ 中的一類函數。這些函數可以被有限的參數化，例如 $Θ∈RM\Theta \in \mathbb{R}^{M}$ 。此外，讓 $\mathbb{R} \times \mathbb{R} \rightarrow \mathbb{R}_{0}^{+}$ 是一個損失函數，用來衡量 $Y$ 和 $f (X)$ 的偏差。監督下的預測方法的目的是在 $f^∈F\hat{f} \in \mathcal{F}$ 中找到最小的預期預測誤差 $E[L(Y,f(X)]\mathbb{E}[L(Y, f(X)]$ 。

事實上，為了建立一個有監督的機器學習方法，我們需要弄清楚三個問題。

我們必須指定損失函數 $L$ 。
我們必須指定函數類別 $F\mathcal{F}$ 。
由于在實踐中，我們不知道 $(X, Y)$ 的聯合分布，我們需要訓練樣本 $(xi,yi),i=1,…,N\left(x_{i}, y_{i}\right), i=1, \ldots, N$ 來接近預期預測誤差。

所以我們就得到了一個優化問題

$f^=arg?min?f∈F1N∑i=1NL(yi,f(xi))(2.5)\hat{f}=\underset{f \in \mathcal{F}}{\arg \min } \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \tag{2.5}$

這些優化問題或多或少都很難解決，但原則上，它們可以以上述形式送入優化工具箱。

例子：線性回歸
對于線性回歸，我們選擇 $L$ 為二次損失，即 $L(Y, f(X))=(Y-f(X))^{2}$ ，我們選擇 $F\mathcal{F}$ 為仿射函數

$f(x)=θ0+∑k=1pθkx(k),(2.6)f(x)=\theta_{0}+\sum_{k=1}^{p} \theta_{k} x^{(k)}, \tag{2.6}$

其中 $x^{(k)}$ 是向量 $x$ 的條目。考慮到 $N$ 的訓練樣本，那么優化問題就是

$Θ^=arg?min?θ0,…,θp1N∑i=1N(yi?θ0?∑k=1pθkxi(k))2.(2.7)\hat{\Theta}=\underset{\theta_{0}, \ldots, \theta_{p}}{\arg \min } \frac{1}{N} \sum_{i=1}^{N}\left(y_{i}-\theta_{0}-\sum_{k=1}^{p} \theta_{k} x_{i}^{(k)}\right)^{2} . \tag{2.7}$

定義：
對于一個給定的函數 $f$ ，經驗損失和預期損失之間的差異

$GN(f)=E[L(Y,f(X)]?1N∑i=1NL(yi,f(xi)).(2.8)G_{N}(f)=\mathbb{E}\left[L(Y, f(X)\right]-\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right). \tag{2.8}$

被稱為 $f$ 的泛化誤差。

根據大數定律，我們知道 $G_{N}$ 在 $N$ 趨于無窮大時趨于0。然而，很多時候訓練樣本的數量是有限的，此外，收斂的速度高度依賴于 $(X, Y)$ 的（未知）概率分布。因此，機器學習的一個目標是以高概率來約束泛化誤差。

在實踐中，我們使用交叉驗證(交叉熵 )來檢查 $f$ 與數據的匹配程度。

2.2 k近鄰

在實踐中，我們面臨的問題是我們不知道 $X$ 和 $Y$ 的聯合分布，因此我們必須估計公式（2.3）中的條件平均值。通常情況下，這將通過給定特定實現 $X$ 的 $Y$ 的相對頻率來完成。然而，在連續的情況下，問題出現了，即使在許多觀測值 $(xi,yi)\left(x_{i}, y_{i}\right)$ 中，也可能沒有 $x_{i}=x$ 。這個問題可以通過擴大 $x$ 周圍的區域并考慮所有 $x_{i}$ 接近期望的 $x$ 的觀測來解決。這就引出了 $k$ 近鄰的概念。

圖2.2: 給出事件 $(1, 1), (2, 5), (3, 3), (4, 1), (5, 4)$ 的二元分布 $(X, Y)$ 。雖然 $EY∣X=4[Y]=5\mathbb{E}_{Y\mid X=4}[Y]=5$ ，對3個近鄰的平均化提供了 $f^k=3（4）=（2+3+5）/3=10/3\hat{f}_{k=3}（4）=（2+3+5）/3=10/3$ 。

$k$ 近鄰的方法是通過以下方式估計 $f$ ：

$f^k(x)=average?(yi∣xi∈Nk(x)),?(2.9)\hat{f}_{k}(x)=\text { average }\left(y_{i} \mid x_{i} \in N_{k}(x)\right) \text {, } \tag{2.9}$

其中 $N_{k}(x)$ 表示 $x$ 的 $k$ 近鄰的集合。這里有兩個近似值。

預期是通過平均數來近似的。
在一個點上的條件被某些區域（在該點周圍）的條件所近似。

如果 $N$ 是觀察值的數量，那么要注意以下幾點。如果 $N$ 增加， $x_{i}$ 就會接近 $x$ 。此外，如果 $k$ 增加，平均數會趨向于期望值。更確切地說，在聯合概率測量的溫和條件下，我們有

$lim?N,k→∞,kN→0f^(x)=EY∣X=x[Y].(2.10)\lim _{N, k \rightarrow \infty, \frac{k}{N} \rightarrow 0} \hat{f}(x)=\mathbb{E}_{Y \mid X=x}[Y] . \tag{2.10}$

然而，樣本量 $N$ 通常是有限的，因此樣本量是不足夠滿足條件的。

有兩種方法可以克服這個問題。

對 $f$ 施加模型假設，例如， $\approx x^{\mathrm{T}} β$ 得到線性回歸。
通過 "降低" $X$ 的維度。這就導致了降維的動機。

找到 $f:[x1?xp]?[s1?sk]f:\left[\begin{array}{c}x_{1} \\ \vdots \\ x_{p} \end{array}\right] \mapsto \left[\begin{array}{c} s_{1}\\ \vdots \\ s_{k} \end{array}\right]$ ，使 $f$ 保持觀測的 "內在 "距離。

2.3 維度詛咒

讓 $X∈RpX\in \mathbb{R}^{p}$ 為隨機變量。有幾件事需要觀察。

首先， $X$ 的絕對噪聲隨著特征的數量（即隨著 $p$ ）增加，因為噪聲在所有維度上都會累積。

第二，估計 $X$ 的密度函數所需的觀測值數量隨著維度 $p$ 的增加而急劇增加。密度函數通常是借助于一個發生率的相對頻率來估計的。作為一個例子，假設在一個一維空間中的 $N$ 觀測值需要估計某個密度函數，達到預定的精度。如果觀察空間增加到2維，觀察的數量必須增加到 $N^{2}$ 的數量才能保持同樣的精度。對于3維空間，大約需要 $N^{3}$ 的觀測，以此類推。這意味著，為了使密度函數的估計具有相同的精度，所需的測量數量隨測量空間的維度呈指數增長。

維度詛咒的一個原因是空空間現象（Scott），它指出高維空間本質上是稀疏的。鑒于數據點均勻地分布在10維單位球體中，一個點離中心的距離超過0.9的概率小于35%。因此，高維分布中的尾部要比一維分布中的尾部重要得多。給定一個高維多變量隨機變量，有一個成分位于其分布的尾部，就足以使整個樣本位于共同密度函數的尾部。圖2.3說明了一維的情況。

圖2.3：對于一維隨機變量，大多數觀測值都在平均值附近。更高維度的情況則不然。

總結

以上是生活随笔為你收集整理的机器学习与高维信息检索 - Note 2 - 统计决策和机器学习的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器学习与高维信息检索 - Note 1
下一篇：机器学习与高维信息检索 - Note 3