2022/12/1 组会
文章目錄
- LDL-HR摘要
- 問題解決
- 符號系統
- LDL and Classification
- Learn the Highest label
- Learn the Rest Label Description Degrees
LDL-HR摘要
Learn the Highest Label and Rest Label Description Degrees
盡管標簽分布學習(LDL)在各種分類問題中得到了廣泛的應用,但它可能面臨目標不匹配的挑戰——LDL為了學習整個標簽分布而忽略了最優標簽,從而導致性能下降 ,為了提高分類性能并解決目標不匹配問題。耿老師提出了一種新的 LDL 算法,稱為 LDL-HR。 LDL-HR 提供了標簽分布的新視角,即最高標簽和其余標簽描述度的組合。 它的工作原理如下: 首先,通過擬合退化標簽分布和大邊距來學習最高標簽。 其次,學習其余標簽描述度來提高模型的泛化能力。 理論分析顯示了 LDL-HR 的泛化性。此外,在18個真實數據集上的實驗結果驗證了方法的統計優勢。
- 提出問題:不匹配問題,放棄了最優的標簽來學習標簽分布。可以這樣的理解,最優的標簽在標簽分布里面大于任意一個其他的標簽分布。
- LDL-HR提供了解決方法:第一步學習最優的標簽,然后再去學習其余的標簽來提高LDL的泛化能力。
- 值得注意的是,這次的實驗開展在18數據集上面,實驗還是比較充分。同時數據集名稱也換成新的名稱yeast-alpha變成alpha,此外human-gene 3w條數據變成17892條,其實從官網下載下來就是17892條,可能是耿老師官網統計出了點錯誤。數據集如下:
| 1 | Alpha | 2,465 | 24 | 18 |
| 2 | Cdc | 2,465 | 24 | 15 |
| 3 | Cold | 2,465 | 24 | 4 |
| 4 | Diau | 2,465 | 24 | 7 |
| 5 | Dtt | 2,465 | 24 | 4 |
| 6 | Elu | 2,465 | 24 | 14 |
| 7 | Heat | 2,465 | 24 | 6 |
| 8 | Spo | 2,465 | 24 | 6 |
| 9 | Spo5 | 2,465 | 24 | 3 |
| 10 | Spoem | 2,465 | 24 | 2 |
| 11 | Scene | 2,000 | 294 | 9 |
| 12 | Gene | 17,892 | 36 | 68 |
| 13 | Movie | 7,755 | 1,869 | 5 |
| 14 | SJAFFE | 213 | 243 | 6 |
| 15 | SBU_3DFE | 2,500 | 243 | 6 |
| 16 | M2B | 1,240 | 250 | 5 |
| 17 | SCUT-FBP | 1,500 | 300 | 5 |
| 18 | fbp5500 | 5,500 | 512 | 5 |
問題解決
雖然LDL在大量的分類應用中得以應用,但是存在一個問題:Objective mismatch。什么是目標匹配錯誤呢,我們可以從這副圖中理解到這個問題。
- Objective mismatch: 對于 (a),學習的 LDL 函數具有較小的 L1L_{1}L1?-norm 損失,而預測最優標簽 (y2)\left(y_{2}\right)(y2?) 與真實最優標簽 (y1)\left(y_{1 }\right)(y1?)不同。 然而,對于 (b)(b)(b),預測的 LDL 函數具有較大的 L1L_{1}L1?-norm loss,但預測的標簽 (y2)\left(y_{2}\right)(y2?) 等于最優的 (y2)\left(y_ {2}\right)(y2?)。
- 0/1 loss:對于一個二分類問題,現在假設數據標注 yi∈{?1,+1}y_{i} \in\{-1,+1\}yi?∈{?1,+1} 。最在乎的自然是模型最終的Accuracy,那么能否直接基于Accuracy作為損失函數呢? 考慮如下 0?10-10?1 損失函數:
?(yi,f(x?i))={0if?yif(x?i)>01if?yif(x?i)≤0(1)\begin{aligned} \ell\left(y_{i}, f\left(\vec{x}_{i}\right)\right) &= \begin{cases}0 & \text { if } y_{i} f\left(\vec{x}_{i}\right)>0 \\ 1 & \text { if } y_{i} f\left(\vec{x}_{i}\right) \leq 0\end{cases} \end{aligned}\tag1 ?(yi?,f(xi?))?={01??if?yi?f(xi?)>0?if?yi?f(xi?)≤0??(1)
該損失函數意味著,當 yiy_{i}yi? 與 f(x?i)f\left(\vec{x}_{i}\right)f(xi?) 同號時,視模型預測正確,損失為 0 ;否則,視模型預測錯誤,損失為 1 。
符號系統
X?Rq\mathcal{X} \subset \mathbb{R}^{q}X?Rq 代表輸入空間, Y={y1,?,ym}\mathcal{Y}=\left\{y_{1}, \cdots, y_{m}\right\}Y={y1?,?,ym?}代表標簽空間。每個 x∈X\boldsymbol{x} \in \mathcal{X}x∈X 具有一個標簽分布 D=[dxy1,?,dxym]?D=\left[d_{\boldsymbol{x}}^{y_{1}}, \cdots, d_{\boldsymbol{x}}^{y_{m}}\right]^{\top}D=[dxy1??,?,dxym??]?, 其中 dxyjd_{\boldsymbol{x}}^{y_{j}}dxyj?? 為一個標簽的描述度,同時dxyj≥0d_{\boldsymbol{x}}^{y_{j}} \geq 0dxyj??≥0 , ∑j=1mdxyj=1\sum_{j=1}^{m} d_{\boldsymbol{x}}^{y_{j}}=1∑j=1m?dxyj??=1。對于訓練集有 nnn 個實例, S=S=S= {(x1,D1),(x2,D2),?,(xn,Dn)}\left\{\left(\boldsymbol{x}_{1}, D_{1}\right),\left(\boldsymbol{x}_{2}, D_{2}\right), \cdots,\left(\boldsymbol{x}_{n}, D_{n}\right)\right\}{(x1?,D1?),(x2?,D2?),?,(xn?,Dn?)},LDL的目標是輸出一個多輸出函數 p:X→Rmp: \mathcal{X} \rightarrow \mathbb{R}^{m}p:X→Rm 。
Let ∥?∥2\|\cdot\|_{2}∥?∥2? 和 ∥?∥F\|\cdot\|_{\mathrm{F}}∥?∥F? 分別代表 the L2L_{2}L2?-norm 和 Frobenius norm, [m][m][m] 為集合 {1,?,m}\{1, \cdots, m\}{1,?,m}。 sign?(?)\operatorname{sign}(\cdot)sign(?) 為符號函數 , D\mathcal{D}D 為未知的分布在 X\mathcal{X}X上的。
yx=arg?max?yˉ∈Ydxyˉ(1)y_{\boldsymbol{x}}=\arg \max _{\bar{y} \in \mathcal{Y}} d_{\boldsymbol{x}}^{\bar{y}}\tag1 yx?=argyˉ?∈Ymax?dxyˉ??(1)
具有最優標簽描述度的最高標簽。 令 y∈Yy \in \mathcal{Y}y∈Y 為隨機標簽變量, 假設標簽分布函數是條件概率分布函數, i.e., dxyj=P(y=yj∣x)d_{\boldsymbol{x}}^{y_{j}}=\mathbb{P}\left(y=y_{j} \mid \boldsymbol{x}\right)dxyj??=P(y=yj?∣x)。 L1?L_{1}^{*}L1?? 為貝葉斯誤差。
- 貝葉斯誤差(Bayes error):從預先知道的真實分布 p(x,y) 預測而出現的誤差。在統計學中,是指針對任意分類器隨機輸出的最低可能誤差。
理想模型假設我們能夠預先知道生成數據(訓練集和測試集數據通過數據集上被稱為數據生成過程(data generating process)的概率分布生成)的真實概率分布。然而這樣的模型仍然會在很多問題上發生一些錯誤,因為分布中仍然會有一些噪聲。在監督學習中,從x 到 y 的映射可能內在是隨機的,或者 y 可能是其他變量(包括 x 在內)的確定性函數。
既然已經預先知道分布了,那么為什么還有誤差呢?
分布是真實的,但預測的輸出只能是一個值,所以會有誤差。例如,假設真實世界中90%長頭發的人為女性,10%為男性(這是已知的真實分布);此時已知一個人頭發長,預測該同學性別。由于只能預測男/女。此時即使你知道真實分布,預測為女,也會有10%的誤差。這就是貝葉斯誤差。
LDL and Classification
用 LDL 進行的分類可以表述如下: 首先,通過從訓練集 SSS 學習 LDL 函數 hhh
min?W∑i?(Di,h(xi;W)),(2)\min _{\boldsymbol{W}} \sum_{i} \ell\left(D_{i}, h\left(\boldsymbol{x}_{i} ; \boldsymbol{W}\right)\right) ,\tag2 Wmin?i∑??(Di?,h(xi?;W)),(2)
其中WWW是參數,?\ell?是損失函數。 隨后,定義一個分類器
f(x)=arg?max?yˉ∈Yhxyˉ(3)f(\boldsymbol{x})=\arg \max _{\bar{y} \in \mathcal{Y}} h_{\boldsymbol{x}}^{\bar{y}}\tag3 f(x)=argyˉ?∈Ymax?hxyˉ??(3)
其中hxyˉh_{\boldsymbol{x}}^{\bar{y}}hxyˉ??是yˉ\bar{y}yˉ?對于x\boldsymbol{x}x的預測標簽描述度,即將預測標簽描述度最高hhh的標簽視為預測標簽。 LDL-HR 的目標是最小化誤差 P(f(x)≠y)\mathbb{P}(f(\boldsymbol{x}) \neq y)P(f(x)?=y)。
Learn the Highest label
首先,耿老師通過學習最高標簽來解決目標不匹配問題。
在第 1 節所討論的,LDL 在用于分類問題時面臨客觀不匹配的挑戰。為了緩解這種情況,耿老師通過學習退化的標簽分布和大邊距來學習最高標簽。
首先,耿老師定義退化的標??簽分布。具體來說,對于每個 x\boldsymbol{x}x,定義 Dˉ=[dˉxy1,dˉxy2,?,dˉxym]?\bar{D}=\left[\barze8trgl8bvbq_{\boldsymbol{x}}^{y_{1}}, \barze8trgl8bvbq_{\boldsymbol{x}}^{y_{2}}, \cdots, \barze8trgl8bvbq_{\boldsymbol{x}}^{y_{m}}\right]^{\top}Dˉ=[dˉxy1??,dˉxy2??,?,dˉxym??]?, 其中dˉxyj\barze8trgl8bvbq_{\boldsymbol{x}}^{y_{j}}dˉxyj?? 被如下定義:
dˉxyj={1if?yj=yx0otherwise.?(4)\barze8trgl8bvbq_{\boldsymbol{x}}^{y_{j}}= \begin{cases}1 & \text { if } y_{j}=y_{\boldsymbol{x}} \\ 0 & \text { otherwise. }\end{cases}\tag4 dˉxyj??={10??if?yj?=yx??otherwise.??(4)
也就是說,將度數 1 分配給最高標簽,將 000 分配給其他標簽。在學習退化標簽分布時,LDL模型將主要關注最高標簽,因為最高標簽的標簽描述程度優于其他標簽。因此,退化的標簽分布有助于緩解目標不匹配。下圖顯示了學習真實值和退化標簽分布的示例:
其中紅色條是真實值和退化分布,藍色條是學習分布。從該圖中,我們可以看到 (a) 和 (b) 的學習 LDL 函數都實現了 L1L_{1}L1?-norm loss 0.20.20.2,并且 (b) 的預測標簽 (y1)\left(y_{1}\right)(y1?) 等于最優標簽 (y1)\left(y_{1}\right)(y1?) 而 (a) (y2)\left(y_{2}\right)(y2?) 的預測標簽不同,這顯示了學習退化標簽分布的優勢。
此外,學習退化的標簽分布也有理論保證,耿老師的第一個定理證明如下:
-
期待0/10 / 10/1 loss of fff 滿足下面的邊界:
P(f(x)≠y)?L1?≤Ex~D[∑yˉ∣hxyˉ?dˉxyˉ∣].(5)\mathbb{P}(f(\boldsymbol{x}) \neq y)-L_{1}^{*} \leq \mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}\left[\sum_{\bar{y}}\left|h_{\boldsymbol{x}}^{\bar{y}}-\barze8trgl8bvbq_{\boldsymbol{x}}^{\bar{y}}\right|\right] .\tag5 P(f(x)?=y)?L1??≤Ex~D?[yˉ?∑?∣∣?hxyˉ???dˉxyˉ??∣∣?].(5)
定理 1 表示,如果學習的 LDL 函數的輸出接近 L1L_{1}L1?-范數距離意義上的退化標簽分布,則分類器的預期 0/10 / 10/1 損失將接近貝葉斯誤差。 也就是說,要學習一個損失較小的 0/10 / 10/1 分類器,只需最小化 LDL 函數學習到的分布和退化分布之間的 L1L_{1}L1?-norm 距離即可。 -
根據定理 1,使用 L1L_{1}L1?-norm loss 來學習退化的標簽分布。采用由下式定義的最大熵模型
hxyl=exp?(wl?x)∑j=1mexp?(wj?x),for?l∈[m].(6)h_{\boldsymbol{x}}^{y_{l}}=\frac{\exp \left(\boldsymbol{w}_{l} \cdot \boldsymbol{x}\right)}{\sum_{j=1}^{m} \exp \left(\boldsymbol{w}_{j} \cdot \boldsymbol{x}\right)}, \text { for } l \in[m] .\tag6 hxyl??=∑j=1m?exp(wj??x)exp(wl??x)?,?for?l∈[m].(6) -
則 LDL 可轉換為如下優化問題
min?W∑i,j∣hxiyj?dˉxiyj∣+λ12∥W∥F2,(7)\min _{\boldsymbol{W}} \sum_{i, j}\left|h_{\boldsymbol{x}_{i}}^{y_{j}}-\barze8trgl8bvbq_{\boldsymbol{x}_{i}}^{y_{j}}\right|+\frac{\lambda_{1}}{2}\|\boldsymbol{W}\|_{\mathrm{F}}^{2},\tag7 Wmin?i,j∑?∣∣?hxi?yj???dˉxi?yj??∣∣?+2λ1??∥W∥F2?,(7)
其中 W=[w1,?,wm]\boldsymbol{W}=\left[\boldsymbol{w}_{1}, \cdots, \boldsymbol{w}_{m}\right]W=[w1?,?,wm?] 是模型參數, λ1\lambda_{1}λ1? 是正則化參數。
接下來,借用大邊距理論來進一步提高分類性能。 耿老師的基本思想是鼓勵最高標簽的預測標簽描述度比其他標簽大一個邊距ρ>0\rho>0ρ>0。 因此,預測的標簽將與最高的標簽一致,這減輕了目標不匹配。使得最高的標簽 yxi=arg?max?yˉdxiyˉy_{\boldsymbol{x}_{i}}=\arg \max _{\bar{y}} d_{\boldsymbol{x}_{i}}^{\bar{y}}yxi??=argmaxyˉ??dxi?yˉ??,同時增加最大邊界在 Eq. (7)中, 則優化目標為:
min?W,ξ∑i,j∣hxiyj?dˉxiyj∣+λ2∑i,j:yj≠yxiξi,jρ+λ12∥W∥F2s.t.?hxiyxi?hxiyj≥ρ?ξi,jξi,j≥0,?i∈[n],?j∈{l∣l∈[m],yl≠yxi}(8)\begin{aligned} \min _{\boldsymbol{W}, \boldsymbol{\xi}} & \sum_{i,j}\left|h_{\boldsymbol{x}_{i}}^{y_{j}}-\barze8trgl8bvbq_{\boldsymbol{x}_{i}}^{y_{j}}\right|+\lambda_{2} \sum_{i,j: y_{j} \neq y_{\boldsymbol{x}_{i}}} \frac{\xi_{i, j}}{\rho} \\ &+\frac{\lambda_{1}}{2}\|\boldsymbol{W}\|_{\mathrm{F}}^{2} \\ \text { s.t. } \quad & h_{\boldsymbol{x}_{i}}^{y_{\boldsymbol{x}_{i}}}-h_{\boldsymbol{x}_{i}}^{y_{j}} \geq \rho-\xi_{i, j} \\ \quad & \xi_{i, j} \geq 0, \forall i \in[n], \forall j \in\left\{l \mid l \in[m], y_{l} \neq y_{\boldsymbol{x}_{i}}\right\}\tag8 \end{aligned} W,ξmin??s.t.??i,j∑?∣∣?hxi?yj???dˉxi?yj??∣∣?+λ2?i,j:yj??=yxi??∑?ρξi,j??+2λ1??∥W∥F2?hxi?yxi????hxi?yj??≥ρ?ξi,j?ξi,j?≥0,?i∈[n],?j∈{l∣l∈[m],yl??=yxi??}?(8)
其中 ξi,j\xi_{i, j}ξi,j? 為松弛變量, λ2\lambda_{2}λ2? 是trade-off parameter. 約束促使yxiy_{\boldsymbol{x}_{i}}yxi?? 的預測標簽描述度比其他標簽的大通過ρ\rhoρ。
Learn the Rest Label Description Degrees
這個章節描述了剩下的標簽分布怎么學習,前面的部分已經講了學習最優的標簽。
觀察Eq(8)只學習了最高的標簽而忽略了其余的標簽描述度(即除了最高標簽之外的所有標簽的標簽描述度),這丟失了很多監督信息。ground-truth 標簽分布比退化的標簽分布具有更多的監督信息,特別是對于除最高標簽之外的標簽。事實上,其余標簽描述度對于 LDL 的泛化性是必要的。具體來說,令 f′f^{\prime}f′ 為由下式定義的次優分類器:
f′(x)=max?yˉ∈Y\{yx}dxyˉ,(9)f^{\prime}(\boldsymbol{x})=\underset{\bar{y} \in \mathcal{Y} \backslash\left\{y_{\boldsymbol{x}}\right\}}{ \max } d_{\boldsymbol{x}}^{\bar{y}},\tag9 f′(x)=yˉ?∈Y\{yx?}max?dxyˉ??,(9)
它輸出其余標簽描述度中最高的標簽(標簽描述度第二高的標簽)。通過 L2?=L_{2}^{*}=L2??= P(f′(x)≠y)\mathbb{P}\left(f^{\prime}(\boldsymbol{x}) \neq y\right)P(f′(x)?=y) 定義 f′f^{\prime}f′ 的預期 0/1 損失。下一個定理顯示了 LDL 的泛化也就是學習其余標簽描述度。
該理論定義:令 hhh 為學習的 LDL 函數,fff 為Eq(3)中定義的分類器。然后,fff 的預期 0/1 損失滿足以下界限:
P(f(x)≠y)≤L2?+Ex~D[∑yˉ≠yx∣dxyˉ?hxyˉ∣]\mathbb{P}(f(\boldsymbol{x}) \neq y) \leq L_{2}^{*}+\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}\left[\sum_{\bar{y} \neq y_{\boldsymbol{x}}}\left|d_{\boldsymbol{x}}^{\bar{y}}-h_{\boldsymbol{x}}^{\bar{y}}\right|\right] P(f(x)?=y)≤L2??+Ex~D????yˉ??=yx?∑?∣∣?dxyˉ???hxyˉ??∣∣????
上述定理表示分類器的預期 0/10 / 10/1 損失可以由兩項之和限制。第一個是次優分類器的預期 0/1 損失,第二個是學習的 LDL 函數的輸出與其余標簽描述度之間的預期 L1L_{1}L1?-norm 距離。換句話說,即使分類器的預期 0/10 / 10/1 損失沒有達到貝葉斯錯誤,只要學習的 LDL 函數的輸出接近于L1L_{1}L1?-norm 距離意義上的其余標簽描述度數。通過定理 2,耿老師使用 L1L_{1}L1?-norm 損失學習其余標簽描述度以利用泛化,并重新轉換 Eq (8) 如下:
min?W,ξ∑i=1n∑j=1m∣hxiyj?dˉxiyj∣+λ2∑i=1n∑j:yj≠yxiξi,jρ+λ12∥W∥F2+λ3∑i=1n∑j:yj≠yxi∣hxiyj?dxiyj∣s.t.?hxiyxi?hxiyj≥ρ?ξi,jξi,j≥0,?i∈[n],?j∈{l∣l∈[m],yl≠yxi}\begin{aligned} \min _{\boldsymbol{W}, \boldsymbol{\xi}} & \sum_{i=1}^{n} \sum_{j=1}^{m}\left|h_{\boldsymbol{x}_{i}}^{y_{j}}-\barze8trgl8bvbq_{\boldsymbol{x}_{i}}^{y_{j}}\right|+\lambda_{2} \sum_{i=1}^{n} \sum_{j: y_{j} \neq y_{\boldsymbol{x}_{i}}} \frac{\xi_{i, j}}{\rho} \\ &+\frac{\lambda_{1}}{2}\|\boldsymbol{W}\|_{\mathrm{F}}^{2}+\lambda_{3} \sum_{i=1}^{n} \sum_{j: y_{j} \neq y_{\boldsymbol{x}_{i}}}\left|h_{\boldsymbol{x}_{i}}^{y_{j}}-d_{\boldsymbol{x}_{i}}^{y_{j}}\right| \\ \text { s.t. } \quad & h_{\boldsymbol{x}_{i}}^{y_{\boldsymbol{x}_{i}}}-h_{\boldsymbol{x}_{i}}^{y_{j}} \geq \rho-\xi_{i, j} \\ \quad & \xi_{i, j} \geq 0, \forall i \in[n], \forall j \in\left\{l \mid l \in[m], y_{l} \neq y_{\boldsymbol{x}_{i}}\right\} \end{aligned} W,ξmin??s.t.??i=1∑n?j=1∑m?∣∣?hxi?yj???dˉxi?yj??∣∣?+λ2?i=1∑n?j:yj??=yxi??∑?ρξi,j??+2λ1??∥W∥F2?+λ3?i=1∑n?j:yj??=yxi??∑?∣∣?hxi?yj???dxi?yj??∣∣?hxi?yxi????hxi?yj??≥ρ?ξi,j?ξi,j?≥0,?i∈[n],?j∈{l∣l∈[m],yl??=yxi??}?
其中λ3\lambda_3λ3?是 trade-off parameter,最后一項學習的剩下的標簽分布。
總結
以上是生活随笔為你收集整理的2022/12/1 组会的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NAS存储中如何启用多媒体服务器?
- 下一篇: Frank Luna DirectX12