从三角不等式到Margin Softmax
?PaperWeekly 原創 ·?作者?|?蘇劍林
單位?|?追一科技
研究方向?|?NLP、神經網絡
在《基于 GRU 和 am-softmax 的句子相似度模型分類與排序的不等價性”,但沒有比較定量地解釋這種不等價性的來源。
在這篇文章里,我們來重提這個話題,從距離的三角不等式的角度來推導和理解 margin 的必要性。
三角不等式
平時,我們說的距離一般指比較直觀的“歐氏距離”,但在數學上距離,距離又叫“度量”,它有公理化的定義,是指定義在某個集合上的二元函數 ,滿足:
1. 非負性:;
2. 同一性:;
3. 對稱性:;
4. 三角不等式:。
顧名思義,距離是用來度量 之間的差異程度的。理論上來說,只要滿足前兩點要求,就可以用來度量差異了,比如概率里邊常用的 KL 散度,就僅僅滿足前兩點。第 3、4 點的加入,本質上來說是為了使得這樣定義出來的距離與我們常見的歐氏距離更加接近,比如對稱性是“距離沒有方向”的體現,而三角不等式是“兩點之間直線最短”的體現,這些類似有利于我們通過歐氏距離的類比來思考更一般的距離。
從這個定義來看,深度學習其實比較少碰到符合上述 4 點要求的距離,比如通常的分類是直接用內積加 softmax,而內積只滿足第三點;余弦距離 也只滿足前 3 點,不滿足第 4 點。不過,某些函數我們可以微調一下定義,使得它成為一個距離,比如我們知道歐氏距離是滿足三角不等式的,所以
必然也滿足三角不等式。所以,余弦距離 是不滿足三角不等式的,但是改為 就滿足了。
分類與排序
像人臉識別或者句子相似度等場景,在預測階段我們是拿特征去排序的,我們自然希望隨便拿一個樣本,就能夠檢索出所有同類樣本,這就要求“類內差距小于類間差距”;但是,如果我們將其作為分類任務訓練的話,則未必能達到這個目的,因為分類任務的目標是“最靠近所屬類的中心”。具體例子可以參考下圖:
▲ 一種可能的分類結果,其中紅色點代表類別中心,其他點代表樣本
在該圖中, 屬于類 , 輸于類 ,從分類角度來看 ?€�,因此分類都是正確的,但是 ,所以用 去檢索的話,找到的是不同類的 ,而不是同類的 。
我們可以通過三角不等式更加定量地描述這種不等關系:我們希望達到 ,根據三角不等式有 ,所以一個充分的條件是
兩端加上 ,并利用三角不等式 ,我們得到上式的一個充分條件是
要注意的是,分類任務只要求對于 來說有 ,而上式多出了 ,多出來的一項就是 margin 項。
注意到 分別是樣本 到其所屬類中心的距離,所以我們可以認為 是“類平均直徑”,它應該接近一個常數 ,我們可以將它作為超參數調整。如果要自適應調整的話,可以考慮先 訓練一段時間,然后估計“類平均直徑”作為 再訓練,然后再重新估計 并訓練,等等。
AM-Softmax
通過上面的推導,我們知道為了保證分類模型的特征可以用于排序,那么每個樣本不僅僅要最靠近類中心,而且是距離加上 之后還要最靠近類中心,即如果 屬于類 的話,那么就要求:
根據《將“softmax+交叉熵”推廣到多標簽分類問題,就可以往 里邊加入 來構造 loss。所以我們就可以構造如下的 loss:
這便是帶加性 margin 的交叉熵,其中 是縮放比例,相當于 softmax 的溫度參數。
不過別忘了,上述推導都是基于 滿足三角不等式,而我們平常用的打分函數并不滿足三角不等式。對于訓練檢索模型來說,我們通常用余弦距離來打分,前面說了余弦距離可以通過開根號來滿足三角不等式,所以對應的要求變為(以 為例):
兩邊乘以 得到
顯然右端是有上界的,所以適當調整 ,可以使得
成為一個充分條件,這時候對應的 margin 交叉熵是
這就是 AM-Softmax。
回顧與小結
本文從三角不等式的角度推導了用分類模型做排序任務時 margin 的必要性,假定所用的打分函數滿足三角不等式的前提下,能比較自然地導出相關結果。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的从三角不等式到Margin Softmax的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 让人惊叹的Johnson-Lindens
- 下一篇: 北京内推 | 地平线视觉算法团队招聘视觉