极限多标签学习综述(Extreme Multi-label Learning)
A Survey on Extreme Multi-label Learning
先給地址: https://arxiv.org/abs/2210.03968
博主曾整理過Multi-Label Image Classification(多標簽圖像分類),但這類任務中所用的數據集往往較小,分類數量并不多。但在更廣泛的場景中,標簽類別數目可能以百萬量級出現,如推薦系統、搜索引擎中等等。如在社交平臺上,為用戶推薦tag,以自然文本形式出現的tag標簽往往是語義廣泛的,因此可以被視為是一個多標簽學習任務。
任務定義
給定數據X和標簽Y,該任務嘗試學習一個函數f以映射輸入x到y。y的種類通常特別大,通過按照標簽y出現的頻率進行排序,可以設定閾值 τ \tau τ將標簽分為頭部標簽和尾部標簽。
任務挑戰
標簽數量的眾多將導致很多棘手的問題,主要有以下三種
- Volume。標簽數據的增長使輸入特征空間和輸出標簽空間都很大,從而導致可伸縮性問題和存儲開銷。應對該問題的三個最常見的假設分別是標簽獨立假設、洛沃蘭克假設和層次結構假設(也分別對應著以下三種解決方案)。
- Quantity。數量是指標簽的頻率,分布通常是長尾的,即標簽的頻率分布高度不平衡,這些很少出現的標簽卻是數據集中的大多數。下圖是維基百科和亞馬遜的數據集分布,大量的標簽呈現出明顯的長尾分布。
對尾部標簽的泛化是極限多標簽學習的核心問題之一。 - Quality。質量是指注釋標簽的質量問題。由于標簽集和樣本量較大,注釋每個實例是非常昂貴的,甚至在很多場景中這一部分都是缺失的。
解決方案
應對這三類挑戰,也有一些典型的方法被陸續提出,如下圖所示。
- Volume。Model Assumption 可以分為:二值關聯方法、基于嵌入的方法和基于樹的方法。
- Quantity。Tail-label Learning 可以分為:魯棒損失函數、數據增強、知識轉移。
- Quality。Weak Supervision可 以分為:零樣本學習、缺失樣本學習、多實例學習。
Model Assumption
應對特征空間和輸出標簽空間大的 Volume問題,Model Assumption 可以分為三個分支:二值關聯方法、基于嵌入的方法和基于樹的方法。
- 二進制相關性方法(binary relevance),假設標簽是相互獨立的,然后為每個標簽分別學習一個二進制分類器。實現簡單,但二進制相關性的時間和內存復雜性與標簽的數量呈線性關系,因此存在較高的計算開銷。當然,在這種方法前置一個標簽濾波器是一個減少開銷的方法。
- 基于嵌入的方法(embedding-based),利用標簽本身的語義性,它們通常假設標簽矩陣是低秩的。通常有兩種嵌入方法,即線性或非線性投影。線性嵌入以將特征空間和標簽空間一起嵌入到某個聯合低維空間,通過在該空間計算相似度得到標簽預測。在非線性嵌入中,利用圖神經網絡學習標簽之間的非線性關系較為流行。這類將標簽也視為特征的做法,也可以緩解尾標簽樣本數量不足,減少模型的參數數量和訓練成本。此類方法最大的缺點在于嵌入過程中信息的丟失。
- 基于樹的方法(tree-based),一般以層次的形式挖掘標簽語義,可以大大減少推理時間。通常有兩種類型的構樹策略:實例樹(instance tree-based)和標簽樹(label tree-based),這取決于在樹節點中樹分類是按實例或標簽進行劃分。在實例樹中,每個節點由一組訓練示例組成,然后逐層分配給子節點,這一點的直覺來源于特征空間的每個區域只包含少量的活動標簽。在標簽樹中,每個節點由一組標簽組成,然后將這些標簽分配給子節點,一般通過遞歸的聚類方法來確定分類,直到達到構樹的停止條件。基于樹的方法的缺點在于,它可能會出現級聯效應的影響,即預測誤差從頂部傳到底部。
Tail-label Learning
標簽的長尾問題是一個重要的統計特征,除了頭部特征外,尾部標簽在許多現實應用中也十分重要,可以使信息更豐富和有益,如個性化推薦。但是不經常出現的標簽(稱為尾部標簽)比經常出現的標簽(稱為頭部標簽)更難預測,特別是傳統的方法采取所有標簽重要性同等,很容易模型訓練在頭部標簽上表現更好,而對尾部標簽的預測性能更差。
為了應對標簽長尾的問題,Tail-label Learning 可以分為以下分支:
- 魯棒損失函數(Robust Loss Function)。主要通過設計一些損失函數引導模型增加對尾部標簽的優先級,從而提高了尾部標簽的泛化性能。
- 數據增強(Data Manipulation)。提高尾部標簽性能的另一個簡單想法是生成更多的數據,分為擴充數據或增強標簽。
- 知識轉移(Knowledge Transfer)。主要通過將知識從一些標簽轉移到另一些標簽,如ECC為每個標簽依次訓練一個二進制分類器,然后給定每個標簽,它使用原始特征和前一個標簽分類器的預測來訓練分類器。或者DeepXML同時在頭部標簽和尾部標簽上訓練兩個深度模型,然后將頭部標簽的語義表示轉移到尾部標簽模型中。
Weak Supervision
為了解決標注昂貴問題,Weak Supervision被使用最多,主要討論如何解決缺失標簽甚至完全沒有標簽。缺失標簽可以通過觀察到的標簽進行訓練模型并處理缺失的標簽。完全沒有標簽的zero-shot狀態可以分為幾種形式:
- eXtreme Multilabel Learning(XML)。
- Generalized Zero-shot Extreme Multi-label Learning (GZXML)。
- Few-Shot eXtreme Multi-label Learning(FSXML)。
- Extreme Zero-shot eXtreme Multi-label Learning(EZXML)。
未來方向
模型結構:
- 基于樹的結構如何優化切分方式,基于聚類是否是最優?
- 基于嵌入如何控制過擬合?
長尾問題:
- 如何劃分頭部和尾部?目前的劃分方法主要通過,設定特定部分為尾部或根據標簽頻率卡閾值,并沒有一個原則的方法。
- 如何平衡頭部和尾部準確率?很多工作展示了兩類指標難以同時優化,因此有需要根據特定的XML任務進行權衡。
- 如何設計尾部標簽的損失函數?
- 如何評估有尾部標簽的模型?目前無法清楚地看到頭部標簽和尾部標簽對指標的貢獻。
弱監督學習
- 極端的多實例多標簽學習(Extreme multi-instance multi-label learning)。例如,在視頻分類中,標簽是以視頻級別進行標記的,人們可能希望預測視頻的每一幀的相關標簽。
- 開放域的極端多標簽學習(Open-set extreme multi-label learning)。在許多真實世界的應用程序中,如何應用出現得特別快的新標簽,即開放域標簽,其除了對已知標簽進行分類外,還需要學習開放域標簽。
- 極端的多標簽學習與流媒體標簽(Extreme multi-label learning with streaming labels)。處理流媒體標簽需要對經過訓練的模型進行在線更新,目前還沒發做的很好。
- 極端的多標簽學習與缺失的標簽(Extreme multi-label learning with missing labels)。由于標簽空間大,缺少標簽的現象很普遍,同時應對尾部標簽和看不見的標簽非常具挑戰性。
總結
以上是生活随笔為你收集整理的极限多标签学习综述(Extreme Multi-label Learning)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数学库:Extreme Optimiza
- 下一篇: 为什么卸载手机微软必应浏览器