无关于目标or特定于目标:简单且有效的零样本立场检测对比学习方法
?PaperWeekly 原創(chuàng) ·?作者 |?梁斌、陳子瀟
單位 |?哈爾濱工業(yè)大學(深圳)
研究方向 |?情感分析、立場檢測
內(nèi)容簡介
零樣本立場檢測(zero-shot stance detection)旨在通過已知目標/主題(target/ topic)的訓練數(shù)據(jù)來對包含未知目標的測試數(shù)據(jù)進行立場檢測。由于測試目標對于訓練數(shù)據(jù)來說是未知的,所以零樣本立場檢測的一個重要挑戰(zhàn)是需要從訓練數(shù)據(jù)中學習可遷移的立場特征信息來對測試集中的未知目標進行立場檢測。
在這個工作中,我們針對該任務提出了一種非常簡單且有效的對比學習框架。具體地,我們巧妙地使用一個代理任務(pretext task)來輔助未知目標(target)的立場檢測。該代理任務的目的是為每一個訓練樣本生成一個額外的標簽(label),標記了該訓練樣本的立場表達(stance expression)是目標無關(guān)(target-invariant)或特定于目標(target-specific)。
因為,在這個任務中,之所以能預測訓練集未見過的目標的立場,是天然存在一些可以修飾任何目標的立場表達,我們稱之為目標無關(guān)的立場表達(target-invariant stance expression)。而另外一些,則可認為是只對某個(或某些)目標起效,我們稱之為特定于目標(目標相關(guān))的立場表達(target-specific stance expression)。
隨后通過結(jié)合代理任務和原本的 label 信息,我們提出了一種基于代理任務的分層對比學習框架(PT-HCL),能使模型在區(qū)分出目標無關(guān)與相關(guān)的基礎(chǔ)上區(qū)分樣本的立場特征表示。最終在三個常用的公開數(shù)據(jù)集上的結(jié)果表明,我們提出的框架取得了目前最佳的性能。
同時,我們的方法也能直接遷移至少樣本立場檢測(few-shot stance detection)和跨目標立場檢測(cross-target stance detection)任務,并取得最佳性能。此外,我們的方法無需任何額外的外部知識或監(jiān)督信號,也能很好地遷移至其他的零樣本分類任務。
論文信息:
Bin Liang, Zixiao Chen, Lin Gui, Yulan He, Min Yang, Ruifeng Xu*. Zero-Shot Stance Detection via Contrastive Learning, The 31th Web Conference (TheWebConf 2022), Apr. 2022.
論文地址:
http://www.hitsz-hlt.com/paper/Zero-Shot-Stance-Detection-via-Contrastive-Learning-WWW2022.pdf
代碼地址:
https://github.com/HITSZ-HLT/PT-HCL
方法
2.1 任務定義
給定已標注的源目標立場檢測數(shù)據(jù)集
402 Payment Required
和未標注的未知目標立場檢測數(shù)據(jù)集 ,其中 表示源目標數(shù)據(jù)中的目標,是對應的立場標簽,和 是源目標數(shù)據(jù)集和位置目標數(shù)據(jù)集的樣例數(shù)量,數(shù)據(jù)集 和 間沒有交集。零樣本立場檢測任務的目標是基于 中每條面向已知源目標 的句子 ,訓練一個立場檢測模型,用于預測 中每條面向未知目標 的句子 的立場。因此,該任務的的一個重要挑戰(zhàn)是需要從訓練數(shù)據(jù)中學習可遷移的立場特征信息來對測試集中的未知目標進行立場檢測。2.2 研究動機
針對該挑戰(zhàn),我們發(fā)現(xiàn)訓練數(shù)據(jù)中天然存在一些立場表達特征是可以修飾所有目標的,而另外一些則只能用來修飾某個或某些特定目標。我們稱前者為目標無關(guān)的立場表達(target-invariant stance expression),后者為特定于目標(目標相關(guān))的立場表達(target-specific stance expression)。
基于該發(fā)現(xiàn),我們提出了一種借助代理任務(pretext task)來區(qū)分這兩種立場表達特征的分層對比模型,從而使模型能更好地利用可遷移立場特征來進行未知目標的立場檢測,提升零樣本立場檢測的性能。我們提出的 PT-HCL(Pretext Task-based Hierarchical Contrastive Learning)模型框架如圖 1 所示:
▲ 圖1:基于代理任務的分層對比學習框架圖。漸變色圖形代表隱藏向量,不同類型的圖形代表不同的立場類型,不同顏色的圖形代表不同的立場類別。
2.3 基于代理任務的數(shù)據(jù)增強
為了在零樣本立場檢測任務中有效區(qū)分目標相關(guān)立場表達和目標無關(guān)立場表達以學習到可遷移的立場特征,我們構(gòu)思了一個基于自監(jiān)督學習過擬合模型的數(shù)據(jù)增強方案。直觀地,對于一個句子,如果我們掩蓋掉其中與目標高度相關(guān)的詞語,其立場表達仍然維持不變的話,那么這個句子就可以認為是包含了目標無關(guān)的立場表達特征。反之,其立場表達則是目標相關(guān)的。
基于此,我們首先在源目標數(shù)據(jù)集上訓練一個對該數(shù)據(jù)集預測準確率接近 100% 的立場檢測模型。然后我們將每一條訓練數(shù)據(jù)中的目標相關(guān)詞(target-related words)使用 [MASK] token 進行代替,形成重構(gòu)數(shù)據(jù)。隨后我們將這些重構(gòu)數(shù)據(jù)重新輸入到訓練好的立場檢測模型來預測它們的立場類別。
因為我們將該立場檢測模型訓練到足夠好(準確率接近 100%),所以對于每一條重構(gòu)數(shù)據(jù),如果它的預測立場類別維持不變,那我們可以認為該數(shù)據(jù)是目標無關(guān)的,并標注一個額外的“target-invariant”增強類別。反之標注一個額外的“target-specific”增強類別。由于我們方法的通用性,我們可以使用任何適合的方法來生成目標相關(guān)詞,例如 TF-IDF,相似度度量,以及主題模型等。
2.4 分層對比學習框架
我們希望模型在學習過程中在能夠充分區(qū)別不同的立場類型(“target-invariant”或“target-specific”)的基礎(chǔ)上有效區(qū)分不同立場類別的向量表示。因此,我們設計了一個簡單且有效的分層對比學習框架,通過對比學習的作用,使模型在向量分布空間上對立場類型和立場類別進行區(qū)分,從而有效利用代理任務輔助零樣本立場檢測。
在一個大小為 的 mini-batch B 中,對于一個錨點(anchor)樣本 ,我們基于不同的溫度系數(shù) τ 設計了一種新穎的分層對比損失函數(shù)來提升模型對特征信息的學習,公式如下:
其中, 為樣本 i 的立場類型, 為樣本 i 的立場類別。 是一個指示函數(shù),當且僅當 i=j 時取值為 1。sim(·) 為余弦相似度函數(shù)。 和 是兩個控制特征向量區(qū)分程度的溫度系數(shù)。其中 ,代表模型在學習過程中對立場特征類型的區(qū)分度要強于立場類別。此外, 用來控制對比損失中立場類型和立場類別的貢獻程度,即在區(qū)分立場類型的基礎(chǔ)上區(qū)分立場類別。隨后,基于分層對比損失函數(shù),我們結(jié)合立場檢測交叉熵損失,得到最終的損失函數(shù):
其中 和 為用來控制損失函數(shù)系數(shù)的可調(diào)節(jié)超參數(shù), 代表所有可訓練參數(shù), 為 正則化系數(shù)。
實驗
我們在 3 個公開的零樣本立場檢測數(shù)據(jù)集(VAST、SEM16 和 WT-WT)中進行對比實驗。實驗結(jié)果顯示我們提出的 PT-HCL 方法在所有零樣本立場檢測數(shù)據(jù)集中的各項性能指標都達到了最優(yōu)。
▲ 表1:三個數(shù)據(jù)集的零樣本立場檢測實驗結(jié)果
隨后,我們將提出的方法應用到少樣本立場檢測和跨目標立場檢測任務中。實驗結(jié)果表明,我們的方法可以直接作用于少樣本立場檢測和跨目標立場檢測任務,并取得最優(yōu)性能。
▲ 表2:VAST數(shù)據(jù)集上的少樣本立場檢測實驗結(jié)果
▲ 表3:SEM16數(shù)據(jù)集上的跨目標立場檢測實驗結(jié)果
結(jié)論
本文針對零樣本立場檢測提出了一種非常簡單且有效的對比學習框架:基于代理任務的分層對比學習(PT-HCL)方法。該方法借助一個代理任務(pretext task)確定訓練數(shù)據(jù)的立場表達類型:即立場表達是特定于目標(目標相關(guān))還是無關(guān)于目標(目標無關(guān))。隨后,我們設計了一種新穎的分層對比學習損失函數(shù),使模型在區(qū)分立場表達類型的基礎(chǔ)上區(qū)分樣本的立場類別。
實驗結(jié)果表明,本文提出的方法在不同數(shù)據(jù)集的零樣本立場檢測任務中都取得了最優(yōu)性能。同時,我們的方法也能直接遷移至少樣本立場檢測(few-shot stance detection)和跨目標立場檢測(cross-target stance detection)任務,并取得最佳性能。此外,我們的方法無需任何額外的外部知識或監(jiān)督信號,也能很好地遷移至其他的零樣本分類任務。
關(guān)于作者
梁斌(1993-),哈爾濱工業(yè)大學(深圳)計算機學院博士研究生,主要研究方向包括情感分析、立場檢測、文本挖掘。E-mail: bin.liang@stu.hit.edu.cn
陳子瀟(1998-),哈爾濱工業(yè)大學(深圳)計算機學院碩士研究生,主要研究方向為立場檢測。E-mail: chenzixiao@stu.hit.edu.cn
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學術(shù)熱點剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的无关于目标or特定于目标:简单且有效的零样本立场检测对比学习方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中信信用卡延期还款可以几天
- 下一篇: *st股票摘帽的条件