NLP哪个细分方向最具社会价值?
文 | 小戲
讓我們來大膽設(shè)想一個場景,老板突然發(fā)財搞到一筆錢,大手一揮給你五百萬,讓你去做自然語言處理的研究,你該先研究哪一個細(xì)分領(lǐng)域?
機器翻譯好像不錯,信息抽取也很必要,對話系統(tǒng)更是 NLP 落地的重要方向。而如何評估這些 NLP 任務(wù)的重要程度是一個極其開放的問題,從商業(yè)價值應(yīng)用前景的角度出發(fā)是一套評價體系,從科學(xué)研究學(xué)科貢獻角度出發(fā)又是另一套排名標(biāo)準(zhǔn),但如果將我們的高度拔高一點,站在一個社會成員的角度,如何評估 NLP 任務(wù)的社會效益,將是一個十分有意義的研討話題。
而這篇被今年 ACL Findings 收錄的論文從社會效益的角度出發(fā)提出了一整套針對 NLP 任務(wù)的社會效益的評價指標(biāo),并給出了從社會效益最大化的角度出發(fā)應(yīng)當(dāng)被優(yōu)先研究的 NLP 的課題,讓我們一起來看看吧!
論文題目:
How Good Is NLP? A Sober Look at NLP Tasks through the Lens of Social Impact
論文鏈接:
https://arxiv.org/pdf/2106.02359.pdf
Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復(fù)關(guān)鍵詞 【0621】 下載論文PDF~
何為一個好的 NLP 技術(shù)?
無疑,NLP 已經(jīng)滲透到了我們生活的方方面面,一些典型 NLP 應(yīng)用的名字也都被我們所共享,比如某天開的一個關(guān)于 Siri 的笑話,某次復(fù)制到谷歌翻譯里的英文。凡此種種使得 NLP 從一個學(xué)科領(lǐng)域的概念走進了我們的日常生活,而一旦 NLP 的技術(shù)不再是僅存于共享某一領(lǐng)域知識的一小部分研究者中時,面對它的社會影響的關(guān)注便會登上臺前。
估計沒有一個人會盼望放在自己床頭的對話機器人會說出“心跳不好,為了更好,請確保刀能夠捅進你的心臟”這樣的話語,當(dāng)然也總會有人擔(dān)憂一個冷冰冰的自然語言處理系統(tǒng)充滿種族歧視與性別歧視的內(nèi)容結(jié)果。
因而,相關(guān)人工智能倫理的研究從這個方面入手,開始探討諸如算法的歧視、算法的公平性、透明性、正義性等方面的問題。其實相關(guān)人工智能倫理的說法由來已久,甚至可以說自所謂 AI 誕生以來,就引起了形形色色關(guān)于倫理的探討。倫理學(xué)所關(guān)心的問題,其實質(zhì)上是在為道德立法,明確道德力所能及的邊界,在跨越地域與文化的鴻溝中討論人之為人的共識,明確特定場景下,善與惡的定義。
因此,人工智能倫理學(xué)的研究,所希望定義的,就是這樣一個問題——“何為一個好的人工智能系統(tǒng)?”,而回到這篇論文,論文作者所期望解決的,正是這樣一個問題:
給定具有特定技能 的研究者或研究團隊和一組他們可以進行研究的 NLP 技術(shù) ,對于研究者而言,為了實現(xiàn)更好的社會效益 ,什么是最值得進行研究的技術(shù)?
審視這個問題,我們可以發(fā)現(xiàn)它的難點集中于:
如何定義所謂好的社會效益?
不同的 NLP 技術(shù)如何影響社會效益?
如何確定研究的優(yōu)先級?
針對這些問題,在論文中,作者首先通過倫理學(xué)的經(jīng)典理論與觀點,給出了一種評估好的社會效益的定性方法,其次,作者通過因果結(jié)構(gòu)模型將現(xiàn)有 NLP 技術(shù)分類,從而依據(jù)層次結(jié)構(gòu)關(guān)系討論不同種類的 NLP 技術(shù)對社會效益的不同影響,之后,作者借助全球優(yōu)先研究(Global Priorities)領(lǐng)域的分析框架,提出一系列衡量技術(shù)優(yōu)先級的有用指標(biāo),最后,作者通過對 ACL 2020 570篇論文的分析研究,給出了一套基于社會效益的評估課題研究意義的思考方法與 NLP 領(lǐng)域內(nèi)應(yīng)當(dāng)被優(yōu)先研究的課題。
何為好的社會效益?
每年 3 月,聯(lián)合國旗下的可持續(xù)發(fā)展解決方案網(wǎng)絡(luò)組織都會發(fā)布一份世界幸福報道,分別從經(jīng)濟水平,預(yù)期壽命、慷慨友善度、社會支持、自由以及腐敗程度 8 個方面衡量不同國家的幸福指數(shù)。
然而,通過評估經(jīng)濟水平,預(yù)期壽命等等真的可以定義幸福嗎?恐怕答案永遠(yuǎn)是千人千面,總會有失偏頗。
而針對好的社會效益的定義也是如此,常常陷入吊詭的是:如果我們認(rèn)為節(jié)約能源會造成好的社會影響,那么也一定會有在零下 20 度生活的人抱怨天寒地凍沒有足夠的煤炭燒起爐子。
從哲學(xué)上講,基于一些不同的假設(shè)可以部分規(guī)避這樣兩難的選擇,一種很簡單的假設(shè)是基于直覺,比如直覺上講消除貧困總會提升社會效益,因此消除貧困總是具有好的社會影響。然而,這種直覺主義的觀點顯然不足夠嚴(yán)密支持評估社會影響,因而這篇論文選擇了倫理學(xué)的三種主流理論,用以衡量好的社會影響,這三種理論分別是義務(wù)論,目的論以及美德論。
為了更好的理解這三種理論的不同觀點,我們引入一個大家耳熟能詳倫理學(xué)思想實驗——電車難題。
其中義務(wù)論者主張內(nèi)心道德原則的絕對性,即人們的行為必須要由道德賦予其正當(dāng)性,因此,面對電車難題時,義務(wù)論者會認(rèn)為拉下?lián)u桿會使得一人死亡,而不行惡是道德原則之一,因此義務(wù)論者認(rèn)為自己沒有權(quán)利拉下?lián)u桿,從而選擇不作為。
而目的論者,也常常被稱為功利主義者,其觀點則會認(rèn)為人應(yīng)當(dāng)做出符合“最大善”的行為,因而,目的論者將會選擇拉下?lián)u桿,從而不得不接受義務(wù)論者對其道德性的譴責(zé)。
最后,美德論者試圖區(qū)別義務(wù)論者與目的論者,通過將人群中某些特殊的人的特殊行為抽離出來,譬如我們將孔夫子的言行舉止抽離出來作為道德的人所能達到或所應(yīng)該達到的美德境界,從而以此規(guī)范人們的行為。盡管預(yù)期美德論者對電車問題會做出與義務(wù)論者一樣的選擇,但其內(nèi)在的驅(qū)動因素是不盡相同的。
使用這三種理論我們可以從三種不一樣的角度去評估所謂好的社會影響,但是我們無法得知哪一個理論是對的,或者是說,我們根本無法評判哪一個理論是正確的,此時,我們就陷入了一個被定義為“道德不確定性”的狀態(tài),而根據(jù)學(xué)者 William MacAskill 等人提出的理論,盡管我們身處于道德不確定性之中,但我們?nèi)匀豢梢宰龀鲆恍┖唵蔚呐判蚺c選擇,譬如認(rèn)可被所有標(biāo)準(zhǔn)都承認(rèn)的選擇,以及放棄被所有標(biāo)準(zhǔn)都拒斥的選擇。
從而,針對社會效益我們便擁有了一種評估工具,與其說這是對社會效益定量的排序,不如說這種工具更加類似為每一種 NLP 技術(shù)可能造成的社會影響提供了思維的角度,類似雷達圖與 SMART 分析。對于某一項具體的 NLP 技術(shù),譬如是否應(yīng)當(dāng)使用 NLP 技術(shù)應(yīng)用于醫(yī)療領(lǐng)域之中,在三種理論下選擇以 NLP 技術(shù)治病救人都是道德并可取的,我們就可以認(rèn)為這具有良好的社會效益,而另一些技術(shù),當(dāng)理論的觀點產(chǎn)生了沖突,我們便應(yīng)該做出合理的權(quán)衡。
根據(jù)這種評估方法,結(jié)合倫理學(xué)家的意見,作者提出了一些具有良好社會效益的 NLP 研究領(lǐng)域,例如欺詐信息識別、模型可解釋性、低資源學(xué)習(xí)、模型魯棒性研究等等,這些研究被視為是具有良好社會效益的 NLP 技術(shù)及研究領(lǐng)域。
不同的 NLP 技術(shù)如何影響社會效益?
很明顯,不同的 NLP 任務(wù)對社會效益的影響不盡相同,我們可以說訓(xùn)練出種族歧視言論的亞馬遜 Alexa 機器人對社會具有負(fù)面影響,但很卻很難討論對話系統(tǒng)內(nèi)部應(yīng)用的語言識別或是某個預(yù)訓(xùn)練模型對社會效益是有利還是有害。
因此,這篇論文將不同的 NLP 技術(shù)基于一種因果結(jié)構(gòu),分為了四個階段。
第一階段是指基礎(chǔ)理論,這種基礎(chǔ)理論是直接決定一門學(xué)科性質(zhì)的理論,譬如對于 NLP 而言,縱使有“每當(dāng)我開除一個語言學(xué)家,語音識別系統(tǒng)就更準(zhǔn)確了”的笑話,但語言學(xué)的基本理論仍然是 NLP 中最流行的基礎(chǔ)理論。
第二階段是模塊化工具,這類工具是下游任務(wù)的重要組成部分,譬如分詞、序列標(biāo)注、信息抽取等等。
第三階段是應(yīng)用研究,這類研究是商業(yè)化應(yīng)用的雛形,例如機器翻譯、問答系統(tǒng)、對話系統(tǒng)等等。
第四階段是商業(yè)化產(chǎn)品,經(jīng)過一個從前往后的發(fā)展,已經(jīng)到達可以被部署與應(yīng)用的成熟產(chǎn)品,例如谷歌翻譯、小度智能音箱等等。
作者將 ACL 2020 的論文按四個階段的劃分方法進行了分類,統(tǒng)計出了每個階段最流行的主題。可以看到,就論文數(shù)量而言,第二階段 > 第三階段 > 第四階段 > 第一階段,從這個統(tǒng)計規(guī)律之中我們多少可以看到一點現(xiàn)階段主要的研究領(lǐng)域與方法。
這種分類,使得 NLP 技術(shù)具有了一個層級結(jié)構(gòu),根據(jù)每層技術(shù)之間的因果關(guān)系,可以將 NLP 技術(shù)的四個階段用一個樹狀圖表示出來,如下圖所示:
作者認(rèn)為 NLP 技術(shù)之中存在著一個因果關(guān)系,即只有當(dāng)樹上層的技術(shù)被發(fā)明出來時,下層的技術(shù)才有存在的可能,例如只有當(dāng)機器翻譯的技術(shù)成熟時,才有可能出現(xiàn)谷歌翻譯的產(chǎn)品,而機器翻譯的技術(shù)又必須建立在諸如詞向量等技術(shù)的基礎(chǔ)之上。
因此,只要有了對第四階段商業(yè)化產(chǎn)品的社會效益影響的衡量,就可以依循因果圖從而統(tǒng)計每一個節(jié)點對社會效益的間接影響。作者定義每一個 NLP 技術(shù) 的社會影響為 ,且:
其中,指 NLP 技術(shù)對社會施加影響的不同方面,比如有些技術(shù)可以提升人們的隱私保護,有些技術(shù)可以為人們創(chuàng)造更多的空閑時間,而另一些技術(shù)則可以提升人們的受教育程度。而代表技術(shù)在方面的應(yīng)用規(guī)模,代表技術(shù)技術(shù)在方面的社會影響。
OK,現(xiàn)在我們有了方法去衡量第四階段的技術(shù)對社會的影響,那么如何衡量更基礎(chǔ)的技術(shù)對社會的影響呢?論文認(rèn)為任何技術(shù)的社會影響都是其所有后代在第四階段技術(shù)影響的加和,因而公式為:
其中, 是子節(jié)點技術(shù)可以被成功開發(fā)的概率, 是技術(shù) 對子節(jié)點技術(shù)的貢獻, 即子節(jié)點技術(shù)的影響,最終使用第四階段技術(shù)的社會影響公式代替。
根據(jù)這種評估方法,我們可以在一定程度上刻畫這樣兩個結(jié)論:
由于累加作用,對于第一階段與第二階段的 NLP 技術(shù),隨著它們創(chuàng)造出更多的有利于社會效益的技術(shù),其總體影響總是趨于積極的。
社會影響好壞的不確定性主要集中于第四階段的技術(shù),這也就意味著第四階段技術(shù)的開發(fā)者應(yīng)當(dāng)對于技術(shù)的社會影響抱以最大程度的關(guān)注。
如何確定研究優(yōu)先級?
現(xiàn)在我們對不同的 NLP 技術(shù)有了評估他們的社會影響的工具,到了做選擇的時候了,面對五花八門琳瑯滿目的 NLP 技術(shù)與理論,我們該如何確定他們的研究優(yōu)先級?
其實問題又回到了我們的開頭,我們?nèi)绾伟牙习褰o的五百萬更有意義的花出去?這其實也正是全球優(yōu)先研究(Global Priorities)所關(guān)注的問題,全球每年用于社會公益的支持有五千億美元,而福利機構(gòu)則不得不考慮一個問題,面對這個世界形形色色的問題——饑餓、貧困、謀殺、歧視……我們該優(yōu)先支持哪一個領(lǐng)域?
進行全球優(yōu)先研究的學(xué)者提出了一個被稱為是 INT 的研究框架,INT分別指Important/Neglected/Tractable,根據(jù) INT 框架,對于一個需要確定優(yōu)先級的待解決問題集合,需要進行三個方面的考慮:
這個問題重要嗎?
這個問題被廣泛關(guān)注過嗎?
這個問題是可以被解決的嗎?
根據(jù)這個框架,一個問題越重要,越容易解決,且越被廣泛忽視,那么一個問題的優(yōu)先級就越高。這個框架往往被用于解決一些公益的事項安排,而論文作者將這個框架利用一些數(shù)學(xué)與經(jīng)濟術(shù)語進行定義,從而借助它來評估 NLP 技術(shù)的研究優(yōu)先級。
首先是重要程度,作者使用 來衡量一項技術(shù)預(yù)期的社會影響,其中 是研究者 研究技術(shù) 的成功概率。而 是指技術(shù) 的社會影響。作者認(rèn)為成功概率是衡量重要程度的重要一環(huán),因為大量技術(shù)有可能并不會走向成功,即使其預(yù)期對社會可以產(chǎn)生極為正面的影響。
其次是關(guān)注程度與解決問題的難易,作者借用經(jīng)濟學(xué)中的邊際效益衡量這兩個維度,定義:
其中, 表示研究者 對技術(shù) 每多投入一單位資源所收獲的邊際效益,而 為技術(shù) 的社會影響, 為技術(shù) 當(dāng)下的進展, 代表研究者對技術(shù) 投入單位資源所能夠帶來的技術(shù)改進。
這個定義展現(xiàn)了,如果這個相關(guān)技術(shù)的領(lǐng)域已經(jīng)飽和,那么對于一個研究者而言盲目地將資源與時間投入到這一問題的研究中是不明智的。而在另一個方面,如果這個領(lǐng)域有著很高的重要性卻長期被研究者忽視,那么推動這個研究所產(chǎn)生的邊際效益就會很大,因而這部分解釋了為什么研究人員熱衷于創(chuàng)造一個嶄新的研究領(lǐng)域進行研究。
最后,作者引入了機會成本這一概念描述不同技術(shù)間的選擇成本。這一概念即試圖表現(xiàn)研究者將資源用于技術(shù) 而非其他技術(shù)時所造成的潛在損失,例如當(dāng)我研究綠色 NLP 時,相當(dāng)于我放棄了研究諸如對話系統(tǒng)與機器翻譯的機會,作者定義:
其中, 表示研究者 在技術(shù) 上的機會成本,而代表了研究者的研究最優(yōu)技術(shù)的邊際收益,其中:
其含義為研究者 可能的具有最大邊際效益的替代技術(shù)。因此,這個定義強調(diào)了并不一定只要做“好事”,而更應(yīng)該去做“最好的事”,因為有時“好事”意味著極其高昂的機會成本。
什么是最應(yīng)該關(guān)注的領(lǐng)域?
這篇論文主要以 ACL 2020 為分析對象,論文作者首先將 ACL 2020 的文章依據(jù)前文的四個階段的分類方法進行了分類,并進行了國別的統(tǒng)計,如下圖所示:
從發(fā)文數(shù)量而言,美國與中國是當(dāng)仁不讓的前兩名,但是中國在第一階段,也就是基礎(chǔ)理論的論文發(fā)表掛了零蛋,考慮到論文的分類方法,第一階段主要集中在語言理論之上,而很可能我們針對語言理論的研究并沒有以英文的形式發(fā)表在 ACL 上。
在對論文進行分類之后,作者使用人工標(biāo)注的方法,結(jié)合上文的評價框架,從 ACL 2020 的570篇文章中標(biāo)出了 89 篇被評價為具有良好社會效益的文章,這 89 篇文章被分別分類為前文判斷具有良好社會效益的 NLP 領(lǐng)域的標(biāo)簽內(nèi),如減少偏見、提升教育水平、促進平等、消除欺詐、綠色環(huán)保、醫(yī)療保健、可解釋性、法律應(yīng)用、低資源學(xué)習(xí)、心理健康、魯棒性等等。
從結(jié)果中我們可以看到,大多數(shù)論文致力于可解釋性、錯誤信息消除與醫(yī)療保健領(lǐng)域。從國別角度來看,美國學(xué)者進行了大量關(guān)于模型可解釋性的研究,而中國學(xué)者對于模型可解釋性的研究很少。美國學(xué)者對提升教育水平與法律應(yīng)用領(lǐng)域關(guān)注度較低,而印度學(xué)者則很少關(guān)注錯誤信息消除領(lǐng)域。
從ACL 2020發(fā)表的論文表現(xiàn)來看,自然語言處理技術(shù)并沒有在提升社會效益這一異常宏大的主題上交出滿意答卷。例如教育是聯(lián)合國可持續(xù)發(fā)展目標(biāo)中第四重要的領(lǐng)域,但 NLP 技術(shù)卻很少有涉足這一領(lǐng)域。
事實上,這種現(xiàn)狀的原因之一是 NLP 研究者得到的資助往往并不來自一些十分注重社會公益的機構(gòu),甚至我們仔細(xì)想想,我們針對 NLP 這一研究領(lǐng)域的研究路徑根本就沒有經(jīng)歷老板給我們五百萬讓我們仔細(xì)思索應(yīng)當(dāng)先研究什么后研究什么這一階段,更不論以一個優(yōu)先級評定框架去評估不同領(lǐng)域的社會影響以及其重要性程度。
那么我們該怎么做呢?論文作者認(rèn)為我們在開展研究前應(yīng)該先回答以下這五個問題:
這項技術(shù)會使什么樣的人從中受益?
這項技術(shù)可以幫助到哪些弱勢群體?
這項技術(shù)是否有助于實現(xiàn)聯(lián)合國可持續(xù)發(fā)展目標(biāo)中的其一其二?
這項技術(shù)可以提升人們的生活質(zhì)量嗎?
這項技術(shù)會給人們帶來哪些問題?
例如,對于機器翻譯而言,機器翻譯會使得其他語言的使用者受益(Q1),并且有助于縮小第二語言者與母語者的差距(Q2),機器翻譯技術(shù)可以直接提升信息與知識的共享,可以被廣泛的應(yīng)用在優(yōu)質(zhì)教育、體面工作與全球伙伴之中(Q3),機器翻譯可以被認(rèn)為直接提升了人們的社會質(zhì)量(Q4),但它有可能擴大有經(jīng)濟條件穿戴智能設(shè)備與沒有經(jīng)濟條件的人群之間的差距(Q5),因此我們可以將其認(rèn)為是對社會有益的。
基于這個自檢框架,作者歸納出具有良好社會效益的 NLP 研究主題,并對每個主題提出了建議的研究方向如下,其中比如以 NLP 技術(shù)應(yīng)用于殘疾學(xué)生教育,用 NLP 技術(shù)應(yīng)用于表達障礙者的輔助語音生成,針對氣候變化認(rèn)知問題的跨文化研究等等都十分具有現(xiàn)實意義。
總結(jié)
這篇論文為定性的分析 NLP 技術(shù)的社會效益開了一個好頭,誠然如作者所說,他們的工作目標(biāo)并非是給予一個自然語言處理技術(shù)的社會效益的確定答案,而是在這個自然語言處理技術(shù)已經(jīng)開始從科研領(lǐng)域進入大眾生活的時間拐點處,試圖向全面理解自然語言處理技術(shù)的社會意義邁出一小步。
隨著自然語言處理的研究與工業(yè)應(yīng)用走向成熟,一種清醒的與高屋建瓴的對一項技術(shù)的社會意義的理解是必不可少的,我們的研究不能僅局限于什么領(lǐng)域好發(fā),什么技術(shù)好做,而更是要在動機層面意識到真正的“研究意義”。恰如我們從學(xué)校到企業(yè)明白了什么才是這項技術(shù)的商業(yè)意義一樣,研究也需要有一個過程去理解這項技術(shù)現(xiàn)有的與潛在的社會意義。
計算機科學(xué)是一個典型的應(yīng)用學(xué)科,在刻板印象里程序員亦或是計算機領(lǐng)域的研究者往往不存在什么類似天下大同的理想與目標(biāo),整個領(lǐng)域往往被粗暴的定義為學(xué)了“能賺錢的”商品。我們可以看到學(xué)法者站在法律是社會效益最大的背景下伸張正義,學(xué)醫(yī)者更是懸壺濟世醫(yī)者仁心,探討 NLP 的社會效益,也多少可以在平凡代碼之余暗藏一些超驗的意義與動力,用“我有一個夢想”式的浪漫,投身這個領(lǐng)域的平凡與燦爛。
萌屋作者:小戲
邊學(xué)語言學(xué)邊學(xué)NLP~
作品推薦
千呼萬喚始出來——GPT-3終于開源!
Linux 程 序 員 失 業(yè) 警 告
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復(fù)關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結(jié)
以上是生活随笔為你收集整理的NLP哪个细分方向最具社会价值?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据缺失、混乱、重复怎么办?最全数据清洗
- 下一篇: NIPS’20 Spotlight |