AI顶会,正在使用AI来审阅AI论文
近年來我們在報道 AI 頂會的文章里不斷聽到「史上最大」、「論文數量新高」等字眼,論文的審核儼然成了一項挑戰(zhàn)。但既然是在研究 AI,為什么不讓機器來自動解決問題?
>>>>
人工智能頂會 NeurIPS 2019 的現(xiàn)場,曾被人吐槽像跨年夜的百貨商場。
對于大多數科學領域來說,期刊是同行評審和論文發(fā)表的主陣地,編輯們會根據專業(yè)判斷將論文分配給合適的審稿人。但在計算機科學領域,尋找審稿人的過程通常是匆匆忙忙的:大多數論文是一次性提交給年度大會,組織者需要在僅僅一周的時間內將成千上萬的論文分配給成千上萬的審稿人。
這樣的節(jié)奏是非常緊張的,在過去的五年內,大型 AI 會議的投稿量增長了三倍不止,也給大會主辦機構帶來了不小的壓力。舉個例子,人工智能領域最大規(guī)模的定會 NeurIPS 2020 收到了 9000 多份有效投稿,比上一年增長了 40%。組織者不得不將 3 萬多個審稿任務分派給約 7000 位審稿人。NeurIPS 2020 大會主席 Marc’Aurelio Ranzato 表示:「這非常累,壓力很大。」
大概也是「近水樓臺先得月」,AI 頂會的審稿工作得到了 AI 的協(xié)助。首先,主辦方使用了 Toronto Paper Matching System (TPMS),在此之前 TPMS 也被應用于其他多個會議的投遞論文分配工作,它通過對比投稿論文和審稿人研究工作之間的文本,來計算投稿與審稿人專業(yè)知識之間的相關性。這個篩選過程是匹配系統(tǒng)中的一部分,期間審稿人也可以主動爭取自己希望審閱的論文。
TPMS 架構,該系統(tǒng)可通過會議管理系統(tǒng)在線使用。
同時還有方法更加優(yōu)化的 AI 軟件:論文審閱平臺 OpenReview 開發(fā)了一種「親和力評測」系統(tǒng),借助了神經網絡「Spectre」來分析論文標題和摘要。OpenReview 和麻省大學阿默斯特分校的計算機科學家 Melisa Bok 和 Haw-Shiuan Chang 表示,包括 NeurIPS 在內的一些計算機科學大會將在今年把親和力評測系統(tǒng)與 TPMS 結合使用。
AI 會議的組織者希望通過提高匹配質量來推動同行評審和出版論文的質量。2014 年的一項研究表明這仍有進步空間,作為測試,當年 NeurIPS 中 10% 的投稿論文分別有兩組審稿人審閱,在一組中被全部接收,另一組僅接收了 57%。影響到結果的因素可能有很多,但可以確定的是,對于具體某一篇論文來說,至少某一個小組是缺乏評估的專業(yè)知識的。
為了提升匹配質量,CMU 的計算機科學家 Ivan Stelmakh 開發(fā)了一種名為「 PeerReview4All」的算法,通常匹配系統(tǒng)會最大程度地提升論文和審稿人之間的平均親和力,但有可能出現(xiàn)「厚此薄彼」的現(xiàn)象。PeerReview4All 旨在最大程度地提升最差匹配的質量,注重增加該過程的公平性。
Ivan Stelmakh 在去年的 ICML 大會使用了 PeerReview4All 進行試驗,并在今年的 AAAI 大會上介紹了這一結果。他表示,該方法在不損害平均匹配質量的情況下顯著提高了公平性。
具體結論可以參考 Ivan Stelmakh 所寫的這篇 2 頁論文:https://www.aaai.org/AAAI21Papers/DC-169.StelmakhI.pdf
OpenReview 也已經開始提供一種旨在提高公平性的系統(tǒng),稱為「FairFlow」。根據 NeurIPS 2021 Call for Papers 頁面,今年的 NeurIPS 將使用 OpenReview 進行審稿工作。雅虎計算機科學家、NeurIPS 2021 高級程序主席 Alina Beygelzimer 表示,NeurIPS 今年將至少嘗試上述中的一種匹配方法。
這些系統(tǒng)的作用都是將一組已知的論文與一組已知的審稿人進行匹配,但還有另外一個問題:隨著 AI 領域的不斷發(fā)展,頂會還需要招募、評估、培訓新的審稿人。針對此,Ivan Stelmakh 正在進行一項最新實驗,探索一種不依賴 AI 來減輕這些任務負擔的方法。
他們在去年的 ICML 上,邀請了一些學生和剛剛畢業(yè)的人去審閱從同事那里收集的未發(fā)表論文(134 篇)。隨后團隊邀請了 52 位成員加入審稿人團體,并為他們分配了一位資深研究人員擔任導師。最終這些新手審稿人的工作成果還不錯,與那些經驗豐富的審稿人相差無幾。借此 Ivan Stelmakh 證明了:主辦方可以在不增加負擔的情況下擴招數百名審稿人,「且這些候選審稿人極具熱情」。
使用親和力來評估審稿人專業(yè)知識的匹配系統(tǒng)也可以讓身高人們對評審一篇論文進行「招標」,最近的一些工作試圖解決這種方法中的潛在偏見。我們有時會聽到選論文的審核者只選擇朋友的論文,這實際上是在破解算法。
今年 2 月,康奈爾大學、Facebook 一篇發(fā)在 arXiv 上的論文《Making Paper Reviewing Robust to Bid Manipulation Attacks 》描述了使用機器學習來過濾可疑論文審核競標的過濾方法。在模擬數據集上,即使?jié)撛谧鞅渍咧老到y(tǒng)的運行方式,它也可以減少操縱,而不會降低評審質量。去年在 NeurIPS 上的另一種算法《Mitigating Manipulation in Peer Review via Randomized Reviewer Assignments》實質上是對在專業(yè)領域以外的論文進行投標的人進行懲罰。
研究人員通過結合模擬競價和上次會議的真實數據證明了其方法在減少操縱方面的有效性。
這些工具面臨的問題是——你很難評估它們在實際使用過程中是不是真的優(yōu)于其他方法。蒙特利爾大學計算機科學家 Laurent Charlin 表示,要想掌握確鑿的證據需要進行對照試驗,但現(xiàn)在沒有任何試驗。其中一部分原因是因為其中許多工具都是新的。
十年前開發(fā) TPMS 工具的親和性測量工具的 Charlin 表示,隨著這些技術的發(fā)展,類似的方法可能會在某一天開始幫助計算機科學領域以外的同行審閱者。但是到目前為止,這種方法的應有范圍還很有限。
美國科學促進會 AAAS(《Science》等雜志的主辦方)發(fā)言人梅根 · 費倫(Meagan Phelan)表示 AAAS 在分配同行審閱者時沒有使用 AI。
「但在人工智能領域里,」Charlin 說道,「作為一個具有一定自動化程度水平的領域。我們沒有理由不使用自己的工具。」
參考內容:
https://www.sciencemag.org/news/2021/04/ai-conferences-use-ai-assign-papers-reviewers
—THE END—
編輯?∑Gemini
來源:機器之心
文章推薦
?圖解最常用的10個機器學習算法!
?中科院最年輕院士入職浙大!他一篇論文未發(fā)博士畢業(yè)!
?通往諾貝爾獎之路的十個科學家族
?統(tǒng)計學知識大梳理
?娶妻當娶女博士!這位北大女博士的脫口秀又來了,笑到流淚
?如何學好高數?數學系博士給出的5條建議
總結
以上是生活随笔為你收集整理的AI顶会,正在使用AI来审阅AI论文的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ESI大学最新排名出炉:中国内地342所
- 下一篇: 【文末有福利】连续型随机变量及实例详解