Meta开发了一个AI模型,尝试解决维基百科的「性别偏见」问题
來源:SiliconANGLE
出品:科技行者
撰文:海外來電
圖片:海外來電
為了解決兩性人物傳記比例失衡的情況,Meta操碎了心。
維基百科一直是全球訪問量Top 10的網站,是許多人搜索歷史人物與領創者資訊的第一站,但這些人物的傳記,并不總被“平等”的呈現在維基百科上。
Meta人工智能研究科學家Angela Fan在一篇博文中指出,維基百科的所有英文傳記中只有20%是關于女性的。且這個數字在交叉性群體中估計就更少了,例如科學界的女性、非洲的女性和亞洲的女性等。
甚至,維基百科內容里“女性代表不足”的情況,也延伸到了該組織本身,該網站上只有15%的編輯表明自己是女性(來自維基媒體《2021年社群洞察報告》)。
Angela Fan提到,“女性在歷史上對科學、政治、社會甚至創新創業的各個部分都產生了巨大影響。但是這些女性人物卻被忽視,或是被以不成比例的方式在維基百科上呈現。”
比如,加拿大物理學家Donna Strickland,曾在2018年獲得諾貝爾物理學獎,第一時間維基百科上卻無法找到任何關于她的資訊,直到維基百科發布了關于她的工作傳記后才得到改善,然而那時距離她獲得諾獎已經過去很多天了。”
針對女性傳記缺乏的情況,Meta公司宣布開源旗下的一個“生成式(Generative)”人工智能模型,該模型可以自動研究并創建一些重要人物的高質量傳記文章。
該模型的工作方式與人類研究員的工作方式相似,分三步走:首先是「檢索模塊」,搜索特定人物的相關信息;然后是「生成模塊」,起草一個維基百科式的人物條目;最后是「引用模塊」,附上引證信息的來源。最終達到涵蓋維基百科傳記所需要的所有元素,如傳記人物的早期生活、教育和職業。
由于該AI系統仍還存在一些限制,因此在定位上,需要能與維基百科編輯互補——由AI系統產生草稿,接著再由編輯進行事實查證和補充。模型的限制包括,用來創建維基百科條目的網頁內容,可能存在文化偏見,需要依靠人工鑒別;而且在技術上,文本生成系統容易產生幻覺(Hallucination),也就是非事實的內容;此外在語義方面,AI的連貫性和邏輯也有些力不從心。
即便如此,該AI模型仍然令人印象深刻。下圖彩色文本,是由AI模型替無脊椎動物的研究先驅Libbie Hyman,所生成的簡短傳記。綠色文本來自參照文章;紫色文本則來自網絡上的證據;橘色文本則表示幻覺,是由模型腦補,無法被驗證的資訊。
雖然模型所生成的結果無法直接發布,但該模型已經拿到了足夠多與Libbie?Hyman相關的信息(包括對無脊椎動物的研究、重要出版物和工作等),人類研究員或作家可以根據這些信息迅速上手并完成這篇文章。
盡管技術方面還在完善中,但這是對維基百科內容的性別平等踏出的重要一步。研究人員提到,他們目前的工作,僅是解決一個復雜問題的一小部分,接下來還有很多工作要做,包括識別不同的“偏見”問題:比如女性傳記往往涉及額外的生活細節,“離婚”一詞出現在女性傳記的頻率是男性傳記的4倍;一些“小報”往往更關注女性的生活,而這些細節可能沖淡人物更應該被關注的成就;跨性別和二元性別人物的傳記,往往長度更長,但是大部分章節都是描寫個人生活,而非個人成就。
為了改進該模型,Meta還發布了一個數據集,數據集可用于評估該模型基于1527份來自“邊緣化群體”的女性傳記中的表現。Meta表示,這些數據可用于訓練該模型的迭代并評估模型的性能。
未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)大腦研究計劃,構建互聯網(城市)大腦技術和企業圖譜,為提升企業,行業與城市的智能水平服務。每日推薦范圍未來科技發展趨勢的學習型文章。目前線上平臺已收藏上千篇精華前沿科技文章和報告。
??如果您對實驗室的研究感興趣,歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角“閱讀原文”
總結
以上是生活随笔為你收集整理的Meta开发了一个AI模型,尝试解决维基百科的「性别偏见」问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HashSet存储自定义对象保证元素唯一
- 下一篇: 数字化转型知识方法系列之五:数字化转型战