Facebook公司:如何删掉960万句“脏话”?
原創:譚婧
互聯網上每天產生多少句臟話?這是一個謎。但是,從Facebook公司2020年第一季度的《透明度報告》里,可以窺到一些面貌。
自2018年5月以來, Facebook公司以季度為周期發布報告,解釋其辛苦的幕(zi)后(jin)工(tou)作(ru)。
在2020年第一季度,公司更是成功刪除960萬條“臟話”內容。這是一個創紀錄的數字,高于2019年第四季度的570萬條,也超過了2019年第三季度的700萬條。
2020年第一季度的全球公眾衛生事件,人們有不少壞情緒?! ?/p>
“臟話”是簡稱,直白的理解是,偏激、仇視性話語(Hate Speech)。民間臟話、方言臟話、描述部分人體器官、人身攻擊、種族歧視、性別歧視大抵都包括在內,如果有沒有想到的,還望海涵。
每天,打開手機APP,就看見鍵盤俠“口吐芬芳”,令人大倒胃口。然而,互聯網上臟話的量級,人工刪除是刪不過來的,而且還會誤判。
Facebook公司的方法是,用人工智能技術狙擊。
但凡審查,就會有漏查。Facebook公司《透明度報告》有一個缺陷,就是它沒有提漏查的程度。
透明與公開,是與公眾溝通的高明手段,蠢貨只有閉嘴這一招。Facebook公司雖然沒有滿分,但也提供了“榜樣”。
讓我們看到真善美的存在,也要看到假惡丑如何被干掉。
在Facebook公司第一季度刪除的960萬個帖子中,軟件系統檢測到88.8%(在用戶看到信息并舉報之前)。這表明該算法用機器標記了850萬個“臟話”帖子,比上一季度的460萬個增長了86%。
2020年第一季度,除了病毒蔓延,“臟話”也在蔓延。
Mike Schroepfe,自2013年3月以來一直擔任Facebook公司的首席技術官。他借《透明度報告》發布的機會,重點打了一輪人工智能技術的廣告,宣傳了該公司自然語言處理技術的進步。
他說:“我們的語言模型變得更大,更準確,更細微了。能夠發現細致微妙的東西。”
可惜,Schroepfer并沒有解釋說明這些系統審查的精確程度,只是說Facebook在部署系統之前對其進行了廣泛的測試(測試機器誤判的情況)。
畢竟一個把正常表達識別錯誤的機器,也很讓用戶惱火。
回憶詩人顧城的段子。
Mike Schroepfe引用了新報告中的數據,這些數據表明,盡管在最近的25 - 130萬條中,用戶更經常地對刪除內容的決定提出申訴(有可能是罵罵咧咧習慣了,突然被刪,很是不服氣),但后來執意恢復的帖子數量有所減少(習慣了)。
Facebook的數據并未表明仇恨言論在其算法網絡中漏失了多少。該公司的季度報告估計了Facebook規則禁止的某些類型的內容的發生率,但沒有“臟話”內容。新聞官宣顯示,自2019年夏天以來,暴力帖子數量有所下降。Facebook公司“仍在制定一項全球指標”。
缺失的數據掩蓋了社交網絡的臟話言論的真實規模。
西雅圖大學副教授凱特琳·卡爾森(Caitlin Carlson)說道:“與Facebook龐大的用戶網絡以及用戶對令人不安的內容的觀察相比,刪除的帖子數目(960萬條)看起來太少了?!?/p>
教授認為,960萬條“臟話”,這一數據還不夠真實?
無獨有偶,卡教授在2020年1月份發布了一項實驗結果。她和一位同事收集了300多個Facebook帖子(樣本),這些帖子明顯違反了規則,實驗人員用服務工具進行了舉報。追蹤結果顯示,最終只有大約一半的帖子被刪除。
卡教授這一實驗結果,在挑戰Facebook。同時,她也發現,同樣是“口吐芬芳”,算法對種族歧比在歧視女性方面更為嚴格。不知道Facebook高管桑德拉看后作何感想。
Facebook表示,對算法找到(標記)的內容與用戶報告的處理相同。流程上確定是直接刪除,還是警告處理??赡芰鞒躺弦鬓D到下一環節,人工審核者。(或者仍由軟件判定,視情況而定。)
這時候,要談談人工審核員工的苦楚了。
2020年5月,Facebook公司同意支付5200萬美元與內容審查團隊的員工達成和解。原因很驚人,審查帖子導致他們患上了精神創傷,已獲法庭鑒定。外媒The Verge之前詳細報道了這一消息。
消息原文:“Facebook承認內容審核會給員工造成巨大的損失,這一次,是具有里程碑意義的承認。Facebook同意向現職和前任審核人員支付5200萬美元,以補償他們因工作出現的心理健康問題。
在美國圣馬特奧高等法院提出的一項初步和解中,Facebook公司同意支付賠償金,并在他們工作期間給與更多幫(tong)助(qing)。”
天天看這些臟話的人,都受了內傷。當然,這得算工傷。
在“劍橋門”事件后,審核報告是Facebook公司透明度程序的一部分,這一程序還包括聘請一個新的外部專家小組(有沒有研究臟話的專家?),該小組有權推翻該公司的審核決定。
講道理,只有董事會才是公司最高權力機構。
公司協調外部力量參與的力度很大。畢竟罰金有點高,這樣下去,扎克伯格就會比亞馬遜公司的貝佐斯窮多了。
(“劍橋門”事件,臉書認罰50億,當然是美金。) 卡教授繼續與Facebook公司正面硬剛(我還挺欣賞她的執著)。她表示,Facebook公司的披露似乎表明該公司可以自我監管,但報告有缺陷。
她說:“要與公司進行對話,我們需要數據。”
當被問及為何不報告“臟話”言論泛濫情況時,Facebook公司發言人指出,該報告的衡量標準“正在緩慢擴展,以覆蓋更多的語言和地區,以考慮到文化背景和個別語言的細微差別” 。
定義和檢測“臟話”是Facebook和其他平臺面臨的最大社會和技術挑戰之一。
在全球多元文化背景下,即使是人類分辨內容,也是需要花一番功夫的。舉個例子,有抖音號教青島方言表揚人用“赤絲”,請自行體(bai)會(du)一下。
自動化是很棘手的,因為人工智能距離人類對文本的理解還有很長的路要走,理解文本和圖像共同傳達的微妙含義的算法的研究才剛剛開始。
Schroepfer說道:“機器學習算法在語言學研究的幫助下,Facebook已經升級了檢測算法。許多高科技公司正在對其處理語言的軟件系統(例如谷歌的搜索引擎)進行改造,提高用算法解決諸如回答問題或澄清歧義等語言問題的能力。”
他強調:“(這是)重大改進。”
Schroepfer還明確指出,這些改進并不能使技術達到完美?! ?/p>
《透明度報告》透露出,在內容審查和審核方面,Facebook重兵布防人工智能。臟話會影響社交網絡的根基,人工智能再昂貴也要用起來?! acebook表示,它已經創建了超過10000個仇恨語音模因(模因是許多人在互聯網上相互發送的東西,如視頻,圖片或短語)的集合,這些模因結合了圖像和文本,并激發新的研究。
該公司將向研究小組提供10萬美元的獎金,激勵這些研究小組開發出能夠最好地發現可惡的模因與良性內容相混合的開源軟件。
美國還在對社交媒體內容中的“臟話”監管采取放任不管的態度。
德國2017年通過了《網絡執法法》(NetzDG),該法要求擁有或超過200萬用戶的社交媒體公司必須刪除或阻止訪問報告的內容,因其違反了德國刑法對仇恨言論的限制(《網絡實施法》,2017)。
公司必須在收到通知后的24小時內刪除“明顯的仇恨言論”,否則將面臨5000萬美元的罰款(Oltermann,2018年)。
值得一提的是,在2019年恐怖主義襲擊了新西蘭的兩座清真寺之后,全球領導人與臉書、谷歌、推特等其他公司高管會面,共同制定了一套名為《基督城召喚》(Christchurch Call)的全球反恐準則,制定針對極端、暴力,以及仇視性言論。
更值得一提的是,美國沒有簽署承諾。
遠在海外的抖音國際版(Tiktok)也發布了《透明度報告》(2019年12月),只有五頁紙。
別問為什么,被逼的?!』ヂ摼W公司有無可比擬的力量來塑造人類話語世界,偏激言論遍地開花,其處理和刪除情況卻鮮為人知?!锻该鞫葓蟾妗芬策m用于新浪微博等國內互聯網平臺公司。敢問一句,現在是什么樣的世道?先進技術和生產力都用來和“臟話”做斗爭了。
(完)
《親愛的數據》出品
更多閱讀:
1. 喝杯牛奶,太南了?
2. 美國已死,歐洲茍活,消失的人工智能 “法外之地”
3. 專訪商湯科技聯合創始人林達華丨一名AI人才,需要多少栽培?
4. 銀行數據里有錢,隱私數據里有命,20個你不知道的GDPR知識點?
歡迎點“在看”
總結
以上是生活随笔為你收集整理的Facebook公司:如何删掉960万句“脏话”?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win10语言包在c盘哪里,win10系
- 下一篇: PLSQL developer中断执行的