《纽约时报》揭秘 Facebook 内容清理工作:“累死 AI”都完不成的任务
編者按:最近一系列的丑聞讓社交網絡巨頭 Facebook 坐在了火山口上。平臺是中立的,不能干涉用戶生成內容再也不能成為借口。但是 20 億用戶每天產生的內容量要想清理簡直是天方夜譚。哪怕使用了 AI 加以輔佐,也總會有 AI 意想不到的情況出現。這就好比一場貓捉老鼠的游戲,又像是西西弗斯推巨石上山,每每快到山頂時,石頭就會從其手中滑脫,又得重新推回去,干著無止境的勞動。CTO 原本要幫助 Facebook 面向未來探索 AI 應用的新領域,現在不得不背負起這一沉重的負擔。Cade Metz 與 Mike Isaac 在《紐約時報》的一篇文章報道了 Facebook 內容清理方面的努力。
原文標題是:Artificial Intelligence and the Job of Cleaning Up Facebook
有那么半小時,我們是坐在 Facebook 總部的一個會議室里的。周圍都是白板,上面放滿了藍色和紅色記號筆,我們在討論從該社交網絡剔除有害內容的技術難度。然后我們調出了一段視頻證明這種挑戰是難以對付的:新西蘭克賴斯特徹奇的槍擊案。
今年 3 月,一名槍手在 2 個清真寺射殺了 51 人,而且還在 Facebook 上進心視頻直播。公司用了大概 1 個小時才把視頻從網站清除。不過此時血腥鏡頭已經在社交媒體上傳播開了。
Schroepfer 沉默了。他的眼里好像有東西在閃。
一分鐘后,他試圖保持鎮靜的語氣:“我們現在正致力于此事。這不會是一夜之功。但是我不希望 6 個月后再來一次這場對話。我們可以做得比這好得多。”
問題是此話當真還是 Facebook 只是在開玩笑。
過去 3 年,這個社交網絡就一直因為有人在其網站上發布虛假、誤導和不合適的內容的擴散而受到審查。CEO 扎克伯格已經調用了一項技術,據他說可以幫助消除有問題的帖子:人工智能。
去年,在國會面前,扎克伯格作證說 Facebook 正在開發基于機器的系統來“識別特定類別的不良活動”,并且宣布“在 5 到 10 年內,我們將擁有 AI 工具”來偵測和移除仇恨言論。此后他就不斷在媒體、與華爾街的電話會議及 Facebook 自己的活動上重復這些話。
Schroepfer——或者內部被叫做 Schrep——就是 Facebook 的項目負責人。他要帶領團隊開發對數百萬此類帖子進行分類和刪除的自動化工具。但是這項任務就像西西弗斯推石頭上山一樣——是徒勞的,他在最近接受的 3 次采訪中均承認了這一點。
這是因為每次 Schroepfer 和他的超過 150 名工程專家剛做出標記和清理有害材料的 AI 解決方案時,AI 系統沒見過的新的、可疑帖子(因此也就抓不到)又冒頭了。再加上“不良活動”往往是旁觀者的看法,而且不要說機器了,就連人類對它是什么也意見不一致,這使得這項任務更加困難。
在一次采訪中,Schroepfer 被迫承認光靠 AI 沒法治好 Facebook 的病。他說:“我的確認為現在進入了收官階段。”但“我并不認為‘一切均已解決’,可以收拾東西回家了。”
但是壓力還在。過去的一周,在克賴斯特徹奇的視頻飽受批評之后,Facebook 修改了政策,對流媒體服務的使用進行了限制。周三在巴黎出席有法國總統馬克龍和新西蘭總理杰辛達·阿德恩參與的峰會時,該公司簽署了一份保證書,承諾對其用于識別暴力內容的工具進行重新檢查。
44 歲的 Schroepfer 現在處在一個自己永遠都不想坐的位置。多年來,他的工作一直都是幫助 Facebook 建設和一流的 AI 實驗室。在這里,最聰明的頭腦將解決利用機器從照片中選出人臉等技術挑戰。他和扎克伯格希望做出一個可以跟 Google,這個被廣泛視為 AI 研究人員實力最雄厚的公司匹敵的 AI 部門。所以他從紐約大學、倫敦大學以及巴黎第六大學招聘博士。
但慢慢地,他已經變成了威脅和有害內容消除者的角色。現在,他和他招進來的人很多時間都花在利用 AI 識別和刪除死亡威脅、自殺視頻、錯誤信息以及徹底謊言上面了。
John Lilly 是 Moziila 前 CEO,現在是 Greylock Partners 的風投家,1990 年代中期時曾與 Schroepfer 一起讀計算機科學。她說:“我們誰都沒見過這樣的事情。該怎么解決這些問題沒人任何人可以求助。”
Facebook 允許我們跟 Schroepfer 交流,因為它想展示一下 AI 是怎么捕捉那些討厭的內容的,大概也是因為它對人性化自己的主管感興趣。據很多認識他的人說,這位 CTO 經常展現他的感受。
Jocelyn Goldfein 就跟 Schroepfe 在 Facebook 共事過。前者是 Zetta Venture Partners 的風投家,他作證說:“我見過 Schrep 在工作中哭過,我不認為說這樣的話是不合時宜。”
但是沒幾個人能預測到 Schroepfer 對我們的問題會作何反應。在其中 2 次采訪中,對于 AI 可能會是解決方案他開始傳遞的是樂觀的信息,然后就變得情緒化。他一度說有時候來上班都是一種掙扎。每次談到 Facebook 所面臨的問題規模以及他所擔負的要改變局面的責任時,他都會哽咽。
談到那些有問題的帖子時他說:“永遠都不可能降到0。”
“多么沉重的負擔,多么巨大的責任啊。”
2013 年 12 月的一個星期天,Clément Farabet 走進了內華達太浩湖 Harrah 賭場酒店的這家頂樓套房。在里面,他受到了 Schroepfer 和扎克伯格的歡迎。
扎克沒有穿鞋。接下來的 30 分鐘里,這位 CEO 穿著襪子來回踱步,一邊跟紐約大學 AI 研究人員 Farabet 交談。扎克伯格稱 AI 是“下一個大事物”,是“Facebook 的下一步”。Schroepfer 則坐在沙發上,偶爾插插話來強調某一點。
他們到城里來是為了招募 AI 人才。那一年太浩湖是 NIPS(神經信息系統處理大會)的舉辦地。而 NIPS 是專業的 AI 學術會議,每年都會吸引全球的頂級研究人員到來。Facebook 管理層已經引進了 Yann LeCun,這名紐約大學學者被認為是現代 AI 運動之父之一,被招進來后他創立了 Facebook 的 AI 實驗室。把 LeCun 看作自己的導師的 Farabet 也在他們的最后人選當中。
說到扎克伯格,Farabet 說:“他基本上誰都想要。他知道這一塊的每一位研究人員的名字。”
那段時間是 Facebook 令人陶醉的日子,然后他們的軌跡和 AI 工作的使命開始改變了。
當時,從 Google 到 Twitter,硅谷最大型的科技公司都在爭相成為 AI 的中堅。這種技術已被互聯網公司摒棄了多年。但在大學,像 LeCun 這樣的研究人員已經悄悄地培育出名為“神經網絡”的 AI 系統,這種復雜的數學系統可通過分析海量數據自行學習任務。出乎硅谷許多人的意料,這些晦澀且多少有些神秘的系統終于開始工作了。
Schroepfer 和扎克伯格希望把 Facebook 推入到這場競爭當中,把這一迅速改進的技術視為公司必須抓住的東西。AI 可以幫助該社交網絡識別發布到網站上面的照片和視頻中的人臉,Schroepfer 說,而且還可以用來進行更好的定向廣告,組織其新聞流,并進行語言翻譯。AI 還可以用來提供像“聊天機器人”這樣的數字電子產品,讓企業跟客戶進行互動。
Schroepfer 說:“我們打算招募全世界最好的人才。我們要建設新型的研究實驗室。”
從 2013 年開始,Schroepfer 就一直在招募專長神經網絡的研究人員,當時該領域的明星酬金都是數百萬甚至上千萬美元(4、5 年期)。在 2013 年的那個星期天,他們并沒有成功招到 Farabet,后者后來自己創辦了一家 AI 初創企業,隨后被 Twitter 收購了。但 Schroepfer 從 Google、NYU 以及蒙特利爾大學等處挖來了幾十名頂級研究人員。
Schroepfer 還組建了第二個組織,應用機器學習團隊,任務是將 Facebook AI 實驗室的技術轉化為現實世界的應用,比如臉部識別、語言翻譯以及增強現實工具等。
2015 年底,部分 AI 工作開始轉化。催化劑是巴黎恐襲。在那場襲擊中,伊斯蘭激進分子殺死了 130 人,并導致 500 人受傷。事后,據匿名人士透露,扎克伯格問應用機器學習團隊 Facebook 可以怎樣去打擊恐怖主義。
作為回應,該團隊利用新的 Facebook AI 實驗室內部開發的技術來建設一套識別在該社交網絡上宣傳恐怖主義的系統。該工具會對 Facebook 里面提到了伊斯蘭國或者基地組織的帖子進行分析,然后把那些最有可能違背公司反恐政策的帖子標記出來。然后再對帖子進行人工審核。
這是 Facebook 利用 AI 查貼刪貼的轉折點。
這項工作很快就有了強勁的發展勢頭。2016 年 11 月,特朗普當選美國總統,大家對 Facebook 網站成為虛假信息的溫床開始抵制,因為那些虛假信息可能影響到投票并且為特朗普的勝選打下基礎。
盡管該公司已開始否認自己在虛假信息傳播和選舉中所扮演的角色,但仍開始在 2017 年初將技術資源轉移到自動識別廣泛的有害內容上,包括裸露照片和假賬號等。它還設立了幾十個“防垃圾(integrity)”崗位,專門來跟網站不同板塊的有害內容做斗爭。
到 2017 年中,有害內容檢測已經成為了應用機器學習團隊工作的重心。Schroepfer 說:“我們的內容理解工作的頭號優先事項顯然是誠信。”
然后,到了 2018 年 3 月,紐約時報等報道了英國政治咨詢機構劍橋分析在未經同意的情況下收割來數百萬 Facebook 用戶的信息,然后為特朗普的競選團隊提供投票人的檔案信息。對該社交網絡的怒火開始爆發了。
很快 Schroepfer 就被叫過去處理這起事件。2018 年 4 月,他被指定為主管飛到倫敦面對英國的一個議會委員會,去回答對方有關劍橋分析丑聞的質疑。在那里,他被議會委員會的成員拷問了 4 個小時。
向全球直播的聽證會期間,工黨政客 Ian Lucas 對著面色鐵青的這位主管發問:“Schroepfer 先生,你的頭兒是不是誠信的?我仍然不相信你的公司具有誠信。”
Forest Key 是虛擬現實初創企業 Pixvana 的 CEO,兩人自從 1990 年代末一起在一家電影效果技術初創企業共事以來就認識了。他說:“我很難看得下去。這是多么沉重的負擔啊。這是多么巨大的責任啊。”
用 AI 來牽制 Facebook 的內容問題的挑戰仍在繼續——Schroepfer 的擔子很重。
“勸說工程師不要打退堂鼓”
剛到 Facebook 的時候,Schroepfer 被看作是問題解決者。
Schroepfer 從小在佛羅里達德爾雷比奇長大,他的父母經營著一個 1000 瓦的調頻電臺,先是放搖滾樂,后來又換成R&B,1993 年,Schroepfer 搬到了加州上斯坦福。他在那里本科和研究生讀的都是計算機科學,跟 Lilly 和 Adam Nash(現為 Dropbox 的高管)這些技術專家混在一起。
畢業后,Schroepfer 呆在硅谷,開始一段痛苦的技術事業。他先是在一家電影效果初創企業嶄露頭角,之后又成立了一家為大規模數據中心開發軟件的公司,那家公司隨后被 Sun Microsystems 收購。2005 年,他加入了 Mozilla 擔任工程副總裁。這家非營利組織的瀏覽器挑戰了微軟 IE 瀏覽器的壟斷。當時,沒有什么技術任務比他們的項目要大。
Mozilla 聯合創始人 Mike Shaver 曾跟 Schroepfer 共事過幾年,他說:“瀏覽器是復雜產品,當時的競爭格局很不可思議。甚至在他的職業生涯早期,我對他的處理能力也從來都沒懷疑過。”
2008 年,Facebook 聯合創始人 Dustin Moskovitz 從工程負責人的位置退下。Schroepfer 加盟接管了他的角色。當時 Facebook 服務的用戶約為 200 萬人,他的工作是保證網站在用戶數暴漲的情況下不間斷運行。這份工作涉及到管理成千上萬的工程師,以及全球數以萬計的計算機服務器。
Schroepfer 說:“大部分的工作就像是著火的巴士正在從山上滾下來但 4 個輪子都癟了。問題是怎么讓它繼續走。”他的的一天很大一部分是“跟工程師談話讓他們冷靜下來不要沖動想不干”因為他們整天都在處理問題。
接下來的幾年,他的團隊開發了一系列的新技術來泡那么大的一個服務(Facebook 現在的用戶已經超過 20 億)。他們推出了新的編程工具幫助公司更快更可靠地把 Facebook 交付到筆記本和手機上。它引入了定制服務器到數據中心,讓龐大的服務器計算機網絡運營變得流暢。到最后,Facebook 顯著減少了服務中斷。
Schroepfer 說:“我已經不記得上一次跟因為擴充問題而筋疲力盡的工程師對話是什么時候了。”
因為這些努力,Schroepfer 的責任也越來越大。2013 年,他被提拔為 CTO。他的工作變成了著眼未來,跟蹤公司應該探索的新的技術領域。想知道他的角色有多重要?他的辦公桌就在扎克伯格的旁邊,夾在這位 CEO 與 COO Sheryl Sandberg 中間。
關于 Schroepfer,扎克伯格說:“他是公司很多人如何思考和運營的很好代表。Schrep 的超級能力可以跨不同問題領域教導和建設團隊。我還沒跟其他任何能夠像他那樣做到這一點的人共事過。”
所以,毫不奇怪扎克伯格會找到 Schroepfer 去處理 Facebook 上所有那些有害內容。
西蘭花 vs. 大麻
最近的一個下午,在一間 Facebook 的會議室,Schroepfer 從他的屁股筆記本電腦里取出了兩張圖片。一張是西蘭花的圖片,另一張是聚成一團的大麻花蕾。每個人都盯著這些圖片。有的不大敢確定哪個是哪個。
Schroepfer 展示這些圖片是想說明一點。即便是我們當中的一些人分辨都有困難,但現在 Facebook 的 AI 系統能夠從成千上萬中圖像中找出模式,從而自行分辨大麻的蓓蕾。一旦 AI 標記出大麻圖片,其中很多都是附加在 Facebook 廣告上,利用圖片通過該社交網絡賣大麻的,公司就會找出來刪掉。
Schroepfer 說:“現在我們可以主動逮住這類東西了。”
問題在于大麻與西蘭花之對決不僅是進展的信號,也是 Facebook 遭遇限制的標志。Schroepfer 的團隊已經開發出公司用于識別和移除大麻圖片、裸體及恐怖分子相關內容的 AI 系統。但是那些系統不能把那些圖片全都揪出來,因為總會有預想不到的內容出現,意味著還是會有數百萬裸體、大麻相關以及恐怖分子相關的帖子繼續進入到 Facebook 用戶的視線。
識別流氓圖片也是 AI 較為容易的任務之一。建造識別假新聞或者仇恨言論的系統會更困難。假新聞很容易就能塑造成看似真實的樣子。仇恨言論也有問題,因為機器識別語言的微妙差別實在是太難了。很多微妙差異會因語言而異,而對話的上下文也會快速地演變,導致機器難以跟上。
AI Foundation 是一家探索人工智能如何與虛假信息斗爭的非營利組織。其研究負責人 Delip Rao 把這一挑戰說成是“一場軍備競賽。”AI 是根據之前出現的東西搭建的。但沒有任何東西可學的情況太常見了。行為改變。攻擊者創造出新技術。顯然,這是一場貓捉老鼠的游戲。
Rao 說:“有時候你比那些導致傷害的人領先一步。有時候他們在你的前頭。”
那個下午,Schroepfer 試圖用數據和數字回答我們有關貓捉老鼠游戲的問題。他說 Facebook 現在自動移除了該社交網絡 96% 的裸體內容。仇恨言論更棘手一點,他說——公司目前只捕捉到其中的 51%(Facebook 后來說提高到 65% 了)
Schroepfer 承認軍備競賽元素的存在。他說,盡管 Facebook 可自動檢測和移除有問題的直播視頻流,但并沒有識別出 3 月份新西蘭的視頻,因為這段視頻跟過去任何上傳到該社交網絡的內容都不一樣。這段視頻用的是第一人稱視角,就像計算機游戲一樣。
在設計識別圖像暴力的系統時,Facebook 一般都要后向拿現有圖像進行處理——那些踢貓的人,狗攻擊人,汽車撞上行人,一個人拿棒球棒揮向另一人等的圖片。但是,他說:“那些跟這個視頻均無太多的相似之處。”
那次槍擊視頻的新穎性正是它之所以令人如此震驚的原因,Schroepfer 說。“這也是它沒有馬上被標記出來的原因。”,并且補充說自己看了那段視頻好幾次,以弄清楚 Facebook 下次可以如何去識別出來。
最后他說:“我真希望自己沒看過那些東西。”
原文鏈接:https://nytlicensing.com/story/pLTjoQ94/
譯者:boxi。
總結
以上是生活随笔為你收集整理的《纽约时报》揭秘 Facebook 内容清理工作:“累死 AI”都完不成的任务的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 地球史上最大的一次灭绝
- 下一篇: WHO 将游戏成瘾归类为疾病