机器学习大赛又出骗子!窃取私有数据集 一万美元到手
圖:作弊者通過寵物領養平臺Petfinder.my收集有關Private Leaderboard的答案,從而獲得竟賽冠軍
【網易智能訊1月16日消息】世界最知名的數據挖掘以及機器學習競賽平臺Kaggle剛剛宣布,獲得最新競賽的冠軍團隊Bestpetting因涉嫌作弊而被剝奪了冠軍頭銜。該團隊通過寵物領養網站Petfinder.my收集Private Leaderboard的答案,然后將這些數據隱藏在他們提交的文件中,并于2019年4月9日贏得年度冠軍。在總共25000美元的獎金池中,Bestpetting團隊獲得了10000美元,如今這筆資金已經無法追回。
何為Kaggle競賽?
Kaggle(谷歌子公司)是一個圍繞建立機器學習模型的競賽而建立起來的在線社區,該平臺的獎金池高達150萬美元,吸引了各種各樣的數據玩家。Kaggle為競賽提供數據集,以及將用于決定獲勝而提交的指標。參賽者分析給定的數據,構建模型以匹配期望的結果,然后提交結果(通常與代碼一起提交)。為了防止有人作弊,機器學習競賽使用沒有標記的數據,并分兩個階段使用:
第一,當比賽結束后,參賽者只擁有作為未標記數據的數據集中的“私人”部分,用于幫助選擇獲勝者。在理想情況下,此數據可以表示模型將如何對以前從未見過的數據執行相關操作。
第二,為了在比賽期間對參賽者進行排名,參賽團隊提交的作品會根據數據集中專門用于leaderboard(臨時成績)的部分進行評分。就像“私人”測試數據一樣,參賽者可以使用這些數據,但沒有標準。單獨針對leaderboard指標進行優化的團隊,通常會因為不適用于數據集的“私人”部分而失敗。
使用私人數據作弊
這種競賽形式的結果是,如果某個團隊獲得了私有測試數據集的基本事實答案,那么它獲勝的可能性就會大增。但作弊團隊構建的模型往往是無效的,會使競賽變得毫無意義。在這種情況下,作弊者會在提交答案的同時附上自己的答案。
其他的作弊方式可能更難以察覺。其中一種方法是使用完整的數據集來優化超參數,從而創建一個看似更有效的模型。也許作弊團隊會選擇更容易檢測的方法,因為他們根本沒有能力創建值得被選入leaderboard的模型,也有可能是因為他們不愿費更多心思。
解決這些問題的辦法可能是將私人數據完全排除在競賽之外,提交必須包括提供API來生成預測的代碼,但這也將防止參賽者知道私人和leaderboard數據中的功能分布。
Kaggle競賽的陰暗面
Kaggle競賽有很多潛在的問題。有人在檢測信用卡詐騙的競賽中偶然發現了一個例子。一種流行的模型正在使用來自未來的信息進行培訓,這將使其在實踐中無法使用,畢竟銀行無法預測這些尚未發生的事情。許多模型使用數據集的方式會產生更高的分數,但會使模型對競賽組織者毫無用處。不過,這些模型仍然可以贏得競賽,因為他們沒有違反任何規則。
由于可能存在的這些漏洞和無用結果,競賽組織者必須對他們的數據和規則格外警惕和謹慎。有些人要求舉行多輪競賽選拔勝者,有些人建議平均分配獎金給更多的頂級參賽者。
作弊慣犯
Bestpetting團隊由帕維爾·普萊斯科夫(Pavel Pleskov)、納雷克·馬洛揚(Narek Maloyan)和費多爾·多布里揚斯基(Fedor Dobryanski)組成。這并不是普萊斯科夫第一次破壞Kaggle競賽,也不是第一次被指控作弊,只是過去Kaggle競賽組織方沒有相關預防措施,而且普萊斯科夫本身也是Grandmaster級別的大牛。
圖2:在Kaggle競賽中被曝作弊的帕維爾·普萊斯科夫
普萊斯科夫被剝奪冠軍頭銜,并被禁止進入Kaggle平臺,記者還聯系了普萊斯科夫的雇主H2O.ai,請其發表評論。后者的發言人英格麗德·伯頓(Ingrid Burton)回應稱:“今天早些時候,我們已經知道了情況。普萊斯科夫不再與H2O.ai有關聯,立即生效。我們還將與Petfinder.my聯系,看看我們能為他們提供什么幫助。”
我門沒有找到費多爾·多布里揚斯基(Fedor Dobryanski)的進一步信息,他也被禁止進入Kaggle平臺。不過,納雷克·馬洛揚(Narek Maloyan)沒有被禁。
Kaggle有更光明的未來
總結
以上是生活随笔為你收集整理的机器学习大赛又出骗子!窃取私有数据集 一万美元到手的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 马斯克今年净资产增加91.9亿美元,增长
- 下一篇: 估值40亿美元,腾讯投资Roblox:沙