ImageNet验证集6%的标签都是错的,MIT:十大常用数据集没那么靠谱
作者|張倩、小舟
?來源|機器之心
把老虎標成猴子,把青蛙標成貓,把碼頭標成紙巾……MIT、Amazon 的一項研究表明,ImageNet 等十個主流機器學習數據集的測試集平均錯誤率高達 3.4%。
我們平時用的機器學習數據集存在各種各樣的錯誤,這是一個大家都已經發現并接受的事實。為了提高模型準確率,有些學者已經開始著手研究這些數據集中的錯誤,但他們的研究主要集中在訓練集,沒有人系統研究過機器學習測試集的誤差。
眾所周知,測試集是我們拿來衡量機器學習模型性能的基準。如果測試集錯誤百出,我們得?到的性能數據也會存在很大偏差。?
在一篇新論文中,麻省理工 CSAIL 和亞馬遜的研究者對 10 個主流機器學習數據集的測試集展開了研究,發現它們的平均錯誤率竟高達 3.4%。其中,最有名的 ImageNet 數據集的驗證集中至少存在 2916 個錯誤,錯誤率為 6%;QuickDraw 數據集中至少存在 500 萬個錯誤,錯誤率為 10%。
論文鏈接:
https://arxiv.org/pdf/2103.14749.pdf
下圖 1 顯示了各數據集中存在的錯誤示例:
為了向所有人展示這些錯誤,幫助改進數據集,研究者還做了一個專門的歸類網站。
網站地址:https://labelerrors.com/
該網站列出的錯誤主要包括三種類型。第一種是標錯的圖像,如碼頭被標記成紙巾。
第二種是被標錯的文本情感傾向,如亞馬遜的商品評價本來是消極的,但被標成積極的。
第三種是被標錯的 YouTube 視頻的音頻,如愛莉安娜 · 格蘭德的高音片段被標記成口哨。
論文作者在研究中發現了一個有趣的現象:ResNet-18 這類比較簡單的模型錯誤率要低于 ResNet-50 這種更為復雜的模型,這取決于不相關數據(噪聲)的普遍性。因此,作者建議,如果你的數據集標簽錯誤率高達 10%,你可以考慮使用較為簡單的模型。?
為了方便大家復現論文結果并在自己的數據集中找到標簽錯誤,研究者還在 GitHub 上開源了他們用到的 Python 包(cleanlab)。
項目地址:https://github.com/cgnorthcutt/cleanlab
參與調查的十大數據集
下表一顯示了研究者本次調查的十個數據集以及它們的測試集錯誤率。
以下是這些數據集的詳細信息,從它們的標注過程我們看出標簽出錯的一些可能原因:
MNIST
MNIST 數據集是是美國國家標準與技術研究院收集整理的大型手寫數字數據庫,最早是在 1998 年 Yan Lecun 的論文中提出的。該數據集包含了 0-9 共 10 類手寫數字圖片,每張圖片都做了尺寸歸一化,都是 28x28 大小的灰度圖。該數據集的 ground-truth 標簽是通過將數字與任務的指令相匹配來確定的,以便于復制一組特定的數字。標簽錯誤可能是由于未遵循該數據集的相關說明和手寫歧義引起的。
CIFAR-10 和 CIFAR-100 數據集
CIFAR-10 和 CIFAR-100 數據集分別由 10 類和 100 類 32 × 32 圖像組成。這兩個數據集通過在互聯網上搜索類別標簽來收集圖像。人工標記時通過過濾掉標簽錯誤的圖像,來選擇與類別標簽匹配的圖像。標記器僅根據圖像中最突出的一個實例來賦予標簽,其中允許該實例有部分遮擋。
Caltech-256
Caltech-256 數據集是一種包含圖像和類別的數據集,其中的圖像是從圖像搜索引擎中抓取的,人工標記時將圖像評定為 good、bad 和 not applicable,從數據集中過濾掉遮擋過度、混亂,以及非物體類別示例的圖像。
ImageNet
ImageNet 數據集是機器學習研究中最常用的數據集之一。該數據集通過在幾個圖像搜索引擎上查詢 WordNet 同義詞集(synset)中的單詞來抓取圖像。這些圖像由 Amazon Mechanical Turk 的工作人員標記,他們要檢查這些圖像是否包含特定同義詞集中的對象,過濾掉對象混亂、遮擋過度的圖像,并確保數據集的圖像多樣性。
QuickDraw
QuickDraw 涂鴉數據集是一個包含 5000 萬張圖畫的集合,分成了 345 個類別,這些圖畫都來自于 Quick, Draw! 游戲的玩家。這些圖像帶有一些元數據標注,包括玩家被要求繪畫的內容等。該數據集可能存在圖像不完整、標簽不匹配等情況。
20news
20 Newsgroups 數據集是由發布到 Usenet 新聞組的文章的集合,一共涉及 20 種話題。該數據集常被用于對文本分類和聚類圖像模型進行基準測試。其中每個樣本的標簽是最初發布的新聞組(例如 misc.forsale),該標簽可以在數據收集過程中獲得。
IMDB
IMDB 大型影評數據集是情感分類數據集,用于二元情感分類。其中的標簽是由用戶的評價決定的:滿分 10 分,分數≤ 4 被視為否定,分數≥ 7 被視為肯定。
評價中表示這是一部值得看的作品,但 IMDB 數據集給出的標簽是負面的。
Amazon Reviews
Amazon Reviews 數據集是來自亞馬遜客戶的文本評價和 5 星級評級的集合,通常被用于基準情感分析模型。
AudioSet
AudioSet 數據集包含 632 類音頻類別以及 2084320 條人工標記的每段 10 秒長度的聲音剪輯片段(片段來自 YouTube 視頻),被稱為聲音版 ImageNet。研究者指出一些標簽錯誤是因為標簽混亂、人為錯誤以及音頻檢測差異造成的。
如果測試集錯誤太多,大模型未必好用
在估計了各個測試集的錯誤率之后,研究者利用 ImageNet 和 CIFAR-10 作為案例研究了測試集標簽錯誤對基準穩定性造成的影響。
雖然這些基準測試數據中存在很多錯誤標簽,但研究者發現,在移除或修正這些錯誤之后,基準中的模型相對排名并沒有受到影響。但他們也發現,這些基準結果是不穩定的:與參數較少的模型(如 ResNet-18)相比,容量較大的模型(如 NasNet)在預測結果中更加能夠反映這些系統性標簽錯誤的分布,而且這種效應隨著測試標簽錯誤普遍性的增加而變得更加明顯。
這不是傳統的過擬合。更大的模型能夠更好地泛化至測試數據中給定的噪聲標簽,但這是有問題的,因為在標簽修正之后的測試數據上進行評估時,這些模型給出的預測結果比不上那些容量較小的模型。
在存在大量標注錯誤的現實世界數據集中,小容量模型可能比大容量模型更有用。舉個例子,從基于原始給定標簽的測試準確率來看,NasNet 似乎要優于 ResNet-18,但如果用標簽修正之后的測試集進行測試,NasNet 的準確率其實比不上 ResNet-18。由于后者在現實中更為重要,在這種情況下,我們在現實中部署的也應該是 ResNet-18,而不是 NasNet。
為了評估流行預訓練模型的基準如何變化,研究者隨機并遞增地刪除正確標記樣本,每次刪除一個,直到只剩下一組原始的被錯誤標記的測試數據(標簽得到糾正)。借助這種方法,他們只刪除了 6% 的正確標記測試樣本就讓 ResNet-18 的表現超越了 ResNet-50。
該研究表明,如果著手糾正測試集中的標簽錯誤或在數據集噪聲較多時使用較小 / 較簡單的模型,ML 從業者可能會從中受益。當然,你首先要確定你的數據集噪聲是不是真的有那么大,判斷方法可以在論文中找到。
參考鏈接:https://www.csail.mit.edu/news/major-ml-datasets-have-tens-thousands-errors
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的ImageNet验证集6%的标签都是错的,MIT:十大常用数据集没那么靠谱的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: u盘怎么安装网络适配器驱动程序 U盘安装
- 下一篇: 技嘉电脑怎么进入bios 技嘉电脑如何进