史上最大多模态图文数据集发布!
文 | 付瑤
編 | 小軼
最近多模態研究圈中出現了一個揚言 “史上最大規模”的多模態圖文數據集:LAION-400。該數據集在今年8月完全公開,共計公開了 4億圖文對,可以依據不同的用途提供不同大小版本的子數據集。據小編調查,在 LAION-400 出現前,多模態圖像文本對的最大的開放數據集是 DALE 數據集,該數據集的規模在 10M 左右,大概是 LAION-400 的 1/40,其在圖文對檢索等任務中已顯示數據集不夠大導致模型的性能欠缺。
LAION-400M 通過 CommonCrawl 提取出隨機抓取 2014-2021 年的網頁中的圖片、文本內容。通過 OpenAI 的 Clip 計算,去除了原始數據集中文本和圖片嵌入之間預先相似度低于0.3的內容和文本,提供了4億個初篩后的圖像文本對樣本。
數據集下載鏈接:
https://laion.ai/laion-400-open-dataset/
近兩年多模態的研究已經成為了一大熱點。所謂道“工欲善其事,必先利其器”,一個優質的數據集是研究過程中必不可少的裝備。小編在本文整理了一些常見的多模態任務常用的數據集,分享給大家:
任務一:多模態情感分析
在過去的研究中,大多數基于情感分析的研究都是采用單一模態,隨著情感分析算法逐漸成熟,研究者們可以發現在解決單模態的局限性的研究中,可以通過將多種模態通過特征融合、決策融合等策略等方式,使得模態之間互相輔助,互為補充,既保留模態之間的一致性,也利用模態之間的差異性。在多模態情感分析的研究中,主要有以下幾個數據集:
IEMOCAP數據集
該數據集是2008年由南加大SAIL實驗室錄制收集,共包含了5個男演員和5個女演員錄制情感互動過程,錄制時長大約12h。單條數據包括對話者的音頻、視頻、文本、面部和姿勢信息等,情感標簽為憤怒、快樂、悲傷、中立等10個標簽。IEMOCAP是多模態對話情緒識別中最常用的數據集,數據集單條質量較高,但是其數據集的規模較小。
相關論文:
《IEMOCAP: interactive emotional dyadic motion capture database. Lang Resources & Evaluation. 2008.》
數據集下載鏈接:
https://sail.usc.edu/iemocap/
該數據集需要發送申請表提供數據集用途,數據集提供方才會回復下載鏈接
MELD數據集
該數據集于2019年公布,是由從電視劇《老友記》中截取片段構成,模態包括文本信息、視頻,共計1400對對話,總共13000句,包含7中情感,分別是angger、disgust、sadness、joy、Netural、suprise、fear,對每句話有情感注釋positive、negative、neutral。該數據集規模較大,但是其劇情相關背景較為復雜,識別情感的難度增大。
相關論文:
《MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversation》
數據集下載鏈接:
https://affective-meld.github.io/
CH-SIMS數據集
該數據集中包含60個原始視頻,從中文影視作品《西虹市》、《妖貓傳》中剪輯出2281個視頻片段,每個片段長度在1s——10s之間。數據集的情感標注為-1(負向)、0(中性)、1(正向)。除此之外,在論文的實驗中,作者證明了單模態標簽對多模態的改進,該數據集不僅有多模態最終的標簽,還具備各個單模態的情感標簽。
相關論文:
《CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality》
數據集下載鏈接:
https://drive.google.com/drive/folders/1E5kojBirtd5VbfHsFp6FYWkQunk73Nsv官方提供的google drive鏈接
SEMAINE數據集
該數據集由SEMAINE數據庫收集,構建了4個機器人進行對話,數據集標注的情感維度采用連續模式情感標注,情感維度為:Valence (愉悅度), Arousal (激活度), Expectancy (預期), Power (力量)。其中Valence表示情感積極向的程度,Arousal表示興奮程度,Expectancy表示與預期相符的程度,power表示情感影響力,其中Valence、Arousa和Expectancy為[-1, 1]范圍內的連續值,Power為大于等于0的連續值。SEMAINE是對話情緒識別最常用的連續情感標注的數據集。
相關論文:
《The SEMAINE Database: Annotated Multimodal Records of Emotionally Colored Conversations between a Person and a Limited Agent》
數據集下載鏈接:
https://semaine-db.eu/DailyDialog
除以上三個最具代表性的多模態情感分析數據集之外 CMU 制作的CMU-MOSEI、CMU—MOSI、上海交通大學標注的SEED等數據集結合了視頻、文本、語音等模態,也是多模態情感分析研究任務較為通用的數據集。
任務二:多模態檢索
多模態檢索即不同模態的同類別之間的搜索,例如文搜圖,圖搜文等,融合不同的模態便于檢索,
COCO
COCO數據集是2015年由微軟發布的一個大型物體檢測、分割和字母數據集,包含近20萬個圖像,91類目標、328000影響和2500000個label,標注分為目標點檢測、關鍵點檢測、實例分割、全景分割、圖片標注,COCO數據集主頁還提供了Matlab、Python和Lua的API接口,可以提供完整的數據的加載、parsing和可視化。
相關論文:
《Microsoft COCO Captions Data Collection and Evaluation Server》
數據集下載鏈接:
https://cocodataset.org/#download
IAPR TC-12數據集
IAPR TC-12是圖像模式識別協會來源自2萬張拍攝于世界各地的靜態自然圖像,包括不同的運動和動作的照片,人、動物、城市、風景和當代生活的許多其他方面的照片。每張圖片配對了三種語言英語、德語、西班牙語的標注。
相關論文:
《The IAPR Benchmark: A New Evaluation Resource for Visual Information Systems》
數據集下載鏈接:
https://www.imageclef.org/photodata
Conceptual Captions Dataset
該數據集于2018年出品自GoogleAI,研究者們團隊通過創建自動 pipeline從數十億的網頁中提取和過濾圖片標題,大約有330萬張圖片-文字對。
相關論文:
《Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning》
數據集下載鏈接:
https://github.com/google-research-datasets/conceptual-captions
任務三:多模態對話
大規模多模態對話數據集可以對話中不同的視覺信息融入到對話中,進而生成更高質量的對話。
OpenViDial 數據集
OpenViDial 數據集于2020年創建,通過構建訓練一個OCR模型提取圖片+添加字幕”的形式構造得到。該數據集從影視作品抽取字幕和當前字幕的視頻幀構成(句子、圖片)對,保持數據分布的一致性,經過數據處理和清洗,最終得到一百萬余句子以及對應的圖片信息。
相關論文:
《OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts》
數據集下載鏈接:
https://github.com/ShannonAI/OpenViDial
小結
本文介紹了多模態幾大任務所常用的數據集,我們可以看到主要以下兩種方式來構建多模態情數據集:第一種是來自網絡資源例如從影視資源中截取片段構建的MELD,CH-SIMS數據集。另外一種是基于對特定情感類別進行演繹并錄制,例如IECOMP。除此之外,多模態數據集的模態也可以通過包含模態區分,例如圖文多模態數據集、文本視頻音頻組合數據集、腦電模態數據集等。由于多模態數據集的標注涉及到兩種模態之間的對齊、統一標注標準等問題,相較于單模態的數據集更加復雜耗力,因此除了構建規模更大,數據更優質的數據集,制定更高效的多模態情感數據集的標注策略也是值得關注的問題。
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結
以上是生活随笔為你收集整理的史上最大多模态图文数据集发布!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 超硬核 ICML’21 | 如何使自然语
- 下一篇: 别只关注GPT3!细如发丝的模型更具现实