DCASE挑战赛原始提案文件(详细信息)
本文是根據DCASE2013挑戰賽的提案文件,加上個人的理解做了相應的翻譯,可能有不對的地方,在之后的會慢慢改善。
背景
在過去的十年里,人們對在代碼公布和公共評估中提出方法的語音和音頻處理社區的興趣越來越濃厚。公共評估可以作為提出方法性能的參考點,也可以用于性能提升的研究。例如,盲源分離和自動音樂音譯已經定義,它們已經建立了自己的性能指標,并且每一個都執行公共評估(詳見用于信號分離的SiSEC評估的第一個和用于音樂信息檢索的MIREX競賽的第二個)。然而,對于研究計算聽覺場景分析(CASA)領域的研究人員來說,特別是包含非語音和非音樂和探測音頻事件的聲學場景建模和識別的任務,在這個領域還沒有一個統一的國際挑戰賽。因此我們建議組織一個對聲學事件的檢測和分類系統的性能評估的挑戰賽。這挑戰將幫助這個研究社區在更好地定義具體的任務,向前邁進一步,也將為研究人員提供激勵,讓他們積極從事這一領域的研究。最后,它將有助于闡明目前存在于該任務中的爭議,并為實現部分任務的系統開發提供參考點。
我們應該提到的是目前我們提出的最接近的挑戰是集中于視聽,在錄像的多模態事件檢測的TRECVID多媒體事件檢測(詳見:TRECVID 2011 MED Evaluation track)。有研究人員只使用來自TRECVID挑戰的音頻來評估他們的系統,為音頻挑戰而明確開發的數據集將提供一個更好的評估框架,因為它在音頻方面的變化要大得多。另外,將會產生能夠滿足音頻分析系統對一個更全面評估的需求,并且可能會得到更廣泛的應用和成為一個標準的數據集。
我們還應該注意到被提出的一個公共評估——音頻分割和揚聲器二值化(詳見:Albayzin 2010音頻分割和講者二化評估任務)是建議。這個提出的評估任務包括將一個廣播新聞音頻文檔分割成幾個特定的內容課程:音樂,演講,和音樂/噪音背景音樂或其他。因此,這是一個很解決明確任務的,它與當前的提議沒有重疊。
最后,一個與本次提議的挑戰賽有關的公開評估是在2006年和2007年進行的,是CHIL項目資助的CLEAR評估。關于音頻、視頻或多模式和事件檢測的幾個任務被踢出,這些是一個“聲音事件檢測和分類”的評估。這些數據集是在幾個交互式研討會上記錄下來的,并包含與研討會相關的事件(演講、掌聲、椅子移動等)。從為評估而創建的數據集來看,FBK-Irst聲學事件數據庫(CHIL,“隔離會議室聲學事件的FBK-Irst數據庫”,歐洲語言資源協會)已經廣泛應用事件檢測文獻中,但是, 前面提到的數據集只包含不重疊的事件。CLEAR評估盡管在當時很有前景和創新性,但是并沒有建立一個針對這類任務公認的評估挑戰,主要是因為這些數據集僅限于特定類型的事件和聲音場景。這些評估隨著CHIL項目的結束,已經停止了。
挑戰賽介紹
在計算聽覺場景分析(CASA)中有兩個密切相關的任務是聲學場景分類和在一個場景中檢測聲音事件。涉及第一個任務的系統的目標是表征或是 “標記”音頻錄制的環境,但是旨在檢測聲音事件的系統嘗試去將音頻分割成音頻段,這個音頻段能夠表示在每個事件有起止時間和需要將它與其他重疊事件分開的特定事件類別的單個事件的。
提出挑戰賽是為檢測在單聲道錄音中對聲學場景和事件進行分類構建一組特定的子挑戰集。我們的目標是聚焦于CASA開發系統的科學社區,鼓勵分享想法和改進這種藝術的狀態,可能會推動系統的發展從而達到接近于人類感知的性能。
第一個挑戰賽將解決音頻場景識別問題,第二個挑戰賽解決識別單個聲音事件的問題聲場景。兩個截然不同的實驗將用于聲音事件識別,一個用于沒有重復聲音的簡單的聲學場景中,而另一些場景使用有復調的復雜場景。在日常情境中,大多數的聲音都多源的,所以復音場景會更有趣,但也更具挑戰性。
評估數據
- 數據集
總共有4個數據集,一個用于場景分類,3個用于事件檢測。第一個為現場分類(SC)挑戰,將包括30秒的各種聲音場景。數據集將由兩個相同比例的部分組成,一個部分有10個場景,每個場景(類)有10個音頻記錄組成,總計每個部分的100個錄音。其中一個部分將發送給參賽者用于建立并研究他們的性能。他們的系統和其他的系統將被保密,用于訓練/測試場景的分類任務。場景是:
第二個數據集將包含三個子集(一個培訓、一個開發和一個測試數據集)。培訓 set1將包含每個類的單個事件的實例化。開發(驗證)和測試數據集,表示為office live(OL),將包含大約1分鐘的所有日常音頻事件的大約1分鐘錄音。辦公環境(不同尺寸和吸引人的房間,房間里不同的人,不同的人噪音水平)。這些錄音的音頻事件將被注釋,它們將包括:
將會發布有兩種不同的注釋,它們分別來自不同的人和都檢查一致性和錯誤。特別是在長軟尾巴的情況下,在一些事件的偏移量上人類不可能提取出一個有意義和準確的偏移點,這通常是主觀的注釋器的觀點,即那個事件的偏移量(原文:Especially in the case of long soft tails in the offset of some events it is
humanly impossible to extract a meaningful and accurate offset point and it usually comes down to the subjective
opinion of the annotator where the offset for that event is. )。因此,包含多個注釋將有助于通過允許在復雜的測試過程的中進行一個小的權衡來概括系統評估。歡迎參與者同時使用這兩種,這兩種都是平均值或者兩者之一。測試計劃是兩個都執行。這訓練集將包括每個類別有24個不同的錄音,然后是他們在秒上的起始和偏移的注釋。開發集將包括來自辦公室環境的一系列事件的3份記錄。這些記錄還將伴隨事件的起始和偏移量的注釋。第三個將不會發布的數據集將錄制所有辦公環境中的聲音事件,不將這個用于開發集。
第三個數據集將包含由IRCAM的分析-合成團隊提供的人工排序的聲音,即所謂辦公室合成(Office Synthetic,OS)。OS任務的數據將由三個如前一個任務一樣的子集組成。那訓練數據集將由單個事件的音頻記錄組成,并且將與現實任務相同。開發和測試數據集將包括由個人排序記錄建立的人工場景事件(用于培訓數據集的不同記錄)和通過C4DM提供的背景記錄。由于這些數據被QMUL(倫敦瑪麗女王大學)記錄下來,因此可以確保機密性。這個子任務的目的是研究測試算法面對不同層次的復雜性時,比如事件背景能量比,單個事件的重疊程度等時的反應。使用這個數據集的好處是這樣的實驗比使用真實的錄音更容易控制和更真實。除此之外, 即使是復音混合,在不同的聲音之間也有很多重疊的地方,地表真值(ground truth)是最精確的。我們期望系統在這個數據集里表現得更好,但是它可以幫助我們基于“增大化現實”技術測量系統性能。
第4個也是最后一個數據集將包含由IRCAM的分析-合成團隊提供的人工排序的聲音,被稱為世界合成(WS)。訓練集將包括一系列廣泛的音頻記錄。來自FreeSound數據庫預定義事件集合中廣泛的不同事件的音頻記錄。與在OS任務中一樣,開發和測試數據集將根據相同類型的不同記錄構建事件(也從FreeSound數據庫中獲取)。在這個任務中沒有確保機密性,因為我們需要確保參賽者不使用用于構建測試集的FS樣例來訓練和開發他們的系統。因為是用于構建測試集的示例的Freesound id將被提供給參賽者。這個子任務的目的是研究在面對更多樣化的事件時測試算法的行為背景。待測的的事件類別將包括海洋場景:波浪、鳥、水花、汽艇、霧角,腳步聲(沙子,碎石),孩子們玩耍,風吹,和航行的聲音。森林場景:風吹,樹葉沙沙作響,腳步聲(人類,動物),鳥叫聲,昆蟲,哺乳動物叫聲,狩獵聲音,樹枝折斷。
注意:挑戰的所有數據集將在一個知識共享(CC BY)許可下發布。
- 錄音設備
倫敦瑪麗皇后大學數字音樂中心(Centre for Digital Music at Queen Mary University of London)收集環境音頻數據專門用于挑戰。錄音設備包括兩種設置。第一種是高質量的聲場麥克風系統——SPS422B模式(SPS422B Microphone System),能夠清晰地捕捉4聲道環繞聲音,如果需要的話,也可以在以后的狀態中映射到立體聲或單聲道。第二種是一套音效師雙耳麥克風(Soundman binaural microphones),OKM II模型(SoundMan, Binaural Microphone system),是專門制造以致于他們可以模仿了一對耳朵的可穿戴的耳機。該系統的可移植性和精妙之處在于,用戶不會因為錄制吸引的環境中人們的注意。因此,我們可以暢通無阻地獲取日常的錄音。此外, 錄音的聲音與人類聽覺系統的聲音非常相似在被與頭相關的傳輸功能(HRTF)過濾后,設備被記錄下來。因此, 所得到的數據還攜帶了關于聲音的雙耳信息,這些聲音可以作為線索聲音事件和場景檢測從音頻或簡單的被完全忽略通過將兩個通道加在一起獲得單聲道錄音。
第一個任務(聲音場景分類)的聲音文件,用雙耳麥克風記錄下來,以下規格:PCM、44100 Hz、16位、雙通道(CD質量)。聲音文件的規范另一項任務是用聲場麥克風系統錄制的,是雙聲道立體聲(混合從4通道b格式),44100 Hz,24位。b格式也會和立體聲一起發布版本但是挑戰將會以立體聲而不是b格式運行。挑戰的參與者將會混合記錄的靈活性。
最后要注意的是,在訓練和測試中,錄音水平都是保持不變的錄音和所有任務(在不控制錄音條件的情況下)。
度量
- 場景識別
對于對聲音場景進行分類,每個運行單個文件的輸出只包含類標簽。作為在MIREX訓練/測試任務中,將計算的指標將是原始分類(標識) 準確性,每個類的規格化的分類精度,標準偏差,和一個混亂矩陣提交。對于這個測試/測試任務,將使用5倍的交叉驗證來評估參與算法。
- 事件檢測
對于事件檢測,將進行三種類型的評估。基于框架的,基于事件的,和類的基于事件的評價。我們相信這兩種方法可以對各種不同的方法進行全面的評估系統,基于事件的評估捕獲整個事件檢測的準確性,以及基于框架的評估提供更詳細的細節,每一系統的準確性。
每個運行的輸出將是一個文件,該文件應該包含啟動、偏移和由一個選項卡分隔的事件ID,按時間順序排列:
基于框架的評估將使用10 ms步驟進行。基于框架的主要度量標準評估將是基于幀的聲音事件錯誤率的版本:AEER = (D + I + S)/N · 100。此處N是用于檢測特定幀的事件數量時,D是刪除(丟失事件)的數量,I 是插入的數量(額外的事件),S是事件替換的數量,定義為S=min{D,I}。幀級別的度量在記錄的持續時間內是平均的。
可以使用精度、回憶和f-度量(p-r-f)來給出額外的度量標準。通過表示為r,e,和在給定的10ms框架中,基本事實的數量,估計和正確的事件,前面提到的度量定義為:Pre = c/e, Rec = c/r,F = (2 · Pre · Rec)/(Pre + Rec)。對于基于只有起點的基于事件的評估,每個事件被認為在100毫秒內被正確地檢測到。寬容窗口。對于基于起點-偏移事件的評估,如果發生在內部,則每個事件都被正確地檢測到。 100ms的容忍窗口和它的偏移量在地面真相事件的50%范圍內事件的持續時間。在基于框架的任務中,對于僅有起點和起點-偏移事件檢測任務的AEER和p-r-f指標可以相應地定義。還應該注意的是,重復的事件將會是認為是假警報。
最后,為了確保重復的事件發生,還將進行類基于事件的基于事件的評估。不控制算法的準確性。該算法的輸出將與基于事件的評估相同,但是在AEER和p-r-f指標將分別在一個類中單獨計算階段。記錄和將是一個記錄的平均accoss。例如,階級智慧的f度量被定義為:F = sum(Fk/K),Fk表示計算的f-度量,考慮到對類k的檢測事件。
網站
目前,我們正在舉辦一個網頁的任務,。網頁包含了對挑戰和一些樣本錄音的簡要描述。在在不久的將來,鑒于任務使它進入下一個步驟,我們將會對指標進行進一步的詳細介紹,數據集和整體評估任務是為了促進小組和研究人員之間的討論表達他們對參與挑戰的興趣,并幫助更好地定義任務的某些方面。
這個挑戰賽還包括一個專門的郵件列表來促進討論
聯系組
在過去的幾年里,許多研究領域的研究人員已經取得了聯系和通知。對于他們提出的挑戰,他們中的大多數已經表達了對參與的興趣。如果有的話, 這是為了收集來自不同群體和研究人員的興趣的最初表達來參與這些挑戰討論,以及評估的全部或部分。在討論挑戰和呼吁的過程中參與我們鼓勵研究人員表達他們在所有的方面對這一挑戰的興趣并共同努力。
時間計劃表
擬議挑戰的時間表如下:
1)2012年6月:對相關郵件列表(AUDITORY,IEEE SPS Newsletter,IEEE AASP會員和關聯公司,機器收聽)的公開呼吁進行參與和討論, )。挑戰網站將相應更新。
2)2012年8月:鼓勵參與者在有關挑戰規范的討論中作出貢獻的截止日期(將為任何與挑戰有關的討論創建一個郵寄名單)。
3)2013年3月:提交代碼的截止日期。代碼可以由挑戰組織者或參與者本身運行。該代碼應附有最多3頁的工作描述,以IEEE雙列會議格式(模板將上傳到挑戰網站)。
4)2013年5月:WASPAA提交截止日期13.鼓勵與挑戰有關的小說作者的作者向研討會提交定期報告。
5)2013年10月:3頁面的描述將與評估結果一起公布。作者被邀請提交相機準備版本的說明,反映了評估結果。在WASPAA 13期間,每次提交的作品將由參與者在其中一個常規海報會議期間提交。在同一研討會上也將進行20分鐘的口頭介紹和具體挑戰的討論。
我們已經聯系了WASPAA 2013年的主席,他們已經同意分配一個時間段來展示這個挑戰賽和它的結果。由于研討會的時間表還沒有確定,所以我們必須在以后的日子里確定會議的確切形式。
6)2013年11月:邀請選定的參與者在IEEE TASLP / JSTSP關于AASP挑戰的特刊中為挑戰提交小作品。挑戰組織者還將撰寫關于挑戰和當前趨勢的概述文章(本概述文章也可能是信號處理雜志提交的一部分,以提高可見性)。
參考文獻
[1] D.L. Wang and G. J. Brown (Eds), “Computational auditory scene analysis: Principles, algorithms and applications,” IEEE Press/WileyInterscience, 2006.
[2] MIREX Campaign
[3] SiSEC Evaluation
[4] TRECVID 2011 MED Evaluation track
[5] Albayzin 2010 Audio Segmentation and Speaker Diarization Evaluation Task
[6] J.J. Aucouturier, B. Defreville, and F. Pachet, “The bag-of-frames approach to audio pattern recognition: a sufficient model for urban soundscapes but not for polyphonic music,” Journal of the Acoustical Society of America, Vol. 122, No. 2, pp. 881-891, 2007.
[7] CHIL, “FBK-Irst database of isolated meeting-room acoustic events,” European Language Resources Association
[8] CLEAR Evaluation
[9] Corey I. Cheng, and Gregory H. Wakefield, “Introduction to Head-Related Transfer Functions (HRTFs): Representations of HRTFs in Time, Frequency, and Space,” Journal Audio Eng Soc, Vol 49, No 4, 2001 April.
[10] SPS422B Microphone System
[11] SoundMan, Binaural Microphone system
本文來源
文件來源:http://c4dm.eecs.qmul.ac.uk/sceneseventschallenge/AASP_CASA.pdf
作者:DCASE2013的組織者(5個)
Dimitrios Giannoulis ?
- 機構:Centre for Digital Music, Queen Mary University of London, Mile End Rd., London E1 4NS, UK
- 郵箱:dimitrios@eecs.qmul.ac.uk
Emmanouil Benetos §
- 機構:Department of Computer Science, City University London, Northampton Square, London EC1V 0HB, UK
- 郵箱:emmanouil.benetos.1@city.ac.uk
Dan Stowell ?
- 機構:Centre for Digital Music, Queen Mary University of London, Mile End Rd., London E1 4NS, UK
- 郵箱:dans@eecs.qmul.ac.uk
Mathias Rossignol ?
- 機構:Sound Analysis/Synthesis Team, IRCAM, 1 place Igor stravinsky, 75004, Paris, France
- 郵箱:mathias.rossignol@gmail.com
Mathieu Lagrange ?
- 機構:Sound Analysis/Synthesis Team, IRCAM, 1 place Igor stravinsky, 75004, Paris, France
- 郵箱:mathieu.lagrange@ircam.fr
Mark Plumbley ?
- 機構:Centre for Digital Music, Queen Mary University of London, Mile End Rd., London E1 4NS, UK
- 郵箱:markp@eecs.qmul.ac.uk
總結
以上是生活随笔為你收集整理的DCASE挑战赛原始提案文件(详细信息)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为余承东假期也加班 回老家巡店顺便卖问
- 下一篇: 气温最低零下53℃ 大兴安岭女子回家发现