DCASE 2017声场分类任务描述——数据集及基线系统
前言
DCASE 2017繼續通過比較使用公共可用數據集的不同方法來支持計算場景和事件分析方法的開發。
聲音帶有大量有關我們日常環境和身體事件的信息。我們可以感受到我們所在的聲音場景(繁忙的街道,辦公室等),并且識別出各種聲源(汽車通過,腳步聲等)。開發用于自動提取信息的信號處理方法在多個應用中具有巨大的潛力,例如基于其音頻內容搜索多媒體,使上下文感知移動設備,機器人,汽車等以及智能監控系統識別其環境中的活動使用聲學信息。然而,仍然需要大量的研究來可靠地識別現實聲音中的聲音場景和個體聲源,其中多個聲音通常同時存在并被環境扭曲。
音頻場景識別概述
音頻場景識別的目標:將測試記錄(輸入)分類為所提供的預定義類別之一,其描述了記錄環境的一個環境,例如“park”,“home”,“office”。
音頻數據集
TUT聲學場景2017數據集將用作任務的開發數據。數據集由來自各種聲場的記錄組成,具有不同的記錄位置。 對于每個記錄位置,捕獲了3-5分鐘的長音頻記錄。 然后將原始記錄分割成長度為10秒的段。 這些音頻段在單獨的文件中提供。
聲場任務(15):
- 公共汽車 - 乘汽車在城市(車輛)
- 咖啡廳/餐廳 - 小咖啡廳/餐廳(室內)
- 汽車駕駛或作為乘客旅行,在城市(車輛)
- 市中心(室外)
- 森林小徑(戶外)
- 雜貨店 - 中型雜貨店(室內)
- 家(室內)
- 湖畔沙灘(室外)
- 圖書館(室內)
- 地鐵站(室內)
- 辦公室 - 多人,典型工作日(室內)
- 住宅區(室外)
- 火車(行車,車輛)
- 電車(行車,車輛)
- 城市公園(室外)
詳細的數據集描述見DCASE 2016 任務1頁面
數據集說明
- 該數據集于2015年6月至2017年1月期間由坦佩雷理工大學在芬蘭收集。數據收集已獲得歐洲研究理事會的資助。
記錄和注釋程序
對于所有的聲場,記錄被捕獲在不同的位置:不同的街道,不同的公園,不同的家園。錄音使用Soundman OKM II Klassik /演播室A3,駐極體雙耳麥克風和使用44.1 kHz采樣率和24位分辨率的Roland Edirol R-09波形錄音機進行。麥克風專門用于看起來像戴耳機的耳機。因此,記錄的音頻與到達佩戴設備的人的人體聽覺系統的聲音非常相似。記錄數據的后處理涉及與記錄個人隱私有關的方面。對于在私人場所錄制的音像材料,所有相關人員均獲得書面同意。記錄在公共場所的材料不需要同意,但內容被篩選,隱私侵權細分被淘汰。麥克風故障和音頻失真被注釋,并且注釋被提供有數據。基于DCASE 2016的實驗,消除訓練中的誤差區域不會影響最終的分類精度。評估集不包含任何此類音頻錯誤。
下載
如果您使用提供的基線系統),則不需要下載數據集,因為系統將自動為您下載所需的數據集。
開發數據集:https://zenodo.org/record/400515?;蛘呤褂脝为毼募绞椒謩e下載
任務設置
TUT聲場2017數據集由兩個子集組成:開發數據集和評估數據集。開發數據集由完整的TUT Acoustic Scenes 2016數據集(2016年挑戰的開發和評估數據)組成。將數據劃分為子集是基于原始記錄的位置完成的,因此評估數據集包含類似音頻場景的記錄,但是來自不同的地理位置。從相同原始記錄獲得的所有段都包含在單個子集中 - 開發數據集或評估數據集。對于每個聲場,開發數據集中有312段(52分鐘的音頻)。有關數據記錄和注釋程序的詳細說明。
開發數據集:為開發數據集提供了交叉驗證設置,以使結果報告與此數據集統一。該設置由四個折疊組成,根據位置分配可用段。折疊在目錄評估設置中提供數據集。所提供的設置的折疊1通過使用2016開發集作為訓練子集和2016評估集作為測試子集來再現DCASE 2016挑戰設置。
重要提示:如果您沒有使用提供的交叉驗證設置,請注意從相同原始錄制中提取的段。確保對于每個給定的折疊,來自相同位置的所有段必須在測試子集中的訓練子集OR中。
評估數據集:沒有實質的評估數據集將在提交截止日期前一個月公布。完整的實地元數據將在DCASE 2017挑戰和研討會結束后公布。
評估
- 聲場分類的得分將基于分類精度:正確分類的段數占總段數的比例。每個段被認為是獨立的測試樣本。評估在基線系統中自動完成。使用sed_eval toolbox進行評估。
基線系統
基線系統旨在實現聲場分類的基本方法,并在開發系統時為參與者提供一些比較點。所有任務的基準系統共享代碼庫,為所有任務實現非常相似的方法。當使用默認參數運行時,基準系統將下載所需的數據集并生成下面的結果。
基線系統基于使用對數梅爾帶能量作為特征的多層感知器架構。使用5幀上下文,導致特征向量長度為??200。使用這些特征,一個神經網絡包含兩層致密的50層隱藏單元和20%個輟學(dropout)單元,訓練了200次。分類決策是基于softmax類型的網絡輸出層?;鶞氏到y文檔中提供了詳細的描述?;鶞氏到y包括使用精度作為度量的結果評估。
基線系統使用Python(2.7和3.6版)實現。允許參與者在給定的基準系統之上構建系統。該系統具有數據集處理,存儲/訪問特征和模型所需的所有功能,并且對結果進行評估,使自己的需求更加容易?;€系統也是入門級研究人員的良好起點。
運行基線系統的運行結果
- 基線系統指導手冊和教程
基線系統介紹
基準系統旨在降低參與DCASE挑戰的障礙。它提供了一個簡單的入門級方法,但是與現有技術系統相對較接近,為所有任務提供合理的性能。高端的表現讓參與者找到挑戰。
在基線中,使用特定于應用程序的擴展,可以在任務間共享一個單一的低級方法。其主要思想是展示任務設置中的并行性,以及在系統開發過程中如何輕松地在任務之間跳轉。
主要基準系統實施以下方法:
聲學特征:在40ms窗口中提取具有20ms跳躍尺寸的熔融能量。
機器學習:使用多層感知器(MLP)類型網絡的神經網絡方法(每層有50個神經元的2層,層間差異20%)。
除此之外,還包括基于高斯混合模型的系統進行比較。
該系統是為Python 2.7和Python 3.6開發的,它可以在Linux,Windows和Mac平臺上使用。
系統框圖:
基于多感知機的系統,DCASE 2017基線系統
說明:選擇基于多感知器的系統作為DCASE2017的基準系統。該系統的主要結構與現有的基于循環神經網絡(RNN)和卷積神經網絡(CNN)的現有技術系統相近,為進一步開發提供了良好的起點。該系統是圍繞Keras實現的,這是一個用Python編寫的高級神經網絡API。Keras在多個計算后端之間工作,其中選擇了Theano作為該系統。
系統細節:
- 聲學特征:在具有20ms跳躍尺寸的40ms窗口中提取對數梅爾帶能量。
- 機器學習:使用多層感知器(MLP)類型網絡的神經網絡方法(2層,每層有50個神經元,層間差異20%)。
系統參數
基于GMM的方法
基于高斯混合模型的輔助(secondary)系統也包括在基線系統中,以便與文獻中提出的傳統系統進行比較?;贕MM的系統的實現非常類似于DCASE2016挑戰任務1和任務3中使用的基準系統。有關DCASE2016所用系統的更多詳細信息:
Annamaria Mesaros, Toni Heittola, and Tuomas Virtanen, “TUT database for acoustic scene classification and sound event detection”. In 24th European Signal Processing Conference 2016 (EUSIPCO 2016). Budapest, Hungary, 2016.。
系統細節:
聲學特征:20個MFCC靜態系數(包括第0個)+ 20個增量MFCC系數(一階導數)+ 20個加速度MFCC系數(二階導數)= 60個值,在具有50%跳躍尺寸的40ms分析窗口中計算。
機器學習:高斯混合模型,每類模型16個高斯(16 Gaussians per class model)。
系統參數
流程圖
詳見網頁中關于框圖的詳細介紹
應用
- 文件分類的平均準確度。
| system | Accuracy | 1 | 2 | 3 | 4 |
| 基于多感知機系統,2017年基線 | 74.8% | 75.2% | 75.3% | 77.3% | 71.3% |
| 基于GMM 系統 | 74.1% | 74.0% | 76.0% | 73.1% | 73.2% |
場景分類結果
- 安裝(下載地址)
該系統是為Python 2.7,Python 3.5和Python 3.6開發的。 該系統經過測試,可在Linux,Windows和MacOS平臺上工作??梢园惭b官方CPython或使用一些基于它的Python發行版。 推薦使用新用戶使用Anaconda Python發行版。
在Windows上使用系統:基線系統使用相當長的目錄路徑,因為它將系統參數的32個字符的MD5哈希存儲到目錄名中。 某些Windows系統具有路徑長度限制(最低260個字符),這是導致問題的。 為了避免與此相關的問題,請將系統盡可能靠近驅動器根目錄安裝。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的DCASE 2017声场分类任务描述——数据集及基线系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: st在会所是什么意思?
- 下一篇: 空间谱专题07:干涉仪仿真思路