音乐推荐初步
哈嘍,你們還好嗎?是否有想起我呢?
假期前我面臨的問題是音頻特征提取的問題,也就是特征工程。業務是視頻中的音頻場景分類,為視頻分類、視頻推薦做準備,這個看似簡單的問題其實做起來一點也不簡單,因此,賦閑期間實在無聊透頂,終于撿起來了昨日的黃花,重新開始,閱讀一些相關文獻,期望有所收獲。
【悟已往之不諫,知來者之可追】
主要方面:
1.音頻場景分類/分割問題;
2.音樂推薦系統;
本篇博文先說音頻場景分類,其實這個問題由來已久,也有相關的比賽DCASE,但沒來得及認真看下dcase2019就放假了,誰知道假期還這么長,一時半會兒也接不上了,因而不表。
這里提一點分割的問題,和端點檢測類似,場景分割也需要檢測跳變點(可能比較基礎,不要笑),目前所見的一些之前的畢業論文仍舊是以低級特征來區分,比如熵、能量、MFCC,而且需要設定閾值等經驗參數,這是有很大的弊端,不可能放之四海而皆準,可能只會對實驗數據效果較好。
有論文提到結合BIC來做的模型效果不錯,這里也說下BIC,這個貝葉斯信息準則是用來模型選擇的,BIC=kln(n)-2ln(L)
另外論文中說懲罰因子關系到什么跳變點的檢出?讓我一臉懵逼,上面這個公式里面有懲罰因子?尋根究底后發現是BIC距離,是計算向量X和Y的對數似然距離。
論文所提的方法是聚類后生成的字典,然后將MFCC向字典投影作為特征,然后用SVM分類,這是啥特征操作???
?關于音樂推薦,目前有基于內容、協同過濾、語境、圖模型的推薦。基于內容過濾的容易理解,就是音頻特征,用的大多數還是低級特征,比如MFCC、能量、pitch、頻帶包絡,然后進行特征拼接,計算相似性(測度/距離),當然也有其他特征參與,比如音樂節奏、節拍、音色、體裁。舉個例子,某篇博文以短時譜模糊表示音樂內容,每幀選取最大的k個頻率從大到小排序,構成k*n矩陣,n是總的幀數,然后計算同shape矩陣相似度,假設矩陣A和B,那么A點除以B,如果商落在[0.95,1.05]范圍外,那么該元素視為偏差元素,最后的相似度為1-m/(k*n),m為偏差元素個數。這里面有個查詢/搜索問題,當前過來的矩陣n可能與數據庫中的不同,作者也給出了方法,假設數據庫中n值大,將第一個元素與匹配的矩陣最接近的位置作為查詢起始點,也可將查詢片段刪除幾列(幀數),再次查詢,最后選擇相似度最大的作為結果。根據作者top1
?
待續吧。。
另外有相關問題可以加入QQ群討論,不設微信群
QQ群:868373192?
語音圖像視頻深度-學習群
總結
- 上一篇: mysql起止时间怎么写_【Mysql
- 下一篇: AA记账表