當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

音乐推荐初步

發布時間：2023/12/10 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了音乐推荐初步小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

哈嘍，你們還好嗎？是否有想起我呢？
假期前我面臨的問題是音頻特征提取的問題，也就是特征工程。業務是視頻中的音頻場景分類，為視頻分類、視頻推薦做準備，這個看似簡單的問題其實做起來一點也不簡單，因此，賦閑期間實在無聊透頂，終于撿起來了昨日的黃花，重新開始，閱讀一些相關文獻，期望有所收獲。
【悟已往之不諫，知來者之可追】
主要方面：
1.音頻場景分類/分割問題；
2.音樂推薦系統；
本篇博文先說音頻場景分類，其實這個問題由來已久，也有相關的比賽DCASE，但沒來得及認真看下dcase2019就放假了，誰知道假期還這么長，一時半會兒也接不上了，因而不表。
這里提一點分割的問題，和端點檢測類似，場景分割也需要檢測跳變點（可能比較基礎，不要笑），目前所見的一些之前的畢業論文仍舊是以低級特征來區分，比如熵、能量、MFCC，而且需要設定閾值等經驗參數，這是有很大的弊端，不可能放之四海而皆準，可能只會對實驗數據效果較好。
有論文提到結合BIC來做的模型效果不錯，這里也說下BIC，這個貝葉斯信息準則是用來模型選擇的，BIC=kln(n)-2ln(L)
另外論文中說懲罰因子關系到什么跳變點的檢出？讓我一臉懵逼，上面這個公式里面有懲罰因子？尋根究底后發現是BIC距離，是計算向量X和Y的對數似然距離。
論文所提的方法是聚類后生成的字典，然后將MFCC向字典投影作為特征，然后用SVM分類，這是啥特征操作？？？

?關于音樂推薦，目前有基于內容、協同過濾、語境、圖模型的推薦。基于內容過濾的容易理解，就是音頻特征，用的大多數還是低級特征，比如MFCC、能量、pitch、頻帶包絡，然后進行特征拼接，計算相似性（測度/距離），當然也有其他特征參與，比如音樂節奏、節拍、音色、體裁。舉個例子，某篇博文以短時譜模糊表示音樂內容，每幀選取最大的k個頻率從大到小排序，構成k*n矩陣，n是總的幀數，然后計算同shape矩陣相似度，假設矩陣A和B，那么A點除以B，如果商落在[0.95，1.05]范圍外，那么該元素視為偏差元素，最后的相似度為1-m/(k*n)，m為偏差元素個數。這里面有個查詢/搜索問題，當前過來的矩陣n可能與數據庫中的不同，作者也給出了方法，假設數據庫中n值大，將第一個元素與匹配的矩陣最接近的位置作為查詢起始點，也可將查詢片段刪除幾列(幀數)，再次查詢，最后選擇相似度最大的作為結果。根據作者top1
?

待續吧。。

另外有相關問題可以加入QQ群討論，不設微信群

QQ群：868373192?

語音圖像視頻深度-學習群

總結

以上是生活随笔為你收集整理的音乐推荐初步的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

音乐

上一篇： mysql起止时间怎么写_【Mysql
下一篇： AA记账表