最新研究前线-深度推荐系统真的有效吗?
1. 背景
深度學(xué)習(xí)已經(jīng)成為推薦系統(tǒng)領(lǐng)域的首選方法,但與此同時(shí),已有一些論文指出了目前應(yīng)用機(jī)器學(xué)習(xí)的研究中存在的問題,例如新模型結(jié)果的可復(fù)現(xiàn)性,或?qū)Ρ葘?shí)驗(yàn)中基線的選擇。這篇論文[Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches]發(fā)表在推薦系統(tǒng)頂級會議 ACM RecSys 2019 上,作者對過去幾年在頂級會議上發(fā)表的 18 種 top-n 推薦任務(wù)的算法進(jìn)行了系統(tǒng)分析。作者發(fā)現(xiàn),這些算法中只有 7 種算法可以合理復(fù)現(xiàn)算法結(jié)果,而其中 6 種方法都被經(jīng)典的啟發(fā)式算法所超越,例如基于最近鄰或基于圖的方法。作者通過這篇論文揭示了當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的一些潛在問題,并呼吁大家改進(jìn)該領(lǐng)域的科學(xué)實(shí)踐。
在短短幾年內(nèi),深度學(xué)習(xí)技術(shù)在推薦系統(tǒng)算法研究中占據(jù)了主導(dǎo)地位。隨著人們對機(jī)器學(xué)習(xí)的興趣普遍增加,發(fā)表論文數(shù)量越來越多,以及深度學(xué)習(xí)在視覺或語言處理等其他領(lǐng)域的成功,人們可以預(yù)見,這些工作也會為推薦系統(tǒng)領(lǐng)域帶來實(shí)質(zhì)性的進(jìn)展。然而,在機(jī)器學(xué)習(xí)的其他應(yīng)用領(lǐng)域中,所取得的進(jìn)展并不總是如預(yù)期的那樣好。
在推薦系統(tǒng)領(lǐng)域,即使是最新的推薦方法,在大多數(shù)情況下也不能超越經(jīng)典的方法(例如基于近鄰的方法)。這些關(guān)于在應(yīng)用機(jī)器學(xué)習(xí)中取得的真正進(jìn)展的問題并不是最新提出的,也與基于深度學(xué)習(xí)的研究無關(guān)。早在 2009 年,研究人員通過對 ad-hoc 檢索任務(wù)的算法分析得出結(jié)論:盡管該領(lǐng)域內(nèi)發(fā)表了許多論文,但這些論文中提到的改進(jìn)并沒有“累積”。
這種現(xiàn)象的出現(xiàn)有不同因素,包括(i)基線方法較弱;(ii)用較差的方法作為新的基線;以及(iii)比較或復(fù)現(xiàn)其他論文結(jié)果具有困難性。第一個(gè)問題在于方法對比時(shí)基線的選擇。有時(shí)對于給定的任務(wù)和數(shù)據(jù)集,選擇的基線太弱,或基線參數(shù)沒有得到適當(dāng)?shù)恼{(diào)整。有時(shí)基線是從新提出的算法簇中選擇的,例如,一個(gè)新的深度學(xué)習(xí)算法只與深度學(xué)習(xí)基線進(jìn)行比較。這種方法強(qiáng)制傳播了弱基線。此外,隨著論文的不斷發(fā)表,越來越難跟上最先進(jìn)基線的發(fā)展。除了基線的問題外,另一個(gè)挑戰(zhàn)是研究人員使用各種各樣的數(shù)據(jù)集、評估方法、性能度量和數(shù)據(jù)預(yù)處理步驟,因此很難確定哪種方法在不同的應(yīng)用場景中是最好的。當(dāng)研究人員不公開源代碼和數(shù)據(jù)時(shí),這個(gè)問題尤其突出。雖然現(xiàn)在越來越多的研究人員會公布算法的源代碼,但這并不是通用規(guī)則,即使頂級會議或頂級期刊也沒有這樣的要求。而且即使發(fā)布了代碼,有些代碼也是不完整的,并不包括數(shù)據(jù)預(yù)處理、參數(shù)調(diào)整或評估程序。最后,另一個(gè)問題可能普遍存在于應(yīng)用機(jī)器學(xué)習(xí)的研究實(shí)踐。缺少審稿人,或?qū)φ撐淖髡叩牟划?dāng)激勵,會刺激某些特定類型的研究。以及研究領(lǐng)域?qū)Τ橄缶_性度量的過度關(guān)注,或者只關(guān)心機(jī)器學(xué)習(xí)研究中“頂級期刊能發(fā)表的”內(nèi)容。
這篇論文中,作者的目標(biāo)是闡明上述問題是否也存在于基于深度學(xué)習(xí)的推薦算法領(lǐng)域。作者主要關(guān)注以下兩個(gè)問題:
- 可復(fù)現(xiàn)性:該領(lǐng)域的近期研究有多少是可復(fù)現(xiàn)的(通過合理方法)?
- 進(jìn)展:與相對簡單但經(jīng)過良好調(diào)整的基線方法相比,近期研究取得了多少實(shí)際性進(jìn)展?
為了回答這些問題,作者進(jìn)行了一項(xiàng)系統(tǒng)的研究。作者從 KDD、SIGIR、WWW 和 RecSys 這四大頂會中找到了 18 篇 top-n 推薦任務(wù)中基于深度學(xué)習(xí)的相關(guān)論文。第一步,對于公開源代碼和實(shí)驗(yàn)數(shù)據(jù)集的論文,作者嘗試復(fù)現(xiàn)論文中報(bào)告的結(jié)果。最后,僅有 7 篇論文可以復(fù)現(xiàn)結(jié)果。第二步,作者重新執(zhí)行了原始論文中報(bào)告的實(shí)驗(yàn),但在比較中增加了額外的基線方法。出乎意料的是,研究顯示,在絕大多數(shù)被調(diào)查的方法中(7 個(gè)方法中有 6 個(gè)方法),所提出的深度學(xué)習(xí)方法均被經(jīng)典的基線方法所超越。另一個(gè)方法中,即使是非個(gè)性化的基線方法(向每個(gè)人推薦最受歡迎的項(xiàng)目),在某些評價(jià)指標(biāo)下的表現(xiàn)也是最好的。
該論文的第一個(gè)貢獻(xiàn)在于評估了該領(lǐng)域論文的可復(fù)現(xiàn)程度,論文的第二個(gè)貢獻(xiàn)在于提出一個(gè)與機(jī)器學(xué)習(xí)的當(dāng)前研究實(shí)踐相關(guān)的更深遠(yuǎn)的問題。
2. 研究方法
2.1 收集可復(fù)現(xiàn)論文
作者收集了 2015 年至 2018 年期間出現(xiàn)在以下四個(gè)會議中的長論文:KDD、SIGIR、WWW 和 RecSys。如果一篇論文(a)提出了一種基于深度學(xué)習(xí)的技術(shù),(b)關(guān)注 top-n 推薦任務(wù),那么就算作一篇相關(guān)論文。經(jīng)過篩選,作者收集了 18 篇相關(guān)論文。下一步,作者嘗試復(fù)現(xiàn)這些論文中報(bào)告的結(jié)果。作者盡可能多地依賴論文原作者自己提供的源代碼和實(shí)驗(yàn)中使用的數(shù)據(jù)。理論上說,應(yīng)該可以只使用論文中的技術(shù)描述來復(fù)現(xiàn)已發(fā)表的結(jié)果。但實(shí)際上算法和評估程序的實(shí)現(xiàn)包含許多微小細(xì)節(jié),可能會對實(shí)驗(yàn)結(jié)果產(chǎn)生影響。因此,作者嘗試從原作者那里獲得所有相關(guān)論文的代碼和數(shù)據(jù)。如果滿足以下條件,則認(rèn)為論文是可復(fù)現(xiàn)的:
- 源代碼可用,或者只需要少量的修改即可正常運(yùn)行。
- 原論文中至少有一個(gè)數(shù)據(jù)集可用。另一個(gè)要求是,原論文中使用的訓(xùn)練 - 測試劃分方法是公開的,或者可以根據(jù)文中的信息重構(gòu)。
否則,則認(rèn)為論文是不可復(fù)現(xiàn)的。根據(jù)該標(biāo)準(zhǔn),可復(fù)現(xiàn)的論文列表如表 1 所示:
表 1 2015-2018 四大頂會中基于深度學(xué)習(xí)推薦算法(top-n 推薦任務(wù))的可復(fù)現(xiàn)論文2.2 評價(jià)方法
- 測量方法
在這項(xiàng)工作中,作者通過分解原始代碼來復(fù)現(xiàn)論文,以應(yīng)用與原論文中相同的評估過程。分解的方式是將訓(xùn)練、超參數(shù)優(yōu)化和預(yù)測的代碼與評估代碼分離。并且將評估代碼也用于基線方法。
- 基線選擇
作者在實(shí)驗(yàn)中考慮了以下基線方法:
TopPopular: 一種非個(gè)性化的方法,向每個(gè)人推薦最流行的項(xiàng)目。
ItemKNN: 基于 k 近鄰(kNN)和 item-item 相似度的傳統(tǒng)協(xié)同過濾方法。
UserKNN: 一種基于鄰域的協(xié)同用戶相似性方法。
ItemKNN-CBF: 一種基于鄰域內(nèi)容過濾(CBF)的方法,通過使用項(xiàng)目內(nèi)容特征(屬性)計(jì)算項(xiàng)目相似性。
ItemKNN-CFCBF: 基于項(xiàng)目相似性的混合 CF+CFB 算法。
P3α: 一種簡單的基于圖的算法,實(shí)現(xiàn)了用戶和項(xiàng)目之間的隨機(jī)行走。
RP3β:P3α的另一個(gè)版本。
3. DNN算法與基線算法的對比實(shí)驗(yàn)
3.1 協(xié)同存儲網(wǎng)絡(luò)(Collaborative Memory Networks,CMN)
CMN 方法在 SIGIR18 會議上提出,將記憶網(wǎng)絡(luò)和神經(jīng)注意力機(jī)制與隱因素和鄰域模型結(jié)合。CMN 作者將該方法與不同的矩陣分解和神經(jīng)推薦方法,以及 ItemKNN 算法進(jìn)行了比較。采用了三個(gè)數(shù)據(jù)集用于評估:Epinions、CiteULike-a 和 Pinterest。原論文給出了最優(yōu)參數(shù),但沒有提供如何調(diào)整基線實(shí)驗(yàn)的信息。點(diǎn)擊率和 NDCG 是原論文采用的評價(jià)指標(biāo)。原論文報(bào)告的結(jié)果表明,CMN 在所有的度量標(biāo)準(zhǔn)上都優(yōu)于其他的基線方法。
CMN 所有數(shù)據(jù)集上的實(shí)驗(yàn)都是可復(fù)現(xiàn)的。對于簡單基線進(jìn)行的額外實(shí)驗(yàn),作者針對點(diǎn)擊率度量優(yōu)化了基線參數(shù)。
結(jié)果表明,在優(yōu)化基線方法之后,CMN 在任何數(shù)據(jù)集上都不能取得最好的表現(xiàn)。對于 CiteULike-a 和 Pinterest 數(shù)據(jù)集,至少有兩種個(gè)性化基線方法在任何度量上都優(yōu)于 CMN 方法。基本上所有的個(gè)性化基線方法都比 CMN 效果好。對于 Epinions 數(shù)據(jù)集,出乎意料的是,原始文獻(xiàn)中沒有提及的 TopPopular 方法在很大程度上優(yōu)于所有其他算法。在這個(gè)數(shù)據(jù)集上,CMN 確實(shí)比基線方法要好。因此,CMN 在這個(gè)相對較小且非常稀疏的數(shù)據(jù)集上的成功,可能與數(shù)據(jù)集的特殊性或 CMN 的受歡迎度(popularity)偏置有關(guān)。分析表明,與其他數(shù)據(jù)集相比,Epinions 數(shù)據(jù)集的受歡迎程度的分布確實(shí)更加不均勻(基尼指數(shù)為 0.69,而 CiteULike 基尼指數(shù)為 0.37)。
3.2?基于元路徑上下文的推薦方法(Metapath based Context for RECommendation,MCRec)
MCRec 方法發(fā)表在 KDD18,是一個(gè)基于元路徑的模型,它利用輔助信息實(shí)現(xiàn) top-n 推薦任務(wù)。原文獻(xiàn)作者在三個(gè)小數(shù)據(jù)集(MovieLens100k、LastFm 和 Yelp)上對不同復(fù)雜度的各種模型,以及 MCRec 的四個(gè)變體進(jìn)行了基準(zhǔn)測試。原文獻(xiàn)通過創(chuàng)建 80/20 隨機(jī)訓(xùn)練測試劃分,進(jìn)行 10 次交叉驗(yàn)證。選擇 MF 和 NeuMF 作為基線。但只有 MovieLens 數(shù)據(jù)集提供了數(shù)據(jù)劃分,原文獻(xiàn)沒有給出基線超參數(shù)調(diào)參的具體信息。原文獻(xiàn)采用的評價(jià)指標(biāo)為精確度、召回率和 NDCG。但是論文中實(shí)現(xiàn)的 NDCG 方法較為奇怪,所以作者采用了標(biāo)準(zhǔn)的 NDCG 評價(jià)程序。
當(dāng)正確設(shè)置傳統(tǒng)的 ItemKNN 方法時(shí),該方法在所有性能指標(biāo)上都優(yōu)于 MCRec。原始論文除了使用一種不常見的 NDCG 方法外,作者還發(fā)現(xiàn)了其他潛在的方法學(xué)問題。如前所述,MF 和 NeuMF 基線的超參數(shù)沒有針對給定數(shù)據(jù)集進(jìn)行優(yōu)化,而是取自原始論文。此外,通過查看提供的源代碼,可以看到作者報(bào)告的是不同 epoch 中選擇的最佳結(jié)果,這是不恰當(dāng)?shù)摹?/p>
3.3?協(xié)同變分自動編碼器(Collaborative Variational Autoencoder,CVAE)
CVAE 方法發(fā)表在 KDD18,該模型以無監(jiān)督的方式從內(nèi)容數(shù)據(jù)中學(xué)習(xí)深度隱表示,并從內(nèi)容和排序中學(xué)習(xí)項(xiàng)目和用戶之間的隱式關(guān)系。
該方法在兩個(gè)比較小的 CitULike 數(shù)據(jù)集(135K 和 205K 次交互)上進(jìn)行評估,分別測試了這兩個(gè)數(shù)據(jù)集的稀疏版本和密集版本。原文獻(xiàn)中的基線實(shí)驗(yàn)包括三個(gè)最新的深度學(xué)習(xí)模型以及協(xié)同主題回歸(CTR)。每個(gè)方法的參數(shù)都是基于驗(yàn)證集進(jìn)行調(diào)整的。采用不同的列表長度(50 至 300)的召回率作為評價(jià)指標(biāo)。采用隨機(jī)數(shù)據(jù)劃分,重復(fù) 5 次測量。
原文獻(xiàn)作者共享了代碼和數(shù)據(jù)集。通過對基線進(jìn)行微調(diào),得到了稠密 CiteULike-a 數(shù)據(jù)集的結(jié)果。對于最短的列表長度 50,即使大多數(shù)純 CF 基線方法在這個(gè)數(shù)據(jù)集上也優(yōu)于 CVAE 方法。在較長的列表長度下,ItemKNN-CFCBF 方法獲得了最佳結(jié)果。稀疏 CiteULike-t 數(shù)據(jù)集上也得到了類似的結(jié)果。一般來說,在列表長度為 50 時(shí),ItemKNN-CFCBF 在所有測試配置中始終優(yōu)于 CVAE。只有在更長的列表長度(100 及以上)時(shí),CVAE 才能在兩個(gè)數(shù)據(jù)集上超越基線方法。總的來說,只有在某些配置中,并且很長且相當(dāng)不常見的推薦截止閾值下 CVAE 才優(yōu)于基線。然而,這種列表長度的使用是不合理的。
3.4?協(xié)同深度學(xué)習(xí)(Collaborative Deep Learning,CDL)
上述的 CVAE 方法將 KDD15 中經(jīng)常引用的 CDL 方法作為其基線之一。CDL 是疊置去噪自動編碼器(SDAE)和協(xié)同濾波聯(lián)合學(xué)習(xí)的概率前饋模型。原文獻(xiàn)中的評估表明,與 CTR 方法相比,CDL 方法的表現(xiàn)較好,尤其是在稀疏數(shù)據(jù)情況下。
作者復(fù)現(xiàn)了 CDL 的研究結(jié)果,得出了密集型 CiteULike-a 數(shù)據(jù)集的結(jié)果。不足為奇,在前一節(jié)中優(yōu)于 CVAE 的基線也優(yōu)于 CDL,而且對于短列表長度而言,純 CF 方法優(yōu)于 CDL 方法。然而,當(dāng)列表長度超過 100 時(shí),CDL 具有更高的召回率。通過對比 CVAE 和 CDL 的結(jié)果,作者發(fā)現(xiàn)新提出的 CVAE 方法確實(shí)優(yōu)于 CDL 方法,這表明 CAVE 方法的確取得了進(jìn)展。然而在大多數(shù)情況下,這兩種方法的表現(xiàn)都不如簡單的基線方法。
3.5?神經(jīng)協(xié)同過濾(Neural Collaborative Filtering,NCF)
基于神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾方法在 WWW17 會議上提出,通過用一種可以從數(shù)據(jù)中學(xué)習(xí)任意函數(shù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)代替了內(nèi)積來推廣矩陣分解。該方法在兩個(gè)數(shù)據(jù)集(MovieLens1M 和 Pinterest)上進(jìn)行了評估,分別包含 100 萬和 150 萬次交互。在評價(jià)過程中采用了“留一法”。原文獻(xiàn)結(jié)果表明,當(dāng)使用點(diǎn)擊率和 NDCG 作為評價(jià)指標(biāo)時(shí),NeuMF(NCF 的變體)比現(xiàn)有的矩陣因子分解模型更為有利。
在 Pinterest 數(shù)據(jù)集上,個(gè)性化基線方法在所有評價(jià)標(biāo)準(zhǔn)上都比 NeuMF 稍微好一些,或者表現(xiàn)一致。對于 MovieLens 數(shù)據(jù)集,NeuMF 的結(jié)果幾乎與最佳基線 RP3β相同。
由于 MovieLens 數(shù)據(jù)集被廣泛用于評估新模型,因此作者使用基本矩陣分解方法(此處稱為 pureSVD)進(jìn)行了額外的實(shí)驗(yàn)。優(yōu)化參數(shù)后,作者發(fā)現(xiàn) pureSVD 確實(shí)比基線方法好,而且在這個(gè)數(shù)據(jù)集上也明顯優(yōu)于 NeuMF。
3.6?光譜協(xié)同過濾(Spectral Collaborative Filtering,SpectralCF)
SpectralCF 發(fā)表在 RecSys18 上,采用光譜圖理論的概念,旨在專門解決冷啟動問題。該方法在三個(gè)公共數(shù)據(jù)集(MovieLens1m、HetRec 和 Amazon Instant Video)上進(jìn)行評估,并采用了多種基線方法,包括最近的神經(jīng)網(wǎng)絡(luò)方法和因子分解和排序技術(shù)。實(shí)驗(yàn)采用 80/20 訓(xùn)練 - 測試隨機(jī)劃分,并使用不同截止點(diǎn)的召回率和平均精度(MAP)作為評價(jià)指標(biāo)。
對于 MovieLens 數(shù)據(jù)集,原文獻(xiàn)作者共享了使用的訓(xùn)練和測試數(shù)據(jù)集以及代碼。對于其他數(shù)據(jù)集,數(shù)據(jù)劃分沒有公布,因此作者按照文中的描述自己創(chuàng)建了劃分方式。
對于 HetRec 和 Amazon Instant Video 數(shù)據(jù)集,所有的基線方法,包括 TopPopular 方法,在所有度量指標(biāo)上都優(yōu)于 SpectralCF。然而,在原文獻(xiàn)提供的 MovieLens 數(shù)據(jù)劃分上運(yùn)行代碼時(shí),SpectralCF 比所有的基線都要好很多。
因此,作者分析了 MovieLens 數(shù)據(jù)集公布的訓(xùn)練測試劃分,發(fā)現(xiàn)測試集中項(xiàng)目的受歡迎程度的分布與隨機(jī)抽樣帶來的分布非常不同。然后,作者使用自己的數(shù)據(jù)劃分方式對 MovieLens 數(shù)據(jù)集進(jìn)行分割,并且優(yōu)化了數(shù)據(jù)分割的參數(shù),以確保公平比較。當(dāng)使用原始論文中描述的數(shù)據(jù)分割時(shí),MovieLens 數(shù)據(jù)集的結(jié)果與其他兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果一致,即在所有配置中,SpectralCF 的性能都比基線方法差,甚至 TopPopular 的表現(xiàn)也比它好。
3.7??變分自動編碼器協(xié)同過濾(Variational Autoencoders for Collaborative Filtering,Mult-VAE)
Mult-VAE 是一種基于變分自動編碼器的隱反饋協(xié)同過濾方法。這項(xiàng)工作發(fā)表在 WWW18 上。原論文在 3 個(gè)二值化數(shù)據(jù)集上評估該方法,這些數(shù)據(jù)集包含原始電影評分或歌曲播放計(jì)數(shù)。實(shí)驗(yàn)中采用的基線包括 2008 年的矩陣分解法、2011 年的線性模型和最近的神經(jīng)網(wǎng)絡(luò)方法。根據(jù)論文,所提出的方法的召回率和 NDCG 結(jié)果通常比最佳基線高出 3% 左右。
通過使用它們的代碼和數(shù)據(jù)集,作者發(fā)現(xiàn)所提出的方法確實(shí)比非常簡單的基線技術(shù)更好。其準(zhǔn)確率比最佳基線高 10% 到 20%。Mult-VAE 是作者經(jīng)過檢查后發(fā)現(xiàn)的唯一一個(gè)更復(fù)雜的方法優(yōu)于基線技術(shù)的方法。
為了驗(yàn)證 Mult-VAE 優(yōu)于復(fù)雜的非神經(jīng)模型,作者將加權(quán)矩陣因子分解方法和線性模型 SLIM 的參數(shù)針對數(shù)據(jù)集 MovieLens 和 Netflix 進(jìn)行了優(yōu)化。
在 NDCG 評價(jià)指標(biāo)方面,Mult-VAE 和 SLIM 之間的差異非常小。然而,在召回率方面,與 SLIM 相比,Mult-VAE 的改進(jìn)似乎是可靠的。作者在不同的截止長度下進(jìn)行了額外的評估。當(dāng)使用 NDCG 作為優(yōu)化目標(biāo)和度量指標(biāo)時(shí),SLIM 和 Mult-VAE 之間的差異在這個(gè)數(shù)據(jù)集中消失了,SLIM 有時(shí)甚至?xí)院靡恍τ?MovieLens 數(shù)據(jù)集,也可以觀察到類似的現(xiàn)象。因此,在這種特殊情況下,通過神經(jīng)網(wǎng)絡(luò)方法獲得的進(jìn)展只是部分的,并且取決于所選擇的評價(jià)指標(biāo)。
4. 討論
4.1 可復(fù)現(xiàn)性和可擴(kuò)展性
按理說,在應(yīng)用機(jī)器學(xué)習(xí)領(lǐng)域建立可復(fù)現(xiàn)性要比在其他科學(xué)和計(jì)算機(jī)科學(xué)的其他子領(lǐng)域容易得多。當(dāng)研究人員提供他們的代碼和使用的數(shù)據(jù)時(shí),每個(gè)人都應(yīng)該能夠或多或少地復(fù)現(xiàn)出相同的結(jié)果。而且如今的研究人員通常使用公共軟件或?qū)W術(shù)機(jī)構(gòu)提供的軟件,因此其他研究人員應(yīng)該更容易在非常相似的條件下重復(fù)實(shí)驗(yàn)。
然而,這篇論文表明,算法可復(fù)現(xiàn)性的程度實(shí)際上并不高。與過去相比,已經(jīng)有更多的人開始共享核心算法的代碼,這可能也是因?yàn)榭蓮?fù)現(xiàn)性已成為會議論文的評價(jià)標(biāo)準(zhǔn)。但是大部分情況下,用于超參數(shù)優(yōu)化、評價(jià)、數(shù)據(jù)預(yù)處理和基線的代碼是不公開的。這使得其他人很難確認(rèn)論文報(bào)告的結(jié)果。
而許多方法的計(jì)算復(fù)雜性也為復(fù)現(xiàn)實(shí)驗(yàn)帶來了挑戰(zhàn)。到 2019 年,已經(jīng)是 Netflix 發(fā)布 1 億條評分?jǐn)?shù)據(jù)集的 10 年之后,研究人員常用的依然是僅包含幾十萬條評分的數(shù)據(jù)集。即使對于小數(shù)據(jù)集,采用 GPU 計(jì)算,超參數(shù)優(yōu)化也需要幾天甚至幾周時(shí)間。當(dāng)然,本文中討論的基于近鄰的方法也存在可擴(kuò)展性問題。然而,通過適當(dāng)?shù)臄?shù)據(jù)預(yù)處理和數(shù)據(jù)采樣機(jī)制,在學(xué)術(shù)和工業(yè)環(huán)境中也可以確保這些方法的可擴(kuò)展性。
4.2 進(jìn)展評價(jià)
最近提出的幾種神經(jīng)網(wǎng)絡(luò)方法盡管計(jì)算復(fù)雜,但是其性能卻不如在概念上或計(jì)算上更簡單的方法。因此,至少對于本文所討論的方法來說,該領(lǐng)域基于深度學(xué)習(xí)方法的真實(shí)進(jìn)展情況尚不明確。
正如論文所分析的,這種“偽進(jìn)展”的一個(gè)主要原因是基線方法的選擇和缺乏對基線方法參數(shù)的適當(dāng)優(yōu)化。在大多數(shù)被研究的方法中,原始論文沒有給出足夠的基線優(yōu)化的信息。在有些論文中還發(fā)現(xiàn)了數(shù)據(jù)劃分和某些評價(jià)標(biāo)準(zhǔn)的實(shí)現(xiàn)上存在錯(cuò)誤。
另一個(gè)有趣的發(fā)現(xiàn)是,最近的一些論文使用神經(jīng)協(xié)同過濾方法(NCF)作為其最先進(jìn)的基線之一。然而,根據(jù)作者的分析,這種方法在部分?jǐn)?shù)據(jù)集上的表現(xiàn)還不如簡單的基線方法。
另一個(gè)阻礙評估該領(lǐng)域進(jìn)展的原因在于研究人員使用的各種數(shù)據(jù)集、評估協(xié)議、度量標(biāo)準(zhǔn)和基線實(shí)驗(yàn)。例如,從數(shù)據(jù)集角度,作者發(fā)現(xiàn)了 20 多個(gè)公開數(shù)據(jù)集,以及多個(gè) MovieLens 和 Yelp 數(shù)據(jù)集的變體,大部分?jǐn)?shù)據(jù)集只在一兩篇論文中使用。并且研究人員使用了各種度量(精度、召回率、平均精度、NDCG、MRR 等)以及各種評估程序(例如,隨機(jī)保持 80/20、留一法、每個(gè)正項(xiàng) 100 條負(fù)項(xiàng)、或 50 項(xiàng)負(fù)項(xiàng))。然而,在大多數(shù)情況下,這些選擇是不合理的。實(shí)際上,度量的選擇應(yīng)該取決于應(yīng)用的環(huán)境。例如,在某些應(yīng)用中,推薦項(xiàng)目的前幾項(xiàng)至少需要有一個(gè)相關(guān)項(xiàng),這時(shí)應(yīng)該使用基于排序的度量,如 MRR。在其他領(lǐng)域,當(dāng)目標(biāo)是向用戶顯示盡可能多的相關(guān)項(xiàng)時(shí),高召回率可能更為重要。除了度量標(biāo)準(zhǔn)的選擇不明確之外,這些論文通常也沒有解釋度量的截止長度,從 top-3、top-5,甚至到幾百個(gè)元素。
然而,這些現(xiàn)象與基于深度學(xué)習(xí)的推薦方法無關(guān),在神經(jīng)網(wǎng)絡(luò)時(shí)代之前也存在這種現(xiàn)象。但是機(jī)器學(xué)習(xí)研究人員對精確度量和尋找“最佳”模型的強(qiáng)烈關(guān)注推動了這種發(fā)展。在目前的研究實(shí)踐中,通常認(rèn)為如果一種新的方法可以在一至兩個(gè)標(biāo)準(zhǔn)度量上,在一至兩個(gè)公共數(shù)據(jù)集上優(yōu)于現(xiàn)有的一組算法,就已經(jīng)足夠了。然而,使用哪種評估度量和哪些數(shù)據(jù)集卻是任意選擇的。
這些現(xiàn)象指出了根本問題,即該領(lǐng)域的研究不受任何假設(shè)的指導(dǎo),也不以解決給定問題為目標(biāo)。追求更高的準(zhǔn)確度成為了該領(lǐng)域研究的主導(dǎo)方向,但是大家甚至還不清楚準(zhǔn)確度的輕微提升是否能夠?yàn)橥扑]系統(tǒng)的消費(fèi)者或提供者帶來一定的價(jià)值。事實(shí)上,許多研究工作表明,更高的準(zhǔn)確度并不一定能轉(zhuǎn)化為更好的推薦結(jié)果。
5. 結(jié)論
在這項(xiàng)工作中,作者對各大頂會的最新基于神經(jīng)網(wǎng)絡(luò)的推薦算法進(jìn)行了系統(tǒng)分析。分析表明,已發(fā)表論文的可復(fù)現(xiàn)程度仍然不高。此外,實(shí)驗(yàn)證明,這些基于深度學(xué)習(xí)的方法均被經(jīng)典的啟發(fā)式算法所超越。作者認(rèn)為,基于神經(jīng)網(wǎng)絡(luò)的推薦算法為該領(lǐng)域所帶來的實(shí)際進(jìn)展并不明確,作者希望該領(lǐng)域的算法貢獻(xiàn)評估能出現(xiàn)更嚴(yán)格和更好的研究實(shí)踐。
6. 參考資料
1. 知乎上的討論?https://www.zhihu.com/question/336304380/answer/759069150?
2. 研究論文地址?Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的最新研究前线-深度推荐系统真的有效吗?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C语言程序设计基础讲座之指针的慨念
- 下一篇: 用VC++6.0 编写一个完整的