推荐系统与协作过滤面临的主要问题
轉(zhuǎn)自:http://xlvector.cn/blog/?m=200902
?
數(shù)據(jù)稀疏
協(xié)同過濾的精度主要取決于用戶數(shù)據(jù)的多少。如果一個系統(tǒng)有很多用戶的歷史數(shù)據(jù),他就能更好的對用戶的喜歡做出預(yù)測。所以,目前推薦系統(tǒng)做的最好的都是那些有著很大量用戶數(shù)據(jù)的公司,比如Google, Yahoo, Netflix, Amazon等等。但是,即使擁有很多數(shù)據(jù),數(shù)據(jù)還是不夠多,因?yàn)橥扑]系統(tǒng)的歷史還不夠長,還沒有積累足夠的數(shù)據(jù)。在目前處理稀疏數(shù)據(jù)的算法中,軟性SVD是一種最好的方法。
新用戶問題
這個問題和數(shù)據(jù)稀疏問題有一些相似性,他是指如何對新用戶做出推薦。當(dāng)一個新用戶進(jìn)入一個網(wǎng)絡(luò)時,我們對他的興趣愛好還一無所知,這時如何做出推薦是一個很重要的問題。一般在這個時候,我們只是向用戶推薦那寫普遍反映比較好的物品,也就是說,推薦完全是基于物品的。
新用戶問題還有一個變種就是長尾(long tail)問題,在Amazon中,不是所有的用戶都對很多書給出了評分,很多用戶只給少數(shù)的書給出了評分,這些用戶就處在一個長尾中,如何處理那些不太表露自己興趣的用戶,也是推薦系統(tǒng)的一個主要問題。
隱性喜好發(fā)現(xiàn)
在現(xiàn)在的推薦系統(tǒng)中,用戶的喜歡是通過用戶對某些物品進(jìn)行評分獲得的。這種獲得用戶興趣的方法是一種很直接的方法。但在實(shí)際的互聯(lián)網(wǎng)中,用戶有很多隱性的方法表露他們的喜歡。比如用戶的文字評論,我們可以通過自然語言處理從用戶的評論中獲得用戶的興趣;或者是用戶的瀏覽行為,比如用戶長時間的瀏覽一個物品,或者用戶經(jīng)常瀏覽一個物品,或者用戶
購買了一個物品,這些行為都可以作為模式識別系統(tǒng)中的特征。
所以,發(fā)現(xiàn)用戶的隱性喜好,相對于模式識別的特征提取,這方面的研究也很熱門。
用戶興趣的變化
我們知道,用戶的興趣不是永遠(yuǎn)不變的,隨著年齡和閱歷的變化,用戶的行為會發(fā)生變化。也就是說,協(xié)同過濾其實(shí)還應(yīng)該加入一個時間因子。目前對于變化的用戶興趣的研究還處于起步階段,主要是因?yàn)楝F(xiàn)有的系統(tǒng)歷史都不是很久,大多數(shù)用戶的興趣還是比較穩(wěn)定的,但是隨著互聯(lián)網(wǎng)的發(fā)展,用戶興趣的變化對推薦系統(tǒng)的影響將會越來越明顯,所以這方面的研究也將越來越重要。
偏激的用戶和全新的物品
我們知道,這個世界上有一些用戶是很偏激的。他們和大多數(shù)人的觀點(diǎn)是相反的。對于這種用戶,現(xiàn)有的推薦系統(tǒng)做出的預(yù)測往往是很差的。如何處理偏激的用戶,是推薦系統(tǒng)中的一個重要問題。
和偏激用戶相對應(yīng)的,是全新的物品。比如有一部新電影,他是顛覆性的,和以前的電影都不太相似。用戶對于這個電影的愛好和用戶以前的興趣是沒有太大關(guān)系的,因?yàn)橛脩魪膩頉]見過這種電影,這個問題也是導(dǎo)致現(xiàn)有的推薦系統(tǒng)精度不高的主要原因。
馬太效應(yīng)以及推薦系統(tǒng)對互聯(lián)網(wǎng)的影響
我們知道,被推薦系統(tǒng)所推薦的物品將會越來越熱門,這就導(dǎo)致了大量很好的物品可能會被推薦系統(tǒng)所淹沒。在互聯(lián)網(wǎng)中,物品實(shí)在是太多了,而推薦系統(tǒng)只能推薦有限的物品。解決這個問題的主要方法是增加推薦系統(tǒng)的多樣性,比如一個推薦系統(tǒng)發(fā)現(xiàn)一個用戶非常喜歡吃德芙巧克力,那么他給這個用戶推薦10個產(chǎn)品,不需要都是德芙巧克力,也可以推薦別的一些巧克力,或者一些和巧克力相似的甜品。在推薦時,不僅要推薦用戶喜歡的東西,而且要通過推薦讓用戶喜歡一些東西,有的時候,用戶自己也不知道他喜歡什么,通過推薦系統(tǒng),他可能會發(fā)現(xiàn)一些新東西他比較喜歡。
推薦系統(tǒng)中的作弊
只要涉及到經(jīng)濟(jì)利益,就有人作弊。搜索引擎作弊是一個被研究了很久的問題,因?yàn)樵谒阉饕嬷?#xff0c;自己的網(wǎng)站排名越高,就能獲得越多的經(jīng)濟(jì)利益。在推薦系統(tǒng)中也是如此,比如在淘寶中,如果一個賣家的物品經(jīng)常被推薦,他就可能獲得很多經(jīng)濟(jì)利益。這樣,很多電子商務(wù)的推薦系統(tǒng)都遭受到了作弊的干擾,一些人通過一些技術(shù)手段,對自己賣的物品給出非常高的評分,這就是一種作弊行為。
推薦系統(tǒng)中的作弊在電子商務(wù)網(wǎng)站中越來越嚴(yán)重,特別是在美國這種互聯(lián)網(wǎng)比較發(fā)達(dá)的國家,已經(jīng)受到一些研究者的重視。作弊行為相當(dāng)于人為的向系統(tǒng)中注入了噪聲。目前解決作弊的算法主要是基于信任度和信用的。現(xiàn)在很多電子商務(wù)網(wǎng)站都引入了信用系統(tǒng),比如淘寶等等。如何設(shè)計信用系統(tǒng)和推薦系統(tǒng)更好的融合,是一個重要的研究問題。
?
與推薦系統(tǒng)相關(guān)的資料:
Resys Group:http://www.guwendong.cn/catalog.asp?cate=8
轉(zhuǎn)載于:https://www.cnblogs.com/cmleung/archive/2009/12/15/1625031.html
總結(jié)
以上是生活随笔為你收集整理的推荐系统与协作过滤面临的主要问题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深入理解Java虚拟机——第十二章——J
- 下一篇: C++中常量成员函数的含义