豆瓣250排行榜算法
IMDB網(wǎng)站依據(jù)下列公式計(jì)算每部影片的得分,以排定名次:?
?
加權(quán)平均分(WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C?
?
在這里:?
R = 該電影的平均分?
v = 該電影的總投票數(shù)?
m = 列入前250所需要的最少票數(shù)(目前是1300票)?
C = 數(shù)據(jù)庫中所有電影的總平均分(目前是6.7)?
?
這個(gè)估算比目前豆瓣所采用的簡單平均分方法要科學(xué)的多,因?yàn)樗瓤紤]了電影的受眾人數(shù),也考慮了優(yōu)劣。比如一部電影只有10個(gè)人看過,這10個(gè)人都給它打10分,而另一部電影有10000人看過,平均分是9分,大家覺得哪個(gè)好?我想大部分人會相信是后者。所以這就是貝葉斯算法的依據(jù)。
?
從目前的分析來看,豆瓣250應(yīng)該也采用了這種算法,其中的四項(xiàng)參數(shù),R和V可以根據(jù)用戶對電影的評分直接獲得,而m和C兩項(xiàng)參數(shù)則略為復(fù)雜。?
先來說說C值,該值總體來說比較平穩(wěn),經(jīng)過一段時(shí)間的觀察和試算,應(yīng)該是在3.8左右平穩(wěn)上升。?
應(yīng)該這個(gè)平均分是比較高的,由于豆瓣采取的是5分制,折算成IMDB分有7.6了,這比上文提到的IMDB平均分高了近1分。如果這確實(shí)是數(shù)據(jù)庫中所有電影的總平均分,那么可以推測豆瓣用戶總體來說是比較“寬容”的,或者說更愿意對自己推薦的電影進(jìn)行評分而對較差的電影則不予評價(jià)。?
另一個(gè)參數(shù)m,是至關(guān)重要的一個(gè)閥值,即使一部電影的評分再高,如果總投票數(shù)不能達(dá)到這個(gè)閥值,也是不能上榜的。?
由于豆瓣250排行榜每周更新一次,根據(jù)每周的排名情況,我們可以發(fā)現(xiàn)從250創(chuàng)設(shè)到現(xiàn)在,m值在短短1個(gè)半月內(nèi),由最初的1300左右增加至目前的1500左右,應(yīng)該說,這樣一個(gè)增幅是比較高的。上周,一直在榜單中的《L.A. Confidential》就因?yàn)闆]到跟上M的漲速而掉隊(duì),但于本周返回榜單。?
m值的設(shè)定可以說一定程度上決定了整個(gè)榜單的取向,如果設(shè)定的較低,會使得榜單更容易被人為操縱,畢竟現(xiàn)在注冊馬甲不是很困難的事情;但設(shè)的高了,一些受眾較少的優(yōu)秀電影也會因?yàn)樵u分人數(shù)達(dá)不到及格線而被擋在榜單之外;極端的說,如果設(shè)定過高,留在榜單上的只能是一些“暢銷”電影了。而豆瓣250有關(guān)這個(gè)參數(shù)的確定方式,是所有參數(shù)中最難以判定的。
轉(zhuǎn)載于:https://www.cnblogs.com/jamesbd/p/3954658.html
總結(jié)
以上是生活随笔為你收集整理的豆瓣250排行榜算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: easyui的filebox赋值回显
- 下一篇: windows启动时自动运行程序(登录或