IMDB评分排名算法
生活随笔
收集整理的這篇文章主要介紹了
IMDB评分排名算法
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
IMDB網(wǎng)站是目前互聯(lián)網(wǎng)上最為權(quán)威、系統(tǒng)、全面的電影資料網(wǎng)站,里面包括了幾乎所有的電影,以及1982 年以后的電視劇集。IMDB的資料中包括了影片的眾多信息,演員,片長(zhǎng),內(nèi)容介紹,分級(jí) ,評(píng)論等,就個(gè)人買碟而言,很大程度上也是參考IMDB的得分。 它所特有的電影評(píng)分系統(tǒng)深受影迷的歡迎,注冊(cè)的用戶可以給任何一部影片打分并加以評(píng)述,而網(wǎng)站又會(huì)根據(jù)影片所得平均分、選票的數(shù)目等計(jì)算得出影片的加權(quán)平均分并以此進(jìn)行TOP250(最佳250部影片)和Bottom100(最差100部影片)的排行。
? ? 由于影片資料的更新和所得評(píng)分的不斷變化,TOP250和Bottom100必定是份動(dòng)態(tài)的名單,但大部分出色(或者說是受大眾歡迎的)影片的位置會(huì)相對(duì)不變,于是這份TOP榜單也就有了窺視大眾電影口味的意義。評(píng)選最佳250部電影時(shí)只考慮正式的投票者的投票結(jié)果。分值系統(tǒng)采用10分制,最低為awful(令人厭惡)的1分,最高為excellent(出類拔萃)的10分。值得注意的是,雖然很多影片在資料系統(tǒng)中得分很高,但由于未能達(dá)到TOP所要求的最低1250張的投票數(shù)而無法參加排行。因此,很多曲高和寡(至少在美國)的優(yōu)秀影片未能列入其中。盡管如此,這份名單對(duì)選看影片仍具有重要的參考價(jià)值。
? ? 這里就有一個(gè)問題:熱門電影與冷門電影的平均得分,是否真的可比?舉例來說,一部好萊塢大片有10000個(gè)觀眾投票,一部小成本的文藝片只有100個(gè)觀眾投票。這兩者的投票結(jié)果,怎么比較?如何才能公平地反映出一部電影真正的質(zhì)量?
? ? 一個(gè)合理的思路是,如果要比較兩部電影的好壞,至少應(yīng)該請(qǐng)同樣多的觀眾觀看和評(píng)分。既然文藝片的觀眾人數(shù)偏少,那么應(yīng)該設(shè)法為它增加一些觀眾。在排名頁面的底部,IMDB給出了它的計(jì)算方法。
? ? 根據(jù)IMDB網(wǎng)站上公布的TOP250評(píng)分標(biāo)準(zhǔn):
? ? imdb top 250用的是貝葉斯統(tǒng)計(jì)的算法得出的加權(quán)分(Weighted Rank-WR),公式如下:
? ? weighted rank (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
? ? 其中:
? ? R = average for the movie (mean) = (Rating) (是用普通的方法計(jì)算出的平均分)
? ? v = number of votes for the movie = (votes) (投票人數(shù),需要注意的是,只有經(jīng)常投票者才會(huì)被計(jì)算在內(nèi),這個(gè)下面詳細(xì)解釋)
? ? m = minimum votes required to be listed in the top 250 (currently 1250) (進(jìn)入imdb top 250需要的最小票數(shù),只有三兩個(gè)人投票的電影就算得滿分也沒用的)
? ? C = the mean vote across the whole report (currently 6。9) (目前所有電影的平均得分)
? ? 仔細(xì)研究這個(gè)公式,你會(huì)發(fā)現(xiàn),IMDB為每部電影增加了1250張選票,并且這些選票的評(píng)分都為6。9。這樣做的原因是,假設(shè)所有電影都至少有1250張選票,那么就都具備了進(jìn)入前250名的評(píng)選條件;然后假設(shè)這1250張選票的評(píng)分是所有電影的平均得分(即假設(shè)這部電影具有平均水準(zhǔn));最后,用現(xiàn)有的觀眾投票進(jìn)行修正,長(zhǎng)期來看,v/(v+m)這部分的權(quán)重將越來越大,得分將慢慢接近真實(shí)情況。
? ? 這樣做拉近了不同電影之間投票人數(shù)的差異,使得投票人數(shù)較少的電影也有可能排名前列。
? ? IMDB上的評(píng)分完全來自于網(wǎng)民的評(píng)價(jià),憑的是參與評(píng)價(jià)的網(wǎng)民的自身喜好,參與評(píng)分的網(wǎng)民越多,IMDB的評(píng)分越有可靠性。
? ? 看到這個(gè)公式,我們就能明白為什么IMDB的排名最有權(quán)威性,雖然它是一個(gè)以英美觀眾為主的網(wǎng)站,但依然受到全世界影迷的推崇,這和它以科學(xué)為主導(dǎo)的客觀公正性是分不開的。別的各種所謂排行榜都可以偽造,可以花錢買,或者是一種商業(yè)游戲,但是IMDB不是,所以這就是它的價(jià)值。
? ? 由于影片資料的更新和所得評(píng)分的不斷變化,TOP250和Bottom100必定是份動(dòng)態(tài)的名單,但大部分出色(或者說是受大眾歡迎的)影片的位置會(huì)相對(duì)不變,于是這份TOP榜單也就有了窺視大眾電影口味的意義。評(píng)選最佳250部電影時(shí)只考慮正式的投票者的投票結(jié)果。分值系統(tǒng)采用10分制,最低為awful(令人厭惡)的1分,最高為excellent(出類拔萃)的10分。值得注意的是,雖然很多影片在資料系統(tǒng)中得分很高,但由于未能達(dá)到TOP所要求的最低1250張的投票數(shù)而無法參加排行。因此,很多曲高和寡(至少在美國)的優(yōu)秀影片未能列入其中。盡管如此,這份名單對(duì)選看影片仍具有重要的參考價(jià)值。
? ? 這里就有一個(gè)問題:熱門電影與冷門電影的平均得分,是否真的可比?舉例來說,一部好萊塢大片有10000個(gè)觀眾投票,一部小成本的文藝片只有100個(gè)觀眾投票。這兩者的投票結(jié)果,怎么比較?如何才能公平地反映出一部電影真正的質(zhì)量?
? ? 一個(gè)合理的思路是,如果要比較兩部電影的好壞,至少應(yīng)該請(qǐng)同樣多的觀眾觀看和評(píng)分。既然文藝片的觀眾人數(shù)偏少,那么應(yīng)該設(shè)法為它增加一些觀眾。在排名頁面的底部,IMDB給出了它的計(jì)算方法。
? ? 根據(jù)IMDB網(wǎng)站上公布的TOP250評(píng)分標(biāo)準(zhǔn):
? ? imdb top 250用的是貝葉斯統(tǒng)計(jì)的算法得出的加權(quán)分(Weighted Rank-WR),公式如下:
? ? weighted rank (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
? ? 其中:
? ? R = average for the movie (mean) = (Rating) (是用普通的方法計(jì)算出的平均分)
? ? v = number of votes for the movie = (votes) (投票人數(shù),需要注意的是,只有經(jīng)常投票者才會(huì)被計(jì)算在內(nèi),這個(gè)下面詳細(xì)解釋)
? ? m = minimum votes required to be listed in the top 250 (currently 1250) (進(jìn)入imdb top 250需要的最小票數(shù),只有三兩個(gè)人投票的電影就算得滿分也沒用的)
? ? C = the mean vote across the whole report (currently 6。9) (目前所有電影的平均得分)
? ? 仔細(xì)研究這個(gè)公式,你會(huì)發(fā)現(xiàn),IMDB為每部電影增加了1250張選票,并且這些選票的評(píng)分都為6。9。這樣做的原因是,假設(shè)所有電影都至少有1250張選票,那么就都具備了進(jìn)入前250名的評(píng)選條件;然后假設(shè)這1250張選票的評(píng)分是所有電影的平均得分(即假設(shè)這部電影具有平均水準(zhǔn));最后,用現(xiàn)有的觀眾投票進(jìn)行修正,長(zhǎng)期來看,v/(v+m)這部分的權(quán)重將越來越大,得分將慢慢接近真實(shí)情況。
? ? 這樣做拉近了不同電影之間投票人數(shù)的差異,使得投票人數(shù)較少的電影也有可能排名前列。
? ? IMDB上的評(píng)分完全來自于網(wǎng)民的評(píng)價(jià),憑的是參與評(píng)價(jià)的網(wǎng)民的自身喜好,參與評(píng)分的網(wǎng)民越多,IMDB的評(píng)分越有可靠性。
? ? 看到這個(gè)公式,我們就能明白為什么IMDB的排名最有權(quán)威性,雖然它是一個(gè)以英美觀眾為主的網(wǎng)站,但依然受到全世界影迷的推崇,這和它以科學(xué)為主導(dǎo)的客觀公正性是分不開的。別的各種所謂排行榜都可以偽造,可以花錢買,或者是一種商業(yè)游戲,但是IMDB不是,所以這就是它的價(jià)值。
總結(jié)
以上是生活随笔為你收集整理的IMDB评分排名算法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 电动滑板车安全标准EN17128和电动自
- 下一篇: Linux服务器重启导致数据丢失问题解决