使用 Python 构建电影推荐系统
本文將余弦相似度與 KNN、Seaborn、Scikit-learn 和 Pandas 結(jié)合使用,創(chuàng)建一個(gè)使用用戶評(píng)分?jǐn)?shù)據(jù)的電影推薦系統(tǒng)。
在日常數(shù)據(jù)挖掘工作中,除了會(huì)涉及到使用Python處理分類或預(yù)測(cè)任務(wù),有時(shí)候還會(huì)涉及推薦系統(tǒng)相關(guān)任務(wù)。
推薦系統(tǒng)用于各個(gè)領(lǐng)域,常見(jiàn)的例子包括視頻和音樂(lè)服務(wù)的播放列表生成器、在線商店的產(chǎn)品推薦器或社交媒體平臺(tái)的內(nèi)容推薦器。在這個(gè)項(xiàng)目中,我們創(chuàng)建一個(gè)電影推薦器。
協(xié)同過(guò)濾通過(guò)收集許多用戶的偏好或品味信息,對(duì)用戶的興趣進(jìn)行自動(dòng)預(yù)測(cè)(過(guò)濾)。到目前為止,推薦系統(tǒng)已經(jīng)發(fā)展很長(zhǎng)一段時(shí)間了,它們的模型基于各種技術(shù),如加權(quán)平均、相關(guān)性、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等等。
自 1995 年以來(lái),Movielens 20M dataset 擁有超過(guò) 2000 萬(wàn)個(gè)電影評(píng)級(jí)和標(biāo)記活動(dòng)。在本文中,我們將從movie.csv & rating.csv文件中檢索信息。使用Python庫(kù):Pandas, Seaborn, Scikit-learn和SciPy,使用k-近鄰算法中的余弦相似度訓(xùn)練模型。
以下是該項(xiàng)目的核心步驟:
導(dǎo)入和合并數(shù)據(jù)集并創(chuàng)建 Pandas DataFrame
添加必要的特征來(lái)分析數(shù)據(jù)
使用 Seaborn 可視化數(shù)據(jù)并分析數(shù)據(jù)
通過(guò)設(shè)置閾值過(guò)濾無(wú)效數(shù)據(jù)
創(chuàng)建一個(gè)以用戶為索引、以電影為列的數(shù)據(jù)透視表
創(chuàng)建 KNN 模型并輸出與每部電影相似的 5 個(gè)推薦
導(dǎo)入數(shù)據(jù)
導(dǎo)入和合并數(shù)據(jù)集并創(chuàng)建 Pandas DataFrame
MovieLens 20M 數(shù)據(jù)集自 1995 年以來(lái)超過(guò) 2000 萬(wàn)的電影評(píng)級(jí)和標(biāo)記活動(dòng)。數(shù)據(jù)集文末獲取
# usecols 允許選擇自己選擇的特征,并通過(guò)dtype設(shè)定對(duì)應(yīng)類型 movies_df=pd.read_csv('movies.csv', usecols=['movieId','title'], dtype={'movieId':'int32','title':'str'}) movies_df.head() ratings_df=pd.read_csv('ratings.csv',usecols=['userId', 'movieId', 'rating','timestamp'],dtype={'userId': 'int32', 'movieId': 'int32', 'rating': 'float32'}) ratings_df.head()檢查是否存在任何空值以及兩個(gè)數(shù)據(jù)中的條目數(shù)。
# 檢查缺失值 movies_df.isnull().sum() movieId 0 title 0 dtype: int64 ratings_df.isnull().sum() userId 0 movieId 0 rating 0 timestamp 0 dtype: int64 print("Movies:",movies_df.shape) print("Ratings:",ratings_df.shape) Movies: (9742, 2) Ratings: (100836, 4)合并列上的數(shù)據(jù)幀 'movieId'
# movies_df.info() # ratings_df.info() movies_merged_df=movies_df.merge(ratings_df, on='movieId') movies_merged_df.head()現(xiàn)在已經(jīng)成功合并了導(dǎo)入的數(shù)據(jù)集。
添加衍生特征
添加必要的特征來(lái)分析數(shù)據(jù)。
通過(guò)按電影標(biāo)題對(duì)用戶評(píng)分進(jìn)行分組來(lái)創(chuàng)建'Average Rating' & 'Rating Count'列。
movies_average_rating=movies_merged_df.groupby('title')['rating']\.mean().sort_values(ascending=False)\.reset_index().rename(columns={'rating':'Average Rating'}) movies_average_rating.head() movies_rating_count=movies_merged_df.groupby('title')['rating']\.count().sort_values(ascending=True)\.reset_index().rename(columns={'rating':'Rating Count'}) #ascending=False movies_rating_count_avg=movies_rating_count.merge(movies_average_rating, on='title') movies_rating_count_avg.head()目前已經(jīng)創(chuàng)建了 2 個(gè)新的衍生特征。
數(shù)據(jù)可視化
使用 Seaborn 可視化數(shù)據(jù):
-
經(jīng)過(guò)分析發(fā)現(xiàn),許多電影在近 10 萬(wàn)用戶評(píng)分的數(shù)據(jù)集上都有完美的 5 星平均評(píng)分。這表明存在異常值,我們需要通過(guò)可視化進(jìn)一步確認(rèn)。
-
多部電影的評(píng)分比較單一,建議設(shè)置一個(gè)評(píng)分門(mén)檻值,以便產(chǎn)生有價(jià)值的推薦。
使用 seaborn & matplotlib 可視化數(shù)據(jù),以便更好地觀察和分析數(shù)據(jù)。
將新創(chuàng)建的特征繪制直方圖,并查看它們的分布。設(shè)置 bin 大小為80,該值的設(shè)置需要具體分析,并合理設(shè)置。
# 導(dǎo)入可視化庫(kù) import seaborn as sns import matplotlib.pyplot as plt sns.set(font_scale = 1) plt.rcParams["axes.grid"] = False plt.style.use('dark_background') %matplotlib inline# 繪制圖形 plt.figure(figsize=(12,4)) plt.hist(movies_rating_count_avg['Rating Count'],bins=80,color='tab:purple') plt.ylabel('Ratings Count(Scaled)', fontsize=16) plt.savefig('ratingcounthist.jpg')plt.figure(figsize=(12,4)) plt.hist(movies_rating_count_avg['Average Rating'],bins=80,color='tab:purple') plt.ylabel('Average Rating',fontsize=16) plt.savefig('avgratinghist.jpg')圖1 Average Rating直方圖
圖2 Rating Count的直方圖
現(xiàn)在創(chuàng)建一個(gè)joinplot二維圖表,將這兩個(gè)特征一起可視化。
plot=sns.jointplot(x='Average Rating',y='Rating Count',data=movies_rating_count_avg,alpha=0.5, color='tab:pink') plot.savefig('joinplot.jpg')Average Rating和Rating Count的二維圖
分析
-
圖1證實(shí)了,大部分電影的評(píng)分都是較低的。除了設(shè)置閾值之外,我們還可以在這個(gè)用例中使用一些更高百分比的分位數(shù)。
-
直方圖 2 展示了“Average Rating”的分布函數(shù)。
數(shù)據(jù)清洗
運(yùn)用describe()函數(shù)得到數(shù)據(jù)集的描述統(tǒng)計(jì)值,如分位數(shù)和標(biāo)準(zhǔn)差等。
pd.set_option('display.float_format', lambda x: '%.3f' % x) print(rating_with_RatingCount['Rating Count'].describe()) count 100836.000 mean 58.759 std 61.965 min 1.000 25% 13.000 50% 39.000 75% 84.000 max 329.000 Name: Rating Count, dtype: float64設(shè)置閾值并篩選出高于閾值的數(shù)據(jù)。
popularity_threshold = 50 popular_movies= rating_with_RatingCount[rating_with_RatingCount['Rating Count']>=popularity_threshold] popular_movies.head() # popular_movies.shape至此已經(jīng)通過(guò)過(guò)濾掉了評(píng)論低于閾值的電影來(lái)清洗數(shù)據(jù)。
創(chuàng)建數(shù)據(jù)透視表
創(chuàng)建一個(gè)以用戶為索引、以電影為列的數(shù)據(jù)透視表
為了稍后將數(shù)據(jù)加載到模型中,需要?jiǎng)?chuàng)建一個(gè)數(shù)據(jù)透視表。并設(shè)置'title'作為索引,'userId'為列,'rating'為值。
import os movie_features_df=popular_movies.pivot_table(index='title',columns='userId',values='rating').fillna(0) movie_features_df.head() movie_features_df.to_excel('output.xlsx')接下來(lái)將創(chuàng)建的數(shù)據(jù)透視表加載到模型。
建立 kNN 模型
建立 kNN 模型并輸出與每部電影相似的 5 個(gè)推薦
使用scipy.sparse模塊中的csr_matrix方法,將數(shù)據(jù)透視表轉(zhuǎn)換為用于擬合模型的數(shù)組矩陣。
from scipy.sparse import csr_matrix movie_features_df_matrix = csr_matrix(movie_features_df.values)最后,使用之前生成的矩陣數(shù)據(jù),來(lái)訓(xùn)練來(lái)自sklearn中的NearestNeighbors算法。并設(shè)置參數(shù):metric = 'cosine', algorithm = 'brute'
from sklearn.neighbors import NearestNeighbors model_knn = NearestNeighbors(metric = 'cosine',algorithm = 'brute') model_knn.fit(movie_features_df_matrix)現(xiàn)在向模型傳遞一個(gè)索引,根據(jù)'kneighbors'算法要求,需要將數(shù)據(jù)轉(zhuǎn)換為單行數(shù)組,并設(shè)置n_neighbors的值。
query_index = np.random.choice(movie_features_df.shape[0]) distances, indices = model_knn.kneighbors(movie_features_df.iloc[query_index,:].values.reshape(1, -1), n_neighbors = 6)最后在 query_index 中輸出出電影推薦。
for i in range(0, len(distances.flatten())):if i == 0:print('Recommendations for {0}:\n'.format(movie_features_df.index[query_index]))else:print('{0}: {1}, with distance of {2}:'.format(i, movie_features_df.index[indices.flatten()[i]],distances.flatten()[i])) Recommendations for Harry Potter and the Order of the Phoenix (2007): 1: Harry Potter and the Half-Blood Prince (2009), with distance of 0.2346513867378235: 2: Harry Potter and the Order of the Phoenix (2007), with distance of 0.3396233320236206: 3: Harry Potter and the Goblet of Fire (2005), with distance of 0.4170845150947571: 4: Harry Potter and the Prisoner of Azkaban (2004), with distance of 0.4499547481536865: 5: Harry Potter and the Chamber of Secrets (2002), with distance of 0.4506162405014038:至此我們已經(jīng)能夠成功構(gòu)建了一個(gè)僅基于用戶評(píng)分的推薦引擎。
總結(jié)
以下是我們構(gòu)建電影推薦系統(tǒng)的步驟摘要:
導(dǎo)入和合并數(shù)據(jù)集并創(chuàng)建 Pandas DataFrame
為了更好分析數(shù)據(jù)創(chuàng)建衍生變量
使用 Seaborn 可視化數(shù)據(jù)
通過(guò)設(shè)置閾值來(lái)清洗數(shù)據(jù)
創(chuàng)建了一個(gè)以用戶為索引、以電影為列的數(shù)據(jù)透視表
建立一個(gè) kNN 模型,并輸出 5 個(gè)與每部電影最相似的推薦
寫(xiě)在最后
以下是可以擴(kuò)展項(xiàng)目的一些方法:
-
這個(gè)數(shù)據(jù)集不是很大,可以在項(xiàng)目中的包含數(shù)據(jù)集中的其他文件來(lái)擴(kuò)展這個(gè)項(xiàng)目的范圍。
-
可以利用' ratings.csv' 中時(shí)間戳,分析評(píng)級(jí)在一段時(shí)間內(nèi)的變化情況,并且可以在解析我們的模型時(shí),根據(jù)時(shí)間戳對(duì)評(píng)級(jí)進(jìn)行加權(quán)。
-
該模型的性能遠(yuǎn)優(yōu)于加權(quán)平均或相關(guān)模型,但仍有提升的空間,如使用高級(jí) ML 算法甚至 DL 模型。
推薦文章
-
李宏毅《機(jī)器學(xué)習(xí)》國(guó)語(yǔ)課程(2022)來(lái)了
-
有人把吳恩達(dá)老師的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)做成了中文版
-
上癮了,最近又給公司擼了一個(gè)可視化大屏(附源碼)
-
如此優(yōu)雅,4款 Python 自動(dòng)數(shù)據(jù)分析神器真香啊
-
梳理半月有余,精心準(zhǔn)備了17張知識(shí)思維導(dǎo)圖,這次要講清統(tǒng)計(jì)學(xué)
-
年終匯總:20份可視化大屏模板,直接套用真香(文末附源碼)
技術(shù)交流
歡迎轉(zhuǎn)載、收藏、有所收獲點(diǎn)贊支持一下!
目前開(kāi)通了技術(shù)交流群,群友已超過(guò)2000人,添加時(shí)最好的備注方式為:來(lái)源+興趣方向,方便找到志同道合的朋友
- 方式①、發(fā)送如下圖片至微信,長(zhǎng)按識(shí)別,后臺(tái)回復(fù):加群;
- 方式②、添加微信號(hào):dkl88191,備注:來(lái)自CSDN
- 方式③、微信搜索公眾號(hào):Python學(xué)習(xí)與數(shù)據(jù)挖掘,后臺(tái)回復(fù):加群
總結(jié)
以上是生活随笔為你收集整理的使用 Python 构建电影推荐系统的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 微软企业库5.0学习笔记(三十三)数据访
- 下一篇: 初识python之 APP store排