NMF和SVD在推荐系统中的应用(实战)
本文以NMF和經典SVD為例,講一講矩陣分解在推薦系統中的應用。
數據
| item 1 | 5 | 5 | 0 | 5 |
| item 2 | 5 | 0 | 3 | 4 |
| item 3 | 3 | 4 | 0 | 3 |
| item 4 | 0 | 0 | 5 | 3 |
| item 5 | 5 | 4 | 4 | 5 |
| item 6 | 5 | 4 | 5 | 5 |
| Ben | 5 | 5 | 3 | 0 | 5 | 5 |
| Tom | 5 | 0 | 4 | 0 | 4 | 4 |
| John | 0 | 3 | 0 | 5 | 4 | 5 |
| Fred | 5 | 4 | 3 | 3 | 5 | 5 |
NMF
關于NMF,在淺談隱語義模型和NMF已經有過介紹。
用戶和物品的主題分布
#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) nmf = NMF(n_components=2) # 設有2個隱主題 user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ print '用戶的主題分布:' print user_distribution print '物品的主題分布:' print item_distribution運行后輸出:
用戶的主題分布: [[ 2.20884275 0.84137492][ 2.08253282 -0. ][-0. 3.18154406][ 1.84992603 1.60839505]] 物品的主題分布: [[ 2.4129931 1.02524235 1.62258152 0. 1.80111078 1.69591943][ 0.0435741 1.13506094 0. 1.54526337 1.21253494 1.48756118]]可視化物品的主題分布:
#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) nmf = NMF(n_components=2) user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ item_distribution = item_distribution.T plt.plot(item_distribution[:, 0], item_distribution[:, 1], "b*") plt.xlim((-1, 3)) plt.ylim((-1, 3)) plt.title(u'the distribution of items (NMF)') count = 1 for item in item_distribution: plt.text(item[0], item[1], 'item '+str(count), bbox=dict(facecolor='red', alpha=0.2),) count += 1 plt.show()結果:
從距離的角度來看,item 5和item 6比較類似;從余弦相似度角度看,item 2、5、6 比較相似,item 1、3比較相似。
可視化用戶的主題分布:
#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) nmf = NMF(n_components=2) user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ users = ['Ben', 'Tom', 'John', 'Fred'] zip_data = zip(users, user_distribution) plt.title(u'the distribution of users (NMF)') plt.xlim((-1, 3)) plt.ylim((-1, 4)) for item in zip_data: user_name = item[0] data = item[1] plt.plot(data[0], data[1], "b*") plt.text(data[0], data[1], user_name, bbox=dict(facecolor='red', alpha=0.2),) plt.show()結果:
從距離的角度來看,Fred、Ben、Tom的口味差不多;從余弦相似度角度看,Fred、Ben、Tom的口味還是差不多。
如何推薦
現在對于用戶A,如何向其推薦物品呢?
方法1:?找出與用戶A最相似的用戶B,將B評分過的、評分較高、A沒評分過的的若干物品推薦給A。
方法2:?找出用戶A評分較高的若干物品,找出與這些物品相似的、且A沒評分的若干物品推薦給A。
方法3:?找出用戶A最感興趣的k個主題,找出最符合這k個主題的、且A沒評分的若干物品推薦給A。
方法4:?由NMF得到的兩個矩陣,重建評分矩陣。例如:
#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) RATE_MATRIX[1, 2] = 0 # 對評分矩陣略做修改 print '新評分矩陣:' print RATE_MATRIX nmf = NMF(n_components=2) user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ reconstruct_matrix = np.dot(user_distribution, item_distribution) filter_matrix = RATE_MATRIX < 1e-6 # 小于0 print '重建矩陣,并過濾掉已經評分的物品:' print reconstruct_matrix*filter_matrix運行結果:
新評分矩陣: [[5 5 3 0 5 5][5 0 0 0 4 4][0 3 0 5 4 5][5 4 3 3 5 5]] 重建矩陣,并過濾掉已經評分的物品: [[ 0. 0. 0. 0.80443133 0. 0. ][ 0. 2.19148602 1.73560797 0. 0. 0. ][ 0.02543568 0. 0.48692891 0. 0. 0. ][ 0. 0. 0. 0. 0. 0. ]]對于Tom(評分矩陣的第2行),其未評分過的物品是item 2、item 3、item 4。item 2的推薦值是2.19148602,item 3的推薦值是1.73560797,item 4的推薦值是0,若要推薦一個物品,推薦item 2。
如何處理有評分記錄的新用戶
NMF是將非負矩陣V分解為兩個非負矩陣W和H:
V = W×H在本文上面的實現中,V對應評分矩陣,W是用戶的主題分布,H是物品的主題分布。
對于有評分記錄的新用戶,如何得到其主題分布?
方法1:?有評分記錄的新用戶的評分數據放入評分矩陣中,使用NMF處理新的評分矩陣。
方法2:?物品的主題分布矩陣H保持不變,將V更換為新用戶的評分組成的行向量,求W即可。
下面嘗試一下方法2。
設新用戶Bob的評分記錄為:
[5,5,0,0,0,5] #!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) nmf = NMF(n_components=2) user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ bob = [5, 5, 0, 0, 0, 5] print 'Bob的主題分布:' print nmf.transform(bob)運行結果是:
Bob的主題分布: [[ 1.37800534 0.69236738]]經典SVD
關于SVD的一篇好文章:強大的矩陣奇異值分解(SVD)及其應用。
相關分析與上面類似,這里就直接上代碼了。
#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from scipy.sparse.linalg import svds from scipy import sparse import matplotlib.pyplot as plt def vector_to_diagonal(vector): """ 將向量放在對角矩陣的對角線上 :param vector: :return: """ if (isinstance(vector, np.ndarray) and vector.ndim == 1) or \ isinstance(vector, list): length = len(vector) diag_matrix = np.zeros((length, length)) np.fill_diagonal(diag_matrix, vector) return diag_matrix return None RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) RATE_MATRIX = RATE_MATRIX.astype('float') U, S, VT = svds(sparse.csr_matrix(RATE_MATRIX), k=2, maxiter=200) # 2個隱主題 S = vector_to_diagonal(S) print '用戶的主題分布:' print U print '奇異值:' print S print '物品的主題分布:' print VT print '重建評分矩陣,并過濾掉已經評分的物品:' print np.dot(np.dot(U, S), VT) * (RATE_MATRIX < 1e-6)運行結果:
用戶的主題分布: [[-0.22279713 0.57098887][-0.51723555 0.4274751 ][ 0.82462029 0.38459931][ 0.05319973 0.58593526]] 奇異值: [[ 6.39167145 0. ][ 0. 17.71392084]] 物品的主題分布: [[-0.53728743 0.24605053 -0.40329582 0.67004393 0.05969518 0.18870999][ 0.44721867 0.35861531 0.29246336 0.20779151 0.50993331 0.53164501]] 重建評分矩陣,并過濾掉已經評分的物品: [[ 0. 0. 0. 1.14752376 0. 0. ][ 0. 1.90208543 0. -0.64171368 0. 0. ][ 0.21491237 0. -0.13316888 0. 0. 0. ][ 0. 0. 0. 0. 0. 0. ]]可視化一下:
經典SVD + 協同過濾
0代表沒有評分,但是上面的方法(如何推薦這一節的方法4)又確實把0看作了評分,所以最終得到的只是一個推薦值(而且總體都偏小),而無法當作預測的評分。在How do I use the SVD in collaborative filtering?有這方面的討論。
SVD簡要介紹
SVD的目標是將m*n大小的矩陣A分解為三個矩陣的乘積:
A=U?S?VTA=U?S?VT
U和V都是正交矩陣,大小分別是m*m、n*n。S是一個對角矩陣,大小是m*n,對角線存放著奇異值,從左上到右下依次減小,設奇異值的數量是r。
取k,k<<r。
取得UU的前k列得到UkUk,SS的前k個奇異值對應的方形矩陣得到SkSk,VTVT的前k行得到VTkVkT,于是有
Ak=Uk?Sk?VTkAk=Uk?Sk?VkT
AkAk可以認為是AA的近似。
下面的算法將協同過濾和SVD結合了起來。
Item-based Filtering Enhanced by SVD
這個算法來自下面這篇論文:
Vozalis M G, Margaritis K G. Applying SVD on Generalized Item-based Filtering[J]. IJCSA, 2006, 3(3): 27-51.
1、?設評分矩陣為R,大小為m*n,m個用戶,n個物品。R中元素rijrij代表著用戶uiui對物品ijij的評分。
2、?預處理R,消除掉其中未評分數據(即值為0)的評分。
- 計算R中每一行的平均值(平均值的計算中不包括值為0的評分),令Rfilled?in=RRfilled?in=R,然后將Rfilled?inRfilled?in中的0設置為該行的平均值。
- 計算R中每一列的平均值(平均值的計算中不包括值為0的評分)riri,Rfilled?inRfilled?in中的所有元素減去對應的riri,得到正規化的矩陣RnormRnorm。(norm,即normalized)。
3、?對RnormRnorm進行奇異值分解,得到:?Rnorm=U?S?VTRnorm=U?S?VT
4、?設正整數k,取得UU的前k列得到UkUk,SS的前k個奇異值對應的方形矩陣得到SkSk,VTVT的前k行得到VTkVkT,于是有
Rred=Uk?Sk?VTkRred=Uk?Sk?VkT
red,即dimensionality reduction中的reduction。可以認為k是指最重要的k個主題。定義RredRred中元素rrijrrij用戶i對物品j在矩陣RredRred中的值。
5、?Uk?S12kUk?Sk12,是用戶相關的降維后的數據,其中的每行代表著對應用戶在新特征空間下位置。S12k?VTkSk12?VkT,是物品相關的降維后的數據,其中的每列代表著對應物品在新特征空間下的位置。
S12k?VTkSk12?VkT中的元素mrijmrij代表物品j在新空間下維度i中的值,也可以認為是物品j屬于主題i的程度。(共有k個主題)。
6、?獲取物品之間相似度。
-
根據S12k?VTkSk12?VkT計算物品之間的相似度,例如使用余弦相似度計算物品j和f的相似度:
-
相似度計算出來后就可以得到每個物品最相似的若干物品了。
7、?使用下面的公式預測用戶a對物品j的評分:這個公式里有些變量的使用和上面的沖突了(例如k)。?ll是指取物品j最相似的ll個物品。?mrijmrij代表物品j在新空間下維度i中的值,也可以認為是物品j屬于主題i的程度。?simjksimjk是物品j和物品k的相似度。?RredRred中元素rrakrrak是用戶a對物品k在矩陣RredRred中對應的評分。raˉraˉ是指用戶a在評分矩陣RR中評分的平均值(平均值的計算中不包括值為0的評分)。
參考
SVD Recommendation System in Ruby?這篇文章使用的數據來自該鏈接,里面處理新用戶的方法表示沒看懂。
How do I use the SVD in collaborative filtering?
Vozalis M G, Margaritis K G. Applying SVD on Generalized Item-based Filtering[J]. IJCSA, 2006, 3(3): 27-51.
轉載于:https://www.cnblogs.com/AngelaSunny/p/5231981.html
總結
以上是生活随笔為你收集整理的NMF和SVD在推荐系统中的应用(实战)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PHP+JQuery实现ajax跨域
- 下一篇: xcode svn commit is