9.4 均值标准化-机器学习笔记-斯坦福吴恩达教授
均值標準化
假定我們現在新注冊了一個用戶 Eve(5),他還沒有對任何電影作出評價:
Y=[5500?5??0??40??0054?0050?]Y=\left[\begin{matrix} 5&5&0&0&?\\ 5&?&?&0&?\\ ?&4&0&?&?\\ 0&0&5&4&?\\ 0&0&5&0&?\\ \end{matrix}\right]Y=???????55?00?5?400?0?055?00?40??????????????
則 Eve(5) 對于電影內容的偏好應當被參數 θ(5)θ^{(5)}θ(5) 所評估,注意到我們的最小化代價函數過程:
min?x(1),...,x(nm);θ(1),...,θ(nu)12∑(i,j):r(i,j)=1((θ(j))Tx(i)?y(i,j))2+λ2∑i=1nm∑k=1n(xk(i))2+λ2∑j=1nu∑k=1n(θk(j))2\min_{x^{(1)},...,x^{(n_m)};θ^{(1)},...,θ^{(n_u)}} \frac 12 \sum_{(i,j):r(i,j)=1} ((θ^{(j)})^Tx^{(i)}-y^{(i,j)})^2+\frac {\lambda} 2 \sum_{i=1}^{n_m} \sum_{k=1}^n(x^{(i)}_k)^2 + \frac {\lambda} 2 \sum_{j=1}^{n_u} \sum_{k=1}^n(θ^{(j)}_k)^2x(1),...,x(nm?);θ(1),...,θ(nu?)min?21?(i,j):r(i,j)=1∑?((θ(j))Tx(i)?y(i,j))2+2λ?i=1∑nm??k=1∑n?(xk(i)?)2+2λ?j=1∑nu??k=1∑n?(θk(j)?)2
由于該用戶沒有對任何電影作出評價, θ(5)θ^{(5)}θ(5) 能影響上式的項只有:
λ2∑j=1nu∑k=1n(θk(j))2\frac {\lambda} 2 \sum_{j=1}^{n_u} \sum_{k=1}^n(θ^{(j)}_k)^22λ?j=1∑nu??k=1∑n?(θk(j)?)2
為了最小化該式,我們只能令 θ(5)=(00)θ^{(5)}=\left(\begin{matrix}0\\0\end{matrix}\right)θ(5)=(00?) ,從而,Eve(5) 對任何電影的評價將會被預測為:
y(i,5)=(θ(5))Tx(i)=0y(i,5)=(θ^{(5)})^Tx^{(i)}=0y(i,5)=(θ(5))Tx(i)=0
顯然,這就是一種“不負責任”的預測了,系統會因此認為 Eve 對任何電影都不感冒,那么,Eve 就是吃飽了撐的來注冊這個網站。
為了這個解決這個問題,我們會先求取各個電影的平均得分 μμμ :
μ=(2.52.522.251.25)μ=\left(\begin{matrix} 2.5\\ 2.5\\ 2\\ 2.25\\ 1.25\\ \end{matrix}\right)μ=???????2.52.522.251.25????????
并求取 Y?μY?μY?μ ,對 YYY 進行均值標準化:
Y?μ=[2.52.5?2.5?2.5?2.5???2.5???2?2???2.25?2.252.751.75??1.25?1.253.75?1.25?]Y-μ=\left[\begin{matrix} 2.5 & 2.5 & -2.5 & -2.5 & ?\\ 2.5 & ? & ? & -2.5 & ?\\ ? & -2 & -2 & ? & ?\\ -2.25 & -2.25 & 2.75 & 1.75 & ?\\ -1.25 & -1.25 & 3.75 & -1.25 & ?\\ \end{matrix}\right]Y?μ=???????2.52.5??2.25?1.25?2.5??2?2.25?1.25??2.5??22.753.75??2.5?2.5?1.75?1.25??????????????
對于用戶 jjj ,他對電影 iii 的評分就為:
y(i,j)=(θ(i))Tx(j)+μiy(i,j)=(θ^{(i)})^Tx^{(j)}+μ_iy(i,j)=(θ(i))Tx(j)+μi?
那么 Eve 對電影的評分就為:
y(i,5)=(θ(5))Tx(j)+μi=μiy(i,5)=(θ^{(5)})^Tx^{(j)}+μ_i=μ_iy(i,5)=(θ(5))Tx(j)+μi?=μi?
即,系統在用戶未給出評價時,默認該用戶對電影的評價與其他用戶的平均評價一致。貌似利用均值標準化讓用戶的初始評價預測客觀了些,但這也是盲目的,不準確的。實際環境中,如果一個電影確實沒人被評價過,那么他沒有任何理由被推薦給用戶。
總結
以上是生活随笔為你收集整理的9.4 均值标准化-机器学习笔记-斯坦福吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 9.3 低秩矩阵分解-机器学习笔记-斯坦
- 下一篇: 9.5 程序示例--推荐系统-机器学习笔