4.6 大数据集-机器学习笔记-斯坦福吴恩达教授
生活随笔
收集整理的這篇文章主要介紹了
4.6 大数据集-机器学习笔记-斯坦福吴恩达教授
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
大數據集
在機器學習領域,流傳著這樣一句話:
It’s not who has the best algorithm that wins. It’s who has the most data.
所以商業社會中,互聯網公司都不遺余力地先收集一波大數據再說,沒有數據,再多的手段也是空談。下圖中,是一個區分容易混淆單詞的機器學習案例,所采用的幾種算法在訓練樣本提供的樣本越來越多時,都表現得越來越優異:
什么時候采用大規模的數據集呢,一定要保證模型擁有足夠的參數(線索),對于線性回歸/邏輯回歸來說,就是具備足夠多的特征,而對于神經網絡來說,就是更多的隱層單元。這樣,足夠多的特征避免了高偏差(欠擬合)問題,而足夠大數據集避免了多特征容易引起的高方差(過擬合)問題。
總結
以上是生活随笔為你收集整理的4.6 大数据集-机器学习笔记-斯坦福吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 4.5 偏斜类-机器学习笔记-斯坦福吴恩
- 下一篇: 4.7 程序示例--算法诊断-机器学习笔