深度学习——02、深度学习入门 1-7
01深度學(xué)習(xí)與人工智能簡介
什么是人工智能?
觀察周圍的世界,把看到的事物加以理解,最后通過理解進行一系列的決策。
感知+理解+決策。
學(xué)習(xí)的能力,是智能的本質(zhì)!
大數(shù)據(jù)時代
大數(shù)據(jù)時代造就了人工智能的高速發(fā)展
深度學(xué)習(xí)
上世紀(jì)九十年代就已經(jīng)存在。
2012年Alex-net在ImageNet圖像分類比賽中一炮打響。
2016年阿爾法狗戰(zhàn)勝李世石說明人工智能時代來臨。
百度繪制傳統(tǒng)AI算法與深度學(xué)習(xí)算法對比
深度學(xué)習(xí)述說圖片的故事
無人駕駛汽車
1.物體檢測
2.行人檢測
3.標(biāo)志識別
4.速度識別
……
02計算機視覺面臨挑戰(zhàn)與常規(guī)套路
圖像分類:計算機視覺核心任務(wù)
圖像在計算機中長什么樣呢?
一張圖片被表示成三維數(shù)組的形式,每個像素的值從0到255。
像素點可以直接與亮度掛鉤,像素點越大,亮度越高。
挑戰(zhàn):照射角度
挑戰(zhàn):光照強度
挑戰(zhàn):形狀改變
挑戰(zhàn):部分遮蔽
挑戰(zhàn):背景混入
深度學(xué)習(xí)的套路
1.收集數(shù)據(jù)并給定標(biāo)簽
2.訓(xùn)練一個分類器
3.測試,評估
03用K近鄰來進行圖像分類
1.如果K=3,綠色圓點的最近3個鄰居是2個紅色小三角形和1個藍色小正方形,少數(shù)服從多數(shù),基于統(tǒng)計的方法,判定綠色的這個待分類點屬于紅色的三角形一類。
2. 如果K=5,綠色圓點的最近5個鄰居是2個紅色小三角形和3個藍色小正方形,少數(shù)服從多數(shù),基于統(tǒng)計的方法,判定綠色的這個待分類點屬于藍色的正方形一類。
對于未知類別屬性數(shù)據(jù)集中的點:
1.計算已知類別數(shù)據(jù)集中的點與當(dāng)前點的距離
2.按照距離依次排序
3.選取與當(dāng)前距離最小的K個點
(K最好選為奇數(shù))
4.確定前K個點所在類別的出現(xiàn)概率
5.返回前K個點出現(xiàn)概率最高的類別作為當(dāng)前點的預(yù)測分類
K-近鄰概述
KNN算法本身簡單有效,它是一種lazy-learning算法。
分類器不需要使用訓(xùn)練集進行訓(xùn)練,訓(xùn)練時間復(fù)雜度為0。
KNN分類的計算復(fù)雜度和訓(xùn)練集中的文檔數(shù)目成正比,也就是說,如果訓(xùn)練集中文檔總數(shù)為n,那么KNN的分類時間復(fù)雜度為O(n)。
K-近鄰缺陷
K值的選擇,距離度量和分類決策規(guī)劃是該算法的三個基本要素。
問題:該算法在分類時有個主要的不足是,當(dāng)樣本不平衡時,如一個類的樣本容量很大,而其他類樣本容量很小時,有可能導(dǎo)致當(dāng)輸入一個新樣本時,該樣本的K個鄰居大容量類的樣本占多數(shù)。
解決,不同的樣本給予不同權(quán)重項。
數(shù)據(jù)庫樣例:CIFAR-10
10類標(biāo)簽
50000個訓(xùn)練數(shù)據(jù)
10000個測試數(shù)據(jù)
大小均為32*32
如何計算
04超參數(shù)與交叉驗證
超參數(shù)
問題:
1.對于距離如何設(shè)定?
2.對于K近鄰的K該如何選擇?
3.如果有的話,其他超參數(shù)該怎么設(shè)定?
解決:
找到最好的參數(shù):多次用測試數(shù)據(jù)實驗,找到做好的一組參數(shù)組合。
但這是錯誤的想法,因為測試數(shù)據(jù)只能最終使用。
交叉驗證
參見:python人工智能——機器學(xué)習(xí)——模型選擇與調(diào)優(yōu)
背景主導(dǎo)導(dǎo)致不能用K-近鄰進行圖片分類
總結(jié)
1.選取超參數(shù)的正確方法是:將原始訓(xùn)練集分為訓(xùn)練集和驗證集,我們在驗證集上嘗試不同的超參數(shù),最后保留表現(xiàn)最好那個。
2.如果訓(xùn)練數(shù)據(jù)量不夠,使用交叉驗證方法,它能幫助我們在選取最優(yōu)超參數(shù)的時候減少噪音。
3.一旦找到最優(yōu)的超參數(shù),就讓算法以該參數(shù)在測試集跑且只跑一次,并根據(jù)測試結(jié)果評價算法。
4.最近鄰分類器能夠在CIFAR-10上得到將近40%的準(zhǔn)確率。該算法簡單易實現(xiàn),但需要存儲所有訓(xùn)練數(shù)據(jù),并且在測試的時候過于耗費計算能力。
5.最后,僅僅使用L1和L2范數(shù)來進行像素比較是不夠的,圖像更多的是按照背景和顏色被分類,而不是語義主體分身。
6.預(yù)處理你的數(shù)據(jù):對你數(shù)據(jù)中的特征進行歸一化(normalize),讓其具有零平均值(zero mean)和單位方差(unit variance)。
7.如果數(shù)據(jù)是高維數(shù)據(jù),考慮使用降維方法,比如PCA。
8.將數(shù)據(jù)隨機分入訓(xùn)練集和驗證集。按照一般規(guī)律,70%-90% 數(shù)據(jù)作為訓(xùn)練集。
9.在驗證集上調(diào)優(yōu),嘗試足夠多的k值,嘗試L1和L2兩種范數(shù)計算方式。
05線性分類
假設(shè)有這么一張我學(xué)校的?;請D片,對應(yīng)大小為[32323],然后有十個標(biāo)簽, 想要找一組比較好的權(quán)重參數(shù)w,得出當(dāng)前的權(quán)重參數(shù)對每個分類的得分。
轉(zhuǎn)換為矩陣形式:
將32323=3072個像素點進行拉伸,轉(zhuǎn)換成一個列向量:30721的矩陣,結(jié)果是101的矩陣, 則w為3072*10的二維矩陣,每個元素都是一個權(quán)重參數(shù),跟圖像轉(zhuǎn)換的矩陣進行組合,就可以算出得分。
06損失函數(shù)
07正則化懲罰項
w1只關(guān)注第一個像素點,w2對每個像素點一視同仁,雖然結(jié)果相同,但是對于w1是不可取的。
由此可得,損失函數(shù)終極版:
總結(jié)
以上是生活随笔為你收集整理的深度学习——02、深度学习入门 1-7的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AI 质检学习报告——实践篇——第二步:
- 下一篇: 深度学习——02、深度学习入门 8-14