當(dāng)前位置：首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

深度学习基础实例与总结

發(fā)布時(shí)間：2024/3/13 pytorch 43 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习基础实例与总结小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、神經(jīng)網(wǎng)絡(luò)

1 深度學(xué)習(xí)

1 什么是深度學(xué)習(xí)？

簡(jiǎn)單來(lái)說(shuō)，深度學(xué)習(xí)就是一種包括多個(gè)隱含層 (越多即為越深)的多層感知機(jī)。它通過(guò)組合低層特征，形成更為抽象的高層表示，用以描述被識(shí)別對(duì)象的高級(jí)屬性類別或特征。能自生成數(shù)據(jù)的中間表示(雖然這個(gè)表示并不能被人類理解)，是深度學(xué)習(xí)區(qū)別于其它機(jī)器學(xué)習(xí)算法的獨(dú)門絕技。
所以，深度學(xué)習(xí)可以總結(jié)成: 通過(guò)加深網(wǎng)絡(luò)，提取數(shù)據(jù)深層次特征。

2 深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)對(duì)比

1）相同點(diǎn)

目的相同：都是利用機(jī)器自我學(xué)習(xí)能力，解決軟件系統(tǒng)的難題

基本問(wèn)題相同：回歸問(wèn)題、分類問(wèn)題、聚類問(wèn)題

基本流程相同：模型構(gòu)建數(shù)據(jù)準(zhǔn)備–>模型選擇 -->/訓(xùn)練–> 模型評(píng)估基本流程相同:–>預(yù)測(cè)

問(wèn)題領(lǐng)域相同

樣本是否有標(biāo)簽:監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)
應(yīng)用領(lǐng)域:推薦引擎、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、強(qiáng)化學(xué)習(xí)

評(píng)價(jià)標(biāo)準(zhǔn)相同

回歸問(wèn)題:均方誤差;R2值
分類問(wèn)題:交又熵;查準(zhǔn)率、召回率、F1綜合系數(shù)
模型泛化能力:過(guò)擬合、欠擬合

2）不同點(diǎn)

深度網(wǎng)絡(luò)進(jìn)化過(guò)程

3 感知機(jī)與神經(jīng)網(wǎng)絡(luò)

1）生物神經(jīng)元

2）生物神經(jīng)網(wǎng)絡(luò)

3）什么是感知機(jī)

感知機(jī)(Perceptron)，又稱神經(jīng)元(Neuron，對(duì)生物神經(jīng)元進(jìn)行了模仿)是神經(jīng)網(wǎng)絡(luò)(深度學(xué)習(xí))的起源管法，1958年由康奈爾大學(xué)心理學(xué)教授弗蘭克·羅森布拉特(Frank Rosenblatt) 提出，它可以接收多個(gè)輸入信號(hào)，產(chǎn)生一個(gè)輸出信號(hào)。

其中， $x_1i$ 和 $x_2$ 稱為輸入， $w_1$ 和 $w_2$ 為權(quán)重， $\theta$ 為闖值，y為輸出。

4）感知機(jī)的功能

作為分類器/回歸器，實(shí)現(xiàn)自我學(xué)習(xí)
實(shí)現(xiàn)邏輯運(yùn)算包括邏輯或(OR)，邏輯和 (AND)
組成神經(jīng)網(wǎng)絡(luò)

（1）實(shí)現(xiàn)邏輯和

（2）實(shí)現(xiàn)邏輯或

5) 感知機(jī)缺陷

感知機(jī)的局限在于無(wú)法處理“異或”問(wèn)題(非線性問(wèn)題)

6）多層感知機(jī)

1975年，感知機(jī)的“異或”難題才被理論界徹底解決，即通過(guò)多個(gè)感知機(jī)組合來(lái)解決該問(wèn)題，這種模型也叫多層感知機(jī)(Multi-Layer Perceptron，MLP)。如下圖所示，神經(jīng)元節(jié)點(diǎn)闖值均設(shè)置為0.5。

7）神經(jīng)網(wǎng)絡(luò)

感知機(jī)由于結(jié)構(gòu)簡(jiǎn)單，完成的功能十分有限。可以將若干個(gè)感知機(jī)連在一起，形成個(gè)級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)，這個(gè)結(jié)構(gòu)稱為“多層前饋神經(jīng)網(wǎng)絡(luò)” (Multi-layerFeedforward NeuralNetworks)。所謂“前饋”是指將前一層的輸出作為后層的輸入的邏輯結(jié)構(gòu)。每一層神經(jīng)元僅與下一層的神經(jīng)元全連接。但在同一層之內(nèi)神經(jīng)元彼此不連接，而且跨層之間的神經(jīng)元，彼此也不相連。

8）神經(jīng)網(wǎng)絡(luò)的功能

1989年，奧地利學(xué)者庫(kù)爾特·霍尼克 (Kurt Hornik) 等人發(fā)表論文證明，對(duì)于任意復(fù)雜度的連續(xù)波萊爾可測(cè)函數(shù) (Borel Measurable Function) $f$ ，僅僅需要一個(gè)隱含層，只要這個(gè)隱含層包括足夠多的神經(jīng)元，前饋神經(jīng)網(wǎng)絡(luò)使用擠壓函數(shù) (Squashing Function) 作為激活函數(shù)，就可以以任意精度來(lái)近似模擬 $f$ 。如果想增加f的近似精度，單純依靠增加神經(jīng)元的數(shù)目即可實(shí)現(xiàn)。這個(gè)定理也被稱為通用近似定理(Universal Approximation Theorem)該定理表明，前饋神經(jīng)網(wǎng)在理論上可近似解決任何問(wèn)題.

9) 深層網(wǎng)絡(luò)優(yōu)點(diǎn)

其實(shí)，神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)還有另外一個(gè)“進(jìn)化”方向，那就是朝著“縱深”方向發(fā)展，也就是說(shuō)，減少單層的神經(jīng)元數(shù)量，而增加神經(jīng)網(wǎng)絡(luò)的層數(shù)，也就是“深”而“瘦”的網(wǎng)絡(luò)模型。

微軟研究院的科研人員就以上兩類網(wǎng)絡(luò)性能展開(kāi)了實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明: 增加網(wǎng)絡(luò)的層數(shù)會(huì)顯著提升神經(jīng)網(wǎng)絡(luò)系統(tǒng)的學(xué)習(xí)性能。

10）激活函數(shù)

在神經(jīng)網(wǎng)絡(luò)中，將輸入信號(hào)的總和轉(zhuǎn)換為輸出信號(hào)的函數(shù)被稱為激活函數(shù) (activation function)

為什么要使用激活函數(shù)？

激活函數(shù)將多層感知機(jī)輸出轉(zhuǎn)換為非線性，使得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線性函數(shù)，這樣神經(jīng)網(wǎng)絡(luò)就可以應(yīng)用到眾多的非線性模型中。

如果一個(gè)多層網(wǎng)絡(luò)，使用連續(xù)函數(shù)作為激活函數(shù)的多層網(wǎng)絡(luò)，稱之為“神經(jīng)網(wǎng)絡(luò)”，否則稱為“多層感知機(jī)”。所以，激活函數(shù)是區(qū)別多層感知機(jī)和神經(jīng)網(wǎng)絡(luò)的依據(jù)。

常見(jiàn)的激活函數(shù)

（1）sigmod函數(shù)

sigmoid函數(shù)也叫Logistic函數(shù)，用于隱層神經(jīng)元輸出，取值范圍為(0,1)，它可以將一個(gè)實(shí)數(shù)映射到(0,1)的區(qū)間，可以用來(lái)做二分類，表達(dá)式: f(x) = 1/(1 + $e^-x )$ )

優(yōu)點(diǎn)：平滑、易于求導(dǎo)。

缺點(diǎn)：激活函數(shù)計(jì)算量大，反向傳播求誤差梯度時(shí)，求導(dǎo)涉及除法，反向傳播時(shí)，很容易就會(huì)出現(xiàn)梯度消失的情況，從而無(wú)法完成深層網(wǎng)絡(luò)的訓(xùn)練。

（2）tanh雙曲正切函數(shù)

優(yōu)點(diǎn):平滑、易于求導(dǎo);輸出均值為0，收斂速度要比sigmoid快，從而可以減少迭代次數(shù)
缺點(diǎn):梯度消失
用途:常用于NLP中

（3）Relu（Rectified Linear Units，修正線性單元）

優(yōu)點(diǎn):(1)更加有效率的梯度下降以及反向傳播，避免了梯度爆炸和梯度消失問(wèn)題(2)計(jì)算過(guò)程簡(jiǎn)單
缺點(diǎn):小于等于0的部分梯度為0用途:常用于圖像

（4）Softplus

Softplus是對(duì)ReLU的平滑逼近解析形式，更巧的是，Softplus函數(shù)的導(dǎo)數(shù)恰好就是Sigmoid函數(shù)。但實(shí)際應(yīng)用效果不如ReLU好

（5）Softmax

Softmax函數(shù)定義如下，其中Vi 是分類器前級(jí)輸出單元的輸出。i表示類別索引，總的類別個(gè)數(shù)為Csi表示的是當(dāng)前元素的指數(shù)與所有元素指數(shù)和的比值。通過(guò)Softmax函數(shù)就可以將多分類的輸出數(shù)值轉(zhuǎn)化為相對(duì)概率，而這些值的累和為1，常用于神經(jīng)網(wǎng)絡(luò)輸出層。表達(dá)式：

4 損失函數(shù)

1）什么是損失函數(shù)

損失函數(shù)(Loss Function)，也有稱之為代價(jià)函數(shù) (Cost Function)，用來(lái)度量預(yù)測(cè)值和實(shí)際值之間的差異。

2）損失函數(shù)的作用

度量決策函數(shù) $f (x)$ 和實(shí)際值之間的差異。

作為模型性能參考。損失函數(shù)值越小，說(shuō)明預(yù)測(cè)輸出和實(shí)際結(jié)果(也稱期望輸出)之間的差值就越小，也就說(shuō)明我們構(gòu)建的模型越好。

學(xué)習(xí)的過(guò)程，就是不斷通過(guò)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測(cè)，不斷調(diào)整預(yù)測(cè)輸出與實(shí)際輸出差異，使的損失值最小的過(guò)程。

3）常用損失函數(shù)

（1）均方誤差（Mean Square error, MSE）損失函數(shù)

均方誤差是回歸問(wèn)題常用的損失函數(shù)，它是預(yù)測(cè)值與目標(biāo)值之間差值的平方和，其公式和圖像如下所示：

為什么使用誤差的平方？

曲線的最低點(diǎn)是可導(dǎo)的。
越接近最低點(diǎn)，曲線的坡度逐漸放緩，有助于通過(guò)當(dāng)前的梯度來(lái)判斷接近最低點(diǎn)的程度(是否逐漸減少步長(zhǎng)，以免錯(cuò)過(guò)最低點(diǎn))。

（2）交叉熵(Cross Entropy)。

交叉熵是Shannon信息論中一個(gè)重要概念主要用于度量?jī)蓚€(gè)概率分布間的差異性信息，在機(jī)器學(xué)習(xí)中用來(lái)作為分類問(wèn)題的損失函數(shù)。假設(shè)有兩個(gè)概率分布， $t_k$ 與 $y_k$ ，其交叉函數(shù)公式及圖形如下所示：

5 梯度下降算法

1）批量梯度下降

批量梯度下降法(Batch Gradient Descent，BGD)是最原始的形式，它是指在每一次迭代時(shí)使用所有樣本來(lái)進(jìn)行梯度的更新。

優(yōu)點(diǎn): 一定能得到最優(yōu)
一次迭代是對(duì)所有樣本進(jìn)行計(jì)算，此時(shí)利用矩陣進(jìn)行操作，實(shí)現(xiàn)了并行
由全數(shù)據(jù)集確定的方向能夠更好地代表樣本總體，從而更準(zhǔn)確地朝向極值所在的方向。當(dāng)目標(biāo)函數(shù)為凸函數(shù)時(shí)，BGD一定能夠得到全局最優(yōu)
缺點(diǎn):速度太慢
當(dāng)樣本數(shù)目 $m$ 很大時(shí)，每選代一步都需要對(duì)所有樣本計(jì)算，訓(xùn)練過(guò)程會(huì)很慢

2）隨機(jī)梯度下降

隨機(jī)梯度下降法(Stochastic Gradient Descent，SGD)每次選代使用一個(gè)樣本來(lái)對(duì)參數(shù)進(jìn)行更新，使得訓(xùn)練速度加快。

優(yōu)點(diǎn):
由于不是在全部訓(xùn)練數(shù)據(jù)上的損失函數(shù)，而是在每輪迭代中，隨機(jī)優(yōu)化某一條訓(xùn)練數(shù)據(jù)上的損失函數(shù)，這樣每一輪參數(shù)的更新速度大大加快
缺點(diǎn):
準(zhǔn)確度下降。由于即使在目標(biāo)函數(shù)為強(qiáng)凸函數(shù)的情況下，SGD仍舊無(wú)法做到線性收斂。
可能會(huì)收斂到局部最優(yōu)，由于單個(gè)樣本并不能代表全體樣本的趨勢(shì)。
不易于并行實(shí)現(xiàn)。

3）小批量梯度下降（優(yōu)先）

小批量梯度下降(Mini-Batch Gradient Descent，MBGD)是對(duì)批量梯度下降以及隨機(jī)梯度下降的一個(gè)折中辦法。其思想是:每次選代使用指定個(gè)(batch size)樣本來(lái)對(duì)參數(shù)進(jìn)行更新

優(yōu)點(diǎn):
通過(guò)矩陣運(yùn)算，每次在一個(gè)batch上優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)并不會(huì)比單個(gè)數(shù)據(jù)慢太多每次使用一個(gè)batch可以大大減小收斂所需要的迭代次數(shù)，同時(shí)可以使收斂到的結(jié)果更加接近梯度下降的效果
缺點(diǎn):
batchsize的不當(dāng)選擇可能會(huì)帶來(lái)一些問(wèn)題

6 反向傳播

1）什么是正向傳播網(wǎng)絡(luò)

前一層的輸出作為后一層的輸入的邏輯結(jié)構(gòu)，每一層神經(jīng)元僅與下一層的神經(jīng)元全連接，通過(guò)增加神經(jīng)網(wǎng)絡(luò)的層數(shù)雖然可為其提供更大的靈活性讓網(wǎng)絡(luò)具有更強(qiáng)的表征能力，也就是說(shuō)，能解決的問(wèn)題更多，但隨之而來(lái)的數(shù)量龐大的網(wǎng)絡(luò)參數(shù)的訓(xùn)練，一直是制約多層神經(jīng)網(wǎng)絡(luò)發(fā)展的一個(gè)重要瓶頸。

2）什么是反向傳播

反向傳播 (Backpropagation algorithm)全稱“誤差反向傳播是在深度神經(jīng)網(wǎng)絡(luò)中，根據(jù)輸出層輸出值，來(lái)反向調(diào)整隱藏層權(quán)重的一種方法。

3）為什么需要反向傳播

為什么不直接使用梯度下降而使用反向傳播方式更新權(quán)重呢?

梯度下降應(yīng)用于有明確求導(dǎo)函數(shù)的情況，或者可以求出誤差的情況(比如線性回歸)，我們可以把它看做沒(méi)有隱藏層的網(wǎng)絡(luò)。但對(duì)于多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)，輸出層可以直接求出誤差來(lái)更新參數(shù)，但隱藏層的誤差是不存在的，因此不能對(duì)它直接應(yīng)用梯度下降，而是先將誤差反向傳播至隱藏層然后再應(yīng)用梯度下降。

4）反向傳播算法極簡(jiǎn)史

1974年，哈佛大學(xué)沃伯斯博士在他的博士論文中，首次提出了 通過(guò)誤差的反向傳播來(lái)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)，以解決神經(jīng)網(wǎng)絡(luò)數(shù)量龐大的參數(shù)訓(xùn)練問(wèn)題。 但是，沃伯斯的工作并沒(méi)有得到足夠的重視，因?yàn)楫?dāng)時(shí)神經(jīng)網(wǎng)絡(luò)正陷入低潮，可謂“生不逢時(shí)”。

1986年，由杰弗里·辛頓 (Geoffrey Hinton)和大衛(wèi)·魯姆哈特 (David Rumelhart)等人在著名學(xué)術(shù)期刊Nature(自然)上發(fā)表了論文“借助誤差反向傳播算法的學(xué)習(xí)表征(Learning Representations by Back-propagating errors)”，系統(tǒng)而簡(jiǎn)潔地闡述了反向傳播算法在神經(jīng)網(wǎng)絡(luò)模型上的應(yīng)用。反向傳播算法非常好使，它直接把糾錯(cuò)的運(yùn)算量降低到只和神經(jīng)元數(shù)目本身成正比的程度。

后來(lái)，沃伯斯得到了IEEE(電氣電子工程師學(xué)會(huì))神經(jīng)網(wǎng)絡(luò)分會(huì)的先驅(qū)獎(jiǎng);Geoffrey Hinton與Yoshua Bengio、Yann LeCun (合稱“深度學(xué)習(xí)三巨頭”)共同獲得了2018年的圖靈獎(jiǎng)

二、卷積神經(jīng)網(wǎng)絡(luò)

1. 卷積

1.1 特征圖像寬和高的計(jì)算公式

其中，輸入大小為 $(H, W)$ ，濾波器大小為 $(F H, F W)$ ，輸出大小為 $(O H, O W)$ ，填充為 $P$ ，步幅為 $S$ 。

1.2 三維的圖像

1.3 多通道多卷積核的卷積

每個(gè)通道先與第一組卷積核執(zhí)行卷積，然后多通道結(jié)果疊加，產(chǎn)生一個(gè)輸出

每個(gè)通道與下一組卷積核執(zhí)行卷積產(chǎn)生另一個(gè)輸出

有多少組卷積核，就有多少個(gè)通道輸出(如右圖，兩組卷積核，產(chǎn)生兩個(gè)通道的輸出數(shù)據(jù))

1.4 scipy實(shí)現(xiàn)卷積實(shí)例

scipy版本為1.2.1

from scipy import signal from scipy import misc import numpy as np import matplotlib.pyplot as pltdata = misc.imread('zebra.png', flatten=True)kernel0 = np.array([[-1, 0, 1],[-2, 0, 2],[-1, 0, 1]])kernel1 = np.array([[-1, -2, -1],[0, 0, 0],[1, 2, 1]])conv0 = signal.convolve2d(data, kernel0, boundary='symm', mode='same').astype('int32') conv1 = signal.convolve2d(data, kernel1, boundary='symm', mode='same').astype('int32')plt.figure('convolutional 2D')plt.subplot(1, 3, 1) plt.imshow(data, cmap='gray') plt.xticks([]) plt.yticks([])plt.subplot(1, 3, 2) plt.imshow(conv0, cmap='gray') plt.xticks([]) plt.yticks([])plt.subplot(1, 3, 3) plt.imshow(conv1, cmap='gray') plt.xticks([]) plt.yticks([])plt.show()

2. 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

1）總結(jié)結(jié)構(gòu)

通常情況下，卷積神經(jīng)網(wǎng)絡(luò)由若干個(gè)卷積層(Convolutional Layer)、激活層(Activation Layer)、池化層 (Pooling Layer) 及全連接層 (FullyConnected Layer)組成。

2）卷積層

它是卷積神經(jīng)網(wǎng)絡(luò)的核心所在，通過(guò)卷積運(yùn)算，達(dá)到降維處理和提取特征兩個(gè)重要目的。

3）激活層

其作用在于將前一層的線性輸出，通過(guò)非線性的激活函數(shù)進(jìn)行處理，這樣用以模擬任意函數(shù)，從而增強(qiáng)網(wǎng)絡(luò)的表征能力。前面章節(jié)中介紹的激活函數(shù)如擠壓函數(shù)Sigmoid也是可用的，但效果并不好。在深度學(xué)習(xí)領(lǐng)域，ReLU(Rectified-Linear Unit，修正線性單元)是目前使用較多的激活函數(shù)，主要原因是它收斂更快，次要原因在于它部分解決了梯度消失問(wèn)題。

4）池化層（Pooling Layer）

也稱子采樣層或下采樣層(Subsampling Layer)，目的是縮小高、長(zhǎng)方向上的空間的運(yùn)算，以降低計(jì)算量，提高泛化能力。如下的示例，將44的矩陣縮小成22的矩陣輸出。

池化層計(jì)算：
對(duì)于每個(gè)輸入矩陣，我們將其切割成若千大小相等的正方形小塊對(duì)每一個(gè)區(qū)塊取最大值或者平均值，并將結(jié)果組成一個(gè)新的矩陣。

Max池化:對(duì)各個(gè)參與池化計(jì)算的區(qū)域取最大值，形成的新矩陣在圖像識(shí)別領(lǐng)域，主要使用Max池化。
Average池化:對(duì)各個(gè)參與池化計(jì)算的區(qū)域計(jì)算平均值。

池化層特點(diǎn)：
沒(méi)有要學(xué)習(xí)的參數(shù)。池化層和卷積層不同，沒(méi)有要學(xué)習(xí)的參數(shù)。池化只是從目標(biāo)區(qū)域中取最大值(或者平均值)，所以不存在要學(xué)習(xí)的參數(shù)；
通道數(shù)不發(fā)生變化。經(jīng)過(guò)池化運(yùn)算，輸入數(shù)據(jù)和輸出數(shù)據(jù)的通道數(shù)不會(huì)發(fā)生變化；
對(duì)微小的位置變化具有魯棒性 (健壯)。輸入數(shù)據(jù)發(fā)生微小偏差時(shí)，池化仍會(huì)返回相同的結(jié)果。

5）全連接層

這個(gè)網(wǎng)絡(luò)層相當(dāng)于多層感知機(jī)(Multi-Layer Perceptron，簡(jiǎn)稱MLP)其在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中起到分類器的作用通過(guò)前面多個(gè)“卷積-激活-池化”層的反復(fù)處理，待處理的數(shù)據(jù)特性已有了顯著提高:一方面，輸入數(shù)據(jù)的維度已下降到可用傳統(tǒng)的前饋全連接網(wǎng)絡(luò)來(lái)處理了，另一方面此時(shí)的全連接層輸入的數(shù)據(jù)已不再是“泥沙俱下、魚(yú)龍混雜”，而是經(jīng)過(guò)反復(fù)提純過(guò)的結(jié)果，因此輸出的分類品質(zhì)要高得多

3 經(jīng)典CNN介紹

1）LeNet

LeNet是 Yann LeCun在1998年提出，用于解決手寫(xiě)數(shù)字識(shí)別的視覺(jué)任務(wù)。自那時(shí)起，CNN的最基本的架構(gòu)就定下來(lái)了: 卷積層、池化層、全連接層。

（1）網(wǎng)絡(luò)結(jié)構(gòu)

（2）主要參數(shù)

輸入32*32大小單通道圖像輸入
兩個(gè)“卷積-池化層
第一個(gè)全連接層神經(jīng)元數(shù)目為500，再接激活函數(shù)
第二個(gè)全連接層神經(jīng)元數(shù)目為10，得到10維的特征向量，用于10個(gè)數(shù)字的分類訓(xùn)練，送入softmaxt分類，得到分類結(jié)果的概率

2）AlexNet

AlexNet是2012年ImageNet競(jìng)賽冠軍獲得者Hinton和他的學(xué)生Alex Krizhevsky設(shè)計(jì)的，把CNN的基本原理應(yīng)用到了很深很寬的網(wǎng)絡(luò)中。

（1）特點(diǎn)

使用ReLU作為激活函數(shù)，并驗(yàn)證其效果在較深的網(wǎng)絡(luò)超過(guò)了Sigmoid，成功解決了Sigmoid在網(wǎng)絡(luò)較深時(shí)的梯度彌散問(wèn)題
使用Dropout(丟棄學(xué)習(xí))隨機(jī)忽略一部分神經(jīng)元防止過(guò)擬合
在CNN中使用重疊的最大池化。此前CNN中普遍使用平均池化，AlexNet全部使用最大池化，避免平均池化的模糊化效果
提出了LRN (Local Response Normalization，局部正規(guī)化)層，對(duì)局部神經(jīng)元的活動(dòng)創(chuàng)建競(jìng)爭(zhēng)機(jī)制使得其中響應(yīng)比較大的值變得相對(duì)更大，并抑制其他反饋較小的神經(jīng)元，增強(qiáng)了模型的泛化能力
使用CUDA加速深度卷積網(wǎng)絡(luò)的訓(xùn)練，利用GPU強(qiáng)大的并行計(jì)算能力，處理神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)大量的矩陣運(yùn)算

（2）網(wǎng)絡(luò)結(jié)構(gòu)

（3）主要參數(shù)

AlexNet網(wǎng)絡(luò)包含8層，其中前5層為卷積-池化層，后3層為全連接層;輸入224x224x3的圖像，
第一卷積層用96個(gè)11x11x3的卷積核對(duì)進(jìn)行濾波，步幅4像素，全連接的每層有4096個(gè)神經(jīng)元，
最后一個(gè)完全連接的層的輸出被饋送到1000路SoftMax，它產(chǎn)生超過(guò)1000個(gè)類別標(biāo)簽的分布;整個(gè)網(wǎng)絡(luò)共650000個(gè)神經(jīng)元

3）VGG

（1）簡(jiǎn)要介紹

VGG是Visual Geometry Group, Department of Engineering Science,University of Oxford (牛津大學(xué)工程科學(xué)系視覺(jué)幾何組)的縮寫(xiě)，2014年參ILSVRC(ImageNet Large Scale Visual Recognition Challenge) 2014大賽獲得亞軍(當(dāng)年冠軍為GoogLeNet，但因?yàn)閂GG結(jié)構(gòu)簡(jiǎn)單，應(yīng)用性強(qiáng)，所以很多技術(shù)人員都喜歡使用基于VGG的網(wǎng)絡(luò))。

（2）主要參數(shù)

網(wǎng)絡(luò)深度:16~19層
5組卷積-池化層，3個(gè)全連接層三個(gè)全連接層，前兩層都有4096通道，第三層共1000路及代表1000個(gè)標(biāo)簽類別;最后一層為softmax層
所有卷積層有相同的配置，即卷積核大小為3x3，步長(zhǎng)為1，填充為1
池化層區(qū)域大小2x2，步長(zhǎng)為2

（3）網(wǎng)絡(luò)結(jié)構(gòu)

4）GoogleLeNet

其特點(diǎn)主要是GoogleInception

5）ResNet 殘差網(wǎng)絡(luò)

（1）簡(jiǎn)要介紹

ResNet是ILSVRC2015大賽冠軍，在ImageNet測(cè)試集上取得了3.57%的錯(cuò)誤率
更深的網(wǎng)絡(luò)結(jié)構(gòu)，采用殘差結(jié)構(gòu)來(lái)緩解深度CNN的梯度消失問(wèn)題

（2）網(wǎng)絡(luò)結(jié)構(gòu)

4 小節(jié)

本章節(jié)介紹了卷積神經(jīng)網(wǎng)絡(luò)(CNN)，CNN是深度學(xué)習(xí)的主要模型在解決復(fù)雜工程問(wèn)題中表現(xiàn)出了良好的性能。卷積神經(jīng)網(wǎng)絡(luò)主要由以下幾層構(gòu)成

卷積層。執(zhí)行卷積運(yùn)算
激活層。對(duì)卷積結(jié)果執(zhí)行激活函數(shù)運(yùn)算
池化層。降低數(shù)據(jù)規(guī)模，防止過(guò)擬合
全連接層。執(zhí)行輸出計(jì)算

三、圖像處理

3.1 圖像色彩操作

1 圖像色彩調(diào)整

1）亮度調(diào)整

對(duì)HSV空間的V分量進(jìn)行處理可以實(shí)現(xiàn)對(duì)圖像亮度的增強(qiáng)
直接將彩色圖像灰度化，也可以得到代表圖像亮度的灰度圖進(jìn)行圖像處理，計(jì)算量比HSV顏色空間變化低。但在HSV空間中進(jìn)行處理可以得到增強(qiáng)后的彩色圖像

2）飽和度調(diào)整

對(duì)HSV空間的S分量進(jìn)行處理可以實(shí)現(xiàn)對(duì)圖像飽和度的增強(qiáng)。
飽和度的調(diào)整通常是在S原始值上乘以一個(gè)修正系數(shù)
修正系數(shù)大于1，會(huì)增加飽和度，使圖像的色彩更鮮
明修正系數(shù)小于1，會(huì)減小飽和度，使圖像看起來(lái)比較平淡

3）色調(diào)調(diào)整

對(duì)HSV空間的H分量進(jìn)行處理可以實(shí)現(xiàn)對(duì)圖像色調(diào)的增強(qiáng)
色相H的值對(duì)應(yīng)的是一個(gè)角度，并且在色相環(huán)上循環(huán)。所以色相的修正可能會(huì)造成顏色的失真
色相的調(diào)整通常在H原始值上加上一個(gè)小的偏移量，使其在色相環(huán)上有小角度的調(diào)整。調(diào)整后，圖像的色調(diào)會(huì)變?yōu)槔渖蛘吲?/li>

2 圖像灰度化

1）什么是圖像灰度化

在RGB模型中，如果R=G=B時(shí)，則彩色表示一種灰度顏色，其中R=G=B的值叫灰度值，因此，灰度圖像每個(gè)像素只需一個(gè)字節(jié)存放灰度值 (又稱強(qiáng)度值、亮度值)灰度范圍為0-255。將RGB圖像（彩色圖像）轉(zhuǎn)換為灰度圖像的過(guò)程稱為圖像灰度化處理。

2）如何進(jìn)行圖像灰度化

分量法。將彩色圖像中的三分量的亮度作為三個(gè)灰度圖像的灰度值可根據(jù)應(yīng)用需要選取一種灰度圖像。
最大值法。將彩色圖像中的三分量亮度的最大值作為灰度圖的灰度值。
將彩色圖像中的三分量亮度求平均得到一個(gè)灰度值。
根據(jù)重要性及其它指標(biāo)，將三個(gè)分量以不同的權(quán)值進(jìn)行加權(quán)平均。例如，由于人眼對(duì)綠色的敏感最高，對(duì)藍(lán)色敏感最低，因此，按下式對(duì)RGB三分量進(jìn)行加權(quán)平均能得到較合理的灰度圖像。

3 二值化與反二值化

1）二值化

二值化闖值處理是將原始圖像處理為僅有兩個(gè)值的二值圖像，對(duì)于灰度值大于閩值t的像素點(diǎn)，將其灰度值設(shè)定為最大值。對(duì)于灰度值小于或等于值的像素點(diǎn)，將其灰度值設(shè)定為0。

2）反二值化

反二值化闖值處理的結(jié)果也是僅有兩個(gè)值的二值圖像，對(duì)于灰度值大于閥值的像素點(diǎn)，將其值設(shè)定為0;對(duì)于灰度值小于或等于閩值的像素點(diǎn)，將其值設(shè)定為255。

4 直方圖均衡

1）圖像直方圖

灰度直方圖反映的是一幅圖像中各灰度級(jí)像素出現(xiàn)的頻率。以灰度級(jí)為橫坐標(biāo)，縱坐標(biāo)為灰度級(jí)的頻率，繪制頻率同灰度級(jí)的關(guān)系圖就是灰度直方圖。
它是圖像的一個(gè)重要特征，反映了圖像灰度分布的情況使用直方圖進(jìn)行圖像變換是一種基于概率論的處理方法，通過(guò)改變圖像的直方圖修改圖像中各像素的灰度值，達(dá)到增強(qiáng)圖像視覺(jué)效果的目的。
相對(duì)于灰度變化只針對(duì)單獨(dú)的像素點(diǎn)操作，直方圖變化綜合考慮了全圖的灰度值分布。

2）直方圖均衡化

直方圖均衡化將原始圖像的直方圖，即灰度概率分布圖，進(jìn)行調(diào)整，使之變化為均衡分布的樣式，達(dá)到灰度級(jí)均衡的效果，可以有效增強(qiáng)圖像的整體對(duì)比度。
直方圖均衡化能夠自動(dòng)的計(jì)算變化函數(shù)，通過(guò)該方法自適應(yīng)得產(chǎn)生有均衡直方圖的輸出圖像。
能夠?qū)D像過(guò)暗、過(guò)亮和細(xì)節(jié)不清晰的圖像得到有效的增強(qiáng)在常用的圖像處理庫(kù)中，直方圖操作都有API直接調(diào)用實(shí)現(xiàn)

5 代碼實(shí)現(xiàn)

imread讀取彩色圖像，默認(rèn)的色彩空間為BGR

1）讀取、寫(xiě)入、顯示等基本操作

# opencv核心庫(kù) pip3 install opencv-python==3.4.10.37 # opencv貢獻(xiàn)庫(kù) pip3 install opencv-contrib-python==3.4.10.37 import cv2 as cvimg = cv.imread('zebra.png') print(img)# 圖像信息 print(img.shape) # 高度，寬度，通道數(shù)# 顯示圖像 cv.imshow("img1", img) cv.imshow("img2", img)# 保存圖像 cv.imwrite('save.png', img)# 主動(dòng)進(jìn)入阻塞等待，等待用戶按下按鍵 cv.waitKey() cv.destroyAllWindows()

2）灰度圖像

（1）可逆轉(zhuǎn)換操作

注意：此方式為慣用法，使用接口來(lái)轉(zhuǎn)換，可以輸出彩色和灰度圖像

import cv2 as cvimg = cv.imread('zebra.png')# 顯示圖像 cv.imshow("RGB", img)img_gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY) cv.imshow("Gray", img_gray)print(img_gray.shape)# 主動(dòng)進(jìn)入阻塞等待，等待用戶按下按鍵 cv.waitKey() cv.destroyAllWindows()

（2）不可逆轉(zhuǎn)換操作

注意：此方式轉(zhuǎn)為灰度圖像后，就無(wú)法輸出彩色圖像了

import cv2 as cvimg = cv.imread('zebra.png', 0) # 1為彩色，0為灰度，默認(rèn)為：1# 顯示圖像 cv.imshow("RGB", img)# 主動(dòng)進(jìn)入阻塞等待，等待用戶按下按鍵 cv.waitKey() cv.destroyAllWindows()

3）直方圖均衡

（1）灰度圖像均衡

import cv2 as cv import numpy as np import matplotlib.pyplot as pltimg = cv.imread('low.jpg', 0)plt.figure('hist')plt.subplot(2, 2, 1) plt.imshow(img, cmap="gray")plt.subplot(2, 2, 2) plt.hist(img.ravel(), bins=256, range=[0, 256])# 直方圖均衡 img_equ = cv.equalizeHist(img) plt.subplot(2, 2, 3) plt.imshow(img_equ, cmap="gray")plt.subplot(2, 2, 4) plt.hist(img_equ.ravel(), bins=256, range=[0, 256]) plt.show()cv.waitKey() cv.destroyAllWindows()

（2）彩色圖像均衡

BGR沒(méi)有亮度通道，需要將BGR色彩空間轉(zhuǎn)為YUV或HSV

import cv2 as cv import numpy as np import matplotlib.pyplot as pltimg = cv.imread('low.jpg') plt.figure('hist')# 原始圖像 plt.subplot(2, 2, 1) plt.imshow(img, cmap="gray")# 原始圖像的直方圖 plt.subplot(2, 2, 2) plt.hist(img.ravel(), bins=256, range=[0, 256])# 直方圖均衡 hsv = cv.cvtColor(img, cv.COLOR_BGR2HSV) # 先 BGR轉(zhuǎn)HSV hsv[..., 2] = cv.equalizeHist(hsv[..., 2]) # 再亮度均衡化 bgr = cv.cvtColor(hsv, cv.COLOR_HSV2BGR) # 最后再?gòu)腍SV轉(zhuǎn)到BGR plt.subplot(2, 2, 3) plt.imshow(bgr, cmap="gray")plt.subplot(2, 2, 4) plt.hist(bgr.ravel(), bins=256, range=[0, 256]) plt.show()cv.waitKey() cv.destroyAllWindows()

4）顏色選擇（提取）

import cv2 as cv import numpy as npim = cv.imread('opencv.jpg') hsv = cv.cvtColor(im, cv.COLOR_BGR2HSV)min_blue = np.array([110, 50, 50]) max_blue = np.array([130, 255, 255])mask = cv.inRange(hsv, min_blue, max_blue)cv.imshow('mask', mask) cv.imshow('ori', im)res = cv.bitwise_and(im, im, mask=mask)cv.imshow('res', res)cv.waitKey() cv.destroyAllWindows()

5）二值化與反二值化

import cv2 as cv import numpy as npim = cv.imread('opencv.jpg', 0) t, binary_im = cv.threshold(im, 127, 255, cv.THRESH_BINARY) # 圖像，閾值，大于閾值時(shí)轉(zhuǎn)到哪個(gè)值，二值化cv.imshow('ori', im) cv.imshow('binary', binary_im)cv.waitKey() cv.destroyAllWindows()

import cv2 as cv import numpy as npim = cv.imread('opencv.jpg', 0) t, binary_im = cv.threshold(im, 127, 255, cv.THRESH_BINARY_INV) # 圖像，閾值，大于閾值時(shí)轉(zhuǎn)到哪個(gè)值，二值化cv.imshow('ori', im) cv.imshow('binary', binary_im)cv.waitKey() cv.destroyAllWindows()

3.2 圖像形態(tài)操作

1 仿射與透視變換

1）仿射變換

仿射變換是指圖像可以通過(guò)一系列的幾何變換來(lái)實(shí)現(xiàn) 平移、旋轉(zhuǎn) 、鏡像等多種操作。該變換能夠保持圖像的平直性和平行性。平直性是指圖像經(jīng)過(guò)仿射變換后，直線仍然是直線;平行性是指圖像在完成仿射變換后，平行線仍然是平行線。

（1）平移

x:水平方向移動(dòng)的像素值
y:豎直方向移動(dòng)的像素值

import cv2 import numpy as np# 平移 def translate(img, x, y):''':param img: 原始圖像:param x: 變換后圖像的水平像素:param y: 變換后圖像的垂直像素:return:'''# 平移矩陣M = np.float32([[1, 0, x],[0, 1, y]])h, w = img.shape[:2]res = cv2.warpAffine(img, M, (w, h))return resif __name__ == '__main__':img = cv2.imread('low.jpg')cv2.imshow('img', img)res = translate(img, 50, 50)cv2.imshow('img_y50', res)cv2.waitKey()cv2.destroyAllWindows()

（2）鏡像

import cv2img = cv2.imread("low.jpg") img_ver = cv2.flip(img, 0) img_hor = cv2.flip(img, 1)cv2.imshow('img', img) cv2.imshow('img_ver', img_ver) cv2.imshow('img_hor', img_hor)cv2.waitKey() cv2.destroyAllWindows()

（3）旋轉(zhuǎn)

$x$ , $y$ 是旋轉(zhuǎn)中心的坐標(biāo)點(diǎn).

import cv2 import numpy as np# 旋轉(zhuǎn) def rotate(img, angle, center=None):h, w = img.shape[:2]if center is None:center = (w/2, h/2)# 生成旋轉(zhuǎn)矩陣M = cv2.getRotationMatrix2D(center, angle, 1.0)res = cv2.warpAffine(img, M, (w, h))return resif __name__ == '__main__':img = cv2.imread('low.jpg')cv2.imshow('img', img)res = rotate(img, 45)cv2.imshow('img_y50', res)cv2.waitKey()cv2.destroyAllWindows()

2）透視變換

透視變換是將圖片投影到一個(gè)新的視平面，也稱作投影映射。它是二維(x,y)到三維(X,Y,Z)，再到另一個(gè)二維(x’,y’)空間的映射相對(duì)于仿射變換，它提供了更大的靈活性，將一個(gè)四邊形區(qū)域映射到另一個(gè)四邊形區(qū)域(不一定是平行四邊形)，透視變換可用于圖像形狀校正。

2 圖像算數(shù)計(jì)算

1）圖像加法

作用：

圖像加法可以用于多幅圖像平均去除噪聲

圖像加法實(shí)現(xiàn)水印的疊加:

圖像減法是找出兩幅圖像的差異，可以在連續(xù)圖像中可以實(shí)現(xiàn)消除背景和運(yùn)動(dòng)檢測(cè)。

（1）直接相加

直接相加會(huì)導(dǎo)致圖像非常亮，較暗的無(wú)法顯示，所以一般使用按權(quán)重相加

import cv2 as cvimg_low = cv.imread('low.jpg') img_high = cv.imread('high.jpg') img_added = cv.add(img_low, img_high)cv.imshow('img_low', img_low) cv.imshow('img_high', img_high) cv.imshow('img_added', img_added)cv.waitKey() cv.destroyAllWindows()

（2）按權(quán)重相加

import cv2 as cvimg_low = cv.imread('low.jpg') img_high = cv.imread('high.jpg') img_added = cv.addWeighted(img_low, 0.8, img_high, 0.2, 0)cv.imshow('img_low', img_low) cv.imshow('img_high', img_high) cv.imshow('img_added', img_added)cv.waitKey() cv.destroyAllWindows()

addWeighted 的第5個(gè)參數(shù)是亮度調(diào)節(jié)量，在最終的圖像上加上這個(gè)值。

2）圖像減法

import cv2 as cvimg_low = cv.imread('low.jpg') img_high = cv.imread('high.jpg') img_added = cv.subtract(img_low, img_high)cv.imshow('img_low', img_low) cv.imshow('img_high', img_high) cv.imshow('img_added', img_added)cv.waitKey() cv.destroyAllWindows()

3 圖像縮放

1）圖像縮小

圖像縮小可以通過(guò)刪除矩陣中的元素來(lái)實(shí)現(xiàn)，例如:下面的例子進(jìn)行隔行、隔列刪除后，高度、寬度均減小為原來(lái)的一半。

import cv2 import numpy as npimg = cv2.imread('low.jpg') cv2.imshow('img', img)# 縮小 h, w = img.shape[:2] dst_size = (int(w/2), int(h/2)) res = cv2.resize(img, dst_size) cv2.imshow('res', res) cv2.waitKey() cv2.destroyAllWindows()

2）圖像放大

圖像放大需要進(jìn)行像素插入，常用的插值法有最鄰近插值法和雙線性插值法

最鄰近插值法： 直接使用新的像素點(diǎn)(x’, y’)最近的整數(shù)坐標(biāo)灰度值作為該點(diǎn)的值，該方法計(jì)算量小，但精確度不高，并且可能破壞圖像中的線性關(guān)系
最近鄰插值法： 雙線性插值法:使用新的像素點(diǎn)(x’,y’)最鄰近的四個(gè)像素值進(jìn)行插值計(jì)算。

import cv2 import numpy as npimg = cv2.imread('low.jpg') cv2.imshow('img', img)# 縮小 h, w = img.shape[:2] dst_size = (int(w*2), int(h*2)) res = cv2.resize(img, dst_size, interpolation=cv2.INTER_NEAREST) # 放大時(shí)，默認(rèn)使用雙線性差值，此時(shí)是最近鄰插值 cv2.imshow('NEAREST', res) res = cv2.resize(img, dst_size, interpolation=cv2.INTER_LINEAR) # 放大時(shí)，默認(rèn)使用雙線性差值,此時(shí)雙線性差值，效果最好 cv2.imshow('NEAREST', res) cv2.waitKey() cv2.destroyAllWindows()

4 腐蝕與膨脹

1）腐蝕

腐蝕是最基本的形態(tài)學(xué)操作之一，它能夠?qū)D像的邊界點(diǎn)消除，使圖像沿著邊界向內(nèi)收縮，也可以將小于指定結(jié)構(gòu)體元素的部分去除。腐蝕用來(lái)“收縮”或者“細(xì)化二值圖像中的前景，借此實(shí)現(xiàn)去除噪聲、元素分割等功能。

2）膨脹

圖像膨脹(dilate)是指根據(jù)原圖像的形狀，向外進(jìn)行擴(kuò)充。如果圖像內(nèi)兩個(gè)對(duì)象的距離較近，那么在膨脹的過(guò)程中，兩個(gè)對(duì)象可能會(huì)連通在一起。膨脹操作對(duì)填補(bǔ)圖像分割后圖像內(nèi)所存在的空白相當(dāng)有幫助.

3）圖像開(kāi)運(yùn)算

開(kāi)運(yùn)算進(jìn)行的操作是先將圖像腐蝕，再對(duì)腐蝕的結(jié)果進(jìn)行膨脹。開(kāi)運(yùn)算可以用于去噪、計(jì)數(shù)等。

4）圖像閉運(yùn)算

閉運(yùn)算是先膨脹、后腐蝕的運(yùn)算，它有助于關(guān)閉前景物體內(nèi)部的小孔，或去除物體上的小黑點(diǎn)，還可以將不同的前景圖像進(jìn)行連接

5）形態(tài)學(xué)梯度

形態(tài)學(xué)梯度運(yùn)算是用圖像的膨脹圖像減腐蝕圖像的操作，該操作可以獲取原始圖像中前景圖像的邊緣。

6）禮帽運(yùn)算

禮帽運(yùn)算是用原始圖像減去其開(kāi)運(yùn)算圖像的操作。禮帽運(yùn)算能夠獲取圖像的噪聲信息，或者得到比原始圖像的邊緣更亮的邊緣信息。

7）黑帽運(yùn)算

黑帽運(yùn)算是用閉運(yùn)算圖像減去原始圖像的操作。黑帽運(yùn)算能夠獲取圖像內(nèi)部的小孔或前景色中的小黑點(diǎn)，或者得到比原始圖像的邊緣更暗的邊緣部分。

5 圖像裁剪

1）隨機(jī)裁剪

import cv2 as cv import numpy as npdef random_crop(img, w_, h_):''':param img: 圖像對(duì)象:param w_: 裁剪后圖像的寬度:param h_: 裁剪后圖像的高度:return: 返回的新圖像'''h, w = img.shape[0:2]y = np.random.randint(0, h - h_)x = np.random.randint(0, w - w_)return img[y: y+h_+1, x: x+w_+1]if __name__ == '__main__':img = cv.imread('low.jpg')img_crop = random_crop(img, 250, 80)cv.imshow('croped', img_crop)cv.imshow('ori', img)cv.waitKey()cv.destroyAllWindows()

2）中心裁剪

import cv2 as cvdef center_crop(img, w_, h_):h, w = img.shape[0:2]start_y = int(h/2-h_/2)start_x = int(w/2-w_/2)end_y = int(h/2+h_/2)end_x = int(w/2+w_/2)return img[start_y:end_y+1, start_x:end_x+1]if __name__ == '__main__':img = cv.imread('low.jpg')img_crop = center_crop(img, 200, 200)cv.imshow('croped', img_crop)cv.imshow('ori', img)cv.waitKey()cv.destroyAllWindows()

三、Tensorflow

3.1 Tensorflow概述

1. 什么是Tensorflow

TensorFlow由谷歌人工智能團(tuán)隊(duì)谷歌大腦(Google Brain)開(kāi)發(fā)和維護(hù)的開(kāi)源深度學(xué)習(xí)平臺(tái)，是目前人工智能領(lǐng)域主流的開(kāi)發(fā)平臺(tái)，在全世界有著廣泛的用戶群體。

2. Tensorflow的特點(diǎn)

優(yōu)秀的構(gòu)架設(shè)計(jì)，通過(guò)“張量流”進(jìn)行數(shù)據(jù)傳遞和計(jì)算，用戶可以很容易地、可視化地看到張量流動(dòng)的每一個(gè)環(huán)節(jié)
可輕松地在CPU/GPU上部署，進(jìn)行分布式計(jì)算，為大數(shù)據(jù)分析提供計(jì)算能力的支撐
跨平臺(tái)性好，靈活性強(qiáng)。TensorFlow不僅可在Linux、Mac和Windows系統(tǒng)中運(yùn)行，甚至還可在移動(dòng)終端下工作

3. 安裝

pip3 install tensorflow==1.14.10 # CPU版本 pip3 install tf-nightly-gpu==1.14.10 # GPU版本

4. Tensorflow的體系結(jié)構(gòu)

TensorFlow屬于“定義”與“運(yùn)行”相分離的運(yùn)行機(jī)制。從操作層面以抽象成兩種:模型構(gòu)建和模型運(yùn)行

客戶端:用戶編程、執(zhí)行使用
master:用來(lái)與客戶端交互，并進(jìn)行任務(wù)調(diào)度
worker process: 工作節(jié)點(diǎn)，每個(gè)worker process可以訪問(wèn)一到多個(gè)device
device: TF的計(jì)算核心，執(zhí)行計(jì)算

5. 后端邏輯

6. 基本概念

1）張量

張量 (Tensor):多維數(shù)組或向量，張量是數(shù)據(jù)的載體，包含名字、形狀、數(shù)據(jù)類型等屬性。

2）數(shù)據(jù)流

數(shù)據(jù)流圖(Data Flow Graph)用“結(jié)點(diǎn)(nodes)和“線”(edges)的有向圖來(lái)描述數(shù)學(xué)計(jì)算
“節(jié)點(diǎn)”一般用來(lái)表示數(shù)學(xué)操作，也可以表示數(shù)據(jù)輸入 (feed in)的起點(diǎn)/輸出(push out) 的終點(diǎn)，或者是讀取/寫(xiě)入持久變量(persistent variable)的終點(diǎn)
“線”表示“節(jié)點(diǎn)”之間的輸入/輸出關(guān)系。這些數(shù)據(jù)“線”可以輸運(yùn)多維數(shù)據(jù)數(shù)組，即“張量”(tensor)
一旦輸入端的所有張量準(zhǔn)備好，節(jié)點(diǎn)將被分配到各種計(jì)算設(shè)備完成異步并行地執(zhí)行運(yùn)算

3）操作

操作(Operation，簡(jiǎn)稱op)指專門執(zhí)行計(jì)算的節(jié)點(diǎn)，tensorflow函數(shù)或API定義的都是操作。常用操作包括:
- 標(biāo)量運(yùn)算，向量運(yùn)算，矩陣運(yùn)算
- 帶狀態(tài)的運(yùn)算
- 神經(jīng)網(wǎng)絡(luò)組建
- 存儲(chǔ)、恢復(fù)
- 控制流
- 隊(duì)列及同步運(yùn)算

4）圖和會(huì)話

圖(Graph)描述整個(gè)程序結(jié)構(gòu)，Tensorflow中所有的計(jì)算都構(gòu)建在圖中
會(huì)話(Session)用來(lái)執(zhí)行圖的運(yùn)算

5）變量

在Tensorflow中，變量(Variable) 是一種操作，變量是一種特殊的張量能夠進(jìn)行存儲(chǔ)持久化(張量不能進(jìn)行持久化)，它的值是張量
占位符(placeholder) 是變量占位符，當(dāng)不能確定變量的值時(shí)，可以先聲明一個(gè)占位符，真正執(zhí)行時(shí)再傳入變量

3.2 Tensorflow的基本使用

1 圖

圖(Graph)描述了計(jì)算的過(guò)程。TensorFlow 程序通常被組織成一個(gè)構(gòu)建階段和一個(gè)執(zhí)行階段。在構(gòu)建階段 op 的執(zhí)行步驟被描述成一個(gè)圖在執(zhí)行階段使用會(huì)話執(zhí)行執(zhí)行圖中的 op
TensorFlow Python 庫(kù)有一個(gè)默認(rèn)圖(default graph),op 構(gòu)造器可以為其增加節(jié)點(diǎn)這個(gè)默認(rèn)圖對(duì)許多程序來(lái)說(shuō)已經(jīng)足夠用了，也可以創(chuàng)建新的圖來(lái)描述計(jì)算過(guò)程
在Tensorflow中，op/session/tensor都有g(shù)raph屬性

import tensorflow as tfcon1 = tf.constant(100.0) con2 = tf.constant(200.0) res = tf.add(con1, con2)# 查看默認(rèn)的圖 default_graph = tf.get_default_graph() print(default_graph)with tf.Session() as sess:print(sess.run(res))print(con1.graph)print(con2.graph)print(res.graph)print(sess.graph)

程序輸出：
300.0
<tensorflow.python.framework.ops.Graph object at 0x0000027EBEA94148>
<tensorflow.python.framework.ops.Graph object at 0x0000027EBEA94148>
<tensorflow.python.framework.ops.Graph object at 0x0000027EBEA94148>
<tensorflow.python.framework.ops.Graph object at 0x0000027EBEA94148>

2 會(huì)話及相關(guān)操作

會(huì)話(session)用來(lái)執(zhí)行圖中的計(jì)算，并且保存了計(jì)算張量對(duì)象的上下文
信息。會(huì)話的作用主要有

運(yùn)行圖結(jié)構(gòu)
分配資源
掌握資源(如變量、隊(duì)列、線程)
一個(gè)session只能執(zhí)行一個(gè)圖的運(yùn)算。可以在會(huì)話對(duì)象創(chuàng)建時(shí)，指定運(yùn)行的圖。如果在構(gòu)造會(huì)話時(shí)未指定圖形參數(shù)，則將在會(huì)話中使用默認(rèn)圖。如果在同一進(jìn)程中使用多個(gè)圖(使用tf.graph()創(chuàng)建)，則必須為每個(gè)圖使用不同的會(huì)話，但每個(gè)圖可以在多個(gè)會(huì)話中使用。

1）創(chuàng)建會(huì)話

tf.Session() # 使用默認(rèn)的圖

2）運(yùn)行

session.run(fetches, feed_dict=None)

fetches：圖中的單個(gè)操作，或多個(gè)操作的列表
feed_dict：運(yùn)行傳入的參數(shù)構(gòu)成的字典，可以覆蓋之前的值，

3）關(guān)閉

session.close() import tensorflow as tfcon1 = tf.constant(100.0) con2 = tf.constant(200.0) res = tf.add(con1, con2)# 查看默認(rèn)的圖 default_graph = tf.get_default_graph() print(default_graph)# 新建一個(gè)圖 new_graph = tf.Graph()# op只能加在默認(rèn)的圖上，可以暫時(shí)將新建的圖暫時(shí)設(shè)為默認(rèn)的圖，然后再釋放 with new_graph.as_default(): # 臨時(shí)設(shè)為默認(rèn)的圖new_opp = tf.constant('hello world!')with tf.Session(graph=new_graph) as sess:# print(sess.run([con1, con2, res]))print(sess.run(new_opp))

op只能加在默認(rèn)的圖上，可以暫時(shí)將新建的圖暫時(shí)設(shè)為默認(rèn)的圖，然后再釋放

3 張量

1）張量的階與形狀

階:張量的維度(數(shù)方括號(hào)的層數(shù))形狀表示方法

0維:()
1維:(5)，1行5個(gè)元素
2維:(2,3)，2行3列
3維:(2,34)兩個(gè)3行4列的矩陣

2）張量的數(shù)據(jù)類型

3）張量的常用屬性

4）張量類型轉(zhuǎn)換

import tensorflow as tftensor_2d = tf.ones([3, 3], dtype='int32') tensor_zero = tf.zeros([3, 3]) tensor_2_string = tf.cast(tensor_zero, tf.string) # 浮點(diǎn)型不能轉(zhuǎn)換成字符串with tf.Session() as sess:print(tensor_2d.eval())print(tensor_2_string.eval()) # 浮點(diǎn)型不能轉(zhuǎn)換成字符串，此處報(bào)錯(cuò)

注意：浮點(diǎn)型不能轉(zhuǎn)換成字符串

5）張量形狀的改變

（1）靜態(tài)張量

在創(chuàng)建一個(gè)張量，初始狀態(tài)的形狀

tf.Tensorget_shape0:獲取Tensor對(duì)象的靜態(tài)形狀
tf.Tensorset shape():更新Tensor對(duì)象的靜態(tài)形狀

注意: 轉(zhuǎn)換靜態(tài)形狀的時(shí)候，1-D到1-D，2-D到2-D，不能跨階數(shù)改變形狀對(duì)于已經(jīng)固定或者設(shè)置靜態(tài)形狀的張量/變量，不能再次設(shè)置靜態(tài)形狀

（2）動(dòng)態(tài)張量

動(dòng)態(tài)形狀:在運(yùn)行圖時(shí)，動(dòng)態(tài)形狀才是真正用到的，這種形狀是一種描述原始張量在執(zhí)行過(guò)程中的一種張量

tf.reshape(tf.Tensorshape):創(chuàng)建一個(gè)具有不同動(dòng)態(tài)形狀的新張量可以跨緯度轉(zhuǎn)換，如1D–>2D,1D–>3D

import tensorflow as tf import numpy as nptensor_2d = tf.placeholder('float32', shape=[None, 4]) data = np.arange(0, 8).reshape(2, 4)new_data = tf.reshape(data, [1, 8])with tf.Session() as sess:print(sess.run(new_data))

4）張量數(shù)學(xué)操作

import tensorflow as tf import numpy as npx = tf.constant(np.arange(1, 5).reshape(2, 2), dtype='float32') y = tf.constant(np.arange(5, 1, -1).reshape(2, 2), dtype='float32')add = tf.add(x, y) matmul = tf.matmul(x, y) log = tf.log(x) reduce_mul = tf.reduce_mean(x, axis=1)z = tf.constant(np.arange(1, 8), dtype='float32') seg = tf.constant([0, 0, 0, 1, 1, 2, 2]) res = tf.segment_sum(z, seg)with tf.Session() as sess:print(x.eval(), y.eval())print(sess.run(add))print(sess.run(matmul))print(sess.run(log))print(sess.run(reduce_mul))print(res.eval())

輸出：
[[1. 2.]
[3. 4.]]

[[5. 4.]
[3. 2.]]
[[6. 6.]
[6. 6.]]
[[11. 8.]
[27. 20.]]
[[0. 0.6931472]
[1.0986123 1.3862944]]
[1.5 3.5]
[ 6. 9. 13.]

4 占位符

不確定張量?jī)?nèi)容情況下，可以使用占位符先占個(gè)位置，然后執(zhí)行計(jì)算時(shí)，通過(guò)參數(shù)傳入具體數(shù)據(jù)執(zhí)行計(jì)算(通過(guò)feed dict參數(shù)指定)。placeholder節(jié)點(diǎn)被聲明的時(shí)候是未初始化的，也不包含數(shù)據(jù)，如果沒(méi)有為它供給數(shù)據(jù)，則TensorFlow運(yùn)算的時(shí)候會(huì)產(chǎn)生錯(cuò)誤。

#占位符定義: name = tf.placeholder(dtype, shape=None, name=None) import tensorflow as tf import numpy as nptensor_2d = tf.placeholder('float32', shape=[2, 3]) data = np.arange(0, 6).reshape(2, 3)with tf.Session() as sess:print(sess.run(tensor_2d, feed_dict={tensor_2d: data}))

占位符數(shù)據(jù)可變

import tensorflow as tf import numpy as nptensor_2d = tf.placeholder('float32', shape=[None, 3]) data = np.arange(0, 9).reshape(3, 3)with tf.Session() as sess:print(sess.run(tensor_2d, feed_dict={tensor_2d: data}))

5 變量

變量是一種op，它的值是張量
變量能夠持久化保存，普通張量則不
可當(dāng)定義一個(gè)變量時(shí)，需要在會(huì)話中進(jìn)行初始化
變量創(chuàng)建

tf.Variable(initial_value=None, name=None)

import tensorflow as tf import numpy as npvar = tf.Variable(tf.random_normal([3, 4])) init_op = tf.global_variables_initializer() with tf.Session() as sess:sess.run(init_op) # 必須初始化print(var.eval())

3.3 可視化

可視化是用來(lái)查看在Tensorflow平臺(tái)下程序運(yùn)行的過(guò)程，包括: 張量變量，操作，數(shù)據(jù)流，學(xué)習(xí)過(guò)程等，從而方便 TensorFlow 程序的理解調(diào)試與優(yōu)化
Tensorflow提供了專門的可視化工具tensorboard，它將tensorflow執(zhí)行的數(shù)據(jù)、模型、過(guò)程用圖形方式進(jìn)行顯示。tensorflow在執(zhí)行過(guò)程中可以通過(guò)某些操作，將模型、數(shù)據(jù)、graph等信息，保存到磁盤(pán)中的Events文件中去，從而提供給tensorboard進(jìn)行可視化

1 啟動(dòng)tensorboard

tensorboard --logdir=D:\Project\PythonProject\ML_Learning\summary\

注意：
（1）路徑不加引號(hào)
（2）網(wǎng)址：http://localhost:6006/

2 摘要與事件文件操作

如果需要將變量/張量在tensorboard中顯示，需要執(zhí)行以下兩步

收集變量
tf.summary.scalar(name, tensor) # 收集標(biāo)量，name為名字，tensor為值
tf.summary.histogram(name, tensor)# 收集高維度變量參數(shù)
tf.summary.image(name, tensor)# 收集圖片張量
合并變量并寫(xiě)入事件文件
merged = tf.summary.merge_all()# 合并所有變量
summary = sess. run(merged) # 行合并，每次迭代訓(xùn)練都需要運(yùn)行
FileWriter.add_summary(summary,i) # 添加摘要，i表示第幾次的值

3 最簡(jiǎn)單的線型回歸實(shí)例

import tensorflow as tf import numpy as np# 模型 y = 3x + 11# 1.準(zhǔn)備數(shù)據(jù) x = tf.random_normal([100, 1], mean=1.75, stddev=0.5, name='x_data') y = tf.matmul(x, [[3.0]]) + 11.0# 2.構(gòu)建模型 y = wx + b weight = tf.Variable(tf.random_normal([1, 1]), name="w", trainable=True) bias = tf.Variable(0.0, name="b", trainable=True) y_pred = tf.matmul(x, weight) + bias# 3.損失函數(shù) loss = tf.reduce_mean(tf.square(y_pred - y), axis=0)# 4. 梯度下降 optimizer = tf.train.GradientDescentOptimizer(0.1).minimize(loss)# 初始化全局變量 init_var = tf.global_variables_initializer()with tf.Session() as sess:sess.run(init_var)print("weight: {}, bias: {}".format(weight.eval(), bias.eval()))for i in range(500):sess.run(optimizer)print("i: {}, weight: {}, bias: {}, loss: {}".format(i, weight.eval()[0, 0], bias.eval(), loss.eval()[0]))

輸出：
weight: [[1.7854646]], bias: 0.0
i: 0, weight: 6.423867225646973, bias: 2.6243207454681396, loss: 9.109596252441406
i: 1, weight: 7.046351909637451, bias: 3.0945069789886475, loss: 4.743853569030762
i: 2, weight: 7.123383522033691, bias: 3.241851329803467, loss: 3.4027130603790283
i: 3, weight: 7.111809730529785, bias: 3.3871138095855713, loss: 3.7377519607543945
i: 4, weight: 7.076264381408691, bias: 3.4926016330718994, loss: 4.294710159301758
i: 5, weight: 6.986569404602051, bias: 3.5605499744415283, loss: 3.821505069732666
i: 6, weight: 6.944016456604004, bias: 3.637892484664917, loss: 3.1669256687164307
i: 7, weight: 7.036805629730225, bias: 3.7961792945861816, loss: 4.031221866607666
i: 8, weight: 6.889873504638672, bias: 3.842052698135376, loss: 3.933861494064331
i: 9, weight: 6.9066009521484375, bias: 3.9894847869873047, loss: 4.430022716522217
i: 10, weight: 6.641869068145752, bias: 3.951720952987671, loss: 3.121511936187744
i: 11, weight: 6.720321178436279, bias: 4.120347499847412, loss: 3.2809276580810547
…
i: 489, weight: 3.013960599899292, bias: 10.974303245544434, loss: 5.876861541764811e-05
i: 490, weight: 3.0138514041900635, bias: 10.974569320678711, loss: 4.3935862777289e-05
i: 491, weight: 3.0136618614196777, bias: 10.974894523620605, loss: 4.670991620514542e-05
i: 492, weight: 3.013606309890747, bias: 10.975181579589844, loss: 4.826369695365429e-05
i: 493, weight: 3.013457775115967, bias: 10.975468635559082, loss: 5.3314353863243014e-05
i: 494, weight: 3.012927770614624, bias: 10.975626945495605, loss: 4.780766539624892e-05
i: 495, weight: 3.012622594833374, bias: 10.975756645202637, loss: 5.1373455789871514e-05
i: 496, weight: 3.0128049850463867, bias: 10.976174354553223, loss: 4.308684583520517e-05
i: 497, weight: 3.0126736164093018, bias: 10.976405143737793, loss: 5.3000025218352675e-05
i: 498, weight: 3.01277494430542, bias: 10.97690486907959, loss: 4.385461943456903e-05
i: 499, weight: 3.012420892715454, bias: 10.97700023651123, loss: 3.047487734875176e-05

3.4 模型的保存在加載

模型訓(xùn)練可能是一個(gè)很長(zhǎng)的過(guò)程，如果每次執(zhí)行預(yù)測(cè)之前都重新訓(xùn)練，會(huì)非常耗時(shí)，所以幾乎所有人工智能框架都提供了模型保存與加載功能，使得模型訓(xùn)練完成后，可以保存到文件中，供其它程序使用或繼續(xù)訓(xùn)練。

模型保存與加載通過(guò)tf.train.Saver對(duì)象完成，實(shí)例化對(duì)象:

saver = tf.train.Saver(var_list=None, max_to_keep=5)

var_list: 要保存和還原的變量，可以是一個(gè)dict或一個(gè)列表
max_to_keep:要保留的最近檢查點(diǎn)文件的最大數(shù)量。創(chuàng)建新文件時(shí)，會(huì)刪除較舊的文件(如max_to_keep=5表示保留5個(gè)檢查點(diǎn)文件)
保存: saver.save(sess，/tmp/ckpt/model)
加載: saver.restore(sess，/tmp/ckpt/model)

模型保存與加載實(shí)例

import tensorflow as tf import os# 模型 y = 3x + 11# 1.準(zhǔn)備數(shù)據(jù) x = tf.random_normal([100, 1], mean=1.75, stddev=0.5, name='x_data') y = tf.matmul(x, [[3.0]]) + 11.0# 2.構(gòu)建模型 y = wx + b weight = tf.Variable(tf.random_normal([1, 1]), name="w", trainable=True) bias = tf.Variable(0.0, name="b", trainable=True) y_pred = tf.matmul(x, weight) + bias# 3.損失函數(shù) loss = tf.reduce_mean(tf.square(y_pred - y))# 4. 梯度下降 optimizer = tf.train.GradientDescentOptimizer(0.1).minimize(loss)# 初始化全局變量 init_var = tf.global_variables_initializer()# 收集數(shù)據(jù) tf.summary.scalar('loss', loss) merged = tf.summary.merge_all()# 模型保存對(duì)象 saver = tf.train.Saver()with tf.Session() as sess:sess.run(init_var)print("weight: {}, bias: {}".format(weight.eval(), bias.eval()))fw = tf.summary.FileWriter('./summary/', graph=sess.graph)#if os.path.exists('./model/linear_model/checkpoint'):saver.restore(sess, './model/linear_model/')for i in range(100):sess.run(optimizer)summary = sess.run(merged)fw.add_summary(summary, i)print("i: {}, weight: {}, bias: {}, loss: {}".format(i, weight.eval()[0, 0], bias.eval(), loss.eval()))# 訓(xùn)練結(jié)束之后保存saver.save(sess, './model/linear_model/')

3.5 文件讀取機(jī)制

TensorFlow文件讀取分為三個(gè)步驟：
第一步：將要讀取的文件放入文件名隊(duì)列
第二步：讀取文件內(nèi)容，并實(shí)行解碼
第三步：批處理，按照指定筆數(shù)構(gòu)建成一個(gè)批次取出

文件隊(duì)列構(gòu)造:生成一個(gè)先入先出的隊(duì)列，文件閱讀器會(huì)需要它來(lái)讀取數(shù)據(jù)

tf.train.string_input_producer(string_tensor, shuffle=True)

string_tensor：含有文件名的一階張量
shuffle：是否打亂文件順序
返回：文件隊(duì)列

3 文件讀取

文本文件讀取

tf.TextLineReader

讀取CSV文件，默認(rèn)按行讀取

二進(jìn)制文件讀取

tf.FixedLengthRecordReader(record_bytes)

讀取每個(gè)記錄是固定字節(jié)的二進(jìn)制文件

record_bytes：每次讀取的字節(jié)數(shù)

通用讀取方法

read(file_queue)

從隊(duì)列中讀取指定數(shù)量(行，字節(jié))的內(nèi)容
返回值:一個(gè)tensor元組， (文件名, value)

4 文件內(nèi)容解碼

解碼文本文件

tf.decode_csv(records, record_defaults)

將CSV文件內(nèi)容轉(zhuǎn)換為張量，與tf.TextLineReader搭配使用

records：字符串，對(duì)應(yīng)文件中的一行
record_defaults：類型

返回：tensor對(duì)象列表

解碼二進(jìn)制文件

tf.decode_raw(input_bytes,out_type)

將字節(jié)轉(zhuǎn)換為由數(shù)字表示的張量，與tf.FixedLengthRecordReader搭配使用

input_bytes：待轉(zhuǎn)換字節(jié)
out_type：輸出類型

返回: 轉(zhuǎn)換結(jié)果

5 讀取csv文件

import os import tensorflow as tfdef read_csv(filelist):# 1.構(gòu)造文件隊(duì)列file_queue = tf.train.string_input_producer(filelist)# 2.定義文件讀取器reader = tf.TextLineReader()# 3.讀取數(shù)據(jù)filename, data = reader.read(file_queue)# 4.解碼records = [["None"], ["None"]]example, label = tf.decode_csv(data, records)# 5.分批次輸出example_bat, label_bat = tf.train.batch([example, label], batch_size=10, num_threads=1) # batch_size: 一批次讀取數(shù)據(jù)的大小return (example_bat, label_bat)if __name__ == '__main__':# 構(gòu)建文件列表dir_name = './data/'file_names = os.listdir(dir_name)file_list = [os.path.join(dir_name, file_name) for file_name in file_names]ret_example_bat, ret_label_bat = read_csv(file_list)with tf.Session() as sess:# 定義線程協(xié)調(diào)器coord = tf.train.Coordinator()# 開(kāi)啟文件讀取線程threads = tf.train.start_queue_runners(sess, coord)print(sess.run([ret_example_bat, ret_label_bat]))coord.request_stop()coord.join(threads)

6 讀取圖像

1）圖像文件讀取API（全文件讀取器）

圖像讀取器

tf.WholeFileReader

`功能:：將文件的全部?jī)?nèi)容作為值輸出的reader

read方法：讀取文件內(nèi)容，返回文件名和文件內(nèi)容

圖像解碼器

tfimage.decode jpeg(constants) # 解碼jpeg格式 tf.image.decode_png(constants) # 解碼png格式

返回值：3-D張量，[height, width,channels]

修改圖像大小

tf.image.resize(images,size) #

images：圖片數(shù)據(jù)，3-D或4-D張量

3-D:[長(zhǎng)，寬，通道]
4-D:[數(shù)量,長(zhǎng)，寬，通道

size：1-Dint32張量，[長(zhǎng)、寬] (不需要傳通道數(shù))

2）實(shí)例

import tensorflow as tf import os import matplotlib.pyplot as pltdef read_img(filelist):# 1.構(gòu)造文件隊(duì)列file_queue = tf.train.string_input_producer(filelist)# 2.定義文件讀取器reader = tf.WholeFileReader()# 3.讀取數(shù)據(jù)filename, data = reader.read(file_queue)# 4.解碼images = tf.image.decode_jpeg(data)# 5.分批次輸出images_resized = tf.image.resize(images, (200, 200))images_resized.set_shape([200, 200, 3])images_bat = tf.train.batch([images_resized], batch_size=10, num_threads=1) # batch_size: 一批次讀取數(shù)據(jù)的大小return images_batif __name__ == '__main__':# 構(gòu)建文件列表dir_name = './test_img/'file_names = os.listdir(dir_name)file_list = [os.path.join(dir_name, file_name) for file_name in file_names]images_batch = read_img(file_list)with tf.Session() as sess:# 定義線程協(xié)調(diào)器coord = tf.train.Coordinator()# 開(kāi)啟文件讀取線程threads = tf.train.start_queue_runners(sess, coord)res = sess.run(images_batch)coord.request_stop()coord.join(threads)print(res)plt.figure()for i in range(10):plt.subplot(2, 5, i+1)plt.xticks([])plt.yticks([])plt.imshow(res[i].astype('int32'))plt.show()

3.6 MNIST

手寫(xiě)數(shù)字的數(shù)據(jù)集，來(lái)自美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所(Nationallnstitute of Standards andTechnology，NIST)，發(fā)布與1998年
樣本來(lái)自250個(gè)不同人的手寫(xiě)數(shù)字，50%高中學(xué)生，50%是人口普查局的工作人員
數(shù)字從0~9，圖片大小是28x28像素，訓(xùn)練數(shù)據(jù)集包含60000個(gè)樣本，測(cè)試數(shù)據(jù)集包含10000個(gè)樣本。數(shù)據(jù)集的標(biāo)簽是長(zhǎng)度為10的一維數(shù)組數(shù)組中每個(gè)元素索引號(hào)表示對(duì)應(yīng)數(shù)字出現(xiàn)的概率
下載地址：http://yann.lecun.com/exdb/mnist/

1 基礎(chǔ)版本

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data import numpy as np# 1.數(shù)據(jù)準(zhǔn)備 mnist = input_data.read_data_sets('MNIST_data', one_hot=True)x = tf.placeholder(tf.float32, [None, 784]) y = tf.placeholder(tf.float32, [None, 10])# 2.模型構(gòu)建 weight = tf.Variable(tf.random_normal([784, 10]), trainable=True) bias = tf.Variable(tf.ones([10]), trainable=True) pred_y = tf.nn.softmax(tf.matmul(x, weight) + bias)# 3.損失函數(shù) cross_entropy = - tf.reduce_sum(y * tf.log(pred_y), reduction_indices=1) # reduction_indices 求和 cost = tf.reduce_mean(cross_entropy)# 4.梯度下降 optimizer = tf.train.GradientDescentOptimizer(0.01).minimize(cost)# 5.定義模型保存對(duì)象 saver = tf.train.Saver() model_path = './model/mnist/mnist_model.ckpt'batch_size = 100 # 批次大小 total_batch = int(mnist.train.num_examples / batch_size)# 6.開(kāi)始執(zhí)行 with tf.Session() as sess:sess.run(tf.global_variables_initializer())for epoch in range(100):avg_cost = 0.0for i in range(total_batch):# 從訓(xùn)練集中拿到一個(gè)批次的數(shù)據(jù)batch_xs, batch_ys = mnist.train.next_batch(batch_size)params = {x: batch_xs, y: batch_ys}opt_value, costs_value = sess.run([optimizer, cost], feed_dict=params)avg_cost += (costs_value / total_batch)print('epoch:{}, cost: {}'.format(epoch+1, avg_cost))print("訓(xùn)練結(jié)束")# 模型評(píng)估corr_pre = tf.equal(tf.argmax(pred_y, 1), tf.argmax(y, 1))acc = tf.reduce_mean(tf.cast(corr_pre, tf.float32))acc_res = acc.eval({x: mnist.test.images, y: mnist.test.labels})save_path = saver.save(sess, model_path)print("準(zhǔn)確率：", acc_res)print("模型已保存至：", save_path)# 測(cè)試 with tf.Session() as sess:sess.run(tf.global_variables_initializer())saver.restore(sess, model_path)# 從測(cè)試集讀取樣本batch_xs, batch_ys = mnist.test.next_batch(10)output = tf.argmax(pred_y, 1)out_val, pred_label = sess.run([output, pred_y], feed_dict={x: batch_xs, y: batch_ys})print('預(yù)測(cè)結(jié)果：', out_val)print("真實(shí)結(jié)果: ", np.argmax(batch_ys, axis=1))

2 增量訓(xùn)練+結(jié)果顯示版本

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data import numpy as np import os import matplotlib.pyplot as plt# 1.數(shù)據(jù)準(zhǔn)備 mnist = input_data.read_data_sets('MNIST_data', one_hot=True)x = tf.placeholder(tf.float32, [None, 784]) y = tf.placeholder(tf.float32, [None, 10])# 2.模型構(gòu)建 weight = tf.Variable(tf.random_normal([784, 10]), trainable=True) bias = tf.Variable(tf.ones([10]), trainable=True) pred_y = tf.nn.softmax(tf.matmul(x, weight) + bias)# 3.損失函數(shù) cross_entropy = - tf.reduce_sum(y * tf.log(pred_y), reduction_indices=1) # reduction_indices 求和 cost = tf.reduce_mean(cross_entropy)# 4.梯度下降 optimizer = tf.train.GradientDescentOptimizer(0.01).minimize(cost)# 5.定義模型保存對(duì)象 saver = tf.train.Saver() model_path = './model/mnist/'batch_size = 100 # 批次大小 total_batch = int(mnist.train.num_examples / batch_size)# 6.開(kāi)始執(zhí)行 with tf.Session() as sess:sess.run(tf.global_variables_initializer())if os.path.exists('./model/mnist/checkpoint'):saver.restore(sess, model_path)for epoch in range(100): # 訓(xùn)練100輪avg_cost = 0.0for i in range(total_batch):# 從訓(xùn)練集中拿到一個(gè)批次的數(shù)據(jù)batch_xs, batch_ys = mnist.train.next_batch(batch_size)params = {x: batch_xs, y: batch_ys}opt_value, costs_value = sess.run([optimizer, cost], feed_dict=params)avg_cost += (costs_value / total_batch)print('epoch:{}, cost: {}'.format(epoch+1, avg_cost))print("訓(xùn)練結(jié)束")# 模型評(píng)估corr_pre = tf.equal(tf.argmax(pred_y, 1), tf.argmax(y, 1))acc = tf.reduce_mean(tf.cast(corr_pre, tf.float32))acc_res = acc.eval({x: mnist.test.images, y: mnist.test.labels})save_path = saver.save(sess, model_path)print("準(zhǔn)確率：", acc_res)print("模型已保存至：", save_path)# 測(cè)試 with tf.Session() as sess:sess.run(tf.global_variables_initializer())saver.restore(sess, model_path)# 從測(cè)試集讀取樣本batch_xs, batch_ys = mnist.test.next_batch(10)output = tf.argmax(pred_y, 1)out_val, pred_label = sess.run([output, pred_y], feed_dict={x: batch_xs, y: batch_ys})print('預(yù)測(cè)結(jié)果：', out_val)real_ret = np.argmax(batch_ys, axis=1)print("真實(shí)結(jié)果: ", real_ret)plt.figure('num')for i in range(10):plt.subplot(2, 5, i+1)plt.xticks([])plt.yticks([])plt.imshow(batch_xs[i].reshape(-1, 28))plt.title('pred:{}, real:{}'.format(out_val[i], real_ret[i]))plt.show()

總結(jié)

以上是生活随笔為你收集整理的深度学习基础实例与总结的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

pytorch

深度学习基础实例与总结

一、神經(jīng)網(wǎng)絡(luò)

1 深度學(xué)習(xí)

1 什么是深度學(xué)習(xí)？

2 深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)對(duì)比

1）相同點(diǎn)

2）不同點(diǎn)

深度網(wǎng)絡(luò)進(jìn)化過(guò)程

3 感知機(jī)與神經(jīng)網(wǎng)絡(luò)

1）生物神經(jīng)元

2）生物神經(jīng)網(wǎng)絡(luò)

3）什么是感知機(jī)

4）感知機(jī)的功能

（1）實(shí)現(xiàn)邏輯和

（2）實(shí)現(xiàn)邏輯或

5) 感知機(jī)缺陷

6）多層感知機(jī)

7）神經(jīng)網(wǎng)絡(luò)

8）神經(jīng)網(wǎng)絡(luò)的功能

9) 深層網(wǎng)絡(luò)優(yōu)點(diǎn)

10）激活函數(shù)

（1）sigmod函數(shù)

（2）tanh雙曲正切函數(shù)

（3）Relu（Rectified Linear Units，修正線性單元）

（4）Softplus

（5）Softmax

4 損失函數(shù)

1）什么是損失函數(shù)

2）損失函數(shù)的作用

3）常用損失函數(shù)

（1）均方誤差（Mean Square error, MSE）損失函數(shù)

（2）交叉熵(Cross Entropy)。

5 梯度下降算法

1）批量梯度下降

2）隨機(jī)梯度下降

3）小批量梯度下降（優(yōu)先）

6 反向傳播

1）什么是正向傳播網(wǎng)絡(luò)

2）什么是反向傳播

3）為什么需要反向傳播

4）反向傳播算法極簡(jiǎn)史

二、卷積神經(jīng)網(wǎng)絡(luò)

1. 卷積

1.1 特征圖像寬和高的計(jì)算公式

1.2 三維的圖像

1.3 多通道多卷積核的卷積

1.4 scipy實(shí)現(xiàn)卷積實(shí)例

2. 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

1）總結(jié)結(jié)構(gòu)

2）卷積層

3）激活層

4）池化層（Pooling Layer）

5）全連接層

3 經(jīng)典CNN介紹

1）LeNet

（1） 網(wǎng)絡(luò)結(jié)構(gòu)

（2）主要參數(shù)

2）AlexNet

（1）特點(diǎn)

（2）網(wǎng)絡(luò)結(jié)構(gòu)

（3）主要參數(shù)

3）VGG

（1）簡(jiǎn)要介紹

（2）主要參數(shù)

（3）網(wǎng)絡(luò)結(jié)構(gòu)

4）GoogleLeNet

5）ResNet 殘差網(wǎng)絡(luò)

（1）簡(jiǎn)要介紹

（2）網(wǎng)絡(luò)結(jié)構(gòu)

4 小節(jié)

三、圖像處理

3.1 圖像色彩操作

1 圖像色彩調(diào)整

1）亮度調(diào)整

2）飽和度調(diào)整

3） 色調(diào)調(diào)整

2 圖像灰度化

1）什么是圖像灰度化

2）如何進(jìn)行圖像灰度化

（1）網(wǎng)絡(luò)結(jié)構(gòu)

3）色調(diào)調(diào)整