TensorFlow:实战Google深度学习框架(五)图像识别与卷积神经网络
- 第6章 圖像識別與卷積神經(jīng)網(wǎng)絡(luò)
- 6.1 圖像識別問題簡介及經(jīng)典數(shù)據(jù)集
- 6.2 卷積神經(jīng)網(wǎng)絡(luò)簡介
- 6.3 卷積神經(jīng)網(wǎng)絡(luò)常用結(jié)構(gòu)
- 6.3.1 卷積層
- 6.3.2 池化層
- 6.4 經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型
- 6.4.1 LeNet-5模型
- 6.4.2 Inception模型
- 6.5 卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)遷移學(xué)習(xí)
- 6.5.1 遷移學(xué)習(xí)的介紹
第6章 圖像識別與卷積神經(jīng)網(wǎng)絡(luò)
本章通過利用CNN實現(xiàn)圖像識別的應(yīng)用來說明如何使用TensorFlow實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)
6.1 圖像識別問題簡介及經(jīng)典數(shù)據(jù)集
1. Cifar
Cifar-10:10種不同種類的60000張圖像,像素大小為32*32的彩色圖像
Cifar-100:20 個大類,大類又細(xì)分為 100 個小類別,每類包含 600 張圖像。
- Cifar相比MNIST的最大區(qū)別:彩色,且每張圖包含一個種類的實體分類難度更高。
- 無論Cifar還是MNIST,相比真實環(huán)境的圖像識別,還有兩個主要的問題:
- 現(xiàn)實生活的圖片分辨率遠(yuǎn)遠(yuǎn)高于32*32,且分辨率不固定;
- 現(xiàn)實生活中物體類別很多,且每張圖像中不會僅僅出現(xiàn)一種物體;
2. ImageNet
- 由斯坦福教授李飛飛(Feifei Li)帶頭整理的數(shù)據(jù)庫,更加貼近真實生活環(huán)境。
- Imagenet數(shù)據(jù)集有1400多萬幅圖片,涵蓋2萬多個類別;其中有超過百萬的圖片有明確的類別標(biāo)注和圖像中物體位置的標(biāo)注,
相關(guān)信息:
1)Total number of non-empty synsets: 218412)Total number of images: 14,197,122
3)Number of images with bounding box annotations: 1,034,908
4)Number of synsets with SIFT features: 1000
5)Number of images with SIFT features: 1.2 million
6.2 卷積神經(jīng)網(wǎng)絡(luò)簡介
前面所介紹的神經(jīng)網(wǎng)絡(luò)都為全連接神經(jīng)網(wǎng)絡(luò),本節(jié)的卷積神經(jīng)網(wǎng)絡(luò)是非全連接的神經(jīng)網(wǎng)絡(luò),全連接與卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)對比如下:
兩者之間最主要的區(qū)別就在于相鄰兩層之間的連接方式
1. 為什么全連接不能很好的處理圖像數(shù)據(jù)
最大的問題在于全連接層參數(shù)太多,使得計算速度減慢,且容易導(dǎo)致過擬合問題。
2. 卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢
卷積神經(jīng)網(wǎng)絡(luò)的前幾層都被組織成一個三維矩陣,可以看出前幾層的每個節(jié)點都是和上層中的部分節(jié)點相連,卷積神經(jīng)網(wǎng)絡(luò)由以下五部分構(gòu)成:
1. 輸入層
輸入層是整個神經(jīng)網(wǎng)絡(luò)的輸入,在圖像處理中,輸入一般代表一張圖片的像素矩陣。在上圖中,最左側(cè)的三維矩陣就代表一張圖片。三維矩陣的長和寬代表圖像的大小,深度代表了圖像的色彩通道。從輸入層開始,卷積神經(jīng)網(wǎng)絡(luò)通過不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)將上一層的三維矩陣轉(zhuǎn)化為下一層的三維矩陣,知道最后的全連接層。
2. 卷積層
卷積層是卷積神經(jīng)網(wǎng)絡(luò)中最重要的部分。卷積層中每一個節(jié)點的輸入只是上一層神經(jīng)網(wǎng)絡(luò)的一小塊,這個小塊常用的大小有3?3或5?5,卷積層試圖將神經(jīng)網(wǎng)絡(luò)中的每個小塊進行更加深入的分析從而抽象得到更高層次的特征,一般來說經(jīng)過卷積層處理過的節(jié)點矩陣會變得更深。
3. 池化層
池化層神經(jīng)網(wǎng)絡(luò)不會改變?nèi)S矩陣的深度,但是它可以縮小矩陣的大小。池化操作可以認(rèn)為是將一張分辨率較高的圖片轉(zhuǎn)化為分辨率較低的圖片。池化層可以進一步縮小最后全連接層中節(jié)點的個數(shù),從而達到減少整個神經(jīng)網(wǎng)絡(luò)中參數(shù)的目的。
4. 全連接層
經(jīng)過多輪卷積層和池化層的處理之后,卷積神經(jīng)網(wǎng)絡(luò)的最后一般會是由1-2個全連接層來給出最后的分類結(jié)果。經(jīng)過幾輪卷積層和池化層處理之后,可以認(rèn)為圖像中的信息已經(jīng)被抽象成了信息含量更高的特征。 可以將卷積和池化層看成特征提取的過程,提取完成之后,仍然需要使用全連接層來完成分類任務(wù)。
5. Softmax層(pooling層)
Softmax層主要用于分類問題,通過softmax可以得到當(dāng)前樣例屬于不同種類的概率分布情況。
6.3 卷積神經(jīng)網(wǎng)絡(luò)常用結(jié)構(gòu)
6.3.1 卷積層
TensorFlow文檔中將下圖的部分被稱為“過濾器”或“內(nèi)核”,過濾器可以將當(dāng)前層神經(jīng)網(wǎng)絡(luò)上的一個子節(jié)點矩陣轉(zhuǎn)化為下一層神經(jīng)網(wǎng)絡(luò)上的一個單位節(jié)點矩陣(長和寬都為1,但深度不限的節(jié)點矩陣)。
過濾器:
- 常用的過濾器的大小為 3*3 或 5*5 的,過濾器處理的矩陣深度和當(dāng)前車網(wǎng)絡(luò)節(jié)點矩陣的深度一致。
- 尺寸:過濾器輸入節(jié)點矩陣的大小
- 深度:輸出節(jié)點矩陣的深度
- 上圖中,左側(cè)小矩陣的尺寸為過濾器的尺寸,右側(cè)單位矩陣的深度為過濾器的深度。
- 前向傳播過程:通過左側(cè)小矩陣的節(jié)點計算出右側(cè)單位矩陣中節(jié)點的過程
過濾器的前向傳播
卷積層結(jié)構(gòu)的前向傳播過程就是通過將一個過濾器從神經(jīng)網(wǎng)絡(luò)當(dāng)前層的左上角移動到右下角,并且在移動過程中計算每一個對應(yīng)的單位矩陣得到的。
傳播過程:左上角→→右上角→→左下角→→右下角全零填充:為了避免尺寸變化,可以使用“全零填充”,可以使得前向傳播后兩矩陣大小不變。
設(shè)置不同的步長:也可以調(diào)整卷積后矩陣的大小
參數(shù)共享:每一個卷積層中使用的濾波器中的參數(shù)都是一樣的(很重要的性質(zhì))
使得圖像上的內(nèi)容不受位置的影響,因為一幅圖上的濾波器是相同的,無論“1”出現(xiàn)在圖中的哪個位置,濾波的結(jié)果都是一樣的。
很大程度上減少神經(jīng)網(wǎng)絡(luò)的參數(shù)
示例:全零填充、步長為2的卷積層前向傳播過程
左上角的計算方式:
- TensorFlow實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)
1.創(chuàng)建濾波器的權(quán)值和偏置
filter_weight=tf.get_variable('weights',[5,5,3,16],initializer=tf.truncated_initializer(stddev=0.1))# t通過tf.get_variable的方式創(chuàng)建濾波器的權(quán)值和偏置# 聲明一個4維矩陣,前面兩個是濾波器尺寸、第三個表示當(dāng)前層深度、第四個表示過濾器的深度(也就是卷積核個數(shù)) biases=tf.get_variable('biases',[16],initializer=tf.constant_initializer(0.1))# 當(dāng)前層矩陣上不同位置的偏置項也是共享的,所以偏置項個數(shù)=下一層深度,本例為162.實現(xiàn)卷積層的前向傳播
conv=tf.nn.conv2d(input,filter_weight,strides=[1,1,1,1],padding='SAME')# tf.nn.conv2提供了一個非常方便的函數(shù)來實現(xiàn)卷積層的前向傳播# 第一個輸入:當(dāng)前層節(jié)點矩陣# (比如輸入層,input[0,:,:,:]表示輸入第一張圖像,input[1,:,:,:]表示輸入第二張圖像# 第二個參數(shù):卷積層的權(quán)重# 第三個參數(shù)不同維度上的步長(第一維和最后一維要求一定是1,因為步長只對矩陣的長和寬有效)# 第四個參數(shù):填充的方法,可選'SAME'(全0填充)/'VALID'(不填充)3.加上偏置項
bias=tf.nn.bias_add(conv,biases)# tf.nn.bias_add提供了一個方便的函數(shù)給每個節(jié)點加上偏置項# 不直接使用加法:因為矩陣上不同位置上的節(jié)點都需要加上相同的偏置項4.激活
actived_conv=tf.nn.relu(bias)# 將計算結(jié)果通過ReLU函數(shù)激活6.3.2 池化層
作用:
- 減少參數(shù)
- 防止過擬合
- 獲得平移不變性
常用池化類型:
- 最大池化
- 平均池化
池化層的作用范圍:
- 只影響一個深度上的節(jié)點
- 在長、寬、深這三個維度都要進行移動
- TensorFlow實現(xiàn)最大池化層的前向傳播
- TensorFlow實現(xiàn)平均池化層的前向傳播
卷積層、池化層樣例
# 《TensorFlow實戰(zhàn)Google深度學(xué)習(xí)框架》06 圖像識別與卷積神經(jīng)網(wǎng)絡(luò) # win10 Tensorflow1.0.1 python3.5.3 # CUDA v8.0 cudnn-8.0-windows10-x64-v5.1 # filename:ts06.01.py # 卷積層、池化層樣例import tensorflow as tf import numpy as np# 1. 輸入矩陣 M = np.array([[[1],[-1],[0]],[[-1],[2],[1]],[[0],[2],[-2]]]) print("Matrix shape is: ",M.shape) # Matrix shape is: (3, 3, 1)# 2. 定義卷積過濾器, 深度為1 filter_weight = tf.get_variable('weights', [2, 2, 1, 1], initializer = tf.constant_initializer([[1, -1],[0, 2]])) biases = tf.get_variable('biases', [1], initializer = tf.constant_initializer(1))# 3. 調(diào)整輸入的格式符合TensorFlow的要求 M = np.asarray(M, dtype='float32') M = M.reshape(1, 3, 3, 1)# 4. 計算矩陣通過卷積層過濾器和池化層過濾器計算后的結(jié)果 x = tf.placeholder('float32', [1, None, None, 1]) conv = tf.nn.conv2d(x, filter_weight, strides=[1, 2, 2, 1], padding='SAME') bias = tf.nn.bias_add(conv, biases) pool = tf.nn.avg_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME') with tf.Session() as sess:tf.global_variables_initializer().run()convoluted_M = sess.run(bias, feed_dict={x: M})pooled_M = sess.run(pool, feed_dict={x: M})print("convoluted_M: \n", convoluted_M)print("pooled_M: \n", pooled_M)輸出:
Matrix shape is: (3, 3, 1) convoluted_M: [[[[ 7.],[ 1.]][[-1.],[-1.]]]]pooled_M: [[[[ 0.25],[ 0.5 ]][[ 1. ],[-2. ]]]]6.4 經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型
6.4.1 LeNet-5模型
Yann LeCun 教授于1998年提出,是第一個成功用于數(shù)字識別的卷積神經(jīng)網(wǎng)絡(luò),在mnist數(shù)據(jù)集上,可以達到99.2%的效果,共有7層,如下圖所示。
輸入原始圖像的大小是32×32
1. 卷積層
輸入:原始圖像的像素(32*32*1)
過濾器:尺寸為5*5,深度為6,不使用全0填充,步長為1
輸出:尺寸為 32-5+1=28,深度為6
參數(shù)個數(shù):5*5*1*6+6=156,
下一層節(jié)點矩陣的節(jié)點:28*28*6=4704,每個節(jié)點和5*5=25 個當(dāng)前層節(jié)點相連
本層卷積層共有連接個數(shù):4704*(25+1)=122304
2. 池化層
輸入:第一層的輸出,是一個28*28*6的節(jié)點矩陣
過濾器:大小為2*2,長、寬、步長都為2
輸出:14*14*6
3. 卷積層
輸入:14*14*6
過濾器:大小為5*5,深度為16,不使用0填充,步長為1
輸出:10*10*16,按標(biāo)準(zhǔn)的卷積層,本層應(yīng)該有5*5*6*16+16=2416個參數(shù)
共有:10*10*16*(25+1)=41600個連接
4. 池化層
輸入:10*10*16
過濾器:大小為2*2,步長為2
輸出:矩陣大小為5*5*16
5. 全連接層
輸入:5*5*16,本來論文中稱本層為卷積層,但是因為濾波器大小為5*5,所以和全連接層沒有區(qū)別,之后就將其看成全連接層。如果將矩陣5*5*16拉成一個向量,則和第四章的無區(qū)別
輸出:節(jié)點個數(shù)為120
總共參數(shù):5*5*16*120+120個參數(shù)。
6. 全連接層
輸入:節(jié)點個數(shù)為120個
輸出:節(jié)點個數(shù)為84個
總共參數(shù):120*84+84=10164個
7. 全連接層
輸入:84個節(jié)點
輸出:10個節(jié)點
總共參數(shù):84*10+10=850個
代碼示例:
- LeNet_inference.py
- LeNet_train.py
輸出:
Extracting MNIST_data\train-images-idx3-ubyte.gz Extracting MNIST_data\train-labels-idx1-ubyte.gz Extracting MNIST_data\t10k-images-idx3-ubyte.gz Extracting MNIST_data\t10k-labels-idx1-ubyte.gzAfter 1 training step(s), loss on training batch is 6.10953. After 1001 training step(s), loss on training batch is 0.801586. After 2001 training step(s), loss on training batch is 0.829287. After 3001 training step(s), loss on training batch is 0.655056. After 4001 training step(s), loss on training batch is 0.698159. After 5001 training step(s), loss on training batch is 0.744295. After 6001 training step(s), loss on training batch is 0.657604. After 7001 training step(s), loss on training batch is 0.697003. After 8001 training step(s), loss on training batch is 0.685206. After 9001 training step(s), loss on training batch is 0.651352. After 10001 training step(s), loss on training batch is 0.729663. After 11001 training step(s), loss on training batch is 0.666927. After 12001 training step(s), loss on training batch is 0.65114. After 13001 training step(s), loss on training batch is 0.648548. ...- LeNet_eval.py(測試該網(wǎng)絡(luò)在mnist的正確率,達到99.4%,巨幅高于第五章的98.4%)
LeNet-5模型的缺點
不能很好的解決所有問題,比如類似ImageNet的復(fù)雜數(shù)據(jù)集
如何設(shè)計卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)
該正則表達公式總結(jié)了經(jīng)典的用于圖像分類問題的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)
其中:
LeNet-5的正則表達:
從VGGNet觀察正則表達式的特點:
convX-Y:濾波器的邊長為X,深度為Y
VGGNet中的濾波器的邊長基本都為3或1
LeNet-5中使用了大小為5*5的濾波器,一般都不會超過5,但也有的設(shè)置為7*7,甚至11*11的
在濾波器的深度選擇上,大部分都采用逐層遞增的方式,VGG中,每經(jīng)過一個池化層,濾波器的深度*2,
卷積層的步長一般為2,但也有例外(使用2或3)
池化層配置相對簡單,用的最多的是最大池化層,邊長一般為2或3,步長一般為2或3
6.4.2 Inception模型
已知濾波器的大小可選,但是沒有先驗知識幫助我們?nèi)ミx擇其大小,所以Inception模型將不同尺寸的濾波器的濾波結(jié)果通過并聯(lián)的方式結(jié)合在一起,即將得到的矩陣拼接起來。
Inception模型會使用不同尺寸的濾波器處理矩陣,使用全0填充和步長為1的方法獲得的特征圖譜大小是相同的,不會影響矩陣的拼接。
Inception-v3模型共有46層,由11個Inception模塊構(gòu)成,上圖中方框標(biāo)注的就是一個模塊,Inception-v3模型有96個卷積層,直接使用上文的TensorFlow模型會非常冗長,所以此處介紹TensorFlow-Slim工具來更加簡潔的實現(xiàn)同樣結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)代碼量。
1.直接使用TensorFlow原始API實現(xiàn)卷積層
with tf.variable_scope(scope_name):weights=tf.get_variable("weight",...)biases=tf.get_variable("bias",...)conv=tf.nn.conv2d(...)relu=tf.nn.relu(tf.nn.bias_add(conv,biases))2.使用TensorFlow-Slim實現(xiàn)卷積層
tf.contrib.slim.conv2d (inputs,num_outputs,#[卷積核個數(shù)]kernel_size,#[高度,寬度]stride=1,#步長padding='SAME',#VALID存在于tensorflow.contrib的庫中,導(dǎo)入方法:import tensorflow.contrib.slim as slim
net=slim.conv2d(input,32,[3,3]) # 可以在一行中實現(xiàn)一個卷積層的前向傳播算法 # 第一個參數(shù):輸入節(jié)點矩陣 # 第二個參數(shù):當(dāng)前卷積層過濾器的深度 # 第三個參數(shù):過濾器的尺寸 # 可選步長、填充、激活函數(shù)、變量命名空間等6.5 卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)遷移學(xué)習(xí)
6.5.1 遷移學(xué)習(xí)的介紹
從上表可以看出,隨著模型層數(shù)及復(fù)雜度的增加,模型在ImageNet上的錯誤率也隨之降低,然而訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要非常多的標(biāo)注數(shù)據(jù),ImageNet數(shù)據(jù)集中有120萬標(biāo)注圖像,所以才能使得152層的ResNet模型達到分類的96.5%的正確率,實際中很難收集到如此多的標(biāo)記數(shù)據(jù),即使收集也會花費很多的人力物力,并且海量的訓(xùn)練數(shù)據(jù)使得復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要幾天甚至幾周,為了解決標(biāo)注數(shù)據(jù)和訓(xùn)練時間的問題,提出了遷移學(xué)習(xí)。
遷移學(xué)習(xí):將一個問題上訓(xùn)練好的模型通過簡單的調(diào)整使其適用于一個新的問題。比如可以保留訓(xùn)練好的Inception-v3模型中所有卷積層的參數(shù),只是替換最后一層全連接層,可以解決一個新的圖像分類問題。
瓶頸層:在最后這一層全連接層之前的網(wǎng)絡(luò)層稱之為瓶頸層。
- 將新的圖像通過訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)直到瓶頸層的過程可以看成是對圖像進行特征提取的過程。
- 可以認(rèn)為瓶頸層的輸出節(jié)點向量可以被作為任何圖像的一個更加精簡且表達能力更強的特征向量,于是可以用該訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)在新的數(shù)據(jù)集上完成對圖像特征的提取。
- 再將提取到的特征作為輸入來訓(xùn)練一個新的單層全連接神經(jīng)網(wǎng)絡(luò)處理新的分類問題
遷移學(xué)習(xí)相比重新訓(xùn)練的優(yōu)缺點:
- 缺點:效果不如完全重新訓(xùn)練
- 優(yōu)點:需要的訓(xùn)練時間和訓(xùn)練樣本數(shù)要遠(yuǎn)遠(yuǎn)小于訓(xùn)練完整的模型
代碼實現(xiàn):
# 《TensorFlow實戰(zhàn)Google深度學(xué)習(xí)框架》06 圖像識別與卷積神經(jīng)網(wǎng)絡(luò) # win10 Tensorflow1.0.1 python3.5.3 # CUDA v8.0 cudnn-8.0-windows10-x64-v5.1 # filename:ts06.03.py # 遷移學(xué)習(xí)# 以下實驗需要如下資源 # 源碼及資源位置:git clone https://github.com/caicloud/tensorflow-tutorial.git # 需要tensorflow-tutorial.git庫中的flower_photos和inception_dec_2015 # tensorflow-tutorial\Deep_Learning_with_TensorFlow\datasets\flower_photos # tensorflow-tutorial\Deep_Learning_with_TensorFlow\datasets\inception_dec_2015import glob import os.path import random import numpy as np import tensorflow as tf from tensorflow.python.platform import gfile# 1. 模型和樣本路徑的設(shè)置 # inception-v3模型瓶頸層的節(jié)點數(shù) BOTTLENECK_TENSOR_SIZE = 2048# inception-v3模型中代表瓶頸層結(jié)果的張量名稱,谷歌提供的inception-v3模型中,這個張量名稱就是'pool_3/_reshape:0' # 訓(xùn)練過程中,可以利用tensor.name來獲取張量的名稱 BOTTLENECK_TENSOR_NAME = 'pool_3/_reshape:0'# 圖像輸入張量所對應(yīng)的名稱 JPEG_DATA_TENSOR_NAME = 'DecodeJpeg/contents:0'# 保存的模型文件目錄 MODEL_DIR = '../../datasets/inception_dec_2015' # 下載的谷歌訓(xùn)練好的inception-v3模型文件名 MODEL_FILE= 'tensorflow_inception_graph.pb'# 因為一個訓(xùn)練數(shù)據(jù)會被使用多次,所以可以將原始圖像通過inception-v3模型計算得到的特征向量保存在文件中, # 以免重復(fù)計算,下面是這些文件的存放地址。 CACHE_DIR = '../../datasets/bottleneck'# 圖片數(shù)據(jù)文件夾 # 該文件夾中每一個子文件夾代表一個需要區(qū)分的類別,每個子文件夾中存放了對應(yīng)類別的圖片 INPUT_DATA = '../../datasets/flower_photos'# 驗證集百分比 VALIDATION_PERCENTAGE = 10 # 測試集百分比 TEST_PERCENTAGE = 10# 2. 神經(jīng)網(wǎng)絡(luò)參數(shù)的設(shè)置 LEARNING_RATE = 0.01 STEPS = 4000 BATCH = 100# 3. 把樣本中所有的圖片列表并按訓(xùn)練、驗證、測試數(shù)據(jù)分開 # testing_percentage:測試數(shù)據(jù)集的大小 # validation_percentage:驗證數(shù)據(jù)集的大小 def create_image_lists(testing_percentage, validation_percentage):# 定義一個result字典,key存儲類別名稱, 與key對應(yīng)的value也是一個字典,存儲所有該類的圖片名稱result = {}# 獲取當(dāng)前目錄下所有的子目錄sub_dirs = [x[0] for x in os.walk(INPUT_DATA)]is_root_dir = Truefor sub_dir in sub_dirs:if is_root_dir:is_root_dir = Falsecontinueextensions = ['jpg', 'jpeg', 'JPG', 'JPEG']file_list = []dir_name = os.path.basename(sub_dir)for extension in extensions:file_glob = os.path.join(INPUT_DATA, dir_name, '*.' + extension)file_list.extend(glob.glob(file_glob))if not file_list: continuelabel_name = dir_name.lower()# 初始化training_images = []testing_images = []validation_images = []for file_name in file_list:base_name = os.path.basename(file_name)# 隨機劃分?jǐn)?shù)據(jù)chance = np.random.randint(100)if chance < validation_percentage:validation_images.append(base_name)elif chance < (testing_percentage + validation_percentage):testing_images.append(base_name)else:training_images.append(base_name)result[label_name] = {'dir': dir_name,'training': training_images,'testing': testing_images,'validation': validation_images,}return result# 4. 定義函數(shù)通過類別名稱、所屬數(shù)據(jù)集和圖片編號獲取一張圖片的地址 def get_image_path(image_lists, image_dir, label_name, index, category):label_lists = image_lists[label_name]category_list = label_lists[category]mod_index = index % len(category_list)base_name = category_list[mod_index]sub_dir = label_lists['dir']full_path = os.path.join(image_dir, sub_dir, base_name)return full_path# 5. 定義函數(shù)獲取Inception-v3模型處理之后的特征向量的文件地址 def get_bottleneck_path(image_lists, label_name, index, category):return get_image_path(image_lists, CACHE_DIR, label_name, index, category) + '.txt'# 6. 定義函數(shù)使用加載的訓(xùn)練好的Inception-v3模型處理一張圖片,得到這個圖片的特征向量 # 該過程實際上就是將當(dāng)前圖片作為輸入九三瓶頸張量的值,這個瓶頸張量的值就是該圖像的新的特征向量 def run_bottleneck_on_image(sess, image_data, image_data_tensor, bottleneck_tensor):bottleneck_values = sess.run(bottleneck_tensor, {image_data_tensor: image_data})# 將四維數(shù)組壓縮為一個特征向量bottleneck_values = np.squeeze(bottleneck_values)return bottleneck_values# 7. 定義函數(shù)會先試圖尋找已經(jīng)計算且保存下來的特征向量,如果找不到則先計算這個特征向量,然后保存到文件 def get_or_create_bottleneck(sess, image_lists, label_name, index, category, jpeg_data_tensor, bottleneck_tensor):label_lists = image_lists[label_name]sub_dir = label_lists['dir']sub_dir_path = os.path.join(CACHE_DIR, sub_dir)if not os.path.exists(sub_dir_path): os.makedirs(sub_dir_path)bottleneck_path = get_bottleneck_path(image_lists, label_name, index, category)if not os.path.exists(bottleneck_path):image_path = get_image_path(image_lists, INPUT_DATA, label_name, index, category)image_data = gfile.FastGFile(image_path, 'rb').read()bottleneck_values = run_bottleneck_on_image(sess, image_data, jpeg_data_tensor, bottleneck_tensor)bottleneck_string = ','.join(str(x) for x in bottleneck_values)with open(bottleneck_path, 'w') as bottleneck_file:bottleneck_file.write(bottleneck_string)else:with open(bottleneck_path, 'r') as bottleneck_file:bottleneck_string = bottleneck_file.read()bottleneck_values = [float(x) for x in bottleneck_string.split(',')]return bottleneck_values# 8. 這個函數(shù)隨機獲取一個batch的圖片作為訓(xùn)練數(shù)據(jù) def get_random_cached_bottlenecks(sess, n_classes, image_lists, how_many, category, jpeg_data_tensor, bottleneck_tensor):bottlenecks = []ground_truths = []for _ in range(how_many):label_index = random.randrange(n_classes)label_name = list(image_lists.keys())[label_index]image_index = random.randrange(65536)bottleneck = get_or_create_bottleneck(sess, image_lists, label_name, image_index, category, jpeg_data_tensor, bottleneck_tensor)ground_truth = np.zeros(n_classes, dtype=np.float32)ground_truth[label_index] = 1.0bottlenecks.append(bottleneck)ground_truths.append(ground_truth)return bottlenecks, ground_truths# 9. 這個函數(shù)獲取全部的測試數(shù)據(jù),并計算正確率 def get_test_bottlenecks(sess, image_lists, n_classes, jpeg_data_tensor, bottleneck_tensor):bottlenecks = []ground_truths = []label_name_list = list(image_lists.keys())for label_index, label_name in enumerate(label_name_list):category = 'testing'for index, unused_base_name in enumerate(image_lists[label_name][category]):bottleneck = get_or_create_bottleneck(sess, image_lists, label_name, index, category,jpeg_data_tensor, bottleneck_tensor)ground_truth = np.zeros(n_classes, dtype=np.float32)ground_truth[label_index] = 1.0bottlenecks.append(bottleneck)ground_truths.append(ground_truth)return bottlenecks, ground_truths# 10. 定義主函數(shù) def main():image_lists = create_image_lists(TEST_PERCENTAGE, VALIDATION_PERCENTAGE)n_classes = len(image_lists.keys())# 讀取已經(jīng)訓(xùn)練好的Inception-v3模型。with gfile.FastGFile(os.path.join(MODEL_DIR, MODEL_FILE), 'rb') as f:graph_def = tf.GraphDef()graph_def.ParseFromString(f.read())bottleneck_tensor, jpeg_data_tensor = tf.import_graph_def(graph_def, return_elements=[BOTTLENECK_TENSOR_NAME, JPEG_DATA_TENSOR_NAME])# 定義新的神經(jīng)網(wǎng)絡(luò)輸入bottleneck_input = tf.placeholder(tf.float32, [None, BOTTLENECK_TENSOR_SIZE], name='BottleneckInputPlaceholder')ground_truth_input = tf.placeholder(tf.float32, [None, n_classes], name='GroundTruthInput')# 定義一層全鏈接層with tf.name_scope('final_training_ops'):weights = tf.Variable(tf.truncated_normal([BOTTLENECK_TENSOR_SIZE, n_classes], stddev=0.001))biases = tf.Variable(tf.zeros([n_classes]))logits = tf.matmul(bottleneck_input, weights) + biasesfinal_tensor = tf.nn.softmax(logits)# 定義交叉熵?fù)p失函數(shù)。cross_entropy = tf.nn.softmax_cross_entropy_with_logits(logits=logits, labels=ground_truth_input)cross_entropy_mean = tf.reduce_mean(cross_entropy)train_step = tf.train.GradientDescentOptimizer(LEARNING_RATE).minimize(cross_entropy_mean)# 計算正確率。with tf.name_scope('evaluation'):correct_prediction = tf.equal(tf.argmax(final_tensor, 1), tf.argmax(ground_truth_input, 1))evaluation_step = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))with tf.Session() as sess:init = tf.global_variables_initializer()sess.run(init)# 訓(xùn)練過程。for i in range(STEPS):train_bottlenecks, train_ground_truth = get_random_cached_bottlenecks(sess, n_classes, image_lists, BATCH, 'training', jpeg_data_tensor, bottleneck_tensor)sess.run(train_step,feed_dict={bottleneck_input: train_bottlenecks, ground_truth_input: train_ground_truth})if i % 100 == 0 or i + 1 == STEPS:validation_bottlenecks, validation_ground_truth = get_random_cached_bottlenecks(sess, n_classes, image_lists, BATCH, 'validation', jpeg_data_tensor, bottleneck_tensor)validation_accuracy = sess.run(evaluation_step, feed_dict={bottleneck_input: validation_bottlenecks, ground_truth_input: validation_ground_truth})print('Step %d: Validation accuracy on random sampled %d examples = %.1f%%' %(i, BATCH, validation_accuracy * 100))# 在最后的測試數(shù)據(jù)上測試正確率。test_bottlenecks, test_ground_truth = get_test_bottlenecks(sess, image_lists, n_classes, jpeg_data_tensor, bottleneck_tensor)test_accuracy = sess.run(evaluation_step, feed_dict={bottleneck_input: test_bottlenecks, ground_truth_input: test_ground_truth})print('Final test accuracy = %.1f%%' % (test_accuracy * 100))if __name__ == '__main__':tf.app.run()總結(jié)
以上是生活随笔為你收集整理的TensorFlow:实战Google深度学习框架(五)图像识别与卷积神经网络的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TensorFlow:实战Google深
- 下一篇: 功能超多!新版三星钱包在多个地区推送 还