用BP人工神经网络识别手写数字——《Python也可以》之三
生活随笔
收集整理的這篇文章主要介紹了
用BP人工神经网络识别手写数字——《Python也可以》之三
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
賴勇浩(http://laiyonghao.com)
這是我讀工程碩士的時候完成課程作業時做的,放在 dropbox 的角落中生塵已經有若干年頭了,最近 @shugelee 同學突然來了興致搞驗證碼識別,問到我的時候我記起自己做過一點點東西,特發上來給他參考,并趁機補充了一下《Python也可以》系列。
圖像預處理
使用下圖(后方稱為 SAMPLE_BMP)作為訓練和測試數據來源,下文將講述如何將圖像轉換為訓練數據。灰度化和二值化
在字符識別的過程中,識別算法不需要關心圖像的彩色信息。因此,需要將彩色圖像轉化為灰度圖像。經過灰度化處理后的圖像中還包含有背景信息。因此,我們還得進一步處理,將背景噪聲屏蔽掉,突顯出字符輪廓信息。二值化處理就能夠將其中的字符顯現出來,并將背景去除掉。在一個[0,255]灰度級的灰度圖像中,我們取 196 為該灰度圖像的歸一化值,代碼如下:[python] view plain copy
下圖是二值化的圖像,可以看到背景已經完全去除:
圖片的分割和規范化:
通過二值化圖像,我們可以分割出每一個字符為一個單獨的圖片,然后再計算相應的特征值,如下圖所示:這些圖片是由程序自動進行分割而成,其中用到的代碼片段如下:
[python] view plain copy
產生訓練數據集和測試數據集
為簡單起見,我們使用了最簡單的圖像特征——黑色像素在圖像中的分布來進行訓練和測試。首先,我們把圖像規范化為 32*32 像素的圖片,然后按 2*2 分切成 16*16 共 256 個子區域,然后統計這 4 個像素中黑色像素的個數,組成 256 維的特征矢量,如下是數字 2 的一個特征矢量:0 0 4 4 4 2 0 0 0 0 0 0 0 0 2 4 0 0 4 4 4 2 0 0 0 0 0 0 0 0 2 4 2 2 4 4 2 1 0 0 0 0 0 0 1 2 3 4 4 4 4 4 0 0 0 0 0 0 0 0 2 4 4 4 4 4 4 4 0 0 0 0 0 0 0 0 2 4 4 4 4 4 0 0 0 0 0 0 0 0 0 0 2 4 4 4 4 4 0 0 0 0 0 0 0 0 0 0 2 4 4 4 4 4 0 0 0 0 0 0 0 4 4 4 4 4 4 4 4 4 0 0 0 0 0 0 0 4 4 4 4 4 4 4 4 4 2 2 2 2 2 2 2 4 4 2 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 0 2 4 4 4 2 2 2 2 4 3 2 2 2 2 2 0 2 4 4 4 0 0 0 0 4 2 0 0 0 0 0 0 2 4 4 4 0 0 0 0 4 2 0 0 0 0 0 0 2 4 4 4 0 0 0 0 0 0 0 0 0 0 0 0 2 4 4 4 0 0 0 0 0 0 0 0 0 0 0 0 2 4 4 4
相應地,因為我們只需要識別 0~9 共 10 個數字,所以創建一個 10 維的矢量作為結果,數字相應的維置為 1 值,其它值為 0。數字 2 的結果如下:0 0 1 0 0 0 0 0 0 0
我們特征矢量和結果矢量通過以下代碼計算出來后,按 FANN 的格式把它們存到 train.data 中去:
[python] view plain copy
BP神經網絡
利用神經網絡識別字符是本文的另外一個關鍵階段,良好的網絡性能是識別結果可靠性的重要保證。這里就介紹如何利用BP 神經網絡來識別字符。反向傳播網絡(即:Back-Propagation Networks ,簡稱:BP 網絡)是對非線性可微分函數進行權值訓練的多層前向網絡。在人工神經網絡的實際應用中,80%~90%的模型采用 BP 網絡。它主要用在函數逼近,模式識別,分類,數據壓縮等幾個方面,體現了人工神經網絡的核心部分。網絡結構
網絡結構的設計是根據輸入結點和輸出結點的個數和網絡性能來決定的,如下圖。本實驗中的標準待識別字符的大小為 32*32 的二值圖像,即將 1024 個像素點的圖像轉化為一個 256 維的列向量作為輸入。由于本實驗要識別出10 個字符,可以將目標輸出的值設定為一個10 維的列向量,其中與字符相對應那個位為1,其他的全為0 。根據實際經驗和試驗確定,本文中的網絡隱含層結點數目為64。因此,本文中的BP 網絡的結構為 256-64-10。訓練結果
本實驗中的采用的樣本個數為 50 個,將樣本圖像進行預處理,得到處理后的樣本向量P,再設定好對應的網絡輸出目標向量T,把樣本向量 P 和網絡輸出目標向量 T 都保存到 train.data 文件中。設置好網絡訓練參數,對網絡進行訓練和測試,并將最佳的一個網絡權值保存到 number_char_recognize.net 文件中。下面就將本文中設置和訓練網絡參數的程序列舉如下:[python] view plain copy
[python] view plain copy
通過 666 次迭代之后,錯誤率已經低于 0.001,學習中止,并將結果保存起來。
測試結果
實驗的測試是通過從保存好的 NN 數據文件中創建 NN 的形式來實驗的,具體的代碼如下:[python] view plain copy
可見兩個向量的歐氏距離已經接近于 0,識別效果非常好。
小結
本文為該項研究的初步實驗階段,由于樣本字符的數目較少,選取了50 個樣本用來訓練,對10 個待檢數字字符進行識別和仿真,成功識別出字符的個數為9 個,識別效率為90.0%。對于神經網絡而言,在這樣少的訓練樣本的情況下,能夠取的這種效果已經比較成功,表明該方法具有較好識別性能。總結
以上是生活随笔為你收集整理的用BP人工神经网络识别手写数字——《Python也可以》之三的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: (已加马赛克)10 行代码判定色*情*图
- 下一篇: C++11中值得关注的几大变化