一文掌握面向Windows平台的深度学习工控程序开发(使用Paddle Inference部署MFC、C#程序,内含完整代码链接)
目錄
- 一、概述
- 1.1 智能制造和飛槳
- 1.2 Paddle Inference工業級應用部署工具
- 二、算法訓練和導出
- 2.1 任務概述和實現原理
- 2.2 訓練和靜態模型導出
- 三、部署環境準備
- 四、Windows下C++工程編譯和運行
- 4.1 工程創建
- 4.2 配置OpenCV
- 4.3 配置Paddle Inference、cuda和tensorrt
- 4.4 核心代碼分析
- 4.5 完整推理
- 五、MFC工程調用
- 5.1 基于C++的dll制作
- 5.2 MFC工程中調用
- 六、C#工程調用
- 6.1基于C++的dll制作
- 6.2 C#中調用dll
- 七、完整代碼鏈接
一、概述
1.1 智能制造和飛槳
制造業作為國民經濟主體,是國家創造力、競爭力和綜合國力的重要體現。作為制造強國建設的主攻方向,智能制造發展水平關乎我國未來制造業的全球地位。與此同時,面對供應鏈環境不確定性的增加、人力等運營成本的逐漸攀升、“雙碳”戰略之下能源轉型的迫切要求,制造業想要實現高質量發展,邁向中高端水平,不僅需要從低附加價值領域向高附加價值領域兩端延伸,更重要是需要加快人工智能等核心技術規?;瘧寐涞?。在此背景之下,如何利用好人工智能這把利劍,加快新舊動能轉換,實現傳統生產方式的轉型升級,也成為每個制造企業不得不思考的問題。目前,在AI工業大生產階段,深度學習技術的通用性越來越強,深度學習平臺的標準化、自動化和模塊化特征越來越顯著,深度學習應用越來越廣泛且深入,已經遍地開花。
目前,以飛槳為代表的人工智能平臺在制造業的落地主要集中在工業視覺、工業設備監控、數據智能和物流倉儲等應用場景,在研發設計、優化生產工藝和排期、設備運維、智能供應鏈等環節發揮著“智眼”和“大腦”的支撐作用。工業視覺檢測作為保障產品質量的重要環節,被廣泛應用在鋼鐵、汽車、3C 電子、印染紡織等眾多領域。在AI出現之前,往往是依賴人工檢測或者使用傳統圖像處理算法。人工檢測效率低,成本高,且容易收到認為主管因素影響,傳統圖像處理算法對于復雜場景魯棒性差,而隨著卷積神經網絡為代表的AI算法出現,有效地解決在復雜場景檢測的能力,在實際的項目過程中對目標識別具有更好的普適性。
1.2 Paddle Inference工業級應用部署工具
在工業級深度學習實踐領域中,我們經常能聽到一種說法——模型部署是打通AI應用的最后一公里!想要走通這一公里,看似簡單,但是真正實踐起來卻困難重重。顯卡利用率低、內存溢出、多線程調度奔潰、tensorrt加速算子不支持等等問題一直是深度學習模型最后部署的老大難問題。這時,我們就可以選擇Paddle Inference部署工具。
Paddle Inference 是飛槳的原生推理庫,可以提供高性能的工業生產級推理能力。一般的企業級部署通常會追求更極致的部署性能,且希望能夠在生產環境安裝一個不包含后向算子,且比主框架更輕量的預測庫,Paddle Inference應運而生。Paddle Inference提取了主框架的前向算子,可以無縫支持所有主框架訓練好的模型,且通過內存復用、算子融合等大量優化手段,并整合了主流的硬件加速庫如Intel的oneDNN、NVIDIA的TensorRT等, 提供用戶最極致的部署性能。此外還封裝C/C++的預測接口,使生產環境更便利多樣。
有了這樣一套部署工具,我們開發工業智能產品就非常簡單了。一般的,我們可以基于Python語言使用PaddlePaddle來實現模型訓練(可以使用一些套件庫來加速模型研發,例如PaddleClas、PaddleDetection、PaddleSeg等),然后再使用C++語言利用Paddle Inference庫實現工業生產環境的高效穩定部署。
本篇博文重點介紹如何利用飛槳Paddle Inference工具在windows 10平臺上實現工業級深度學習應用部署,對相關的算法原理只做基本介紹。
二、算法訓練和導出
2.1 任務概述和實現原理
本教程使用PP-LiteSeg模型對工業質檢場景下的缺陷進行精細分割,實現像素級的工業缺陷檢測任務。下圖左邊是原圖,右邊是分割圖片,缺陷區域使用綠色表示,其他區域使用紅色表示。
PP-LiteSeg模型是PaddleSeg團隊自研的輕量級語義分割模型,模型結構如下。
PP-LiteSeg模型更詳細的原理介紹請參考官網鏈接。
2.2 訓練和靜態模型導出
本項目使用的工業質檢瑕疵分割數據集,包含3類目標和1類背景。其中訓練集:691張圖像,驗證集:86張圖像,測試集:87張圖像。數據集格式如下:
defect_data
├── Annotations
├── JPEGImages
├── test.txt
├── train.txt
└── val.txt
完整的訓練、推理和導出代碼在Ai Studio上已給出(鏈接),讀者只需要folk即可運行。
在實際工業使用時,可以根據模型的大小以及速度要求來選型,然后只需要替換模型配置參數重新訓練即可。因此,使用PaddlePaddle的相關算法套件可以很快速的完成模型開發、訓練和驗證工作。
整個訓練時間大概耗時1小時,最終推理結果如下所示:
本項目實例在yml文件中iters設置為8000,在實際測試時發現遠沒有到達最佳精度位置(mIoU=0.5917),可以增加iters延長訓練時間來獲得更高的檢測精度。盡管如此,從推理結果上看整體檢測效果還是可以的,基本能夠檢測出對應的缺陷區域。
為了方便后面進行工業級的部署,PaddleSeg提供了一鍵動轉靜的功能,即將訓練出來的動態圖模型文件轉化成靜態圖形式(只有轉成靜態圖模型才能用C++推理)。
- 最終結果文件
output
├── deploy.yaml # 部署相關的配置文件
├── model.pdiparams # 靜態圖模型參數
├── model.pdiparams.info # 參數額外信息,一般無需關注
└── model.pdmodel # 靜態圖模型文件
如果讀者想深入學習如何根據算法建模、如何調參、如何高效訓練等技術,請參考飛槳語義分割官方教程.(官方教程包含的案例非常豐富且步驟詳細,本文不再贅述)。
三、部署環境準備
我們最終需要使用Paddle Inference工具將前面導出的模型實現Windows平臺上的C++推理。因此,我們首先需要配置基本的PaddleInference環境。Paddle Inference官方下載網址。在下載C++預測庫的時候,我們需要記住對應的當前版本配置環境。
如下圖所示:
考慮到版本的適應性,我們可以選擇vx_mkl_cuda10.2_cudnn7.6.5_avx_mkl-trt7.0.0.11進行下載使用。這個版本對應的cuda是10.2,cudnn是7.6.5,tensorrt庫是7.0.0.11。其中尤其需要注意cuda和cudnn,如果這個預測庫版本需要的cuda和cudnn跟我們當前電腦已經裝好的cuda和cudnn版本不一致,并且在預編譯好的預測庫中沒有我們當前電腦環境的版本,那么只有兩種解決方法:一種就是卸載掉當前cuda和cudnn重新安裝適配版本;另一種就是按照官方教程自行編譯paddle inference。一般來說,自行編譯paddle inference會遇到不少問題,這種解決方案的代價比較大。如果cuda和cudnn版本不一致,個人建議還是重裝cuda和cudnn會更方便一些。安裝好以后我們在C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\lib\x64目錄下(此處注意版本的一致性,我們下載的paddle_inference是cuda10.2的,所以這里引用的cuda目錄也要對應著10.2),然后將其中的所有的lib文件復制出來,復制到d:/toolplace下的cuda目錄,這個cuda目錄就是專門用于存放cuda的lib文件的
另外,本文需要使用opencv加載和預處理圖像,因此需要安裝好opencv。這里可以選擇比較新的OpenCV4.5.5對應的windows版本下載,下載后運行解壓,將opencv文件夾放置在統一的名為toolplace的目錄下。
全部下載好以后我們可以將所有的環境庫單獨放置在統一的名為toolplace的目錄下,方便我們后期配置,如下圖所示:
四、Windows下C++工程編譯和運行
4.1 工程創建
本小節將使用VS2019來創建一個C++控制臺工程,名稱為PaddleDemo,在這個工程里面實現基于C++的工業瑕疵分割推理。如下圖所示:
創建完成后我們重新設置生成項目為Debug,并且是64位(必須是構建64位程序),如下圖所示:
然后將項目編譯運行一下確保Visual Studio基本環境沒有問題。
接下來進行項目配置。
4.2 配置OpenCV
首先配置一下opencv使得能夠正常的在程序中加載圖像。單擊菜單欄“項目”-“屬性”,然后單擊左側“VC++目錄”,在右邊包含目錄中添加如下路徑:
D:\toolplace\opencv\build\include D:\toolplace\opencv\build\include\opencv2在庫目錄中添加:
D:\toolplace\opencv\build\x64\vc15\lib如下圖所示:
然后單擊左側“鏈接器”—“輸入”,在右側附加依賴項中添加opencv對應的lib文件:
如下圖所示:
注意這里我們鏈接的是debug版本的opencv庫,如果我們生成的是release版本的,則需要鏈接opencv_world455.lib文件。
最后將D:\toolplace\opencv\build\x64\vc15\bin目錄下的opencv_world455d.dll文件拷貝到PaddleDemo工程的根目錄下面。然后我們找張測試圖片,命名為test.png也放置在PaddleDemo工程的根目錄下面,如下圖所示:
下面打開PaddleDemo.cpp主文件,編寫C++圖像調用代碼測試下:
按ctrl+F5運行,如果沒有問題會顯示test.png圖片,如下圖所示:
4.3 配置Paddle Inference、cuda和tensorrt
本小節我們將來配置Paddle Inference并使用GPU進行推理。Paddle Inference文件夾中主要包含paddle原生推理庫和third_party第三方依賴庫。由于依賴庫比較多,我們可以抽取必要的進行引入。但是在初期調試的時候,建議將所有依賴庫全部引入進來,等后期完成開發了再逐步剔除,這樣不容易出問題。
單擊菜單欄“項目”-“PaddleDemo屬性”,打開屬性頁面,然后在左側單擊“VC++目錄”,在右側“包含目錄”中繼續添加如下路徑:
具體修改方式對照著自己的包存放路徑來設置。然后在庫目錄里面添加如下庫:
最后,單擊左側“鏈接器”—“輸入”,在附加依賴項中輸入如下lib文件:
為了能夠在工程中運行深度學習模型,我們將前面動轉靜得到的model.pdiparams和model.pdmodel放置在PaddleDemo項目根目錄下的model文件夾中,然后將前面各個配置文件夾下面的dll文件也拷貝到當前項目根目錄下面,最后根目錄文件如下所示:
4.4 核心代碼分析
- 庫引用
上述代碼主要引入paddle inference對應的庫頭文件paddle_inference_api.h以及opencv庫對應的三個文件,最后定義一下命名空間cv。
- 定義全局變量
上述全局變量中最關鍵的是定義了全局的深度學習預測器g_predictor,這是一個paddle_infer::Predictor類的指針變量,后面所有的推理都需要這個變量。由于我們真實工業場景中加載一次模型是比較耗時的,因此,一般情況下我們定義這樣一個全局變量,在程序初始化時加載一次,后面就可以一直使用這個加載后的模型預測器進行推理,直到程序退出才釋放這個模型。
- 主函數main
主函數部分首先使用自定義的init函數初始化深度學習推理環境,然后讀取一張待預測圖片,然后交給predict函數進行預測,由于我們這個模型是一個語義分割模型,輸入是圖片,輸出也是圖片,因此這里的predict函數輸出是mask,最后保存mask圖片即可。
- 初始化深度學習推理環境init
參照paddle inference官網,初始化深度學習部署環境主要就是創建配置器config,然后通過config.SetModel將訓練好的靜態圖模型導入。如果使用GPU預測可以使用config.EnableUseGpu和config.EnableMemoryOptim來設置??紤]到后期tensorrt加速,可以使用config.EnableTensorRtEngine來開啟tensorrt,但是剛開始的時候建議不要開啟tensorrt,因此有可能會推導不成功,后期需要使用config.SetTRTDynamicShapeInfo來設置關鍵節點的動態圖形狀才能保證tensorrt正常推理。最后,我們手工賦值一下歸一化需要使用的均值和方差。
- 推理predict函數
預測部分主要分為預處理、圖像轉tensor、預測、后處理這樣幾個步驟。其中尤其需要注意取出數據的部分,需要對照模型真實的最終輸出來操作。例如,本文的語義分割模型最后的輸出數據格式為int64,因此我們使用std::vector out_data這樣的變量來提取數據,否則會報錯誤。
那么怎么查看我們模型的輸出呢?
我們可以使用visualdl工具來查看具體的模型結構,命令如下(需要提前安裝好visualdl):
- 歸一化normalize函數
在前面predict函數中我們使用了normalize來預處理數據,這里主要做兩件事,一是將數據從[0,255]轉換到[0,1]之間,然后除以均值和方差,另外,還需要將圖像按照HWC的排列方式轉換為CHW的方式。
- tensorrt加速問題
在使用tensorrt加速時,經常會有模型因為動態尺寸的問題導致不能使用tensorrt。解決辦法其實也很簡單,只需要通過config.SetTRTDynamicShapeInfo來設置動態變量的尺寸即可。但是這里有2個核心的問題。
1、我們怎么知道是哪些動態變量需要設置呢?
2、這些動態變量設置多大合適呢?
第1個問題其實不難,因為開啟tensorrt之后每次推理一旦報錯都會有提示,提示哪些變量目前還沒有設置為動態尺寸,我們只需要記住這些變量即可。
第2個問題有點麻煩,我們需要使用visualdl工具來查看模型結構,然后根據動態變量名稱查找到指定的節點,然后再推理當前連接線的輸入尺寸(上一個節點的輸出尺寸)對應的形狀,這里往往需要根據鄰接的局部網絡進行分析。
例如對于變量bilinear_interp_v2_4.tmp_0來說(運行后tensorrt提示該變量需要設置動態尺寸),我們可以通過visualdl來找到它的模型結構,如下圖所示:
可以看到這時候這根線當前提示是1x128x?x?,說明有兩個維度不清楚,因此我們需要通過局部去推理,在下面的cacat輸出是1x4x32x32,因此,我們可以認為bilinear_interp_v2_4.tmp_0的最佳輸入是1x128x32x32。其他有問題的節點也按照這種方式推理即可。
4.5 完整推理
//導入系統庫 #include <iostream> //導入opencv庫 #include <opencv2/opencv.hpp> #include <opencv2/core/core.hpp> #include <opencv2/highgui/highgui.hpp> //導入paddle庫 #include <paddle_inference_api.h>using namespace cv;//定義全局變量 std::shared_ptr<paddle_infer::Predictor> g_predictor;int target_width = 512; int target_height = 512;std::vector<float> g_fmean; std::vector<float> g_fstd;void init() {// 創建默認配置對象paddle_infer::Config config;config.SetModel("model/model.pdmodel", "model/model.pdiparams");config.EnableUseGpu(100, 0);config.EnableMemoryOptim();//開啟tensorrt加速/*config.EnableTensorRtEngine(1 << 20, 1, 10,paddle_infer::PrecisionType::kFloat32, true, false);std::map<std::string, std::vector<int>> min_input_shape = {{"x", {1, 3, 512, 512}},{"bilinear_interp_v2_4.tmp_0", {1, 128, 32, 32}}, {"bilinear_interp_v2_5.tmp_0", {1, 96, 64, 64}},{"max_2.tmp_0", {1, 1, 32, 32}}, {"bilinear_interp_v2_3.tmp_0", {1, 128, 16, 16}},{"max_0.tmp_0", {1, 1, 16, 16}},{"max_3.tmp_0", {1, 1, 32, 32}},{"max_1.tmp_0", {1, 1, 16, 16}},{"mean_0.tmp_0", {1, 1, 16, 16}},{"relu_54.tmp_0", {1, 128, 16, 16}}, {"relu_60.tmp_0", {1, 96, 64, 64}},{"max_4.tmp_0", {1, 1, 64, 64}},{"max_5.tmp_0", {1, 1, 64, 64}},{"mean_4.tmp_0", {1, 1, 64, 64}},{"mean_2.tmp_0", {1, 1, 32, 32}},{"relu_57.tmp_0", {1, 128, 32, 32}},};std::map<std::string, std::vector<int>> max_input_shape = {{"x", {1, 3, 512, 512}},{"bilinear_interp_v2_4.tmp_0", {1, 128, 32, 32}},{"bilinear_interp_v2_5.tmp_0", {1, 96, 64, 64}},{"max_2.tmp_0", {1, 1, 32, 32}},{"bilinear_interp_v2_3.tmp_0", {1, 128, 16, 16}},{"max_0.tmp_0", {1, 1, 16, 16}},{"max_3.tmp_0", {1, 1, 32, 32}},{"max_1.tmp_0", {1, 1, 16, 16}},{"mean_0.tmp_0", {1, 1, 16, 16}},{"relu_54.tmp_0", {1, 128, 16, 16}},{"max_4.tmp_0", {1, 1, 64, 64}},{"max_5.tmp_0", {1, 1, 64, 64}},{"mean_4.tmp_0", {1, 1, 64, 64}},{"relu_60.tmp_0", {1, 96, 64, 64}},{"mean_2.tmp_0", {1, 1, 32, 32}},{"relu_57.tmp_0", {1, 128, 32, 32}},};std::map<std::string, std::vector<int>> opt_input_shape = {{"x", {1, 3, 512, 512}},{"bilinear_interp_v2_4.tmp_0", {1, 128, 32, 32}},{"bilinear_interp_v2_5.tmp_0", {1, 96, 64, 64}},{"max_2.tmp_0", {1, 1, 32, 32}},{"bilinear_interp_v2_3.tmp_0", {1, 128, 16, 16}},{"max_0.tmp_0", {1, 1, 16, 16}},{"max_3.tmp_0", {1, 1, 32, 32}},{"max_1.tmp_0", {1, 1, 16, 16}},{"mean_0.tmp_0", {1, 1, 16, 16}},{"relu_54.tmp_0", {1, 128, 16, 16}},{"max_4.tmp_0", {1, 1, 64, 64}},{"max_5.tmp_0", {1, 1, 64, 64}},{"mean_4.tmp_0", {1, 1, 64, 64}},{"relu_60.tmp_0", {1, 96, 64, 64}},{"mean_2.tmp_0", {1, 1, 32, 32}},{"relu_57.tmp_0", {1, 128, 32, 32}},};config.SetTRTDynamicShapeInfo(min_input_shape, max_input_shape,opt_input_shape);*///創建預測器g_predictor = paddle_infer::CreatePredictor(config);//定義預處理均值和方差g_fmean.push_back(0.5);g_fmean.push_back(0.5);g_fmean.push_back(0.5);g_fstd.push_back(0.5);g_fstd.push_back(0.5);g_fstd.push_back(0.5); }void normalize(cv::Mat& im, float* data, std::vector<float>& fmean,std::vector<float>& fstd) {int rh = im.rows;int rw = im.cols;int rc = im.channels();double normf = static_cast<double>(1.0) / 255.0; #pragma omp parallel forfor (int h = 0; h < rh; ++h) {const uchar* ptr = im.ptr<uchar>(h);int im_index = 0;for (int w = 0; w < rw; ++w) {for (int c = 0; c < rc; ++c) {int top_index = (c * rh + h) * rw + w;float pixel = static_cast<float>(ptr[im_index++]);pixel = (pixel * normf - fmean[c]) / fstd[c];data[top_index] = pixel;}}} }void predict(Mat& org_img, Mat& mask) {//拷貝圖像int orgWidth = org_img.cols;int orgHeight = org_img.rows;Mat img = org_img.clone();//預處理cvtColor(img, img, cv::COLOR_BGR2RGB);resize(img, img, cv::Size(target_width, target_height), 0, 0, cv::INTER_LINEAR);int real_buffer_size = 3 * target_width * target_height;std::vector<float> input_buffer;input_buffer.resize(real_buffer_size);normalize(img, input_buffer.data(), g_fmean, g_fstd);//轉tensorauto input_names = g_predictor->GetInputNames();auto im_tensor = g_predictor->GetInputHandle(input_names[0]);im_tensor->Reshape({ 1, 3, target_height, target_width });im_tensor->CopyFromCpu(input_buffer.data());//執行預測g_predictor->Run();//取出預測結果auto output_names = g_predictor->GetOutputNames();auto output_t = g_predictor->GetOutputHandle(output_names[0]);std::vector<int> output_shape = output_t->shape();int out_num = 1;std::cout << "size of outputs[" << 0 << "]: (";for (int j = 0; j < output_shape.size(); ++j) {out_num *= output_shape[j];std::cout << output_shape[j] << ",";}std::cout << ")" << std::endl;std::vector<int64> out_data;out_data.resize(out_num);output_t->CopyToCpu(out_data.data());//后處理獲得掩碼圖std::vector<uint8_t> out_data_u8(out_num);for (int i = 0; i < out_num; i++) {out_data_u8[i] = static_cast<uint8_t>(out_data[i]);}cv::Mat out_gray_img(output_shape[1], output_shape[2], CV_8UC1, out_data_u8.data());cv::resize(out_gray_img, out_gray_img, Size(orgWidth, orgHeight));cv::Mat out_eq_img;cv::equalizeHist(out_gray_img, mask);//結束清理img.release();out_eq_img.release();std::vector<int64>(out_data).swap(out_data);std::vector<uint8_t>(out_data_u8).swap(out_data_u8);std::vector<float>(input_buffer).swap(input_buffer);std::vector<int>(output_shape).swap(output_shape);im_tensor.release();output_t.release();}int main() {//初始化環境init();//加載圖像和預處理Mat img = imread("test.png",cv::IMREAD_COLOR);Mat mask = Mat(img.rows, img.cols, CV_8UC1);//開始推理predict(img, mask);//保存掩碼結果imwrite("result.jpg", mask);std::cout << "處理完成" << std::endl;return 0; }最終輸出1張單通道的灰度圖,如下圖所示(推理前后):
輸出結果和python下預測是一致的。
五、MFC工程調用
在工業應用領域,目前很多工控機程序是采用MFC和C#開發的,本節內容重點講解如何在MFC程序中調用Paddle Inference。主要步驟分為兩步:
- 制作基于C++的dll;
- MFC中調用dll實現推理;
5.1 基于C++的dll制作
在第四節,我們實現了基于C++控制臺程序的Paddle Inference調用。我們本小節繼續在這個demo上進行修改,首先修改這個項目的配置輸出,修改為動態庫(.dll)形式,如下圖所示:
然后我們在當前項目中添加一個頭文件,名為imagetool.h,在這個頭文件里面我們來定義兩個基本的dll接口,實現初始化環境和推理,完整內容如下:
在定義推理接口ImageProcess的過程中,為了從拓展性考慮,我們對輸入和輸出采用的是char*格式,也就是通過原始圖像數據內存指針來傳遞數據。
接下來我們重新修改PaddleDemo.cpp文件,在頭部引入剛定義的imagetool.h文件:
#include "imagetool.h"然后注釋掉原文件的main函數,然后添加對應的dll接口函數,代碼如下:
//初始化深度學習環境 int EnvInit() {try{// 創建默認配置對象paddle_infer::Config config;config.SetModel("model/model.pdmodel", "model/model.pdiparams");config.EnableUseGpu(100, 0);config.EnableMemoryOptim();//開啟tensorrt加速/*config.EnableTensorRtEngine(1 << 20, 1, 10,paddle_infer::PrecisionType::kFloat32, true, false);std::map<std::string, std::vector<int>> min_input_shape = {{"x", {1, 3, 512, 512}},{"bilinear_interp_v2_4.tmp_0", {1, 128, 32, 32}},{"bilinear_interp_v2_5.tmp_0", {1, 96, 64, 64}},{"max_2.tmp_0", {1, 1, 32, 32}},{"bilinear_interp_v2_3.tmp_0", {1, 128, 16, 16}},{"max_0.tmp_0", {1, 1, 16, 16}},{"max_3.tmp_0", {1, 1, 32, 32}},{"max_1.tmp_0", {1, 1, 16, 16}},{"mean_0.tmp_0", {1, 1, 16, 16}},{"relu_54.tmp_0", {1, 128, 16, 16}},{"relu_60.tmp_0", {1, 96, 64, 64}},{"max_4.tmp_0", {1, 1, 64, 64}},{"max_5.tmp_0", {1, 1, 64, 64}},{"mean_4.tmp_0", {1, 1, 64, 64}},{"mean_2.tmp_0", {1, 1, 32, 32}},{"relu_57.tmp_0", {1, 128, 32, 32}},};std::map<std::string, std::vector<int>> max_input_shape = {{"x", {1, 3, 512, 512}},{"bilinear_interp_v2_4.tmp_0", {1, 128, 32, 32}},{"bilinear_interp_v2_5.tmp_0", {1, 96, 64, 64}},{"max_2.tmp_0", {1, 1, 32, 32}},{"bilinear_interp_v2_3.tmp_0", {1, 128, 16, 16}},{"max_0.tmp_0", {1, 1, 16, 16}},{"max_3.tmp_0", {1, 1, 32, 32}},{"max_1.tmp_0", {1, 1, 16, 16}},{"mean_0.tmp_0", {1, 1, 16, 16}},{"relu_54.tmp_0", {1, 128, 16, 16}},{"max_4.tmp_0", {1, 1, 64, 64}},{"max_5.tmp_0", {1, 1, 64, 64}},{"mean_4.tmp_0", {1, 1, 64, 64}},{"relu_60.tmp_0", {1, 96, 64, 64}},{"mean_2.tmp_0", {1, 1, 32, 32}},{"relu_57.tmp_0", {1, 128, 32, 32}},};std::map<std::string, std::vector<int>> opt_input_shape = {{"x", {1, 3, 512, 512}},{"bilinear_interp_v2_4.tmp_0", {1, 128, 32, 32}},{"bilinear_interp_v2_5.tmp_0", {1, 96, 64, 64}},{"max_2.tmp_0", {1, 1, 32, 32}},{"bilinear_interp_v2_3.tmp_0", {1, 128, 16, 16}},{"max_0.tmp_0", {1, 1, 16, 16}},{"max_3.tmp_0", {1, 1, 32, 32}},{"max_1.tmp_0", {1, 1, 16, 16}},{"mean_0.tmp_0", {1, 1, 16, 16}},{"relu_54.tmp_0", {1, 128, 16, 16}},{"max_4.tmp_0", {1, 1, 64, 64}},{"max_5.tmp_0", {1, 1, 64, 64}},{"mean_4.tmp_0", {1, 1, 64, 64}},{"relu_60.tmp_0", {1, 96, 64, 64}},{"mean_2.tmp_0", {1, 1, 32, 32}},{"relu_57.tmp_0", {1, 128, 32, 32}},};config.SetTRTDynamicShapeInfo(min_input_shape, max_input_shape,opt_input_shape);*///創建預測器g_predictor = paddle_infer::CreatePredictor(config);//定義預處理均值和方差g_fmean.push_back(0.5);g_fmean.push_back(0.5);g_fmean.push_back(0.5);g_fstd.push_back(0.5);g_fstd.push_back(0.5);g_fstd.push_back(0.5);return 1;}catch (...) // 捕獲所有異常{return -1;} }// 圖像推理 int ImageProcess(char* pImgIn, char* pImgOut, int height, int width) {Mat img = Mat(height, width, CV_8UC3);memcpy(img.data,pImgIn,height*width*3);Mat mask = Mat(height, width, CV_8UC1);//開始推理predict(img, mask);//返回memcpy(pImgOut, mask.data, height * width);//釋放img.release();mask.release();return 1; }到這里dll工程就修改完了,重新生成工程,在x64/Release目錄下會生成對應的dll庫文件,包括:
PaddleDemo.lib PaddleDemo.dll這兩個文件就是我們生成出的深度學習推理文件,后面我們在MFC工程中只需要配置這兩個文件即可,不需要再配置Paddle Inference了。
5.2 MFC工程中調用
首先新建一個MFC對話框程序(注意必須創建X64 Release工程)。然后調整整個的資源對話框如下所示:
具體包括2個picture控件(ID號分別是IDC_PIC_IN和IDC_PIC_OUT)和2個按鈕。為了能夠在這個MFC程序中加載和使用圖像,我們一樣使用opencv這個庫來完成,具體配置方法與4.2節相同。這里主要牽扯到MFC中圖像控件的圖像顯示問題。
我們下面給出關鍵的圖像選擇和顯示的代碼(熟悉MFC的讀者可以自行嘗試,代碼實現是比較簡單的)。
選擇圖像代碼:
圖像顯示代碼:
void CMFCDemoDlg::ShowImage(Mat imgSrc, HWND hwnd, CRect &rect) {//縮放Mat,以適應圖片控件大小cv::resize(imgSrc, imgSrc, cv::Size(rect.Width(), rect.Height()));// 轉換格式 ,便于獲取BITMAPINFOswitch (imgSrc.channels()){case 1:cv::cvtColor(imgSrc, imgSrc, COLOR_GRAY2BGRA); // GRAY單通道break;case 3:cv::cvtColor(imgSrc, imgSrc, COLOR_BGR2BGRA); // BGR三通道break;default:break;}// 制作bitmapinfo(數據頭)int pixelBytes = imgSrc.channels() * (imgSrc.depth() + 1);BITMAPINFO bitInfo;bitInfo.bmiHeader.biBitCount = 8 * pixelBytes;bitInfo.bmiHeader.biWidth = imgSrc.cols;bitInfo.bmiHeader.biHeight = -imgSrc.rows; //注意"-"號(正數時倒著繪制)bitInfo.bmiHeader.biPlanes = 1;bitInfo.bmiHeader.biSize = sizeof(BITMAPINFOHEADER);bitInfo.bmiHeader.biCompression = BI_RGB;bitInfo.bmiHeader.biClrImportant = 0;bitInfo.bmiHeader.biClrUsed = 0;bitInfo.bmiHeader.biSizeImage = 0;bitInfo.bmiHeader.biXPelsPerMeter = 0;bitInfo.bmiHeader.biYPelsPerMeter = 0;//繪圖HDC hdc = ::GetDC(hwnd);::StretchDIBits(hdc,0, 0, rect.Width(), rect.Height(),0, 0, imgSrc.cols, imgSrc.rows,imgSrc.data,&bitInfo,DIB_RGB_COLORS,SRCCOPY); }其中m_imgIn和m_imgOut是兩個opencv的Mat對象,在對話框頭文件中作為類內變量定義。
最終效果如下所示:
我們可以任意選擇并切換圖像顯示。
接下來就是正式的完成深度學習dll加載了。首先將前面生成的PaddleDemo.lib、PaddleDemo.dll以及自行定義的imagetool.h頭文件都拷貝到當前項目根目錄下,模型文件model文件夾也需要拷貝到當前項目 根目錄下,同時將PaddleDemo工程下的所有dll文件也拷貝到當前項目根目錄下。另外,將這些文件在當前項目的x64/Release下也拷貝一份,這樣能夠使用ctrl+f5在VS Code中直接運行了。
完整目錄如下所示:
在當前項目的“屬性—鏈接器—輸入—附加依賴項”中,添加PaddleDemo.lib庫的引用,如下圖所示:
然后在工程頭文件添加自定義頭文件引用:
接下來我們在對話框初始化函數中編寫初始化深度學習環境的代碼,如下所示:
BOOL CMFCDemoDlg::OnInitDialog() {CDialogEx::OnInitDialog();// IDM_ABOUTBOX 必須在系統命令范圍內。ASSERT((IDM_ABOUTBOX & 0xFFF0) == IDM_ABOUTBOX);ASSERT(IDM_ABOUTBOX < 0xF000);CMenu* pSysMenu = GetSystemMenu(FALSE);if (pSysMenu != nullptr){BOOL bNameValid;CString strAboutMenu;bNameValid = strAboutMenu.LoadString(IDS_ABOUTBOX);ASSERT(bNameValid);if (!strAboutMenu.IsEmpty()){pSysMenu->AppendMenu(MF_SEPARATOR);pSysMenu->AppendMenu(MF_STRING, IDM_ABOUTBOX, strAboutMenu);}}// 設置此對話框的圖標。 當應用程序主窗口不是對話框時,框架將自動// 執行此操作SetIcon(m_hIcon, TRUE); // 設置大圖標SetIcon(m_hIcon, FALSE); // 設置小圖標// TODO: 在此添加額外的初始化代碼//初始化深度學習環境int result = EnvInit();if (result < 0){MessageBox("初始化深度學習環境失敗");return false;}return TRUE; // 除非將焦點設置到控件,否則返回 TRUE }然后我們可以運行一下程序,如果不報錯誤說明深度學習模型能夠被正確加載。最后我們來完成檢測的代碼:
//檢測 void CMFCDemoDlg::OnBnClickedButtonSeg() {// TODO: 在此添加控件通知處理程序代碼//推理m_imgOut.release();m_imgOut = Mat(m_imgIn.rows, m_imgIn.cols, CV_8UC1, Scalar(0));int result = ImageProcess((char *)m_imgIn.data,(char *)m_imgOut.data,m_imgIn.rows,m_imgIn.cols);//顯示結果CRect rect;GetDlgItem(IDC_PIC_OUT)->GetClientRect(&rect);HWND hwnd2 = GetDlgItem(IDC_PIC_OUT)->GetSafeHwnd();ShowImage(m_imgOut, hwnd2, rect); }上述代碼需要注意輸入和輸出圖像的格式,需要與dll文件中的一致,否則會內存奔潰。
最終運行效果如下所示:
注意到,第一次推理速度是比較慢的,后面就很快了。因此,我們可以在初始化的時候做一下warmup(初始時就跑幾次推理),這樣后面正式推理時速度就快了。
到這里,MFC調用方法就介紹完了。實際讀者使用時需要進一步優化上述代碼,需要做一些保護操作,例如圖像如果讀取不到等等。
六、C#工程調用
本節以winform的C#程序為例子,講解如何在C#程序中調用Paddle Inference。在C#中調用Paddle Inference與第五節一樣,都是通過dll的方式調用。首先使用C++生成適合C#的dll,然后再由C#調用。
6.1基于C++的dll制作
本小節先來制作基于C++的dll。首先在項目屬性上右鍵添加模塊,然后添加一個PaddleDemo.def文件。如下圖所示:
然后在文件中申明導出模塊,這樣C#程序才能準確調用這個dll。
代碼如下:
然后我們修改自定義的imagetool.h頭文件,內容如下:
#pragma once #define DLL_API extern "C" _declspec(dllexport)最后我們修改PaddleDemo.cpp,核心代碼如下所示:
// 初始化 DLL_API int EnvInit() {try{// 創建默認配置對象paddle_infer::Config config;config.SetModel("model/model.pdmodel", "model/model.pdiparams");config.EnableUseGpu(100, 0);config.EnableMemoryOptim();//開啟tensorrt加速/*config.EnableTensorRtEngine(1 << 20, 1, 10,paddle_infer::PrecisionType::kFloat32, true, false);std::map<std::string, std::vector<int>> min_input_shape = {{"x", {1, 3, 512, 512}},{"bilinear_interp_v2_4.tmp_0", {1, 128, 32, 32}},{"bilinear_interp_v2_5.tmp_0", {1, 96, 64, 64}},{"max_2.tmp_0", {1, 1, 32, 32}},{"bilinear_interp_v2_3.tmp_0", {1, 128, 16, 16}},{"max_0.tmp_0", {1, 1, 16, 16}},{"max_3.tmp_0", {1, 1, 32, 32}},{"max_1.tmp_0", {1, 1, 16, 16}},{"mean_0.tmp_0", {1, 1, 16, 16}},{"relu_54.tmp_0", {1, 128, 16, 16}},{"relu_60.tmp_0", {1, 96, 64, 64}},{"max_4.tmp_0", {1, 1, 64, 64}},{"max_5.tmp_0", {1, 1, 64, 64}},{"mean_4.tmp_0", {1, 1, 64, 64}},{"mean_2.tmp_0", {1, 1, 32, 32}},{"relu_57.tmp_0", {1, 128, 32, 32}},};std::map<std::string, std::vector<int>> max_input_shape = {{"x", {1, 3, 512, 512}},{"bilinear_interp_v2_4.tmp_0", {1, 128, 32, 32}},{"bilinear_interp_v2_5.tmp_0", {1, 96, 64, 64}},{"max_2.tmp_0", {1, 1, 32, 32}},{"bilinear_interp_v2_3.tmp_0", {1, 128, 16, 16}},{"max_0.tmp_0", {1, 1, 16, 16}},{"max_3.tmp_0", {1, 1, 32, 32}},{"max_1.tmp_0", {1, 1, 16, 16}},{"mean_0.tmp_0", {1, 1, 16, 16}},{"relu_54.tmp_0", {1, 128, 16, 16}},{"max_4.tmp_0", {1, 1, 64, 64}},{"max_5.tmp_0", {1, 1, 64, 64}},{"mean_4.tmp_0", {1, 1, 64, 64}},{"relu_60.tmp_0", {1, 96, 64, 64}},{"mean_2.tmp_0", {1, 1, 32, 32}},{"relu_57.tmp_0", {1, 128, 32, 32}},};std::map<std::string, std::vector<int>> opt_input_shape = {{"x", {1, 3, 512, 512}},{"bilinear_interp_v2_4.tmp_0", {1, 128, 32, 32}},{"bilinear_interp_v2_5.tmp_0", {1, 96, 64, 64}},{"max_2.tmp_0", {1, 1, 32, 32}},{"bilinear_interp_v2_3.tmp_0", {1, 128, 16, 16}},{"max_0.tmp_0", {1, 1, 16, 16}},{"max_3.tmp_0", {1, 1, 32, 32}},{"max_1.tmp_0", {1, 1, 16, 16}},{"mean_0.tmp_0", {1, 1, 16, 16}},{"relu_54.tmp_0", {1, 128, 16, 16}},{"max_4.tmp_0", {1, 1, 64, 64}},{"max_5.tmp_0", {1, 1, 64, 64}},{"mean_4.tmp_0", {1, 1, 64, 64}},{"relu_60.tmp_0", {1, 96, 64, 64}},{"mean_2.tmp_0", {1, 1, 32, 32}},{"relu_57.tmp_0", {1, 128, 32, 32}},};config.SetTRTDynamicShapeInfo(min_input_shape, max_input_shape,opt_input_shape);*///創建預測器g_predictor = paddle_infer::CreatePredictor(config);//定義預處理均值和方差g_fmean.push_back(0.5);g_fmean.push_back(0.5);g_fmean.push_back(0.5);g_fstd.push_back(0.5);g_fstd.push_back(0.5);g_fstd.push_back(0.5);return 1;}catch (...) // 捕獲所有異常{return -1;} }// 圖像推理 DLL_API int ImageProcess(uchar* pDataIn, int width, int height, int stride, uchar* pDataOut, size_t& size) {Mat img = Mat(height,width, CV_8UC3, pDataIn, stride).clone();Mat mask = Mat(height, width, CV_8UC1);//開始推理predict(img, mask);// 圖像數據導出std::vector<uchar> buf;cv::imencode(".bmp", mask, buf);size = buf.size();for (uchar& var : buf){*pDataOut = var;pDataOut++;}//釋放img.release();mask.release();std::vector<uchar>(buf).swap(buf);return 1; }這里尤其要注意推理函數ImageProcess的寫法,這種寫法可以保證將來C#能夠通過圖像內存地址的方式傳遞數據。
最后重新生成項目解決方案即可得到對應的PaddleDemo.dll和PaddleDemo.lib。對于C#調用來說,只需要PaddleDemo.dll這個文件即可。
6.2 C#中調用dll
首先我們新建一個基于C#的winform程序,然后生成平臺改成Release X64。然后我們將前面生成的PaddleDemo.dll以及所有相關的dll以及存放模型的model文件夾在項目本地和x64/Release文件夾下都拷貝一份。
整個C#工程界面設計如下(2個picturebox控件以及兩個按鈕控件):
選擇圖片相關代碼主要實現圖片的本地選擇和讀取顯示,代碼如下:
接下來我們在對話框類初始化函數中調用dll 的EnvInit函數實現深度學習模型的讀取加載,代碼如下:
[DllImport("PaddleDemo.dll")]private extern static int EnvInit();[DllImport("PaddleDemo.dll")]private extern static int ImageProcess(byte []pDataIn,int width, int height, int stride, ref byte pDataOut, out ulong size);public l(){InitializeComponent();int result = EnvInit();if (result < 0){MessageBox.Show("深度學習環境加載失敗");}}注意上述代碼中我們將dll中的兩個接口函數全部引用了進來,這里需要關注這種接口引用方式。
最后我們完成檢測按鈕的代碼:
private void button_detect_Click(object sender, EventArgs e){//輸入數據(強轉為BGR格式)BitmapData imgData = m_ImgIn.LockBits(new Rectangle(0, 0, m_ImgIn.Width, m_ImgIn.Height), ImageLockMode.ReadWrite,PixelFormat.Format24bppRgb);int width = imgData.Width;int height = imgData.Height;int stride = imgData.Stride;IntPtr ptr = imgData.Scan0;// Declare an array to hold the bytes of the bitmap. int bytesLength = Math.Abs(imgData.Stride) * m_ImgIn.Height;//圖像的Stridebyte[] buffer = new byte[bytesLength];// Copy the RGB values into the array.Marshal.Copy(ptr, buffer, 0, bytesLength);//MessageBox.Show(stride.ToString());//輸出數據byte[] ptrData = new byte[1024 * 1024 * 3]; //盡可能大的byte[],一般大于顯示的最大圖片內存即可ulong size = new ulong(); //推理int result = ImageProcess(buffer, width, height,stride, ref ptrData[0], out size);if (result < 0){MessageBox.Show("圖像優化失敗 原因:" + result.ToString());return;}m_ImgOut = (Bitmap)Image.FromStream(new MemoryStream(ptrData, 0, (int)size));Bitmap img = KiResizeImage(m_ImgOut, pictureBoxOut.Size.Width, pictureBoxOut.Size.Height);pictureBoxOut.Image = img;m_ImgIn.UnlockBits(imgData);}最終效果如下所示:
七、完整代碼鏈接
所有代碼均放在了百度網盤上,讀者可以自行下載:
鏈接: https://pan.baidu.com/s/1nIZXe65VXKBTtcOypsLIXA 提取碼: avm6
總結
以上是生活随笔為你收集整理的一文掌握面向Windows平台的深度学习工控程序开发(使用Paddle Inference部署MFC、C#程序,内含完整代码链接)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一个牛人给JAVA初学者的建议【转】
- 下一篇: 新科高德发布2009.03版电子眼升级数