生活随笔
收集整理的這篇文章主要介紹了
C与CUDA混合编程的配置问题
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
C與CUDA混合編程的配置問題
2015-10-05 19:58 526人閱讀 收藏 舉報
分類: CUDA(6)
目錄(?)[+]
原文: http://blog.csdn.net/u012234115/article/details/34860273
在做項目集成的時候需要用到cpp和cuda文件聯調,自己摸索了兩種方式實現cpp和cu文件混合編譯。
本文環境:
- windows7 64位
- VS2010
- CUDA5.5
- 英偉達顯卡Tesla C1060
前言
裝好CUDA 5.5 sdk后,默認會自動添加好系統環境變量。
因此不需要額外配置,不過為了保險起見,可以選擇性地添加以下環境變量:
CUDA_BIN_PATH %CUDA_PATH%\bin
CUDA_LIB_PATH %CUDA_PATH%\lib\Win32
CUDA_SDK_BIN %CUDA_SDK_PATH%\bin\Win32
CUDA_SDK_LIB %CUDA_SDK_PATH%\common\lib\Win32
CUDA_SDK_PATH C:\cuda\cudasdk\common 這時可以打開CUDA自帶的sample運行一下,運行能通過才可以繼續下面的內容————cpp和cuda聯調。
方法一:先建立cuda工程,再添加cpp文件
1.打開vs2010,新建一個cuda項目,名稱CudaCpp。
2.cuda默認建立的工程是如下,實現了兩個一維向量的并行相加。kernel函數和執行函數還有main函數全都寫在了一個cu文件里。
3.接下來在工程里添加一個空的cpp文件。將原來cu文件里main函數里的內容剪切到cpp文件main函數里。
為了讓cpp能夠調用cu文件里面的函數,在addWithCuda函數前加上extern "C"?關鍵字 ?(注意C大寫,為什么addKernel不用加呢?因為cpp里面直接調用的是addWithCuda)
4.在cpp里也要加上addWithCuda函數的完整前向聲明。下圖就是工程的完整結構
5.可以在cpp里的main函數return之間加入getchar()防止運行后一閃就退出,加上system("pause")或者直接ctrl+F5也行。
運行結果:
下面貼出CudaCpp項目代碼。
kernel.cu
[plain]?view plaincopy
#include?"cuda_runtime.h"?? #include?"device_launch_parameters.h"?? ?? #include?<stdio.h>?? ?? __global__?void?addKernel(int?*c,?const?int?*a,?const?int?*b)?? {?? ????int?i?=?threadIdx.x;?? ????c[i]?=?a[i]?+?b[i];?? }?? //?Helper?function?for?using?CUDA?to?add?vectors?in?parallel.?? extern?"C"?? cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?unsigned?int?size)?? {?? ????int?*dev_a?=?0;?? ????int?*dev_b?=?0;?? ????int?*dev_c?=?0;?? ????cudaError_t?cudaStatus;?? ?? ????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.?? ????cudaStatus?=?cudaSetDevice(0);?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");?? ????????goto?Error;?? ????}?? ?? ????//?Allocate?GPU?buffers?for?three?vectors?(two?input,?one?output)????.?? ????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMalloc?failed!");?? ????????goto?Error;?? ????}?? ?? ????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMalloc?failed!");?? ????????goto?Error;?? ????}?? ?? ????cudaStatus?=?cudaMalloc((void**)&dev_b,?size?*?sizeof(int));?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMalloc?failed!");?? ????????goto?Error;?? ????}?? ?? ????//?Copy?input?vectors?from?host?memory?to?GPU?buffers.?? ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMemcpy?failed!");?? ????????goto?Error;?? ????}?? ?? ????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof(int),?cudaMemcpyHostToDevice);?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMemcpy?failed!");?? ????????goto?Error;?? ????}?? ?? ????//?Launch?a?kernel?on?the?GPU?with?one?thread?for?each?element.?? ????addKernel<<<1,?size>>>(dev_c,?dev_a,?dev_b);?? ?? ????//?Check?for?any?errors?launching?the?kernel?? ????cudaStatus?=?cudaGetLastError();?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"addKernel?launch?failed:?%s\n",?cudaGetErrorString(cudaStatus));?? ????????goto?Error;?? ????}?? ?????? ????//?cudaDeviceSynchronize?waits?for?the?kernel?to?finish,?and?returns?? ????//?any?errors?encountered?during?the?launch.?? ????cudaStatus?=?cudaDeviceSynchronize();?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaDeviceSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);?? ????????goto?Error;?? ????}?? ?? ????//?Copy?output?vector?from?GPU?buffer?to?host?memory.?? ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMemcpy?failed!");?? ????????goto?Error;?? ????}?? ?? Error:?? ????cudaFree(dev_c);?? ????cudaFree(dev_a);?? ????cudaFree(dev_b);?? ?????? ????return?cudaStatus;?? }?? main.cpp
[cpp]?view plaincopy
#include?<stdio.h>?? #include?"cuda_runtime.h"?? #include?"device_launch_parameters.h"?? ?? extern?"C"?? ????cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?unsigned?int?size);?? int?main()?? {?? ????const?int?arraySize?=?5;?? ????const?int?a[arraySize]?=?{?1,?2,?3,?4,?5?};?? ????const?int?b[arraySize]?=?{?10,?20,?30,?40,?50?};?? ????int?c[arraySize]?=?{?0?};?? ?? ?????? ????cudaError_t?cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"addWithCuda?failed!");?? ????????return?1;?? ????}?? ?? ????printf("{1,2,3,4,5}?+?{10,20,30,40,50}?=?{%d,%d,%d,%d,%d}\n",?? ????????c[0],?c[1],?c[2],?c[3],?c[4]);?? ????printf("cuda工程中調用cpp成功!\n");?? ?? ?????? ?????? ????cudaStatus?=?cudaDeviceReset();?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaDeviceReset?failed!");?? ????????return?1;?? ????}?? ????getchar();??? ????return?0;?? }??
方法二:先建立cpp工程,再添加cu文件
方法一由于是cuda工程是自動建立的,所以比較簡單,不需要多少額外的配置。而在cpp工程里面添加cu就要復雜一些。為了簡單起見,這里采用console程序講解,至于MFC或者Direct3D程序同理。
1.建立一個空的win32控制臺工程,名稱CppCuda。
2.然后右鍵工程-->添加一個cu文件
3.將方法一中cu和cpp文件的代碼分別拷貝到這個工程里來(做了少許修改,extern "C"關鍵字和某些頭文件不要忘了加),工程結構如圖:
這個時候編譯是通不過的,需要作一些配置。
4.關鍵的一步,右鍵工程-->生成自定義 ,將對話框中CUDA5.5前面的勾打上。
這時點擊 工程-->屬性,會發現多了CUDA鏈接器這一項。
5.關鍵的一步,右鍵kernel.cu文件-->屬性,在 常規-->項類型 里面選擇CUDA C/C++(由于cu文件是由nvcc編譯的,這里要修改編譯鏈接屬性)
6.工程-->屬性-->鏈接器-->附加依賴項,加入cudart.lib
7.工具-->選項-->文本編輯器-->文件擴展名 添加cu \cuh兩個文件擴展名
8.至此配置成功。運行一下:
9.為了更加確信cuda中的函數確實被調用,在main.cpp里面調用cuda函數的地方加入了一個斷點。
單步執行一下。
可以看到程序跳到了cu文件里去執行了,說明cpp調用cuda函數成功。
貼上代碼(其實跟方式一基本一樣,沒怎么改),工程CppCuda
kernel.cu
[plain]?view plaincopy
#include?"cuda_runtime.h"?? #include?"device_launch_parameters.h"?? ?? #include?<stdio.h>?? ?? //cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?unsigned?int?size);?? __global__?void?addKernel(int?*c,?const?int?*a,?const?int?*b)?? {?? ????int?i?=?threadIdx.x;?? ????c[i]?=?a[i]?+?b[i];?? }?? //?Helper?function?for?using?CUDA?to?add?vectors?in?parallel.?? extern?"C"?? cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?unsigned?int?size)?? {?? ????int?*dev_a?=?0;?? ????int?*dev_b?=?0;?? ????int?*dev_c?=?0;?? ????cudaError_t?cudaStatus;?? ?? ????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.?? ????cudaStatus?=?cudaSetDevice(0);?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");?? ????????goto?Error;?? ????}?? ?? ????//?Allocate?GPU?buffers?for?three?vectors?(two?input,?one?output)????.?? ????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMalloc?failed!");?? ????????goto?Error;?? ????}?? ?? ????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMalloc?failed!");?? ????????goto?Error;?? ????}?? ?? ????cudaStatus?=?cudaMalloc((void**)&dev_b,?size?*?sizeof(int));?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMalloc?failed!");?? ????????goto?Error;?? ????}?? ?? ????//?Copy?input?vectors?from?host?memory?to?GPU?buffers.?? ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMemcpy?failed!");?? ????????goto?Error;?? ????}?? ?? ????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof(int),?cudaMemcpyHostToDevice);?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMemcpy?failed!");?? ????????goto?Error;?? ????}?? ?? ????//?Launch?a?kernel?on?the?GPU?with?one?thread?for?each?element.?? ????addKernel<<<1,?size>>>(dev_c,?dev_a,?dev_b);?? ?? ????//?Check?for?any?errors?launching?the?kernel?? ????cudaStatus?=?cudaGetLastError();?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"addKernel?launch?failed:?%s\n",?cudaGetErrorString(cudaStatus));?? ????????goto?Error;?? ????}?? ?????? ????//?cudaDeviceSynchronize?waits?for?the?kernel?to?finish,?and?returns?? ????//?any?errors?encountered?during?the?launch.?? ????cudaStatus?=?cudaDeviceSynchronize();?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaDeviceSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);?? ????????goto?Error;?? ????}?? ?? ????//?Copy?output?vector?from?GPU?buffer?to?host?memory.?? ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMemcpy?failed!");?? ????????goto?Error;?? ????}?? ?? Error:?? ????cudaFree(dev_c);?? ????cudaFree(dev_a);?? ????cudaFree(dev_b);?? ?????? ????return?cudaStatus;?? }?? main.cpp
[cpp]?view plaincopy
#include?<iostream>?? #include?"cuda_runtime.h"?? #include?"device_launch_parameters.h"?? using?namespace?std;?? ?? extern?"C"?? ????cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?unsigned?int?size);?? int?main(int?argc,char?**argv)?? {?? ????const?int?arraySize?=?5;?? ????const?int?a[arraySize]?=?{?1,?2,?3,?4,?5?};?? ????const?int?b[arraySize]?=?{?10,?20,?30,?40,?50?};?? ????int?c[arraySize]?=?{?0?};?? ?? ?????? ????cudaError_t?cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"addWithCuda?failed!");?? ????????return?1;?? ????}?? ?? ????cout<<"{1,2,3,4,5}?+?{10,20,30,40,50}?=?{"<<c[0]<<','<<c[1]<<','<<c[2]<<','<<c[3]<<'}'<<endl;?? ????printf("cpp工程中調用cu成功!\n");?? ?? ?????? ?????? ????cudaStatus?=?cudaDeviceReset();?? ????if?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaDeviceReset?failed!");?? ????????return?1;?? ????}?? ????system("pause");??? ????return?0;?? }?? 注意有時候編譯出問題,把??"device_launch_parameters.h"?這個頭文件去掉就好了(去掉之后就不能調里面的函數或變量了),至于為什么,還不是很清楚。
總結
以上是生活随笔為你收集整理的C与CUDA混合编程的配置问题的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。