久久精品国产精品国产精品污,男人扒开添女人下部免费视频,一级国产69式性姿势免费视频,夜鲁夜鲁很鲁在线视频 视频,欧美丰满少妇一区二区三区,国产偷国产偷亚洲高清人乐享,中文 在线 日韩 亚洲 欧美,熟妇人妻无乱码中文字幕真矢织江,一区二区三区人妻制服国产

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CUDA编程指南阅读笔记

發布時間:2025/3/15 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CUDA编程指南阅读笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

隨著多核CPU和眾核GPU的到來,并行編程已經得到了業界越來越多的重視,CPU-GPU異構程序能夠極大提高現有計算機系統的運算性能,對于科學計算等運算密集型程序有著非常重要的意義。這一系列文章是根據《CUDA C語言編程指南》來整理的,該指南是NVIDIA公司提供的CUDA學習資料,介紹了CUDA編程最基本最核心的概念,是學習CUDA必不可少的閱讀材料。

初學CUDA,筆記錯誤之處在所難免,還請

隨著多核CPU和眾核GPU的到來,并行編程已經得到了業界越來越多的重視,CPU-GPU異構程序能夠極大提高現有計算機系統的運算性能,對于科學計算等運算密集型程序有著非常重要的意義。這一系列文章是根據《CUDA C語言編程指南》來整理的,該指南是NVIDIA公司提供的CUDA學習資料,介紹了CUDA編程最基本最核心的概念,是學習CUDA必不可少的閱讀材料。

初學CUDA,筆記錯誤之處在所難免,還請發現問題的諸位讀者不吝賜教。

1. 什么是CUDA?

CUDA全稱是Compute Unified Device Architecture,中文名稱即統一計算設備架構,它是NVIDIA公司提出了一種通用的并行計算平臺和編程模型。使用CUDA,我們可以開發出同時在CPU和GPU上運行的通用計算程序,更加高效地利用現有硬件進行計算。為了簡化并行計算學習,CUDA為程序員提供了一個類C語言的開發環境以及一些其它的如FORTRAN、DirectCOmpute、OpenACC的高級語言/編程接口來開發CUDA程序。

2. CUDA編程模型如何擴展?

我們知道,不同的GPU擁有不同的核心數目,在核心較多的系統上CUDA程序運行的時間較短,而在核心較少的系統上CUDA程序的執行時間較多。那么,CUDA是如何做到的呢? 并行編程的中心思想是分而治之:將大問題劃分為一些小問題,再把這些小問題交給相應的處理單元并行地進行處理。在CUDA中,這一思想便體現在它的具有兩個層次的問題劃分模型。一個問題可以首先被粗粒度地劃分為若干較小的子問題,CUDA使用被稱為塊(Block)的單元來處理它們,每個塊都由一些CUDA線程組成,線程是CUDA中最小的處理單元,將這些較小的子問題進一步劃分為若干更小的細粒度的問題,我們便可以使用線程來解決這些問題了。對于一個普通的NVIDIA GPU,其CUDA線程數目通常能達到數千個甚至更多,因此,這樣的問題劃分模型便可以成倍地提升計算機的運算性能。 GPU是由多個流水多處理器構成的,流水處理器以塊(Block)為基本調度單元,因此,對于流水處理器較多的GPU,它一次可以處理的塊(Block)更多,從而運算速度更快,時間更短。而反之對于流水處理器較少的GPU,其運算速度便會較慢。這一原理可以通過下圖形象地看出來:

3. CUDA基本概念

本節將介紹CUDA的一些基本的編程概念,該節用到的例子來自于CUDA Sample中的VectorAdd項目。

3.1 內核(Kernels)

CUDA C是C語言的一個擴展,它允許程序員定義一種被稱為內核函數(Kernel Functions)的C函數,內核函數運行在GPU上,一旦啟動,CUDA中的每一個線程都將會同時并行地執行內核函數中的代碼。

內核函數使用關鍵字__global__來聲明,運行該函數的CUDA線程數則通過<<<...>>>執行配置語法來設置。(參見章節"C語言擴展"),每一個執行內核函數的線程都由一個唯一的線程ID,這一ID可以通過在內核函數中訪問threadIdx變量來得到。

下面通過一些示例代碼來展示剛剛提到的這些概念該如何應用在編程中:

[cpp] view plaincopy
  • //?Kernel?definition????
  • __global__?void?VecAdd(float*?A,?float*?B,?float*?C)?{????
  • ????int?i?=?threadIdx.x;????
  • ????C[i]?=?A[i]?+?B[i];????
  • }????
  • ????
  • int?main()?{????
  • ????...????
  • ????//?Kernel?invocation?with?N?threads????
  • ????VecAdd<<<1,?N>>>(A,?B,?C);????
  • ???...????
  • }???
  • 在上面的代碼中,N個線程將會并行地同時執行加法運算。

    3.2 線程層次(Thread Hierarchy)

    CUDA的每一個線程都有其線程ID,線程的ID信息由變量threadIdx給出。threadIdx是CUDA C語言的內建變量,通常它用一個三維數組來表示。使用三維數組的方便之處在于可以很方便地表示一維、二維和三維線程索引,進而方便地表示一維、二維和三維線程塊(thread block)。這樣,無論是數組、矩陣還是體積的計算,都可以很容易地使用CUDA進行運算。 線程的索引與線程ID之間存在著直接的換算關系,對于一個索引為(x, y, z)的線程來說: ? ? ? 1、如果線程塊(block)是一維的,則線程ID = x ? ? ? 2、如果線程塊是二維的,假設塊尺寸為(Dx,Dy),那么線程ID = x + y * Dx ? ? ? 3、如果線程塊是三維的,設其尺寸為(Dx,Dy,Dz),那么線程ID = x + y * Dx + z * Dx * Dy ? ? ? 下面的例子展示了兩個NxN矩陣相加的CUDA實現: [cpp] view plaincopy
  • //?Kernel?definition????
  • __global__?void?MatAdd(float?A[N][N],?float?B[N][N],?float?C[N][N])?{????
  • ????int?i?=?threadIdx.x;????
  • ????int?j?=?threadIdx.y;????
  • ????C[i][j]?=?A[i][j]?+?B[i][j];????
  • }????
  • ????
  • int?main()?{????
  • ????...????
  • ????//?Kernel?invocation?with?one?block?of?N?*?N?*?1?threads????
  • ????int?numBlocks?=?1;????
  • ????dim3?threadsPerBlock(N,?N);????
  • ????MatAdd<<<numBlocks,?threadsPerBlock>>>(A,?B,?C);????
  • ????...????
  • }????
  • 每個線程塊(block)中的線程數量是有限制的,因為依據前面所說,同一線程塊(block)中的所有線程都會被分配到同一個處理器核上運行,共享有限的存儲資源,因此對于當前的GPU,線程塊所能包含的最大線程數目為1024。 上面的例子中numBlocks代表線程塊的數量,這里的值為1。在一般的CUDA程序中,這個值通常大于1,也就是說將會有多個線程塊被分配到多個處理器核中同時進行處理,這樣就大大提高了程序的并行性。
    在CUDA中,線程塊包含在線程格(grid)當中,線程格可以是一維、二維或者三維的,線程格的尺寸一般根據待處理數據的規模或者處理器的數量來指定。線程格中所包含的線程塊數目通常遠遠大于GPU處理器核心的數目。下圖展示了線程格(grid)、線程塊(block)以及線程(thread)之間的關系:
    內核函數的調用可以簡化為kernel<<<A,B>>>(parameters),在尖括號中,A代表線程格(grid)的尺寸,它可以是三維的,用類型dim3表示,也可以是一維的,用int類型表示。B代表線程塊(block)的尺寸,它與A類似,也可分別用dim3或int類型表示。 在內核函數內部,CUDA為我們內建了一些變量用于訪問線程格、線程塊的尺寸和索引等信息,它們是: 1. gridDim:代表線程格(grid)的尺寸,gridDim.x為x軸尺寸,gridDim.y、gridDim.z類似。拿上圖來說,它的gridDim.x = 3,gridDim.y = 2,gridDim.z = 1。 2. blockIdx:代表線程塊(block)在線程格(grid)中的索引值,拿上圖來說,Block(1,1)的索引值為:blockIdx.x = 1,blockIdx.y = 1。 3. blockDim:代表線程塊(block)的尺寸,blockDIm.x為x軸尺寸,其它依此類推。拿上圖來說,注意到Block(1,1)包含了4 * 3個線程,因此blockDim.x = 4, blockDim.y = 3。 4. threadIdx:線程索引,前面章節已經詳細探討過了,這里不再贅述。 明白了這些變量的含義,那么下面的矩陣加法程序便不難理解了: [cpp] view plaincopy
  • //?Kernel?definition????
  • __global__?void?MatAdd(float?A[N][N],?float?B[N][N],?float?C[N][N])?{????
  • ????int?i?=?blockIdx.x?*?blockDim.x?+?threadIdx.x;????
  • ????int?j?=?blockIdx.y?*?blockDim.y?+?threadIdx.y;????
  • ????if?(i?<?N?&&?j?<?N)????
  • ????????C[i][j]?=?A[i][j]?+?B[i][j];????
  • }????
  • ????
  • int?main()?{????
  • ????...????
  • ????//?Kernel?invocation????
  • ????dim3?threadsPerBlock(16,?16);????
  • ????dim3?numBlocks(N?/?threadsPerBlock.x,?N?/?threadsPerBlock.y);????
  • ????MatAdd<<<numBlocks,?threadsPerBlock>>>(A,?B,?C);????
  • ????...????
  • }??
  • 在上面的程序中,線程塊(block)的尺寸是16x16,這是CUDA編程中一個非常普遍的選擇。線程格(grid)包含了足夠多的線程塊(block)來進行計算。 線程塊(block)是獨立執行的,在執行的過程中線程塊之間互不干擾,因此它們的執行順序是隨機的。 同一線程塊中的線程可以通過訪問共享內存(shared memory)或者通過同步函數__syncthreads()來協調合作。這些概念將在以后的章節中詳細解釋。

    3.3 內存層次(Memory Hierarchy)

    在GPU上CUDA線程可以訪問到的存儲資源有很多,每個CUDA線程擁有獨立的本地內存(local Memory);每一個線程塊(block)都有其獨立的共享內存(shared memory),共享內存對于線程塊中的每個線程都是可見的,它與線程塊具有相同的生存時間;同時,還有一片稱為全局內存(global memory)的區域對所有的CUDA線程都是可訪問的。

    除了上述三種存儲資源以外,CUDA還提供了兩種只讀內存空間:常量內存(constant memory)紋理內存(texture memory),同全局內存類似,所有的CUDA線程都可以訪問它們。對于一些特殊格式的數據,紋理內存提供多種尋址模式以及數據過濾方法來操作內存。這兩類存儲資源主要用于一些特殊的內存使用場合。

    一個程序啟動內核函數以后,全局內存、常量內存以及紋理內存將會一直存在直到該程序結束。下面是CUDA的內存層次圖:


    3.4 異構編程(Heterogeneous Programming)

    CUDA的異構編程模型假定CUDA線程都運行在一個可被看做CPU協處理器的芯片上,這就使得CUDA內核函數可以和CPU端C程序的運行并行運行,從而加快程序的運行效率。為了達到這個效果,CUDA程序需要管理兩大塊由DRAM構成的內存區域:CPU端可以訪問到的主機內存(host memory)以及GPU端供CUDA內核訪問到的設備內存(device memory),設備內存主要由全局內存、常量內存以及紋理內存構成。現在,CUDA程序的運行機制便很明了了:CPU端代碼生成原始數據,通過CUDA運行時函數庫將這些原始數據傳輸到GPU上,在CPU端啟動CUDA內核函數進行運算,然后將運算結果從設備端傳輸到主機端,計算任務便完成了。

    4.?CUDA C語言編程接口

    異構程序設計跟傳統的串行程序設計差別是很大的,學習起來也是非常不容易的。NVIDIA非常夠意思,為了簡化CUDA的學習曲線,它采用了絕大多數程序員都熟悉的C語言作為其根基,CUDA C是NVIDIA為程序員提供的一類編程接口,它實際上是一個C語言的擴展,在C的基礎上增加了一些新的語法和變量,并且提供了功能豐富的庫函數,方便程序員使用GPU進行異構計算。 除了前面章節提到的CUDA最基本、最核心的概念以外,CUDA C呈現給程序員的接口主要由兩大類API構成,它們分別是CUDA Runtime API和CUDA Driver API,Runtime API實際上是對于Driver API的封裝,其目的自然是方便程序員的代碼編寫工作。Driver API為用戶提供了更細一層的控制手段,通過它可以控制諸如CUDA Contexts(一種類似主機進程的概念)以及CUDA Modules(類似主機動態加載庫的概念)等更加底層的CUDA模塊。

    4.1 NVCC編譯器

    任何一種程序設計語言都需要相應的編譯器將其編譯為二進制代碼,進而在目標機器上得到執行。對于異構計算而言,這一過程與傳統程序設計語言是有一些區別的。為什么?因為CUDA它本質上不是一種語言,而是一種異構計算的編程模型,使用CUDA C寫出的代碼需要在兩種體系結構完全不同的設備上執行:1、CPU;2、GPU。因此,CUDA C的編譯器所做的工作就有點略多了。一方面,它需要將源代碼中運行在GPU端的代碼編譯得到能在CUDA設備上運行的二進制程序。另一方面,它也需要將源代碼中運行在CPU端的程序編譯得到能在主機CPU上運行的二進制程序。最后,它需要把這兩部分有機地結合起來,使得兩部分代碼能夠協調運行。 CUDA C為我們提供了這樣的編譯器,它便是NVCC。嚴格意義上來講,NVCC并不能稱作編譯器,NVIDIA稱其為編譯器驅動(Compiler Driver),本節我們暫且使用編譯器來描述NVCC。使用nvcc命令行工具我們可以簡化CUDA程序的編譯過程,NVCC編譯器的工作過程主要可以劃分為兩個階段:離線編譯(Offline Compilation)和即時編譯(Just-in-Time Compilation)。 離線編譯(Offline Compilation) ? ? 下面這幅圖簡單說明了離線編譯的過程:

    ? ? ? ? 在CUDA源代碼中,既包含在GPU設備上執行的代碼,也包括在主機CPU上執行的代碼。因此,NVCC的第一步工作便是將二者分離開來,這一過程結束之后: ? ? ? ? 1. 運行于設備端的代碼將被NVCC工具編譯為PTX代碼(GPU的匯編代碼)或者cubin對象(二進制GPU代碼); ? ? ? ? 2. 運行于主機端的代碼將被NVCC工具改寫,將其中的內核啟動語法(如<<<...>>>)改寫為一系列的CUDA Runtime函數,并利用外部編譯工具(gcc for linux,或者vc compiler for windows)來編譯這部分代碼,以得到運行于CPU上的可執行程序。 ? ? ? ? 完事之后,NVCC將自動把輸出的兩個二進制文件鏈接起來,得到異構程序的二進制代碼。 即時編譯(Just-in-time Compile) ? ? ? ? 任何在運行時被CUDA程序加載的PTX代碼都會被顯卡的驅動程序進一步編譯成設備相關的二進制可執行代碼。這一過程被稱作即時編譯(just-in-time compilation)。即時編譯增加了程序的裝載時間,但是也使得編譯好的程序可以從新的顯卡驅動中獲得性能提升。同時到目前為止,這一方法是保證編譯好的程序在還未問世的GPU上運行的唯一解決方案。 ? ? ? ? 在即時編譯的過程中,顯卡驅動將會自動緩存PTX代碼的編譯結果,以避免多次調用同一程序帶來的重復編譯開銷。NVIDIA把這部分緩存稱作計算緩存(compute cache),當顯卡驅動升級時,這部分緩存將會自動清空,以使得程序能夠自動獲得新驅動為即時編譯過程帶來的性能提升。 ? ? ? ? 有一些環境變量可以用來控制即時編譯過程: ? ? ? ? 1. 設置CUDA_CACHE_DISABLE為1將會關閉緩存功能 ? ? ? ? 2. CUDA_CACHE_MAXSIZE變量用于指定計算緩存的字節大小,默認情況下它的值是32MB,它最大可以被設置為4GB。任何大于緩存最大值得二進制代碼將不會被緩存。在需要的情況下,一些舊的二進制代碼可能被丟棄以騰出空間緩存新的二進制代碼。 ? ? ? ? 3. CUDA_CACHE_PATH變量用于指定計算緩存的存儲目錄地址,它的缺省值如下:
    ? ? ? ? 4. 設置CUDA_FORCE_PTX_JIT為1會強制顯卡驅動忽略應用程序中的二進制代碼并且即時編譯程序中的嵌入PTX代碼。如果一個內核函數沒有嵌入的PTX代碼,那么它將會裝載失敗。該變量可以用來確認程序中存在嵌入的PTX代碼。同時,使用即時編譯(just-in-time Compilation)技術也可確保程序的向前兼容性。

    4.2 兼容性

    ? ? ??1、二進制兼容性 ? ? ? 二進制代碼是設備相關的,使用NVCC編譯器編譯時,若指定-code選項,則會編譯產生目標設備的二進制cubin對象。例如,編譯時使用-code=sm_13會產生適用于計算能力1.3的二進制代碼。二進制代碼在CUDA計算設備上具有小版本的向前兼容性,但是在大版本上不具備兼容性。也就是說,對于計算能力X.y的硬件,使用-code=sm_Xy編譯后,程序能夠運行于計算能力X.z(其中z>=y)的硬件上,但不能運行在計算能力M.n(M!=X)的硬件上。 ? ? ??2、PTX代碼兼容性 ? ? ? 不同計算能力的設備所支持的PTX指令條數是不同的,一些PTX指令只在擁有較高計算能力的設備上被支持。例如,全局內存(global Memory)的原子操作指令只能用于計算能力不小于1.1的設備;雙精度浮點運算指令只能用于計算能力不小于1.3的設備。在將C語言編譯為PTX代碼時,NVCC使用-arch編譯選項指定PTX代碼目標設備的計算能力。因此,要想使用雙精度運算,編譯時必須使用選項-arch=sm_13(或使用更高的計算能力),否則NVCC會自動將雙精度操作降級為單精度操作。 ? ? ? 為某一特定設備產生的PTX代碼,在運行時總是能夠被具有更高計算能力的設備JIT編譯為可執行的二進制代碼。 ? ? ? 3、應用程序兼容性 ? ? ? 執行CUDA程序有兩種方式,一種是直接加載編譯好的CUDA二進制代碼運行,另一種是首先加載程序中的PTX代碼,再執行JIT編譯得到二進制的設備可執行文件,然后運行。特別需要注意的是,為了讓程序運行具有更高計算能力的未來設備上,必須讓程序加載PTX代碼。 ? ? ? 事實上,在一個CUDA C程序中可以嵌入不止一個版本的PTX/二進制代碼。那么,具體執行時哪一個版本的PTX或者二進制代碼會得到執行呢?答案是:最兼容的那個版本。例如編譯一個名為x.cu的CUDA源代碼:
    將會產生兼容計算能力1.1硬件的二進制代碼(第一排的-gencode選項)以及兼容計算能力1.1設備的PTX和二進制代碼,這些代碼都將會嵌入到編譯后的目標文件中。 ? ? ? 主機端將會產生一些額外的代碼,在程序運行時,這些代碼會自動決定裝載哪一個版本的代碼來執行。對于上面的例子:
    • 計算能力1.0的設備運行該程序將會裝載1.0版本的二進制代碼
    • 計算能力1.1、1.2或者1.3的設備運行該程序將會裝載1.1版本的二進制代碼
    • 計算能力2.0或者更高的設備運行該程序將會裝載1.1版本的PTX代碼進而對其進行JIT編譯得到相應設備的二進制代碼
    ? ? ??同時,x.cu還可以在程序中使用一些特殊的宏來改變不同設備的代碼執行路徑。例如,對于計算能力1.1的設備而言,宏__CUDA_ARCH__等于110,在程序中可以對該宏的值進行判斷,然后分支執行程序。 ? ? ? NVCC用戶手冊列出了很多-arch,-code和-gencode等編譯選項的簡化書寫形式。例如,-arch=sm_13就是-arch=compute_13 -code=compute13, sm_13的簡化形式。更多詳盡的內容請參閱該手冊。 ? ? ? 4、C/C++兼容性 ? ? ? NVCC編譯器前端使用C++語法啊規則來處理CUDA源文件。在主機端,CUDA支持完整的C++語法;而在設備端,只有部分C++語法是被支持的。這方面更為詳盡的討論請參見《CUDA C程序設計指南》的C/C++語言支持章節。 ? ? ? 5、64位兼容性 ? ? ? 64位版本的nvcc編譯器將設備代碼編譯為64位模式,即指針是64位的。運行64位設備代碼的先決條件是主機端代碼必須也使用64位模式進行編譯。同樣,32位版本的nvcc將設備代碼編譯為32位模式,這些代碼也必須與相應的32位主機端代碼相配合方能運行。 ? ? ? 32位nvcc編譯器可以使用-m64編譯選項將設備代碼編譯為64位模式。同時64位nvcc編譯器也可使用-m32編譯選項將設備代碼編譯為32位模式。

    4.3 CUDA C Runtime

    ? ? ? ? CUDA C Runtime使用cudart動態鏈接庫實現(cudart.dll或者cudart.so),運行時中所有的入口函數都以cuda為前綴。

    4.3.1 初始化

    CUDA C Runtime函數庫沒有明確的初始化函數,在程序第一次調用Runtime庫函數時它會自動初始化。因此,在記錄Runtime函數調用時間和理解程序中第一個Runtime調用返回的錯誤代碼時,需要將初始化考慮在內。 ? ? ? ? 在初始化期間,Runtime將會為系統中每一個設備創建一個CUDA上下文(類似CPU中進程的數據結構),這個上下文是設備的基本上下文,它被程序中所有的主機線程所共享。創建過程在后臺運行,并且,Runtime將隱藏基本上下文使之對Runtime API這一層次的程序員不可見。 ? ? ? ? 當一個主機線程調用cudaDeviceReset()函數時,它將會銷毀線程當前控制設備的基本上下文。也就是說,當線程下一次調用runtime函數時將會重啟初始化,一個新的CUDA基本上下文將被創建出來。

    4.3.2 設備內存

    ? ? ? ? 正如前面異構計算章節所講,CUDA編程模型假定系統是由主機和設備構成的,它們分別具有自己獨立的內存空間。Runtime負責設備內存的分配,回收,拷貝以及在主機和設備間傳輸數據的工作。

    ? ? ? ? 設備內存可以有兩種分配方式:線性內存或者CUDA數組

    ? ? ? ? CUDA數組是一塊不透明的內存空間,它主要被優化用于紋理存取。

    ? ? ? ? 線性內存空間與平時我們訪問的內存類似,對于計算能力1.x的設備來說,它存在于一個32位的地址空間。對于更高計算能力的設備而言,它存在于一個40位的地址空間中。因此,單獨分配的實體可以使用指針來相互應用。

    ? ? ? ? 我們通常使用cudaMalloc()函數分配線性內存空間,使用cudaFree()函數釋放線性內存空間,使用cudaMemcpy()函數在主機和設備之間傳輸數據。下面是CUDA Vector Add代碼示例的一些片段:

    [cpp] view plaincopy
  • //?Device?code????
  • __global__?void?VecAdd(float?*A,?float?*B,?float?*C,?int?N)?{????
  • ????int?i?=?blockDim.x?*?blockIdx.x?+?threadIdx.x;????
  • ????if?(i?<?N)????
  • ????????C[i]?=?A[i]?+?B[i];????
  • }????
  • ????
  • //?Host?code????
  • int?main()?{????
  • ????int?N?=?...;????
  • ????size_t?size?=?N?*?sizeof(float);????
  • ????
  • ????//?Allocate?input?vectors?h_A?and?h_B?in?host?memory????
  • ????float?*h_A?=?(float*)malloc(size);????
  • ????float?*h_B?=?(float*)malloc(size);????
  • ????
  • ????//?Initialize?input?vectors????
  • ????...????
  • ?????
  • ????//?Allocate?vectors?in?device?memory????
  • ????float?*d_A,?*d_B,?*d_C;????
  • ????cudaMalloc(&d_A,?size);????
  • ????cudaMalloc(&d_B,?size);????
  • ????cudaMalloc(&d_C,?size);????
  • ????
  • ????//?Copy?vectors?from?host?memory?to?device?memory????
  • ????cudaMemcpy(d_A,?h_A,?size,?cudaMemcpyHostToDevice);????
  • ????cudaMemcpy(d_B,?h_B,?size,?cudaMemcpyHostToDevice);????
  • ????
  • ????//?Invoke?kernel????
  • ????int?threadsPerBlock?=?256;????
  • ????int?blocksPerGrid?=?(N?+threadsPerBlock?-?1)?/?threadsPerBlock;????
  • ????VecAdd<<<blocksPerGrid,?threadsPerBlock>>>(d_A,?d_B,?d_C,?N);????
  • ????
  • ????//?Copy?result?from?device?memory?to?host?Memory????
  • ????cudaMemcpy(h_C,?d_C,?size,?cudaMemcpyDeviceToHost);????
  • ????
  • ????//?Free?device?memory????
  • ????cudaFree(d_A);????
  • ????cudaFree(d_B);????
  • ????cudaFree(d_C);????
  • ????
  • ????//?Free?host?memory????
  • ????...????
  • }???
  • 片段展示了設備內存的分配,傳輸以及回收過程。

    ? ? ? ? 除了上面展示的方法,我們還可以使用cudaMallocPitch()和cudaMalloc3D()函數來分配線性內存。這些函數能夠確保分配的內存滿足設備內存訪問的對齊要求,對于行地址的訪問以及多維數組間的數據傳輸提供高性能保證,因此非常適合對于二維和三維數組內存空間的分配。下面的代碼片段展示了分配和使用尺寸為width x height的二維數組的技術:

    [cpp] view plaincopy
  • //?Host?code????
  • int?width?=?64,?height?=?64;????
  • float?*devPtr;????
  • size_t?pitch;????
  • cudaMallocPitch(&devPtr,?&pitch,?width?*?sizeof(float),?height);????
  • MyKernel<<<100,?512>>>(devPtr,?pitch,?width,?height);????
  • ????
  • //?Device?code????
  • __global__?void?MyKernel(float*?devPtr,?size_t?pitch,?int?width,?int?height)?{????
  • ????for?(int?r?=?0;?r?<?height;?++r)?{????
  • ????????float*?row?=?(float*)((char*)devPtr?+?r?*?pitch);????
  • ????????for?(int?c?=?0;?c?<?width;?++c)?{????
  • ????????????float?element?=?row[c];????
  • ????????}????
  • ????}????
  • }????
  • ? ? ? ? 下面的代碼片段展示了一個尺寸為width x height x depth的三維數組的分配和使用方法:

    [cpp] view plaincopy
  • //?Host?code????
  • int?width?=?64,?height?=?64,?depth?=?64;????
  • cudaExtent?extent?=?make_cudaExtent(width?*?sizeof(float),?height,?depth);????
  • cudaPitchedPtr?devPitchedPtr;????
  • cudaMalloc3D(&devPitchedPtr,?extent);????
  • MyKernel<<<100,?512>>>(devPitchedPtr,?width,?height,?depth);????
  • ????
  • //?Device?code????
  • __global__?void?MyKernel(cudaPitchedPtr?devPitchedPtr,?int?width,?int?height,?int?depth)?{????
  • ????char*?devPtr?=?devPitchedPtr.ptr;????
  • ????size_t?pitch?=?devPitchedPtr.pitch;????
  • ????size_t?slicePitch?=?pitch?*?height;????
  • ????for?(int?z?=?0;?z?<?depth;?++z)?{????
  • ????????char*?slice?=?devPtr?+?z?*?slicePitch;????
  • ????????for?(int?y?=?0;?y?<?height;?++y)?{????
  • ????????????float*?row?=?(float*)(slice?+?y?*?pitch);????
  • ????????????for?(int?x?=?0;?x?<?width;?++x)????
  • ????????????????float?element?=?row[x];????
  • ????????}????
  • ????}????
  • }????
  • 更多詳細的內容請查閱參考手冊。

    ? ? ? ? 下面的代碼示例展示了多種使用Runtime API訪問全局變量的技術:

    [cpp] view plaincopy
  • __constant__?float?constData[256];????
  • float?data[256];????
  • cudaMemcpyToSymbol(constData,?data,?sizeof(data));????
  • cudaMemcpyFromSymbol(data,?constData,?sizeof(data));????
  • ????
  • __device__?float?devData;????
  • float?value?=?3.14f;????
  • cudaMemcpyToSymbol(devData,?&value,?sizeof(float));????
  • ????
  • __device__?float*?devPointer;????
  • float*?ptr;????
  • cudaMalloc(&ptr,?256?*?sizeof(float));????
  • cudaMemcpyToSymbol(devPointer,?&ptr,?sizeof(ptr));????
  • 使用cudaGetSymbolAddress()函數可以獲得被聲明存儲在全局內存中的變量地址。為了獲得分配內存的大小,可以使用cudaGetSymbolSize()函數。

    4.3 CUDA C Runtime

    4.3.3 共享內存(Shared Memory)

    ? ? ? ? 共享內存是CUDA設備中非常重要的一個存儲區域,有效地使用共享內存可以充分利用CUDA設備的潛能,極大提升程序性能。那么,共享內存有哪些特點呢? ? ? ? ? 1、共享內存(shared Memory)是集成在GPU處理器芯片上的(on-chip),因此相比于存在于顯存顆粒中的全局內存(global Memory)和本地內存(local Memory),它具有更高的傳輸帶寬,一般情況下,共享內存的帶寬大約是全局內存帶寬的7-10倍。 ? ? ? ? 2、共享內存的容量很小。根據NVIDIA官方文檔的說法,在計算能力1.x的設備中,每一個流多處理器(Streaming Multiprocessor)上的共享內存容量為16KB。對于計算能力2.x、3.0及3.5的設備該參數為48KB。因此共享內存是稀有資源。 ? ? ? ? 3、共享內存在物理上被劃分為很多塊,每一塊被稱為一個存儲體(bank)。在同一時刻,CUDA設備可以同時訪問多個存儲體。因此,如果一次針對共享內存的訪存操作需要讀取n個地址,而這n個地址恰好分布在n個不同的存儲體(bank)中,那么只需要一個存取周期就可以完成n個地址的訪存任務了。對于計算能力1.x的設備,共享內存被平均劃分為16個存儲體。而對于計算能力2.x、3.0及3.5的設備此參數為32。在共享內存中,相鄰兩塊32bit的數據分別屬于相鄰的兩個存儲體。存儲體每兩個時鐘周期可以傳輸32位數據。 ? ? ? ? 4、共享內存既可以靜態分配,也可以動態分配。 ? ? ? ? 從共享內存的這些特點中我們可以看出,它實際上相當于一個程序員可以操控的緩存(cache),下面,我們使用矩陣乘法的例子來說明如何有效使用共享內存。 ? ? ? ? 首先,我們使用最直觀的方法來完成矩陣乘法C = A x B:讀取A的每一行和B的每一列,順次完成計算任務。矩陣乘法的示意圖如下所示:

    下面是矩陣乘法的CUDA C主要實現代碼: [cpp] view plaincopy
  • //?Matrices?are?stored?in?row-major?order:????
  • //?M(row,?col)?=?*(M.elements?+?row?*?M.width?+?col)????
  • typedef?struct?{????
  • ????int?width;????
  • ????int?height;????
  • ????float?*elements;????
  • }?Matrix;????
  • ????
  • //?Thread?block?size????
  • #define?BLOCK_SIZE?16????
  • ????
  • //?Forward?declaration?of?the?matrix?multiplication?kernel????
  • __global__?void?MatMulKernel(const?Matrix,?const?Matrix,?Matrix);????
  • ????
  • //?Matrix?multiplication?-?Host?code????
  • //?Matrix?dimensions?are?assumed?to?be?multiples?of?BLOCK_SIZE????
  • void?MatMul(const?Matrix?A,?const?Matrix?B,?Matrix?C)?{????
  • ????//?Load?A?and?B?to?device?memory????
  • ????Matrix?d_A;????
  • ????d_A.width?=?A.width;?d_A.height?=?A.height;????
  • ????size_t?size?=?A.width?*?A.height?*?sizeof(float);????
  • ????cudaMalloc(&d_A.elements,?size);????
  • ????cudaMemcpy(d_A.elements,?A.elements,?size,?cudaMemcpyHostToDevice);????
  • ????Matrix?d_B;????
  • ????d_B.width?=?B.width;?d_B.height?=?B.height;????
  • ????size?=?B.width?*?B.height?*?sizeof(float);????
  • ????cudaMalloc(&d_B.elements,?size);????
  • ????cudaMemcpy(d_B.elements,?B.elements,?size,?cudaMemcpyHostToDevice);????
  • ????
  • ????//?Allocate?C?in?device?memory????
  • ????Matrix?d_C;????
  • ????d_C.width?=?C.width;?d_C.height?=?C.height;????
  • ????size?=?C.width?*?C.height?*?sizeof(float);????
  • ????cudaMalloc(&d_C.elements,?size);????
  • ????
  • ????//?Invoke?kernel????
  • ????dim3?dimBlock(BLOCK_SIZE,?BLOCK_SIZE);????
  • ????dim3?dimGrid(B.width?/?dimBlock.x,?A.height?/?dimBlock.y);????
  • ????MatMulKernel<<<dimGrid,?dimBlock>>>(d_A,?d_B,?d_C);????
  • ????
  • ????//?Read?C?from?device?memory????
  • ????cudaMemcpy(C.elements,?d_c.elements,?size,?cudaMemcpyDeviceToHost);????
  • ????
  • ????//?Free?device?memory????
  • ????cudaFree(d_A.elements);????
  • ????cudaFree(d_B.elements);????
  • ????cudaFree(d_C.elements);????
  • }????
  • ????
  • //?Matrix?multiplication?kernel?called?by?MatMul()????
  • __global__?void?MatMulKernel(Matrix?A,?Matrix?B,?Matrix?C)?{????
  • ????//?Each?thread?computes?one?element?of?C????
  • ????//?by?accumulating?results?into?Cvalue????
  • ????float?Cvalue?=?0;????
  • ????int?row??=?blockIdx.y?*?blockDim.y?+?threadIdx.y;????
  • ????int?col?=?blockIdx.x?*?blockDim.x?+?threadIdx.xl????
  • ????for?(int?e?=?0;?e?<?A.width;?++e)????
  • ????????Cvalue?+=?A.elements[row?*?A.width?+?e]?*?B.elements[e?*?B.width?+?col];????
  • ????C.elements[row?*?C.width?+?col]?=?Cvalue;????
  • }??
  • 可以看出,為了計算矩陣C的任何一個元素,程序都需要從全局內存(global memory)中獲得矩陣A的一行和矩陣B的一列。因此,完成這一計算矩陣A被讀取了B.width次,矩陣B被讀取了A.height次。 現在我們來使用共享內存(shared memory)實現矩陣乘法。假設矩陣C可以被劃分為若干個較小的子方陣Csub,我們使用一個線程塊(thread block)來負責某一子方陣的計算,線程塊中的每一個線程(thread)正好負責子方陣Csub中一個元素的計算。這樣劃分后,任何一個結果子方陣Csub'(尺寸為block_size * block_size)都是與該方陣具有相同行索引的尺寸為A.width * block_size的A的子矩陣Asub和與該方陣具有相同列索引的尺寸為block_size * B.height的B的子矩陣Bsub相乘所得到。 ? ? ? ? 為了匹配設備的計算資源,兩個子矩陣Asub和Bsub被劃分為盡可能多的分離的維度為block_size的子方陣,Csub的值便是這些子矩陣相乘后相加所得到的結果。子矩陣乘法的執行順序都是首先將它們從全局內存(global memory)拷貝到共享內存(shared memory)(線程塊中的每一個線程正好負責方陣一個元素的拷貝),然后由線程自己完成相應元素的計算任務,利用寄存器存儲局部結果,最后將寄存器的內容與新得到的計算結果依此累加起來得到最終運算結果并將其傳輸到全局內存(global memory)中。 ? ? ? ? 通過使用這種分治的計算策略,共享內存得到了很好的利用,采用這種方案計算完成時全局內存中矩陣A被訪問的次數為B.width / block_size,矩陣B被訪問的次數為A.height / block_size,很明顯,這為我們節省了非常多的全局內存帶寬。優化后的矩陣計算示意圖如下所示:

















































    ? ? ? ? 為了提升計算效率,我們為類型Matrix增加了一個成員變量stride。__device__函數用來獲得和設置子矩陣的元素。下面是優化后的代碼: [cpp] view plaincopy
  • //?Matrices?are?stored?in?row-major?order;????
  • //?M(row,?col)?=?*(M.elements?+?row?*?M.stride?+?col)????
  • typedef?struct?{????
  • ????int?width;????
  • ????int?height;????
  • ????int?stride;????
  • ????float*?elements;????
  • }?Matrix;????
  • ????
  • //?Get?a?matrix?element????
  • __device__?float?GetElement(const?Matrix?A,?int?row,?int?col)?{????
  • ????return?A.elements[row?*?A.stride?+?col];????
  • }????
  • ????
  • //?Set?a?matrix?element????
  • __device__?void?SetElement(Matrix?A,?int?row,?int?col,?float?value)?{????
  • ????A.elements[row?*?A.stride?+?col]?=?value;????
  • }????
  • ????
  • //?Get?the?BLOCK_SIZExBLOCK_SIZE?sub-matrix?Asub?of?A?that?is????
  • //?located?col?sub-matrices?to?the?right?and?row?sub-matrices?down????
  • //?from?the?upper-left?corner?of?A????
  • __device__?Matrix?GetSubMatrix(Matrix?A,?int?row,?int?col)?{????
  • ????Matrix?Asub;????
  • ????Asub.width?=?BLOCK_SIZE;????
  • ????Asub.height?=?BLOCK_SIZE;????
  • ????Asub.stride?=?A.stride;????
  • ????Asub.elements?=?&A.elements[A.stride?*?BLOCK_SIZE?*?row?+?BLOCK_SIZE?*?col];????
  • ????return?Asub;????
  • }????
  • ????
  • //?Thread?block?size????
  • #define?BLOCK_SIZE?16????
  • ????
  • //?Forward?declaration?of?the?matrix?multiplication?kernel????
  • __global__?void?MatMulKernel(const?Matrix,?const?Matrix,?Matrix);????
  • ????
  • //?Matrix?multiplication?-?Host?code????
  • //?Matrix?dimensions?are?assumed?to?be?multiples?of?BLOCK_SIZE????
  • void?MatMul(const?Matrix?A,?const?Matrix?B,?Matrix?C)?{????
  • ????//?Load?A?and?B?to?device?memory????
  • ????Matrix?d_A;????
  • ????d_A.width?=?d_A.stride?=?A.width;????
  • ????d_A.height?=?A.height;????
  • ????size_t?size?=?A.width?*?A.height?*?sizeof(float);????
  • ????cudaMalloc(&d_A.elements,?size);????
  • ????cudaMemcpy(d_A.elements,?A.elements,?size,?cudaMemcpyHostToDevice);????
  • ????Matrix?d_B;????
  • ????d_B.width?=?d_B.stride?=?B.width;????
  • ????d_B.height?=?B.height;????
  • ????size?=?B.width?*?B.height?*?sizeof(float);????
  • ????cudaMalloc(&d_B.elements,?size);????
  • ????cudaMemcpy(d_B.elements,?B.elements,?size,?cudaMemcpyHostToDevice);????
  • ????
  • ????//?Allocate?C?in?device?memory????
  • ????Matrix?d_C;????
  • ????d_C.width?=?d_C.stride?=?C.width;????
  • ????d_C.height?=?C.height;????
  • ????size?=?C.width?*?C.height?*?sizeof(float);????
  • ????cudaMalloc(&d_C.elements,?size);????
  • ????
  • ????//?Invoke?kernel????
  • ????dim3?dimBlock(BLOCK_SIZE,?BLOCK_SIZE);????
  • ????dim3?dimGrid(B.width?/?dimBlock.x,?A.height?/?dimBlock.y);????
  • ????MatMulKernel<<<dimGrid,?dimBlock>>>(d_A,?d_B,?d_C);????
  • ????
  • ????//?Read?C?from?device?memory????
  • ????cudaMemcpy(C.elements,?d_C.elements,?size,?cudaMemcpyDeviceToHost);????
  • ????
  • ????//?Free?device?memory????
  • ????cudaFree(d_A.elements);????
  • ????cudaFree(d_B.elements);????
  • ????cudaFree(d_C.elements);????
  • }????
  • ????
  • //?Matrix?multiplication?kernel?called?by?MatMul()????
  • __global__?void?MatMulKernel(Matrix?A,?Matrix?B,?Matrix?C)?{????
  • ????//?Block?row?and?column????
  • ????int?blockRow?=?blockIdx.y;????
  • ????int?blockCol?=?blockIdx.x;????
  • ????
  • ????//?Each?thread?block?computes?one?sub-matrix?Csub?of?C????
  • ????Matrix?Csub?=?GetSubMatrix(C,?blockRow,?blockCol);????
  • ????
  • ????//?Each?thread?computes?one?element?of?Csub????
  • ????//?by?accumulating?results?into?Cvalue????
  • ????float?Cvalue?=?0;????
  • ????
  • ????//?Thread?row?and?column?within?Csub????
  • ????int?row?=?threadIdx.y;????
  • ????int?col?=?threadIdx.x;????
  • ????
  • ????//?Look?over?all?the?sub-matrices?of?A?and?B?that?are?required?to?compute?Csub????
  • ????//?Multiply?each?pair?of?sub-matrices?together?and?accumulate?the?results????
  • ????for?(int?m?=?0;?m?<?(A.width?/?BLOCK_SIZE);?++m)?{????
  • ????????//?Get?sub-matrix?Asub?of?A????
  • ????????Matrix?Asub?=?GetSubMatrix(A,?blockRow,?m);????
  • ????????????
  • ????????//?Get?sub-matrix?Bsub?of?B????
  • ????????Matrix?Bsub?=?GetSubMatrix(B,?m,?blockCol);????
  • ????
  • ????????//?Shared?memory?used?to?store?Asub?and?Bsub?respectively????
  • ????????__shared__?float?As[BLOCK_SIZE][BLOCK_SIZE];????
  • ????????__shared__?float?Bs[BLOCK_SIZE][BLOCK_SIZE];????
  • ????
  • ????????//?Load?Asub?and?Bsub?from?device?memory?to?shared?memory????
  • ????????//?Each?thread?loads?one?element?of?each?sub-matrix????
  • ????????As[row][col]?=?GetElement(Asub,?row,?col);????
  • ????????Bs[row][col]?=?GetElement(Bsub,?row,?col);????
  • ????
  • ????????//?Synchronize?to?make?sure?the?sub-matrices?are?loaded????
  • ????????//?before?starting?the?computation????
  • ????????__syncthreads();????
  • ????
  • ????????//?Multiply?Asub?and?Bsub?together????
  • ????????for?(int?e?=?0;?e?<?BLOCK_SIZE;?++e)????
  • ????????????Cvalue?+=?As[row][e]?*?Bs[e][col];????
  • ????
  • ????????//?Synchronize?to?make?sure?that?the?preceding?computation?is?done?before????
  • ????????//?loading?two?new?sub-matrices?of?A?and?B?in?the?next?iteration????
  • ????????__syncthreads();????
  • ????}????
  • ????
  • ????//?Write?Csub?to?device?memory????
  • ????//?Each?thread?writes?one?element????
  • ????SetElement(Csub,?row,?col,?Cvalue);????
  • }???
  • 異步并行執行


    主機和設備間并行執行

    ? ? ? ? 為了支持主機和設備的并行執行,CUDA提供了一些異步函數。異步是指設備在完成功能執行之前就將控制權交還給主機線程,以便主機線程繼續執行。這些函數有: ? ? ? ? 1、內涵啟動(Kernel Launches); ? ? ? ? 2、同一設備內存中兩個地址塊之間的數據傳輸; ? ? ? ? 3、從主機到設備的小于或等于64KB的一次數據塊傳輸; ? ? ? ? 4、使用Async前綴函數進行的數據傳輸; ? ? ? ? 5、內存置位函數調用(Memory set functions calls)。 程序員可以通過設置環境變量CUDA_LAUNCH_BLOCKING來開啟或者關閉內核啟動(Kernel Launch)的異步功能。但是這一方法僅限于調試,在任何產品代碼中不應當關閉異步內核啟動。 ? ? ? ? 內核啟動在下面這些情況下則是同步的: ? ? ? ? 1、應用程序通過調試器或者內存檢查器運行在計算能力為1.x的設備上。 ? ? ? ? 2、硬件計數器信息正被性能分析器收集。

    將內核啟動與數據傳輸重疊起來

    ? ? ? ? 對于一些計算能力等于或高于1.1的設備,它們可以將內核啟動任務和鎖頁內存到設備內存的數據傳輸任務并行執行。應用程序可以檢查設備屬性中的asyncEngineCount項來確定設備是否支持這一功能。當該項值大于0時代表設備支持這一層次的并行。對于計算能力1.x的設備,該功能不支持通過cudaMallocPitch()函數分配的CUDA數組或2D數組。


    并行內核執行

    ? ? ? ? 一些計算能力2.x或更高的設備可以同時并行執行多個內核函數。應用程序可以檢查設備屬性中的concurrentKernels項來確定設備是否支持這一功能,值為1代表支持。運算能力3.5的設備在同一時刻能夠并行執行的最大內核函數數量為32,運算能力小于3.5的硬件則最多支持同時啟動16個內核函數的執行。同時需要注意的是,在一個CUDA上下文中的內核函數不能與另一個CUDA上下文中的內核函數同時執行。使用很多紋理內存或者大量本地內存的內核函數也很可能無法與其它內核函數并行執行。


    并行數據傳輸

    ? ? ? ? 一些計算能力為2.x或更高的設備可以將鎖頁內存到設備內存的數據傳輸和設備內存到鎖頁內存的數據傳輸并行執行。應用程序可檢查設備屬性中的asyncEngineCount項來確定這一功能的支持程度,等于2時表示支持。


    流(Streams)

    ? ? ? ? 應用程序通過流來管理并行。一個流是一個順次執行的命令序列。不同的流之間并行執行,沒有固定的執行順序。

    1、流的創建與銷毀

    ? ? ? ? 定義一個流的過程通常包括:創建一個流對象,然后指定它為內核啟動或者主機設備間數據傳輸的流參數。下面的一段代碼創建了兩個流并且在鎖頁內存中分配了一塊float類型的數組hostPtr:

    [cpp] view plaincopy
  • cudaStream_t?stream[2];??
  • for?(int?i?=?0;?i?<?2;?++i)??
  • ????cudaStreamCreate(&stream[i]);??
  • float?*hostPtr;??
  • cudaMallocHost(&hostPtr,?2?*?size);??
  • 下面的代碼定義了每一個流的行為:從主機端拷貝數據到設備端,內核啟動,從設備端拷貝數據到主機端:
    [cpp] view plaincopy
  • for?(int?i?=?0;?i?<?2;?++i)?{??
  • ????cudaMemcpyAsync(inputDevPtr?+?i?*?size,?hostPtr?+?i?*?size,?size,?cudaMemcpyHostToDevice,?stream[i]);??
  • ????MyKernel<<<100,?512,?0,?stream[i]>>>(outputDevPtr?+?i?*?size,?inputDevPtr?+?i?*?size,?size);??
  • ????cudaMemcpyAsync(hostPtr?+?i?*?size,?outputDevPtr?+?i?*?size,?size,?cudaMemcpyDeviceToHost,?stream[i]);??
  • }??
  • 這部分代碼中有一點需要注意:為了并行化數據拷貝和內核執行,主機端內存必須分配為鎖頁(page-locked)內存。

    要銷毀一個流需要調用函數cudaStreamDestroy()

    [cpp] view plaincopy
  • for?(int?i?=?0;?i?<?2;?++i)??
  • ????cudaStreamDestroy(stream[i]);??
  • cudaStreamDestroy() 函數等待之前流中的指令序列運行完成,然后銷毀指定流,將控制權返還給主機端。

    2、默認流(Default stream)

    ? ? ? ? 在內核啟動或者數據拷貝過程中如果不指定流,或者設置流參數為0,則相應的指令將會運行在默認流上,它們也因此而順次執行。

    3、明同步(Explicit Synchronization)

    ? ? ? ? 在CUDA中有很多種方式可以用來同步流的執行:

    ? ? ? ??cudaDeviceSynchronize()函數使得主機端線程阻塞直到所有流中的指令執行完成。

    ? ? ? ?cudaStreamSynchronize()函數將一個流對象作為輸入參數,用以等待指定流中的所有指令執行完成。

    ? ? ? ?cudaStreamWaitEvent()函數將一個流對象和一個事件作為輸入參數,它將延遲該函數調用后在指定流中所有新加入的命令的執行直到指定的事件完成為止。流參數可以為0,在該情形下所有流中的任何新加入的指令都必須等待指定事件的發生,然后才可以執行。

    ? ? ? ?cudaStreamQuery()函數為應用程序提供了一個檢測指定流中之前指令是否執行完成的方法。

    ? ? ? ? 為了避免同步帶來的性能下降,所有上述同步函數最好用于計時目的或者分離錯誤的內核執行或數據拷貝。

    4、暗同步(Implicit Synchronization)

    ? ? ? ? 如果任何一個流中正在執行以下操作,那么其它流是不能與其并行運行的:

    ? ? ? ? a. 分配鎖頁內存空間

    ? ? ? ? b. 設備內存分配

    ? ? ? ? c. 設備內存置位

    ? ? ? ? d. 同一設備兩個不同地址間正在進行數據拷貝

    ? ? ? ? e. 默認流中有指令正在執行

    ? ? ? ? f. L1/shared內存配置的轉換

    ? ? ? ? 對于支持并行內核執行并且計算能力3.0或以下的設備來說,任何一個需要檢查依賴性以確定流內核啟動是否完成的操作:

    ? ? ? ? a. 只有當前CUDA上下文中所有流中所有之前的內核啟動之后才能夠啟動執行。

    ? ? ? ? b. 將會阻塞所有當前CUDA上下文中的任意流中新加入的內核調用直到內核檢查完成。

    ? ? ? ? 需要進行依賴性檢查的操作包括執行檢查的內核啟動所在流中的其它指令以及任何在該流上對cudaStreamQuery()函數的調用。因此,應用程序可以遵照以下指導原則來提升潛在并行性:

    ? ? ? ? (1)所有非依賴操作應當比依賴性操作提前進行

    ? ? ? ? (2)任何類型的同步越遲越好

    5、重疊行為(Overlapping Behavior)

    ? ? ? ? 兩個流間重疊行為的數量取決于以下幾個因素:

    ? ? ? ? (1)每個流中命令發出的次序

    ? ? ? ? (2)設備是否支持內核啟動與數據傳輸并行

    ? ? ? ? (3)設備是否支持多內核并行啟動

    ? ? ? ? (4)設備是否支持多數據傳輸并行

    ? ? ? ? 例如,在不支持并行數據傳輸的設備上,“流的創建與銷毀”章節中代碼樣例中的操作就不能并行,因為在stream[0]中發出設備端到主機端的數據拷貝后,stream[1]又發出主機端到設備端的數據拷貝命令,這兩個命令式不能重疊執行的。假設設備支持數據傳輸與內核啟動并行,那么如下代碼:

    [cpp] view plaincopy
  • for?(int?i?=?0;?i?<?2;?++i)??
  • ????cudaMemcpyAsync(inputDevPtr?+?i?*?size,?hostPtr?+?i?*?size,?size,?cudaMemcpyHostToDevice,?stream[i]);??
  • for?(int?i?=?0;?i?<?2;?++i)??
  • ????MyKernel<<<100,?512,?0,?stream[i]>>>(outputDevPtr?+?i?*?size,?inputDevPtr?+?i?*?size,?size);??
  • for?(int?i?=?0;?i?<?2;?++i)??
  • ????cudaMemcpyAsync(hostPtr?+?i?*?size,?outputDevPtr?+?i?*?size,?size,?cudaMemcpyDeviceToHost,?stream[i]);??
  • 可將stream[0]的內核啟動和stream[1]從主機端到設備端的數據拷貝重疊起來并行執行。

    6、回調函數

    ? ? ? ? CUDA運行時提供了cudaStreamAddCallback()函數以在流中的任意位置插入一個回調函數點。回調函數運行于主機端,如果在默認流中插入回調函數,那么它將等待所有其它流中的命令執行完成之后才會開始執行。

    ? ? ? ? 下面的代碼展示了回調函數技術的應用:

    [cpp] view plaincopy
  • void?CUDART_CB?MyCallback(cudaStream_t?stream,?cudaError_t?status,?void?**data)?{??
  • ????printf("Inside?callback?%d\n",?(int)data);??
  • }??
  • ...??
  • for?(int?i?=?0;?i?<?2;?++i)?{??
  • ????cudaMemcpyAsync(devPtrIn[i],?hostPtr[i],?size,?cudaMemcpyHostToDevice,?stream[i]);??
  • ????MyKernel<<<100,?512,?0,?stream[i]>>>(devPtrOut[i],?devPtrIn[i],?size);??
  • ????cudaMemcpyAsync(hostPtr[i],?devPtrOut[i],?size,?cudaMemcpyDeviceToHost,?stream[i]);??
  • ????cudaStreamAddCallback(stream[i],?MyCallback,?(void**)i,?0);??
  • }??
  • 上面的代碼定義了兩個流的操作,每個流都完成一次主機端到設備端的數據拷貝,一次內核啟動,一次設備端到主機端的數據拷貝,最后增加了一個加入回調函數的操作。當設備端代碼運行到回調函數點的時候,設備將控制權交還給主機端,主機端運行完成以后再將控制權返還給設備端,然后設備端繼續運行。

    ? ? ? ? 值得注意的是,在一個回調函數中,一定不能進行任何CUDA API的調用,直接的或者間接的都是不可以的。

    發現問題的諸位讀者不吝賜教。

    1. 什么是CUDA?

    CUDA全稱是Compute Unified Device Architecture,中文名稱即統一計算設備架構,它是NVIDIA公司提出了一種通用的并行計算平臺和編程模型。使用CUDA,我們可以開發出同時在CPU和GPU上運行的通用計算程序,更加高效地利用現有硬件進行計算。為了簡化并行計算學習,CUDA為程序員提供了一個類C語言的開發環境以及一些其它的如FORTRAN、DirectCOmpute、OpenACC的高級語言/編程接口來開發CUDA程序。

    2. CUDA編程模型如何擴展?

    我們知道,不同的GPU擁有不同的核心數目,在核心較多的系統上CUDA程序運行的時間較短,而在核心較少的系統上CUDA程序的執行時間較多。那么,CUDA是如何做到的呢? 并行編程的中心思想是分而治之:將大問題劃分為一些小問題,再把這些小問題交給相應的處理單元并行地進行處理。在CUDA中,這一思想便體現在它的具有兩個層次的問題劃分模型。一個問題可以首先被粗粒度地劃分為若干較小的子問題,CUDA使用被稱為塊(Block)的單元來處理它們,每個塊都由一些CUDA線程組成,線程是CUDA中最小的處理單元,將這些較小的子問題進一步劃分為若干更小的細粒度的問題,我們便可以使用線程來解決這些問題了。對于一個普通的NVIDIA GPU,其CUDA線程數目通常能達到數千個甚至更多,因此,這樣的問題劃分模型便可以成倍地提升計算機的運算性能。 GPU是由多個流水多處理器構成的,流水處理器以塊(Block)為基本調度單元,因此,對于流水處理器較多的GPU,它一次可以處理的塊(Block)更多,從而運算速度更快,時間更短。而反之對于流水處理器較少的GPU,其運算速度便會較慢。這一原理可以通過下圖形象地看出來:

    3. CUDA基本概念

    本節將介紹CUDA的一些基本的編程概念,該節用到的例子來自于CUDA Sample中的VectorAdd項目。

    3.1 內核(Kernels)

    CUDA C是C語言的一個擴展,它允許程序員定義一種被稱為內核函數(Kernel Functions)的C函數,內核函數運行在GPU上,一旦啟動,CUDA中的每一個線程都將會同時并行地執行內核函數中的代碼。

    內核函數使用關鍵字__global__來聲明,運行該函數的CUDA線程數則通過<<<...>>>執行配置語法來設置。(參見章節"C語言擴展"),每一個執行內核函數的線程都由一個唯一的線程ID,這一ID可以通過在內核函數中訪問threadIdx變量來得到。

    下面通過一些示例代碼來展示剛剛提到的這些概念該如何應用在編程中:

    [cpp] view plaincopy
  • //?Kernel?definition????
  • __global__?void?VecAdd(float*?A,?float*?B,?float*?C)?{????
  • ????int?i?=?threadIdx.x;????
  • ????C[i]?=?A[i]?+?B[i];????
  • }????
  • ????
  • int?main()?{????
  • ????...????
  • ????//?Kernel?invocation?with?N?threads????
  • ????VecAdd<<<1,?N>>>(A,?B,?C);????
  • ???...????
  • }???
  • 在上面的代碼中,N個線程將會并行地同時執行加法運算。

    3.2 線程層次(Thread Hierarchy)

    CUDA的每一個線程都有其線程ID,線程的ID信息由變量threadIdx給出。threadIdx是CUDA C語言的內建變量,通常它用一個三維數組來表示。使用三維數組的方便之處在于可以很方便地表示一維、二維和三維線程索引,進而方便地表示一維、二維和三維線程塊(thread block)。這樣,無論是數組、矩陣還是體積的計算,都可以很容易地使用CUDA進行運算。 線程的索引與線程ID之間存在著直接的換算關系,對于一個索引為(x, y, z)的線程來說: ? ? ? 1、如果線程塊(block)是一維的,則線程ID = x ? ? ? 2、如果線程塊是二維的,假設塊尺寸為(Dx,Dy),那么線程ID = x + y * Dx ? ? ? 3、如果線程塊是三維的,設其尺寸為(Dx,Dy,Dz),那么線程ID = x + y * Dx + z * Dx * Dy ? ? ? 下面的例子展示了兩個NxN矩陣相加的CUDA實現: [cpp] view plaincopy
  • //?Kernel?definition????
  • __global__?void?MatAdd(float?A[N][N],?float?B[N][N],?float?C[N][N])?{????
  • ????int?i?=?threadIdx.x;????
  • ????int?j?=?threadIdx.y;????
  • ????C[i][j]?=?A[i][j]?+?B[i][j];????
  • }????
  • ????
  • int?main()?{????
  • ????...????
  • ????//?Kernel?invocation?with?one?block?of?N?*?N?*?1?threads????
  • ????int?numBlocks?=?1;????
  • ????dim3?threadsPerBlock(N,?N);????
  • ????MatAdd<<<numBlocks,?threadsPerBlock>>>(A,?B,?C);????
  • ????...????
  • }????
  • 每個線程塊(block)中的線程數量是有限制的,因為依據前面所說,同一線程塊(block)中的所有線程都會被分配到同一個處理器核上運行,共享有限的存儲資源,因此對于當前的GPU,線程塊所能包含的最大線程數目為1024。 上面的例子中numBlocks代表線程塊的數量,這里的值為1。在一般的CUDA程序中,這個值通常大于1,也就是說將會有多個線程塊被分配到多個處理器核中同時進行處理,這樣就大大提高了程序的并行性。
    在CUDA中,線程塊包含在線程格(grid)當中,線程格可以是一維、二維或者三維的,線程格的尺寸一般根據待處理數據的規模或者處理器的數量來指定。線程格中所包含的線程塊數目通常遠遠大于GPU處理器核心的數目。下圖展示了線程格(grid)、線程塊(block)以及線程(thread)之間的關系:
    內核函數的調用可以簡化為kernel<<<A,B>>>(parameters),在尖括號中,A代表線程格(grid)的尺寸,它可以是三維的,用類型dim3表示,也可以是一維的,用int類型表示。B代表線程塊(block)的尺寸,它與A類似,也可分別用dim3或int類型表示。 在內核函數內部,CUDA為我們內建了一些變量用于訪問線程格、線程塊的尺寸和索引等信息,它們是: 1. gridDim:代表線程格(grid)的尺寸,gridDim.x為x軸尺寸,gridDim.y、gridDim.z類似。拿上圖來說,它的gridDim.x = 3,gridDim.y = 2,gridDim.z = 1。 2. blockIdx:代表線程塊(block)在線程格(grid)中的索引值,拿上圖來說,Block(1,1)的索引值為:blockIdx.x = 1,blockIdx.y = 1。 3. blockDim:代表線程塊(block)的尺寸,blockDIm.x為x軸尺寸,其它依此類推。拿上圖來說,注意到Block(1,1)包含了4 * 3個線程,因此blockDim.x = 4, blockDim.y = 3。 4. threadIdx:線程索引,前面章節已經詳細探討過了,這里不再贅述。 明白了這些變量的含義,那么下面的矩陣加法程序便不難理解了: [cpp] view plaincopy
  • //?Kernel?definition????
  • __global__?void?MatAdd(float?A[N][N],?float?B[N][N],?float?C[N][N])?{????
  • ????int?i?=?blockIdx.x?*?blockDim.x?+?threadIdx.x;????
  • ????int?j?=?blockIdx.y?*?blockDim.y?+?threadIdx.y;????
  • ????if?(i?<?N?&&?j?<?N)????
  • ????????C[i][j]?=?A[i][j]?+?B[i][j];????
  • }????
  • ????
  • int?main()?{????
  • ????...????
  • ????//?Kernel?invocation????
  • ????dim3?threadsPerBlock(16,?16);????
  • ????dim3?numBlocks(N?/?threadsPerBlock.x,?N?/?threadsPerBlock.y);????
  • ????MatAdd<<<numBlocks,?threadsPerBlock>>>(A,?B,?C);????
  • ????...????
  • }??
  • 在上面的程序中,線程塊(block)的尺寸是16x16,這是CUDA編程中一個非常普遍的選擇。線程格(grid)包含了足夠多的線程塊(block)來進行計算。 線程塊(block)是獨立執行的,在執行的過程中線程塊之間互不干擾,因此它們的執行順序是隨機的。 同一線程塊中的線程可以通過訪問共享內存(shared memory)或者通過同步函數__syncthreads()來協調合作。這些概念將在以后的章節中詳細解釋。

    3.3 內存層次(Memory Hierarchy)

    在GPU上CUDA線程可以訪問到的存儲資源有很多,每個CUDA線程擁有獨立的本地內存(local Memory);每一個線程塊(block)都有其獨立的共享內存(shared memory),共享內存對于線程塊中的每個線程都是可見的,它與線程塊具有相同的生存時間;同時,還有一片稱為全局內存(global memory)的區域對所有的CUDA線程都是可訪問的。

    除了上述三種存儲資源以外,CUDA還提供了兩種只讀內存空間:常量內存(constant memory)紋理內存(texture memory),同全局內存類似,所有的CUDA線程都可以訪問它們。對于一些特殊格式的數據,紋理內存提供多種尋址模式以及數據過濾方法來操作內存。這兩類存儲資源主要用于一些特殊的內存使用場合。

    一個程序啟動內核函數以后,全局內存、常量內存以及紋理內存將會一直存在直到該程序結束。下面是CUDA的內存層次圖:


    3.4 異構編程(Heterogeneous Programming)

    CUDA的異構編程模型假定CUDA線程都運行在一個可被看做CPU協處理器的芯片上,這就使得CUDA內核函數可以和CPU端C程序的運行并行運行,從而加快程序的運行效率。為了達到這個效果,CUDA程序需要管理兩大塊由DRAM構成的內存區域:CPU端可以訪問到的主機內存(host memory)以及GPU端供CUDA內核訪問到的設備內存(device memory),設備內存主要由全局內存、常量內存以及紋理內存構成。現在,CUDA程序的運行機制便很明了了:CPU端代碼生成原始數據,通過CUDA運行時函數庫將這些原始數據傳輸到GPU上,在CPU端啟動CUDA內核函數進行運算,然后將運算結果從設備端傳輸到主機端,計算任務便完成了。

    4.?CUDA C語言編程接口

    異構程序設計跟傳統的串行程序設計差別是很大的,學習起來也是非常不容易的。NVIDIA非常夠意思,為了簡化CUDA的學習曲線,它采用了絕大多數程序員都熟悉的C語言作為其根基,CUDA C是NVIDIA為程序員提供的一類編程接口,它實際上是一個C語言的擴展,在C的基礎上增加了一些新的語法和變量,并且提供了功能豐富的庫函數,方便程序員使用GPU進行異構計算。 除了前面章節提到的CUDA最基本、最核心的概念以外,CUDA C呈現給程序員的接口主要由兩大類API構成,它們分別是CUDA Runtime API和CUDA Driver API,Runtime API實際上是對于Driver API的封裝,其目的自然是方便程序員的代碼編寫工作。Driver API為用戶提供了更細一層的控制手段,通過它可以控制諸如CUDA Contexts(一種類似主機進程的概念)以及CUDA Modules(類似主機動態加載庫的概念)等更加底層的CUDA模塊。

    4.1 NVCC編譯器

    任何一種程序設計語言都需要相應的編譯器將其編譯為二進制代碼,進而在目標機器上得到執行。對于異構計算而言,這一過程與傳統程序設計語言是有一些區別的。為什么?因為CUDA它本質上不是一種語言,而是一種異構計算的編程模型,使用CUDA C寫出的代碼需要在兩種體系結構完全不同的設備上執行:1、CPU;2、GPU。因此,CUDA C的編譯器所做的工作就有點略多了。一方面,它需要將源代碼中運行在GPU端的代碼編譯得到能在CUDA設備上運行的二進制程序。另一方面,它也需要將源代碼中運行在CPU端的程序編譯得到能在主機CPU上運行的二進制程序。最后,它需要把這兩部分有機地結合起來,使得兩部分代碼能夠協調運行。 CUDA C為我們提供了這樣的編譯器,它便是NVCC。嚴格意義上來講,NVCC并不能稱作編譯器,NVIDIA稱其為編譯器驅動(Compiler Driver),本節我們暫且使用編譯器來描述NVCC。使用nvcc命令行工具我們可以簡化CUDA程序的編譯過程,NVCC編譯器的工作過程主要可以劃分為兩個階段:離線編譯(Offline Compilation)和即時編譯(Just-in-Time Compilation)。 離線編譯(Offline Compilation) ? ? 下面這幅圖簡單說明了離線編譯的過程:

    ? ? ? ? 在CUDA源代碼中,既包含在GPU設備上執行的代碼,也包括在主機CPU上執行的代碼。因此,NVCC的第一步工作便是將二者分離開來,這一過程結束之后: ? ? ? ? 1. 運行于設備端的代碼將被NVCC工具編譯為PTX代碼(GPU的匯編代碼)或者cubin對象(二進制GPU代碼); ? ? ? ? 2. 運行于主機端的代碼將被NVCC工具改寫,將其中的內核啟動語法(如<<<...>>>)改寫為一系列的CUDA Runtime函數,并利用外部編譯工具(gcc for linux,或者vc compiler for windows)來編譯這部分代碼,以得到運行于CPU上的可執行程序。 ? ? ? ? 完事之后,NVCC將自動把輸出的兩個二進制文件鏈接起來,得到異構程序的二進制代碼。 即時編譯(Just-in-time Compile) ? ? ? ? 任何在運行時被CUDA程序加載的PTX代碼都會被顯卡的驅動程序進一步編譯成設備相關的二進制可執行代碼。這一過程被稱作即時編譯(just-in-time compilation)。即時編譯增加了程序的裝載時間,但是也使得編譯好的程序可以從新的顯卡驅動中獲得性能提升。同時到目前為止,這一方法是保證編譯好的程序在還未問世的GPU上運行的唯一解決方案。 ? ? ? ? 在即時編譯的過程中,顯卡驅動將會自動緩存PTX代碼的編譯結果,以避免多次調用同一程序帶來的重復編譯開銷。NVIDIA把這部分緩存稱作計算緩存(compute cache),當顯卡驅動升級時,這部分緩存將會自動清空,以使得程序能夠自動獲得新驅動為即時編譯過程帶來的性能提升。 ? ? ? ? 有一些環境變量可以用來控制即時編譯過程: ? ? ? ? 1. 設置CUDA_CACHE_DISABLE為1將會關閉緩存功能 ? ? ? ? 2. CUDA_CACHE_MAXSIZE變量用于指定計算緩存的字節大小,默認情況下它的值是32MB,它最大可以被設置為4GB。任何大于緩存最大值得二進制代碼將不會被緩存。在需要的情況下,一些舊的二進制代碼可能被丟棄以騰出空間緩存新的二進制代碼。 ? ? ? ? 3. CUDA_CACHE_PATH變量用于指定計算緩存的存儲目錄地址,它的缺省值如下:
    ? ? ? ? 4. 設置CUDA_FORCE_PTX_JIT為1會強制顯卡驅動忽略應用程序中的二進制代碼并且即時編譯程序中的嵌入PTX代碼。如果一個內核函數沒有嵌入的PTX代碼,那么它將會裝載失敗。該變量可以用來確認程序中存在嵌入的PTX代碼。同時,使用即時編譯(just-in-time Compilation)技術也可確保程序的向前兼容性。

    4.2 兼容性

    ? ? ??1、二進制兼容性 ? ? ? 二進制代碼是設備相關的,使用NVCC編譯器編譯時,若指定-code選項,則會編譯產生目標設備的二進制cubin對象。例如,編譯時使用-code=sm_13會產生適用于計算能力1.3的二進制代碼。二進制代碼在CUDA計算設備上具有小版本的向前兼容性,但是在大版本上不具備兼容性。也就是說,對于計算能力X.y的硬件,使用-code=sm_Xy編譯后,程序能夠運行于計算能力X.z(其中z>=y)的硬件上,但不能運行在計算能力M.n(M!=X)的硬件上。 ? ? ??2、PTX代碼兼容性 ? ? ? 不同計算能力的設備所支持的PTX指令條數是不同的,一些PTX指令只在擁有較高計算能力的設備上被支持。例如,全局內存(global Memory)的原子操作指令只能用于計算能力不小于1.1的設備;雙精度浮點運算指令只能用于計算能力不小于1.3的設備。在將C語言編譯為PTX代碼時,NVCC使用-arch編譯選項指定PTX代碼目標設備的計算能力。因此,要想使用雙精度運算,編譯時必須使用選項-arch=sm_13(或使用更高的計算能力),否則NVCC會自動將雙精度操作降級為單精度操作。 ? ? ? 為某一特定設備產生的PTX代碼,在運行時總是能夠被具有更高計算能力的設備JIT編譯為可執行的二進制代碼。 ? ? ? 3、應用程序兼容性 ? ? ? 執行CUDA程序有兩種方式,一種是直接加載編譯好的CUDA二進制代碼運行,另一種是首先加載程序中的PTX代碼,再執行JIT編譯得到二進制的設備可執行文件,然后運行。特別需要注意的是,為了讓程序運行具有更高計算能力的未來設備上,必須讓程序加載PTX代碼。 ? ? ? 事實上,在一個CUDA C程序中可以嵌入不止一個版本的PTX/二進制代碼。那么,具體執行時哪一個版本的PTX或者二進制代碼會得到執行呢?答案是:最兼容的那個版本。例如編譯一個名為x.cu的CUDA源代碼:
    將會產生兼容計算能力1.1硬件的二進制代碼(第一排的-gencode選項)以及兼容計算能力1.1設備的PTX和二進制代碼,這些代碼都將會嵌入到編譯后的目標文件中。 ? ? ? 主機端將會產生一些額外的代碼,在程序運行時,這些代碼會自動決定裝載哪一個版本的代碼來執行。對于上面的例子:
    • 計算能力1.0的設備運行該程序將會裝載1.0版本的二進制代碼
    • 計算能力1.1、1.2或者1.3的設備運行該程序將會裝載1.1版本的二進制代碼
    • 計算能力2.0或者更高的設備運行該程序將會裝載1.1版本的PTX代碼進而對其進行JIT編譯得到相應設備的二進制代碼
    ? ? ??同時,x.cu還可以在程序中使用一些特殊的宏來改變不同設備的代碼執行路徑。例如,對于計算能力1.1的設備而言,宏__CUDA_ARCH__等于110,在程序中可以對該宏的值進行判斷,然后分支執行程序。 ? ? ? NVCC用戶手冊列出了很多-arch,-code和-gencode等編譯選項的簡化書寫形式。例如,-arch=sm_13就是-arch=compute_13 -code=compute13, sm_13的簡化形式。更多詳盡的內容請參閱該手冊。 ? ? ? 4、C/C++兼容性 ? ? ? NVCC編譯器前端使用C++語法啊規則來處理CUDA源文件。在主機端,CUDA支持完整的C++語法;而在設備端,只有部分C++語法是被支持的。這方面更為詳盡的討論請參見《CUDA C程序設計指南》的C/C++語言支持章節。 ? ? ? 5、64位兼容性 ? ? ? 64位版本的nvcc編譯器將設備代碼編譯為64位模式,即指針是64位的。運行64位設備代碼的先決條件是主機端代碼必須也使用64位模式進行編譯。同樣,32位版本的nvcc將設備代碼編譯為32位模式,這些代碼也必須與相應的32位主機端代碼相配合方能運行。 ? ? ? 32位nvcc編譯器可以使用-m64編譯選項將設備代碼編譯為64位模式。同時64位nvcc編譯器也可使用-m32編譯選項將設備代碼編譯為32位模式。

    4.3 CUDA C Runtime

    ? ? ? ? CUDA C Runtime使用cudart動態鏈接庫實現(cudart.dll或者cudart.so),運行時中所有的入口函數都以cuda為前綴。

    4.3.1 初始化

    CUDA C Runtime函數庫沒有明確的初始化函數,在程序第一次調用Runtime庫函數時它會自動初始化。因此,在記錄Runtime函數調用時間和理解程序中第一個Runtime調用返回的錯誤代碼時,需要將初始化考慮在內。 ? ? ? ? 在初始化期間,Runtime將會為系統中每一個設備創建一個CUDA上下文(類似CPU中進程的數據結構),這個上下文是設備的基本上下文,它被程序中所有的主機線程所共享。創建過程在后臺運行,并且,Runtime將隱藏基本上下文使之對Runtime API這一層次的程序員不可見。 ? ? ? ? 當一個主機線程調用cudaDeviceReset()函數時,它將會銷毀線程當前控制設備的基本上下文。也就是說,當線程下一次調用runtime函數時將會重啟初始化,一個新的CUDA基本上下文將被創建出來。

    4.3.2 設備內存

    ? ? ? ? 正如前面異構計算章節所講,CUDA編程模型假定系統是由主機和設備構成的,它們分別具有自己獨立的內存空間。Runtime負責設備內存的分配,回收,拷貝以及在主機和設備間傳輸數據的工作。

    ? ? ? ? 設備內存可以有兩種分配方式:線性內存或者CUDA數組

    ? ? ? ? CUDA數組是一塊不透明的內存空間,它主要被優化用于紋理存取。

    ? ? ? ? 線性內存空間與平時我們訪問的內存類似,對于計算能力1.x的設備來說,它存在于一個32位的地址空間。對于更高計算能力的設備而言,它存在于一個40位的地址空間中。因此,單獨分配的實體可以使用指針來相互應用。

    ? ? ? ? 我們通常使用cudaMalloc()函數分配線性內存空間,使用cudaFree()函數釋放線性內存空間,使用cudaMemcpy()函數在主機和設備之間傳輸數據。下面是CUDA Vector Add代碼示例的一些片段:

    [cpp] view plaincopy
  • //?Device?code????
  • __global__?void?VecAdd(float?*A,?float?*B,?float?*C,?int?N)?{????
  • ????int?i?=?blockDim.x?*?blockIdx.x?+?threadIdx.x;????
  • ????if?(i?<?N)????
  • ????????C[i]?=?A[i]?+?B[i];????
  • }????
  • ????
  • //?Host?code????
  • int?main()?{????
  • ????int?N?=?...;????
  • ????size_t?size?=?N?*?sizeof(float);????
  • ????
  • ????//?Allocate?input?vectors?h_A?and?h_B?in?host?memory????
  • ????float?*h_A?=?(float*)malloc(size);????
  • ????float?*h_B?=?(float*)malloc(size);????
  • ????
  • ????//?Initialize?input?vectors????
  • ????...????
  • ?????
  • ????//?Allocate?vectors?in?device?memory????
  • ????float?*d_A,?*d_B,?*d_C;????
  • ????cudaMalloc(&d_A,?size);????
  • ????cudaMalloc(&d_B,?size);????
  • ????cudaMalloc(&d_C,?size);????
  • ????
  • ????//?Copy?vectors?from?host?memory?to?device?memory????
  • ????cudaMemcpy(d_A,?h_A,?size,?cudaMemcpyHostToDevice);????
  • ????cudaMemcpy(d_B,?h_B,?size,?cudaMemcpyHostToDevice);????
  • ????
  • ????//?Invoke?kernel????
  • ????int?threadsPerBlock?=?256;????
  • ????int?blocksPerGrid?=?(N?+threadsPerBlock?-?1)?/?threadsPerBlock;????
  • ????VecAdd<<<blocksPerGrid,?threadsPerBlock>>>(d_A,?d_B,?d_C,?N);????
  • ????
  • ????//?Copy?result?from?device?memory?to?host?Memory????
  • ????cudaMemcpy(h_C,?d_C,?size,?cudaMemcpyDeviceToHost);????
  • ????
  • ????//?Free?device?memory????
  • ????cudaFree(d_A);????
  • ????cudaFree(d_B);????
  • ????cudaFree(d_C);????
  • ????
  • ????//?Free?host?memory????
  • ????...????
  • }???
  • 片段展示了設備內存的分配,傳輸以及回收過程。

    ? ? ? ? 除了上面展示的方法,我們還可以使用cudaMallocPitch()和cudaMalloc3D()函數來分配線性內存。這些函數能夠確保分配的內存滿足設備內存訪問的對齊要求,對于行地址的訪問以及多維數組間的數據傳輸提供高性能保證,因此非常適合對于二維和三維數組內存空間的分配。下面的代碼片段展示了分配和使用尺寸為width x height的二維數組的技術:

    [cpp] view plaincopy
  • //?Host?code????
  • int?width?=?64,?height?=?64;????
  • float?*devPtr;????
  • size_t?pitch;????
  • cudaMallocPitch(&devPtr,?&pitch,?width?*?sizeof(float),?height);????
  • MyKernel<<<100,?512>>>(devPtr,?pitch,?width,?height);????
  • ????
  • //?Device?code????
  • __global__?void?MyKernel(float*?devPtr,?size_t?pitch,?int?width,?int?height)?{????
  • ????for?(int?r?=?0;?r?<?height;?++r)?{????
  • ????????float*?row?=?(float*)((char*)devPtr?+?r?*?pitch);????
  • ????????for?(int?c?=?0;?c?<?width;?++c)?{????
  • ????????????float?element?=?row[c];????
  • ????????}????
  • ????}????
  • }????
  • ? ? ? ? 下面的代碼片段展示了一個尺寸為width x height x depth的三維數組的分配和使用方法:

    [cpp] view plaincopy
  • //?Host?code????
  • int?width?=?64,?height?=?64,?depth?=?64;????
  • cudaExtent?extent?=?make_cudaExtent(width?*?sizeof(float),?height,?depth);????
  • cudaPitchedPtr?devPitchedPtr;????
  • cudaMalloc3D(&devPitchedPtr,?extent);????
  • MyKernel<<<100,?512>>>(devPitchedPtr,?width,?height,?depth);????
  • ????
  • //?Device?code????
  • __global__?void?MyKernel(cudaPitchedPtr?devPitchedPtr,?int?width,?int?height,?int?depth)?{????
  • ????char*?devPtr?=?devPitchedPtr.ptr;????
  • ????size_t?pitch?=?devPitchedPtr.pitch;????
  • ????size_t?slicePitch?=?pitch?*?height;????
  • ????for?(int?z?=?0;?z?<?depth;?++z)?{????
  • ????????char*?slice?=?devPtr?+?z?*?slicePitch;????
  • ????????for?(int?y?=?0;?y?<?height;?++y)?{????
  • ????????????float*?row?=?(float*)(slice?+?y?*?pitch);????
  • ????????????for?(int?x?=?0;?x?<?width;?++x)????
  • ????????????????float?element?=?row[x];????
  • ????????}????
  • ????}????
  • }????
  • 更多詳細的內容請查閱參考手冊。

    ? ? ? ? 下面的代碼示例展示了多種使用Runtime API訪問全局變量的技術:

    [cpp] view plaincopy
  • __constant__?float?constData[256];????
  • float?data[256];????
  • cudaMemcpyToSymbol(constData,?data,?sizeof(data));????
  • cudaMemcpyFromSymbol(data,?constData,?sizeof(data));????
  • ????
  • __device__?float?devData;????
  • float?value?=?3.14f;????
  • cudaMemcpyToSymbol(devData,?&value,?sizeof(float));????
  • ????
  • __device__?float*?devPointer;????
  • float*?ptr;????
  • cudaMalloc(&ptr,?256?*?sizeof(float));????
  • cudaMemcpyToSymbol(devPointer,?&ptr,?sizeof(ptr));????
  • 使用cudaGetSymbolAddress()函數可以獲得被聲明存儲在全局內存中的變量地址。為了獲得分配內存的大小,可以使用cudaGetSymbolSize()函數。

    4.3 CUDA C Runtime

    4.3.3 共享內存(Shared Memory)

    ? ? ? ? 共享內存是CUDA設備中非常重要的一個存儲區域,有效地使用共享內存可以充分利用CUDA設備的潛能,極大提升程序性能。那么,共享內存有哪些特點呢? ? ? ? ? 1、共享內存(shared Memory)是集成在GPU處理器芯片上的(on-chip),因此相比于存在于顯存顆粒中的全局內存(global Memory)和本地內存(local Memory),它具有更高的傳輸帶寬,一般情況下,共享內存的帶寬大約是全局內存帶寬的7-10倍。 ? ? ? ? 2、共享內存的容量很小。根據NVIDIA官方文檔的說法,在計算能力1.x的設備中,每一個流多處理器(Streaming Multiprocessor)上的共享內存容量為16KB。對于計算能力2.x、3.0及3.5的設備該參數為48KB。因此共享內存是稀有資源。 ? ? ? ? 3、共享內存在物理上被劃分為很多塊,每一塊被稱為一個存儲體(bank)。在同一時刻,CUDA設備可以同時訪問多個存儲體。因此,如果一次針對共享內存的訪存操作需要讀取n個地址,而這n個地址恰好分布在n個不同的存儲體(bank)中,那么只需要一個存取周期就可以完成n個地址的訪存任務了。對于計算能力1.x的設備,共享內存被平均劃分為16個存儲體。而對于計算能力2.x、3.0及3.5的設備此參數為32。在共享內存中,相鄰兩塊32bit的數據分別屬于相鄰的兩個存儲體。存儲體每兩個時鐘周期可以傳輸32位數據。 ? ? ? ? 4、共享內存既可以靜態分配,也可以動態分配。 ? ? ? ? 從共享內存的這些特點中我們可以看出,它實際上相當于一個程序員可以操控的緩存(cache),下面,我們使用矩陣乘法的例子來說明如何有效使用共享內存。 ? ? ? ? 首先,我們使用最直觀的方法來完成矩陣乘法C = A x B:讀取A的每一行和B的每一列,順次完成計算任務。矩陣乘法的示意圖如下所示:

    下面是矩陣乘法的CUDA C主要實現代碼: [cpp] view plaincopy
  • //?Matrices?are?stored?in?row-major?order:????
  • //?M(row,?col)?=?*(M.elements?+?row?*?M.width?+?col)????
  • typedef?struct?{????
  • ????int?width;????
  • ????int?height;????
  • ????float?*elements;????
  • }?Matrix;????
  • ????
  • //?Thread?block?size????
  • #define?BLOCK_SIZE?16????
  • ????
  • //?Forward?declaration?of?the?matrix?multiplication?kernel????
  • __global__?void?MatMulKernel(const?Matrix,?const?Matrix,?Matrix);????
  • ????
  • //?Matrix?multiplication?-?Host?code????
  • //?Matrix?dimensions?are?assumed?to?be?multiples?of?BLOCK_SIZE????
  • void?MatMul(const?Matrix?A,?const?Matrix?B,?Matrix?C)?{????
  • ????//?Load?A?and?B?to?device?memory????
  • ????Matrix?d_A;????
  • ????d_A.width?=?A.width;?d_A.height?=?A.height;????
  • ????size_t?size?=?A.width?*?A.height?*?sizeof(float);????
  • ????cudaMalloc(&d_A.elements,?size);????
  • ????cudaMemcpy(d_A.elements,?A.elements,?size,?cudaMemcpyHostToDevice);????
  • ????Matrix?d_B;????
  • ????d_B.width?=?B.width;?d_B.height?=?B.height;????
  • ????size?=?B.width?*?B.height?*?sizeof(float);????
  • ????cudaMalloc(&d_B.elements,?size);????
  • ????cudaMemcpy(d_B.elements,?B.elements,?size,?cudaMemcpyHostToDevice);????
  • ????
  • ????//?Allocate?C?in?device?memory????
  • ????Matrix?d_C;????
  • ????d_C.width?=?C.width;?d_C.height?=?C.height;????
  • ????size?=?C.width?*?C.height?*?sizeof(float);????
  • ????cudaMalloc(&d_C.elements,?size);????
  • ????
  • ????//?Invoke?kernel????
  • ????dim3?dimBlock(BLOCK_SIZE,?BLOCK_SIZE);????
  • ????dim3?dimGrid(B.width?/?dimBlock.x,?A.height?/?dimBlock.y);????
  • ????MatMulKernel<<<dimGrid,?dimBlock>>>(d_A,?d_B,?d_C);????
  • ????
  • ????//?Read?C?from?device?memory????
  • ????cudaMemcpy(C.elements,?d_c.elements,?size,?cudaMemcpyDeviceToHost);????
  • ????
  • ????//?Free?device?memory????
  • ????cudaFree(d_A.elements);????
  • ????cudaFree(d_B.elements);????
  • ????cudaFree(d_C.elements);????
  • }????
  • ????
  • //?Matrix?multiplication?kernel?called?by?MatMul()????
  • __global__?void?MatMulKernel(Matrix?A,?Matrix?B,?Matrix?C)?{????
  • ????//?Each?thread?computes?one?element?of?C????
  • ????//?by?accumulating?results?into?Cvalue????
  • ????float?Cvalue?=?0;????
  • ????int?row??=?blockIdx.y?*?blockDim.y?+?threadIdx.y;????
  • ????int?col?=?blockIdx.x?*?blockDim.x?+?threadIdx.xl????
  • ????for?(int?e?=?0;?e?<?A.width;?++e)????
  • ????????Cvalue?+=?A.elements[row?*?A.width?+?e]?*?B.elements[e?*?B.width?+?col];????
  • ????C.elements[row?*?C.width?+?col]?=?Cvalue;????
  • }??
  • 可以看出,為了計算矩陣C的任何一個元素,程序都需要從全局內存(global memory)中獲得矩陣A的一行和矩陣B的一列。因此,完成這一計算矩陣A被讀取了B.width次,矩陣B被讀取了A.height次。 現在我們來使用共享內存(shared memory)實現矩陣乘法。假設矩陣C可以被劃分為若干個較小的子方陣Csub,我們使用一個線程塊(thread block)來負責某一子方陣的計算,線程塊中的每一個線程(thread)正好負責子方陣Csub中一個元素的計算。這樣劃分后,任何一個結果子方陣Csub'(尺寸為block_size * block_size)都是與該方陣具有相同行索引的尺寸為A.width * block_size的A的子矩陣Asub和與該方陣具有相同列索引的尺寸為block_size * B.height的B的子矩陣Bsub相乘所得到。 ? ? ? ? 為了匹配設備的計算資源,兩個子矩陣Asub和Bsub被劃分為盡可能多的分離的維度為block_size的子方陣,Csub的值便是這些子矩陣相乘后相加所得到的結果。子矩陣乘法的執行順序都是首先將它們從全局內存(global memory)拷貝到共享內存(shared memory)(線程塊中的每一個線程正好負責方陣一個元素的拷貝),然后由線程自己完成相應元素的計算任務,利用寄存器存儲局部結果,最后將寄存器的內容與新得到的計算結果依此累加起來得到最終運算結果并將其傳輸到全局內存(global memory)中。 ? ? ? ? 通過使用這種分治的計算策略,共享內存得到了很好的利用,采用這種方案計算完成時全局內存中矩陣A被訪問的次數為B.width / block_size,矩陣B被訪問的次數為A.height / block_size,很明顯,這為我們節省了非常多的全局內存帶寬。優化后的矩陣計算示意圖如下所示:

















































    ? ? ? ? 為了提升計算效率,我們為類型Matrix增加了一個成員變量stride。__device__函數用來獲得和設置子矩陣的元素。下面是優化后的代碼: [cpp] view plaincopy
  • //?Matrices?are?stored?in?row-major?order;????
  • //?M(row,?col)?=?*(M.elements?+?row?*?M.stride?+?col)????
  • typedef?struct?{????
  • ????int?width;????
  • ????int?height;????
  • ????int?stride;????
  • ????float*?elements;????
  • }?Matrix;????
  • ????
  • //?Get?a?matrix?element????
  • __device__?float?GetElement(const?Matrix?A,?int?row,?int?col)?{????
  • ????return?A.elements[row?*?A.stride?+?col];????
  • }????
  • ????
  • //?Set?a?matrix?element????
  • __device__?void?SetElement(Matrix?A,?int?row,?int?col,?float?value)?{????
  • ????A.elements[row?*?A.stride?+?col]?=?value;????
  • }????
  • ????
  • //?Get?the?BLOCK_SIZExBLOCK_SIZE?sub-matrix?Asub?of?A?that?is????
  • //?located?col?sub-matrices?to?the?right?and?row?sub-matrices?down????
  • //?from?the?upper-left?corner?of?A????
  • __device__?Matrix?GetSubMatrix(Matrix?A,?int?row,?int?col)?{????
  • ????Matrix?Asub;????
  • ????Asub.width?=?BLOCK_SIZE;????
  • ????Asub.height?=?BLOCK_SIZE;????
  • ????Asub.stride?=?A.stride;????
  • ????Asub.elements?=?&A.elements[A.stride?*?BLOCK_SIZE?*?row?+?BLOCK_SIZE?*?col];????
  • ????return?Asub;????
  • }????
  • ????
  • //?Thread?block?size????
  • #define?BLOCK_SIZE?16????
  • ????
  • //?Forward?declaration?of?the?matrix?multiplication?kernel????
  • __global__?void?MatMulKernel(const?Matrix,?const?Matrix,?Matrix);????
  • ????
  • //?Matrix?multiplication?-?Host?code????
  • //?Matrix?dimensions?are?assumed?to?be?multiples?of?BLOCK_SIZE????
  • void?MatMul(const?Matrix?A,?const?Matrix?B,?Matrix?C)?{????
  • ????//?Load?A?and?B?to?device?memory????
  • ????Matrix?d_A;????
  • ????d_A.width?=?d_A.stride?=?A.width;????
  • ????d_A.height?=?A.height;????
  • ????size_t?size?=?A.width?*?A.height?*?sizeof(float);????
  • ????cudaMalloc(&d_A.elements,?size);????
  • ????cudaMemcpy(d_A.elements,?A.elements,?size,?cudaMemcpyHostToDevice);????
  • ????Matrix?d_B;????
  • ????d_B.width?=?d_B.stride?=?B.width;????
  • ????d_B.height?=?B.height;????
  • ????size?=?B.width?*?B.height?*?sizeof(float);????
  • ????cudaMalloc(&d_B.elements,?size);????
  • ????cudaMemcpy(d_B.elements,?B.elements,?size,?cudaMemcpyHostToDevice);????
  • ????
  • ????//?Allocate?C?in?device?memory????
  • ????Matrix?d_C;????
  • ????d_C.width?=?d_C.stride?=?C.width;????
  • ????d_C.height?=?C.height;????
  • ????size?=?C.width?*?C.height?*?sizeof(float);????
  • ????cudaMalloc(&d_C.elements,?size);????
  • ????
  • ????//?Invoke?kernel????
  • ????dim3?dimBlock(BLOCK_SIZE,?BLOCK_SIZE);????
  • ????dim3?dimGrid(B.width?/?dimBlock.x,?A.height?/?dimBlock.y);????
  • ????MatMulKernel<<<dimGrid,?dimBlock>>>(d_A,?d_B,?d_C);????
  • ????
  • ????//?Read?C?from?device?memory????
  • ????cudaMemcpy(C.elements,?d_C.elements,?size,?cudaMemcpyDeviceToHost);????
  • ????
  • ????//?Free?device?memory????
  • ????cudaFree(d_A.elements);????
  • ????cudaFree(d_B.elements);????
  • ????cudaFree(d_C.elements);????
  • }????
  • ????
  • //?Matrix?multiplication?kernel?called?by?MatMul()????
  • __global__?void?MatMulKernel(Matrix?A,?Matrix?B,?Matrix?C)?{????
  • ????//?Block?row?and?column????
  • ????int?blockRow?=?blockIdx.y;????
  • ????int?blockCol?=?blockIdx.x;????
  • ????
  • ????//?Each?thread?block?computes?one?sub-matrix?Csub?of?C????
  • ????Matrix?Csub?=?GetSubMatrix(C,?blockRow,?blockCol);????
  • ????
  • ????//?Each?thread?computes?one?element?of?Csub????
  • ????//?by?accumulating?results?into?Cvalue????
  • ????float?Cvalue?=?0;????
  • ????
  • ????//?Thread?row?and?column?within?Csub????
  • ????int?row?=?threadIdx.y;????
  • ????int?col?=?threadIdx.x;????
  • ????
  • ????//?Look?over?all?the?sub-matrices?of?A?and?B?that?are?required?to?compute?Csub????
  • ????//?Multiply?each?pair?of?sub-matrices?together?and?accumulate?the?results????
  • ????for?(int?m?=?0;?m?<?(A.width?/?BLOCK_SIZE);?++m)?{????
  • ????????//?Get?sub-matrix?Asub?of?A????
  • ????????Matrix?Asub?=?GetSubMatrix(A,?blockRow,?m);????
  • ????????????
  • ????????//?Get?sub-matrix?Bsub?of?B????
  • ????????Matrix?Bsub?=?GetSubMatrix(B,?m,?blockCol);????
  • ????
  • ????????//?Shared?memory?used?to?store?Asub?and?Bsub?respectively????
  • ????????__shared__?float?As[BLOCK_SIZE][BLOCK_SIZE];????
  • ????????__shared__?float?Bs[BLOCK_SIZE][BLOCK_SIZE];????
  • ????
  • ????????//?Load?Asub?and?Bsub?from?device?memory?to?shared?memory????
  • ????????//?Each?thread?loads?one?element?of?each?sub-matrix????
  • ????????As[row][col]?=?GetElement(Asub,?row,?col);????
  • ????????Bs[row][col]?=?GetElement(Bsub,?row,?col);????
  • ????
  • ????????//?Synchronize?to?make?sure?the?sub-matrices?are?loaded????
  • ????????//?before?starting?the?computation????
  • ????????__syncthreads();????
  • ????
  • ????????//?Multiply?Asub?and?Bsub?together????
  • ????????for?(int?e?=?0;?e?<?BLOCK_SIZE;?++e)????
  • ????????????Cvalue?+=?As[row][e]?*?Bs[e][col];????
  • ????
  • ????????//?Synchronize?to?make?sure?that?the?preceding?computation?is?done?before????
  • ????????//?loading?two?new?sub-matrices?of?A?and?B?in?the?next?iteration????
  • ????????__syncthreads();????
  • ????}????
  • ????
  • ????//?Write?Csub?to?device?memory????
  • ????//?Each?thread?writes?one?element????
  • ????SetElement(Csub,?row,?col,?Cvalue);????
  • }???
  • 異步并行執行


    主機和設備間并行執行

    ? ? ? ? 為了支持主機和設備的并行執行,CUDA提供了一些異步函數。異步是指設備在完成功能執行之前就將控制權交還給主機線程,以便主機線程繼續執行。這些函數有: ? ? ? ? 1、內涵啟動(Kernel Launches); ? ? ? ? 2、同一設備內存中兩個地址塊之間的數據傳輸; ? ? ? ? 3、從主機到設備的小于或等于64KB的一次數據塊傳輸; ? ? ? ? 4、使用Async前綴函數進行的數據傳輸; ? ? ? ? 5、內存置位函數調用(Memory set functions calls)。 程序員可以通過設置環境變量CUDA_LAUNCH_BLOCKING來開啟或者關閉內核啟動(Kernel Launch)的異步功能。但是這一方法僅限于調試,在任何產品代碼中不應當關閉異步內核啟動。 ? ? ? ? 內核啟動在下面這些情況下則是同步的: ? ? ? ? 1、應用程序通過調試器或者內存檢查器運行在計算能力為1.x的設備上。 ? ? ? ? 2、硬件計數器信息正被性能分析器收集。

    將內核啟動與數據傳輸重疊起來

    ? ? ? ? 對于一些計算能力等于或高于1.1的設備,它們可以將內核啟動任務和鎖頁內存到設備內存的數據傳輸任務并行執行。應用程序可以檢查設備屬性中的asyncEngineCount項來確定設備是否支持這一功能。當該項值大于0時代表設備支持這一層次的并行。對于計算能力1.x的設備,該功能不支持通過cudaMallocPitch()函數分配的CUDA數組或2D數組。


    并行內核執行

    ? ? ? ? 一些計算能力2.x或更高的設備可以同時并行執行多個內核函數。應用程序可以檢查設備屬性中的concurrentKernels項來確定設備是否支持這一功能,值為1代表支持。運算能力3.5的設備在同一時刻能夠并行執行的最大內核函數數量為32,運算能力小于3.5的硬件則最多支持同時啟動16個內核函數的執行。同時需要注意的是,在一個CUDA上下文中的內核函數不能與另一個CUDA上下文中的內核函數同時執行。使用很多紋理內存或者大量本地內存的內核函數也很可能無法與其它內核函數并行執行。


    并行數據傳輸

    ? ? ? ? 一些計算能力為2.x或更高的設備可以將鎖頁內存到設備內存的數據傳輸和設備內存到鎖頁內存的數據傳輸并行執行。應用程序可檢查設備屬性中的asyncEngineCount項來確定這一功能的支持程度,等于2時表示支持。


    流(Streams)

    ? ? ? ? 應用程序通過流來管理并行。一個流是一個順次執行的命令序列。不同的流之間并行執行,沒有固定的執行順序。

    1、流的創建與銷毀

    ? ? ? ? 定義一個流的過程通常包括:創建一個流對象,然后指定它為內核啟動或者主機設備間數據傳輸的流參數。下面的一段代碼創建了兩個流并且在鎖頁內存中分配了一塊float類型的數組hostPtr:

    [cpp] view plaincopy
  • cudaStream_t?stream[2];??
  • for?(int?i?=?0;?i?<?2;?++i)??
  • ????cudaStreamCreate(&stream[i]);??
  • float?*hostPtr;??
  • cudaMallocHost(&hostPtr,?2?*?size);??
  • 下面的代碼定義了每一個流的行為:從主機端拷貝數據到設備端,內核啟動,從設備端拷貝數據到主機端:
    [cpp] view plaincopy
  • for?(int?i?=?0;?i?<?2;?++i)?{??
  • ????cudaMemcpyAsync(inputDevPtr?+?i?*?size,?hostPtr?+?i?*?size,?size,?cudaMemcpyHostToDevice,?stream[i]);??
  • ????MyKernel<<<100,?512,?0,?stream[i]>>>(outputDevPtr?+?i?*?size,?inputDevPtr?+?i?*?size,?size);??
  • ????cudaMemcpyAsync(hostPtr?+?i?*?size,?outputDevPtr?+?i?*?size,?size,?cudaMemcpyDeviceToHost,?stream[i]);??
  • }??
  • 這部分代碼中有一點需要注意:為了并行化數據拷貝和內核執行,主機端內存必須分配為鎖頁(page-locked)內存。

    要銷毀一個流需要調用函數cudaStreamDestroy()

    [cpp] view plaincopy
  • for?(int?i?=?0;?i?<?2;?++i)??
  • ????cudaStreamDestroy(stream[i]);??
  • cudaStreamDestroy() 函數等待之前流中的指令序列運行完成,然后銷毀指定流,將控制權返還給主機端。

    2、默認流(Default stream)

    ? ? ? ? 在內核啟動或者數據拷貝過程中如果不指定流,或者設置流參數為0,則相應的指令將會運行在默認流上,它們也因此而順次執行。

    3、明同步(Explicit Synchronization)

    ? ? ? ? 在CUDA中有很多種方式可以用來同步流的執行:

    ? ? ? ??cudaDeviceSynchronize()函數使得主機端線程阻塞直到所有流中的指令執行完成。

    ? ? ? ?cudaStreamSynchronize()函數將一個流對象作為輸入參數,用以等待指定流中的所有指令執行完成。

    ? ? ? ?cudaStreamWaitEvent()函數將一個流對象和一個事件作為輸入參數,它將延遲該函數調用后在指定流中所有新加入的命令的執行直到指定的事件完成為止。流參數可以為0,在該情形下所有流中的任何新加入的指令都必須等待指定事件的發生,然后才可以執行。

    ? ? ? ?cudaStreamQuery()函數為應用程序提供了一個檢測指定流中之前指令是否執行完成的方法。

    ? ? ? ? 為了避免同步帶來的性能下降,所有上述同步函數最好用于計時目的或者分離錯誤的內核執行或數據拷貝。

    4、暗同步(Implicit Synchronization)

    ? ? ? ? 如果任何一個流中正在執行以下操作,那么其它流是不能與其并行運行的:

    ? ? ? ? a. 分配鎖頁內存空間

    ? ? ? ? b. 設備內存分配

    ? ? ? ? c. 設備內存置位

    ? ? ? ? d. 同一設備兩個不同地址間正在進行數據拷貝

    ? ? ? ? e. 默認流中有指令正在執行

    ? ? ? ? f. L1/shared內存配置的轉換

    ? ? ? ? 對于支持并行內核執行并且計算能力3.0或以下的設備來說,任何一個需要檢查依賴性以確定流內核啟動是否完成的操作:

    ? ? ? ? a. 只有當前CUDA上下文中所有流中所有之前的內核啟動之后才能夠啟動執行。

    ? ? ? ? b. 將會阻塞所有當前CUDA上下文中的任意流中新加入的內核調用直到內核檢查完成。

    ? ? ? ? 需要進行依賴性檢查的操作包括執行檢查的內核啟動所在流中的其它指令以及任何在該流上對cudaStreamQuery()函數的調用。因此,應用程序可以遵照以下指導原則來提升潛在并行性:

    ? ? ? ? (1)所有非依賴操作應當比依賴性操作提前進行

    ? ? ? ? (2)任何類型的同步越遲越好

    5、重疊行為(Overlapping Behavior)

    ? ? ? ? 兩個流間重疊行為的數量取決于以下幾個因素:

    ? ? ? ? (1)每個流中命令發出的次序

    ? ? ? ? (2)設備是否支持內核啟動與數據傳輸并行

    ? ? ? ? (3)設備是否支持多內核并行啟動

    ? ? ? ? (4)設備是否支持多數據傳輸并行

    ? ? ? ? 例如,在不支持并行數據傳輸的設備上,“流的創建與銷毀”章節中代碼樣例中的操作就不能并行,因為在stream[0]中發出設備端到主機端的數據拷貝后,stream[1]又發出主機端到設備端的數據拷貝命令,這兩個命令式不能重疊執行的。假設設備支持數據傳輸與內核啟動并行,那么如下代碼:

    [cpp] view plaincopy
  • for?(int?i?=?0;?i?<?2;?++i)??
  • ????cudaMemcpyAsync(inputDevPtr?+?i?*?size,?hostPtr?+?i?*?size,?size,?cudaMemcpyHostToDevice,?stream[i]);??
  • for?(int?i?=?0;?i?<?2;?++i)??
  • ????MyKernel<<<100,?512,?0,?stream[i]>>>(outputDevPtr?+?i?*?size,?inputDevPtr?+?i?*?size,?size);??
  • for?(int?i?=?0;?i?<?2;?++i)??
  • ????cudaMemcpyAsync(hostPtr?+?i?*?size,?outputDevPtr?+?i?*?size,?size,?cudaMemcpyDeviceToHost,?stream[i]);??
  • 可將stream[0]的內核啟動和stream[1]從主機端到設備端的數據拷貝重疊起來并行執行。

    6、回調函數

    ? ? ? ? CUDA運行時提供了cudaStreamAddCallback()函數以在流中的任意位置插入一個回調函數點。回調函數運行于主機端,如果在默認流中插入回調函數,那么它將等待所有其它流中的命令執行完成之后才會開始執行。

    ? ? ? ? 下面的代碼展示了回調函數技術的應用:

    [cpp] view plaincopy
  • void?CUDART_CB?MyCallback(cudaStream_t?stream,?cudaError_t?status,?void?**data)?{??
  • ????printf("Inside?callback?%d\n",?(int)data);??
  • }??
  • ...??
  • for?(int?i?=?0;?i?<?2;?++i)?{??
  • ????cudaMemcpyAsync(devPtrIn[i],?hostPtr[i],?size,?cudaMemcpyHostToDevice,?stream[i]);??
  • ????MyKernel<<<100,?512,?0,?stream[i]>>>(devPtrOut[i],?devPtrIn[i],?size);??
  • ????cudaMemcpyAsync(hostPtr[i],?devPtrOut[i],?size,?cudaMemcpyDeviceToHost,?stream[i]);??
  • ????cudaStreamAddCallback(stream[i],?MyCallback,?(void**)i,?0);??
  • }??
  • 上面的代碼定義了兩個流的操作,每個流都完成一次主機端到設備端的數據拷貝,一次內核啟動,一次設備端到主機端的數據拷貝,最后增加了一個加入回調函數的操作。當設備端代碼運行到回調函數點的時候,設備將控制權交還給主機端,主機端運行完成以后再將控制權返還給設備端,然后設備端繼續運行。

    ? ? ? ? 值得注意的是,在一個回調函數中,一定不能進行任何CUDA API的調用,直接的或者間接的都是不可以的。

    總結

    以上是生活随笔為你收集整理的CUDA编程指南阅读笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    丝袜 中出 制服 人妻 美腿 | 人妻尝试又大又粗久久 | 国产精品亚洲а∨无码播放麻豆 | 免费中文字幕日韩欧美 | 无码免费一区二区三区 | 国产免费无码一区二区视频 | 欧美激情综合亚洲一二区 | 亚洲精品国产第一综合99久久 | 亚洲精品鲁一鲁一区二区三区 | 亚洲成a人片在线观看无码3d | 久久综合网欧美色妞网 | 老司机亚洲精品影院无码 | 亚洲自偷自偷在线制服 | 97久久国产亚洲精品超碰热 | 在线a亚洲视频播放在线观看 | 免费无码的av片在线观看 | 婷婷丁香六月激情综合啪 | 波多野结衣一区二区三区av免费 | 国产午夜福利100集发布 | 黑人大群体交免费视频 | 丰满人妻被黑人猛烈进入 | 国内揄拍国内精品人妻 | 无码帝国www无码专区色综合 | 国语精品一区二区三区 | 中国女人内谢69xxxxxa片 | 无套内谢的新婚少妇国语播放 | 免费观看激色视频网站 | 日韩无码专区 | 丝袜美腿亚洲一区二区 | 亚欧洲精品在线视频免费观看 | 久久精品人人做人人综合试看 | 亚洲 日韩 欧美 成人 在线观看 | 欧美人与善在线com | 久久久久久亚洲精品a片成人 | 午夜精品久久久久久久久 | 成年女人永久免费看片 | 国产明星裸体无码xxxx视频 | 中文字幕av无码一区二区三区电影 | 欧美丰满少妇xxxx性 | 日本丰满熟妇videos | ass日本丰满熟妇pics | 国产精品嫩草久久久久 | 国产av一区二区精品久久凹凸 | 亚洲成色www久久网站 | 国产精品久久久久9999小说 | 兔费看少妇性l交大片免费 | 久久久精品人妻久久影视 | 国产高清av在线播放 | 熟妇女人妻丰满少妇中文字幕 | 无码人妻丰满熟妇区五十路百度 | 综合网日日天干夜夜久久 | 色五月丁香五月综合五月 | 自拍偷自拍亚洲精品被多人伦好爽 | 97人妻精品一区二区三区 | 中文精品久久久久人妻不卡 | 1000部啪啪未满十八勿入下载 | 久久婷婷五月综合色国产香蕉 | 任你躁国产自任一区二区三区 | 午夜精品一区二区三区的区别 | 丝袜美腿亚洲一区二区 | 精品午夜福利在线观看 | 丰满人妻精品国产99aⅴ | 久久国产劲爆∧v内射 | 国产极品美女高潮无套在线观看 | 国产激情无码一区二区app | 久久久久久九九精品久 | 人妻无码αv中文字幕久久琪琪布 | 99久久久无码国产精品免费 | 高潮毛片无遮挡高清免费视频 | 中文字幕色婷婷在线视频 | 欧美自拍另类欧美综合图片区 | 亚洲熟妇色xxxxx欧美老妇 | 免费看男女做好爽好硬视频 | 欧美熟妇另类久久久久久不卡 | 小泽玛莉亚一区二区视频在线 | 色五月五月丁香亚洲综合网 | 我要看www免费看插插视频 | 日本饥渴人妻欲求不满 | 精品国产一区二区三区av 性色 | 成人一区二区免费视频 | 中文字幕人妻无码一夲道 | 亚洲理论电影在线观看 | 国产69精品久久久久app下载 | 在线观看国产一区二区三区 | 亚洲男人av天堂午夜在 | 色一情一乱一伦一区二区三欧美 | 黄网在线观看免费网站 | 日本又色又爽又黄的a片18禁 | 内射巨臀欧美在线视频 | 亚洲娇小与黑人巨大交 | 99精品久久毛片a片 | 亚洲精品一区二区三区四区五区 | 国产农村乱对白刺激视频 | 国产内射爽爽大片视频社区在线 | 亚洲日韩精品欧美一区二区 | 久久99精品国产麻豆蜜芽 | 精品无码成人片一区二区98 | 女人高潮内射99精品 | 成人欧美一区二区三区 | 日本乱人伦片中文三区 | 亚洲欧美精品aaaaaa片 | 亚洲の无码国产の无码影院 | 丝袜美腿亚洲一区二区 | 超碰97人人做人人爱少妇 | 日本一卡2卡3卡4卡无卡免费网站 国产一区二区三区影院 | 日本大香伊一区二区三区 | 男女下面进入的视频免费午夜 | 一区二区传媒有限公司 | 久久综合九色综合97网 | 日韩少妇内射免费播放 | 丁香花在线影院观看在线播放 | 亚洲精品午夜无码电影网 | 成 人影片 免费观看 | 黑人巨大精品欧美一区二区 | 国产乱子伦视频在线播放 | 成人精品天堂一区二区三区 | 国产真实乱对白精彩久久 | 荫蒂被男人添的好舒服爽免费视频 | 牛和人交xxxx欧美 | 大屁股大乳丰满人妻 | 国产免费无码一区二区视频 | 久精品国产欧美亚洲色aⅴ大片 | 乱码午夜-极国产极内射 | 男人和女人高潮免费网站 | 熟女俱乐部五十路六十路av | 熟妇人妻无乱码中文字幕 | 成熟妇人a片免费看网站 | 久久久久免费看成人影片 | 欧美亚洲日韩国产人成在线播放 | 暴力强奷在线播放无码 | 午夜精品一区二区三区的区别 | 无码一区二区三区在线 | 乱人伦人妻中文字幕无码久久网 | 国产区女主播在线观看 | 亚拍精品一区二区三区探花 | 国产午夜无码精品免费看 | 国产香蕉尹人视频在线 | 欧美激情综合亚洲一二区 | 日韩欧美群交p片內射中文 | 国产人成高清在线视频99最全资源 | 亚洲一区二区观看播放 | 成在人线av无码免观看麻豆 | 国产成人无码专区 | 久久久精品国产sm最大网站 | 毛片内射-百度 | av无码久久久久不卡免费网站 | 无码人妻av免费一区二区三区 | 亚洲va欧美va天堂v国产综合 | 国产精品对白交换视频 | 在线天堂新版最新版在线8 | 国产精品第一国产精品 | 久久综合九色综合欧美狠狠 | 性欧美大战久久久久久久 | 中文字幕久久久久人妻 | 国产乱人无码伦av在线a | 人人妻人人藻人人爽欧美一区 | 国产精品怡红院永久免费 | 午夜男女很黄的视频 | 亚洲精品午夜国产va久久成人 | 欧美丰满老熟妇xxxxx性 | 老太婆性杂交欧美肥老太 | 日韩亚洲欧美精品综合 | 人人澡人摸人人添 | 88国产精品欧美一区二区三区 | 人妻少妇精品无码专区二区 | 熟女少妇在线视频播放 | 中文毛片无遮挡高清免费 | 亚洲 日韩 欧美 成人 在线观看 | 巨爆乳无码视频在线观看 | 国产亚洲精品久久久久久国模美 | 水蜜桃亚洲一二三四在线 | 好爽又高潮了毛片免费下载 | 老熟妇乱子伦牲交视频 | 丁香啪啪综合成人亚洲 | 蜜桃av蜜臀av色欲av麻 999久久久国产精品消防器材 | 国产绳艺sm调教室论坛 | 国产成人一区二区三区别 | 性生交大片免费看l | 丁香花在线影院观看在线播放 | 国产熟妇另类久久久久 | 丰满人妻翻云覆雨呻吟视频 | 国产美女精品一区二区三区 | 色噜噜亚洲男人的天堂 | 国产内射爽爽大片视频社区在线 | 国产成人午夜福利在线播放 | 两性色午夜视频免费播放 | 亚洲一区二区三区无码久久 | 国产精品无码成人午夜电影 | 欧美野外疯狂做受xxxx高潮 | 99riav国产精品视频 | 久久精品无码一区二区三区 | aⅴ亚洲 日韩 色 图网站 播放 | 国产又爽又猛又粗的视频a片 | 成人性做爰aaa片免费看 | 欧洲欧美人成视频在线 | 少妇性荡欲午夜性开放视频剧场 | 欧美怡红院免费全部视频 | 国产精品18久久久久久麻辣 | 久久久精品欧美一区二区免费 | 亚洲男人av天堂午夜在 | 日本免费一区二区三区最新 | 无码av岛国片在线播放 | 国产乱人伦app精品久久 国产在线无码精品电影网 国产国产精品人在线视 | 国产偷国产偷精品高清尤物 | 色婷婷综合激情综在线播放 | 精品久久综合1区2区3区激情 | 国产莉萝无码av在线播放 | 97久久国产亚洲精品超碰热 | 少妇高潮喷潮久久久影院 | 午夜福利一区二区三区在线观看 | 国产av一区二区精品久久凹凸 | 午夜成人1000部免费视频 | 亚洲日本va午夜在线电影 | 国产av人人夜夜澡人人爽麻豆 | 亚洲の无码国产の无码步美 | 搡女人真爽免费视频大全 | 国产va免费精品观看 | 丰满人妻一区二区三区免费视频 | 成 人 网 站国产免费观看 | 性啪啪chinese东北女人 | 国产亚洲人成在线播放 | 精品久久久久久人妻无码中文字幕 | 日日夜夜撸啊撸 | 国产99久久精品一区二区 | 亚洲va中文字幕无码久久不卡 | 久热国产vs视频在线观看 | 九月婷婷人人澡人人添人人爽 | 中文久久乱码一区二区 | 成人精品天堂一区二区三区 | 国产无av码在线观看 | 俺去俺来也www色官网 | 中文精品无码中文字幕无码专区 | 欧美黑人巨大xxxxx | 久久精品中文字幕大胸 | 国产精品无码mv在线观看 | 日本丰满熟妇videos | 99久久婷婷国产综合精品青草免费 | 亚洲成av人在线观看网址 | 在线亚洲高清揄拍自拍一品区 | 麻豆md0077饥渴少妇 | 国产乱人伦av在线无码 | 巨爆乳无码视频在线观看 | 无码国产激情在线观看 | 波多野结衣高清一区二区三区 | 亚洲a无码综合a国产av中文 | 黑人大群体交免费视频 | 欧美成人家庭影院 | 大屁股大乳丰满人妻 | 噜噜噜亚洲色成人网站 | 老熟女重囗味hdxx69 | 精品无码国产自产拍在线观看蜜 | 少妇邻居内射在线 | 九九久久精品国产免费看小说 | 一本色道久久综合亚洲精品不卡 | 67194成是人免费无码 | 亚洲熟妇色xxxxx欧美老妇 | 无码成人精品区在线观看 | 性欧美videos高清精品 | 国产精品18久久久久久麻辣 | 亚洲色欲久久久综合网东京热 | 午夜肉伦伦影院 | 亚洲国产成人av在线观看 | 久久国产精品二国产精品 | 国产午夜亚洲精品不卡下载 | 中文字幕人妻无码一区二区三区 | 色老头在线一区二区三区 | 人妻少妇被猛烈进入中文字幕 | 亚洲成色在线综合网站 | 日韩亚洲欧美中文高清在线 | 无码人妻丰满熟妇区五十路百度 | 樱花草在线社区www | 大地资源中文第3页 | 精品国产福利一区二区 | 亚洲国产成人av在线观看 | 撕开奶罩揉吮奶头视频 | 国产亚洲精品久久久ai换 | 无码免费一区二区三区 | 暴力强奷在线播放无码 | 国产卡一卡二卡三 | 最新版天堂资源中文官网 | 天堂亚洲免费视频 | 麻豆国产97在线 | 欧洲 | 男女猛烈xx00免费视频试看 | 人人妻人人澡人人爽欧美一区 | 久久久久久亚洲精品a片成人 | 国产乱人伦av在线无码 | 精品aⅴ一区二区三区 | 亚洲国产精品久久久天堂 | 高清国产亚洲精品自在久久 | 十八禁真人啪啪免费网站 | 日韩精品成人一区二区三区 | 国产色视频一区二区三区 | 国产午夜亚洲精品不卡下载 | 国产亚洲精品久久久闺蜜 | 又大又紧又粉嫩18p少妇 | 美女黄网站人色视频免费国产 | 欧美日韩人成综合在线播放 | 男女作爱免费网站 | 国产精品亚洲lv粉色 | 国产麻豆精品一区二区三区v视界 | а√资源新版在线天堂 | 亚洲爆乳精品无码一区二区三区 | 国内丰满熟女出轨videos | 男女猛烈xx00免费视频试看 | 国产亚洲精品久久久久久久 | 中文精品久久久久人妻不卡 | 九月婷婷人人澡人人添人人爽 | 3d动漫精品啪啪一区二区中 | 免费无码肉片在线观看 | 成在人线av无码免观看麻豆 | 久久久国产精品无码免费专区 | 国产香蕉97碰碰久久人人 | 欧美人与牲动交xxxx | 成人免费视频一区二区 | 久久天天躁夜夜躁狠狠 | 国产超碰人人爽人人做人人添 | 国产一区二区三区日韩精品 | 一区二区三区乱码在线 | 欧洲 | 国产精品a成v人在线播放 | 九九久久精品国产免费看小说 | 天堂亚洲2017在线观看 | 免费看少妇作爱视频 | 欧美老人巨大xxxx做受 | 亚洲精品国产第一综合99久久 | 亚洲熟妇色xxxxx欧美老妇y | 国产成人人人97超碰超爽8 | 亚洲第一网站男人都懂 | 国产精品怡红院永久免费 | 麻豆精品国产精华精华液好用吗 | 日本免费一区二区三区最新 | 久久人人97超碰a片精品 | 天天综合网天天综合色 | 大乳丰满人妻中文字幕日本 | 成人毛片一区二区 | 少妇人妻偷人精品无码视频 | 亚洲a无码综合a国产av中文 | 国产熟女一区二区三区四区五区 | 日韩人妻无码一区二区三区久久99 | 高清不卡一区二区三区 | 日韩人妻少妇一区二区三区 | 性欧美熟妇videofreesex | 久久久精品国产sm最大网站 | 九月婷婷人人澡人人添人人爽 | 精品无人区无码乱码毛片国产 | 日韩视频 中文字幕 视频一区 | 亚洲小说图区综合在线 | 欧美国产日韩久久mv | 日本精品少妇一区二区三区 | 蜜臀aⅴ国产精品久久久国产老师 | 在线 国产 欧美 亚洲 天堂 | 一区二区三区高清视频一 | 亚洲成a人片在线观看无码3d | 欧美性生交活xxxxxdddd | 亚洲一区av无码专区在线观看 | 无码福利日韩神码福利片 | 亚洲乱码日产精品bd | 美女毛片一区二区三区四区 | aⅴ亚洲 日韩 色 图网站 播放 | 97精品人妻一区二区三区香蕉 | 亚洲成a人片在线观看日本 | 国内少妇偷人精品视频 | 国产精品理论片在线观看 | 亚洲高清偷拍一区二区三区 | 精品无人区无码乱码毛片国产 | 漂亮人妻洗澡被公强 日日躁 | 免费中文字幕日韩欧美 | 俺去俺来也www色官网 | 天堂亚洲2017在线观看 | 在线精品国产一区二区三区 | 狠狠综合久久久久综合网 | 丰满少妇熟乱xxxxx视频 | 欧美亚洲国产一区二区三区 | 性啪啪chinese东北女人 | 欧美阿v高清资源不卡在线播放 | 福利一区二区三区视频在线观看 | 精品久久久久香蕉网 | 国产女主播喷水视频在线观看 | 国产一区二区不卡老阿姨 | 欧美成人家庭影院 | 精品亚洲成av人在线观看 | 亚洲色大成网站www | √天堂资源地址中文在线 | 亚洲区欧美区综合区自拍区 | 成年女人永久免费看片 | 东京热男人av天堂 | 精品少妇爆乳无码av无码专区 | 麻花豆传媒剧国产免费mv在线 | 天堂一区人妻无码 | 97夜夜澡人人双人人人喊 | 欧美 丝袜 自拍 制服 另类 | 色欲人妻aaaaaaa无码 | 97精品人妻一区二区三区香蕉 | 国内精品九九久久久精品 | 美女黄网站人色视频免费国产 | 亚洲日本在线电影 | 扒开双腿疯狂进出爽爽爽视频 | 激情内射亚州一区二区三区爱妻 | 国产精品自产拍在线观看 | 国产在热线精品视频 | 两性色午夜免费视频 | 国产成人无码a区在线观看视频app | 久久这里只有精品视频9 | 亚洲a无码综合a国产av中文 | 色婷婷香蕉在线一区二区 | 日韩精品无码一区二区中文字幕 | 亚洲乱码中文字幕在线 | 精品无码av一区二区三区 | 国产午夜福利100集发布 | 亚洲精品成人av在线 | 亚洲欧美中文字幕5发布 | 亚洲日本va午夜在线电影 | 1000部啪啪未满十八勿入下载 | 久久精品人人做人人综合 | 成人精品视频一区二区三区尤物 | 成人免费视频视频在线观看 免费 | 久久人人爽人人人人片 | 色综合视频一区二区三区 | 狠狠色欧美亚洲狠狠色www | 日韩 欧美 动漫 国产 制服 | 国产激情一区二区三区 | 亚洲国产av精品一区二区蜜芽 | 成人欧美一区二区三区黑人免费 | 午夜精品一区二区三区的区别 | 日本一卡2卡3卡四卡精品网站 | 人妻少妇被猛烈进入中文字幕 | 牲欲强的熟妇农村老妇女 | 东京一本一道一二三区 | 亚洲欧洲中文日韩av乱码 | 国精产品一品二品国精品69xx | 国产精品.xx视频.xxtv | 日韩精品久久久肉伦网站 | 香港三级日本三级妇三级 | 网友自拍区视频精品 | 久久精品人人做人人综合 | 丰满少妇女裸体bbw | 日日麻批免费40分钟无码 | 国产精品高潮呻吟av久久 | 精品久久久久久人妻无码中文字幕 | 一本大道久久东京热无码av | 领导边摸边吃奶边做爽在线观看 | 国产绳艺sm调教室论坛 | 精品一区二区不卡无码av | 久久亚洲精品成人无码 | 亚洲熟妇色xxxxx欧美老妇y | 国产精品高潮呻吟av久久4虎 | √天堂中文官网8在线 | 任你躁在线精品免费 | 黑人巨大精品欧美黑寡妇 | 精品国产麻豆免费人成网站 | 亚洲性无码av中文字幕 | 午夜精品久久久久久久 | 亚洲国产精品成人久久蜜臀 | 国产另类ts人妖一区二区 | 国产成人无码午夜视频在线观看 | 无码人妻丰满熟妇区五十路百度 | 国内精品人妻无码久久久影院蜜桃 | 久久国产精品偷任你爽任你 | a片在线免费观看 | 波多野结衣av一区二区全免费观看 | 澳门永久av免费网站 | 熟妇人妻激情偷爽文 | 亚洲啪av永久无码精品放毛片 | 蜜桃臀无码内射一区二区三区 | 中文字幕乱码中文乱码51精品 | 国产深夜福利视频在线 | 国产高潮视频在线观看 | 久久97精品久久久久久久不卡 | 成人精品视频一区二区三区尤物 | 麻豆精产国品 | 欧美国产日韩亚洲中文 | 久久久av男人的天堂 | 国产午夜亚洲精品不卡下载 | 偷窥日本少妇撒尿chinese | 国产人妻大战黑人第1集 | 日本熟妇大屁股人妻 | 人妻人人添人妻人人爱 | 无码人妻av免费一区二区三区 | 久久综合给合久久狠狠狠97色 | 成熟人妻av无码专区 | 午夜精品久久久久久久久 | 欧美人与禽zoz0性伦交 | 人人妻人人澡人人爽人人精品 | 妺妺窝人体色www在线小说 | 日韩av无码一区二区三区 | 久久久国产精品无码免费专区 | 久久 国产 尿 小便 嘘嘘 | 久久天天躁狠狠躁夜夜免费观看 | 精品国偷自产在线 | 牲交欧美兽交欧美 | 性色欲网站人妻丰满中文久久不卡 | 国产精品久久久一区二区三区 | 久9re热视频这里只有精品 | 亚洲欧美综合区丁香五月小说 | 国产熟女一区二区三区四区五区 | 成人片黄网站色大片免费观看 | 久久精品国产一区二区三区 | 国产激情一区二区三区 | 99久久久无码国产aaa精品 | 日韩精品a片一区二区三区妖精 | 大肉大捧一进一出视频出来呀 | 色情久久久av熟女人妻网站 | 国产一区二区不卡老阿姨 | 高潮毛片无遮挡高清免费视频 | 亚洲热妇无码av在线播放 | 欧美成人高清在线播放 | 欧美丰满熟妇xxxx | 麻豆国产人妻欲求不满 | 2020久久香蕉国产线看观看 | 成人精品视频一区二区三区尤物 | 亚洲小说图区综合在线 | 国内精品人妻无码久久久影院蜜桃 | 欧美精品国产综合久久 | 国产情侣作爱视频免费观看 | 日本熟妇乱子伦xxxx | 亚洲精品国产第一综合99久久 | 色综合久久网 | 亚洲中文字幕无码中字 | 日本xxxx色视频在线观看免费 | 成 人 免费观看网站 | 青春草在线视频免费观看 | 色一情一乱一伦一视频免费看 | 在线观看欧美一区二区三区 | 亚洲无人区午夜福利码高清完整版 | 亚洲精品国产第一综合99久久 | 精品亚洲成av人在线观看 | 久久久久成人片免费观看蜜芽 | 久久久www成人免费毛片 | 亚洲男女内射在线播放 | 蜜桃视频韩日免费播放 | 国产xxx69麻豆国语对白 | 国产猛烈高潮尖叫视频免费 | 波多野结衣高清一区二区三区 | 综合人妻久久一区二区精品 | 色情久久久av熟女人妻网站 | 亚洲日韩av一区二区三区四区 | 国产成人一区二区三区在线观看 | 亚洲国产高清在线观看视频 | 大地资源网第二页免费观看 | 国内揄拍国内精品人妻 | 中文精品无码中文字幕无码专区 | 麻豆av传媒蜜桃天美传媒 | 成人毛片一区二区 | 丝袜 中出 制服 人妻 美腿 | 欧美日韩人成综合在线播放 | 中文字幕日产无线码一区 | 成人性做爰aaa片免费看不忠 | 国产99久久精品一区二区 | 亚洲大尺度无码无码专区 | 免费播放一区二区三区 | 日韩亚洲欧美精品综合 | 中文字幕乱码中文乱码51精品 | 精品一区二区三区波多野结衣 | 在教室伦流澡到高潮hnp视频 | 日本又色又爽又黄的a片18禁 | 老子影院午夜精品无码 | 无码av最新清无码专区吞精 | 四虎国产精品一区二区 | 蜜桃视频韩日免费播放 | 久久久久成人精品免费播放动漫 | 无套内谢的新婚少妇国语播放 | 国产激情精品一区二区三区 | 帮老师解开蕾丝奶罩吸乳网站 | 亚洲 a v无 码免 费 成 人 a v | 玩弄人妻少妇500系列视频 | 亚洲中文字幕无码中字 | 强奷人妻日本中文字幕 | 亚洲日韩精品欧美一区二区 | 成人aaa片一区国产精品 | 国产精品二区一区二区aⅴ污介绍 | 欧洲欧美人成视频在线 | 精品久久综合1区2区3区激情 | 激情国产av做激情国产爱 | 国产午夜精品一区二区三区嫩草 | 国产成人午夜福利在线播放 | 爱做久久久久久 | 久久精品中文字幕一区 | 成人欧美一区二区三区黑人 | 国产精品无码成人午夜电影 | 国产真实乱对白精彩久久 | 日本一区二区三区免费播放 | 国产一区二区三区日韩精品 | 亚洲一区二区三区在线观看网站 | 国产内射爽爽大片视频社区在线 | 亚洲精品国产精品乱码不卡 | 国精品人妻无码一区二区三区蜜柚 | 久久综合给久久狠狠97色 | 成人一在线视频日韩国产 | 综合激情五月综合激情五月激情1 | 国产va免费精品观看 | 日韩视频 中文字幕 视频一区 | 精品无码一区二区三区的天堂 | 国产片av国语在线观看 | 日本又色又爽又黄的a片18禁 | 岛国片人妻三上悠亚 | 永久免费精品精品永久-夜色 | 精品久久久无码人妻字幂 | 中文精品无码中文字幕无码专区 | 欧美日韩一区二区免费视频 | 日韩少妇白浆无码系列 | 丰满少妇女裸体bbw | 国产9 9在线 | 中文 | 国产亚洲精品精品国产亚洲综合 | 欧美黑人性暴力猛交喷水 | 亚洲国产日韩a在线播放 | 久久久久成人精品免费播放动漫 | 亚洲综合色区中文字幕 | 日本高清一区免费中文视频 | 鲁鲁鲁爽爽爽在线视频观看 | 久久亚洲中文字幕无码 | 精品成在人线av无码免费看 | 亚洲综合无码久久精品综合 | 国产精品va在线播放 | 一本久久伊人热热精品中文字幕 | 成人免费无码大片a毛片 | 亚洲色欲色欲欲www在线 | 免费人成网站视频在线观看 | 曰本女人与公拘交酡免费视频 | 无码人妻少妇伦在线电影 | 欧美xxxx黑人又粗又长 | 久久午夜无码鲁丝片秋霞 | 最近的中文字幕在线看视频 | 少妇人妻av毛片在线看 | 色欲久久久天天天综合网精品 | 兔费看少妇性l交大片免费 | 欧洲美熟女乱又伦 | 一本加勒比波多野结衣 | 人人爽人人澡人人高潮 | 色婷婷综合中文久久一本 | 国产绳艺sm调教室论坛 | 久久精品中文字幕大胸 | 全黄性性激高免费视频 | 成熟女人特级毛片www免费 | 国产高潮视频在线观看 | 欧美性猛交xxxx富婆 | 国产在线一区二区三区四区五区 | 日本大香伊一区二区三区 | 久久午夜无码鲁丝片秋霞 | 成人性做爰aaa片免费看 | 野外少妇愉情中文字幕 | 97夜夜澡人人双人人人喊 | 国产激情无码一区二区app | 精品乱码久久久久久久 | 成人片黄网站色大片免费观看 | 99久久人妻精品免费一区 | 色欲久久久天天天综合网精品 | 377p欧洲日本亚洲大胆 | 色老头在线一区二区三区 | 国产成人无码av一区二区 | 伊人久久大香线焦av综合影院 | 国产性生交xxxxx无码 | 国产乱人伦偷精品视频 | 久久久久久久女国产乱让韩 | 久久99精品久久久久久动态图 | 亚洲中文字幕在线观看 | 人人爽人人爽人人片av亚洲 | 精品国产av色一区二区深夜久久 | 国产亚洲精品久久久久久久 | 亚洲人成网站色7799 | 国产成人精品无码播放 | 少妇性荡欲午夜性开放视频剧场 | 国产精品人妻一区二区三区四 | 色窝窝无码一区二区三区色欲 | 午夜性刺激在线视频免费 | 国产激情综合五月久久 | 亚洲精品国产精品乱码不卡 | 综合人妻久久一区二区精品 | 精品无码国产自产拍在线观看蜜 | 色欲综合久久中文字幕网 | 精品aⅴ一区二区三区 | 日本又色又爽又黄的a片18禁 | 精品久久久久久亚洲精品 | 亚洲综合无码久久精品综合 | 国产精品自产拍在线观看 | 国产激情无码一区二区app | 国产在线精品一区二区三区直播 | 精品无码国产自产拍在线观看蜜 | 亚洲欧美国产精品久久 | 亚洲综合另类小说色区 | 麻豆果冻传媒2021精品传媒一区下载 | 国产在线精品一区二区高清不卡 | 台湾无码一区二区 | 国产色在线 | 国产 | 亚洲伊人久久精品影院 | 亚洲国产午夜精品理论片 | 天天摸天天碰天天添 | 少妇性荡欲午夜性开放视频剧场 | 九九热爱视频精品 | 亚洲伊人久久精品影院 | 国产香蕉尹人视频在线 | 激情内射亚州一区二区三区爱妻 | 欧美一区二区三区视频在线观看 | 日韩无套无码精品 | 国产精品人人爽人人做我的可爱 | 嫩b人妻精品一区二区三区 | 国产欧美熟妇另类久久久 | 久久精品99久久香蕉国产色戒 | 97夜夜澡人人双人人人喊 | 久久国内精品自在自线 | 欧美猛少妇色xxxxx | 久久精品国产大片免费观看 | 精品国产av色一区二区深夜久久 | 亚洲国产精品久久久天堂 | 精品久久久久香蕉网 | 久久精品人人做人人综合试看 | 久久国产精品偷任你爽任你 | 免费人成网站视频在线观看 | 亚洲精品成人av在线 | 曰韩少妇内射免费播放 | 欧美zoozzooz性欧美 | 乌克兰少妇性做爰 | 99久久亚洲精品无码毛片 | 麻豆国产人妻欲求不满谁演的 | 欧美日本精品一区二区三区 | 无套内谢的新婚少妇国语播放 | 人人妻人人澡人人爽人人精品浪潮 | 少女韩国电视剧在线观看完整 | 青青草原综合久久大伊人精品 | 日日摸天天摸爽爽狠狠97 | 成人三级无码视频在线观看 | 撕开奶罩揉吮奶头视频 | 又紧又大又爽精品一区二区 | 午夜熟女插插xx免费视频 | 成熟女人特级毛片www免费 | 99久久无码一区人妻 | 亚洲成a人片在线观看无码 | 久久亚洲a片com人成 | 久久精品中文字幕一区 | 久久亚洲国产成人精品性色 | 中文无码精品a∨在线观看不卡 | 久久久国产精品无码免费专区 | 午夜精品一区二区三区在线观看 | 精品人妻人人做人人爽夜夜爽 | 九九综合va免费看 | 久久精品国产日本波多野结衣 | 欧美日韩一区二区免费视频 | 国产人妻久久精品二区三区老狼 | 亚洲の无码国产の无码步美 | 日韩av无码一区二区三区 | 一本无码人妻在中文字幕免费 | 精品无码一区二区三区的天堂 | 亚洲国产精品无码久久久久高潮 | 亚洲精品一区二区三区婷婷月 | 欧美日韩亚洲国产精品 | 久久国产自偷自偷免费一区调 | 无码国产色欲xxxxx视频 | 亚洲日本va中文字幕 | 国产在线精品一区二区三区直播 | 性欧美牲交在线视频 | 老熟妇仑乱视频一区二区 | 大肉大捧一进一出好爽视频 | 亚洲а∨天堂久久精品2021 | 性生交大片免费看女人按摩摩 | а√天堂www在线天堂小说 | 又粗又大又硬毛片免费看 | 东京热无码av男人的天堂 | 国产av剧情md精品麻豆 | 成人无码视频在线观看网站 | 老熟妇仑乱视频一区二区 | 在线观看欧美一区二区三区 | 国产人成高清在线视频99最全资源 | 国产精品久久久久9999小说 | 色婷婷综合中文久久一本 | 狂野欧美激情性xxxx | 国产亚洲人成a在线v网站 | 日韩av无码中文无码电影 | 亚洲 高清 成人 动漫 | 无码av中文字幕免费放 | 少妇太爽了在线观看 | 色欲av亚洲一区无码少妇 | 日本免费一区二区三区最新 | 国产熟妇另类久久久久 | 一本久久a久久精品vr综合 | 国产人妻大战黑人第1集 | 天堂无码人妻精品一区二区三区 | 亚洲综合伊人久久大杳蕉 | 在线 国产 欧美 亚洲 天堂 | 狠狠色欧美亚洲狠狠色www | 亚洲自偷精品视频自拍 | 熟妇女人妻丰满少妇中文字幕 | 大屁股大乳丰满人妻 | 日日碰狠狠躁久久躁蜜桃 | 国产香蕉尹人视频在线 | 国内精品人妻无码久久久影院蜜桃 | 亚洲s色大片在线观看 | 亚拍精品一区二区三区探花 | 日本一卡2卡3卡4卡无卡免费网站 国产一区二区三区影院 | 波多野结衣乳巨码无在线观看 | 久久无码专区国产精品s | 国产乡下妇女做爰 | 双乳奶水饱满少妇呻吟 | 久久久久成人片免费观看蜜芽 | 性生交大片免费看l | 漂亮人妻洗澡被公强 日日躁 | 一本色道婷婷久久欧美 | 亚洲综合无码久久精品综合 | 日韩亚洲欧美精品综合 | 国产成人无码av片在线观看不卡 | 丰满肥臀大屁股熟妇激情视频 | 亚洲精品国产品国语在线观看 | 亚洲国产精品一区二区第一页 | 国产黄在线观看免费观看不卡 | 男女猛烈xx00免费视频试看 | 97久久精品无码一区二区 | 成年女人永久免费看片 | 日韩少妇白浆无码系列 | 国产欧美熟妇另类久久久 | 偷窥村妇洗澡毛毛多 | 东京无码熟妇人妻av在线网址 | 久久久无码中文字幕久... | 一二三四社区在线中文视频 | 国产人妻精品一区二区三区不卡 | 久久人人97超碰a片精品 | 美女极度色诱视频国产 | 日本在线高清不卡免费播放 | 人妻天天爽夜夜爽一区二区 | 蜜臀av在线播放 久久综合激激的五月天 | 国产一区二区三区四区五区加勒比 | 99国产欧美久久久精品 | 成人欧美一区二区三区黑人 | 久久久中文久久久无码 | 欧美阿v高清资源不卡在线播放 | 国产免费久久精品国产传媒 | 成人免费视频一区二区 | 免费播放一区二区三区 | 国产精品久久久av久久久 | 久久久国产一区二区三区 | 亚洲成av人综合在线观看 | 亚洲精品久久久久久久久久久 | 高中生自慰www网站 | 日日干夜夜干 | 国内丰满熟女出轨videos | 欧美激情内射喷水高潮 | 日韩精品一区二区av在线 | 中文字幕无码免费久久9一区9 | 午夜嘿嘿嘿影院 | 波多野结衣高清一区二区三区 | 亚洲精品久久久久avwww潮水 | 亚拍精品一区二区三区探花 | 四虎永久在线精品免费网址 | 日韩精品无码免费一区二区三区 | 中文字幕无码av波多野吉衣 | 美女扒开屁股让男人桶 | 国产又爽又黄又刺激的视频 | 亚洲理论电影在线观看 | 久久久久久久久蜜桃 | 国产成人精品视频ⅴa片软件竹菊 | 久久精品国产大片免费观看 | 高潮毛片无遮挡高清免费视频 | 青春草在线视频免费观看 | 丰满少妇熟乱xxxxx视频 | 久久国产36精品色熟妇 | 亚洲 另类 在线 欧美 制服 | 亚洲一区二区三区含羞草 | 成人无码视频在线观看网站 | 精品国产乱码久久久久乱码 | 无码一区二区三区在线观看 | aⅴ亚洲 日韩 色 图网站 播放 | 麻豆国产丝袜白领秘书在线观看 | 国产精品.xx视频.xxtv | 亚洲成在人网站无码天堂 | 性欧美牲交xxxxx视频 | 国产亚洲精品精品国产亚洲综合 | 在线成人www免费观看视频 | 夜夜高潮次次欢爽av女 | 婷婷五月综合缴情在线视频 | 18黄暴禁片在线观看 | 爆乳一区二区三区无码 | 久久99精品国产.久久久久 | 少妇太爽了在线观看 | 精品久久8x国产免费观看 | 国产午夜视频在线观看 | 亚洲精品久久久久中文第一幕 | 久久国产36精品色熟妇 | 人妻少妇精品视频专区 | 国产精品99爱免费视频 | 午夜无码人妻av大片色欲 | 国产免费久久精品国产传媒 | 日韩精品无码免费一区二区三区 | 国产熟妇高潮叫床视频播放 | 国产成人综合在线女婷五月99播放 | 久久国产精品_国产精品 | 国产成人无码一二三区视频 | 狠狠色噜噜狠狠狠狠7777米奇 | 人人妻人人澡人人爽精品欧美 | 国产口爆吞精在线视频 | 亚洲 激情 小说 另类 欧美 | 欧洲美熟女乱又伦 | 无码av最新清无码专区吞精 | 无码人妻精品一区二区三区下载 | 国产明星裸体无码xxxx视频 | 亚洲欧洲日本综合aⅴ在线 | 又粗又大又硬毛片免费看 | 大色综合色综合网站 | 免费视频欧美无人区码 | 成人免费视频在线观看 | 国产超级va在线观看视频 | 国产亚洲精品久久久久久 | 国产偷自视频区视频 | 丝袜 中出 制服 人妻 美腿 | 东京热一精品无码av | 国产后入清纯学生妹 | 日本丰满护士爆乳xxxx | 亚洲色欲久久久综合网东京热 | 伊人久久大香线蕉午夜 | 日产精品高潮呻吟av久久 | 欧美xxxxx精品 | 国产成人综合色在线观看网站 | 成人免费无码大片a毛片 | 奇米综合四色77777久久 东京无码熟妇人妻av在线网址 | 国产黑色丝袜在线播放 | 在线播放无码字幕亚洲 | 双乳奶水饱满少妇呻吟 | 天下第一社区视频www日本 | 国产电影无码午夜在线播放 | 亚洲中文字幕无码中字 | 成人女人看片免费视频放人 | 亚洲日本va中文字幕 | 亚洲の无码国产の无码影院 | 狠狠色噜噜狠狠狠狠7777米奇 | www国产亚洲精品久久久日本 | 久久99久久99精品中文字幕 | 大胆欧美熟妇xx | 亚洲s码欧洲m码国产av | 伊人色综合久久天天小片 | 中文字幕日产无线码一区 | 中文字幕无码人妻少妇免费 | 大乳丰满人妻中文字幕日本 | 蜜桃av抽搐高潮一区二区 | 一个人看的www免费视频在线观看 | 美女张开腿让人桶 | 欧洲精品码一区二区三区免费看 | 亚洲乱码中文字幕在线 | 午夜不卡av免费 一本久久a久久精品vr综合 | 国产精品久久久久久无码 | 欧美三级不卡在线观看 | 亚洲综合无码久久精品综合 | 天天av天天av天天透 | 99久久无码一区人妻 | 少妇性l交大片 | 国内揄拍国内精品少妇国语 | 亚洲人成影院在线观看 | 久久天天躁夜夜躁狠狠 | 天堂一区人妻无码 | 中文字幕乱码中文乱码51精品 | 久久国内精品自在自线 | 亚洲成色www久久网站 | 无码人妻丰满熟妇区毛片18 | aⅴ在线视频男人的天堂 | 国产精品久久久午夜夜伦鲁鲁 | 国产午夜手机精彩视频 | 亚洲自偷自偷在线制服 | 中文字幕无码免费久久99 | 国产成人精品一区二区在线小狼 | 成人试看120秒体验区 | 久久精品女人天堂av免费观看 | 中文字幕乱码亚洲无线三区 | 人妻少妇精品无码专区动漫 | 六月丁香婷婷色狠狠久久 | 色老头在线一区二区三区 | 99er热精品视频 | 无遮挡啪啪摇乳动态图 | 天堂亚洲2017在线观看 | 曰本女人与公拘交酡免费视频 | 日本精品少妇一区二区三区 | 丰满少妇弄高潮了www | 蜜臀av无码人妻精品 | 国产9 9在线 | 中文 | 欧美亚洲国产一区二区三区 | 国产精品亚洲五月天高清 | 在线看片无码永久免费视频 | 一本大道久久东京热无码av | aa片在线观看视频在线播放 | 少妇久久久久久人妻无码 | 丰满护士巨好爽好大乳 | 国产精品久久久久影院嫩草 | 狠狠色噜噜狠狠狠7777奇米 | 人人妻人人澡人人爽欧美一区九九 | 99久久99久久免费精品蜜桃 | 玩弄人妻少妇500系列视频 | 少妇无码一区二区二三区 | 中文字幕 亚洲精品 第1页 | 久久午夜无码鲁丝片 | 日韩人妻无码一区二区三区久久99 | 久久成人a毛片免费观看网站 | 午夜精品一区二区三区的区别 | 亚洲日韩乱码中文无码蜜桃臀网站 | 香港三级日本三级妇三级 | 成人亚洲精品久久久久 | 大胆欧美熟妇xx | 丰满少妇弄高潮了www | 成人影院yy111111在线观看 | 无套内谢的新婚少妇国语播放 | 婷婷丁香六月激情综合啪 | 欧洲vodafone精品性 | 在线播放无码字幕亚洲 | 久久精品国产精品国产精品污 | 麻豆av传媒蜜桃天美传媒 | 捆绑白丝粉色jk震动捧喷白浆 | 亚洲男人av香蕉爽爽爽爽 | 亚洲日韩乱码中文无码蜜桃臀网站 | 午夜理论片yy44880影院 | 伊人久久婷婷五月综合97色 | 娇妻被黑人粗大高潮白浆 | 日日碰狠狠丁香久燥 | 55夜色66夜色国产精品视频 | 精品人妻中文字幕有码在线 | 黑人巨大精品欧美黑寡妇 | 国产激情无码一区二区app | 超碰97人人做人人爱少妇 | 老熟妇乱子伦牲交视频 | 亚洲精品www久久久 | 国产深夜福利视频在线 | 国内精品九九久久久精品 | 欧美国产日产一区二区 | 沈阳熟女露脸对白视频 | 亚洲人成影院在线观看 | 亚洲欧美精品伊人久久 | 国产亚洲人成在线播放 | 国产激情综合五月久久 | 欧美第一黄网免费网站 | 特级做a爰片毛片免费69 | 狠狠综合久久久久综合网 | 香港三级日本三级妇三级 | 久久精品中文字幕大胸 | 成人精品天堂一区二区三区 | 亚洲第一网站男人都懂 | 麻豆蜜桃av蜜臀av色欲av | 亚洲成av人片天堂网无码】 | a片免费视频在线观看 | 免费观看又污又黄的网站 | 国产午夜福利100集发布 | 综合人妻久久一区二区精品 | a片在线免费观看 | 成人欧美一区二区三区 | 伊人久久大香线焦av综合影院 | 日日噜噜噜噜夜夜爽亚洲精品 | 131美女爱做视频 | 人人妻人人澡人人爽人人精品浪潮 | 国产精品第一国产精品 | 99久久婷婷国产综合精品青草免费 | 学生妹亚洲一区二区 | 丰满少妇弄高潮了www | 亚洲日韩av一区二区三区四区 | 国产亚洲美女精品久久久2020 | 国产偷抇久久精品a片69 | 天天拍夜夜添久久精品 | 国产国语老龄妇女a片 | 久久久久久亚洲精品a片成人 | 成 人 免费观看网站 | 波多野结衣av一区二区全免费观看 | 麻豆av传媒蜜桃天美传媒 | 丁香花在线影院观看在线播放 | 日本乱人伦片中文三区 | 色一情一乱一伦一视频免费看 | 久久国产36精品色熟妇 | 少妇性l交大片 | 久久成人a毛片免费观看网站 | 婷婷五月综合缴情在线视频 | 精品国产国产综合精品 | 国产69精品久久久久app下载 | 亚洲毛片av日韩av无码 | 午夜性刺激在线视频免费 | v一区无码内射国产 | 国产午夜精品一区二区三区嫩草 | 在线欧美精品一区二区三区 | 亚洲精品一区二区三区大桥未久 | 国产精品国产自线拍免费软件 | 亚洲人成影院在线无码按摩店 | 久久综合狠狠综合久久综合88 | 国产成人无码a区在线观看视频app | 国产精品va在线播放 | 免费国产成人高清在线观看网站 | 亚洲欧美中文字幕5发布 | 九九在线中文字幕无码 | 131美女爱做视频 | 久久熟妇人妻午夜寂寞影院 | 日韩亚洲欧美精品综合 | 蜜桃视频韩日免费播放 | 欧美色就是色 | 性做久久久久久久久 | 日日躁夜夜躁狠狠躁 | 亚洲日韩一区二区 | 妺妺窝人体色www婷婷 | 波多野结衣aⅴ在线 | 乱人伦中文视频在线观看 | 在线亚洲高清揄拍自拍一品区 | 免费无码肉片在线观看 | 亚洲区欧美区综合区自拍区 | 国产精品香蕉在线观看 | 国产真人无遮挡作爱免费视频 | 丁香花在线影院观看在线播放 | 国产av人人夜夜澡人人爽麻豆 | 美女毛片一区二区三区四区 | 在线播放免费人成毛片乱码 | 国产亚洲精品久久久久久久久动漫 | 久在线观看福利视频 | 亚洲精品国偷拍自产在线观看蜜桃 | 最新版天堂资源中文官网 | 亚洲精品国产精品乱码视色 | 亚洲精品国产a久久久久久 | aⅴ在线视频男人的天堂 | 色综合久久中文娱乐网 | 日日摸日日碰夜夜爽av | 一本久久a久久精品vr综合 | 永久免费观看美女裸体的网站 | 国产猛烈高潮尖叫视频免费 | 成人综合网亚洲伊人 | 精品国产一区av天美传媒 | 狂野欧美性猛xxxx乱大交 | 国产亚洲精品久久久ai换 | 久久午夜无码鲁丝片午夜精品 | 久久久成人毛片无码 | 综合激情五月综合激情五月激情1 | 黑森林福利视频导航 | 最新国产麻豆aⅴ精品无码 | 国产9 9在线 | 中文 | 亚洲高清偷拍一区二区三区 | 国产亚洲精品久久久久久久 | 久久99精品国产.久久久久 | 国产成人无码a区在线观看视频app | 男女爱爱好爽视频免费看 | 国产日产欧产精品精品app | 精品人妻中文字幕有码在线 | 日本欧美一区二区三区乱码 | 国产欧美亚洲精品a | 久久久婷婷五月亚洲97号色 | 激情综合激情五月俺也去 | 亚洲爆乳精品无码一区二区三区 | 久久精品国产一区二区三区 | 人妻插b视频一区二区三区 | 国产午夜亚洲精品不卡下载 | 国产精华av午夜在线观看 | 国产真实伦对白全集 | 亚洲成a人片在线观看日本 | 国产三级久久久精品麻豆三级 | 黑人大群体交免费视频 | 无码人妻丰满熟妇区毛片18 | 小泽玛莉亚一区二区视频在线 | 国产一区二区三区影院 | 国产亚洲日韩欧美另类第八页 | 欧美老妇交乱视频在线观看 | 无码一区二区三区在线观看 | 日本肉体xxxx裸交 | 丝袜美腿亚洲一区二区 | 国产后入清纯学生妹 | 天堂亚洲2017在线观看 | a在线观看免费网站大全 | 大屁股大乳丰满人妻 | 国产69精品久久久久app下载 | 国产精品18久久久久久麻辣 | 成人欧美一区二区三区黑人 | 丰腴饱满的极品熟妇 | 永久黄网站色视频免费直播 | 久久aⅴ免费观看 | 欧美人与禽zoz0性伦交 | 在线天堂新版最新版在线8 | 55夜色66夜色国产精品视频 | 青青青爽视频在线观看 | 亚洲精品午夜国产va久久成人 | 成人性做爰aaa片免费看不忠 | 好男人社区资源 | 国产亚洲精品久久久久久久 | 六月丁香婷婷色狠狠久久 | 亚洲成色www久久网站 | 亚洲の无码国产の无码步美 | 无码av免费一区二区三区试看 | 红桃av一区二区三区在线无码av | 日韩视频 中文字幕 视频一区 | 欧美自拍另类欧美综合图片区 | 欧美阿v高清资源不卡在线播放 | 国产激情综合五月久久 | 精品乱码久久久久久久 | 国产精品久久久久久亚洲影视内衣 | 无码av免费一区二区三区试看 | 成人三级无码视频在线观看 | 久久久久久久女国产乱让韩 | 国产精品无套呻吟在线 | 国产欧美亚洲精品a | 免费人成网站视频在线观看 | 老太婆性杂交欧美肥老太 | 国产亚洲精品久久久闺蜜 | 亚洲欧美中文字幕5发布 | 国产精品二区一区二区aⅴ污介绍 | 久久无码专区国产精品s | 国产黄在线观看免费观看不卡 | 国产精品亚洲专区无码不卡 | 久久综合网欧美色妞网 | 欧美黑人性暴力猛交喷水 | 色爱情人网站 | 18精品久久久无码午夜福利 | 亚洲国产精品成人久久蜜臀 | 精品欧洲av无码一区二区三区 | 国产成人综合在线女婷五月99播放 | 99久久精品午夜一区二区 | 国精产品一区二区三区 | 成人三级无码视频在线观看 | 国产av无码专区亚洲a∨毛片 | 国产欧美熟妇另类久久久 | 超碰97人人做人人爱少妇 | 中文字幕 亚洲精品 第1页 | 啦啦啦www在线观看免费视频 | 亚洲乱亚洲乱妇50p | 亚洲色大成网站www | 欧美日韩在线亚洲综合国产人 | 18禁黄网站男男禁片免费观看 | 乌克兰少妇xxxx做受 | 美女毛片一区二区三区四区 | 无遮挡啪啪摇乳动态图 | 亚洲色大成网站www国产 | 中文字幕无码视频专区 | 亚洲人成网站在线播放942 | 男女下面进入的视频免费午夜 | 无遮挡啪啪摇乳动态图 | 国产精品高潮呻吟av久久4虎 | 狠狠色噜噜狠狠狠狠7777米奇 | 爆乳一区二区三区无码 | 少妇性荡欲午夜性开放视频剧场 | 国产电影无码午夜在线播放 | 成人无码精品一区二区三区 | 国产精品理论片在线观看 | 三上悠亚人妻中文字幕在线 | 妺妺窝人体色www婷婷 | 美女扒开屁股让男人桶 | 精品日本一区二区三区在线观看 | 丰满人妻翻云覆雨呻吟视频 | 人人妻人人澡人人爽精品欧美 | 水蜜桃色314在线观看 | 久久精品中文字幕大胸 | 亚洲成a人片在线观看无码 | 亚洲精品一区二区三区婷婷月 | 久久久精品456亚洲影院 | 日本一卡2卡3卡四卡精品网站 | 亚洲毛片av日韩av无码 | 亚洲热妇无码av在线播放 | 无码精品人妻一区二区三区av | 人人妻人人澡人人爽欧美精品 | 国产精品久久久久久久9999 | 在线成人www免费观看视频 | 午夜精品一区二区三区在线观看 | 无码成人精品区在线观看 | 亚洲综合无码久久精品综合 | 中文字幕av无码一区二区三区电影 | 国内精品一区二区三区不卡 | 国产无套粉嫩白浆在线 | 欧美猛少妇色xxxxx | 亚洲中文字幕无码中文字在线 | 国内精品人妻无码久久久影院 | 玩弄少妇高潮ⅹxxxyw | 欧美日本精品一区二区三区 | 国产成人无码午夜视频在线观看 | 久久97精品久久久久久久不卡 | 久久久中文久久久无码 | 最新国产麻豆aⅴ精品无码 | 国产超级va在线观看视频 | 日本熟妇乱子伦xxxx | 无码乱肉视频免费大全合集 | 无码av免费一区二区三区试看 | 国产日产欧产精品精品app | 国产精品va在线观看无码 | 亚洲国产精品久久久天堂 | 国产精品国产三级国产专播 | 亚洲熟女一区二区三区 | 天堂久久天堂av色综合 | 久久亚洲精品中文字幕无男同 | 婷婷五月综合激情中文字幕 | 国产两女互慰高潮视频在线观看 | 久久99精品久久久久久 | 欧美 丝袜 自拍 制服 另类 | 少妇无码一区二区二三区 | 国产真实乱对白精彩久久 | 欧美国产亚洲日韩在线二区 | 日本大乳高潮视频在线观看 | 亚洲日本一区二区三区在线 | 国精品人妻无码一区二区三区蜜柚 | 无码精品国产va在线观看dvd | 中文精品久久久久人妻不卡 | 亚洲国产精品一区二区第一页 | 老司机亚洲精品影院 | 久久亚洲中文字幕无码 | 欧美亚洲日韩国产人成在线播放 | 国产后入清纯学生妹 | 性欧美牲交xxxxx视频 | 精品亚洲成av人在线观看 | 成人无码影片精品久久久 | 成人无码视频在线观看网站 | 精品国产青草久久久久福利 | 亚洲国产精品无码久久久久高潮 | 国产综合色产在线精品 | 亚洲一区二区三区播放 | 2020久久超碰国产精品最新 | 伊人久久大香线蕉亚洲 | 天天综合网天天综合色 | 国精产品一区二区三区 | 精品无码成人片一区二区98 | 熟妇人妻无乱码中文字幕 | aⅴ亚洲 日韩 色 图网站 播放 | 欧美日韩久久久精品a片 | 国产又爽又猛又粗的视频a片 | 成人综合网亚洲伊人 | 荫蒂被男人添的好舒服爽免费视频 | 成人av无码一区二区三区 | 男人扒开女人内裤强吻桶进去 | 少妇被黑人到高潮喷出白浆 | 国产精品对白交换视频 | 丝袜美腿亚洲一区二区 | 亚洲va中文字幕无码久久不卡 | 中文字幕亚洲情99在线 | 亚洲国产成人av在线观看 | 内射老妇bbwx0c0ck | 无码一区二区三区在线观看 | 99久久婷婷国产综合精品青草免费 | 国产精品久久国产精品99 | 久久综合香蕉国产蜜臀av | 精品国精品国产自在久国产87 | 一本加勒比波多野结衣 | 玩弄人妻少妇500系列视频 | 四虎国产精品免费久久 | 中文字幕人成乱码熟女app | 荫蒂添的好舒服视频囗交 | 国产明星裸体无码xxxx视频 | 97无码免费人妻超级碰碰夜夜 | 国产成人综合在线女婷五月99播放 | 国产av一区二区三区最新精品 | 亚洲a无码综合a国产av中文 | 久久久av男人的天堂 | 欧美放荡的少妇 | 免费无码午夜福利片69 | 欧美怡红院免费全部视频 | 久久99精品久久久久婷婷 | 亚洲精品久久久久久久久久久 | 亚洲 欧美 激情 小说 另类 | 亚洲综合久久一区二区 | 无码毛片视频一区二区本码 | 成人三级无码视频在线观看 | 国精品人妻无码一区二区三区蜜柚 | www国产精品内射老师 | 亚洲国产高清在线观看视频 | 日本爽爽爽爽爽爽在线观看免 | 激情人妻另类人妻伦 | 妺妺窝人体色www在线小说 | 国产成人无码av一区二区 | 一个人看的视频www在线 | 国产精品无码一区二区三区不卡 | 久久精品中文字幕一区 | 欧美精品一区二区精品久久 | 99精品视频在线观看免费 | 免费无码av一区二区 | 久久午夜夜伦鲁鲁片无码免费 | 色诱久久久久综合网ywww | 成人精品天堂一区二区三区 | 久久国产自偷自偷免费一区调 | 久久久久亚洲精品男人的天堂 | 亚洲精品成a人在线观看 | 99久久人妻精品免费二区 | 色婷婷欧美在线播放内射 | 国产偷抇久久精品a片69 | 亚洲 欧美 激情 小说 另类 | 国产美女极度色诱视频www | 中文字幕精品av一区二区五区 | 日韩av无码中文无码电影 | 欧美丰满老熟妇xxxxx性 | 国产办公室秘书无码精品99 | 亚洲成a人片在线观看日本 | 久激情内射婷内射蜜桃人妖 | 乱中年女人伦av三区 | 亚洲熟妇色xxxxx欧美老妇 | 丝袜美腿亚洲一区二区 | 丰满岳乱妇在线观看中字无码 | 欧洲vodafone精品性 | 无码人妻少妇伦在线电影 | 国产在线aaa片一区二区99 | 国产精品毛片一区二区 | 久久五月精品中文字幕 | 久久婷婷五月综合色国产香蕉 | 国产亚洲人成在线播放 | 无码人妻av免费一区二区三区 | 日韩视频 中文字幕 视频一区 | 亚洲乱码国产乱码精品精 | 亚洲日韩中文字幕在线播放 | 亚洲熟妇色xxxxx欧美老妇y | 国产绳艺sm调教室论坛 | 无码av免费一区二区三区试看 | 久久午夜无码鲁丝片 | 久久亚洲精品中文字幕无男同 | 国产精品手机免费 | 麻花豆传媒剧国产免费mv在线 | ass日本丰满熟妇pics | 精品国产aⅴ无码一区二区 | 成 人影片 免费观看 | 激情国产av做激情国产爱 | 成年美女黄网站色大免费全看 | 日日天干夜夜狠狠爱 | 亚洲国产精品无码一区二区三区 | 麻豆av传媒蜜桃天美传媒 | 动漫av网站免费观看 | 丰腴饱满的极品熟妇 | av人摸人人人澡人人超碰下载 | 精品国产av色一区二区深夜久久 | 中文字幕av无码一区二区三区电影 | 久久精品中文字幕大胸 | 在线天堂新版最新版在线8 | 波多野结衣乳巨码无在线观看 | 日本高清一区免费中文视频 | 午夜福利试看120秒体验区 | 国产香蕉尹人视频在线 | 亚洲gv猛男gv无码男同 | 自拍偷自拍亚洲精品被多人伦好爽 | 国内综合精品午夜久久资源 | 欧美刺激性大交 | 久久久精品欧美一区二区免费 | 欧美喷潮久久久xxxxx | 精品偷自拍另类在线观看 | 亚洲精品一区二区三区大桥未久 | 无人区乱码一区二区三区 | 波多野结衣av在线观看 | 又色又爽又黄的美女裸体网站 | 色综合久久久无码中文字幕 | 午夜精品久久久久久久久 | 麻豆国产丝袜白领秘书在线观看 | 久久午夜夜伦鲁鲁片无码免费 | 国产香蕉97碰碰久久人人 | 色综合久久88色综合天天 | 亚洲欧洲无卡二区视頻 | 欧美野外疯狂做受xxxx高潮 | 国产精品美女久久久 | 野狼第一精品社区 | 欧洲精品码一区二区三区免费看 | 最近免费中文字幕中文高清百度 | 领导边摸边吃奶边做爽在线观看 | 亚洲人成网站在线播放942 | 大地资源网第二页免费观看 | 亚洲中文无码av永久不收费 | 性做久久久久久久免费看 | 久青草影院在线观看国产 | 人妻无码久久精品人妻 | 天天爽夜夜爽夜夜爽 | 99riav国产精品视频 | 国产精品无码mv在线观看 | 欧美肥老太牲交大战 | 亚洲男女内射在线播放 | 激情内射亚州一区二区三区爱妻 | 西西人体www44rt大胆高清 | 国产色xx群视频射精 | 亚洲 高清 成人 动漫 | 久久久久久久久888 | 无码av最新清无码专区吞精 | 国产内射老熟女aaaa | 亚洲色无码一区二区三区 | 国产免费久久久久久无码 | 97色伦图片97综合影院 | 国产av一区二区精品久久凹凸 | 色窝窝无码一区二区三区色欲 | 亚洲性无码av中文字幕 | 高清不卡一区二区三区 | 亚洲国产欧美国产综合一区 | 久久国产精品精品国产色婷婷 | 久在线观看福利视频 | 日产国产精品亚洲系列 | 2020久久香蕉国产线看观看 | 亚洲综合无码久久精品综合 | 色情久久久av熟女人妻网站 | 性欧美熟妇videofreesex | 在线观看免费人成视频 | 国产亚av手机在线观看 | 丰满少妇弄高潮了www | 国产9 9在线 | 中文 | 成人免费无码大片a毛片 | 成人性做爰aaa片免费看 | 国产又爽又黄又刺激的视频 | 久久国产精品_国产精品 | 亚洲精品无码国产 | ass日本丰满熟妇pics | 黑人巨大精品欧美黑寡妇 | 国色天香社区在线视频 | 奇米影视888欧美在线观看 | 国产精品久久久久9999小说 | 国产超碰人人爽人人做人人添 | 偷窥日本少妇撒尿chinese | 成人性做爰aaa片免费看 | 亚洲区欧美区综合区自拍区 | 亚洲s色大片在线观看 | 欧洲精品码一区二区三区免费看 | 久久久久久久人妻无码中文字幕爆 | 麻豆国产97在线 | 欧洲 | 国产精品久久国产三级国 | 亚洲中文字幕va福利 | 中文字幕av无码一区二区三区电影 | 丰满少妇女裸体bbw | 1000部啪啪未满十八勿入下载 | 久久精品视频在线看15 | 欧美 丝袜 自拍 制服 另类 | 成人动漫在线观看 | 亚洲精品www久久久 | 东京热无码av男人的天堂 | 骚片av蜜桃精品一区 | 精品无码国产自产拍在线观看蜜 | 人妻体内射精一区二区三四 | 高潮毛片无遮挡高清免费 | 国产午夜亚洲精品不卡下载 | 久久zyz资源站无码中文动漫 | 麻豆精品国产精华精华液好用吗 | 欧美喷潮久久久xxxxx | 老太婆性杂交欧美肥老太 | 亚洲成a人片在线观看日本 | 国产尤物精品视频 | 久久熟妇人妻午夜寂寞影院 | 爆乳一区二区三区无码 | 亚洲va中文字幕无码久久不卡 | 国产精品多人p群无码 | 秋霞成人午夜鲁丝一区二区三区 | 国产女主播喷水视频在线观看 | 久久久久久久久888 | 国产真实夫妇视频 | 图片区 小说区 区 亚洲五月 | 永久黄网站色视频免费直播 | 精品国产一区二区三区av 性色 | 熟妇人妻无乱码中文字幕 | 亚洲精品成人福利网站 | 亚洲毛片av日韩av无码 | 欧美猛少妇色xxxxx | 自拍偷自拍亚洲精品10p | 天海翼激烈高潮到腰振不止 | 天堂在线观看www | 欧美丰满熟妇xxxx性ppx人交 | 久久综合香蕉国产蜜臀av | 少妇性l交大片 | aa片在线观看视频在线播放 | 2020最新国产自产精品 | 成人一在线视频日韩国产 | 国产精品久久久久久亚洲影视内衣 | 欧美性生交活xxxxxdddd | 成人欧美一区二区三区黑人 | 亚洲中文字幕成人无码 | 久久久国产精品无码免费专区 | 无码精品人妻一区二区三区av | 久久精品无码一区二区三区 | 久久亚洲中文字幕精品一区 | 中文字幕乱妇无码av在线 | 国产精品久久国产三级国 | 蜜桃视频插满18在线观看 | 久久五月精品中文字幕 | 青青久在线视频免费观看 | 亚洲热妇无码av在线播放 | 丰满人妻翻云覆雨呻吟视频 | 国产人妻大战黑人第1集 | 无码人妻精品一区二区三区不卡 | 国产精品无码永久免费888 | 无码乱肉视频免费大全合集 | 又大又硬又爽免费视频 | 国产真实夫妇视频 | 亚洲成av人影院在线观看 | 永久免费精品精品永久-夜色 | 国产舌乚八伦偷品w中 | 欧美亚洲日韩国产人成在线播放 | 国产精品高潮呻吟av久久 | 一二三四社区在线中文视频 | 蜜桃av蜜臀av色欲av麻 999久久久国产精品消防器材 | 一本久道高清无码视频 | 亚洲国精产品一二二线 | 白嫩日本少妇做爰 | 国产精华av午夜在线观看 | 久久国产精品精品国产色婷婷 | 国产肉丝袜在线观看 | 日韩精品乱码av一区二区 | 国产特级毛片aaaaaa高潮流水 | 鲁大师影院在线观看 | 麻豆国产97在线 | 欧洲 | 99久久99久久免费精品蜜桃 | 精品 日韩 国产 欧美 视频 | 18无码粉嫩小泬无套在线观看 | 在线精品亚洲一区二区 | 日韩精品无码免费一区二区三区 | 中文字幕 亚洲精品 第1页 | a在线观看免费网站大全 | 亚洲一区二区三区含羞草 | 中国女人内谢69xxxxxa片 | 一本久道高清无码视频 | 女人和拘做爰正片视频 | 久久久久成人片免费观看蜜芽 | 少妇激情av一区二区 | 国产精品手机免费 | 免费人成网站视频在线观看 | 中文字幕 亚洲精品 第1页 | 午夜精品久久久久久久久 | 精品国偷自产在线 | 国产人妻大战黑人第1集 | 亚洲国产高清在线观看视频 | 无码午夜成人1000部免费视频 | 色五月五月丁香亚洲综合网 | 少妇被粗大的猛进出69影院 | 久久久久久九九精品久 | 国内老熟妇对白xxxxhd | 欧洲精品码一区二区三区免费看 | 国产网红无码精品视频 | 男女超爽视频免费播放 | 日本一卡2卡3卡4卡无卡免费网站 国产一区二区三区影院 | 爱做久久久久久 | 无码人妻丰满熟妇区五十路百度 | 精品国产一区av天美传媒 | 国产熟妇另类久久久久 | 任你躁国产自任一区二区三区 | 亚洲精品综合五月久久小说 | 日产精品99久久久久久 | 好男人www社区 | 国产猛烈高潮尖叫视频免费 | 国产三级精品三级男人的天堂 | 亚洲中文字幕久久无码 | 麻花豆传媒剧国产免费mv在线 | 中文字幕亚洲情99在线 | 国产精品久久久 | 波多野结衣一区二区三区av免费 | 精品偷自拍另类在线观看 | 日韩少妇内射免费播放 | 九九久久精品国产免费看小说 | 亚洲成熟女人毛毛耸耸多 | 国产无遮挡吃胸膜奶免费看 | 午夜精品久久久内射近拍高清 | 久久久久人妻一区精品色欧美 | 波多野结衣高清一区二区三区 | 丝袜美腿亚洲一区二区 | 免费观看的无遮挡av | 无码av最新清无码专区吞精 | 成人欧美一区二区三区黑人免费 | 99精品视频在线观看免费 | 玩弄中年熟妇正在播放 | 久久熟妇人妻午夜寂寞影院 | 夜夜夜高潮夜夜爽夜夜爰爰 | 日本肉体xxxx裸交 | 免费无码av一区二区 | 色妞www精品免费视频 | 精品成人av一区二区三区 | 国产特级毛片aaaaaa高潮流水 | 精品成在人线av无码免费看 | 中文字幕av伊人av无码av | 久久综合狠狠综合久久综合88 | 久久精品女人天堂av免费观看 | 久久综合九色综合欧美狠狠 | 51国偷自产一区二区三区 | 亚洲精品中文字幕乱码 | 丰满少妇熟乱xxxxx视频 | 女人被爽到呻吟gif动态图视看 | 图片小说视频一区二区 | 亚洲无人区午夜福利码高清完整版 | 亚洲男人av天堂午夜在 | a片免费视频在线观看 | 18精品久久久无码午夜福利 | 亚洲自偷精品视频自拍 | 国产农村乱对白刺激视频 | 中文字幕人成乱码熟女app | 精品久久久无码中文字幕 | 国产极品视觉盛宴 | 色综合久久久久综合一本到桃花网 | 久久久久久九九精品久 | 婷婷色婷婷开心五月四房播播 | 日韩精品a片一区二区三区妖精 | 中文字幕av日韩精品一区二区 | 日本丰满护士爆乳xxxx | 午夜性刺激在线视频免费 | 日本一区二区三区免费高清 | 精品久久综合1区2区3区激情 | 久久精品人妻少妇一区二区三区 | 日本一本二本三区免费 | www国产精品内射老师 | 又湿又紧又大又爽a视频国产 | 高潮毛片无遮挡高清免费视频 | 18黄暴禁片在线观看 | 免费无码肉片在线观看 | 精品久久久久久人妻无码中文字幕 | 国产精品久久久久影院嫩草 | www国产精品内射老师 | 国产黑色丝袜在线播放 | 国产情侣作爱视频免费观看 | 亚洲精品中文字幕 | 啦啦啦www在线观看免费视频 | 久久亚洲日韩精品一区二区三区 | 久久久久国色av免费观看性色 |