[笔记] GPGPU-SIM的使用说明(一)
本文來(lái)自魏繼增科學(xué)網(wǎng)博客:鏈接地址:http://blog.sciencenet.cn/blog-1067211-726653.html?
3.1 Simulation Modes
? ?默認(rèn)情況下,大多數(shù)的使用者使用GPGPU-Sim 3.x評(píng)估GPU運(yùn)行一個(gè)應(yīng)用所需要的時(shí)鐘周期數(shù)。這就是性能仿真模型。當(dāng)嘗試在GPGPU-Sim上運(yùn)行一個(gè)新的應(yīng)用,則有可能該應(yīng)用的運(yùn)行結(jié)果不正確,即可能產(chǎn)生錯(cuò)誤的數(shù)據(jù)。為了幫助調(diào)試應(yīng)用,GPGPU-Sim 3.x還支持快速的功能仿真。GPGPU-Sim 3.x還支持在NVIDIA GPU上執(zhí)行本地硬件ISA,通過(guò)一種擴(kuò)展的PTX語(yǔ)法,稱為PTXPlus。下面各小節(jié)將依次介紹這些特征。
?
3.1.1 Performance Simulation
? ?性能仿真是仿真器默認(rèn)的仿真模式,它能夠收集各種性能參數(shù),但仿真速度較慢。GPGPU-Sim仿真在Microarchitecture Model一節(jié)中描述的微架構(gòu)。
? ?為了選擇性能仿真模式,在gpgpusim.config文件中添加如下所示的語(yǔ)句:
-gpgpu_ptx_sim_mode 0
關(guān)于仿真的輸出的更多信息參見(jiàn)“understanding simulationoutput”小節(jié)。
?
3.1.2Pure Functional Simulation
純功能仿真比性能仿真的仿真速度更快,但是它僅能夠執(zhí)行CUDA/OpenCL程序,不能夠收集任何性能統(tǒng)計(jì)信息。
為了選擇純功能仿真模式,在gpgpusim.config文件中添加如下所示的語(yǔ)句:
??-gpgpu_ptx_sim_mode1
作為另一種選擇,你可以設(shè)置環(huán)境變量PTX_SIM_MODE_FUNC為“1”。然后就可以利用性能仿真模式執(zhí)行程序了。
僅僅仿真一個(gè)GPU設(shè)備的功能,GPGPU-Sim純功能仿真模式執(zhí)行CUDA/OpenCL程序就好像他們運(yùn)行在一個(gè)真實(shí)的GPU設(shè)備上,所以在這種模式里不會(huì)收集任何性能統(tǒng)計(jì)信息,僅僅一個(gè)GPU程序的常規(guī)輸出被顯示。純功能仿真模式比性能仿真快很多(大約快5~10倍)。
這個(gè)模式非常有用,假如你想快速的驗(yàn)證你的代碼在GPGPU-Sim上是否工作正確,或者假如你想在沒(méi)有真正的GPU計(jì)算設(shè)備的情況下增加CUDA/OpenCL的編程經(jīng)驗(yàn)。純功能仿真和性能仿真一樣,對(duì)于PTXPlus支持同樣版本的CUDA(CUDA v3.1和V2.3)。純功能仿真以warp為單位執(zhí)行程序,每個(gè)Cooperative Thread Array(CTA)中的warp執(zhí)行直到所有都執(zhí)行完畢或者等待在一個(gè)barrier處,對(duì)于后一種情況,一旦所有的warp等待在barrier,他們被清理并跨越barrier繼續(xù)執(zhí)行。
?
3.1.3Interactive Debugger Mode
? ?交互式調(diào)試模式提供一個(gè)類似GDB的接口對(duì)GPGPU-Sim中的功能行為進(jìn)行調(diào)試。然后,當(dāng)前它只能工作在性能仿真模式下。
? ?為了使用交互調(diào)試模式,設(shè)置環(huán)境變量GPGPUSIM_DEBUG為“1”。其所支持的命令如下所示:
| Command | Description |
| dp ?<id> | 顯示流水線:顯示編號(hào)為<id>的SIMT核心的流水線中的內(nèi)容 |
| q | 退出 |
| b ?<file>:<line> <thread uid> | 對(duì)于線程id為<uid>的線程,在<file>:<line>處設(shè)置斷點(diǎn) |
| d ?<uid> | 刪除斷點(diǎn) |
| s | 對(duì)于所有的核心單步執(zhí)行到下一個(gè)core cycle |
| c | 采用非單步方式繼續(xù)執(zhí)行下去 |
| w ?<address> | 在地址<address>設(shè)置監(jiān)測(cè)點(diǎn)(watchpoint) |
| l | 在當(dāng)前斷點(diǎn)列出PTX指令 |
| h | 顯示幫助信息 |
?
? ?調(diào)試功能的實(shí)現(xiàn)在文件debug.h和debug.cc中。
?
3.1.4Cuobjdump Support
? ?在當(dāng)前的GPGPU-Sim 3.1.0版本中,對(duì)于cuobjdump的使用支持被添加。Cuobjdump是一個(gè)由NVIDIA提供的軟件,它能夠從二進(jìn)制文件中抽取SASS和PTX信息。GPGPU-Sim支持使用cuobjdump抽取它運(yùn)行SASS或PTX所需要的信息,以替代從cubin文件中獲取這些信息。使用cuobjdump僅支持CUDA 4.0。Cuobjdump默認(rèn)是打開(kāi)的,假如仿真器是在CUDA 4.0下被編譯的。為了打開(kāi)/關(guān)閉cuobjdump,可以在你的配置文件中添加如下配置信息:
? ?# disable cuobjdump
-gpgpu_ptx_use_cuobjdump 0
# enable cuobjdump
-gpgpu_ptx_use_cuobjdump 1
?
3.1.5PTX vs. PTXPlus
默認(rèn)情況下,GPGPU-Sim 3.x仿真PTX指令。然而,當(dāng)在一個(gè)實(shí)際的GPU上執(zhí)行時(shí),PTX被重新編譯為本地的GPU ISA(SASS)。這個(gè)重編譯并不能用正常的PTX指令進(jìn)行解釋。為了解決這個(gè)問(wèn)題,我們創(chuàng)建了PTXPlus。PTXPlus是GPGPU-Sim 3.x引入的一種PTX擴(kuò)展模式,它從GT200 SASS指令到PTXPlus指令的1對(duì)1映射。它引入了在PTX中不存在的新指令和尋址模式。當(dāng)轉(zhuǎn)化到PTXPlus設(shè)置被激活,構(gòu)成程序的SASS指令被轉(zhuǎn)化為PTXPlus指令,然后可在GPGPU-Sim上進(jìn)行仿真。使用PTXPlus轉(zhuǎn)化設(shè)置可以得到更加精確仿真結(jié)果。然而,到PTXPlus的轉(zhuǎn)化并不支持所有可以通過(guò)PTX進(jìn)行仿真的程序。當(dāng)前,僅高于4.0的CUDA Toolkit支持到PTXPlus的轉(zhuǎn)化。
為了從可執(zhí)行文件轉(zhuǎn)化為SASS,GPGPU-Sim cuobjdump,一個(gè)NVIDIA CUDA toolkit提供的軟件可以從CUDA可執(zhí)行文件中抽取PTX,SASS和其他的信息。GPGPU-Sim 3.x包含一個(gè)單機(jī)程序,叫做cuobjdump_to_ptxplus,被調(diào)用將cuobjdump的輸出轉(zhuǎn)化為GPGPU-Sim可以仿真的PTXPlus。cuobjdump_to_ptxplus是一個(gè)C++程序。一個(gè)關(guān)于PTXPlus轉(zhuǎn)化過(guò)程的詳細(xì)描述請(qǐng)參見(jiàn)“PTXPlus Conversion”一節(jié)。當(dāng)前,cuobjdump_to_ptxplus支持SASS的轉(zhuǎn)化對(duì)于sm版本<sm_20。
為了打開(kāi)PTXPlus仿真,在gpgpusim.config文件中添加如下所示的語(yǔ)句:
-gpgpu_ptx_convert_to_ptxplus 1
被轉(zhuǎn)化的PTXPlus可以保存在名為“"_#NaNxplus”的文件中,在gpgpusim.config文件中添加如下所示的語(yǔ)句:
-gpgpu_ptx_save_converted_ptxplus 1
如果想關(guān)掉任何一個(gè)中設(shè)置,可以刪除相應(yīng)的行或?qū)⒅祻摹?”改為“0”。更多關(guān)于PTXPlus的細(xì)節(jié)可以參照“PTXPlus support”一節(jié)。如果上述的設(shè)置都是打開(kāi)的,GPGPU-Sim試圖將SASS代碼轉(zhuǎn)化為PTXPlus,然后運(yùn)行PTXPlus。然而,如上所述,并不是所有的程序都支持這種模式。
?
3.3Configuration Options
? ?配置參數(shù)被傳入GPGPU-Sim通過(guò)gpgpusim.config和一個(gè)互連網(wǎng)絡(luò)配置文件(通過(guò)在gpgpusim.config中設(shè)置-inter_config_file)。GPGPU-Sim 3.0.2中的configs文件夾內(nèi)包含了NVIDIA GT200(configs/QuadroFX5800/)和Fermi架構(gòu)(configs/Fermi/)的配置文件。
? ?所有的配置參數(shù)如下列表所示:
| Simulation Run Configuration | |
| Option | Description |
| -gpgpu_max_cycle <# cycles> | 經(jīng)過(guò)了<# cycles>個(gè)cycle后,終止GPGPU-Sim仿真(0=no limit) |
| -gpgpu_max_insn <# insns> | 經(jīng)過(guò)了<# insns>個(gè)指令后,終止GPGPU-Sim仿真(0=no limit) |
| -gpgpu_ptx_sim_mode ?<0=performance (default), 1=functional> | 選擇性能仿真模型或功能仿真模型 |
| -gpgpu_deadlock_detect <0=off, ?1=on (default)> | 在死鎖的時(shí)候停止仿真 |
| -gpgpu_max_cta | 可以在GPU上并發(fā)運(yùn)行的cta數(shù)目(0=no limit) |
| -gpgpu_max_concurrent_kernel | 可以在GPU上并發(fā)運(yùn)行的最大的kernel數(shù)目 |
| Statistics Collection ?Options | |
| Option | Description |
| -gpgpu_ptx_instruction_classification ?<0=off, 1=on (default)> | 打開(kāi)指令分類 |
| -gpgpu_runtime_stat ?<frequency>:<flag> | 顯示運(yùn)行時(shí)統(tǒng)計(jì)信息 |
| -gpgpu_memlatency_stat | 收集存儲(chǔ)器延遲統(tǒng)計(jì)信息(0x2 enables MC, 0x4 ?enables queue logs) |
| -visualizer_enabled <0=off, 1=on ?(default)> | 打開(kāi)visualizer輸出(使用AerialVision可視化工具畫(huà)出log文件中保存的數(shù)據(jù)曲線) |
| -visualizer_outputfile ?<filename> | 為visualizer指定輸出文件 |
| -visualizer_zlevel <compression ?level> | Visualizer輸出log文件的壓縮級(jí)別(0=no compression, 9=max ?compression) |
| -save_embedded_ptx | 將二進(jìn)制文件中的PTX保存為<n>NaNx |
| -enable_ptx_file_line_stats ?<0=off, 1=on (default)> | 打開(kāi)PTX源文件統(tǒng)計(jì)剖析功能 |
| -ptx_line_stats_filename <output ?file name> | 指定PTX源文件統(tǒng)計(jì)剖析信息的輸出文件 |
| -gpgpu_warpdistro_shader | 指定某個(gè)shader core收集warp size的分布情況 |
| -gpgpu_cflog_interval | 控制流記錄器(logger)中每個(gè)快照(snopshot)的間隔 |
| -keep | 保存GPGPU-Sim產(chǎn)生的中間文件 |
| High-Level Architecture Configuration (See ISPASS ?paper for more details on what is being modeled) | |
| Option | Description |
| -gpgpu_n_mem <# memory ?controller> | DRAM控制器(DRAM通道)的數(shù)目。在進(jìn)行這個(gè)設(shè)置前,請(qǐng)先閱讀“#Topology Configuration”小節(jié) |
| -gpgpu_clock_domains <Core ?Clock>:<Interconnect Clock>:<L2 Clock>:<DRAM Clock> | 設(shè)置4個(gè)時(shí)鐘域 |
| -gpgpu_n_clusters | 設(shè)置核心簇的數(shù)目 |
| -gpgpu_n_cores_per_cluster | 設(shè)置每個(gè)核心簇中SIMD核心的數(shù)目 |
| Additional Architecture ?Configuration | |
| Option | Description |
| -gpgpu_n_cluster_ejection_buffer_size | Ejection buffer中包的數(shù)目 |
| -gpgpu_n_ldst_response_buffer_size | LD/ST單元ejection buffer中響應(yīng)包的數(shù)目 |
| -gpgpu_coalesce_arch | 合并架構(gòu)(default = 13, anything else is off for now) |
| Scheduler | |
| Option | Description |
| -gpgpu_num_sched_per_core | 每個(gè)核心warp調(diào)度器的數(shù)目 |
| -gpgpu_max_insn_issue_per_warp | 每個(gè)cycle內(nèi)每個(gè)warp所能發(fā)射的最大指令數(shù) |
| Shader Core Pipeline Configuration | |
| Option | Description |
| -gpgpu_shader_core_pipeline <# ?thread/shader core>:<warp size>:<pipeline SIMD width> | Shader核心的流水線設(shè)置 |
| -gpgpu_shader_registers <# ?registers/shader core, default=8192> | 每個(gè)shader核心的最大寄存器數(shù)目,被并發(fā)的CTA數(shù)目所限制 |
| -gpgpu_shader_cta <# CTA/shader ?core, default=8> | 每個(gè)shader核心中能夠并發(fā)的cta數(shù)目 |
| -gpgpu_simd_model <1=immediate ?post-dominator, others are not supported for now> ? ? ? ? ? | SIMD分支分叉的處理策略 |
| Memory Sub-System ?Configuration | |
| Option | Description |
| -gpgpu_perfect_mem <0=off ?(default), 1=on> | 開(kāi)啟完美存儲(chǔ)器模式(不發(fā)生cache miss并且存儲(chǔ)器延遲為“0”) |
| -gpgpu_tex_cache:l1 ?<nsets>:<bsize>:<assoc>:<rep>:<wr>:<alloc>,<mshr>:<N>:<merge>,<mq> | 紋理Cache配置。Evict policy: L = LRU, F = FIFO, R = Random |
| -gpgpu_const_cache:l1 ?<nsets>:<bsize>:<assoc>:<rep>:<wr>:<alloc>,<mshr>:<N>:<merge>,<mq> | 常量Cache配置。Evict policy: L = LRU, F = FIFO, R = Random |
| -gpgpu_cache:il1 ?<nsets>:<bsize>:<assoc>:<rep>:<wr>:<alloc>,<mshr>:<N>:<merge>,<mq> | L1指令Cache配置。Evict policy: L = LRU, F = FIFO, R = Random |
| -gpgpu_cache:dl1 ?<nsets>:<bsize>:<assoc>:<rep>:<wr>:<alloc>,<mshr>:<N>:<merge>,<mq> ?-- set to "none" for no DL1 -- | L1數(shù)據(jù)Cache配置。Evict policy: L = LRU, F = FIFO, R = Random |
| -gpgpu_cache:dl2 ?<nsets>:<bsize>:<assoc>:<rep>:<wr>:<alloc>,<mshr>:<N>:<merge>,<mq> | 統(tǒng)一的分bank的L2 Cache的配置。它指明了一個(gè)Memory Partion中L2 Cache bank的配置。L2 Cache的總?cè)萘?= <nsets> x <bsize> x <assoc> x ?<# memory controller> |
| -gpgpu_shmem_size <shared memory ?size, default=16kB> | 每個(gè)shader核心中共享memory的大小 |
| -gpgpu_shmem_warp_parts | 對(duì)于共享memory bank沖突檢測(cè),warp被劃分的數(shù)目。 |
| -gpgpu_flush_cache <0=off ?(default), 1=on> | 在每個(gè)kernel調(diào)用的結(jié)束階段Flush Cache |
| -gpgpu_local_mem_map | 從本地memory存儲(chǔ)空間地址到GPU仿真的物理空間地址的映射(默認(rèn)為開(kāi)啟) |
| -gpgpu_num_reg_banks | 寄存器堆的bank數(shù)目 |
| -gpgpu_reg_bank_use_warp_id | 將寄存器映射為bank時(shí)使用warp id(默認(rèn)為關(guān)閉) |
| -gpgpu_cache:dl2_texture_only | L2 Cache僅用于紋理(0=no, 1=yes, default=1) |
| Operand Collector Configuration | |
| Option | Description |
| -gpgpu_operand_collector_num_units_sp | Collector ?unit的數(shù)目。(默認(rèn)?= 4) |
| -gpgpu_operand_collector_num_units_sfu | Collector ?unit的數(shù)目。(默認(rèn)?= 4) |
| -gpgpu_operand_collector_num_units_mem | Collector ?unit的數(shù)目。(默認(rèn)?= 2) |
| -gpgpu_operand_collector_num_units_gen | Collector ?unit的數(shù)目。(默認(rèn)?= 0) |
| -gpgpu_operand_collector_num_in_ports_sp | Collector ?unit輸入端口的數(shù)目(默認(rèn)?= 1) |
| -gpgpu_operand_collector_num_in_ports_sfu | Collector ?unit輸入端口的數(shù)目(默認(rèn)?= 1) |
| -gpgpu_operand_collector_num_in_ports_mem | Collector ?unit輸入端口的數(shù)目(默認(rèn)?= 1) |
| -gpgpu_operand_collector_num_in_ports_gen | Collector unit輸入端口的數(shù)目(默認(rèn)?= 0) |
| -gpgpu_operand_collector_num_out_ports_sp | Collector unit輸出端口的數(shù)目(默認(rèn)?= 1) |
| -gpgpu_operand_collector_num_out_ports_sfu | Collector unit輸出端口的數(shù)目(默認(rèn)?= 1) |
| -gpgpu_operand_collector_num_out_ports_mem | Collector unit輸出端口的數(shù)目(默認(rèn)?= 1) |
| -gpgpu_operand_collector_num_out_ports_gen | Collector unit輸出端口的數(shù)目(默認(rèn)?= 0) |
| DRAM/Memory Controller ?Configuration | |
| Option | Description |
| -gpgpu_dram_scheduler <0 = fifo, ?1 = fr-fcfs> | DRAM調(diào)度器的類型 |
| -gpgpu_dram_sched_queue_size <# ?entries> | DRAM調(diào)度對(duì)列的大小(0 = unlimited (default); ?# entries per chip) |
| -gpgpu_dram_buswidth?<# bytes/DRAM bus ?cycle, default=4 bytes, i.e. 8 bytes/command clock cycle> | 在command總線頻率下一個(gè)DRAM芯片的總線帶寬(default = 4 bytes (8 bytes ?per command clock cycle))。每個(gè)MC的DRAM芯片數(shù)目由-gpgpu_n_mem_per_ctrlr選項(xiàng)確定。每個(gè)memory partition有(gpgpu_dram_buswidth X ?gpgpu_n_mem_per_ctrlr)位DRAM數(shù)據(jù)pin腳。例如,Quadro FX5800有512位DRAM數(shù)據(jù)總線,被劃分為8個(gè)memory partition。每個(gè)memory partition有一個(gè)512/8 = 64bit數(shù)據(jù)總線。64位總線被劃分為兩個(gè)DRAM芯片。每個(gè)芯片有32位?= 4字節(jié)DRAM總線寬度。因此設(shè)置-gpgpu_dram_buswidth為“4”。 |
| -gpgpu_dram_timing_opt ?<nbk:tCCD:tRRD:tRCD:tRAS:tRP:tRC:CL:WL:tWTR> | DRAM時(shí)序參數(shù) |
| -gpgpu_mem_address_mask <address ?decoding scheme> | 選擇不同的地址譯碼策略對(duì)不同的memory bank進(jìn)行訪問(wèn)。(0 = old addressing mask, 1 = new addressing mask, 2 = ?new add. mask + flipped bank sel and chip sel bits) |
| -gpgpu_mem_addr_mapping dramid@<start ?bit>;<memory address map> | 將存儲(chǔ)地址映射到DRAM模型: l??<start bit> =?用來(lái)指定DRAM通道ID的起始bit位(這意味著下Log2(#DRAM channel)bit位被用來(lái)作為DRAM通道ID,整個(gè)的地址映射被轉(zhuǎn)換取決于有多少bit位被使用) l??<memory address ?map> =?一個(gè)64個(gè)字符的字符串指名存儲(chǔ)器地址中每一位是如何被映射為行(R),列(C),bank(B)地址的。部分處于DRAM突發(fā)中的地址應(yīng)該用(S)指名 |
| -gpgpu_n_mem_per_ctrlr <# DRAM ?chips/memory controller> | 每個(gè)MC中DRAM芯片的數(shù)量(即DRAM通道) |
| -gpgpu_dram_partition_queues | i2::2d:d2::2i |
| -rop_latency <# minimum cycle ?before L2 cache access> | 指定最小的延遲(以核心的時(shí)鐘周期為單位)從一個(gè)存儲(chǔ)請(qǐng)求到達(dá)memory partition到它訪問(wèn)L2 Cache/進(jìn)入DRAM訪問(wèn)隊(duì)列。它建模了最小的L2 Cache命中延遲。 |
| -dram_latency <# minimum cycle ?after L2 cache access and before DRAM access> | 指定最小的延遲(以核心的時(shí)鐘周期為單位)從一個(gè)存儲(chǔ)請(qǐng)求訪問(wèn)L2 Cache到它被送入DRAM調(diào)度器。這個(gè)設(shè)置和-rop_latency一起建模最小的DRAM訪問(wèn)延遲(= rop_latency + ?dram_latency)。 |
| Interconnection ?Configuration | |
| Option | Description |
| -inter_config_file <Path to ?Interconnection Config file> | 這個(gè)文件包含了互連網(wǎng)絡(luò)仿真器的設(shè)置 |
| -network_mode | 互連網(wǎng)絡(luò)模型(默認(rèn)?= 1) |
| PTX Configurations | |
| Option | Description |
| -gpgpu_ptx_use_cuobjdump | 使用cuobjdump抽取ptx/sass (0=no, 1=yes)?僅對(duì)CUDA 4.0有效。 |
| -gpgpu_ptx_convert_to_ptxplus | 將嵌入的ptx轉(zhuǎn)化為ptxplus (0=no, 1=yes) |
| -gpgpu_ptx_save_converted_ptxplus | 將轉(zhuǎn)化的ptxplus保存到文件(0=no, 1=yes) |
| -gpgpu_ptx_force_max_capability | 強(qiáng)迫使用最大計(jì)算能力?(默認(rèn)為“0”) |
| -gpgpu_ptx_inst_debug_to_file | 將執(zhí)行指令的調(diào)試信息dump到文件(0=no, 1=yes) |
| -gpgpu_ptx_inst_debug_file | 指定調(diào)試信息的輸出文件 |
| -gpgpu_ptx_inst_debug_thread_uid | 指令調(diào)試信息的線程id UID |
?
3.3.1Interconnection Configuration
? ?GPGPU-Sim 3.x使用booksim router simulator建模互連網(wǎng)絡(luò)。可以參考booksim文檔配置互連網(wǎng)絡(luò)。然而,下面我們列出一些特殊的考慮需要被重視以確定你的修改可以和GPGPU-Sim一起工作。
?
3.3.1.1Topology Configuration
? ?注意,在互連網(wǎng)絡(luò)配置文件中指定的網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)目必須與GPGPU-Sim中的總節(jié)點(diǎn)數(shù)目相匹配。GPGPU-Sim的節(jié)點(diǎn)數(shù)目為SIMT核心簇?cái)?shù)目與MC數(shù)目之和。如,QuadroFX5800配置中有10個(gè)SIMT核心簇和8個(gè)MC。因此一共有18個(gè)節(jié)點(diǎn)。因此,互連網(wǎng)絡(luò)配置文件中也有18個(gè)節(jié)點(diǎn),如下所示:
? ?topology = fly;
? ?k = 18;
? ?n = 1;
routing_function = dest_tag;
以上這個(gè)配置片斷設(shè)置了一個(gè)一階的蝶形互連網(wǎng)絡(luò),具有destination tag routing和18個(gè)節(jié)點(diǎn)。通常,蝶形和網(wǎng)狀互連網(wǎng)絡(luò)的網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)應(yīng)當(dāng)是k*n。
注意,如果選擇使用網(wǎng)狀互連網(wǎng)絡(luò),你需要考慮配置MC的放置。在當(dāng)前版本中,有一些預(yù)定義映射,可以通過(guò)設(shè)置“use_map=1;”開(kāi)啟。特別是ISPASS 2009文章中使用的網(wǎng)狀互連網(wǎng)絡(luò)可以通過(guò)這個(gè)進(jìn)行設(shè)置,拓?fù)浣Y(jié)構(gòu)為:
l??a 6x6 mesh network(topology=mesh, k=6, n=2) : 28 SIMT cores + 8 dram channels assuming the SIMTcore Cluster size is one
? ?你可以創(chuàng)建自己的映射通過(guò)修改interconnect_interface.cpp中的create_node_map(),并設(shè)置use_map=1。
?
3.3.1.2Booksim options added by GPGPU-Sim
?
3.3.1.3Booksim Options ignored by GPGPU-Sim
? ?注意,下面booksim中配置選項(xiàng)要么被忽略或者保持默認(rèn)狀態(tài)不變。
l??Traffic Options:injection_rate,injection_process, burst_alpha, burst_beta, "const_flit_per_packet",traffic
l??Simulation parameters:sim_type, sample_period,warmup_periods, max_samples, latency_thres, sim_count, reorder
?
?
總結(jié)
以上是生活随笔為你收集整理的[笔记] GPGPU-SIM的使用说明(一)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 夏泽网 中国渔业统计年鉴年鉴资料网
- 下一篇: cad转shp 奥维_CAD转化为Shp