CPU指令集——AVX2
1.查看CPU所支持的指令集
- 對于windows系統(tǒng),可借助
CPU-Z工具,可查看當(dāng)前CPU所支持的指令集:
- 對于Linux系統(tǒng),可運行
cat /proc/cpuinfo | grep flags來查看當(dāng)前CPU所支持的指令集:
由此可知,Intel i7-7700CPU支持AVX2指令集,但是不支持AVX-512指令集。
AVX512-IFMA為Intel AVX512指令集的一個extension擴展集,主要用于加速整數(shù)運算。
根據(jù)https://medium.com/@hdevalence/even-faster-edwards-curves-with-ifma-8b1e576a00e9 可知,其基于AVX512-IFMA的實現(xiàn)是AVX2速度的1.5倍。
目前支持AVX512-IFMA指令集的CPU主要有Cannon Lake(如Intel? Core™ i3-8121U Processor)和Ice Lake系列處理器:
2. SIMD
SIMD的全稱為:Single Instruction stream Multiple Data streams,對應(yīng)的中文名為:單指令流多數(shù)據(jù)流。
SIMD為并行計算中的一種。
計算機架構(gòu)Flynn分類法(1966年提出),根據(jù)指令流和數(shù)據(jù)流的并發(fā)數(shù)量分為:
- Single instruction stream single data stream(SISD),典型的串行機。
- Single instruction stream multiple data streams(SIMD),即單一指令可同時操作多個不同的數(shù)據(jù)流。指令可以pipeline方式順序執(zhí)行,也可通過多個功能單元并行執(zhí)行。
- Multiple instruction streams single data stream(MISD),多條指令對應(yīng)一個數(shù)據(jù)流。該架構(gòu)除用于容錯場景外(如多個系統(tǒng)同時操作相同的數(shù)據(jù)流,必須達(dá)成相同的結(jié)果),不常用。
- Multiple instruction streams multiple data streams(MIMD),多個自治處理器同時對不同的數(shù)據(jù)執(zhí)行不同的指令。MIMD包括多核超標(biāo)量處理器和分布式系統(tǒng)。
3. AVX
AVX為在CPU處理器上實現(xiàn)SIMD操作的指令集。主要衍化流程為:
-
AVX,全稱為:Advanced Vector Extensions(又名,Sandy Bridge New Extensions),是Intel和AMD微服務(wù)器x86指令集的extension擴展。
-
AVX2擴充到了支持256bit的整數(shù)運算指令,引入了Fused-Multiply-Add(FMA)運算。所謂FMA,即可通過單一指令實現(xiàn) A = A ? B + C A=A*B+C A=A?B+C計算。
-
AVX-512通過使用新的EVEX prefix編碼方式,將AVX擴充到了支持512-bit運算。
Intel AVX introduces support for 256-bit wide SIMD registers (YMM0-YMM7 in operating modes that are 32-bit or less, YMM0-YMM15 in 64-bit mode). The lower 128-bits of the YMM registers are aliased to the respective 128-bit XMM registers.
AVX硬件由16個256bitYMM寄存器(YMM0~YMM15)和1個32-bit control/status控制/狀態(tài)MXCSR寄存器組成。其中YMM寄存器的低128位與Intel SSE指令集的128-BIT XMM寄存器復(fù)用。
AVX指令集遵循IEEE-754規(guī)范,其中的32-bit浮點數(shù)為單精度浮點數(shù)(float),64-bit浮點數(shù)為雙精度浮點數(shù)(double)。因為AVX中的YMM寄存器為256-bit,所以若存儲單精度浮點數(shù)32-bit,可存儲8個,若存儲雙精度浮點數(shù)64-bit,可存儲4個。
盡管VGX并不要求內(nèi)存對齊,但是內(nèi)存對齊有助于提升性能。如對于128-bit訪問的16字節(jié)對齊和對于256-bit訪問的32字節(jié)對齊。
MXCSR寄存器的0~5位除非使用LDMXCSR或FXRSTOR命令清理,否則將保持不變,分別代表無效的操作:denormal、除0、overflow、underflow和精度。
4. AVX2指令集
根據(jù)《Intel? Advanced Vector Extensions Programming Reference.pdf》有:
- 1) PMULUDQ – Multiply Packed Unsigned Doubleword Integers
- 2)vpunpckldq- Unpack Low Data
- 3)vpunpckhdq- Unpack High Data
- 4)VPSHUFD- Shuffle Packed Doublewords
- 5)VPBLENDD – Blend Packed Dwords
- 6)VPERMD – Full Doublewords Element Permutation
- 7)VPSRLVD——Variable Bit Shift Right Logical
參考資料:
[1] https://www.cpuid.com/softwares/cpu-z.html
[2] https://medium.com/@hdevalence/even-faster-edwards-curves-with-ifma-8b1e576a00e9
[3] https://en.wikipedia.org/wiki/AVX-512
[4] https://en.wikipedia.org/wiki/Advanced_Vector_Extensions
[5] https://software.intel.com/en-us/articles/introduction-to-intel-advanced-vector-extensions
[6] https://en.wikipedia.org/wiki/SIMD
[7] 《Intel? Advanced Vector Extensions Programming Reference.pdf》
總結(jié)
以上是生活随笔為你收集整理的CPU指令集——AVX2的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: RPC接口简介「建议收藏」(一文带你搞懂
- 下一篇: bogon是什么意思_跟踪IP出现bog