當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SSE命令示例代码（整型、读写控制寄存器、混杂、矩阵变换）

發布時間：2025/7/25 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 SSE命令示例代码（整型、读写控制寄存器、混杂、矩阵变换）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. SSE的整型指令

// 測試SSE的整型指令 class="kwd" style="color:rgb(0,0,136)">void TestSSEInteger() class="pun" style="color:rgb(102,102,0)">{ class="pln" style="color:rgb(0,0,0)"> __m64 a; class="pln" style="color:rgb(0,0,0)"> a.m64_i16[0] = 654; class="pln" style="color:rgb(0,0,0)"> a.m64_i16[1] = -25; class="pln" style="color:rgb(0,0,0)"> a.m64_i16[2] = 35; class="pln" style="color:rgb(0,0,0)"> a.m64_i16[3] = 45; __m64 b; class="pln" style="color:rgb(0,0,0)"> b.m64_i16[0] = 456; class="pln" style="color:rgb(0,0,0)"> b.m64_i16[1] = 28; class="pln" style="color:rgb(0,0,0)"> b.m64_i16[2] = -5; class="pln" style="color:rgb(0,0,0)"> b.m64_i16[3] = 50; // a的4個數中插入一個立即數，第三個參數指定插入的位置 class="pln" style="color:rgb(0,0,0)"> __m64 c = _mm_insert_pi16(a, 90, 1); class="pln" style="color:rgb(0,0,0)"> printf("a: (%d, %d, %d, %d)\n\n", a.m64_i16[0], a.m64_i16[1], a.m64_i16[2], a.m64_i16[3]); class="pln" style="color:rgb(0,0,0)"> printf("b: (%d, %d, %d, %d)\n\n", b.m64_i16[0], b.m64_i16[1], b.m64_i16[2], b.m64_i16[3]); class="pln" style="color:rgb(0,0,0)"> printf("c: (%d, %d, %d, %d)\n\n", c.m64_i16[0], c.m64_i16[1], c.m64_i16[2], c.m64_i16[3]); // 從a中取出一個16位無符號數 class="pln" style="color:rgb(0,0,0)"> int a0 = _mm_extract_pi16(a, 0); class="pln" style="color:rgb(0,0,0)"> int a1 = _mm_extract_pi16(a, 1); class="pln" style="color:rgb(0,0,0)"> int a2 = _mm_extract_pi16(a, 2); class="pln" style="color:rgb(0,0,0)"> int a3 = _mm_extract_pi16(a, 3); class="pln" style="color:rgb(0,0,0)"> printf("(a0, a1, a2, a3) : (%d, %d, %d, %d)\n\n", a0, a1, a2, a3); // 得出a、b中對應位置的最大值和最小值 class="pln" style="color:rgb(0,0,0)"> __m64 iMax = _mm_max_pi16(a, b); class="pln" style="color:rgb(0,0,0)"> __m64 iMin = _mm_min_pi16(a, b); class="pln" style="color:rgb(0,0,0)"> printf("iMax: (%d, %d, %d, %d)\n\n", iMax.m64_i16[0], iMax.m64_i16[1], iMax.m64_i16[2], iMax.m64_i16[3]); class="pln" style="color:rgb(0,0,0)"> printf("iMin: (%d, %d, %d, %d)\n\n", iMin.m64_i16[0], iMin.m64_i16[1], iMin.m64_i16[2], iMin.m64_i16[3]); // 從n的最重要的比特位中創造出1個8位的掩碼 class="pln" style="color:rgb(0,0,0)"> __m64 n; class="pln" style="color:rgb(0,0,0)"> n.m64_i8[0] = 7; // sign(n0) = 0 // n.m64_u8[0] = 7; class="pln" style="color:rgb(0,0,0)"> n.m64_i8[1] = -12; // sign(n1) = 1; // n.m64_u8[1] = 244; class="pln" style="color:rgb(0,0,0)"> n.m64_i8[2] = 23; // sign(n2) = 0; // n.m64_u8[2] = 23; class="pln" style="color:rgb(0,0,0)"> n.m64_i8[3] = -32; // sign(n3) = 1; // n.m64_u8[3] = 224; class="pln" style="color:rgb(0,0,0)"> n.m64_i8[4] = -5; // sign(n4) = 1; // n.m64_u8[4] = 251; class="pln" style="color:rgb(0,0,0)"> n.m64_i8[5] = 2; // sign(n5) = 0; // n.m64_u8[5] = 2; class="pln" style="color:rgb(0,0,0)"> n.m64_i8[6] = 62; // sign(n6) = 0; // n.m64_u8[6] = 62; class="pln" style="color:rgb(0,0,0)"> n.m64_i8[7] = -44; // sign(n7) = 1; // n.m64_u8[7] = 212; class="pln" style="color:rgb(0,0,0)"> int mask = _mm_movemask_pi8(n); class="pln" style="color:rgb(0,0,0)"> printf("mask: 0x%x\n\n", mask); // mask = 0x9A // a和b的無符號相乘，返回32位中間結果的高16位 class="pln" style="color:rgb(0,0,0)"> __m64 ab = _mm_mulhi_pu16(a, b); class="pln" style="color:rgb(0,0,0)"> printf("ab: (%d, %d, %d, %d)\n\n", ab.m64_i16[0], ab.m64_i16[1], ab.m64_i16[2], ab.m64_i16[3]); // 根據第二個參數返回a的4個數的一個聯合 class="pln" style="color:rgb(0,0,0)"> __m64 e1 = _mm_shuffle_pi16(a, 0x23); // a[3], a[0], a[2], a[0] class="pln" style="color:rgb(0,0,0)"> __m64 e2 = _mm_shuffle_pi16(a, 0x32); // a[2], a[0], a[3], a[0] class="pln" style="color:rgb(0,0,0)"> __m64 e3 = _mm_shuffle_pi16(a, 0x51); // a[1], a[0], a[1], a[1] class="pln" style="color:rgb(0,0,0)"> __m64 e4 = _mm_shuffle_pi16(a, 0x76); // a[2], a[1], a[3], a[1] class="pln" style="color:rgb(0,0,0)"> printf("e1: (%d, %d, %d, %d)\n\n", e1.m64_i16[0], e1.m64_i16[1], e1.m64_i16[2], e1.m64_i16[3]); class="pln" style="color:rgb(0,0,0)"> printf("e2: (%d, %d, %d, %d)\n\n", e2.m64_i16[0], e2.m64_i16[1], e2.m64_i16[2], e2.m64_i16[3]); class="pln" style="color:rgb(0,0,0)"> printf("e3: (%d, %d, %d, %d)\n\n", e3.m64_i16[0], e3.m64_i16[1], e3.m64_i16[2], e3.m64_i16[3]); class="pln" style="color:rgb(0,0,0)"> printf("e4: (%d, %d, %d, %d)\n\n", e4.m64_i16[0], e4.m64_i16[1], e4.m64_i16[2], e4.m64_i16[3]); // 有條件的向地址p中存儲d的元素 class="pln" style="color:rgb(0,0,0)"> char p[8] = { 0 }; class="pln" style="color:rgb(0,0,0)"> __m64 d; class="pln" style="color:rgb(0,0,0)"> d.m64_i8[0] = 11; // d.m64_u8[0] = 11; class="pln" style="color:rgb(0,0,0)"> d.m64_i8[1] = -22; // d.m64_u8[1] = 234; class="pln" style="color:rgb(0,0,0)"> d.m64_i8[2] = 33; // d.m64_u8[2] = 33; class="pln" style="color:rgb(0,0,0)"> d.m64_i8[3] = -44; // d.m64_u8[3] = 212; class="pln" style="color:rgb(0,0,0)"> d.m64_i8[4] = 55; // d.m64_u8[4] = 55; class="pln" style="color:rgb(0,0,0)"> d.m64_i8[5] = -66; // d.m64_u8[5] = 190; class="pln" style="color:rgb(0,0,0)"> d.m64_i8[6] = 77; // d.m64_u8[6] = 77; class="pln" style="color:rgb(0,0,0)"> d.m64_i8[7] = -88; // d.m64_u8[7] = 168; class="pln" style="color:rgb(0,0,0)"> _mm_maskmove_si64(d, n, p); class="pln" style="color:rgb(0,0,0)"> printf("d: (%d, %d, %d, %d, %d, %d, %d, %d)\n\n", d.m64_i8[0], d.m64_i8[1], d.m64_i8[2], d.m64_i8[3], class="pln" style="color:rgb(0,0,0)"> d.m64_i8[4], d.m64_i8[5], d.m64_i8[6], d.m64_i8[7]); class="pln" style="color:rgb(0,0,0)"> printf("n: (%d, %d, %d, %d, %d, %d, %d, %d)\n\n", n.m64_i8[0], n.m64_i8[1], n.m64_i8[2], n.m64_i8[3], class="pln" style="color:rgb(0,0,0)"> n.m64_i8[4], n.m64_i8[5], n.m64_i8[6], n.m64_i8[7]); class="pln" style="color:rgb(0,0,0)"> printf("p: (%d, %d, %d, %d, %d, %d, %d, %d)\n\n", p[0], p[1], p[2], p[3], p[4], p[5], p[6], p[7]);

// 得出n和d中的對應的8位無符號的最大值和最小值 __m64 uMax = _mm_max_pu8(n, d); __m64 uMin = _mm_min_pu8(n, d); printf("uMax: (%u, %u, %u, %u, %u, %u, %u, %u)\n\n", uMax.m64_u8[0], uMax.m64_u8[1], uMax.m64_u8[2], uMax.m64_u8[3], uMax.m64_u8[4], uMax.m64_u8[5], uMax.m64_u8[6], uMax.m64_u8[7]); printf("uMin: (%u, %u, %u, %u, %u, %u, %u, %u)\n\n", uMin.m64_u8[0], uMin.m64_u8[1], uMin.m64_u8[2], uMin.m64_u8[3], uMin.m64_u8[4], uMin.m64_u8[5], uMin.m64_u8[6], uMin.m64_u8[7]); // 計算a和b中16位無符號的平均值（round模式） // 計算n和d中8 位無符號的平均值（round模式） __m64 avg1 = _mm_avg_pu16(a, b); __m64 avg2 = _mm_avg_pu8(n, d); printf("avg1: (%d, %d, %d, %d)\n\n", avg1.m64_u16[0], avg1.m64_u16[1], avg1.m64_u16[2], avg1.m64_u16[3]); printf("avg2: (%d, %d, %d, %d, %d, %d, %d, %d)\n\n", avg2.m64_u8[0], avg2.m64_u8[1], avg2.m64_u8[2], avg2.m64_u8[3], avg2.m64_u8[4], avg2.m64_u8[4], avg2.m64_u8[6], avg2.m64_u8[7]); // 計算n和d中無符號數的差的絕對值的總和，且高位置0 __m64 sad = _mm_sad_pu8(n, d); printf("sad: (%d, %d, %d, %d)\n\n", sad.m64_u16[0], sad.m64_u16[1], sad.m64_u16[2], sad.m64_u16[3]); }

??測試結果： ??
2. ?SSE的讀寫寄存器指令

// 測試SSE的讀寫寄存器指令 void TestSSECtlReg() { _mm_setcsr(0x9A); // 0x9A = 154 int value = _mm_getcsr(); printf("value: %d\n", value); }

??測試結果： ? ? ? 3. SSE的混雜指令

// 測試SSE的混雜指令 void TestSSEMix() { __m128 a; a.m128_f32[0] = 10.15; // sign(a0) = 0; a.m128_f32[1] = -20.25; // sign(a1) = 1; a.m128_f32[2] = 30.35; // sign(a2) = 0; a.m128_f32[3] = -40.45; // sign(a3) = 1; __m128 b; b.m128_f32[0] = 90.95; // sign(b0) = 0; b.m128_f32[1] = 80.85; // sign(b1) = 0; b.m128_f32[2] = -70.75; // sign(b2) = 1; b.m128_f32[3] = 60.65; // sign(b3) = 0; printf("a: (%.2f, %.2f, %.2f, %.2f)\n\n", a.m128_f32[0], a.m128_f32[1], a.m128_f32[2], a.m128_f32[3]); printf("b: (%.2f, %.2f, %.2f, %.2f)\n\n", b.m128_f32[0], b.m128_f32[1], b.m128_f32[2], b.m128_f32[3]); // 基于第三個參數（必須是立即數）從a和b中選擇4個指定的單精度浮點數 __m128 v1 = _mm_shuffle_ps(a, b, 0x76); // a[2], a[1], b[3], b[1] __m128 v2 = _mm_shuffle_ps(a, b, 0x85); // a[1], a[1], b[0], b[2] __m128 v3 = _mm_shuffle_ps(a, b, 0xB9); // a[1], a[2], b[3], b[2] __m128 v4 = _mm_shuffle_ps(a, b, 0x1C); // a[0], a[3], b[1], b[0] printf("v1: (%.2f, %.2f, %.2f, %.2f)\n\n", v1.m128_f32[0], v1.m128_f32[1], v1.m128_f32[2], v1.m128_f32[3]); printf("v2: (%.2f, %.2f, %.2f, %.2f)\n\n", v2.m128_f32[0], v2.m128_f32[1], v2.m128_f32[2], v2.m128_f32[3]); printf("v3: (%.2f, %.2f, %.2f, %.2f)\n\n", v3.m128_f32[0], v3.m128_f32[1], v3.m128_f32[2], v3.m128_f32[3]); printf("v4: (%.2f, %.2f, %.2f, %.2f)\n\n", v4.m128_f32[0], v4.m128_f32[1], v4.m128_f32[2], v4.m128_f32[3]); // a和b中的高位2個或者低位2個SPFP進行交織 __m128 v5 = _mm_unpackhi_ps(a, b); // a[2], b[2], a[3], b[3] __m128 v6 = _mm_unpacklo_ps(a, b); // a[0], b[0], a[1], b[1] printf("v5: (%.2f, %.2f, %.2f, %.2f)\n\n", v5.m128_f32[0], v5.m128_f32[1], v5.m128_f32[2], v5.m128_f32[3]); printf("v6: (%.2f, %.2f, %.2f, %.2f)\n\n", v6.m128_f32[0], v6.m128_f32[1], v6.m128_f32[2], v6.m128_f32[3]); // 將a的低位置成b的、b的高位移動到a的低位、b的低位移動到a的高位 __m128 v7 = _mm_move_ss(a, b); // b[0], a[1], a[2], a[3] __m128 v8 = _mm_movehl_ps(a, b); // b[2], b[3], a[2], a[3] __m128 v9 = _mm_movelh_ps(a, b); // a[0], a[1], b[0], b[1] printf("v7: (%.2f, %.2f, %.2f, %.2f)\n\n", v7.m128_f32[0], v7.m128_f32[1], v7.m128_f32[2], v7.m128_f32[3]); printf("v8: (%.2f, %.2f, %.2f, %.2f)\n\n", v8.m128_f32[0], v8.m128_f32[1], v8.m128_f32[2], v8.m128_f32[3]); printf("v9: (%.2f, %.2f, %.2f, %.2f)\n\n", v9.m128_f32[0], v9.m128_f32[1], v9.m128_f32[2], v9.m128_f32[3]); // 從4個SPFP的最重要比特位中創造1個4比特的掩碼 int maskA = _mm_movemask_ps(a); // sign(a) : 1, 0, 1, 0 (從高到低), maskA = 10 int maskB = _mm_movemask_ps(b); // sign(b) : 0, 1, 0, 0 (從高到低), maskB = 4 printf("maskA: %d\t maskB: %d\n", maskA, maskB); }

??測試結果： ??

4. SSE的矩陣變換宏函數

// 測試矩陣變換的宏函數 void TestSSEMatrixTrans() { __m128 row0; row0.m128_f32[0] = 1.0; row0.m128_f32[1] = 2.0; row0.m128_f32[2] = 3.0; row0.m128_f32[3] = 4.0; __m128 row1; row1.m128_f32[0] = 5.0; row1.m128_f32[1] = 6.0; row1.m128_f32[2] = 7.0; row1.m128_f32[3] = 8.0; __m128 row2; row2.m128_f32[0] = 9.0; row2.m128_f32[1] = 10.0; row2.m128_f32[2] = 11.0; row2.m128_f32[3] = 12.0; __m128 row3; row3.m128_f32[0] = 13.0; row3.m128_f32[1] = 14.0; row3.m128_f32[2] = 15.0; row3.m128_f32[3] = 16.0; printf("row0:\t %.2f, %.2f, %.2f, %.2f\n\n", row0.m128_f32[0], row0.m128_f32[1], row0.m128_f32[2], row0.m128_f32[3]); printf("row1:\t %.2f, %.2f, %.2f, %.2f\n\n", row1.m128_f32[0], row1.m128_f32[1], row1.m128_f32[2], row1.m128_f32[3]); printf("row2:\t %.2f, %.2f, %.2f, %.2f\n\n", row2.m128_f32[0], row2.m128_f32[1], row2.m128_f32[2], row2.m128_f32[3]); printf("row3:\t %.2f, %.2f, %.2f, %.2f\n\n", row3.m128_f32[0], row3.m128_f32[1], row3.m128_f32[2], row3.m128_f32[3]); _MM_TRANSPOSE4_PS(row0, row1, row2, row3); printf("|**** After Matrix Transposition ****|\n\n"); printf("row0:\t %.2f, %.2f, %.2f, %.2f\n\n", row0.m128_f32[0], row0.m128_f32[1], row0.m128_f32[2], row0.m128_f32[3]); printf("row1:\t %.2f, %.2f, %.2f, %.2f\n\n", row1.m128_f32[0], row1.m128_f32[1], row1.m128_f32[2], row1.m128_f32[3]); printf("row2:\t %.2f, %.2f, %.2f, %.2f\n\n", row2.m128_f32[0], row2.m128_f32[1], row2.m128_f32[2], row2.m128_f32[3]); printf("row3:\t %.2f, %.2f, %.2f, %.2f\n\n", row3.m128_f32[0], row3.m128_f32[1], row3.m128_f32[2], row3.m128_f32[3]); }

??測試結果： ?? 《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的SSE命令示例代码（整型、读写控制寄存器、混杂、矩阵变换）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： SSE命令示例代码（转换、加载、置位、存
下一篇： SSE命令示例代码（算术、逻辑、比较）