當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

TVM：使用Tensor Expression (TE)来处理算子

發(fā)布時間：2025/3/8 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 TVM：使用Tensor Expression (TE)来处理算子小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

TVM：使用Tensor Expression (TE)來處理算子

在本教程中，我們將聚焦于在 TVM 中使用張量表達式（TE）來定義張量計算和實現(xiàn)循環(huán)優(yōu)化。TE用純函數(shù)語言描述張量計算（即每個表達式都沒有副作用）。當(dāng)在 TVM 的整體上下文中查看時，Relay 將計算描述為一組算子，并且其中每一個算子都可以表示為 TE 表達式，每個 TE 表達式獲取輸入張量并生成輸出張量。
本文是TVM中 TE 語言的入門教程。TVM 使用領(lǐng)域?qū)Ｓ?#xff08;domain specific）的張量表達式來高效地構(gòu)造內(nèi)核。我們以兩個使用 TE 語言的為例來演示基本工作流。第一個示例介紹了 TE 和帶有向量加法的 schedule。第二個示例通過逐步優(yōu)化矩陣與 TE 的乘法來擴展這些概念。這個矩陣乘法示例將作為未來涵蓋更高級的 TVM 特性的教程的對比基礎(chǔ)。

示例一：使用TE為CPU編寫和調(diào)度向量加法

初始化 tvm環(huán)境

我們的第一個例子是使用 Python 來為向量加法實現(xiàn)一個 TE，然后是一個針對 CPU 的 schedule，我們從初始化 tvm 環(huán)境開始：

import tvm import tvm.testing from tvm import te import numpy as np# 如果能夠指定目標(biāo) CPU，那么將會得到更好地性能 # 如果用的是llvm，可以通過 `llc --version` 來查看 CPU 類型 # 可以通過查看 /proc/cpuinfo 來查看你的處理器可能支持的其他擴展， # 比如，如果你的 CPU 有 AVX-512 指令集，那么你可以使用 `llvm -mcpu=skylake-avx512` 選項tgt = tvm.target.Target(target="llvm", host="llvm")

描述向量計算

我們首先描述向量加法計算。TVM 采用張量語義，每個中間結(jié)果表示為一個多維數(shù)組。我們需要描述規(guī)則來得到張量。我們首先定義一個符號變量 n 來表示形狀。然后我們定義兩個 placeholder 張量：A、B，它們的形狀是 (n,)。然后我們通過一個 compute 操作，得到結(jié)果張量 C。compute 定義了一種計算，其輸出符合指定的張量形狀，并在由 lambda 函數(shù)定義的張量中的每個位置執(zhí)行計算。注意，雖然 n 是一個變量，但它定義了A、B 和 C 張量之間的一致形狀。請注意，在這個階段沒有實際的計算發(fā)生，因為我們只是聲明應(yīng)該如何進行計算。

n = te.var("n") A = te.placeholder((n,), name="A") B = te.placeholder((n,), name="B") C = te.compute(A.shape, lambda i: A[i] + B[i], name="C")

注意：Lambda函數(shù)

te.compute方法的第二個參數(shù)是執(zhí)行計算的函數(shù)。在本例中，我們使用一個匿名函數(shù)（也稱為lambda函數(shù)）來定義計算，在本例中是對 a 和 B 的第 i 個元素的加法。

為計算創(chuàng)建一個默認的Schedule

雖然上面幾行描述了計算規(guī)則，但我們可以用許多不同的方法計算 C 以適應(yīng)不同的設(shè)備。對于具有多個 axis 的張量，您可以選擇首先迭代哪個 axis ，另外計算可以跨不同的線程拆分。TVM要求用戶提供一個 schedule，來描述應(yīng)如何執(zhí)行計算。TE 中的 schedule 操作可以更改循環(huán)順序、跨不同線程拆分計算、將數(shù)據(jù)塊分組在一起，以及其他操作。schedule 背后的一個重要概念是，它們只描述如何執(zhí)行計算，因此相同 TE 的不同 schedule 一定會產(chǎn)生相同的結(jié)果。

在 TVM 中，我們可以創(chuàng)建一種樸素的 schedule ，按照行優(yōu)先的順序來計算 C。

for (int i = 0; i < n; ++i) {C[i] = A[i] + B[i]; } s = te.create_schedule(C.op)

編譯并驗證默認的 schedule

通過 TE 表達式和 schedule，我們可以為目標(biāo)語言和體系結(jié)構(gòu)生成可運行的代碼，在本例中是 LLVM 和 CPU 。我們向 TVM 提供 schedule、schedule 中的TE表達式列表、目標(biāo)和主機，以及我們正在生成的函數(shù)的名稱。輸出的結(jié)果是可以直接從 Python 調(diào)用 type-erased 函數(shù)。

在下一行中，我們使用 tvm.build 創(chuàng)建一個函數(shù)。build 函數(shù)接受 schedule、函數(shù)所需的簽名（包括輸入和輸出）以及我們要編譯到的目標(biāo)語言。

fadd = tvm.build(s, [A, B, C], tgt, name="myadd")

我們運行該函數(shù)，并將輸出與 numpy 中的相同計算進行比較。編譯后的 TVM 函數(shù)提供了一個簡明的C API，可以被任何語言調(diào)用。我們首先創(chuàng)建一個設(shè)備（在本例中為CPU），這是一個 TVM 可以編譯 schedule 的設(shè)備。在本例中，設(shè)備是LLVM CPU target。然后，我們可以在設(shè)備中初始化張量并執(zhí)行自定義的加法操作。為了驗證計算的正確性，我們可以將c張量的輸出結(jié)果與 numpy 執(zhí)行的相同計算進行比較。

dev = tvm.device(tgt.kind.name, 0)n = 1024 a = tvm.nd.array(np.random.uniform(size=n).astype(A.dtype), dev) b = tvm.nd.array(np.random.uniform(size=n).astype(B.dtype), dev) c = tvm.nd.array(np.zeros(n, dtype=C.dtype), dev) fadd(a, b, c) tvm.testing.assert_allclose(c.numpy(), a.numpy() + b.numpy())

為了對比這個樸素版本的自定義向量加法與 numpy 的速度差異，創(chuàng)建一個輔助函數(shù)來運行 TVM 生成代碼的 profile。

import timeitnp_repeat = 100 np_running_time = timeit.timeit(setup="import numpy\n""n = 32768\n"'dtype = "float32"\n'"a = numpy.random.rand(n, 1).astype(dtype)\n""b = numpy.random.rand(n, 1).astype(dtype)\n",stmt="answer = a + b",number=np_repeat, ) print("Numpy running time: %f" % (np_running_time / np_repeat))def evaluate_addition(func, target, optimization, log):dev = tvm.device(target.kind.name, 0)n = 32768a = tvm.nd.array(np.random.uniform(size=n).astype(A.dtype), dev)b = tvm.nd.array(np.random.uniform(size=n).astype(B.dtype), dev)c = tvm.nd.array(np.zeros(n, dtype=C.dtype), dev)evaluator = func.time_evaluator(func.entry_name, dev, number=10)mean_time = evaluator(a, b, c).meanprint("%s: %f" % (optimization, mean_time))log.append((optimization, mean_time))log = [("numpy", np_running_time / np_repeat)] evaluate_addition(fadd, tgt, "naive", log=log)

此處輸出：

Numpy running time: 0.000008 naive: 0.000006

使用并行性（paralleism）來優(yōu)化 schedule

我們已經(jīng)說明了 TE 的基本原理，現(xiàn)在讓我們更深入地了解 schedule 的作用，以及它們?nèi)绾斡糜趦?yōu)化不同體系結(jié)構(gòu)的張量表達式。schedule 是應(yīng)用于表達式的一系列步驟，用于以多種不同方式對其進行轉(zhuǎn)換。當(dāng)一個 schedule 應(yīng)用于TE中的一個表達式時，輸入和輸出保持不變，但在編譯時，表達式的實現(xiàn)可能會改變。在默認 schedule 中，這個張量加法是串行運行的，但該操作其實是很容易在所有處理器線程之間并行。我們可以將我們的操作并行調(diào)度到計算中：

s[C].parallel(C.op.axis[0])

tvm.lower 命令將生成 TE 的中間表示（IR）以及相應(yīng)的 schedule 。通過在執(zhí)行不同的 schedule 操作時 lowing 表達式，我們可以看到 schedule 對計算順序的影響。我們使用標(biāo)志 simple_mode=True 返回可讀的 C 風(fēng)格語句。

print(tvm.lower(s, [A, B, C], simple_mode=True))

此處輸出：

primfn(A_1: handle, B_1: handle, C_1: handle) -> ()attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}buffers = {C: Buffer(C_2: Pointer(float32), float32, [n: int32], [stride: int32], type="auto"),A: Buffer(A_2: Pointer(float32), float32, [n], [stride_1: int32], type="auto"),B: Buffer(B_2: Pointer(float32), float32, [n], [stride_2: int32], type="auto")}buffer_map = {A_1: A, B_1: B, C_1: C} {for (i: int32, 0, n) "parallel" {C_2[(i*stride)] = ((float32*)A_2[(i*stride_1)] + (float32*)B_2[(i*stride_2)])} }

TVM現(xiàn)在可以在獨立的線程上運行這些塊。我們在執(zhí)行并行操作的情況下編譯并運行這個新的 schedule：

fadd_parallel = tvm.build(s, [A, B, C], tgt, name="myadd_parallel") fadd_parallel(a, b, c)tvm.testing.assert_allclose(c.numpy(), a.numpy() + b.numpy())evaluate_addition(fadd_parallel, tgt, "parallel", log=log)

此處輸出：

parallel: 0.000005

使用矢量化（vectorization）來優(yōu)化 schedule

現(xiàn)代 CPU 能夠?qū)Ω↑c數(shù)進行 SIMD 操作，我們可以對計算表達式使用另一個 schedule 來利用這一點。實現(xiàn)這一點需要多個步驟：首先，我們必須使用 split scheduling 原語將 schedule 拆分為內(nèi)部循環(huán)和外部循環(huán)。內(nèi)部循環(huán)可以使用向量化來使用使用向量化調(diào)度原語的 SIMD 指令，然后外部循環(huán)可以使用并行調(diào)度原語進行并行化。選擇分割因子作為CPU上的線程數(shù)。

注：SIMD，全稱 Single Instruction Multiple Data，單指令多數(shù)據(jù)流，能夠復(fù)制多個操作數(shù)，并把它們打包在大型寄存器的一組指令集。

# 由于我們需要修改之前例子中的并行操作，因此這里要重建 schedule n = te.var("n") A = te.placeholder((n,), name="A") B = te.placeholder((n,), name="B") C = te.compute(A.shape, lambda i: A[i] + B[i], name="C")s = te.create_schedule(C.op)# factor 的選擇需要適合你的線程數(shù)，這取決于架構(gòu)， # 建議將此系數(shù)設(shè)置為等于可用CPU核心數(shù)。 factor = 4outer, inner = s[C].split(C.op.axis[0], factor=factor) s[C].parallel(outer) s[C].vectorize(inner)fadd_vector = tvm.build(s, [A, B, C], tgt, name="myadd_parallel")evaluate_addition(fadd_vector, tgt, "vector", log=log)print(tvm.lower(s, [A, B, C], simple_mode=True))

此處輸出：

vector: 0.000016 primfn(A_1: handle, B_1: handle, C_1: handle) -> ()attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}buffers = {A: Buffer(A_2: Pointer(float32), float32, [n: int32], [stride: int32], type="auto"),C: Buffer(C_2: Pointer(float32), float32, [n], [stride_1: int32], type="auto"),B: Buffer(B_2: Pointer(float32), float32, [n], [stride_2: int32], type="auto")}buffer_map = {A_1: A, B_1: B, C_1: C} {for (i.outer: int32, 0, floordiv((n + 3), 4)) "parallel" {for (i.inner.s: int32, 0, 4) {if @tir.likely((((i.outer*4) + i.inner.s) < n), dtype=bool) {C_2[(((i.outer*4) + i.inner.s)*stride_1)] = ((float32*)A_2[(((i.outer*4) + i.inner.s)*stride)] + (float32*)B_2[(((i.outer*4) + i.inner.s)*stride_2)])}}} }

對比不同的 schedule

下面我們來對比以下之前提到的不同 schedule：

baseline = log[0][1] print("%s\t%s\t%s" % ("Operator".rjust(20), "Timing".rjust(20), "Performance".rjust(20))) for result in log:print("%s\t%s\t%s"% (result[0].rjust(20), str(result[1]).rjust(20), str(result[1] / baseline).rjust(20)))

此處輸出：

Operator Timing Performancenumpy 7.98278022557497e-06 1.0naive 5.9189e-06 0.7414584684465222 parallel 4.9771999999999995e-06 0.6234920490550659vector 1.6127399999999997e-05 2.0202735819196875

注意：Code Specialization

代碼專門化

正如我們所看到的，A、B 和 C 的聲明都采用相同的形狀參數(shù) n。TVM將利用這一點，只向 kernel 傳遞一個 shape 參數(shù)，我們在打印的設(shè)備代碼中找到它。這是專門化化的一種形式。

在 host 端，TVM 將自動生成檢查代碼，以檢查參數(shù)中的約束。因此，如果將具有不同形狀的數(shù)組傳遞到 fadd 中，將引發(fā)錯誤。

我們可以做更多的專門化。例如，我們可以在計算聲明中寫入n=tvm.runtime.convert（1024）而不是 n=te.var（“n”）。生成的函數(shù)將只獲取長度為1024的向量。

我們已經(jīng)定義、調(diào)度并編譯了一個向量加法運算符，然后可以在 TVM Runtime 執(zhí)行它。我們可以將算子保存為庫，稍后可以使用 TVM Runtime 加載該庫。

針對GPU的矩陣加法（可選）

在介紹保存與加載自定義算子庫的方法之前，我們先來看一下如何針對 GPU 做矩陣加法。

TVM能夠針對多種體系結(jié)構(gòu)。在本例，我們將針對GPU中矢量加法的編譯。

# 本段代碼默認不運行，如果想要運行的話，請將 ``run_cuda = True``run_cuda = False if run_cuda:# 這里的 target 需要根據(jù)自己的 GPU 類型修改：# NVIDIA：cuda# Radeon：rocm# OpenCL：opencltgt_gpu = tvm.target.Target(target="cuda", host="llvm")# 重建 schedulen = te.var("n")A = te.placeholder((n,), name="A")B = te.placeholder((n,), name="B")C = te.compute(A.shape, lambda i: A[i] + B[i], name="C")print(type(C))s = te.create_schedule(C.op)bx, tx = s[C].split(C.op.axis[0], factor=64)################################################################################# 最后，我們必須將迭代軸bx和tx綁定到GPU計算網(wǎng)格中的線程。# 樸素的 schedule 對GPU無效，這些是允許我們生成在GPU上運行的代碼的特定構(gòu)造。s[C].bind(bx, te.thread_axis("blockIdx.x"))s[C].bind(tx, te.thread_axis("threadIdx.x"))####################################################################### 編譯# -----------# 在指定完 schdule 之后，我們可以將其編譯成一個 TVM 函數(shù)。默認情況下，TVM編譯成一個 type-erased 函 # 數(shù)，可以從python端直接調(diào)用該函數(shù)。# 在下一行中，我們使用 tvm.build 來創(chuàng)建一個函數(shù)。build 函數(shù)采用 schedule、函數(shù)所需的簽名（包括輸如和輸出）以及我們要編譯到的目標(biāo)語言。# 編譯 fadd 的結(jié)果是一個GPU設(shè)備函數(shù)（如果涉及GPU）以及一個調(diào)用 GPU 函數(shù)的 host wrapper。fadd是生成的主機包裝函數(shù)，它在內(nèi)部包含對生成的設(shè)備函數(shù)的引用。fadd = tvm.build(s, [A, B, C], target=tgt_gpu, name="myadd")################################################################################# 編譯過的 TVM 函數(shù)會有一個簡潔的 C API，它可以被任意的語言調(diào)用## 我們提供一個 Python 的最小的數(shù)組 API 來幫助快速的測試和原型化# 該數(shù)組 API 是基于 `DLPack <https://github.com/dmlc/dlpack>`_ 標(biāo)準(zhǔn).## - 我們首先創(chuàng)建一個 GPU 設(shè)備# - 然后 tvm.nd.array 從 GPU 拷貝數(shù)據(jù)# - ``fadd`` 運行真正的計算# - ``numpy()`` 從 GPU 數(shù)組拷貝回 CPU (這樣我們就能驗證正確性了).## 請注意，將數(shù)據(jù)復(fù)制到 GPU 上的內(nèi)存和從中復(fù)制數(shù)據(jù)是必需的步驟。dev = tvm.device(tgt_gpu.kind.name, 0)n = 1024a = tvm.nd.array(np.random.uniform(size=n).astype(A.dtype), dev)b = tvm.nd.array(np.random.uniform(size=n).astype(B.dtype), dev)c = tvm.nd.array(np.zeros(n, dtype=C.dtype), dev)fadd(a, b, c)tvm.testing.assert_allclose(c.numpy(), a.numpy() + b.numpy())################################################################################# 檢查生成的 GPU 代碼# ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~# 我們可以檢查在 TVM 中生成的代碼，tvm.build 的結(jié)果是一個 TVM 模塊。fadd 是一個 host 模塊其中包含 # host wrapper 的 host module，它同樣包含一個CUDA（GPU）設(shè)備模塊## 下面的代碼取得設(shè)備模塊并打印內(nèi)容代碼if (tgt_gpu.kind.name == "cuda"or tgt_gpu.kind.name == "rocm"or tgt_gpu.kind.name.startswith("opencl")):dev_module = fadd.imported_modules[0]print("-----GPU code-----")print(dev_module.get_source())else:print(fadd.get_source())

保存和加載編譯過的模塊

保存編譯過的模塊

除了運行時編譯之外，我們還可以將編譯后的模塊保存到一個文件中，并在以后重新加載。下面的代碼執(zhí)行以下步驟：

它將編譯后的主機模塊保存到一個對象文件中。
然后將設(shè)備模塊保存到 ptx 文件中。
cc.create_shared 調(diào)用編譯器（gcc）來創(chuàng)建共享庫

from tvm.contrib import cc from tvm.contrib import utilstemp = utils.tempdir() fadd.save(temp.relpath("myadd.o")) if tgt.kind.name == "cuda":fadd.imported_modules[0].save(temp.relpath("myadd.ptx")) if tgt.kind.name == "rocm":fadd.imported_modules[0].save(temp.relpath("myadd.hsaco")) if tgt.kind.name.startswith("opencl"):fadd.imported_modules[0].save(temp.relpath("myadd.cl")) cc.create_shared(temp.relpath("myadd.so"), [temp.relpath("myadd.o")]) print(temp.listdir())

此處輸出：

['myadd.o', 'myadd.so']

注意：Module Storage Format

模塊存儲格式

CPU（Host）模塊直接保存為共享庫（.so）。設(shè)備代碼可以有多種自定義格式。在我們的示例中，設(shè)備代碼存儲在 ptx 中，元數(shù)據(jù)在 json 文件中。它們可以通過導(dǎo)入單獨加載和鏈接。

加載編譯過的模塊

我們可以從文件系統(tǒng)加載已編譯的模塊并運行代碼。以下代碼分別加載主機和設(shè)備模塊，并將它們鏈接在一起。我們可以驗證新加載的函數(shù)是否有效。

fadd1 = tvm.runtime.load_module(temp.relpath("myadd.so")) if tgt.kind.name == "cuda":fadd1_dev = tvm.runtime.load_module(temp.relpath("myadd.ptx"))fadd1.import_module(fadd1_dev)if tgt.kind.name == "rocm":fadd1_dev = tvm.runtime.load_module(temp.relpath("myadd.hsaco"))fadd1.import_module(fadd1_dev)if tgt.kind.name.startswith("opencl"):fadd1_dev = tvm.runtime.load_module(temp.relpath("myadd.cl"))fadd1.import_module(fadd1_dev)fadd1(a, b, c) tvm.testing.assert_allclose(c.numpy(), a.numpy() + b.numpy())

將所有東西打包在一個庫中

在上面的示例中，我們分別存儲設(shè)備和主機代碼。TVM 還支持將所有內(nèi)容導(dǎo)出為一個共享庫。在 hood 下，我們將設(shè)備模塊打包成二進制blob，并將它們與主機代碼鏈接在一起。目前我們支持Metal、OpenCL和CUDA模塊的包裝。

fadd.export_library(temp.relpath("myadd_pack.so")) fadd2 = tvm.runtime.load_module(temp.relpath("myadd_pack.so")) fadd2(a, b, c) tvm.testing.assert_allclose(c.numpy(), a.numpy() + b.numpy())

注意：Runtime API and Thread Safety

運行時API與線程安全

TVM 的編譯模塊并不依賴于 TVM 編譯器。它們只依賴于最小 Runtime Library。TVM Runtime Library 包裝設(shè)備驅(qū)動程序，并向編譯函數(shù)提供線程安全和設(shè)備無關(guān)調(diào)用。

這意味著我們可以從任何GPU上的任何線程調(diào)用已編譯的TVM函數(shù)，前提是您已經(jīng)為該GPU編譯了代碼。

生成OpenCL代碼

TVM 為多種后端提供代碼生成功能。我們還可以生成在 CPU 后端上運行的 OpenCL 代碼或 LLVM 代碼。

下面的代碼可以生成OpenCL代碼，在OpenCL設(shè)備上創(chuàng)建數(shù)組，并驗證代碼的正確性。

if tgt.kind.name.startswith("opencl"):fadd_cl = tvm.build(s, [A, B, C], tgt, name="myadd")print("------opencl code------")print(fadd_cl.imported_modules[0].get_source())dev = tvm.cl(0)n = 1024a = tvm.nd.array(np.random.uniform(size=n).astype(A.dtype), dev)b = tvm.nd.array(np.random.uniform(size=n).astype(B.dtype), dev)c = tvm.nd.array(np.zeros(n, dtype=C.dtype), dev)fadd_cl(a, b, c)tvm.testing.assert_allclose(c.numpy(), a.numpy() + b.numpy())

注意：TE Scheduling Primitives

TE 調(diào)度原語

TVM 包括許多不同的調(diào)度原語：
split：按定義的因子將指定軸拆分為兩個軸。
tile：平鋪將按定義的因子沿兩個軸分割計算。
fuse：融合一次計算的兩個連續(xù)軸。
reorder：可以將計算軸重新排序為定義的順序。
bind：可以將計算綁定到特定線程，在GPU編程中很有用。
compute_at：默認情況下，TVM將在函數(shù)的最外層或根計算張量。compute_at指定應(yīng)在另一個運算符的第一個計算軸上計算一個張量。
compute_inline：當(dāng)標(biāo)記為inline時，計算將展開，然后插入到需要張量的地址中。
compute_root：將計算移動到函數(shù)的最外層或根。這意味著，在進入下一個階段之前，將對計算階段進行完全計算。

可以在Schedule primitives 文檔頁面中找到這些原語的完整描述。

示例二：用TE手動優(yōu)化矩陣乘

現(xiàn)在，我們將考慮第二個更高級一些的示例，演示如何用 18 行 Python 代碼 TVM 加速一個共同的矩陣乘法運算 18倍。

矩陣乘法是一種計算密集型運算。要獲得良好的CPU性能，有兩個重要的優(yōu)化：

提高內(nèi)存訪問的緩存命中率。高緩存命中率可以加速復(fù)雜的數(shù)值計算和熱點內(nèi)存訪問。這要求我們將源內(nèi)存訪問模式轉(zhuǎn)換為適合緩存策略的模式。
SIMD（單指令多數(shù)據(jù)），也稱為矢量處理單元。在每個循環(huán)中，SIMD 都可以處理一小批數(shù)據(jù)，而不是處理單個值。這要求我們以統(tǒng)一模式轉(zhuǎn)換循環(huán)體中的數(shù)據(jù)訪問模式，以便LLVM 后端可以將其 lower 到 SIMD。

本教程中使用的技術(shù)是這個倉庫中提到的技巧的一部分。其中一些已被 TVM 抽象自動使用，但由于 TVM 的一些約束，有一些無法自動使用。

準(zhǔn)備工作和性能baseline

我們首先采集 numpy 實現(xiàn)的矩陣乘的數(shù)據(jù)：

import tvm import tvm.testing from tvm import te import numpy# 矩陣的尺寸： # (M, K) x (K, N) # 你可以自己試一些不同的尺寸，有時候 TVM 的優(yōu)化結(jié)果會好于含 MKL 的numpy M = 1024 K = 1024 N = 1024# tvm 中默認的數(shù)據(jù)類型 dtype = "float32"# 與之前一樣，這里可以根據(jù)自己的處理器及其是否支持某些指令集來改變 targettarget = tvm.target.Target(target="llvm", host="llvm") dev = tvm.device(target.kind.name, 0)# 隨機生成一些 tensor 用于測試 a = tvm.nd.array(numpy.random.rand(M, K).astype(dtype), dev) b = tvm.nd.array(numpy.random.rand(K, N).astype(dtype), dev)# 重復(fù)實驗，得到 numpy 的矩陣乘實現(xiàn)的 baseline np_repeat = 100 np_running_time = timeit.timeit(setup="import numpy\n""M = " + str(M) + "\n""K = " + str(K) + "\n""N = " + str(N) + "\n"'dtype = "float32"\n'"a = numpy.random.rand(M, K).astype(dtype)\n""b = numpy.random.rand(K, N).astype(dtype)\n",stmt="answer = numpy.dot(a, b)",number=np_repeat, ) print("Numpy running time: %f" % (np_running_time / np_repeat))answer = numpy.dot(a.numpy(), b.numpy())

此處輸出：

Numpy running time: 0.009308

現(xiàn)在，我們用 TVM TE 編寫一個基本矩陣乘法，并驗證它產(chǎn)生的結(jié)果與numpy實現(xiàn)相同。我們還編寫了一個函數(shù)，它將幫助我們度量進度優(yōu)化的性能。

# 使用 TE 實現(xiàn)的 TVM 的矩陣乘 k = te.reduce_axis((0, K), "k") A = te.placeholder((M, K), name="A") B = te.placeholder((K, N), name="B") C = te.compute((M, N), lambda x, y: te.sum(A[x, k] * B[k, y], axis=k), name="C")# 默認 schedule s = te.create_schedule(C.op) func = tvm.build(s, [A, B, C], target=target, name="mmult")c = tvm.nd.array(numpy.zeros((M, N), dtype=dtype), dev) func(a, b, c) tvm.testing.assert_allclose(c.numpy(), answer, rtol=1e-5)def evaluate_operation(s, vars, target, name, optimization, log):func = tvm.build(s, [A, B, C], target=target, name="mmult")assert funcc = tvm.nd.array(numpy.zeros((M, N), dtype=dtype), dev)func(a, b, c)tvm.testing.assert_allclose(c.numpy(), answer, rtol=1e-5)evaluator = func.time_evaluator(func.entry_name, dev, number=10)mean_time = evaluator(a, b, c).meanprint("%s: %f" % (optimization, mean_time))log.append((optimization, mean_time))log = []evaluate_operation(s, [A, B, C], target=target, name="mmult", optimization="none", log=log)

此處輸出：

none: 3.109406

讓我們看一下使用 TVM lower 函數(shù)的算子和默認 schedule 的中間表示 IR。請注意，該實現(xiàn)本質(zhì)上是矩陣乘法的簡單實現(xiàn)，在 A 和 B 矩陣的索引上使用三個嵌套循環(huán)。

print(tvm.lower(s, [A, B, C], simple_mode=True))

此處輸出：

primfn(A_1: handle, B_1: handle, C_1: handle) -> ()attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}buffers = {C: Buffer(C_2: Pointer(float32), float32, [1024, 1024], []),A: Buffer(A_2: Pointer(float32), float32, [1024, 1024], []),B: Buffer(B_2: Pointer(float32), float32, [1024, 1024], [])}buffer_map = {A_1: A, B_1: B, C_1: C} {for (x: int32, 0, 1024) {for (y: int32, 0, 1024) {C_2[((x*1024) + y)] = 0f32for (k: int32, 0, 1024) {C_2[((x*1024) + y)] = ((float32*)C_2[((x*1024) + y)] + ((float32*)A_2[((x*1024) + k)]*(float32*)B_2[((k*1024) + y)]))}}} }

優(yōu)化1：blocking阻塞

提高緩存命中率的一個重要技巧是阻塞，在這種情況下，我們可以構(gòu)造內(nèi)存訪問，使塊內(nèi)部是具有高內(nèi)存局部性的小鄰域。在本教程中，我們選擇塊因子 32。這會使得一個塊填充內(nèi)存的 32*32*sizeof（float）區(qū)域。這對應(yīng)于 4KB 的緩存大小，和一級緩存 32KB 的參考緩存大小。

我們首先為 C 操作創(chuàng)建一個默認的調(diào)度，然后使用指定的塊因子對其應(yīng)用一個 tile 調(diào)度原語，調(diào)度原語以向量 [x_-outer，y_-outer，x_-inner，y_-inner] 的形式返回從最外層到最內(nèi)層的循環(huán)順序。然后，我們得到操作輸出的縮減軸，并使用因子4對其執(zhí)行拆分操作。這個因素不會直接影響我們現(xiàn)在正在進行的阻塞優(yōu)化，但在以后應(yīng)用矢量化時會很有用。
現(xiàn)在操作已被阻塞，我們可以對計算進行重新排序，將簡化操作放入計算的最外層循環(huán)中，從而幫助確保被阻塞的數(shù)據(jù)仍保留在緩存中。這就完成了 schedule，我們可以構(gòu)建和測試與原始 schedule 相比的性能。

bn = 32# Blocking by loop tiling xo, yo, xi, yi = s[C].tile(C.op.axis[0], C.op.axis[1], bn, bn) (k,) = s[C].op.reduce_axis ko, ki = s[C].split(k, factor=4)# Hoist reduction domain outside the blocking loop s[C].reorder(xo, yo, ko, ki, xi, yi)evaluate_operation(s, [A, B, C], target=target, name="mmult", optimization="blocking", log=log)

此處輸出：

blocking: 0.291928

通過重新排序計算以利用緩存，我們可以看到計算性能的顯著提高。現(xiàn)在，打印內(nèi)部表示并將其與原始表示進行比較：

print(tvm.lower(s, [A, B, C], simple_mode=True))

此處輸出：

primfn(A_1: handle, B_1: handle, C_1: handle) -> ()attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}buffers = {A: Buffer(A_2: Pointer(float32), float32, [1024, 1024], []),C: Buffer(C_2: Pointer(float32), float32, [1024, 1024], []),B: Buffer(B_2: Pointer(float32), float32, [1024, 1024], [])}buffer_map = {A_1: A, B_1: B, C_1: C} {for (x.outer: int32, 0, 32) {for (y.outer: int32, 0, 32) {for (x.inner.init: int32, 0, 32) {for (y.inner.init: int32, 0, 32) {C_2[((((x.outer*32768) + (x.inner.init*1024)) + (y.outer*32)) + y.inner.init)] = 0f32}}for (k.outer: int32, 0, 256) {for (k.inner: int32, 0, 4) {for (x.inner: int32, 0, 32) {for (y.inner: int32, 0, 32) {C_2[((((x.outer*32768) + (x.inner*1024)) + (y.outer*32)) + y.inner)] = ((float32*)C_2[((((x.outer*32768) + (x.inner*1024)) + (y.outer*32)) + y.inner)] + ((float32*)A_2[((((x.outer*32768) + (x.inner*1024)) + (k.outer*4)) + k.inner)]*(float32*)B_2[((((k.outer*4096) + (k.inner*1024)) + (y.outer*32)) + y.inner)]))}}}}}} }

優(yōu)化2： vectorization矢量化

另一個重要的優(yōu)化技巧是矢量化。當(dāng)內(nèi)存訪問模式一致時，編譯器可以檢測到該模式并將連續(xù)內(nèi)存?zhèn)鬟f給 SIMD 向量處理器。在TVM中，我們可以利用這個硬件特性，使用矢量化接口來提示編譯器這個模式。

在本教程中，我們選擇對內(nèi)部循環(huán)行數(shù)據(jù)進行矢量化，因為它已經(jīng)是我們之前優(yōu)化中的緩存友好型數(shù)據(jù)。

# 應(yīng)用矢量化的優(yōu)化方式 s[C].vectorize(yi)evaluate_operation(s, [A, B, C], target=target, name="mmult", optimization="vectorization", log=log)# 矢量化之后生成的 IR print(tvm.lower(s, [A, B, C], simple_mode=True))

此處輸出：

vectorization: 0.331263 primfn(A_1: handle, B_1: handle, C_1: handle) -> ()attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}buffers = {C: Buffer(C_2: Pointer(float32), float32, [1024, 1024], []),A: Buffer(A_2: Pointer(float32), float32, [1024, 1024], []),B: Buffer(B_2: Pointer(float32), float32, [1024, 1024], [])}buffer_map = {A_1: A, B_1: B, C_1: C} {for (x.outer: int32, 0, 32) {for (y.outer: int32, 0, 32) {for (x.inner.init: int32, 0, 32) {C_2[ramp((((x.outer*32768) + (x.inner.init*1024)) + (y.outer*32)), 1, 32)] = broadcast(0f32, 32)}for (k.outer: int32, 0, 256) {for (k.inner: int32, 0, 4) {for (x.inner: int32, 0, 32) {C_2[ramp((((x.outer*32768) + (x.inner*1024)) + (y.outer*32)), 1, 32)] = ((float32x32*)C_2[ramp((((x.outer*32768) + (x.inner*1024)) + (y.outer*32)), 1, 32)] + (broadcast((float32*)A_2[((((x.outer*32768) + (x.inner*1024)) + (k.outer*4)) + k.inner)], 32)*(float32x32*)B_2[ramp((((k.outer*4096) + (k.inner*1024)) + (y.outer*32)), 1, 32)]))}}}}} }

優(yōu)化3：Loop Permutation循環(huán)置換

如果我們看一下上面的 IR，我們可以看到內(nèi)環(huán)行數(shù)據(jù)被矢量化，B 被轉(zhuǎn)換成 PackedB（這在內(nèi)環(huán)的（float32x32）B2部分中很明顯）。PackedB 的遍歷現(xiàn)在是順序的。因此，我們將研究 A 的訪問模式。在當(dāng)前 schdule中，A 是逐列訪問的，這對緩存不友好。如果我們改變嵌套循環(huán)順序 ki 和內(nèi)部軸 xi，對 A 的訪問模式將變得更加緩存友好。

s = te.create_schedule(C.op) xo, yo, xi, yi = s[C].tile(C.op.axis[0], C.op.axis[1], bn, bn) (k,) = s[C].op.reduce_axis ko, ki = s[C].split(k, factor=4)# re-ordering s[C].reorder(xo, yo, ko, xi, ki, yi) s[C].vectorize(yi)evaluate_operation(s, [A, B, C], target=target, name="mmult", optimization="loop permutation", log=log )# 再一次打印新生成的 IR print(tvm.lower(s, [A, B, C], simple_mode=True))

此處輸出：

loop permutation: 0.113750 primfn(A_1: handle, B_1: handle, C_1: handle) -> ()attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}buffers = {C: Buffer(C_2: Pointer(float32), float32, [1024, 1024], []),A: Buffer(A_2: Pointer(float32), float32, [1024, 1024], []),B: Buffer(B_2: Pointer(float32), float32, [1024, 1024], [])}buffer_map = {A_1: A, B_1: B, C_1: C} {for (x.outer: int32, 0, 32) {for (y.outer: int32, 0, 32) {for (x.inner.init: int32, 0, 32) {C_2[ramp((((x.outer*32768) + (x.inner.init*1024)) + (y.outer*32)), 1, 32)] = broadcast(0f32, 32)}for (k.outer: int32, 0, 256) {for (x.inner: int32, 0, 32) {for (k.inner: int32, 0, 4) {C_2[ramp((((x.outer*32768) + (x.inner*1024)) + (y.outer*32)), 1, 32)] = ((float32x32*)C_2[ramp((((x.outer*32768) + (x.inner*1024)) + (y.outer*32)), 1, 32)] + (broadcast((float32*)A_2[((((x.outer*32768) + (x.inner*1024)) + (k.outer*4)) + k.inner)], 32)*(float32x32*)B_2[ramp((((k.outer*4096) + (k.inner*1024)) + (y.outer*32)), 1, 32)]))}}}}} }

優(yōu)化4：Array Packing數(shù)組打包

另一個重要技巧是數(shù)組打包。此技巧是對陣列的存儲維度重新排序，以便在展平后將特定維度上的連續(xù)訪問模式轉(zhuǎn)換為序列模式。

如上圖所示，在阻塞計算后，我們可以觀察到 B 的陣列訪問模式（平坦后），它是規(guī)則的但不連續(xù)的。我們希望經(jīng)過一些轉(zhuǎn)換后，我們可以得到一個連續(xù)的訪問模式。通過將[16][16]數(shù)組重新排序為[16/4][16][4]數(shù)組，在從壓縮數(shù)組中獲取相應(yīng)值時，B 的訪問模式將是順序的。

為了實現(xiàn)這一點，我們必須從一個新的默認 schedule 開始，考慮到 B 的新 wrapper?；c時間對此進行討論是值得的：TE 是一種用于編寫優(yōu)化算子的功能強大的表達性語言，但它通常需要一些底層算法、數(shù)據(jù)結(jié)構(gòu)，以及您正在編寫的硬件 target。在本教程的后面，我們將討論讓 TVM 承擔(dān)這一負擔(dān)的一些選擇。不管怎樣，讓我們繼續(xù)新的優(yōu)化 schedule。

# 我們要輕微地重寫算法 packedB = te.compute((N / bn, K, bn), lambda x, y, z: B[y, x * bn + z], name="packedB") C = te.compute((M, N),lambda x, y: te.sum(A[x, k] * packedB[y // bn, k, tvm.tir.indexmod(y, bn)], axis=k),name="C", )s = te.create_schedule(C.op)xo, yo, xi, yi = s[C].tile(C.op.axis[0], C.op.axis[1], bn, bn) (k,) = s[C].op.reduce_axis ko, ki = s[C].split(k, factor=4)s[C].reorder(xo, yo, ko, xi, ki, yi) s[C].vectorize(yi)x, y, z = s[packedB].op.axis s[packedB].vectorize(z) s[packedB].parallel(x)evaluate_operation(s, [A, B, C], target=target, name="mmult", optimization="array packing", log=log)# 這里是數(shù)組打包之后生成的 IR print(tvm.lower(s, [A, B, C], simple_mode=True))

此處輸出：

array packing: 0.224114 primfn(A_1: handle, B_1: handle, C_1: handle) -> ()attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}buffers = {C: Buffer(C_2: Pointer(float32), float32, [1024, 1024], []),A: Buffer(A_2: Pointer(float32), float32, [1024, 1024], []),B: Buffer(B_2: Pointer(float32), float32, [1024, 1024], [])}buffer_map = {A_1: A, B_1: B, C_1: C} {allocate(packedB: Pointer(global float32x32), float32x32, [32768]), storage_scope = global {for (x: int32, 0, 32) "parallel" {for (y: int32, 0, 1024) {packedB[ramp(((x*32768) + (y*32)), 1, 32)] = (float32x32*)B_2[ramp(((y*1024) + (x*32)), 1, 32)]}}for (x.outer: int32, 0, 32) {for (y.outer: int32, 0, 32) {for (x.inner.init: int32, 0, 32) {C_2[ramp((((x.outer*32768) + (x.inner.init*1024)) + (y.outer*32)), 1, 32)] = broadcast(0f32, 32)}for (k.outer: int32, 0, 256) {for (x.inner: int32, 0, 32) {for (k.inner: int32, 0, 4) {C_2[ramp((((x.outer*32768) + (x.inner*1024)) + (y.outer*32)), 1, 32)] = ((float32x32*)C_2[ramp((((x.outer*32768) + (x.inner*1024)) + (y.outer*32)), 1, 32)] + (broadcast((float32*)A_2[((((x.outer*32768) + (x.inner*1024)) + (k.outer*4)) + k.inner)], 32)*(float32x32*)packedB[ramp((((y.outer*32768) + (k.outer*128)) + (k.inner*32)), 1, 32)]))}}}}}} }

優(yōu)化5：Optimizing Block Writing Through Caching通過緩存優(yōu)化塊寫入

到目前為止，我們所有的優(yōu)化都集中在高效地訪問和計算來自 A 和 B 矩陣的數(shù)據(jù)，以計算C矩陣。阻塞優(yōu)化后，操作員將結(jié)果逐塊寫入 C，并且訪問模式不是順序的。我們可以通過使用順序緩存數(shù)組來解決這個問題，使用cache_write、compute_at 和 unroll 的組合來保存塊結(jié)果，并在所有塊結(jié)果就緒時寫入到 C。

s = te.create_schedule(C.op)# Allocate write cache CC = s.cache_write(C, "global")xo, yo, xi, yi = s[C].tile(C.op.axis[0], C.op.axis[1], bn, bn)# Write cache is computed at yo s[CC].compute_at(s[C], yo)# New inner axes xc, yc = s[CC].op.axis(k,) = s[CC].op.reduce_axis ko, ki = s[CC].split(k, factor=4) s[CC].reorder(ko, xc, ki, yc) s[CC].unroll(ki) s[CC].vectorize(yc)x, y, z = s[packedB].op.axis s[packedB].vectorize(z) s[packedB].parallel(x)evaluate_operation(s, [A, B, C], target=target, name="mmult", optimization="block caching", log=log)# Here is the generated IR after write cache blocking. print(tvm.lower(s, [A, B, C], simple_mode=True))

此處輸出：

block caching: 0.224213 primfn(A_1: handle, B_1: handle, C_1: handle) -> ()attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}buffers = {C: Buffer(C_2: Pointer(float32), float32, [1024, 1024], []),A: Buffer(A_2: Pointer(float32), float32, [1024, 1024], []),B: Buffer(B_2: Pointer(float32), float32, [1024, 1024], [])}buffer_map = {A_1: A, B_1: B, C_1: C} {allocate(packedB: Pointer(global float32x32), float32x32, [32768]), storage_scope = global;allocate(C.global: Pointer(global float32), float32, [1024]), storage_scope = global {for (x: int32, 0, 32) "parallel" {for (y: int32, 0, 1024) {packedB[ramp(((x*32768) + (y*32)), 1, 32)] = (float32x32*)B_2[ramp(((y*1024) + (x*32)), 1, 32)]}}for (x.outer: int32, 0, 32) {for (y.outer: int32, 0, 32) {for (x.c.init: int32, 0, 32) {C.global[ramp((x.c.init*32), 1, 32)] = broadcast(0f32, 32)}for (k.outer: int32, 0, 256) {for (x.c: int32, 0, 32) {C.global[ramp((x.c*32), 1, 32)] = ((float32x32*)C.global[ramp((x.c*32), 1, 32)] + (broadcast((float32*)A_2[(((x.outer*32768) + (x.c*1024)) + (k.outer*4))], 32)*(float32x32*)packedB[ramp(((y.outer*32768) + (k.outer*128)), 1, 32)]))C.global[ramp((x.c*32), 1, 32)] = ((float32x32*)C.global[ramp((x.c*32), 1, 32)] + (broadcast((float32*)A_2[((((x.outer*32768) + (x.c*1024)) + (k.outer*4)) + 1)], 32)*(float32x32*)packedB[ramp((((y.outer*32768) + (k.outer*128)) + 32), 1, 32)]))C.global[ramp((x.c*32), 1, 32)] = ((float32x32*)C.global[ramp((x.c*32), 1, 32)] + (broadcast((float32*)A_2[((((x.outer*32768) + (x.c*1024)) + (k.outer*4)) + 2)], 32)*(float32x32*)packedB[ramp((((y.outer*32768) + (k.outer*128)) + 64), 1, 32)]))C.global[ramp((x.c*32), 1, 32)] = ((float32x32*)C.global[ramp((x.c*32), 1, 32)] + (broadcast((float32*)A_2[((((x.outer*32768) + (x.c*1024)) + (k.outer*4)) + 3)], 32)*(float32x32*)packedB[ramp((((y.outer*32768) + (k.outer*128)) + 96), 1, 32)]))}}for (x.inner: int32, 0, 32) {for (y.inner: int32, 0, 32) {C_2[((((x.outer*32768) + (x.inner*1024)) + (y.outer*32)) + y.inner)] = (float32*)C.global[((x.inner*32) + y.inner)]}}}}} }

優(yōu)化6：Parallelization并行化

# 并行 s[C].parallel(xo)x, y, z = s[packedB].op.axis s[packedB].vectorize(z) s[packedB].parallel(x)evaluate_operation(s, [A, B, C], target=target, name="mmult", optimization="parallelization", log=log )# 這里是并行化之后的 IR print(tvm.lower(s, [A, B, C], simple_mode=True))

此處輸出：

parallelization: 0.067949 primfn(A_1: handle, B_1: handle, C_1: handle) -> ()attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}buffers = {C: Buffer(C_2: Pointer(float32), float32, [1024, 1024], []),A: Buffer(A_2: Pointer(float32), float32, [1024, 1024], []),B: Buffer(B_2: Pointer(float32), float32, [1024, 1024], [])}buffer_map = {A_1: A, B_1: B, C_1: C} {allocate(packedB: Pointer(global float32x32), float32x32, [32768]), storage_scope = global {for (x: int32, 0, 32) "parallel" {for (y: int32, 0, 1024) {packedB[ramp(((x*32768) + (y*32)), 1, 32)] = (float32x32*)B_2[ramp(((y*1024) + (x*32)), 1, 32)]}}for (x.outer: int32, 0, 32) "parallel" {allocate(C.global: Pointer(global float32), float32, [1024]), storage_scope = global;for (y.outer: int32, 0, 32) {for (x.c.init: int32, 0, 32) {C.global[ramp((x.c.init*32), 1, 32)] = broadcast(0f32, 32)}for (k.outer: int32, 0, 256) {for (x.c: int32, 0, 32) {C.global[ramp((x.c*32), 1, 32)] = ((float32x32*)C.global[ramp((x.c*32), 1, 32)] + (broadcast((float32*)A_2[(((x.outer*32768) + (x.c*1024)) + (k.outer*4))], 32)*(float32x32*)packedB[ramp(((y.outer*32768) + (k.outer*128)), 1, 32)]))C.global[ramp((x.c*32), 1, 32)] = ((float32x32*)C.global[ramp((x.c*32), 1, 32)] + (broadcast((float32*)A_2[((((x.outer*32768) + (x.c*1024)) + (k.outer*4)) + 1)], 32)*(float32x32*)packedB[ramp((((y.outer*32768) + (k.outer*128)) + 32), 1, 32)]))C.global[ramp((x.c*32), 1, 32)] = ((float32x32*)C.global[ramp((x.c*32), 1, 32)] + (broadcast((float32*)A_2[((((x.outer*32768) + (x.c*1024)) + (k.outer*4)) + 2)], 32)*(float32x32*)packedB[ramp((((y.outer*32768) + (k.outer*128)) + 64), 1, 32)]))C.global[ramp((x.c*32), 1, 32)] = ((float32x32*)C.global[ramp((x.c*32), 1, 32)] + (broadcast((float32*)A_2[((((x.outer*32768) + (x.c*1024)) + (k.outer*4)) + 3)], 32)*(float32x32*)packedB[ramp((((y.outer*32768) + (k.outer*128)) + 96), 1, 32)]))}}for (x.inner: int32, 0, 32) {for (y.inner: int32, 0, 32) {C_2[((((x.outer*32768) + (x.inner*1024)) + (y.outer*32)) + y.inner)] = (float32*)C.global[((x.inner*32) + y.inner)]}}}}} }

矩陣乘例子的總結(jié)

在僅用 18 行代碼應(yīng)用上述簡單優(yōu)化之后，我們生成的代碼就可以得到與使用數(shù)學(xué)內(nèi)核庫（MKL）的 numpy 接近的性能。我們剛才一直都記錄了性能，因此在這里可以直接比較結(jié)果：

此處輸出：

Operator Timing Performancenone 3.1094061458 1.0blocking 0.29192816779999997 0.09388550549895809vectorization 0.3312631714 0.10653583220302389 loop permutation 0.1137497149 0.036582456445468314array packing 0.2241142794 0.07207623221003798block caching 0.22421289339999997 0.07210794694763607parallelization 0.0679485881 0.021852593361526892

請注意，以上的輸出反映的是非獨占 Docker 容器上的運行時間，因此并不可靠。強烈建議您自己運行本教程，觀察 TVM 實現(xiàn)的性能增益，并仔細閱讀每個示例，以了解矩陣乘法運算的迭代改進。

總結(jié)

如前所述，如何使用 TE 和調(diào)度原語應(yīng)用優(yōu)化可能需要一些底層架構(gòu)和算法的知識。然而，TE 設(shè)計為更復(fù)雜的算法是為了可以搜索潛在的優(yōu)化。有了本 TE 簡介中的知識，我們現(xiàn)在可以開始探索 TVM 如何自動化進度優(yōu)化過程。

本教程提供了使用向量加法和矩陣乘法示例的TVM張量表達式（TE）工作流演練。一般的工作流程是：

通過一系列操作描述您的計算。
描述我們希望如何計算和使用調(diào)度原語。
編譯到我們想要的目標(biāo)函數(shù)。
保存要稍后加載的函數(shù)（可選）。

接下來的教程將擴展矩陣乘法示例，并展示如何使用可調(diào)參數(shù)構(gòu)建矩陣乘法和其他操作的通用模板，這些參數(shù)使得我們能夠自動優(yōu)化特定平臺的計算。

Ref：

https://tvm.apache.org/docs/tutorial/tensor_expr_get_started.html

總結(jié)

以上是生活随笔為你收集整理的TVM：使用Tensor Expression (TE)来处理算子的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：信用卡能转账到微信吗
下一篇： gcc参数 -i, -L, -l, -i