第四章 指令集体系结构——广度和深度
第四章 指令集體系結構——廣度和深度
4.1 數據存儲和棧
從一些與數據存儲、過程和參數傳遞有關的背景問題開始。 高級語言程序員用?變量?代表?抽象數據單元?的數據元素,這些數據單元是抽象的, 它可以保存程序員定義的任何類型的數據元素
對程序員來說,抽象數據單元具有一個真實存儲單元的全部屬性:可以讀、寫數據。 程序員可以給一個變量命名。除了名字,變量還有一個與它相關的?作用域, 變量作用域定義了它在?程序內可見或訪問的范圍。
下圖描述了變量在一個塊結構的高級語言代碼中的作用域。?
每個變量都有生命周期。為變量分配名稱并為它們保留存儲空間的即為?可聲明變量。
從匯編語言程序員來看,變量的存在始于它們被載入存儲器,止于程序運行結束。
在高級語言中,變量在一段特定的時間內被綁定到一塊存儲區上,一旦?超出變量的生命周期, 這塊存儲區會被釋放。
在?運行時?為變量分配存儲空間的過程叫作?動態分配,如java。 有些語言則采用?靜態分配,且所有綁定都在?編譯時?進行,在編譯程序時,為變量分配存儲值。
當將程序從高級語言轉換為機器代碼時,每個變量都被分配一個存儲位置,且每個變量都將保持這個存儲位置,直至程序終止。
靜態分配不允許遞歸。遞歸要求動態存儲,因為每次調用一個過程時都必須為它的?局部變量?創建一個新的拷貝:
int Factorial (int n){if (n == 1)return 1;elsereturn n *F actorial (n-1); }Java等高級語言采用?棧?來保存變量,因為它們先被創建,然后又被釋放。
如果存儲空間的分配在?運行時?于程序執行期間完成,變量地址顯然是?動態的。 這意味著數據元素在存儲器中的位置會在程序運行時改變。
過程,子程序和函數
子程序: 是主程序調用的一段代碼,它執行結束后會返回到調用點。 低級語言總是會提供子程序調用和返回機制。如ARM中的?BL和?MOV pc,lr。
過程: 是對子程序的擴展,可以使用輸入和輸出參數。
函數: 通常被定義為會返回一個值的子程序。C語言只使用術語函數(即沒有子程序和過程)。
4.1.1 存儲和棧
當某種編程語言使用?動態?數據存儲?調用?一個過程時,這被稱作?激活?了一個過程。
每個過程以及每次過程調用都有一個與其關聯的?激活記錄,它包含所有執行該過程所必需的信息。
激活記錄可以被視作過程對世界的視圖。支持遞歸?的編程語言使用?動態存儲, 因為所需的存儲空間隨程序的執行化。存儲必須在運行時分配。
下圖描述了激活記錄的概念。?
-
激活記錄有時也被稱作?幀。
-
當一個激活記錄被使用過之后,執行從?過程返回?的命令會?釋放?該記錄所占的?存儲空間。
如何在機器級?創建?和?管理?幀,并說使用兩個?指針寄存器?高效地創建與釋放激活記錄。
1. 棧幀和局部變量
過程通常需要為它們的?臨時變量?申請?局部工作區?(local workspace)。
局部: 意思是工作區是過程私有的,不能被調用程序或其他子程序訪問。
如果一個過程是?可重入的?或?遞歸?使用的,它的?局部變量?不僅與過程?本身?也與它的?使用情況?密切相關。
換句話說,每次調用?一個過程都?必須?為?分配?一個?新的?工作區。
如果一個過程已被分配了區域?固定?的工作區,它的運行被?中斷?并且又被?中斷例程?調用, 那么固定區域內的任何數據都有可能被過程的?重用所覆蓋。
棧指針(SP)和幀指針(FP)
CISC?計算機都維持一個硬件?SP?指針,當執行?BSR?或?RTS時它會自動調整。?ARM那樣的?RISC?處理器?沒有顯式?的?SP?指針, 盡管按照約定r13會作為ARM程序員維護的棧指針。
棧指針?總是指向?棧頂。?幀指針?則指向當前?棧幀的底。
在當前過程執行期間?棧指針可以改變,但?幀指針卻保持不變。
用棧指針或幀指針都可以訪問棧幀中的數據。按照約定,r11被用作?ARM?環境中的幀指針,
棧為工作區的動態分配提供了實現機制。棧幀(SF)和 幀指針(FP)是與動態存儲技術有關的兩個概念。 棧幀是位于?當前棧頂部?的一塊臨時存儲區域。
下圖說明了子程序開始時是怎樣通過將?棧指針?向上移動d個字節來創建一個d字節的?棧幀?的。
?在本節中,假定棧指針?向上朝低地址方向生長,并且總是指向當前位于棧頂的項。
因為棧朝著存儲器的低地址端生長,創建棧幀后棧指針會遞減。 例如,通過下面的指令可以在存儲器中預留100個字節:
SUB r13, r13, #100 ; 將棧指針上移100個字節在從子程序返回之前,必須執行指令?ADD r13, r13, #100?將棧指針下移從而釋放?棧幀。
通常,對棧幀的操作必須是平衡的;即如果將一些數據放在棧幀中,那么一定要記得將其移除。
示例過程?
可以用?棧指針?來訪問棧幀中的?臨時變量。
在下圖a中,變量XYZ位于棧指針下12字節處,可以通過有效地址?[r13,#12]?訪問?XYZ。 因為棧指針會隨著其他信息進入或離開棧而移動, 最好構造一個帶有?獨立?于?棧指針?的固定指針的?棧幀。
上圖b 用幀指針(FP)描述了棧幀。此時幀指針指向棧幀的底部且與棧指針無關 (即如果數據入棧,棧指針將變化,但幀指針保持不變)。若假設?r11?為幀指針, 則可以通過幀指針訪問位于地址?[r11,#-8]?處的變量。
用鏈接和取消鏈接指令管理棧幀
68K?通過它的?LINK?和?UNLK?指令來支持棧幀,它們可以通過一次操作來創建或釋放棧幀。?LINK?指令將幀指針的當前值保存在棧頂,然后將棧指針的當前值放在幀指針中。 按照約定,A6?被用作幀指針。然后將棧指針向上移動?d?個字節以創建棧幀。 現在?幀指針指向它的舊值,位于棧幀底部,而?棧指針則指向棧幀的頂部。 例如,指令?LINK FP,#-12?將創建一個?12?字節的棧幀, 而指令?UNLK FP則會釋放這個棧幀。
下圖a 部分展示了子程序A?中的棧幀,下圖b部分為調用子程序?B?后的棧幀。 現在幀指針中的值是創建棧幀B之前的棧指針。正如讀者所看見的,?嵌套的子程序將在棧中創建連續的棧幀。?
因為FP指向棧幀的底部,所有局部變量都可以通過帶偏移量的寄存器間接尋址方式訪問, 而FP被用來訪問它們的寄存器。在子程序B的最后將執行下面的指令序列:
UNLK FP ;回收子程序B的棧幀 RTS ;返回到調用位置- UNLK指令將釋放棧幀。
它首先?將幀指針的內容?加載到?棧指針中, 就是創建棧幀B之前棧指針的值。通過這一操作,棧幀?B?將被釋放。 下一步將棧頂的數據項出棧并將其放在?FP?中, 從而將棧和?FP?的內容恢復到?LINK?指令執行前的狀態。
UNLK?之后將執行?RTS?指令返回子程序?A?。子程序A將從返回的位置繼續執行。?LINK和UNLK指令被用于支持遞歸過程。
每次執行指令?LINK?時,幀指針的當前值都會被入棧,新的幀指針將指向棧中保存的幀指針舊值。 這種組織構成了一種叫作鏈接表的數據結構。
ARM?處理器?既沒有創建棧幀的鏈接指令,也?沒有返回時釋放棧幀的取消鏈接指令。 必須通過一些比較麻煩的方法完成這些操作。要?創建一個棧幀,可以通過執行下面的指令將舊的鏈接指針入棧, 然后將棧指針上移?d?個字節。
在上述代碼里,fp?代表?幀指針。幀指針指向棧的底部,可被用來訪問幀中的局部變量。 按照約定,寄存器r11被用作幀指針。在子程序的末尾,通過下面的指令?釋放棧幀:
執行上述代碼棧幀的變化?
上圖逐條指令地介紹了棧幀的生長方式。請注意舊的幀指針出現了兩次:一次作為棧中舊的/前一個棧幀。 在實踐中,我們使用?后遞減多存儲指令?STMFD,將鏈接寄存器(含有返回地址)和幀指針放入棧中。
2. ARM處理器棧幀實例
下面的代碼描述了如何在?ARM?處理器上?建立一個棧幀。 它將寄存器入棧,調用一個子程序,保存幀指針和鏈接寄存器,創建一個單個字的幀,訪問參數,然后返回調用位置。
執行示例代碼時棧的行為?
4.1.2 通過棧傳遞參數
可以通過兩種方式將參數傳遞給過程:?通過值?和?通過引用。
通過值: 傳遞的是參數實際值的?拷貝,如果該過程修改了這個參數,新的參數值不會影響源參數。
通過引用: 參數的?地址?在程序和過程/函數間傳遞,過程將收到一個?指向參數的指針, 這時參數只有一份拷貝,過程能夠訪問到參數的值,因為它知道參數的地址。 如果過程修改了參數,源參數也會被修改。
1. 指針與C語言
指針是一個?值為地址的變量
在?c?語言里通過在變量之前加一個 星號 來顯示聲明某個變量是一個指針。考慮下面的c語句:
int x; // x是一個整型變量 int *y; // y是一個指向整型變量的指針操作符(*): 表明變量是一個指針,前面的數據類型(int)表面指向的變量是這個類型的。?C?語言要求指針與它們訪問的數據具有相同的數據類型。
當把一個*放在指針之前時,表示?direferencing?指針(即訪問指針所指的數據)。 例如,表達式?p = *q?表示“將指針q所指的值賦給變量p”。
創建一個指針后,必須將其初始化。為了將指針y綁定到值x上,應完成以下操作
y = &x;&操作符獲得變量的地址。可以將指針的聲明與初始化合并在一起,如下:
int x = 12; //聲明整數變量x=12 int *P_x= &x; //聲明P_x為指向整數x的指針下面用C語言編寫的輪詢循環(polling loop)實例。輪詢循環是輸入/輸出(I/O)機制的一大特點。 它在一個循環里讀取某個設備的狀態,當設備準備好進行一次數據傳輸時將退出循環。
2. 函數和參數
交換兩個變量的值?
我們說這段代碼將交換兩個值; 實際上,?它的交換并不成功。
下面是未經過優化的代碼
AREA Swapval,CODE, READONLY stop EQU 0x1Z ; 程序終止并退出的代碼ENTRYMOV sp, #0x1000 ; 設置棧指針MOV fp, #0XFFFFFFFF ; 初始化FP用于跟蹤B main ; 跳轉到函數 main ; void swap (int a, int b) ; Parameter a is at. [fp]+4 ; Parameter b is at. [fp]+8 ; Variable temp: is at [p] -4swap SUE sp, sp, #4 ;創建棧幀:sp下降STR fp, [sp] ;幀指針入棧MOV fp, sp ;幀指針指向棧幀底SUB sp, sp, #4 ;sp加4個字節指向temp; { ; int temp; ; temp=a;LDR r0, [fp, #4] ;從棧中獲得參數aSTR r0, [fp, #-4] ;將a持貝到棧幀中的 temp; a=b;LDR r0, [fp, #8] ;叢棧中獲得參數bSTR r0, [fp, #4] ;將b復制到a; b = temp;LDR r0, [fp, #-4] ;從棧幀獲得tempSTR r0, [fp, #8] ;將temp復制到b ; }MOV sp, fp ;恢復棧指針LDR fp, [fp] ;從棧恢復舊的幀指針ADD sp, sp, #4 ;棧指針下移4個字節MOV pc, lr ;通過將鏈接寄存器載入PC來返回; void main (void) ; Variable x is at [fp]+4 ; Variable y is at [fp]+8main ;在函數 main中為x和y創建棧幀SUB Sp, sp, #4 ;棧指針上移STR fp, [sp] ;將幀指針入棧MOV fp, sp ;幀指針指向棧幀底SUB sp, sp, #8 ;sp上移 8個字節以保存兩個整數; { ; int x=2, y=3;MOV r0, #2 ;x=2STR r0, [fp, #-4] ;將x放入棧幀MOV r0, #3 ;y=3STR r0, [fp, #-8] ;將y放入線幀; swap(x,y);LDR r0, [fp, #-8] ;從棧幀獲爵ySTR r0, [sp,#-4]! ; y入棧LDR r0, [fp, #-4] ;從棧妓獲得xSTR r0, [sp, #-4]! ;x入代BL swap ;調用 swap,返回地址保存在鏈接寄存器中 ; } MOV sp, fp ;恢復棧指針LDR fp, [fp] ;從棧中恢復日的蘋指針ADD sp, sp #4 ;棧指針下移4個字節SWI Stop ;調用o/s終止程序END通過值傳遞ARM代碼?
棧幀的變化?
?
3. 通過引用傳送
函數swap可以很容易地被修改為:通過調用swap (&a, &b)并將參數?a?和?b?的?地址?傳送給被調用的函數swap來交換兩個參數,如下面的C語言代碼所示:?
-
函數頭指定int *a和?int*b?表明這兩個值指向變量?a?和?b?的指針。
-
語句?temp = *a?將指針?a?所指的值賦給整數變量temp.
-
語句?*b = *a?將指針?a?所指的值賦予指針?b?所指的存儲單元。
下面來分析這一過程在 ARM處理器上的代碼,?
執行該程序時的棧幀變化?
4.2 特權模式和異常
中斷?與?異常?是一些強制計算機?停止正常處理?并?調用異常處理程序?進行異常處理的事件。異常是為響應內部硬件、或軟件錯誤、或外設請求而引起的。
異常是指,在任一時刻,ARM處理器都在下表列出的某一種模式下工作。CPSR的第s位定義了當前模式。 最普通的操作模式是?用戶模式。只要發生?中斷或異常?就會發生一次?模式切換。 每一種模式都有它自己的?保存程序狀態寄存器(SPSR),用于在發生異常時保存當前的CPSR。 當異常在新的寄存器r13和r14中切換時,新的寄存器組由下表中給出的名稱標識:
異常--概述
由于這是一個非常重要的內容,這里給出一個概述以及對有關概念的提示。異常像子程序一樣在運行時插入代碼中。異常通常使用與子程序相同的調用—返回機制;主要區別在于調用地址由處理器硬件提供。典型情況下,處理器對異常類型進行譯碼并讀取一個指向異常處理例程入口的存儲指針。此外,有些處理器還會保存當前狀態字(以及返回地址),因為異常不應該改變處理器的狀態。
除了硬件中斷外,常見的異常還有:由于存儲器訪問錯誤引起頁故障中斷,用戶提供的操作系統調用,非法指令異常(例如非法操作碼),除0異常,等等。異常總是由操作系統軟件處理。
有些處理器會在異常出現時改變它們的操作模式。這些模式可以是特權模式,該模式下為了保護操作系統的完整性某些特定的操作將被禁止。
下圖,展示了ARM處理器的寄存器。
?
在每一種操作模式下寄存器r13和r14都會被復制。
例如,如果發生了?特權用戶異常,新的寄存器r13和r14將分別被叫作r13_SVC和r14_SVC。
在編寫ARM代碼時,寄存器r13_SVC和?r14_SVC?仍被寫作r13和r14當切換到特權模式時,?r13和r14在用戶模式下的值將不可用。特權模式帶有它自己的私有寄存器r13和r14, 這一機制意味著程序員不必在每次發生異常時保存r13和r14。
異常可由內部和外部事件引起。外部事件是中斷請求(IRQ),包括快速中斷請求(FIQ)、復位以及頁故障。內部異常則包括軟件中斷以及未定義的指令。
當?發生異常時,ARM處理器會?完成當前的指令(除非異常是由該指令的執行造成的), 然后進入異常處理模式。下面是要發生的事件序列:
操作模式改變為異常對應的模式。如,中斷請求會選擇IRQ模式
將緊接?在異常發生處之后的那條指令的地址拷貝到寄存器r14中。即異常被視作一種子程序調用,返回地址保存在鏈接寄存器中
將當前處理器狀態寄存器CPSR的當前值保存在新模式的SPSR中。例如,如果異常是一個中斷請求,CPSR將被保存在SPSR_irq中。保存當前處理器的狀態是必需的,因為異常不得改變處理器狀態
將CPSR的第7位置為1,禁止中斷請求。如果當前異常是一個快速中斷請求,則通過CPSR的第6位置為1來禁止其他FIQ異常
異常表中的每一項都包含?異常處理程序中要執行的第一條指令。該指令通常是一個分支操作(如B myHandler)。它會將對應的異常處理程序的入口地址加載到PC中
下表定義了?ARM?異常所訪問的存儲位置,每個存儲位置包括對應異常處理程序的第一條指令, 這意味著這個表應該位于?只讀存儲器?中:?
在恰當的程序處理完異常后,必須返回到異常發生時的位置(如果是終止性異常,就不可能再返回了)。
為了從異常返回,必須將定義了異常前模式的信息保存起來(即PC和CPSR)。 從異常返回并不像看起來那樣簡單: 如果恢復PC,那么仍處于異常處理模式下, 如果先恢復處理器狀態,那就不再處于異常處理程序中,也就沒法恢復?CPSR。
不能使用普通的操作從異常中返回,因為涉及操作模式的改變。?ARM提供兩種異常返回機制: 一種適用于?返回地址已經被保存在分體的r14的情形, 另一種適用于?返回地址已入棧的情形。
如果要從返回地址在鏈接寄存器中的異常中返回,可執行下表中列出的指令:
如果異常處理程序將返回地址拷貝到棧中,必須使用一個不同的機制。 可以用下面的指令從被保存在棧中的子程序中返回:
LDMFD r13!,{rO-r4,pc};恢復rO-r4,返回如果希望在同一時間將保存在棧中的寄存器取出并恢復CPSR,必須使用指令特殊形式:
LDMFD r13!,{rO-r4,pc}^;恢復rO-r4,返回并恢復CPSR^符號?表明CPSR將在恢復寄存器的同時被恢復。指令不會在恢復PC時修改它的內容。 因此必須在PC入棧之前對其進行修改。
4.3 MIPS:另一種RISC
MIPS是由斯坦福大學的John Hennessy于1980年設計的經典RISC體系結構, 其目的是利用RISC理念的優點設計一款高效的32位處理器。?MIPS用于大量嵌入式和移動應用以及一些游戲系統中。
MIPS采用傳統的32位load-store型ISA,帶有32位通用寄存器。?寄存器RO與眾不同,因為它的值總是0且不能修改。
MIPS指令格式
上圖描述了3種?MIPS指令格式:
MIPS?與?ARM?一個最重要的不同在于?MIPS能使用32個寄存器,而?ARM只能使用16個寄存器。
add r1,r2,r3是一條典型的R-型指令。按照約定,MIPS匯編語言中的指令都使用小寫。?MIPS?不支持?ARM處理器?的兩種重要機制:?條件執行,以及?對第二個操作數移位。
I-型指令格式將R-型指令的3個字段合并在一起得到一個16位的立即數字段, 該字段可被用于加立即數等指令中的?常數?或 寄存器間接尋址模式中的?偏移量。 這16位的立即數可以是有符號或無符號數。和ARM不同,MIPS的立即數是?不可縮放?的。
addi r1,r2,4是一條典型的I-型指令,MIPS將?i附加在指令助記符后?表示?立即數,?ARM用符號#作為立即數前綴,這是匯編器語法的區別而不是處理器ISA的。
MIPS使用16位立即數,載入兩個地址連續的立即數可以很容易地將一個32位字送入寄存器。 載入?高?16位立即數指令lui,將一個16位立即數送入寄存器的高16位, 并將寄存器的?低16位清零。
如,指令lui $1,0x1234將0x12340000加載到寄存器r1中。 現在可以用一條帶有16位立即數的邏輯或指令訪問寄存器的低16位。 如,指令ori $1,0xABCD將r1置為0x1234ABCD。注意$0~$31是MIPS寄存器rO~r31的名稱。
J-型指令格式為?無條件跳轉,用一個26位立即數作為?分支地址偏移量。 因為MIPS指令字長32位,分支偏移在使用之前會被?左移兩位?得到一個28位的?字節地址偏移, 跳轉范圍為256M。
下表列出MIPS寄存器集并給出了另一種由程序員使用的?寄存器名稱?(完全類似于ARM處理器的過程調用標準)。
MIPS的?load?和?store?指令分別為?lw?(載入字)和?sw?(保存字)。
MIPS的尋址模式很少,僅提供了?帶偏移量的寄存器間接尋址模式。 例如,指令?lw $1,16($2)實現了操作[$1]<-[16+[$2]], 與ARM處理器的指令LDR r1,[r2,#16]完全相同。
MIPS?缺少?CISC的復雜尋址模式 以及?ARM處理器塊移動指令。 不過,如果使用寄存器r0,直接存儲器尋址也是可以的(因為它強制使用一個16位的絕對地址),?MIPS還?支持程序計數器相對尋址。
MIPS條件分支
MIPS處理條件分支的方法與ARM完全不同。ARM依賴手CCR中各種狀態,?CCR由前面的指令置位或清零。MIPS則提供?顯式的比較和分支指令。 如,指令beq r1,r2,label?比較寄存器r1和r2的值,并在二者相等時跳轉到label處。
MIPS僅實現了以下4條分支指令
beq $1, $2, label ;相等時跳轉 bne $1, $2, label ;不想等時跳轉 blez $1, $2, label ;小于或等于0時跳轉 bgtz $1, $2, label ;大于0時跳轉按條件置1是一條很有意思的MIPS指令。如,小于時置1指令slt $1,$2,$3?先測試[$2]<[$3]是否成立,如果測試結果為真,則將$1置1,否則將$1置0,?slt指令用法的一個典型例子:
slt $1, $2, $3 ; bne $1, $0, target ;4.3.1 MIPS數據處理指令
MIPS數據處理指令大都與ARM數據處理指令很像。 二者的一個細微差別在于MIPS提供了?顯式移位指令,而ARM沒有獨立的移位指令, 該指令要么使用一個?立即數移位?字段進行固定長度移位,要么使用一個?寄存器移位?字段進行動態移位,如:
sll $1,$2,4 ;將$2邏輯左移4位,結果保存在$1中 sllv $1,$2,$3 ;將$2邏輯左移$3中的位數,結果保存在$1中注意,靜態移位?和?動態移位?需要使用不同的指令,這是匯編器的特點而不是指令系統的。
布爾運算指令and,or,not和xor都是傳統指令,?MIPS?還實現了不太常見的nor指令。
MIPS?指令?add?會在運算溢出時產生一個異常或軟中斷(即一次操作系統調用)。 但是 指令?addu指令不會在溢出時將溢出標志位置為?1
MIPS沒有提供與前一條指令的進位位相加的?顯式擴展加法運算。為了完成擴展的算術運算,?必須將進位位從低位加法中分離出來,并使其?參與高一位的加法。例如:
addu $1, $3, $5 ;$2, $1 = $4, $3 + $2, $1 中較低的兩個字相加 sltu $2, $1, $5 ;獲得進位輸入位 addu $2, $2, $4 ;與第一個較高的字$4相加 addu $2, $2, $6 ;與第二個較高的字$6相加sltu表示?無符號數小于時置1, 它比較$1<$5,如果比較結果為?真?則將?$2?置為?1。
這段代碼中的測試是將兩個?較低字?的和 與 其中一個字比較。 如果和?小于?其中一個字,那么一定?產生了一個進位, 并在較高的兩個字相加之前將?$2?的值置為?1?(較高的兩個字的和)。
考慮兩個十進制數的例子。假設要進行操作3+4。和為7并且7>4(沒有進位)。 現在,如果要進行操作8+4,將得到2并且2<4(有進位)。
將立即數作為第二操作數的數據處理指令有?addi、addiu、ori、slti、sltui和xori。
MIPS提供了有符號數和無符號數乘法,將生成32位數乘32位數的積,一個64位的結果。?MIPS實現乘法(和除法)的方法不太常見。其他處理器一般會將源和目的寄存器作為指令的一部分。 一個完整的32位乘法需要4個寄存器:?2個用于源操作數,2個用于64位積的高字和低字。
MIPS則采用了一種不同的方法,用兩個 **專用寄存器hi和lo**分別保存結果的兩個部分。 當然,這種方法需要使用專門的指令來訪問這兩個專用寄存器:
mfhi 從hi移出 mfhi $1 將字的高半部分移入$1 mflo 從lo移出 mflo $1 將字的低半部分移入$1mthi 移入hi mthi $1 將字的高半部分從$1移入 hi mtlo 移入lo mtlo $1 將字的低半部分從$1移入lo偽指令
和ARM一樣,?MIPS?匯編器也支持?偽指令,它們實際上是一些?重命名了的操作。 例如,偽指令li $1,0x1234被轉換為實際的MIPS指令addi $1,$O,0x1234。 這樣轉換之所以可以是因為$0總是0,因為$0加0x1234并將結果放入$1?等價于將0x1234移入$1。同樣,偽指令move $1,$2將被轉換為add $1,$0,$2。
1. 流控制
MIPS提供了一條跳轉并鏈接指令jal $1, Target,這里Target是一個16位有符號分支偏移。 該分支將跳轉到Target處,返回地址被保存在寄存器$1中。與ARM不同,?MIPS沒有專門的鏈接寄存器,而且它也不可能直接訪問程序計數器。 因此,必須通過?過程指令(寄存器跳轉)jr $1來實現返回, 該指令將$1加載到PC中以完成返回。
2. MIPS代碼示例
實現了一個簡單的向量操作?Y=sX˙Y=sX˙,?s?為標量且s=8?
3. 其他load和store指令
MIPS?提供了幾個?load?和?store?指令,可以把8位字節或16位 半字數據載入寄存器或寫入存儲器;即?
4.4 數據處理與數據傳送
本節將討論數據傳送操作的一些特征,從數據元素的?壓縮與移位,到?位組的處理, 到?檢測數據元素是否在正確的范圍內。本節的要點是說明?計算機設計方法的變化。
數據傳送是將數據從一個位置復制到另一個位置。例如,計算機提供了load/store操作 以及寄存器-寄存器數據傳送。有時,也希望在傳送一個32位字時?改變其中字節的位置, 或者需要將數據從地址連續的存儲單元傳送到連續的偶地址或奇地址存儲單元(存儲映射的外設所需要的)。
考慮?端格式?問題。某個系統可能將4個字節{A,B,C,和 D}表示為ABCD, 而另一個系統可能將同樣的數據表示為DCBA。
Intel的IA32處理器提供了一條BSWAP reg32指令完成大端格式到小端格式的轉換, 能夠將32位二進制串[31...24, 23...16, 15...8, 7...0]轉換為?[7...0, 15...8, 23...16, 31...24];即字節序列ABCD變為DCBA。
還可以實現一條能夠以?任意順序重組?32位數中4個字節的指令。 假設它們的初始順序為4321。這條?假想?的指令PERM 1234,R0將完成端格式轉換, 因為這些字節將按照相反的順序寫回。同樣,指令?PERM 1324,RO?會交換最外面兩個字節, 而指令?PERM 2233,RO則會交換最內的兩個字節,并將它們復制到最外面兩個字節。
下圖描述了IA32的?數據移動指令xlat,因為它使用了兩個?特定寄存器:8位寄存器al和16位基址寄存器bx
基址寄存器bx指向一塊存儲區而寄存器al中是一個8位的偏移量
當執行xlat指令時,al?與?bx?相加得到有效地址(al被用作偏移量)。 該有效地址處的8位操作數將被載入al。 換句話說,利用偏移量來查找表中位于該偏移處的數據元素,然后用該元素的值替換偏移量。 下面的代碼說明了如何使用xlat指令。
mov al, 4 ;將索引加載到al lea bx, table ;設置表的基地址 xlat ;將地址為ds+bx+al的字節送入 a第三條指令引用了ds,它是指向?IA?段式存儲系統中數據段的寄存器。
xlat僅能處理含有最多256個字節值的表格。
例如, 可用該指令將一種代碼轉換為另外一種。如果bx中含有代碼轉換表的地址而al含有要查找的代碼, 簡單地執行xlat就可以完成代碼轉換。
數據傳送--概述
數據移動?或?拷貝?指令是計算機中最重要的,是執行?最頻繁?的指令類型。
可以按照所傳送的數據的?大小?以及操作數的?源和目的?將傳送指令分類(如8、16、32位):
下圖描述了傳送指令的一些變化
圖a和圖b從?寄存器與存儲器?之間最基本的數據傳輸開始。 指令中的源和目的操作數可以是一個內部寄存器,也可以是一個存儲單元。 所有處理器都支持寄存器-存儲器、存儲器-存儲器、寄存器-寄存器數據傳送。 個別處理器支持存儲器-存儲器數據傳送。
圖d描述了交換?寄存器對?內容的指令,有些寄存器實現了能夠交換兩個寄存器內容的指令。 如,EXG X,S將寄存器x復制到棧指針中,棧指針復制到x中。 有些處理器實現了能夠處理單個寄存器中兩個字段的指令。一個字段的內容與另一個字段的內容互換。 如,指令SWAP x交換寄存器的前半部分和后半部分。
圖e描述了交換寄存器中兩個部分的指令。
圖f設計一條以任意順混洗寄存器中的字節的指令。
有些指令會在傳送時對數據進行處理。當一個二進制補碼數從m位擴展到n位時,n>m, 符號位將被復制到新的位中。如,8位二進制數10001100可用16位表示為1111111110001100。 有些計算機,如IA32,帶有專門的符號擴展移位指令,MOVSX,可將源操作數復制到寄存器中, 并將8位數擴展為16/32位或將16位數擴展為32位。
下圖描述了指令在傳送時對數據進行處理:
?
圖a中,一條目的操作數比源操作數?寬?的傳送指令,目的操作數高位補0
圖?b?中,源數據被送往目的操作數,高位補?符號位
圖?c?中,一條壓縮指令,分別取出兩個寄存器的最低字節,并將它們壓縮到第三個寄存器中
圖?d?中,一條通用的數據移動指令,在字的內部移動寄存器的一個字段
圖?e?中,一種形式相當奇特的數據傳送操作。連續4個字存儲單元中的4個字節分別被送往寄存器中的4個字節(或從寄存器送往存儲單元)
以上這些指令反映了經典CISC設計的優勢和弱點。一條xlat指令可以完成需要兩個操作數的操作 (即將索引與基址寄存器相加并完成寄存器間接傳送)。xlat是一條?緊湊?的指令, 因為它不需要任何操作數(寄存器bx和al的使用是?隱式?的)。 另一方面,xlat反映了CISC的弱點,只能用于某一?特定?應用,不靈活。
4.4.1 不可見的交換指令
現在來看看操作系統中進程同步所需要的一類指令。有些CISC?和?RISC?都支持的指令初看起來相當奇怪。 例如,IA32處理器提供了使用3個操作數(一個隱含的和兩個顯式的)的?比較和交換指令?cmpxchg?它的格式為?cmpxchg reg,reg?或?cmpxchg mem,reg,操作數可以是8位、?16位 或?32?位操作數。該指令將累加寄存器?al、ax?或?eax中的值與第一個操作數相比較, 如果相等則將零標志置1,并將第二個操作數復制到第一個。如果累加寄存器與第一個操作數不相等,?cmpxchg指令將第一個操作數復制到累加寄存器中。指令cmpxchg bx, cx的作用可描述為
IF [ax] = [bx] THEN [z] <- 1, [bx] = [cx]ELSE [z] <- 0, [ax] = [bx]信號量
信號量(semaphore)是一個用來為進程(process)提供?信號?的標志, 當兩個進程競爭某個資源時并且兩個進程幾乎同時查詢資源是否空閑。 假設進程A和進程B詢問資源Q是否空閑(資源可能是磁盤驅動器)。假設當前資源是空閑的。 進程A發現資源是空閑的,進程B也會發現資源是空閑的。如果進程A和進程B都宣布自己使用該資源, 那么系統可能被鎖住或崩潰。信號量可以解決這個問題。當進程查詢資源是否空閑時, 信號量將被鎖住并且在進程A釋放信號量之前不能被訪問。信號量對于數據庫非常重要, 可以避免兩個進程同時訪問同一個數據項。
cmpxchg指令最重要的特點是?不可見性?,即總會?執行到結束而不被中斷。 盡管可以用基本指令序列實現cmpxchg,但基本指令序列?可能?在完成前被?中斷。?cmpxchg用于兩個進程可能同時請求同一個資源的多任務或多進程環境中。 如果沒有?不可見?的或?原子?的指令,每個進程都可以讀出資源狀態, 發現資源是空閑的,并宣布自己獲得該資源。如果這樣,那么資源就被重復使用了。?cmpxchg等不可見指令會先進行測試。
68K系列處理器提供了格式為TAG <ea>的?測試并置值?指令,這里<ea>為存儲器操作數的地址。 該指令測試指定地址處的?字節值,并根據測試結果設置?條件寄存器?中的?負和零標志。?溢出和進位?標志將被清0。操作數的最高位——第7位,將被置為1。 指令TAG <ea>的RTL定義為:
IF [ea] = 0 THEN Z <- 1TF [ea(7)] = 1 THEN N <- 1[ea(7)] <- 1這些操作都是?不可見?的,并且?CPU?會執行一個?讀-修改-寫?周期, 該周期將在一個操作中從存儲器讀出一個操作數、進行修改、并將結果寫回存儲器。 第一個測試決定了信號量標志的狀態。如果與標志相關的資源是?空閑?的,標志位將被?置為1, 并且進程在其他設備、處理器或進程之前獲得該資源的使用權。
ARM?處理器提供了一條不可見的交換指令,SWP,交換寄存器和存儲器中的字數據。
ADR r1, flag ; r1指向flag(信號) MOV r0, #1 ;將r0置為1 SWP r0, t0, [L1] ;完戰交換 CMP r0, #0 ;測試結果(檢測存儲器是否加鎖)當ARM執行交換指令時,還會檢測一個叫作LOCK的硬件信號,判斷數據傳送事務是否可被中斷。
4.4.2 雙精度移位
移位操作會將一個寄存器中的所有位向左或向右移動;因此,能夠進行的最大移位位數等于寄存器的長度。
有時必須對大量的位進行移位操作(例如,當進行擴展精度算術運算時)。 有些處理器提供了?進位位?也參與移位的?擴展移位指令,可以實現多精度移位, 從一個寄存器中移除的位先被送入進位位,然后被移入參與運算的第二個寄存器中。
IA32提供了兩個雙精度移位指令shld和shrd(雙精度左移和雙精度右移)能夠將 兩個操作數同時移位。左移指令的形式為:
shld operand1, operand2, immediate ;“immediate”定義了移位位數 shld operand1, operand2, cl ;寄存器cl.允許動態移位operand2?必須是?16?或?32?位寄存器。operand1可以是寄存器或存儲單元。 移位位數可以是立即數,也可以是cl寄存器中的動態值。
下圖描述了shld ax, P, 8?
shld?指令對?operand2?進行一次?臨時的內部拷貝,然后將operand1左移一定的位數。?operand2的臨時拷貝也是左移,移出的位被送入operand1?; 即為了進行移位,operand2?和?operand1?被視作一個整體。盡管operand2的臨時拷貝也參與到移位中,但?operand2?的值不受該操作的影響; 因此,指令shld ax,P,8將寄存器ax的值左移8位, 并將P的高8位復制到ax的低8位。
可利用雙精度移位指令將幾個源數據中的數據壓縮到一個寄存器中。 假設要將存儲單元P中的5位、Q中的7位以及R中的4位壓縮到寄存器bx中。 這些位將以PQR?的順序壓縮,這里P為最高5位。則可以使用下面的代碼:?
4.4.3 壓縮和解壓縮指令
數據壓縮和解壓縮意味著將?多個?數據元素送入?一個?寄存器或存儲單元(壓縮) ,或者將?一個?數據元素送入?多個?寄存器或存儲單元(解壓縮)。
下面來看一個來著68K ISA的例子,它實現了PACK和UNPK指令, 這兩條指令會對16位或32位寄存器的低位數據進行處理。
下圖描述了指令PACK D0,D1,#literal的行為。?
如上圖所示,PACK指令取出寄存器D0(值為0x3432)的4個4位的值, 并將其轉換為兩個4位的值(0x42)。這條指令的目的是使非壓縮ASCII碼 與壓縮BCD數之間的轉換更加方便
下圖描述了PACK指令的逆操作———UNPK?
取出一個字最低字節中的兩個十六進制數并將它們轉換為兩個8位的值。 這兩個十六進制數被送入兩個連續的字節,并與一個常數相加。 要將BCD數轉換為ASCII字符代碼,需要執行指令UNPK DO,D1,#$3030,因為加上30, 就可以將BCD數轉換為對應的ASCII碼。
4.4.4邊界測試
為了確定地址是否在?范圍?內,要使用兩個測試和兩個條件分支操作 來比較數組下標與它的地址上限和下限。用一條68020的CHK2指令就可以完成同樣的功能,如:
LEA Array, A0 ; 地址寄存器A0為數組的基地址ADDA D0, A0 ; 將D0中的元素索引與基地址相加; 現在A0指向要訪問的元素CHK2.L Bounds, A0 ; 讀指針A0進行邊界檢查MOVE (AO), D1 ; 讀出要訪問的數據 Bounds DC.L Lower ; 保存存儲地址下限DC.L Upper ; 接著是地址上限僅需一條指令即可完成上限和下限檢測。指令CHK2.L Bounds, A0先將A0的值 與存儲單元Bounds中的地址下限比較,再將A0中的值與存儲單元Bounds+4中的地址上限比較。 地址邊界都是32位4字節的值。如果AO中的值在范圍內,則什么也不做, 如果在邊界訪問外,則產生異常,并且操作系統必須進行恢復處理。?68020提供了一條與CHK2相同的CMP2指令,但它會將?進借位?標志置1,以指出地址?越界錯誤。
CMP2和CHK2指令能檢測地址和數據寄存器的值,并對8位、16位或32位地址邊界進行處理。 而且它們能檢測有符號和無符號的地址邊界。
處理器會?自動確定?地址邊界是有符號還是無符號的。如,地址對?$20,$30?或$A0,$AF會被解釋為無符號的,而地址對$80,$20或$C4,?$B2會被認為是有符號的。
下圖描述了指令CHK2中指定的地址邊界與有效范圍之間的關系。將寄存器A6與一對地址邊界進行比較:?
處理器與存儲器之間不斷增加的性能差距叫作?存儲墻,它反映出計算機系統設計的一個潛在障礙。
從計算機體系結構和ISA的角度看,存儲墻的問題非常簡單。像防治瘟疫一樣避免訪存就可以了。
4.4.5 位字段數據
位字段?是一個?任意長度?的?位串?, 盡管真正的?位字段的最大長度被限制為處理器?寄存器?的寬度?。 可以用位字段來表示那些長度?不像?字符、整數、浮點數那樣正好是8位、?16位、32位或64位的信息。如,一個19位的位字段可以表示一個包含3個長度分別為3位、?7位和9位的獨立字段的壓縮數值。也可以表示圖像中的一行像素。或者表示產品目錄中扇區的狀態。?位字段如何使用沒有限制。
位字段的應用并不廣泛,因為位字段的操作會增加底層硬件的復雜度。存儲器?按字節編址?并使用8位、?16位、32位或64位總線,對一個位字段的訪問會涉及幾個字,可能需要多個連續的訪存,會降低性能。
位字段僅僅是一個由?連續位組成的串,一個位字段可以由兩個參數來定義:它的?寬度或長度w, 它在存儲器中的位置q(q的值要用?位數?來表示)。
如,將一個56位的位串x定義為距離存儲器第1位92345位,從92346到92401位。
另一種指定位字段的方法將位與字節結合在一起:用?字節地址指定存儲位置, 用相對于該位置的偏移量指明位字段相對于指定字節的位置。
下圖描述了一個用?字節地址加偏移量?定義的位字段:位字段從存儲器中字節i?的第0位起的第11位開始,寬度為10位。從右至左?對存儲器中的字節編號, 并使用?小端格式?放置字節和位。?
?圖中的結構是?一致的小端格式?。字節從最低字節(右邊)開始編號,字節中的位也是如此。 位字段距離字節i的偏移量從該字節的第0個位開始計算。位偏移也由右至左編號, 與位字段中的位一樣。但并非所有處理器都遵循這一約定。
位字段的編號
字節中的位?從右至左?進行編號,但位字段中的位則?從左至右?進行編號
在這個例子里,位字段的字節地址為i。位字段偏移為11,因為它的第1位是 從字節i的最低位開始的第11位。
這個10位的位字段跨了i+1和i+2兩個字節
請注意這種編號方法并?不適用?于?68020?處理器。
在理論上,位字段的大小可以?從0到存儲系統的總位數?。
因為位字段會被放在計算機的寄存器中進行處理,位字段的最大位數是?寄存器中能存放的?或?CPU能處理的位數(例如?32)。
實際實現位字段時會遇到與字節邊界有關的問題; 即位字段反映了計算機體系結構與計算機組成之間的矛盾。
很少有微處理器提供能直接處理?位字段?的指令。
下圖描述了68020的位字段。
因為68K系列處理器采用?小端格式?對?位?編號,采用?大端格式?對?字節?編號
上圖描述了用字節i的最高位定義位字段的位置(字節?i?叫作基字節,也是指令所指定的位字段的有效地址), 位字段中的位按照與字節中位相反的順序編號;即位字段遵循大端格式的約定。 位字段的偏移從基字節的第7位開始。再重復一遍:?位字段中位按照與字節中位相反的順序編號。
下面以一條典型的68020指令為例進行講解:BFINS,位字段取反操作, 將數據寄存器Dn中的位字段復制到存儲器中。該指令的格式為?BFINS Dn, <ea>{offset: width}。 該位字段將保存在距離有效地址為?<ea>?字節的偏移量為?offset?的位置。
請考慮指令BFINS D0, 1234 {11: 103}的解釋方式。
寄存器D0的最低10位將被復制到存儲器中從地址為1234的基字節的第7位起第11位 (即偏移量)開始的位置(如上圖,使用了同樣的?偏移量:寬度值, 這有助于該操作的圖形表示)。?68020?允許使用數據寄存器動態指定位寬。例如,可以將指今寫為?BFINS D0,1234{D3: D4}。
下面來看一個位字段操作的使用實例。下圖,描述了5位的數據元素x被壓縮保存在16位存儲字單元中。 假設現在要展開這個位字段。如果沒有位字段指令,一般需要先將數據載入寄存器, 然后將數據右移以將其最低位對其到寄存器的右端,最后將寄存器中其余位清0。?
MOVE PQRS, D0 ;將存儲單元 PQRS中的16位壓縮數據送入D0 LSR #6, D0 ;D0右移6位,將位字段D。-D,對齊 AND #%0000000000011111, DO ;清除寄存器D0中其余位。孚表示二進制值68020?的位字段提取指令?BFEXTU,可用一條指令完成上述操作:
BFEXTU PQRS{5: 5}, D0 ;獲得壓縮數據請注意?位字段?偏移量為?5,因為位字段的位是從?基字節?的?最高位?計算的 (即字的第15位)。位字段的第一位為X4,它位于第15位右邊第5位。
典型的位字段操作可以從存儲器讀出一個位字段,將一個位字段插入存儲器, 將位字段中的所有位?清0/置1/取反,并測試一個位字段。
上圖,描述了怎樣用下面兩條指令把地址為?1000?的存儲單元中6~3?位的位字段 傳送到地址為1003的存儲單元的4~1位:
BFEXTU $1000, {1: 4}, D0 ;將源位字段讀入DO BFINSD0,$1003, {3: 4} ;將位字段保存在存儲器中偏移量?1和4都是相對于?基地址字節?的第?7?位的
下面列出了?68K?的位字段指令
4.4.6 循環
循環是最常見的編程結構之一。盡管所有處理器都提供了?條件分支以支持循環, 有些處理器還通過一些方法使常見的循環結構更加高效。 首先,請看下面的基本循環,它可用偽碼表示為:
Preset loop variable REPEATPerform some actionDecrement loop variable UNTIL loop variable = 0可以通過下面的?ARM?代碼實現上述循環
MOV r0, #10 ;設置一個遞減的循環計數器 Next ;循環體SUBS r0, r0, #1 ;循環計數器遞減并設置狀態位BEQ Next ;REPEAT: 直到循環計數器為0“計數值遞減”和“不為0時跳轉”是這個循環結構的關鍵操作。
IA32?體系結構實現了一條?顯式循環指令?,該指令使用cx寄存器 作為循環計數器完成遞減和分支操作,因而不需要顯式的寄存器訪問。這條指令就是LOOP, 它僅使用一個目標地址作為操作數。
MOV cx,count ;設置計數值 Next Do something ;循環體LOOP Next ;計數器遞減且在計數值不為О時跳轉68K提供了一條復雜的?遞減和分支指令?--?DBRA,允許程序員在?8?個循環計數器中 指定一個并在兩個出口中選擇一個。 當循環計數值為-1時或檢測到特定條件成立時循環結束。 指令?DBcondition Di,target的動作可被描述為:
IF condition TRUE THEN EXIT ;條件為true時退出ELSE [Di] <- [Di] - 1 ;IF [Di] = -1 THEN EXIT ;或計數值為-1時退出循環ELSE [PC] <- itarget4.5 存儲器間接尋址
存儲器間接尋址模式?是一種實現?復雜數據結構?的方法。寄存器間接尋址?使用一個指針訪問所需要的操作數。
在?存儲器間接尋址?模式中,寄存器提供了一個指向存儲器中指針的指針。 實際的操作數通過讀取這第二個指針來訪問,訪問該指針所指地址處的數據。 它一共需要?4?個 存儲器/寄存器訪問:?讀指令、讀包含存儲器指針的寄存器、?讀含有指向操作數的指針的存儲單元,以及?訪問操作數。
上圖,描述了存儲器間接尋址,其中指針寄存器中含有32位值0x1234。 該指針所指的目標存儲單元的值為0x122488,它作為第二個指針用來訪問實際的操作數。 如果最初的指針寄存器為R1,目的寄存器為R2,指令為move,則該操作可用RTL?語言描述為
[R2] <- [[[R1]]]該表達式定義了獲得操作數所需的3次訪存操作:讀寄存器R1,讀R1中的指針所指的存儲單元, 以及用訪問存儲單元得到的指針讀存儲單元。
可以用下面這種更好的RTL表示方法是將它拆分為多個操作。
Pointer1 <- [R1] ;這是寄存器中的指針 Pointer2 <- [Pointer1] ;這是存儲器中的指針 Operand <- [Pointer2] ;這是最后的操作數 [R2] <- Operand ;將操作數保存在目的寄存器中寄存器間接尋址?模式以及它的那個指針在處理?簡單?數據值的?數組?或表格時十分有用。?
下圖描述了一種4個?數據項大小都不同?的情形。這樣就?不能?只通過指針寄存器加常數的方法來一項一項地遍歷這個數據結構。?
?可以用另一種方法訪問結構中大小不同的數據項。
如下圖,使用了一個指向指針表的指針寄存器。其中每個指針都指向存儲器中一個記錄。 簡單地將基指針加4就可以遍歷這些數據項,因為用基指針就可以遍歷指針表。?
如下圖,展示了68020是怎樣通過 ([offsetinner,A0],Offsetouter[offsetinner,A0],Offsetouter) 訪問 指針表和目標數據結構的,它有3個參數。
下面一起來看看這個表達式。首先,將基指針寄存器A0與內部偏移相加, 確定指針表中指向數據結構的指針的位置。然后從存儲器中讀出該指針并與外部偏移 相加以訪問所需的目的操作數。有效地址為 ([offsetinner,A0],offsetouter[offsetinner,A0],offsetouter),?
?使用RTL語言表示
[[[A0]+offsetinner] +Offsetouter]這里A0為基指針,offsetinner是指針表內的偏移常量,offsetoutar是目標結構內的偏移常量。
1. 用存儲器間接尋址實現 switch 結構
switch是許多高級語言中都提供的結構,它允許我們根據某個變量的值調用n個函數中的一個。
假設要實現一個CPU模擬器。其中帶有一個內部解釋器,類似于下面從4種情形中選擇一個的代碼。?
下圖,展示了這段代碼所用的數據結構,它用存儲器中的表格記錄了函數指針。 將對應的指針載入程序計數器就可以執行所需的函數。?
前變址存儲器間接尋址?
后變址存儲器間接尋址?
2. 用存儲器間接尋址訪問記錄
假設有一組由變量?day?索引的記錄,且每個記錄含有最多6個32位項。 還假設指向記錄的指針表中含有64字節的表格描述數據(如下圖)。 我們已經構造了一個指針表使用的64字節存儲區,其后是指針。每個指針都指向某一天的6個結果。
寄存器A0指向數據結構存儲區的基地址,除了指向記錄的指針外,它還可以含有其他項。 內部偏移量bd是天數列表起始地址相對于數據區起始地址的偏移量—— 第一天對應的數據項位于地址[A0]+bd處。
4.6壓縮代碼、RISC、Thumb和 MIPS16
壓縮代碼是ARM處理器和其他一些處理器能夠改頭換面,從32位變為16位,成為一個完全不同的體系結構。
壓縮
用短符號替換經常出現的字符串可以壓縮文本文件的大小。 也可以通過類似的技術壓縮處理器指令以得到密集的代碼。 壓縮代碼所付出的代價是更加受限的指令集;而壓縮代碼所帶來的好處是可以使用8位總線和外設的能力。 蜂窩電話、個人記事簿、掌上電腦等嵌入式應用無法承擔寬總線帶來的高昂費用。
4.6.1 Thumb指令集體系結構
Thumb使用ARM處理器的32位指令集并強制將其轉換為16位模式, 同時還保持了ARM處理器指令集體系結構的精髓
ARM處理器的Thumb狀態為設計者提供了最好的16位和32位處理器兼容的機制: 處理器?既可以?執行壓縮的?16?位?Thumb?代碼,也可以?執行一般的?32?位代碼。
ARM系列處理器使用CPSR的第5位T位表示處理器是否處于Thumb狀態。
如下圖,列出了Thumb數據處理指令的編碼。可以看到立即數已經被減少為3位、7位和8位。?
下面給出了上圖中的8種指令格式。BNF符號?ADD|SUB表示?ADD?和?SUB是二選一的。?
在?Thumb?狀態下?ARM?處理器狀態位的常用方法是, 對寄存器r0~r7進行處理的數據處理指令總會更新條件碼位()。
指令格式6用于訪問寄存器r8~r12,處理這些寄存器的數據處理操作?不影響?標志位, 當然,CMP指令除外。
如下圖,描述了?Thumb?狀態?分支指令?的編碼。條件分支帶有8位偏移量, 而無條件分支的偏移量有?11?位。這種分支指令編碼方案可以支持循環和if-then-else?結構中的小范圍條件分支。?
如下圖,描述了?Thumb?的?load?和?store?指令,它們的模式與相應的ARM指令相同, 只不過立即數指定的位移量相對較小(5位或8位)。它們支持字節、半字和字等類型的數據傳送。 偏移量會被縮放以便與所傳送數據的大小相適應。例如,如果5位偏移量為12且有效地址為?[r0, #12],這里r0的值為1000,則將訪問地址為1012的字節,地址為1024的半字, 或地址為1048的半字,因為偏移量會自動與操作數的大小相乘。?
Thumb指令集中還有一些存儲器傳送指令,盡管變量的范圍不像在ARM處理器體系結構中那樣大。 如下圖,描述了?塊寄存器傳送指令?的兩種最基本的形式。?
16位指令?只能?傳送寄存器?r0~r7?;不能傳送任何其他的寄存器。
傳送后遞增(increment after)是該指令?唯一允許?的模式, 它表示將寄存器保存在?Rn?所指定的存儲單元,當寄存器值傳送完之后,Rn加4。 編號最小的寄存器最先保存,存放在地址最低的存儲單元(即指針寄存器中的地址初值)中。
4.6.2 MIPS16
如下圖,描述了對MIPS I型指令來說是如何實現的
MIPS代碼的壓縮是通過將MIPS指令?分段并減少?各段的?位數?而實現的。 將操作碼減少一位進一步精簡了已經很精煉的MIPS指令集。其次,寄存器的數量從32個減少到8個, 每個寄存器選擇字段可以節約兩位。最后,I型指令中?立即數?的大小也從16位縮短到5位。
MIPS16使用了經典的?兩地址?模式指令,其中一個寄存器既是源操作數也是目的操作數; 即?結果會覆蓋兩個源操作數中的一個。
如下圖,展示了如何將?MIPS16?的寄存器映射到?MIPS?內核的寄存器組上。?
?盡管MIPS16只有8個可見的寄存器,其余32-8=24個MIPS寄存器只能通過專門的傳送指令訪問, 它們能夠在MIPS內核與MIPS16的寄存器組之間鉑貝數據。
4.7 變長指令
總結
以上是生活随笔為你收集整理的第四章 指令集体系结构——广度和深度的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python jupyter noteb
- 下一篇: OSChina 周六乱弹 —— 谁小时候