计算机运行时内存&处理器CPU初步认知
蕪湖起飛。
1.馮諾依曼計算機模型
計算機在運行時,先從內存中取出第一條指令,通過控制器的譯碼,按指令的要求,從存儲器中取出數據進行指定的運算和邏輯操作等加工,然后再按地址把結果送到內存中去。 接下來,再取出第二條指令,在控制器的指揮下完成規定操作。依此進行下去。直至遇到停止指令。
程序與數據一樣存貯,按程序編排的順序,一步一步地取出指令,自動地完成指令規定 的操作是計算機最基本的工作模型。
這都是數學家馮.諾依曼提出的,所以被稱作馮諾依曼計算機模型。
計算機核心組成部分:
1. 控制器(Control):是整個計算機的中樞神經,其功能是對程序規定的控制信息進行 解釋,根據其要求進行控制,調度程序、數據、地址,協調計算機各部分工作及內存與外設 的訪問等。
2. 運算器(Datapath):運算器的功能是對數據進行各種算術運算和邏輯運算,即對數據 進行加工處理。
3. 存儲器(Memory):存儲器的功能是存儲程序、數據和各種信號、命令等信息,并在 需要時提供這些信息。
4. 輸入(Input system):輸入設備是計算機的重要組成部分,輸入設備與輸出設備合你 為外部設備,簡稱外設,輸入設備的作用是將程序、原始數據、文字、字符、控制命令或現 場采集的數據等信息輸入到計算機。常見的輸入設備有鍵盤、鼠標器、光電輸入機、磁帶 機、磁盤機、光盤機等。
5. 輸出(Output system):輸出設備與輸入設備同樣是計算機的重要組成部分,它把外 算機的中間結果或最后結果、機內的各種數據符號及文字或各種控制信號等信息輸出出來。 微機常用的輸出設備有顯示終端CRT、打印機、激光印字機、繪圖儀及磁帶、光盤機等。
圖解馮諾依曼計算機模型:
這是一個抽象的模型,并不是我們現代計算機具體實現的模型,那么我們現代計算機的硬件和模型是怎么樣的呢?
2.運行時內存
運行時內存,就是內存條大小,你的內存條是16g,你的計算機運行內存就是接近16g;
操作系統有用戶空間與內核空間兩個概念,目的也是為了做到程序運行安全隔離與穩定。
以32位系統,4g內存為例,內存的分配就是下圖所示:
Linux為內核代碼和數據結構預留了幾個頁框,這些頁永遠不會被轉出到磁盤上。從 0x00000000 到 0xc0000000(PAGE_OFFSET) 的線性地址可由用戶代碼 和 內核代碼進 行引用(即用戶空間)。從0xc0000000(PAGE_OFFSET)到 0xFFFFFFFFF的線性地址只 能由內核代碼進行訪問(即內核空間)。內核代碼及其數據結構都必須位于這 1 GB的地址 空間中,但是對于此地址空間而言,更大的消費者是物理地址的虛擬映射。
這意味著在 4 GB 的內存空間中,只有 3 GB 可以用于用戶應用程序。進程與線程只能 運行在用戶方式(usermode)或內核方式(kernelmode)下。用戶程序運行在用戶方式 下,而系統調用運行在內核方式下。在這兩種方式下所用的堆棧不一樣:用戶方式下用的是 一般的堆棧(用戶空間的堆棧),而內核方式下用的是固定大小的堆棧(內核空間的堆棧,一 般為一個內存頁的大小),即每個進程與線程其實有兩個堆棧,分別運行與用戶態與內核 態。
(用戶空間和內核空間隔離是為了保護操作系統空間不受用戶進程影響,保護操作系統)
jvm運行所用的就是用戶空間,那么我們程序跟內存是怎么交互的呢?如下圖:
3.CPU處理器
3.1CPU結構
控制單元:控制單元是整個CPU的指揮控制中心,由指令寄存器IR(Instruction Register)、指 令譯碼器ID(Instruction Decoder)和 操作控制器OC(Operation Controller) 等組 成,對協調整個電腦有序工作極為重要。它根據用戶預先編好的程序,依次從存儲器中取出 各條指令,放在指令寄存器IR中,通過指令譯碼(分析)確定應該進行什么操作,然后通過 操作控制器OC,按確定的時序,向相應的部件發出微操作控制信號。操作控制器OC中主要 包括:節拍脈沖發生器、控制矩陣、時鐘脈沖發生器、復位電路和啟停電路等控制邏輯。
運算單元:運算單元是運算器的核心。可以執行算術運算(包括加減乘數等基本運算及其附加運 算)和邏輯運算(包括移位、邏輯測試或兩個值比較)。相對控制單元而言,運算器接受控 制單元的命令而進行動作,即運算單元所進行的全部操作都是由控制單元發出的控制信號來 指揮的,所以它是執行部件。
存儲單元:存儲單元包括 CPU 片內緩存Cache和寄存器組,是 CPU 中暫時存放數據的地方,里 面保存著那些等待處理的數據,或已經處理過的數據,CPU 訪問寄存器所用的時間要比訪 問內存的時間短。 寄存器是CPU內部的元件,寄存器擁有非常高的讀寫速度,所以在寄存 器之間的數據傳送非常快。采用寄存器,可以減少 CPU 訪問內存的次數,從而提高了 CPU 的工作速度。寄存器組可分為專用寄存器和通用寄存器。專用寄存器的作用是固定的,分別 寄存相應的數據;而通用寄存器用途廣泛并可由程序員規定其用途。
圖解CPU結構:
3.2CPU緩存結構
現代CPU為了提升執行效率,減少CPU與內存的交互(交互影響CPU效率),一般在CPU上集 成了多級緩存架構,常見的為三級緩存結構。
L1 Cache:分為數據緩存和指令緩存,邏輯核獨占
L2 Cache:物理核獨占,邏輯核共享
L3 Cache:所有物理核共享
打開任務管理器,打開第二欄性能,我們就能查看自己電腦的CPU緩存情況,下面是我的電腦CPU的L1,L2,L3緩存情況:
圖解CPU緩存結構:
存儲器存儲空間大小:內存>L3>L2>L1>寄存器;
存儲器速度快慢排序:寄存器>L1>L2>L3>內存;(越接近內核的存儲容量越小,效率越高)
緩存行:緩存是由最小的存儲區塊-緩存行(cacheline)組成,緩存行大小通 常為64byte。(比如你的L1緩存大小是512kb,而cacheline = 64byte,那么就是L1里有512 * 1024/64個)
為什么CPU要設計緩存?
CPU在摩爾定律的指導下以每18個月翻一番的速度在發展,然而內存和硬盤的發展速度遠遠不及 CPU。這就造成了高性能能的內存和硬盤價格及其昂貴。然而CPU的高度運算需要高速的數據。為了解決 這個問題,CPU廠商在CPU中內置了少量的高速緩存以解決IO速度和CPU運算速度之間的不匹配問題。(內存條的硬件發展跟不上CPU,為了減少CPU和內存條交互,CPU的發展過程中就加入了緩存)
3.3CPU讀取存儲數據過程
1、CPU要取寄存器X的值,只需要一步:直接讀取。
2、CPU要取L1 cache的某個值,需要1-3步(或者更多):把cache行鎖住,把某個數據拿來,解 鎖,如果沒鎖住就慢了。
3、CPU要取L2 cache的某個值,先要到L1 cache里取,L1當中不存在,在L2里,L2開始加鎖,加 鎖以后,把L2里的數據復制到L1,再執行讀L1的過程,上面的3步,再解鎖。
4、CPU取L3 cache的也是一樣,只不過先由L3復制到L2,從L2復制到L1,從L1到CPU。
5、CPU取內存則最復雜:通知內存控制器占用總線帶寬,通知內存加鎖,發起內存讀請求,等待 回應,回應數據保存到L3(如果沒有就到L2),再從L3/2到L1,再從L1到CPU,之后解除總線鎖定。
CPU執行計算的流程
1. 程序以及數據被加載到主內存
2. 指令和數據被加載到CPU的高速緩存
3. CPU執行指令,把結果寫到高速緩存
4. 高速緩存中的數據寫回主內存
3.4CPU局部性
在CPU訪問存儲設備時,無論是存取數據抑或存取指令,都趨于聚集在一片連續的區域中,這就被稱為局部性原理。
時間局部性(Temporal Locality):如果一個信息項正在被訪問,那么在近期它很可能還會被再次訪問。 比如循環、遞歸、方法的反復調用等。(如果一個數據被load到內存里面,對這個數據的操作指令執行完成以后,這個數據不會在緩存中馬上清除,很有可能這個數據還會再次被用到)
空間局部性(Spatial Locality):如果一個存儲器的位置被引用,那么將來他附近的位置也會被引用。 比如順序執行的代碼、連續創建的兩個對象、數組等。(從內存中加載一個數據到緩存里面去,CPU會把這個數據周圍的一些數據也加載到緩存中去)(緩存行)
對于空間局部性,我們來看下面這段代碼:
private static int length1 = 1024*1024;
private static int length2 = 6;
private static int runs = 100;
public static void main(String[] args) {
long[][] array = new long[1024*1024][6];
/**
* 初始化二維數組
*/
for (int i = 0; i < length1; i++) {
array[i] = new long[length2];
for (int j = 0; j < length2; j++) {
array[i][j] = 1;
}
}
System.out.println("數組初始化完畢++++");
long sum = 0L;
long start = System.currentTimeMillis();
for (int i = 0; i < runs; i++) {
for (int j = 0; j < length1; j++) {
for (int k = 0; k< length2; k++) {
sum += array[j][k];
}
}
}
long end = System.currentTimeMillis();
System.out.println("sum:"+ sum);
System.out.println("第一次相加完畢,耗時"+ (end - start));
sum = 0L;
start = System.currentTimeMillis();
for (int i = 0; i < runs; i++) {
for (int j = 0; j < length2; j++) {
for (int k = 0; k< length1; k++) {
sum += array[k][j];
}
}
}
end = System.currentTimeMillis();
System.out.println("sum:"+ sum);
System.out.println("第二次相加完畢,耗時"+ (end - start));
}
執行 結果:
數組初始化完畢++++ sum:629145600 第一次相加完畢,耗時1643 sum:629145600 第二次相加完畢,耗時3461
我們可以看出,第一次執行速度明顯要高于第二次執行速度。
這是因為如果以第一種循環方式,循環1024*1024次,每次只相加6條數據,6條數據,都是long,一共是48byte,我們cpu的緩存行一個是64byte,然后根據空間局部性原則,這6個數據都會被讀到一個緩存行里面;如果是第二種循環方式,循環6次,每次都是1024*1024條數據,一個緩存行肯定是放不下的,所以CPU要去和內存交互1024*1024次,所以效率比第一種循環要低得多。
3.4CPU運行安全等級
CPU有4個運行級別,分別為:
ring0
ring1
ring2
ring3
Linux與Windows只用到了2個級別:ring0、ring3,操作系統內部內部程序指令通常運行在ring0級別,操作系統以外的第三方程序運行在ring3級別,第三方程序如果要調用操作 系統內部函數功能,由于運行安全級別不夠,必須切換CPU運行狀態(IO操作,JVM創建線程等,都需要切換到ring3級別),從ring3切換到ring0, 然后執行系統函數,說到這里相信明白為什么JVM創建線程,線程阻塞喚醒是重型操作了,因為CPU要切換運行狀態。
JVM創建線程CPU的工作過程:
1:CPU從ring3切換ring0創建線程
2:創建完畢,CPU從ring0切換回ring3
3:線程執行JVM程序
4:線程執行完畢,銷毀還得切會ring0
3.5CPU線程模型
內核線程模型:系統內核管理線程(KLT),內核保存線程的狀態和上下文信息,線程阻塞不會引起進程阻塞。在多處理器系統上,多線程在多處理器上并行運行。線程的創建、調度和管 理由內核完成,效率比ULT要慢,比進程操作快。
用戶線程模型:用戶程序實現,不依賴操作系統核心,應用提供創建、同步、調度和管理線程 的函數來控制用戶線程。不需要用戶態/內核態切換,速度快。內核對ULT無感知,線程阻 塞則進程(包括它的所有線程)阻塞。
JVM使用的線程模型?
我們來看下面代碼:
public static void main(String[] args) {
for (int i =0; i < 200; i++) {
new Thread(new Runnable() {
@Override
public void run() {
while (true) {
try {
Thread.sleep(1000);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
}).start();
}
}
如果我們的CPU能感知到線程的創建,那么久說明JVM用的是用戶線程模型,如果CPU不能感知,那么就是內核線程模型。
執行前我們打開任務管理器,看看系統線程是多少個:
基本穩定在1940左右,我們執行代碼,在看線程數量:
基本上是多個200個線程左右,這說明,這些線程都是由操作系統創建的,所以,JVM的線程就是用戶線程模型。
4.運行內存和CPU關系
用一張圖來說的話:
上面就是運行內存和CPU的一些初步認知,我們學這些東西只是為了更好的了解電腦工作原理,了解程序和硬件之間的交互,為了寫出更高質量的代碼!
總結
以上是生活随笔為你收集整理的计算机运行时内存&处理器CPU初步认知的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 智能变道无压力!百度地图“自动驾驶级”导
- 下一篇: hql语法