嵌入式linux内存使用和性能优化
這本書(shū)有兩個(gè)關(guān)切點(diǎn):系統(tǒng)內(nèi)存(用戶層)和性能優(yōu)化。
這本書(shū)和Brendan Gregg的《Systems Performance》相比,無(wú)論是技術(shù)層次還是更高的理論都有較大差距。但是這不影響,快速花點(diǎn)時(shí)間簡(jiǎn)單過(guò)一遍。
然后在對(duì)《Systems Performance》進(jìn)行詳細(xì)的學(xué)習(xí)。
由于Ubuntu測(cè)試驗(yàn)證更合適,所以在Ubuntu(16.04)+Kernel(4.10.0)環(huán)境下做了下面的實(shí)驗(yàn)。
?
全書(shū)共9章:1~4章著重于內(nèi)存的使用,盡量降低進(jìn)程的內(nèi)存使用量,定位和發(fā)現(xiàn)內(nèi)存泄露;5~9章著重于如何讓系統(tǒng)性能優(yōu)化,提高執(zhí)行速度。
第1章 內(nèi)存的測(cè)量
第2章 進(jìn)程內(nèi)存優(yōu)化
第3章 系統(tǒng)內(nèi)存優(yōu)化
第4章 內(nèi)存泄露
第5章 性能優(yōu)化的流程
第6章 進(jìn)程啟動(dòng)速度
第7章 性能優(yōu)化的方法
第8章 代碼優(yōu)化的境界
第9章 系統(tǒng)性能優(yōu)化
用戶空間的內(nèi)存使用量是由進(jìn)程使用量累積和系統(tǒng)使用之和,所以優(yōu)化系統(tǒng)內(nèi)存使用,就是逐個(gè)攻克每個(gè)進(jìn)程的使用量和優(yōu)化系統(tǒng)內(nèi)存使用。。
俗話說(shuō)“知己知彼,百戰(zhàn)不殆”,要優(yōu)化一個(gè)進(jìn)程的使用量,首先得使用工具去評(píng)估內(nèi)存使用量(第1章 內(nèi)存的測(cè)量);
然后就來(lái)看看進(jìn)程那些部分耗費(fèi)內(nèi)存,并針對(duì)性進(jìn)行優(yōu)化(第2章 進(jìn)程內(nèi)存優(yōu)化);
最后從系統(tǒng)層面尋找方法進(jìn)行優(yōu)化(第3章 系統(tǒng)內(nèi)存優(yōu)化)。
內(nèi)存的使用一個(gè)致命點(diǎn)就是內(nèi)存泄露,如何發(fā)現(xiàn)內(nèi)存泄露,并且將內(nèi)存泄露定位是重點(diǎn)(第4章 內(nèi)存泄露)
第1章 內(nèi)存的測(cè)量
作者在開(kāi)頭的一段話說(shuō)明了本書(shū)采用的方法論:
關(guān)于系統(tǒng)內(nèi)存使用,將按照(1)明確目標(biāo)->(2)尋找評(píng)估方法,(3)了解當(dāng)前狀況->對(duì)系統(tǒng)內(nèi)存進(jìn)行優(yōu)化->重新測(cè)量,評(píng)估改善狀況的過(guò)程,來(lái)闡述系統(tǒng)的內(nèi)存使用與優(yōu)化。
(1)明確目標(biāo),針對(duì)系統(tǒng)內(nèi)存優(yōu)化,有兩個(gè):
? A.每個(gè)守護(hù)進(jìn)程使用的內(nèi)存盡可能少
? B.長(zhǎng)時(shí)間運(yùn)行后,守護(hù)進(jìn)程內(nèi)存仍然保持較低使用量,沒(méi)有內(nèi)存泄露。
(2)尋找評(píng)估方法,第1章關(guān)注點(diǎn)。
(3)對(duì)系統(tǒng)內(nèi)存進(jìn)行優(yōu)化,第2章針對(duì)進(jìn)程進(jìn)行優(yōu)化,第3章針對(duì)系統(tǒng)層面進(jìn)行內(nèi)存優(yōu)化,第4章關(guān)注內(nèi)存泄露。
系統(tǒng)內(nèi)存測(cè)量
free用以獲得當(dāng)前系統(tǒng)內(nèi)存使用情況。
在一嵌入式設(shè)備獲取如下:
| busybox free |
和PC使用的free對(duì)比:
| ???????????? total?????? used?????? free???? shared??? buffers???? cached |
可見(jiàn)這兩個(gè)命令存在差異,busybox沒(méi)有cached。這和實(shí)際不符,實(shí)際可用內(nèi)存=free+buffers+cached。
buffers是用來(lái)給Linux系統(tǒng)中塊設(shè)備做緩沖區(qū),cached用來(lái)緩沖打開(kāi)的文件。下面是通過(guò)cat /proc/meminfo獲取,可知實(shí)際可用內(nèi)存=8352+0+3508=11860。已經(jīng)使用內(nèi)存為=23940-11860=12080。可見(jiàn)兩者存在差異,busybox的free不太準(zhǔn)確;/proc/meminfo的數(shù)據(jù)更準(zhǔn)確。
| MemTotal:????????? 23940 kB |
進(jìn)程內(nèi)存測(cè)量
在進(jìn)程的proc中與內(nèi)存有關(guān)的節(jié)點(diǎn)有statm、maps、memmap。
cat /proc/xxx/statm
| 1086 168 148 1 0 83 0 |
這些參數(shù)以頁(yè)(4K)為單位,分別是:
1086 Size,任務(wù)虛擬地址空間的大小。
168 Resident,應(yīng)用程序正在使用的物理內(nèi)存的大小。
148 Shared,共享頁(yè)數(shù)。
1 Trs,程序所擁有的可執(zhí)行虛擬內(nèi)存的大小。
0 Lrs,被映像到任務(wù)的虛擬內(nèi)存空間的的庫(kù)的大小。
83 Drs,程序數(shù)據(jù)段和用戶態(tài)的棧的大小。
0 dt,臟頁(yè)數(shù)量(已經(jīng)修改的物理頁(yè)面)。
Size、Trs、Lrs、Drs對(duì)應(yīng)虛擬內(nèi)存,Resident、Shared、dt對(duì)應(yīng)物理內(nèi)存。
cat /proc/xxx/maps
| 00400000-00401000 r-xp 00000000 08:05 18561374?????????????????????????? /home/lubaoquan/temp/hello |
第一列,代表該內(nèi)存段的虛擬地址。
第二列,r-xp,代表該段內(nèi)存的權(quán)限,r=讀,w=寫(xiě),x=執(zhí)行,s=共享,p=私有。
第三列,代表在進(jìn)程地址里的偏移量。
第四列,映射文件的的主從設(shè)備號(hào)。
第五列,映像文件的節(jié)點(diǎn)號(hào)。
第六列,映像文件的路徑。
kswapd
Linux存在一個(gè)守護(hù)進(jìn)程kswapd,他是Linux內(nèi)存回收機(jī)制,會(huì)定期監(jiān)察系統(tǒng)中空閑呢村的數(shù)量,一旦發(fā)現(xiàn)空閑內(nèi)存數(shù)量小于一個(gè)閾值的時(shí)候,就會(huì)將若干頁(yè)面換出。
但是在嵌入式Linux系統(tǒng)中,卻沒(méi)有交換分區(qū)。沒(méi)有交換分區(qū)的原因是:
1.一旦使用了交換分區(qū),系統(tǒng)系能將下降的很快,不可接受。
2.Flash的寫(xiě)次數(shù)是有限的,如果在Flash上面建立交換分區(qū),必然導(dǎo)致對(duì)Flash的頻繁讀寫(xiě),影響Flash壽命。
那沒(méi)有交換分區(qū),Linux是如何做內(nèi)存回收的呢?
對(duì)于那些沒(méi)有被改寫(xiě)的頁(yè)面,這塊內(nèi)存不需要寫(xiě)到交換分區(qū)上,可以直接回收。
對(duì)于已經(jīng)改寫(xiě)了的頁(yè)面,只能保留在系統(tǒng)中,,沒(méi)有交換分區(qū),不能寫(xiě)到Flash上。
在Linux物理內(nèi)存中,每個(gè)頁(yè)面有一個(gè)dirty標(biāo)志,如果被改寫(xiě)了,稱之為dirty page。所有非dirty page都可以被回收。
?
第2章 進(jìn)程內(nèi)存優(yōu)化
當(dāng)存在很多守護(hù)進(jìn)程,又要去降低守護(hù)進(jìn)程內(nèi)存占用量,如何去推動(dòng):
1.所有守護(hù)進(jìn)程內(nèi)存只能比上一個(gè)版本變少。
2.Dirty Page排前10的守護(hù)進(jìn)程,努力去優(yōu)化,dirty page減少20%。
可以從三個(gè)方面去優(yōu)化:
1.執(zhí)行文件所占用的內(nèi)存
2.動(dòng)態(tài)庫(kù)對(duì)內(nèi)存的影響
3.線程對(duì)內(nèi)存的影響
2.1 執(zhí)行文件
一個(gè)程序包括代碼段、數(shù)據(jù)段、堆段和棧段。一個(gè)進(jìn)程運(yùn)行時(shí),所占用的內(nèi)存,可以分為如下幾部分:
棧區(qū)(stack):由編譯器自動(dòng)分配釋放,存放函數(shù)的參數(shù)、局部變量等
堆區(qū)(heap):一般由程序員分配釋放,若程序員不釋放,程序結(jié)束時(shí)可有操作系統(tǒng)來(lái)回收
全局變量、靜態(tài)變量:初始化的全局變量和靜態(tài)變量在一塊區(qū)域,未初始化的全局變量和靜態(tài)變量在另一塊區(qū)域,程序結(jié)束后由系統(tǒng)釋放
文字常量:常量、字符串就是放在這里的,程序結(jié)束后有系統(tǒng)釋放
程序代碼:存放函數(shù)體的二進(jìn)制代碼
下面結(jié)合一個(gè)實(shí)例分析:
| #include <stdlib.h> int n=10; int main() ? printf("pid:%d\n", pid); |
執(zhí)行程序結(jié)果:
| pid:18768 |
查看cat /proc/17868/maps
| 00400000-00401000 r-xp 00000000 08:05 18561376?????????????????????????? /home/lubaoquan/temp/example |
?
第3章 系統(tǒng)內(nèi)存優(yōu)化
3.1 守護(hù)進(jìn)程的內(nèi)存使用
守護(hù)進(jìn)程由于上期運(yùn)行,對(duì)系統(tǒng)內(nèi)存使用影響很大:
1.由于一直存貨,所以其占用的內(nèi)存不會(huì)被釋放。
2.即使什么都不做,由于引用動(dòng)態(tài)庫(kù),也會(huì)占用大量的物理內(nèi)存。
3.由于生存周期很長(zhǎng),哪怕一點(diǎn)內(nèi)存泄露,累積下來(lái)也會(huì)很大,導(dǎo)致內(nèi)存耗盡。
那么如何降低風(fēng)險(xiǎn)呢?
1.設(shè)計(jì)守護(hù)進(jìn)程時(shí),區(qū)分常駐部分和非常駐部分。盡量降低守護(hù)進(jìn)程的邏輯,降低內(nèi)存占用,降低內(nèi)存泄露幾率。或者將幾個(gè)守護(hù)進(jìn)程內(nèi)容合為一個(gè)。
2.有些進(jìn)程只是需要盡早啟動(dòng),而不需要變成守護(hù)進(jìn)程。可以考慮加快啟動(dòng)速度,從而使服務(wù)達(dá)到按需啟動(dòng)的需求。優(yōu)化方式有優(yōu)化加載動(dòng)態(tài)庫(kù)、使用Prelink方法、采用一些進(jìn)程調(diào)度方法等。
3.2 tmpfs分區(qū)
Linux中為了加快文件讀寫(xiě),基于內(nèi)存建立了一個(gè)文件系統(tǒng),成為ramdisk或者tmpfs,文件訪問(wèn)都是基于物理內(nèi)存的。
使用df -k /tmp可以查看分區(qū)所占空間大小:
| Filesystem???? 1K-blocks??? Used Available Use% Mounted on |
在對(duì)這個(gè)分區(qū)進(jìn)行讀寫(xiě)時(shí),要時(shí)刻注意,他是占用物理內(nèi)存的。不需要的文件要及時(shí)刪除。
3.3 Cache和Buffer
系統(tǒng)空閑內(nèi)存=MemFree+Buffers+Cached。
Cache也稱緩存,是把從Flash中讀取的數(shù)據(jù)保存起來(lái),若再次讀取就不需要去讀Flash了,直接從緩存中讀取,從而提高讀取文件速度。Cache緩存的數(shù)據(jù)會(huì)根據(jù)讀取頻率進(jìn)行組織,并最頻繁讀取的內(nèi)容放在最容易找到的位置,把不再讀的內(nèi)容不短往后排,直至從中刪除。
在程序執(zhí)行過(guò)程中,發(fā)現(xiàn)某些指令不在內(nèi)存中,便會(huì)產(chǎn)生page fault,將代碼載入到物理內(nèi)存。程序退出后,代碼段內(nèi)存不會(huì)立即丟棄,二是作為Cache緩存。
Buffer也稱緩存,是根據(jù)Flash讀寫(xiě)設(shè)計(jì)的,把零散的寫(xiě)操作集中進(jìn)行,減少Flash寫(xiě)的次數(shù),從而提高系統(tǒng)性能。
Cache和BUffer區(qū)別簡(jiǎn)單的說(shuō)都是RAM中的數(shù)據(jù),Buffer是即將寫(xiě)入磁盤(pán)的,而Cache是從磁盤(pán)中讀取的。
使用free -m按M來(lái)顯示Cache和Buffer大小:
| ???????????? total?????? used?????? free???? shared??? buffers???? cached |
降低Cache和Buffer的方法:
sync
? 該命令將未寫(xiě)的系統(tǒng)緩沖區(qū)寫(xiě)到磁盤(pán)中。包含已修改的 i-node、已延遲的塊 I/O 和讀寫(xiě)映射文件。/proc/sys/vm/drop_caches
? a)清理pagecache(頁(yè)面緩存)
?# echo 1 > /proc/sys/vm/drop_caches???? 或者 # sysctl -w vm.drop_caches=1
? b)清理dentries(目錄緩存)和inodes
?# echo 2 > /proc/sys/vm/drop_caches???? 或者 # sysctl -w vm.drop_caches=2c)清理pagecache、dentries和inodes
?
?# echo 3 > /proc/sys/vm/drop_caches???? 或者 # sysctl -w vm.drop_caches=3
? 上面三種方式都是臨時(shí)釋放緩存的方法,要想永久釋放緩存,需要在/etc/sysctl.conf文件中配置:vm.drop_caches=1/2/3,然后sysctl -p生效即可!
vfs_cache_pressurevfs_cache_pressure=100??? 這個(gè)是默認(rèn)值,內(nèi)核會(huì)嘗試重新聲明dentries和inodes,并采用一種相對(duì)于頁(yè)面緩存和交換緩存比較”合理”的比例。減少vfs_cache_pressure的值,會(huì)導(dǎo)致內(nèi)核傾向于保留dentry和inode緩存。增加vfs_cache_pressure的值,(即超過(guò)100時(shí)),則會(huì)導(dǎo)致內(nèi)核傾向于重新聲明dentries和inodes總之,vfs_cache_pressure的值:小于100的值不會(huì)導(dǎo)致緩存的大量減少超過(guò)100的值則會(huì)告訴內(nèi)核你希望以高優(yōu)先級(jí)來(lái)清理緩存。
3.4 內(nèi)存回收
kswapd有兩個(gè)閾值:pages_high和pages_low,當(dāng)空閑內(nèi)存數(shù)量低于pages_low時(shí),kswapd進(jìn)程就會(huì)掃描內(nèi)存并且每次釋放出32個(gè)free pages,知道free page數(shù)量達(dá)到pages_high。
kswapd回收內(nèi)存的原則?
1.如果物理頁(yè)面不是dirty page,就將該物理頁(yè)面回收。
- 代碼段,只讀不能被改寫(xiě),所占內(nèi)存都不是dirty page。
- 數(shù)據(jù)段,可讀寫(xiě),所占內(nèi)存可能是dirty page,也可能不是。
- 堆段,沒(méi)有對(duì)應(yīng)的映射文件,內(nèi)容都是通過(guò)修改程序改寫(xiě)的,所占物理內(nèi)存都是dirty page。
- 棧段和堆段一樣,所占物理內(nèi)存都是dirty page。
- 共享內(nèi)存,所占物理內(nèi)存都是dirty page。
就是說(shuō),這條規(guī)則主要面向進(jìn)程的代碼段和未修改的數(shù)據(jù)段。
2.如果物理頁(yè)面已經(jīng)修改并且可以備份回文件系統(tǒng),就調(diào)用pdflush將內(nèi)存中的內(nèi)容和文件系統(tǒng)進(jìn)行同步。pdflush寫(xiě)回磁盤(pán),主要針對(duì)Buffers。
3.如果物理頁(yè)面已經(jīng)修改但是沒(méi)有任何磁盤(pán)的備份,就將其寫(xiě)入swap分區(qū)。
kswapd再回首過(guò)程中還存在兩個(gè)重要方法:LMR(Low on Memory Reclaiming)和OMK(Out of Memory Killer)。
由于kswapd不能提供足夠空閑內(nèi)存是,LMR將會(huì)起作用,每次釋放1024個(gè)垃圾頁(yè)知道內(nèi)存分配成功。
當(dāng)LMR不能快速釋放內(nèi)存的時(shí)候,OMK就開(kāi)始起作用,OMK會(huì)采用一個(gè)選擇算法來(lái)決定殺死某些進(jìn)程。發(fā)送SIGKILL,就會(huì)立即釋放內(nèi)存。
3.5 /proc/sys/vm優(yōu)化
此文件夾下面有很多接口控制內(nèi)存操作行為,在進(jìn)行系統(tǒng)級(jí)內(nèi)存優(yōu)化的時(shí)候需要仔細(xì)研究,適當(dāng)調(diào)整。
block_dump
? 表示是否打開(kāi)Block Debug模式,用于記錄所有的讀寫(xiě)及Dirty Block寫(xiě)回操作。0,表示禁用Block Debug模式;1,表示開(kāi)啟Block Debug模式。dirty_background_ratio
? 表示臟數(shù)據(jù)達(dá)到系統(tǒng)整體內(nèi)存的百分比,此時(shí)觸發(fā)pdflush進(jìn)程把臟數(shù)據(jù)寫(xiě)回磁盤(pán)。dirty_expires_centisecs
? 表示臟數(shù)據(jù)在內(nèi)存中駐留時(shí)間超過(guò)該值,pdflush進(jìn)程在下一次將把這些數(shù)據(jù)寫(xiě)回磁盤(pán)。缺省值3000,單位是1/100s。dirty_ratio
? 表示如果進(jìn)程產(chǎn)生的臟數(shù)據(jù)達(dá)到系統(tǒng)整體內(nèi)存的百分比,此時(shí)進(jìn)程自行吧臟數(shù)據(jù)寫(xiě)回磁盤(pán)。dirty_writeback_centisecs
? 表示pdflush進(jìn)程周期性間隔多久把臟數(shù)據(jù)協(xié)會(huì)磁盤(pán),單位是1/100s。vfs_cache_pressure
? 表示內(nèi)核回收用于directory和inode cache內(nèi)存的傾向;缺省值100表示內(nèi)核將根據(jù)pagecache和swapcache,把directory和inode cache報(bào)紙?jiān)谝粋€(gè)合理的百分比;降低該值低于100,將導(dǎo)致內(nèi)核傾向于保留directory和inode cache;高于100,將導(dǎo)致內(nèi)核傾向于回收directory和inode cache。min_free_kbytes
? 表示強(qiáng)制Linux VM最低保留多少空閑內(nèi)存(KB)。nr_pdflush_threads
? 表示當(dāng)前正在進(jìn)行的pdflush進(jìn)程數(shù)量,在I/O負(fù)載高的情況下,內(nèi)核會(huì)自動(dòng)增加更多的pdflush。overcommit_memory
? 指定了內(nèi)核針對(duì)內(nèi)存分配的策略,可以是0、1、2.
? 0 表示內(nèi)核將檢查是否有足夠的可用內(nèi)存供應(yīng)用進(jìn)程使用。如果足夠,內(nèi)存申請(qǐng)?jiān)试S;反之,內(nèi)存申請(qǐng)失敗。
? 1 表示內(nèi)核允許分配所有物理內(nèi)存,而不管當(dāng)前內(nèi)存狀態(tài)如何。
? 2 表示內(nèi)核允許分配查過(guò)所有物理內(nèi)存和交換空間總和的內(nèi)存。overcommit_ratio
? 如果overcommit_memory=2,可以過(guò)在內(nèi)存的百分比。page-cluster
? 表示在寫(xiě)一次到swap區(qū)時(shí)寫(xiě)入的頁(yè)面數(shù)量,0表示1頁(yè),3表示8頁(yè)。swapiness
? 表示系統(tǒng)進(jìn)行交換行為的成都,數(shù)值(0~100)越高,越可能發(fā)生磁盤(pán)交換。legacy_va_layout
? 表示是否使用最新的32位共享內(nèi)存mmap()系統(tǒng)調(diào)用。nr_hugepages
? 表示系統(tǒng)保留的hugetlg頁(yè)數(shù)。
?
第4章 內(nèi)存泄露
4.1 如何確定是否有內(nèi)存泄露
解決內(nèi)存泄露一個(gè)好方法就是:不要讓你的進(jìn)程成為一個(gè)守護(hù)進(jìn)程,完成工作后立刻退出,Linux會(huì)自動(dòng)回收該進(jìn)程所占有的內(nèi)存。
測(cè)試內(nèi)存泄露的兩種方法:
1.模仿用戶長(zhǎng)時(shí)間使用設(shè)備,查看內(nèi)存使用情況,對(duì)于那些內(nèi)存大量增長(zhǎng)的進(jìn)程,可以初步懷疑其有內(nèi)存泄露。
2.針對(duì)某個(gè)具體測(cè)試用例,檢查是否有內(nèi)存泄露。
在發(fā)現(xiàn)進(jìn)程有漏洞之后,看看如何在代碼中檢查內(nèi)存泄露。
4.2 mtrace
glibc針對(duì)內(nèi)存泄露給出一個(gè)鉤子函數(shù)mtrace:
1.加入頭文件<mcheck.h>
2.在需要內(nèi)存泄露檢查的代碼開(kāi)始調(diào)用void mtrace(),在需要內(nèi)存泄露檢查代碼結(jié)尾調(diào)用void muntrace()。如果不調(diào)用muntrace,程序自然結(jié)束后也會(huì)顯示內(nèi)存泄露
3.用debug模式編譯檢查代碼(-g或-ggdb)
4.在運(yùn)行程序前,先設(shè)置環(huán)境變量MALLOC_TRACE為一個(gè)文件名,這一文件將存有內(nèi)存分配信息
5.運(yùn)行程序,內(nèi)存分配的log將輸出到MALLOC_TRACE所執(zhí)行的文件中。
代碼如下:
| #include <stdio.h> int main(void) ? char *p=malloc(10); |
編譯,設(shè)置環(huán)境變量,執(zhí)行,查看log:
| gcc -o mem-leakage -g mem-leakage.c export MALLOC_TRACE=/home/lubaoquan/temp/malloc.og ./mem-leakage ? = Start |
加入mtrace會(huì)導(dǎo)致程序運(yùn)行緩慢:
1.日志需要寫(xiě)到Flash上(可以將MALLOC_TRACE顯示到stdout上。)
2.mtrace函數(shù)內(nèi),試圖根據(jù)調(diào)用malloc代碼指針,解析出對(duì)應(yīng)的函數(shù)
?
?
性能優(yōu)化是一個(gè)艱苦、持續(xù)、枯燥、反復(fù)的過(guò)程,涉及到的內(nèi)容非常多,編譯器優(yōu)化、硬件體系結(jié)構(gòu)、軟件的各種技巧等等。
另外在嵌入式電池供電系統(tǒng)上,性能的優(yōu)化也要考慮到功耗的使能。PnP的兩個(gè)P(Power and Performance)是不可分割的部分。
?
第5章 性能優(yōu)化的流程
5.1 性能評(píng)價(jià)
首先“快”與“慢”需要一個(gè)客觀的指標(biāo),同時(shí)明確定義測(cè)試階段的起訖點(diǎn)。
同時(shí)優(yōu)化也要考慮到可移植性以及普適性,不要因?yàn)閮?yōu)化過(guò)度導(dǎo)致其他問(wèn)題的出現(xiàn)。
5.2 性能優(yōu)化的流程
1. 測(cè)量,獲得數(shù)據(jù),知道和目標(biāo)性能指標(biāo)的差距。
2. 分析待優(yōu)化的程序,查找性能瓶頸。
3. 修改程序。
4. 重新測(cè)試,驗(yàn)證優(yōu)化結(jié)果。
5. 達(dá)到性能要求,停止優(yōu)化。不達(dá)目標(biāo),繼續(xù)分析。
?
5.3 性能評(píng)測(cè)?
介紹兩種方法:可視操作(攝像頭)和日志。
話說(shuō)攝像頭錄像評(píng)測(cè),還是很奇葩的,適用范圍很窄。但是貌似還是有一定市場(chǎng)。
5.4 性能分析
導(dǎo)致性能低下的三種主要原因:
(1) 程序運(yùn)算量很大,消耗過(guò)多CPU指令。
(2) 程序需要大量I/O,讀寫(xiě)文件、內(nèi)存操作等,CPU更多處于I/O等待。
(3) 程序之間相互等待,結(jié)果CPU利用率很低。
簡(jiǎn)單來(lái)說(shuō)即是CPU利用率高、I/O等待時(shí)間長(zhǎng)、死鎖情況。
下面重點(diǎn)放在第一種情況,提供三種方法。
1. 系統(tǒng)相關(guān):/proc/stat、/proc/loadavg
cat /proc/stat結(jié)果如下:
cpu 12311503 48889 7259266 561072284 575332 0 72910 0 0 0-----分別是user、nice、system、idle、iowait、irq、softirq、steal、guest、guest_niceuser:從系統(tǒng)啟動(dòng)開(kāi)始累計(jì)到當(dāng)前時(shí)刻,用戶態(tài)CPU時(shí)間,不包含nice值為負(fù)的進(jìn)程。nice:從系統(tǒng)啟動(dòng)開(kāi)始累計(jì)到當(dāng)前時(shí)刻,nice值為負(fù)的進(jìn)程所占用的CPU時(shí)間。system:從系統(tǒng)啟動(dòng)開(kāi)始累計(jì)到當(dāng)前時(shí)刻,內(nèi)核所占用的CPU時(shí)間。idle:從系統(tǒng)啟動(dòng)開(kāi)始累計(jì)到當(dāng)前時(shí)刻,除硬盤(pán)IO等待時(shí)間以外其他等待時(shí)間。iowait:從系統(tǒng)啟動(dòng)開(kāi)始累計(jì)到當(dāng)前時(shí)刻,硬盤(pán)IO等待時(shí)間。irq:從系統(tǒng)啟動(dòng)開(kāi)始累計(jì)到當(dāng)前時(shí)刻,硬中斷時(shí)間。softirq:從系統(tǒng)啟動(dòng)開(kāi)始累計(jì)到當(dāng)前時(shí)刻,軟中斷時(shí)間。steal:從系統(tǒng)啟動(dòng)開(kāi)始累計(jì)到當(dāng)前時(shí)刻,involuntary waitguest:running as a normal guestguest_nice:running as a niced guest
cpu0 3046879 11947 1729621 211387242 95062 0 1035 0 0 0 cpu1 3132086 8784 1788117 116767388 60010 0 535 0 0 0 cpu2 3240058 12964 1826822 116269699 353944 0 31989 0 0 0 cpu3 2892479 15192 1914705 116647954 66316 0 39349 0 0 0 intr 481552135 16 183 0 0 0 0 0 0 175524 37 0 0 2488 0 0 0 249 23 0 0 0 0 0 301 0 0 3499749 21 1470158 156 33589268 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -------------------Counts of interrupts services since boot time.Fist column is the total of all interrupts services, each subsequent if total for particular interrupt. ctxt 2345712926-------------------------------------------------Toal number of context switches performed since bootup accross all CPUs. btime 1510217813------------------------------------------------Give the time at which the system booted, in seconds since the Unix epoch. processes 556059------------------------------------------------Number of processes and threads created, include(but not limited to) those created by fork() or clone() system calls. procs_running 2-------------------------------------------------Current number of runnable threads procs_blocked 1-------------------------------------------------Current number of threads blocked, waiting for IO to complete. softirq 415893440 117 134668573 4001105 57050104 3510728 18 1313611 104047789 0 111301395---總softirq和各種類型softirq產(chǎn)生的中斷數(shù):HI_SOFTIRQ,TIMER_SOFTIRQ,NET_TX_SOFTIRQ,NET_RX_SOFTIRQ,BLOCK_SOFTIRQ,IRQ_POLL_SOFTIRQ,TASKLET_SOFTIRQ,SCHED_SOFTIRQ,HRTIMER_SOFTIRQ,RCU_SOFTIRQ, /* Preferable RCU should always be the last softirq */
?
由cpu的各種時(shí)間可以推導(dǎo)出:
CPU時(shí)間=user+nice+system+idle+iowait+irq+softirq+steal+guest+guest_nice
CPU利用率=1-idle/(user+nice+system+idle+iowait+irq+softirq+steal+guest+guest_nice)
CPU用戶態(tài)利用率=(user+nice)/(user+nice+system+idle+iowait+irq+softirq+steal+guest+guest_nice)
CPU內(nèi)核利用率=system/(user+nice+system+idle+iowait+irq+softirq+steal+guest+guest_nice)
IO利用率=iowait/(user+nice+system+idle+iowait+irq+softirq+steal+guest+guest_nice)
?
cat /proc/loadavg結(jié)果如下:
0.46 0.25 0.16 2/658 13300
?
1、5、15分鐘平均負(fù)載;
2/658:在采樣時(shí)刻,運(yùn)行隊(duì)列任務(wù)數(shù)目和系統(tǒng)中活躍任務(wù)數(shù)目。
13300:最大pid值,包括線程。
?
2. 進(jìn)程相關(guān):/proc/xxx/stat
24021 (atop) S 1 24020 24020 0 -1 4194560 6179 53 0 0 164 196 0 0 0 -20 1 0 209898810 19374080 1630 18446744073709551615 1 1 0 0 0 0 0 0 27137 0 0 0 17 1 0 0 0 0 0 0 0 0 0 0 0 0 0
?
?
3. top
top是最常用來(lái)監(jiān)控系統(tǒng)范圍內(nèi)進(jìn)程活動(dòng)的工具,提供運(yùn)行在系統(tǒng)上的與CPU關(guān)系最密切的進(jìn)程列表,以及很多統(tǒng)計(jì)值。
第6章 進(jìn)程啟動(dòng)速度
進(jìn)程啟動(dòng)可以分為兩部分:
(1) 進(jìn)程啟動(dòng),加載動(dòng)態(tài)庫(kù),直到main函數(shù)值錢(qián)。這是還沒(méi)有執(zhí)行到程序員編寫(xiě)的代碼,其性能優(yōu)化有其特殊方法。
(2) main函數(shù)之后,直到對(duì)用戶的操作有所響應(yīng)。涉及到自身編寫(xiě)代碼的優(yōu)化,在7、8章介紹。
6.1 查看進(jìn)程的啟動(dòng)過(guò)程
hello源碼如下:
#include <stdio.h>
#include <stdlib.h>int main()
{printf("Hello world!\n");return 0;
}
編譯:
gcc -o hello -O2 hello.c
strace用于查看系統(tǒng)運(yùn)行過(guò)程中系統(tǒng)調(diào)用,同時(shí)得知進(jìn)程在加載動(dòng)態(tài)庫(kù)時(shí)的大概過(guò)程,-tt可以打印微妙級(jí)別時(shí)間戳。
strace -tt ./hello如下:
20:15:10.185596 execve("./hello", ["./hello"], [/* 82 vars */]) = 0
20:15:10.186087 brk(NULL) = 0x19ad000
20:15:10.186206 access("/etc/ld.so.nohwcap", F_OK) = -1 ENOENT (No such file or directory)
20:15:10.186358 mmap(NULL, 8192, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f24710ea000
20:15:10.186462 access("/etc/ld.so.preload", R_OK) = -1 ENOENT (No such file or directory)
20:15:10.186572 open("/etc/ld.so.cache", O_RDONLY|O_CLOEXEC) = 3
20:15:10.186696 fstat(3, {st_mode=S_IFREG|0644, st_size=121947, ...}) = 0
20:15:10.186782 mmap(NULL, 121947, PROT_READ, MAP_PRIVATE, 3, 0) = 0x7f24710cc000
20:15:10.186857 close(3) = 0
20:15:10.186975 access("/etc/ld.so.nohwcap", F_OK) = -1 ENOENT (No such file or directory)
20:15:10.187074 open("/lib/x86_64-linux-gnu/libc.so.6", O_RDONLY|O_CLOEXEC) = 3
20:15:10.187153 read(3, "\177ELF\2\1\1\3\0\0\0\0\0\0\0\0\3\0>\0\1\0\0\0P\t\2\0\0\0\0\0"..., 832) = 832----------------libc.so.6文件句柄3,大小832。
20:15:10.187270 fstat(3, {st_mode=S_IFREG|0755, st_size=1868984, ...}) = 0
20:15:10.187358 mmap(NULL, 3971488, PROT_READ|PROT_EXEC, MAP_PRIVATE|MAP_DENYWRITE, 3, 0) = 0x7f2470afd000
20:15:10.187435 mprotect(0x7f2470cbd000, 2097152, PROT_NONE) = 0
20:15:10.187558 mmap(0x7f2470ebd000, 24576, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_FIXED|MAP_DENYWRITE, 3, 0x1c0000) = 0x7f2470ebd000---參數(shù)依次是:addr、length、prot、flags、fd、offset。
20:15:10.187662 mmap(0x7f2470ec3000, 14752, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_FIXED|MAP_ANONYMOUS, -1, 0) = 0x7f2470ec3000
20:15:10.187749 close(3) = 0
20:15:10.187887 mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f24710cb000
20:15:10.187992 mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f24710ca000
20:15:10.188072 mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f24710c9000
20:15:10.188191 arch_prctl(ARCH_SET_FS, 0x7f24710ca700) = 0--------------------------------set architecture-specific thread state, the parameters are code and addr。
20:15:10.188334 mprotect(0x7f2470ebd000, 16384, PROT_READ) = 0
20:15:10.188419 mprotect(0x600000, 4096, PROT_READ) = 0
20:15:10.188541 mprotect(0x7f24710ec000, 4096, PROT_READ) = 0
20:15:10.188633 munmap(0x7f24710cc000, 121947) = 0
20:15:10.188785 fstat(1, {st_mode=S_IFCHR|0620, st_rdev=makedev(136, 2), ...}) = 0
20:15:10.188965 brk(NULL) = 0x19ad000
20:15:10.189158 brk(0x19ce000) = 0x19ce000
20:15:10.189243 write(1, "Hello world!\n", 13Hello world!-----------------------------------往句柄1寫(xiě)13個(gè)字符Hello world!\n。
) = 13
20:15:10.189299 exit_group(0) = ?
20:15:10.189387 +++ exited with 0 +++
?通過(guò)設(shè)置LD_DEBUG環(huán)境變量,可以打印出在進(jìn)程加載過(guò)程中都做了那些事情:
LD_DEBUG=all ./hello如下。看似簡(jiǎn)單的一個(gè)Hello world!,其系統(tǒng)已經(jīng)做了很多準(zhǔn)備工作。
13755: 13755: file=libc.so.6 [0]; needed by ./hello [0]----------(1) 搜索其所依賴的動(dòng)態(tài)庫(kù)。13755: find library=libc.so.6 [0]; searching13755: search cache=/etc/ld.so.cache13755: trying file=/lib/x86_64-linux-gnu/libc.so.613755: 13755: file=libc.so.6 [0]; generating link map13755: dynamic: 0x00007fbac5cedba0 base: 0x00007fbac592a000 size: 0x00000000003c99a013755: entry: 0x00007fbac594a950 phdr: 0x00007fbac592a040 phnum: 1013755: 13755: checking for version `GLIBC_2.2.5' in file /lib/x86_64-linux-gnu/libc.so.6 [0] required by file ./hello [0]13755: checking for version `GLIBC_2.3' in file /lib64/ld-linux-x86-64.so.2 [0] required by file /lib/x86_64-linux-gnu/libc.so.6 [0]13755: checking for version `GLIBC_PRIVATE' in file /lib64/ld-linux-x86-64.so.2 [0] required by file /lib/x86_64-linux-gnu/libc.so.6 [0]13755: 13755: Initial object scopes------------------------------(2) 加載動(dòng)態(tài)庫(kù)。13755: object=./hello [0]13755: scope 0: ./hello /lib/x86_64-linux-gnu/libc.so.6 /lib64/ld-linux-x86-64.so.2 13755: object=linux-vdso.so.1 [0]
13755: scope 0: ./hello /lib/x86_64-linux-gnu/libc.so.6 /lib64/ld-linux-x86-64.so.213755: scope 1: linux-vdso.so.113755: 13755: object=/lib/x86_64-linux-gnu/libc.so.6 [0]13755: scope 0: ./hello /lib/x86_64-linux-gnu/libc.so.6 /lib64/ld-linux-x86-64.so.213755: 13755: object=/lib64/ld-linux-x86-64.so.2 [0]13755: no scope13755: 13755: 13755: relocation processing: /lib/x86_64-linux-gnu/libc.so.6 (lazy)13755: symbol=_res; lookup in file=./hello [0]13755: symbol=_res; lookup in file=/lib/x86_64-linux-gnu/libc.so.6 [0]13755: binding file /lib/x86_64-linux-gnu/libc.so.6 [0] to /lib/x86_64-linux-gnu/libc.so.6 [0]: normal symbol `_res' [GLIBC_2.2.5] ...13755: symbol=__vdso_time; lookup in file=linux-vdso.so.1 [0]13755: binding file linux-vdso.so.1 [0] to linux-vdso.so.1 [0]: normal symbol `__vdso_time' [LINUX_2.6]13755: symbol=__vdso_gettimeofday; lookup in file=linux-vdso.so.1 [0]13755: binding file linux-vdso.so.1 [0] to linux-vdso.so.1 [0]: normal symbol `__vdso_gettimeofday' [LINUX_2.6]13755: 13755: relocation processing: ./hello (lazy)13755: symbol=__gmon_start__; lookup in file=./hello [0]13755: symbol=__gmon_start__; lookup in file=/lib/x86_64-linux-gnu/libc.so.6 [0]13755: symbol=__gmon_start__; lookup in file=/lib64/ld-linux-x86-64.so.2 [0] ...13755: 13755: calling init: /lib/x86_64-linux-gnu/libc.so.6--------(3) 初始化動(dòng)態(tài)庫(kù)。13755: 13755: symbol=__vdso_clock_gettime; lookup in file=linux-vdso.so.1 [0]13755: binding file linux-vdso.so.1 [0] to linux-vdso.so.1 [0]: normal symbol `__vdso_clock_gettime' [LINUX_2.6]13755: symbol=__vdso_getcpu; lookup in file=linux-vdso.so.1 [0]13755: binding file linux-vdso.so.1 [0] to linux-vdso.so.1 [0]: normal symbol `__vdso_getcpu' [LINUX_2.6]13755: symbol=__libc_start_main; lookup in file=./hello [0]13755: symbol=__libc_start_main; lookup in file=/lib/x86_64-linux-gnu/libc.so.6 [0]13755: binding file ./hello [0] to /lib/x86_64-linux-gnu/libc.so.6 [0]: normal symbol `__libc_start_main' [GLIBC_2.2.5]13755: 13755: initialize program: ./hello--------------------------(4) 初始化進(jìn)程。13755: 13755: 13755: transferring control: ./hello------------------------(5) 將程序的控制權(quán)交給main函數(shù)。13755: 13755: symbol=puts; lookup in file=./hello [0]13755: symbol=puts; lookup in file=/lib/x86_64-linux-gnu/libc.so.6 [0]13755: binding file ./hello [0] to /lib/x86_64-linux-gnu/libc.so.6 [0]: normal symbol `puts' [GLIBC_2.2.5]13755: symbol=_dl_find_dso_for_object; lookup in file=./hello [0]13755: symbol=_dl_find_dso_for_object; lookup in file=/lib/x86_64-linux-gnu/libc.so.6 [0]13755: symbol=_dl_find_dso_for_object; lookup in file=/lib64/ld-linux-x86-64.so.2 [0]13755: binding file /lib/x86_64-linux-gnu/libc.so.6 [0] to /lib64/ld-linux-x86-64.so.2 [0]: normal symbol `_dl_find_dso_for_object' [GLIBC_PRIVATE] Hello world!-------------------------------------------------------(6) 執(zhí)行用戶程序。13755: 13755: calling fini: ./hello [0]---------------------------(7) 執(zhí)行去初始化動(dòng)作。
?
6.2 減少加載動(dòng)態(tài)庫(kù)的數(shù)量
正如《Systems Performance》所說(shuō)的,最好的優(yōu)化就是取出不必要的工作。
(1) 將一些無(wú)用的動(dòng)態(tài)庫(kù)去掉。
(2) 重新組織動(dòng)態(tài)庫(kù)的結(jié)構(gòu),力爭(zhēng)將進(jìn)程加載動(dòng)態(tài)庫(kù)的數(shù)量減到最小。
(3) 將一些動(dòng)態(tài)庫(kù)編譯成靜態(tài)庫(kù),與進(jìn)程或其他動(dòng)態(tài)庫(kù)合并。
優(yōu)點(diǎn)是:
- 減少了加載動(dòng)態(tài)庫(kù)的數(shù)量。
- 在與其他動(dòng)態(tài)庫(kù)合并之后,動(dòng)態(tài)庫(kù)內(nèi)部之間的函數(shù)調(diào)用不必再進(jìn)行符號(hào)查找、動(dòng)態(tài)鏈接。
缺點(diǎn)是:
- 如果被其他進(jìn)程或動(dòng)態(tài)庫(kù)依賴,則會(huì)導(dǎo)致被復(fù)制多份,占用更多空間。
- 失去了代碼段內(nèi)存共享,導(dǎo)致內(nèi)存使用增加。
- 由于被多個(gè)進(jìn)程使用,導(dǎo)致page fault增多,進(jìn)而影響加載速度。
因此,對(duì)于只被很少進(jìn)程加載的動(dòng)態(tài)庫(kù),將其編譯成靜態(tài)庫(kù),減少進(jìn)程啟動(dòng)時(shí)加載動(dòng)態(tài)庫(kù)的數(shù)量。對(duì)于那些守護(hù)使用的動(dòng)態(tài)庫(kù),代碼段大多已經(jīng)被加載到內(nèi)存,運(yùn)行時(shí)產(chǎn)生的page fault要少,因此動(dòng)態(tài)庫(kù)反而要比靜態(tài)庫(kù)速度更快。
(4) 使用dlopen動(dòng)態(tài)加載動(dòng)態(tài)庫(kù)。可以精確控制動(dòng)態(tài)庫(kù)的生存周期,一方面可以減少動(dòng)態(tài)庫(kù)數(shù)據(jù)段的內(nèi)存使用,另一方面可以減少進(jìn)程啟動(dòng)時(shí)加載動(dòng)態(tài)庫(kù)的時(shí)間。
6.3 共享庫(kù)的搜索路徑
在進(jìn)程加載動(dòng)態(tài)庫(kù)是,loader要從很多路徑搜索動(dòng)態(tài)庫(kù),搜索順序是:DT_NEED-->DT_RPATH-->LD_LIBRARY_PATH-->LD_RUNPATH-->ld.so.conf-->/lib /usr/lib。
DT_RPATH和LD_RUNPATH是程序編譯時(shí)加的選項(xiàng),使用-rpath來(lái)設(shè)置DT_RPATH。
還存在一種比DT_RPATH更高優(yōu)先級(jí)的目錄搜索機(jī)制HWCAP。HWCAP是為了支持系統(tǒng)根據(jù)不同的硬件特性,道不同的目錄去搜索動(dòng)態(tài)庫(kù)。
可以通過(guò)屏蔽LD_HWCAP_MASK減少搜索路徑。
export LD_HWCAP_MASK=0X00000000
?
6.4 動(dòng)態(tài)庫(kù)的高度
依據(jù)動(dòng)態(tài)庫(kù)之間的依賴關(guān)系,從當(dāng)前動(dòng)態(tài)庫(kù)到最底層動(dòng)態(tài)庫(kù)之間的最長(zhǎng)路徑,成為該動(dòng)態(tài)庫(kù)的高度。
降低動(dòng)態(tài)庫(kù)的高度,有利于提高加載時(shí)間。
6.5 動(dòng)態(tài)庫(kù)的初始化
在loader完成對(duì)動(dòng)態(tài)庫(kù)的內(nèi)存應(yīng)設(shè)置后,需要運(yùn)行動(dòng)態(tài)庫(kù)的一些初始化函數(shù),來(lái)完成設(shè)置動(dòng)態(tài)庫(kù)的一些基本環(huán)境。包括兩部分:
(1) 動(dòng)態(tài)庫(kù)的構(gòu)造和析構(gòu)函數(shù)機(jī)制
首先構(gòu)造三個(gè)文件hello.c、hello.h、main.c。
===========hello.c============
#include <stdio.h>void __attribute__ ((constructor)) my_init(void)
{printf("constructor\n");;
}void __attribute__ ((destructor)) my_finit(void)
{printf("destructor\n");;
}void hello(const char *name)
{printf("Hello %s!\n", name);
}===========hello.h============
#ifndef HELLO_H#define HELLO_Hvoid hello(const char *name);#endif //HELLO_H
===========main.c============
#include "hello.h"int main(){hello("everyone");return 0;}
?
然后編譯庫(kù)(gcc -fPIC -shared -o libmyhello.so hello.c)、拷貝庫(kù)到系統(tǒng)lib目錄(sudo cp ?libmyhello.so /usr/lib)、編譯執(zhí)行文件(gcc -o hello main.c -L./ -lmyhello)。
執(zhí)行./hello結(jié)果如下:
constructor Hello everyone! destructor
?
(2) 動(dòng)態(tài)庫(kù)的全局變量初始化工作
在C語(yǔ)言中,全局變量保存在.data段。再啟動(dòng)過(guò)程中,loader只是簡(jiǎn)單地使用mmap將數(shù)據(jù)段映射到dirty page,這些變量只有在第一次使用到的時(shí)候才會(huì)為其分配物理內(nèi)存。
從優(yōu)化的角度來(lái)講,要盡量減少全局對(duì)象的使用。
6.6 動(dòng)態(tài)鏈接
?首先給一段代碼,基于此看看動(dòng)態(tài)鏈接的過(guò)程。
#include <stdio.h>int main()
{printf("hello\n");return 0;
}
?
printf是glibc中定義,采用動(dòng)態(tài)庫(kù),在程序編譯階段,編譯器無(wú)法得知printf函數(shù)地址。
在程序運(yùn)行時(shí),當(dāng)調(diào)用printf的時(shí)候,程序會(huì)將處理權(quán)交給linker,由其負(fù)責(zé)在執(zhí)行文件以及其連接的動(dòng)態(tài)庫(kù)中查找printf函數(shù)地址。
由于linker不知道printf具體在哪個(gè)動(dòng)態(tài)庫(kù),所以將在整個(gè)執(zhí)行文件和動(dòng)態(tài)庫(kù)范圍內(nèi)查找。
26221: 26221: runtime linker statistics:26221: total startup time in dynamic loader: 703291 cycles26221: time needed for relocation: 188666 cycles (26.8%)26221: number of relocations: 7726221: number of relocations from cache: 326221: number of relative relocations: 119926221: time needed to load objects: 325593 cycles (46.2%) hello26221: 26221: runtime linker statistics:26221: final number of relocations: 8226221: final number of relocations from cache: 3
?
可以看出及時(shí)簡(jiǎn)單打印hello,在啟動(dòng)過(guò)程中查找、鏈接了很多符號(hào),耗費(fèi)了大量cpu cycle。
優(yōu)化的方法:
(1) 減少導(dǎo)出符號(hào)的數(shù)量
通過(guò)去掉那些動(dòng)態(tài)庫(kù)中不必導(dǎo)出的符號(hào),從而減少動(dòng)態(tài)庫(kù)在做鏈接時(shí)所查找的符號(hào)的數(shù)量,可以加快動(dòng)態(tài)鏈接的速度。
(2) 減少符號(hào)的長(zhǎng)度
在做符號(hào)鏈接時(shí),linker將做字符串的匹配,符號(hào)名字越長(zhǎng),其查找匹配的時(shí)間越長(zhǎng)。
(3) 使用prelink
如果動(dòng)態(tài)庫(kù)在編譯的時(shí)候就能確定運(yùn)行時(shí)的加載地址,那么動(dòng)態(tài)庫(kù)函數(shù)調(diào)用的地址就應(yīng)該是已知的,在進(jìn)程運(yùn)行的時(shí)候就沒(méi)有必要再進(jìn)行符號(hào)的查找和鏈接,從而節(jié)省進(jìn)程的啟動(dòng)時(shí)間。
?
6.7 提高進(jìn)程啟動(dòng)速度
1. 將進(jìn)程改為線程
2. prefork進(jìn)程
3. preload進(jìn)程
4. 提前加載,延后退出
5. 調(diào)整CPU的頻率
總體來(lái)講,優(yōu)化進(jìn)程的啟動(dòng)速度的順序?yàn)?#xff1a;
(1) 優(yōu)化動(dòng)態(tài)庫(kù)的搜索路徑
(2) 檢查進(jìn)程中是否有無(wú)用的動(dòng)態(tài)庫(kù)
(3) 減少進(jìn)程或所依賴動(dòng)態(tài)庫(kù)的全局對(duì)象的數(shù)量
(4) 使用prelink,預(yù)先鏈接進(jìn)程的動(dòng)態(tài)庫(kù)
(5) 考慮重新組織動(dòng)態(tài)庫(kù),爭(zhēng)取減少進(jìn)程加載動(dòng)態(tài)庫(kù)的數(shù)量
(6) 考慮使用dlopen,將一起啟動(dòng)時(shí)不需要的動(dòng)態(tài)庫(kù)從進(jìn)程的依賴動(dòng)態(tài)庫(kù)中去除
如果仍然無(wú)法滿足要求,可以采用調(diào)度的方法:
(1) 進(jìn)程改為線程
(2) preload進(jìn)程
(3) 提前加載、延遲退出。
6.8 進(jìn)程冷起與熱起的區(qū)別
在程序第一次啟動(dòng)(冷起)退出后,再次啟動(dòng)速度明顯比第一次快,為什么呢?
在程序第一次啟動(dòng)、退出后,進(jìn)程雖然被銷毀了,但是進(jìn)程代碼段所占用的物理內(nèi)存并沒(méi)有被銷毀;而是被Linux緩存起來(lái),保存在Cache中。
這樣程序再次啟動(dòng)時(shí),指令不必再?gòu)腇lash讀到內(nèi)存中,而是直接使用Linux內(nèi)核中的Cache,減少了程序啟動(dòng)過(guò)程中所產(chǎn)生的page fault,從而加快了進(jìn)程的啟動(dòng)速度。
在進(jìn)程啟動(dòng)過(guò)程中:
(1) ?進(jìn)程冷起時(shí),如果運(yùn)行的指令較多,則出現(xiàn)的page fault較多,影響進(jìn)程的啟動(dòng)速度。
(2) 進(jìn)程所依賴的某些動(dòng)態(tài)庫(kù)可能已經(jīng)被一些守護(hù)進(jìn)程所加載,其代碼段已經(jīng)在內(nèi)存中,故這種動(dòng)態(tài)庫(kù)對(duì)進(jìn)程的冷起和熱起性能影響不大。
(3) 沒(méi)有被其他進(jìn)程使用過(guò)的動(dòng)態(tài)庫(kù),在冷起時(shí)則會(huì)產(chǎn)生page fault影響進(jìn)程的啟動(dòng)速度。
??
第7章 性能優(yōu)化的方法
程序優(yōu)化!=編碼技巧
編碼技巧是程序優(yōu)化的一部分;程序優(yōu)化涉及到硬件架構(gòu)、程序架構(gòu)、邏輯設(shè)計(jì)等,還有一點(diǎn)如何確定代碼瓶頸位置很重要。
7.1 尋找程序熱點(diǎn)
1. gprof
#include <stdio.h>void funca()
{int i = 0, n = 0;for(i=0; i<10000000; i++){n++;n--;}
}void funcb()
{int i = 0, n = 0;for(i=0; i<10000000; i++){n++;n--;}
}int main()
{int i=0;for(i=0;i<10;i++){funca();}funcb();return 0;
}
?
然后編譯(gcc performance.c -pg -o performance)、運(yùn)行(./performance)、查看結(jié)果(gprof performance gmon.out -q -p)。
gprof performance gmon.out -pFlat profile:Each sample counts as 0.01 seconds.% cumulative self self total time seconds seconds calls ms/call ms/call name 91.95 0.40 0.40 10 40.46 40.46 funca9.20 0.45 0.04 1 40.46 40.46 funcb=========================================gprof performance gmon.out -qCall graph (explanation follows)granularity: each sample hit covers 2 byte(s) for 2.25% of 0.45 secondsindex % time self children called name<spontaneous> [1] 100.0 0.00 0.45 main [1]0.40 0.00 10/10 funca [2]0.04 0.00 1/1 funcb [3] -----------------------------------------------0.40 0.00 10/10 main [1] [2] 90.9 0.40 0.00 10 funca [2] -----------------------------------------------0.04 0.00 1/1 main [1] [3] 9.1 0.04 0.00 1 funcb [3] -----------------------------------------------
?
2. oprofile
7.2 程序邏輯瓶頸
oprofile只能有助于發(fā)現(xiàn)熱點(diǎn),但是對(duì)程序熱點(diǎn)與代碼邏輯對(duì)應(yīng)關(guān)系無(wú)法對(duì)應(yīng),因此不能定位由邏輯問(wèn)題所造成的瓶頸。
可以通過(guò)添加日志的方法來(lái)確定不同邏輯部分耗時(shí)。進(jìn)而找出邏輯問(wèn)題。
PS:這里作者講到的日志多造成的副作用,在動(dòng)態(tài)log,和可以添加filter的log中是不存在的。
7.3 優(yōu)化的層次
1. 針對(duì)某一特定事例的優(yōu)化,考慮使用oprofile,查找熱點(diǎn),進(jìn)行優(yōu)化。主要以擴(kuò)及優(yōu)化為主、程序熱點(diǎn)函數(shù)優(yōu)化為輔。
2. 系統(tǒng)整體性能的提高,分兩層:業(yè)務(wù)邏輯的優(yōu)化和底層基礎(chǔ)函數(shù)性能優(yōu)化。
上層業(yè)務(wù)邏輯優(yōu)化:重點(diǎn)在于邏輯的調(diào)整、算法的優(yōu)化。
底層基礎(chǔ)函數(shù)游湖:重點(diǎn)在于代碼的寫(xiě)作技巧。
7.4 何時(shí)開(kāi)始性能優(yōu)化
?(1) 在需求階段,就要把性能指標(biāo)定義下來(lái)。
?(2) 在軟件設(shè)計(jì)階段,要考慮這些性能指標(biāo),根據(jù)指標(biāo)來(lái)考慮程序所使用的算法、邏輯,在這個(gè)階段考慮邏輯上的優(yōu)化。
?(3) 在軟件功能基本完成后,一方面軟件的邏輯要做一些細(xì)微調(diào)整,另一方面要開(kāi)始使用oprofile之類的工具查找熱點(diǎn)函數(shù),對(duì)熱點(diǎn)函數(shù)做代碼優(yōu)化。
7.5 如何推動(dòng)系統(tǒng)性能優(yōu)化
?(1) 需要找出一些關(guān)鍵的步驟,這些步驟性能直接影響著用戶使用體驗(yàn)。
?(2) 為這些關(guān)鍵的過(guò)程定義相應(yīng)的性能指標(biāo)。
?(3) 在定義性能指標(biāo)后,需要測(cè)試現(xiàn)系統(tǒng),看看各個(gè)過(guò)程和目標(biāo)性能之間的差距。
?(4) 拿到結(jié)果之后嗎,需要和相應(yīng)開(kāi)發(fā)團(tuán)隊(duì)談判,要求其優(yōu)化代碼。
?當(dāng)優(yōu)化任務(wù) 陷入僵局的時(shí)候,要求相應(yīng)團(tuán)隊(duì)出具兩份報(bào)告:一,從程序邏輯考慮,程序都做了哪些事情,每個(gè)事情花了多少時(shí)間,主要算法是什么;二,這個(gè)過(guò)程中oprofile報(bào)告,包括每個(gè)函數(shù)執(zhí)行時(shí)間占比。查看前幾名函數(shù)邏輯上是否合理;對(duì)于前幾名函數(shù),檢查其從算法實(shí)現(xiàn)到代碼優(yōu)化層次是否能夠進(jìn)行優(yōu)化。
(5) 在各個(gè)團(tuán)隊(duì)優(yōu)化完代碼之后,返回流程(3)從新測(cè)試性能。如沒(méi)有達(dá)標(biāo),繼續(xù)3~5過(guò)程。
7.6 為什么軟件性能會(huì)低下
7.7 程序邏輯優(yōu)化
?5個(gè)程序優(yōu)化的思路:
(1) Do it faster:找到最有效率的方法,來(lái)提高程序的運(yùn)行速度。
(2) Do it in parallel:并行加快執(zhí)行速度。
(3) Do it later:不必要的功能,可以考慮延后執(zhí)行,騰出資源做重要的事。
(4) Don't do it at all:最好的優(yōu)化就是不做事。
(5) Do it before:把一些工作空閑時(shí)預(yù)先完成。
?
第8章 代碼優(yōu)化的境界
?從高級(jí)語(yǔ)言C/C++,到指令在系統(tǒng)上運(yùn)行,分兩個(gè)階段:
(1) 編譯器將C/C++轉(zhuǎn)變成可以在系統(tǒng)上運(yùn)行的機(jī)器指令。編譯器會(huì)對(duì)代碼進(jìn)行優(yōu)化,優(yōu)化后的機(jī)器指令可能與編寫(xiě)的代碼有較大差異。
(2) 機(jī)器指令在不同硬件上執(zhí)行,與體系結(jié)構(gòu)、執(zhí)行環(huán)境有密切關(guān)系。
所以優(yōu)化代碼有兩個(gè)境界:從代碼看到編譯器優(yōu)化后產(chǎn)生的匯編指令;根據(jù)芯片組特性,能看到匯編語(yǔ)言在硬件中執(zhí)行狀態(tài),比如流水線使用情況、緩存命中率等等。
?
8.1 GCC編譯優(yōu)化
8.1.1 條件編譯
通過(guò)宏來(lái)降低條件判斷等操作,提高效率。
gcc -DXXX
8.1.2 指定CPU的型號(hào)
gcc -mcpu=XXX,是編譯出來(lái)的代碼能夠充分利用硬件平臺(tái)的特點(diǎn),加快程序的執(zhí)行速度。
8.1.3 builtin函數(shù)
GCC提供一些builtin函數(shù)來(lái)完成一些特殊功能。
(1) void *__builtin_apply_args(void);
(1) void *__builtin_apply(void (*func)(), void *arguments, int size);
(1) void *__builtin_return(void ?*result);
GCC網(wǎng)站http://gcc.gnu.org/onlinedocs/提供了builtin詳細(xì)信息。
8.1.4 GCC編譯優(yōu)化
-O0 關(guān)閉編譯器優(yōu)化
-O/-O1 增加了一些GCC優(yōu)化代碼選項(xiàng)
-O2 除了完成所有-O1級(jí)別的優(yōu)化之外,增加了比如處理器指令調(diào)度等。
-O3 除了完成所有-O2級(jí)別的優(yōu)化之外,增加了循環(huán)展開(kāi)和其他一些處理器特性相關(guān)優(yōu)化工作。
8.2 優(yōu)化基本原則
8.3 標(biāo)準(zhǔn)C代碼優(yōu)化
8.4 C++代碼優(yōu)化
8.5 硬件相關(guān)的優(yōu)化
?
第9章 系統(tǒng)性能優(yōu)化
9.1 Shell腳本優(yōu)化
9.1.1 Shell腳本優(yōu)化
在嵌入式Linux中,bash腳本占很大比重。優(yōu)化shell有助于縮短系統(tǒng)啟動(dòng)時(shí)間,加快進(jìn)程的執(zhí)行速度。
在Linux bash shell一般由Busybox實(shí)現(xiàn),命令主要被分為兩大類:built-ins和applets。
Built-ins只是簡(jiǎn)單的函數(shù)調(diào)用,而applets則意味著需要調(diào)用"fork/exec"創(chuàng)建子進(jìn)程來(lái)執(zhí)行,并且busybox也可以使用外部命令。
處于性能考慮,應(yīng)使用built-ins來(lái)代替applets和外部命令。
輸入busybox,可以看到支持的所有功能。
include/applets.h中,定義了BusyBox支持的所有功能。
docs/nofork_noexec.txt中,說(shuō)明了built-ins和applets的區(qū)別。
applets.h定義功能的時(shí)候,也定義了類型,分類如下:
(1) APPLET:即applets,創(chuàng)建一個(gè)子進(jìn)程,然后調(diào)用exec執(zhí)行相應(yīng)的功能,執(zhí)行完畢后,返還控制給父進(jìn)程。
(2) APPLET_NOUSAGE:BusyBox中不包含該命令的幫助文檔。
(3) APPLET_NOEXEC:調(diào)用fork創(chuàng)建子進(jìn)程,然后執(zhí)行BusyBox對(duì)應(yīng)功能,執(zhí)行完畢后,返回控制給父進(jìn)程。
(4) APPLET_NOFORK:相當(dāng)于built-ins,只執(zhí)行BusyBox內(nèi)部函數(shù),不創(chuàng)建子進(jìn)程,效率最高。
9.1.2 bash腳本
包含在pipe中的built-ins將創(chuàng)建子進(jìn)程來(lái)執(zhí)行。
包含在'中的命令將創(chuàng)建子進(jìn)程來(lái)執(zhí)行。
對(duì)bash腳本進(jìn)行優(yōu)化時(shí),要盡量避免fork進(jìn)程。
9.1.3 如何優(yōu)化busybox bansh腳本
(1) 去掉腳本中無(wú)用的代碼
(2) 盡可能使用busybox中的built-ins替換外部命令
printf "Starting" --> echo "Starting"
(3) 盡可能不使用pipe
(4) 減少pipe中的命令數(shù)
(5) 盡可能不適用"'"
更多方法參考:Optimize RC Scripts
9.2 使用preload預(yù)先加載進(jìn)程
在系統(tǒng)比較空閑時(shí),通過(guò)將特定程序的代碼從Flash加載到Cache,加快進(jìn)程執(zhí)行速度。
能否控制在Cache內(nèi)存回收時(shí),對(duì)某些關(guān)鍵進(jìn)程所占用的Cache盡量少回收,加大某一進(jìn)程Cache內(nèi)存數(shù)量。
Linux有一個(gè)開(kāi)源項(xiàng)目preload,就是利用控制Linux中的cache,來(lái)加快進(jìn)程的啟動(dòng)速度。
類似的技術(shù)有prelink和readahead
9.3 調(diào)整進(jìn)程的優(yōu)先級(jí)
?在Linux內(nèi)核中,支持兩種進(jìn)程:實(shí)時(shí)進(jìn)程和普通進(jìn)程。
(1) 實(shí)時(shí)進(jìn)程
實(shí)時(shí)進(jìn)程的優(yōu)先級(jí)是靜態(tài)設(shè)定的,只有當(dāng)運(yùn)行隊(duì)列沒(méi)有實(shí)時(shí)進(jìn)程的情況下,普通進(jìn)程才能夠獲得調(diào)度。
實(shí)時(shí)進(jìn)程采用兩種調(diào)度策略:SCHED_FIFO和SCHED_RR。
FIFO采用先進(jìn)先出的策略,對(duì)于所有相同優(yōu)先級(jí)的進(jìn)程,最先進(jìn)入runqueue的進(jìn)程總能優(yōu)先獲得調(diào)度;Round Robin采用更加公平的輪轉(zhuǎn)策略,使得相同優(yōu)先級(jí)的實(shí)時(shí)進(jìn)程能夠輪流獲得調(diào)度。
對(duì)于實(shí)時(shí)進(jìn)程來(lái)講,使用絕對(duì)優(yōu)先級(jí)概念,絕對(duì)優(yōu)先級(jí)取值范圍是0~99,數(shù)字越大,優(yōu)先級(jí)越高。
(2) 普通進(jìn)程
Linux 2.6普通進(jìn)程的絕對(duì)優(yōu)先級(jí)取值是0,普通進(jìn)程有靜態(tài)優(yōu)先級(jí)和動(dòng)態(tài)優(yōu)先級(jí)之分。
可以通過(guò)nice修改進(jìn)程的靜態(tài)優(yōu)先級(jí)。
系統(tǒng)在運(yùn)行過(guò)程中,在靜態(tài)優(yōu)先級(jí)基礎(chǔ)上,不斷動(dòng)態(tài)計(jì)算出每個(gè)進(jìn)程的動(dòng)態(tài)優(yōu)先級(jí),擁有最高優(yōu)先級(jí)的進(jìn)程被調(diào)度器選中。
動(dòng)態(tài)優(yōu)先級(jí)計(jì)算公式:動(dòng)態(tài)優(yōu)先級(jí)=max(100,min(靜態(tài)優(yōu)先級(jí)-bonus+5,139))
bonus取決于進(jìn)程的平均睡眠時(shí)間。
對(duì)實(shí)時(shí)進(jìn)程設(shè)置通過(guò)如下函數(shù)進(jìn)行:
#include <sched.h> int sched_setscheduler(pid_t pid, int policy, const struct sched_param *param); int sched_getscheduler(pid_t pid); int sched_setparam(pid_t pid, const struct sched_param *param); int sched_getparam(pid_t pid, const struct sched_param *param);
?
pid:指定所要設(shè)置的進(jìn)程號(hào),pid為0,表示為當(dāng)前進(jìn)程。
policy:設(shè)置進(jìn)程調(diào)度策略,SCHED_OTHER/SCHED_FIFO/SCHED_RR。
param:設(shè)置進(jìn)程的絕對(duì)優(yōu)先級(jí),范圍是0~99。
?
對(duì)普通進(jìn)程來(lái)講,絕對(duì)優(yōu)先級(jí)為0,通過(guò)nice來(lái)影響進(jìn)程的調(diào)度。
nice取值-20~19,可以通過(guò)setpriority來(lái)設(shè)置普通進(jìn)程優(yōu)先級(jí)。
#include <sys/resource.h> int setpriority(int class, int id, int niceval);
?
class:PRIO_PROCESS/PRIO_PGRP/PRIO_USER。
niceval:為進(jìn)程nice值,-20~19。
?
對(duì)實(shí)時(shí)線程操作,使用pthread_setschedparam;對(duì)普通線程,仍然可以使用setpriority和nice來(lái)調(diào)整線程優(yōu)先級(jí)。
9.4 讓進(jìn)程運(yùn)行的慢一些
?對(duì)于某些沒(méi)有時(shí)限要求的進(jìn)程,可以降低運(yùn)行速度。
(1) 降低進(jìn)程優(yōu)先級(jí)。
(2) 增加一些代碼來(lái)控制Linux中進(jìn)程的調(diào)度,如sched_yield自愿放棄CPU,進(jìn)程仍然處于TASK_RUNNING狀態(tài),但調(diào)度器把它放在運(yùn)行隊(duì)列鏈表的末尾。
9.5 守護(hù)進(jìn)程的數(shù)量
?守護(hù)進(jìn)程占用大量動(dòng)態(tài)庫(kù)代碼段和數(shù)據(jù)段內(nèi)存,內(nèi)存蟹柳概率加大,CPU性能下降,導(dǎo)致系統(tǒng)整體性能下降。
9.6 文件系統(tǒng)
?主要看基于Flash和RAM的兩大類文件系統(tǒng)。
基于Flash的文件系統(tǒng):JFFS2、YAFFS2、Cramfs、Romfs,YAFFS2目前被廣泛運(yùn)用。
基于RAM的文件系統(tǒng):Ramdisk(在Linux啟動(dòng),initrd提供將內(nèi)核映像和根文件系統(tǒng)一起載入內(nèi)存)、Ramfs/tmpfs(把所有的文件都放在RAM中)。
9.7 使用Lmbench了解你的系統(tǒng)
?
9.8 系統(tǒng)的啟動(dòng)
?關(guān)于Linux啟動(dòng)速度,有一個(gè)網(wǎng)頁(yè)進(jìn)行了詳細(xì)的總結(jié):Boot Time。
9.9 系統(tǒng)耗電量
?本章節(jié)所講技術(shù)已經(jīng)落后。
總結(jié)
以上是生活随笔為你收集整理的嵌入式linux内存使用和性能优化的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 海信VIDAA K1G小聚魔盒最新评价怎
- 下一篇: 牛群牛杂加盟费要多少钱