内核中的kmalloc函数详解
一、kmalloc函數(shù)詳解?
#include <linux/slab.h> void *kmalloc(size_t size, int flags);
給 kmalloc 的第一個(gè)參數(shù)是要分配的塊的大小. 第 2 個(gè)參數(shù), 分配標(biāo)志, 非常有趣, 因?yàn)樗詭讉€(gè)方式控制 kmalloc 的行為.
最一般使用的標(biāo)志, GFP_KERNEL, 意思是這個(gè)分配((內(nèi)部最終通過調(diào)用 __get_free_pages 來進(jìn)行, 它是 GFP_ 前綴的來源) 代表運(yùn)行在內(nèi)核空間的進(jìn)程而進(jìn)行的. 換句話說, 這意味著調(diào)用函數(shù)是代表一個(gè)進(jìn)程在執(zhí)行一個(gè)系統(tǒng)調(diào)用. 使用 GFP_KENRL 意味著 kmalloc 能夠使當(dāng)前進(jìn)程在少內(nèi)存的情況下睡眠來等待一頁. 一個(gè)使用 GFP_KERNEL 來分配內(nèi)存的函數(shù)必須, 因此, 是可重入的并且不能在原子上下文中運(yùn)行. 當(dāng)當(dāng)前進(jìn)程睡眠, 內(nèi)核采取正確的動(dòng)作來定位一些空閑內(nèi)存, 或者通過刷新緩存到磁盤或者交換出去一個(gè)用戶進(jìn)程的內(nèi)存.
GFP_KERNEL 不一直是使用的正確分配標(biāo)志; 有時(shí) kmalloc 從一個(gè)進(jìn)程的上下文的外部調(diào)用. 例如, 這類的調(diào)用可能發(fā)生在中斷處理, tasklet, 和內(nèi)核定時(shí)器中. 在這個(gè)情況下, 當(dāng)前進(jìn)程不應(yīng)當(dāng)被置為睡眠, 并且驅(qū)動(dòng)應(yīng)當(dāng)使用一個(gè) GFP_ATOMIC 標(biāo)志來代替. 內(nèi)核正常地試圖保持一些空閑頁以便來滿足原子的分配. 當(dāng)使用 GFP_ATOMIC 時(shí), kmalloc 能夠使用甚至最后一個(gè)空閑頁. 如果這最后一個(gè)空閑頁不存在, 但是, 分配失敗.其他用來代替或者增添 GFP_KERNEL 和 GFP_ATOMIC 的標(biāo)志, 盡管它們 2 個(gè)涵蓋大部分設(shè)備驅(qū)動(dòng)的需要. 所有的標(biāo)志定義在 <linux/gfp.h>, 并且每個(gè)標(biāo)志用一個(gè)雙下劃線做前綴, 例如 __GFP_DMA. 另外, 有符號(hào)代表常常使用的標(biāo)志組合; 這些缺乏前綴并且有時(shí)被稱為分配優(yōu)先級(jí). 后者包括:
GFP_ATOMIC
??? 用來從中斷處理和進(jìn)程上下文之外的其他代碼中分配內(nèi)存. 從不睡眠.
GFP_KERNEL
??? 內(nèi)核內(nèi)存的正常分配. 可能睡眠.
GFP_USER
??? 用來為用戶空間頁來分配內(nèi)存; 它可能睡眠.
GFP_HIGHUSER
??? 如同 GFP_USER, 但是從高端內(nèi)存分配, 如果有. 高端內(nèi)存在下一個(gè)子節(jié)描述.
GFP_NOIO
GFP_NOFS
??? 這個(gè)標(biāo)志功能如同 GFP_KERNEL, 但是它們?cè)黾酉拗频絻?nèi)核能做的來滿足請(qǐng)求. 一個(gè) GFP_NOFS 分配不允許進(jìn)行任何文件系統(tǒng)調(diào)用, 而 GFP_NOIO 根本不允許任何 I/O 初始化. 它們主要地用在文件系統(tǒng)和虛擬內(nèi)存代碼, 那里允許一個(gè)分配睡眠, 但是遞歸的文件系統(tǒng)調(diào)用會(huì)是一個(gè)壞注意.
上面列出的這些分配標(biāo)志可以是下列標(biāo)志的相或來作為參數(shù), 這些標(biāo)志改變這些分配如何進(jìn)行:
__GFP_DMA
??? 這個(gè)標(biāo)志要求分配在能夠 DMA 的內(nèi)存區(qū). 確切的含義是平臺(tái)依賴的并且在下面章節(jié)來解釋.
__GFP_HIGHMEM
??? 這個(gè)標(biāo)志指示分配的內(nèi)存可以位于高端內(nèi)存.
__GFP_COLD
??? 正常地, 內(nèi)存分配器盡力返回"緩沖熱"的頁 -- 可能在處理器緩沖中找到的頁. 相反, 這個(gè)標(biāo)志請(qǐng)求一個(gè)"冷"頁, 它在一段時(shí)間沒被使用. 它對(duì)分配頁作 DMA 讀是有用的, 此時(shí)在處理器緩沖中出現(xiàn)是無用的. 一個(gè)完整的對(duì)如何分配 DMA 緩存的討論看"直接內(nèi)存存取"一節(jié)在第 1 章.
__GFP_NOWARN
??? 這個(gè)很少用到的標(biāo)志阻止內(nèi)核來發(fā)出警告(使用 printk ), 當(dāng)一個(gè)分配無法滿足.
__GFP_HIGH
??? 這個(gè)標(biāo)志標(biāo)識(shí)了一個(gè)高優(yōu)先級(jí)請(qǐng)求, 它被允許來消耗甚至被內(nèi)核保留給緊急狀況的最后的內(nèi)存頁.
__GFP_REPEAT
__GFP_NOFAIL
__GFP_NORETRY
??? 這些標(biāo)志修改分配器如何動(dòng)作, 當(dāng)它有困難滿足一個(gè)分配. __GFP_REPEAT 意思是" 更盡力些嘗試" 通過重復(fù)嘗試 -- 但是分配可能仍然失敗. __GFP_NOFAIL 標(biāo)志告訴分配器不要失敗; 它盡最大努力來滿足要求. 使用 __GFP_NOFAIL 是強(qiáng)烈不推薦的; 可能從不會(huì)有有效的理由在一個(gè)設(shè)備驅(qū)動(dòng)中使用它. 最后, __GFP_NORETRY 告知分配器立即放棄如果得不到請(qǐng)求的內(nèi)存.
??? kmalloc 能夠分配的內(nèi)存塊的大小有一個(gè)上限. 這個(gè)限制隨著體系和內(nèi)核配置選項(xiàng)而變化. 如果你的代碼是要完全可移植, 它不能指望可以分配任何大于 128 KB. 如果你需要多于幾個(gè) KB, 但是, 有個(gè)比 kmalloc 更好的方法來獲得內(nèi)存, 我們?cè)诒菊潞竺婷枋?
??? 這方面的原因:
??? kmalloc并不直接從分頁機(jī)制中獲得空閑頁面而是從slab頁面分配器那兒獲得需要的頁面,slab的實(shí)現(xiàn)代碼限制了最大分配的大小為 128k,即131072bytes,理論上你可以通過更改slab.c中的 cache_sizes數(shù)組中的最大值使得kmalloc可以獲得更大的頁面數(shù),不知道有沒有甚么副效應(yīng)或者沒有必要這樣做,因?yàn)楂@取較大內(nèi)存的方法有很多,想必128k是經(jīng)驗(yàn)總結(jié)后的合適值。
??? alloc_page( )可以分配的最大連續(xù)頁面是4M吧。MAX_ORDER =10
??? static inline struct page * alloc_pages(unsigned int gfp_mask, unsigned int order)
??? {
??? /*
??? * Gets optimized away by the compiler.
??? */
??? if (order >= MAX_ORDER)
??? return NULL;
??? return _alloc_pages(gfp_mask, order);
??? }
alloc_pages最大分配頁面數(shù)為512個(gè),則可用內(nèi)存數(shù)最大為2^9*4K=2M???
二、內(nèi)核內(nèi)存的知識(shí)?
?? 對(duì)于提供了MMU(存儲(chǔ)管理器,輔助操作系統(tǒng)進(jìn)行內(nèi)存管理,提供虛實(shí)地址轉(zhuǎn)換等硬件支持)的處理器而言,Linux提供了復(fù)雜的存儲(chǔ)管理系統(tǒng),使得進(jìn)程所能訪問的內(nèi)存達(dá)到4GB。
進(jìn)程的4GB內(nèi)存空間被人為的分為兩個(gè)部分--用戶空間與內(nèi)核空間。用戶空間地址分布從0到3GB(PAGE_OFFSET,在0x86中它等于0xC0000000),3GB到4GB為內(nèi)核空間。
內(nèi)核空間中,從3G到vmalloc_start這段地址是物理內(nèi)存映射區(qū)域(該區(qū)域中包含了內(nèi)核鏡像、物理頁框表mem_map等等),比如我們使用的 VMware虛擬系統(tǒng)內(nèi)存是160M,那么3G~3G+160M這片內(nèi)存就應(yīng)該映射物理內(nèi)存。在物理內(nèi)存映射區(qū)之后,就是vmalloc區(qū)域。對(duì)于 160M的系統(tǒng)而言,vmalloc_start位置應(yīng)在3G+160M附近(在物理內(nèi)存映射區(qū)與vmalloc_start期間還存在一個(gè)8M的gap 來防止躍界),vmalloc_end的位置接近4G(最后位置系統(tǒng)會(huì)保留一片128k大小的區(qū)域用于專用頁面映射)kmalloc和get_free_page申請(qǐng)的內(nèi)存位于物理內(nèi)存映射區(qū)域,而且在物理上也是連續(xù)的,它們與真實(shí)的物理地址只有一個(gè)固定的偏移,因此存在較簡(jiǎn)單的轉(zhuǎn)換關(guān)系,virt_to_phys()可以實(shí)現(xiàn)內(nèi)核虛擬地址轉(zhuǎn)化為物理地址:
??? #define __pa(x) ((unsigned long)(x)-PAGE_OFFSET)
??? extern inline unsigned long virt_to_phys(volatile void * address)
??? {
??????? return __pa(address);
??? }
上面轉(zhuǎn)換過程是將虛擬地址減去3G(PAGE_OFFSET=0XC000000)。
與之對(duì)應(yīng)的函數(shù)為phys_to_virt(),將內(nèi)核物理地址轉(zhuǎn)化為虛擬地址:
??? #define __va(x) ((void *)((unsigned long)(x)+PAGE_OFFSET))
??? extern inline void * phys_to_virt(unsigned long address)
??? {
??????? return __va(address);
??? }
virt_to_phys()和phys_to_virt()都定義在include/asm-i386/io.h中。
而vmalloc申請(qǐng)的內(nèi)存則位于vmalloc_start~vmalloc_end之間,與物理地址沒有簡(jiǎn)單的轉(zhuǎn)換關(guān)系,雖然在邏輯上它們也是連續(xù)的,但是在物理上它們不要求連續(xù)。
我們用下面的程序來演示kmalloc、get_free_page和vmalloc的區(qū)別:
#include <linux/module.h>
#include <linux/slab.h>
#include <linux/vmalloc.h>
MODULE_LICENSE("GPL");
unsigned char *pagemem;
unsigned char *kmallocmem;
unsigned char *vmallocmem;
int __init mem_module_init(void)
{
//最好每次內(nèi)存申請(qǐng)都檢查申請(qǐng)是否成功
//下面這段僅僅作為演示的代碼沒有檢查
pagemem = (unsigned char*)get_free_page(0);
printk("<1>pagemem addr=%x", pagemem);
kmallocmem = (unsigned char*)kmalloc(100, 0);
printk("<1>kmallocmem addr=%x", kmallocmem);
vmallocmem = (unsigned char*)vmalloc(1000000);
printk("<1>vmallocmem addr=%x", vmallocmem);
return 0;
}
void __exit mem_module_exit(void)
{
free_page(pagemem);
kfree(kmallocmem);
vfree(vmallocmem);
}
module_init(mem_module_init);
module_exit(mem_module_exit);
我們的系統(tǒng)上有160MB的內(nèi)存空間,運(yùn)行一次上述程序,發(fā)現(xiàn)pagemem的地址在0xc7997000(約3G+121M)、kmallocmem 地址在0xc9bc1380(約3G+155M)、vmallocmem的地址在0xcabeb000(約3G+171M)處,符合前文所述的內(nèi)存布局。
?
參考:
1、http://blog.chinaunix.net/u/19782/showart_282318.html
2、http://blog.chinaunix.net/u2/79914/showart_1905549.html
總結(jié)
以上是生活随笔為你收集整理的内核中的kmalloc函数详解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 前后端分离,如何解决跨域问题
- 下一篇: linux mount挂载设备(u盘,光