linux mmap 详解【转】
mmap的具體實現(xiàn)以前在學習內(nèi)核時學習過,但是對于其中的很多函數(shù)是一知半解的,有些只能根據(jù)其函數(shù)名來猜測其具體的功能,在本文中,一起來重新深入理解其
具體的實現(xiàn)。
二.mmap的用戶層應用
void *mmap(void *start,size_t length,int prot,int flags,int fd,off_t offsize);?
具體參數(shù)含義
start :? 指向欲映射的內(nèi)存起始地址,通常設(shè)為 NULL,代表讓系統(tǒng)自動選定地址,映射成功后返回該地址。
length:? 代表將文件中多大的部分映射到內(nèi)存。
prot? :? 映射區(qū)域的保護方式。可以為以下幾種方式的組合:
??????????????????? PROT_EXEC 映射區(qū)域可被執(zhí)行
??????????????????? PROT_READ 映射區(qū)域可被讀取
??????????????????? PROT_WRITE 映射區(qū)域可被寫入
??????????????????? PROT_NONE 映射區(qū)域不能存取
flags :? 影響映射區(qū)域的各種特性。在調(diào)用mmap()時必須要指定MAP_SHARED 或MAP_PRIVATE。
??????????????????? MAP_FIXED 如果參數(shù)start所指的地址無法成功建立映射時,則放棄映射,不對地址做修正。通常不鼓勵用此旗標。
??????????????????? MAP_SHARED 對映射區(qū)域的寫入數(shù)據(jù)會復制回文件內(nèi),而且允許其他映射該文件的進程共享。
??????????????????? MAP_PRIVATE 對映射區(qū)域的寫入操作會產(chǎn)生一個映射文件的復制,即私人的“寫入時復制”(copy on write)對此區(qū)域作的任何修改都不會寫回原來的文件內(nèi)容。
??????????????????? MAP_ANONYMOUS建立匿名映射。此時會忽略參數(shù)fd,不涉及文件,而且映射區(qū)域無法和其他進程共享。
??????????????????? MAP_DENYWRITE只允許對映射區(qū)域的寫入操作,其他對文件直接寫入的操作將會被拒絕。
??????????????????? MAP_LOCKED 將映射區(qū)域鎖定住,這表示該區(qū)域不會被置換(swap)。
fd??? :? 要映射到內(nèi)存中的文件描述符。如果使用匿名內(nèi)存映射時,即flags中設(shè)置了MAP_ANONYMOUS,fd設(shè)為-1。有些系統(tǒng)不支持匿名內(nèi)存映射,則可以使用fopen打開/dev/zero文件,
????????? 然后對該文件進行映射,可以同樣達到匿名內(nèi)存映射的效果。
offset:文件映射的偏移量,通常設(shè)置為0,代表從文件最前方開始對應,offset必須是PAGE_SIZE的整數(shù)倍。
返回值:
????? 若映射成功則返回映射區(qū)的內(nèi)存起始地址,否則返回MAP_FAILED(-1),錯誤原因存于errno 中。
錯誤代碼:
??????????? EBADF? 參數(shù)fd 不是有效的文件描述詞
??????????? EACCES 存取權(quán)限有誤。如果是MAP_PRIVATE 情況下文件必須可讀,使用MAP_SHARED則要有PROT_WRITE以及該文件要能寫入。
??????????? EINVAL 參數(shù)start、length 或offset有一個不合法。
??????????? EAGAIN 文件被鎖住,或是有太多內(nèi)存被鎖住。
??????????? ENOMEM 內(nèi)存不足。
用戶層的調(diào)用很簡單,其具體功能就是直接將物理內(nèi)存直接映射到用戶虛擬內(nèi)存,使用戶空間可以直接對物理空間操作。但是對于內(nèi)核層而言,其具體實現(xiàn)比較復雜。
三.mmap的內(nèi)核實現(xiàn)
對于mmap的內(nèi)核有了解的都會知道用戶層的mmap到內(nèi)核層的mmap其中多了一個參數(shù)vma_struct這個結(jié)構(gòu)體,在開始時對于這個參數(shù)很疑惑就是這個參數(shù)的值是哪兒來的,
在這里我們會一一來講述。
mmap() ---> sys_mmap_pgoff() 內(nèi)核系統(tǒng)調(diào)用函數(shù)
munmap() --->sys_munmap() 內(nèi)核系統(tǒng)調(diào)用函數(shù),其最終調(diào)用unmap_region()來解除映射關(guān)系,不需要對應的file_operation有unmap操作項.
還是從do_mmap開始吧。3.1 do_mmap
參數(shù)說明:
file? :就是用戶層想要映射的file
addr? :欲映射的起始地址,即用戶層的start
prot? :用戶層傳入的port
flag? :同上
offset:同上
從這里可以知道,這里面的參數(shù)幾乎均是用戶層傳入的參數(shù)。
static inline unsigned long do_mmap(struct file *file, unsigned long addr,unsigned long len, unsigned long prot,
??????????????????????????????????? unsigned long flag, unsigned long offset)
{
??? unsigned long ret = -EINVAL;
??? if ((offset + PAGE_ALIGN(len)) < offset)??--頁對齊len,檢測傳入?yún)?shù)是否有誤。
??????? goto out;
??? if (!(offset & ~PAGE_MASK))?????????? --檢測offset是否頁對齊。映射時只能映射頁對齊的長度。
??????? ret = do_mmap_pgoff(file, addr, len, prot, flag, offset >> PAGE_SHIFT); ?
out:
??? return ret;
}
3.2 do_mmap_pgoff
這個函數(shù)是巨大的。
unsigned long do_mmap_pgoff(struct file * file, unsigned long addr,unsigned long len, unsigned long prot,unsigned long flags, unsigned long pgoff)
{
??? struct mm_struct * mm = current->mm;????? --當前用戶進程的mm
??? struct inode *inode;?
??? unsigned int vm_flags;
??? int error;
??? int accountable = 1;
??? unsigned long reqprot = prot;
??? if ((prot & PROT_READ) && (current->personality & READ_IMPLIES_EXEC))?? --是否隱藏了可執(zhí)行屬性。
??????? if (!(file && (file->f_path.mnt->mnt_flags & MNT_NOEXEC)))
??????????? prot |= PROT_EXEC;
??? if (!len)??????? ?
??????? return -EINVAL;
??? if (!(flags & MAP_FIXED))????????????? - ?
??????? addr = round_hint_to_min(addr);??? --判斷輸入的欲映射的起始地址是否小于最小映射地址,如果小于,將addr修改為最小地址,不過前提是MAP_FIXED旗標沒有設(shè)置。
??? error = arch_mmap_check(addr, len, flags);?? --不同平臺對于mmap參數(shù)的不同檢測。這里之間返回0
??? if (error)
??????? return error;
??? len = PAGE_ALIGN(len);??????? --檢測len是否越界,len的范圍在0~TASK_SIZE之間。
??? if (!len || len > TASK_SIZE)
??????? return -ENOMEM;???????????? --錯誤值為nomem
??? if ((pgoff + (len >> PAGE_SHIFT)) < pgoff)? --再次檢測是否越界。我們這里不得不小心哪個暈頭了傳入一個莫名其妙的值
??? return -EOVERFLOW;
??? if (mm->map_count > sysctl_max_map_count)?? --在一個進程中對于mmap個數(shù)是有限制的。超出了還是nomem的錯誤。
??????? return -ENOMEM;
??? addr = get_unmapped_area(file, addr, len, pgoff, flags);? --獲取沒有映射的地址,這個是查詢mm中空閑的內(nèi)存地址,這個在下面理解。
??? if (addr & ~PAGE_MASK)
??????? return addr;
??? vm_flags = calc_vm_prot_bits(prot) | calc_vm_flag_bits(flags) | mm->def_flags |
?????????????? VM_MAYREAD | VM_MAYWRITE | VM_MAYEXEC;????? --設(shè)置vm_flags,根據(jù)傳入的port和flags以及mm本身自有的旗標來設(shè)置。
??? if (flags & MAP_LOCKED) {????? ?
??????? if (!can_do_mlock())??????? ?
??????????? return -EPERM;
??????? vm_flags |= VM_LOCKED;
??? }
??? if (vm_flags & VM_LOCKED) {
??????? unsigned long locked, lock_limit;
??????? locked = len >> PAGE_SHIFT;
??????? locked += mm->locked_vm;
??????? lock_limit = current->signal->rlim[RLIMIT_MEMLOCK].rlim_cur;
??????? lock_limit >>= PAGE_SHIFT;
??????? if (locked > lock_limit && !capable(CAP_IPC_LOCK))
??????????? return -EAGAIN;
??? }
? --關(guān)于鎖定的內(nèi)存區(qū)在以后學習中再看,這里就不細看。
??? inode = file ? file->f_path.dentry->d_inode : NULL;? --判斷是否匿名映射,如果不是則賦值inode
??? if (file) {
??????? switch (flags & MAP_TYPE) {?? --MAP_TYPE = 0x0F type的掩碼
??????? case MAP_SHARED:
??????????? if ((prot&PROT_WRITE) && !(file->f_mode&FMODE_WRITE))?? --file應該被打開并允許寫入。
??????????????? return -EACCES;
??????????? if (IS_APPEND(inode) && (file->f_mode & FMODE_WRITE))? --不能寫入一個只允許寫追加的文件
??????????????? return -EACCES;
??????????? if (locks_verify_locked(inode))????? --確保文件沒有被強制鎖定。
??????????????? return -EAGAIN;
??????????? vm_flags |= VM_SHARED | VM_MAYSHARE;? --嘗試允許其他進程共享。
??????????? if (!(file->f_mode & FMODE_WRITE))??? --如果file不允許寫就算了,共享也沒有用啊,因為file就一直固定死了,共享也沒有意義。
??????????????? vm_flags &= ~(VM_MAYWRITE | VM_SHARED);
??????? case MAP_PRIVATE:
??????????? if (!(file->f_mode & FMODE_READ))
??????????????? return -EACCES;
??????????? if (file->f_path.mnt->mnt_flags & MNT_NOEXEC) {
??????????????? if (vm_flags & VM_EXEC)
??????????????????? return -EPERM;
??????????????? vm_flags &= ~VM_MAYEXEC;
??????????? }
??????????? if (is_file_hugepages(file))
??????????????? accountable = 0;
??????????? if (!file->f_op || !file->f_op->mmap)
??????????????? return -ENODEV;
??????????? break;
??????? default:
??????????? return -EINVAL;
??????? }
??? } else {
??????? switch (flags & MAP_TYPE) {
??????? case MAP_SHARED:
??????????? pgoff = 0;
??????????? vm_flags |= VM_SHARED | VM_MAYSHARE;
??????????? break;
??????? case MAP_PRIVATE:
??????????? pgoff = addr >> PAGE_SHIFT;
??????????? break;
??????? default:
??????????? return -EINVAL;
??????? }
??? }
? --上面就是對一些旗標進行檢測,防止出現(xiàn)旗標沖突,比如我欲映射的文件不允許寫,而我映射的旗標卻設(shè)定是可寫并可以共享的,這個就沖突了。
??? error = security_file_mmap(file, reqprot, prot, flags, addr, 0);?? --這個函數(shù)就忽略了。
??? if (error)
??????? return error;
??? return mmap_region(file, addr, len, flags, vm_flags, pgoff,accountable);? --最后一個參數(shù)為是否為大頁,如果是的就為0.其余的參數(shù)都好理解。
}
3.3 get_unmapped_area
這個是獲取沒有被映射的內(nèi)存區(qū)
unsigned long get_unmapped_area(struct file *file, unsigned long addr, unsigned long len,unsigned long pgoff, unsigned long flags)
{
??? unsigned long (*get_area)(struct file *, unsigned long,unsigned long, unsigned long, unsigned long);
??? get_area = current->mm->get_unmapped_area;
??? if (file && file->f_op && file->f_op->get_unmapped_area)
??????? get_area = file->f_op->get_unmapped_area;
??? addr = get_area(file, addr, len, pgoff, flags);
??? if (IS_ERR_VALUE(addr))
??????? return addr;
??? if (addr > TASK_SIZE - len)
??????? return -ENOMEM;
??? if (addr & ~PAGE_MASK)
??????? return -EINVAL;
??? return arch_rebalance_pgtables(addr, len);
}
對于get_area函數(shù)我們以arch_get_unmapped_area為例來看如何查找一個空閑的mmap area
unsigned long arch_get_unmapped_area(struct file *filp, unsigned long addr,unsigned long len, unsigned long pgoff, unsigned long flags)
{
??? struct mm_struct *mm = current->mm;
??? struct vm_area_struct *vma;
??? unsigned long start_addr;
??? if (len > TASK_SIZE)
??????? return -ENOMEM;
??? if (flags & MAP_FIXED)??? --還記否這個MAP_FIXED是什么含義不?
??????? return addr;
??? if (addr) {
??????? addr = PAGE_ALIGN(addr);
??????? vma = find_vma(mm, addr); --vma為NULL即addr的地址不在任一個VMA(vma->vm_start~vma->vm_end) addr的地址沒有被映射,
??????????????????????????????????? 而且空洞足夠我們這次的映射,那么返回addr以準備這次的映射
??????? if (TASK_SIZE - len >= addr &&(!vma || addr + len <= vma->vm_start))
??????????? return addr;
??? }
??? if (len > mm->cached_hole_size) { --如果所需的長度大于當前vma之間的空洞長度
??????????? start_addr = addr = mm->free_area_cache;
??? } else {
??????????? start_addr = addr = TASK_UNMAPPED_BASE;? --需要的長度小于當前空洞,為了不至于時間浪費,那么從0開始搜尋,
?????????????????????????????????????????????????????? 這里的搜尋基地址TASK_UNMAPPED_BASE很重要,用戶mmap的地址的基地址必須在TASK_UNMAPPED_BASE之上,
?????????????????????????????????????????????????????? 但是一定這樣嚴格 嗎?看上面的if (addr)判斷,如果用戶給了一個地址在TASK_UNMAPPED_BASE之下,
?????????????????????????????????????????????????????? 映射實際上還是會發(fā)生的。
??????????? mm->cached_hole_size = 0;
??? }
full_search:
??? for (vma = find_vma(mm, addr); ; vma = vma->vm_next) {
??????? if (TASK_SIZE - len < addr) {
??????????? if (start_addr != TASK_UNMAPPED_BASE) {
??????????????? addr = TASK_UNMAPPED_BASE;
????????????? start_addr = addr;
??????????????? mm->cached_hole_size = 0;
??????????????? goto full_search;
??????????? }
??????????? return -ENOMEM;
??????? }
?? ?
??????? if (!vma || addr + len <= vma->vm_start) {??????? --如果第一次find_vma返回值即為NULL ,vma沒有被映射并且空洞足夠映射
??????????????????????????????????????????????????????? !vma的條件只有可能在循環(huán)的第一次滿足,在其后不可能滿足,在其后的判斷條件即為
???????????????????????????????????????????????????????? vma->vma_end~vma->vma_next->vma_start之間的空洞大小大于所需要映射的長度即可,
???????????????????????????????????????????????????????? 下面判斷條件中的addr為vma->vma_end,而vma->vm_start為 vma->vma_next->vma_start
??????????? mm->free_area_cache = addr + len;
??????????? return addr;
??????? }
??????? if (addr + mm->cached_hole_size < vma->vm_start)? --在循環(huán)的第一次如果vma不為NULL,不會滿足下面的條件,在以后循環(huán)中mm->cached_hole_size?
??????????????????????????????????????????????????????????? 則為該次vma->vm_start 與上一次的vma->vm_end之間的差值
??????????????? mm->cached_hole_size = vma->vm_start - addr;
??????? addr = vma->vm_end;
??? }
}
還記否以前看的紅黑樹,這里就現(xiàn)實的用了紅黑樹的算法。關(guān)于這個我們就不看了。
struct vm_area_struct * find_vma(struct mm_struct * mm, unsigned long addr)
{
??? struct vm_area_struct *vma = NULL;
??? if (mm) {
??????? vma = mm->mmap_cache;
??????? if (!(vma && vma->vm_end > addr && vma->vm_start <= addr)) {
??????????? struct rb_node * rb_node;
??????????? rb_node = mm->mm_rb.rb_node;
??????????? vma = NULL;
??????????? while (rb_node) {
??????????????? struct vm_area_struct * vma_tmp;
??????????????? vma_tmp = rb_entry(rb_node,struct vm_area_struct, vm_rb);
??????????????? if (vma_tmp->vm_end > addr) {
??????????????????? vma = vma_tmp;
??????????????????? if (vma_tmp->vm_start <= addr)
??????????????????????? break;
??????????????????? rb_node = rb_node->rb_left;
??????????????? } else
??????????????????? rb_node = rb_node->rb_right;
??????????? }
??????????? if (vma)
??????????????? mm->mmap_cache = vma;
??????? }
??? }
??? return vma;
}
3.4 mmap_region
unsigned long mmap_region(struct file *file, unsigned long addr,unsigned long len, unsigned long flags,
??????????????????????????????? unsigned int vm_flags, unsigned long pgoff,int accountable)
{
??? struct mm_struct *mm = current->mm;
??? struct vm_area_struct *vma, *prev;
??? struct vm_area_struct *merged_vma;
??? int correct_wcount = 0;
??? int error;
??? struct rb_node **rb_link, *rb_parent;
??? unsigned long charged = 0;
??? struct inode *inode =? file ? file->f_path.dentry->d_inode : NULL;
??? /* Clear old maps */
??? error = -ENOMEM;
munmap_back:
??? vma = find_vma_prepare(mm, addr, &prev, &rb_link, &rb_parent); --函數(shù)find_vma_prepare()與find_vma()基本相同,它掃描當前進程地址空間的vm_area_struct
???????????????????????????????????????????????????????????????????? 結(jié)構(gòu)所形成的紅黑樹,試圖找到結(jié)束地址高于addr的第一個區(qū)間;如果找到了一個虛擬區(qū),
???????????????????????????????????????????????????????????????????? 說明addr所在的虛擬區(qū)已經(jīng)在使用,也就是已經(jīng)有映射存在,因此要調(diào)用do_munmap()
???????????????????????????????????????????????????????????????????? 把這個老的虛擬區(qū)從進程地址空間中撤銷,如果撤銷不成功,就返回一個負數(shù);
???????????????????????????????????????????????????????????????????? 如果撤銷成功,就繼續(xù)查找,直到在紅黑樹中找不到addr所在的虛擬區(qū)
??? if (vma && vma->vm_start < addr + len) {
??????? if (do_munmap(mm, addr, len))
??????????? return -ENOMEM;
??????? goto munmap_back;
??? }
??? if (!may_expand_vm(mm, len >> PAGE_SHIFT))?????????????????? -- 頁數(shù)和超過限定值返回 0 ,不超過返回1
??????? return -ENOMEM;
??? if (flags & MAP_NORESERVE)???????????????????????????? -- 如果flags參數(shù)中沒有設(shè)置MAP_NORESERVE標志,新的虛擬區(qū)含有私有的可寫頁,空閑頁面數(shù)小于要映射的虛擬區(qū)
????????????????????????????????????????????????????????????? 的大小;則函數(shù)終止并返回一個負數(shù);其中函數(shù)security_vm_enough_memory()用來檢查一個
????????????????????????????????????????????????????????????? 進程的地址空間中是否有足夠的內(nèi)存來進行一個新的映射
??????? vm_flags |= VM_NORESERVE;
??? if (accountable && (!(flags & MAP_NORESERVE) ||
??????????????? sysctl_overcommit_memory == OVERCOMMIT_NEVER)) {
??????? if (vm_flags & VM_SHARED) {
??????????? /* Check memory availability in shmem_file_setup? */
??????????? vm_flags |= VM_ACCOUNT;
??????? } else if (vm_flags & VM_WRITE) {
??????????? charged = len >> PAGE_SHIFT;
??????????? if (security_vm_enough_memory(charged))
??????????????? return -ENOMEM;
??????????? vm_flags |= VM_ACCOUNT;
??????? }
??? }
??? if (!file && !(vm_flags & VM_SHARED)) { --如果是匿名映射(file為空),并且這個虛擬區(qū)是非共享的,則可以把這個虛擬區(qū)和與它緊挨的前一個虛擬區(qū)進行合并;
????????????????????????????????????????????? 虛擬區(qū)的合并是由vma_merge()函數(shù)實現(xiàn)的。如果合并成功,則轉(zhuǎn)out處,請看后面out處的代碼。
??????? vma = vma_merge(mm, prev, addr, addr + len, vm_flags,
??????????????????? NULL, NULL, pgoff, NULL);
??????? if (vma)
??????????? goto out;
??? }
??? vma = kmem_cache_zalloc(vm_area_cachep, GFP_KERNEL);
??? if (!vma) {
??????? error = -ENOMEM;
??????? goto unacct_error;
??? }
??? vma->vm_mm = mm;
??? vma->vm_start = addr;
??? vma->vm_end = addr + len;
??? vma->vm_flags = vm_flags;
??? vma->vm_page_prot = vm_get_page_prot(vm_flags);
??? vma->vm_pgoff = pgoff;
??? if (file) {
??????? error = -EINVAL;
??????? if (vm_flags & (VM_GROWSDOWN|VM_GROWSUP))
??????????? goto free_vma;
??????? if (vm_flags & VM_DENYWRITE) {
??????????? error = deny_write_access(file);
??????????? if (error)
??????????????? goto free_vma;
??????????? correct_wcount = 1;
??????? }
??????? vma->vm_file = file;
??????? get_file(file);
??????? error = file->f_op->mmap(file, vma);??? -- (⊙o⊙)哦 ,終于可以調(diào)用設(shè)備文件中真正的mmap
??????? if (error)
??????????? goto unmap_and_free_vma;
??????? if (vm_flags & VM_EXECUTABLE)
??????????? added_exe_file_vma(mm);
??? } else if (vm_flags & VM_SHARED) {
??????? error = shmem_zero_setup(vma);// it will call shmem_file_setup(), the same way as called in ashmem.c
??????? if (error)
??????????? goto free_vma;
??? }
如果建立的是從文件到虛存區(qū)間的映射,則:
1.當參數(shù)flags中的VM_GROWSDOWN或VM_GROWSUP標志位為1時,說明這個區(qū)間可以向低地址或高地址擴展,但從文件映射的區(qū)間不能進行擴展,因此轉(zhuǎn)到free_vma,釋放給vm_area_struct分配的Slab,并返回一個錯誤;
2.當flags中的VM_DENYWRITE標志位為1時,就表示不允許通過常規(guī)的文件操作訪問該文件,所以要調(diào)用deny_write_access()排斥常規(guī)的文件操作(參見第八章)。
3.get_file()函數(shù)的主要作用是遞增file結(jié)構(gòu)中的共享計數(shù);
4.每個文件系統(tǒng)都有個fiel_operation數(shù)據(jù)結(jié)構(gòu),其中的函數(shù)指針mmap提供了用來建立從該類文件到虛存區(qū)間進行映射的操作,這是最具有實質(zhì)意義的函數(shù);對于大部分文件系統(tǒng),這個函數(shù)為generic_file_mmap( )函數(shù)實現(xiàn)的,該函數(shù)執(zhí)行以下操作:
??????? (1)初始化vm_area_struct結(jié)構(gòu)中的vm_ops域。如果VM_SHARED標志為1,就把該域設(shè)置成file_shared_mmap, 否則就把該域設(shè)置成file_private_mmap。從某種意義上說,這個步驟所做的事情類似于打開一個文件并初始化文件對象的方法。
??????? (2)從索引節(jié)點的i_mode域(參見第八章)檢查要映射的文件是否是一個常規(guī)文件。如果是其他類型的文件(例如目錄或套接字),就返回一個錯誤代碼。
??????? (3)從索引節(jié)點的i_op域中檢查是否定義了readpage( )的索引節(jié)點操作。如果沒有定義,就返回一個錯誤代碼。
??????? (4)調(diào)用update_atime( )函數(shù)把當前時間存放在該文件索引節(jié)點的i_atime域中,并將這個索引節(jié)點標記成臟。
5.如果flags參數(shù)中的MAP_SHARED標志位為1,則調(diào)用shmem_zero_setup()進行共享內(nèi)存的映射。
??? if ((vm_flags & (VM_SHARED|VM_ACCOUNT)) == (VM_SHARED|VM_ACCOUNT))
??????? vma->vm_flags &= ~VM_ACCOUNT;
??? addr = vma->vm_start;
??? pgoff = vma->vm_pgoff;
??? vm_flags = vma->vm_flags;
??? if (vma_wants_writenotify(vma))
??????? vma->vm_page_prot = vm_get_page_prot(vm_flags & ~VM_SHARED);
??? merged_vma = NULL;
??? if (file)
??????? merged_vma = vma_merge(mm, prev, addr, vma->vm_end,
??????????? vma->vm_flags, NULL, file, pgoff, vma_policy(vma));
??? if (merged_vma) {
??????? mpol_put(vma_policy(vma));
??????? kmem_cache_free(vm_area_cachep, vma);
??????? fput(file);
??????? if (vm_flags & VM_EXECUTABLE)
??????????? removed_exe_file_vma(mm);
??????? vma = merged_vma;
??? } else {
??????? vma_link(mm, vma, prev, rb_link, rb_parent);
??????? file = vma->vm_file;
??? }
此時,把新建的虛擬區(qū)插入到進程的地址空間,這是由函數(shù)vma_link()完成的,該函數(shù)具有三方面的功能:
(1)把vma 插入到虛擬區(qū)鏈表中
(2)把vma插入到虛擬區(qū)形成的紅黑樹中
(3)把vam插入到索引節(jié)點(inode)共享鏈表中
函數(shù)atomic_inc(x)給*x加1,這是一個原子操作。在內(nèi)核代碼中,有很多地方調(diào)用了以atomic為前綴的函數(shù)。原子操作,在操作過程中不會被中斷。
??? if (correct_wcount)
??????? atomic_inc(&inode->i_writecount);
out:
??? mm->total_vm += len >> PAGE_SHIFT;
??? vm_stat_account(mm, vm_flags, file, len >> PAGE_SHIFT);
??? if (vm_flags & VM_LOCKED) {
??????? long nr_pages = mlock_vma_pages_range(vma, addr, addr + len);
??????? if (nr_pages < 0)
??????????? return nr_pages;??? /* vma gone! */
??????? mm->locked_vm += (len >> PAGE_SHIFT) - nr_pages;
??? } else if ((flags & MAP_POPULATE) && !(flags & MAP_NONBLOCK))
??????? make_pages_present(addr, addr + len);
??? return addr;
unmap_and_free_vma:
??? if (correct_wcount)
??????? atomic_inc(&inode->i_writecount);
??? vma->vm_file = NULL;
??? fput(file);
??? unmap_region(mm, vma, prev, vma->vm_start, vma->vm_end);
??? charged = 0;
free_vma:
??? kmem_cache_free(vm_area_cachep, vma);
unacct_error:
??? if (charged)
??????? vm_unacct_memory(charged);
??? return error;
}
ok!到此mmap的內(nèi)核核心就可以了,關(guān)于具體的mmap的實現(xiàn),以后再看。
四.總結(jié)
mmap的實質(zhì)是什么,其實就是從每一個進程中的用戶空間分配一段空間用于映射。 這里面的機關(guān)重重,需要好好理解,不過謹記一點,進程的vma_struct是采用了紅黑樹來管理的。對于每一段的內(nèi)存區(qū)都會有一個vma_struct 來描述,比如數(shù)據(jù)區(qū),code區(qū)等等,以及mmap所需要的一段內(nèi)存區(qū)。
五.其它
1、特點:
① 進程相關(guān)的
② 與XSI共享內(nèi)存一樣,需要與同步原語一起使用
③ 只能是有共同祖先的進程才能使用
2、使用
系統(tǒng)調(diào)用mmap()用于共享內(nèi)存的兩種方式:
(1)使用普通文件提供的內(nèi)存映射:
??? 適用于任何進程之間。此時,需要打開或創(chuàng)建一個文件,然后再調(diào)用mmap()
典型調(diào)用代碼如下:
fd=open(name, flag, mode); if(fd<0) ...
ptr=mmap(NULL, len , PROT_READ|PROT_WRITE, MAP_SHARED , fd , 0);
???? 通過mmap()實現(xiàn)共享內(nèi)存的通信方式有許多特點和要注意的地方,可以參看UNIX網(wǎng)絡(luò)編程第二卷。【3】
(2)使用特殊文件提供匿名內(nèi)存映射:
??? 適用于具有親緣關(guān)系的進程之間。由于父子進程特殊的親緣關(guān)系,在父進程中先調(diào)用mmap(),然后調(diào)用fork()。那么在調(diào)用fork()之后,子進程 繼承父進程匿名映射后的地址空間,同樣也繼承mmap()返回的地址,這樣,父子進程就可以通過映射區(qū)域進行通信了。一般來說,子進程單獨維護從父進程繼 承下來的一些變量。而mmap()返回的地址,卻由父子進程共同維護。對于具有親緣關(guān)系的進程實現(xiàn)共享內(nèi)存最好的方式應該是采用匿名內(nèi)存映射的方式。此時,不必指定具體的文件,只要設(shè)置相應的標志即可。
3、說明
(1)void *mmap(void *addr, size_t len, int prot, int flag, int fd, off_t offset );
把文件或設(shè)備映射或解除映射到內(nèi)存中
0)flag:必須有MAP_SHARED 標志
MAP_SHARED對映射區(qū)域的寫入數(shù)據(jù)會復制回文件內(nèi),而且允許其他映射該文件的進程共享。
MAP_PRIVATE 對映射區(qū)域的寫入操作會產(chǎn)生一個映射文件的復制,即私人的“寫入時復制”(copy on write)對此區(qū)域作的任何修改都不會寫回原來的文件內(nèi)容。
MAP_ANONYMOUS建立匿名共享。此時會忽略參數(shù)fd(fd可以指定為-1),不涉及文件,而且映射區(qū)域無法和其他進程共享(只能用于具有親緣關(guān)系的進程間通信)。
??? 映射/dev/zero可為調(diào)用程序提供零填充的虛擬內(nèi)存塊。
1)start:指向欲映射的內(nèi)存起始地址,通常設(shè)為 NULL,代表讓系統(tǒng)自動選定地址,映射成功后返回該地址。
2)length:代表將文件中多大的部分映射到內(nèi)存。
3)offset 必須是頁面大小的整數(shù)倍。頁面大小由 getpagesize(2)得到。
4)被映射的文件大小應是頁面大小的整數(shù)倍。如一個文件大小不是頁面大小的整數(shù)倍,映射時多出來的區(qū)域?qū)⒈毁x為0,對這些區(qū)域的寫不會被寫回到文件中。
5)munmap()系統(tǒng)調(diào)用將刪除指定地址范圍內(nèi)的映射區(qū)域。隨后對這個范圍內(nèi)區(qū)域的引用將產(chǎn)生非法的內(nèi)存引用。當這個進程終止后,這個區(qū)域也會被刪除。另一方面,關(guān)閉文件描述符并不會刪除映射區(qū)域。
6)fd:要映射到內(nèi)存中的文件描述符。如果使用匿名內(nèi)存映射時,即flags中設(shè)置了MAP_ANONYMOUS,fd設(shè)為-1。有些系統(tǒng)不支持匿名內(nèi)存映射,則可以使用fopen打開/dev/zero文件,然后對該文件進行映射,可以同樣達到匿名內(nèi)存映射的效果。
7)若映射成功則返回映射區(qū)的內(nèi)存起始地址,否則返回MAP_FAILED(-1)。
(2) munmap
int munmap( void * addr, size_t len )
??? 在進程地址空間中解除一個映射關(guān)系,當映射關(guān)系解除后,對原來映射地址的訪問將導致段錯誤發(fā)生。
void * addr :調(diào)用mmap()時返回的地址
size_t len :映射區(qū)的大小
(3)int msync ( void * addr , size_t len, int flags)
??? 一般說來,進程在映射空間的對共享內(nèi)容的改變并不直接寫回到磁盤文件中,往往在調(diào)用munmap()后才執(zhí)行該操作。可以調(diào)用msync()實現(xiàn)磁盤上文件與共享內(nèi)存區(qū)的內(nèi)容一致。
void * addr :調(diào)用mmap()時返回的地址
size_t len :映射區(qū)的大小
int flags :MS_ASYN: 異步寫,MS_SYN : 同步寫,MS_INVALIDAT : 無效的cache 數(shù)據(jù)。
5、其他
1)進程調(diào)用mmap()時,只是在進程空間內(nèi)新增了一塊相應大小的緩沖區(qū),并設(shè)置了相應的訪問標識,但并沒有建立進程空間到物理頁面的映射。因此,第一次訪問該空間時,會引發(fā)一個缺頁異常。
2)一個共享內(nèi)存區(qū)域可以看作是特殊文件系統(tǒng)shm中的一個文件,shm的安裝點在交換區(qū)上。
3)mmap()系統(tǒng)調(diào)用使得進程之間通過映射同一個普通文件實現(xiàn)共享內(nèi)存。普通文件被映射到進程地址空間后,進程可以向訪問普通內(nèi)存一樣對文件進行訪問,不必再調(diào)用read(),write()等操作。
4)最終被映射文件的內(nèi)容的長度不會超過文件本身的初始大小,即映射不能改變文件的大小。文件被映射部分而不是整個文件決定了進程能夠訪問的空間大小,另外,如果指定文件的偏移部分,一定要注意為頁面大小的整數(shù)倍。
?
本文轉(zhuǎn)自張昺華-sky博客園博客,原文鏈接:http://www.cnblogs.com/sky-heaven/p/5689072.html,如需轉(zhuǎn)載請自行聯(lián)系原作者
總結(jié)
以上是生活随笔為你收集整理的linux mmap 详解【转】的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 邮件服务器postfix+cyrus
- 下一篇: Linux磁盘管理----分区格式化挂载