转 Linux块设备加速缓存bcache和dm-cache 使用SSD来加速服务器
分享一下我老師大神的人工智能教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow
也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!
dm-cache 與 bcache
- See more at: http://wangxu.me/blog/#sthash.smQmCr76.dpuf?
文章來源:http://blog.csdn.net/cybertan/article/details/9475767
Linux塊設備加速緩存之bcache
bcache是linux內核塊層cache。它使用類似SSD來作為HDD硬盤的cache,從而起到加速作用。HDD硬盤便宜并且空間更大,SSD速度快但更貴。如果能兩者兼得,豈不快哉?bcache能做到。bcache使用SSD作為其他塊設備cache。類似ZFS的L2Arc,但bcache還增加了寫回策略,并且是與文件系統無關的。bcache被設計成只需要最小的代價,無需配置就能在所有環境中工作。默認狀態下bcache不緩存順序IO,只緩存隨機讀寫。bcache適用于桌面、服務器,高級存儲陣列,甚至是嵌入式環境。
設計bcache目標是讓被緩存設備與SSD一樣快(包括緩存命中、緩存不命中、透寫和回寫)。現在還未達到初衷,特別是順序寫。同時測試結果表明離目標很接近,甚至有些情況下表現更好,例如隨機寫。bcache是數據安全的。對于寫回策略緩存來說,可靠性是非常重要的,出錯就意味著丟失數據。bcache是用電池備份陣列控制器的替代選擇,同時也要求bcache在異常掉電時也是數據安全的。對于寫而言,必須在所有數據寫到可靠介質之后才能向上層返回寫成功,在異常掉電情況下,寫不能是部分完成的。大量工作已經投入到這部分數據安全的工作中。
bcache性能設計目標是等同于SSD。最大程度上去最小化寫放大,并避免隨機寫。bcache將隨機寫轉換為順序寫,首先寫到SSD,然后回寫緩存使用SSD緩存大量的寫,最后將寫有序寫到磁盤或者陣列上。對于RAID6陣列,隨機寫性能很差,還要花費不菲的價格購買帶有電池保護的陣列控制器。現在有了bcache,你就可以直接使用linux自帶的優秀軟RAID,甚至可以在更廉價的硬件上獲取更高的隨機寫性能。
特性1、一個緩存設備可以作為多個設備的緩存,并且可以在設備運行時動態添加和刪除緩存。2、異常關機恢復,只有當寫到磁盤后緩存才會確認寫完成。3、正確處理寫阻塞和刷緩存4、支持writethrough, writeback和writearound5、檢測并避開順序IO(可配置關閉該選項)6、當檢測到SSD延遲超過配置邊界值,減少到SSD流量(當一個SSD作為多個磁盤緩存時使用)7、緩存不命中時預讀(默認關閉)8、高性能的writeback實現:臟數據都是排序后再回寫。如果設置了writeback水位線,PD控制器會根據臟數據比例來平滑處理到后臺writeback流量。9、使用高效率了B+樹,bcache隨機讀可以達到1M IOPS10、穩定,已經有產品應用
性能
7/25/12 隨機測試在我的測試機上,我將SSD盤劃分為兩個相同大小的分區,一個分區用于測試SSD裸盤,另一個作為硬盤緩存。bcache配置修改:cache_mode設置為writeback,writeback_percent設置為40。(如果writeback_percent不為0,bcache使用PD控制器根據緩存的臟數據塊來平滑處理下發到磁盤的流量)。同時還關閉了擁塞閥值,因為當SSD延遲達到極限時,如果bcache切換到writethrough將會影響結果。
SSD盤為Intel 160G MLC SSD,也就是Intel SSDSA2M160。FIO作為性能測試,測試腳本如下:[global] randrepeat=1 ioengine=libaio bs=4k ba=4k size=8G direct=1 gtod_reduce=1 norandommap iodepth=64FIO運行在SSD裸設備上,但對于這類性能測試軟件來說應該沒有影響。
裸SSD設備上隨機寫測試結果如下:root@utumno:~# fio ~/rw4krandwrite: (g=0): rw=randwrite, bs=4K-4K/4K-4K, ioengine=libaio, iodepth=64fio 1.59Starting 1 processJobs: 1 (f=1): [w] [100.0% done] [0K/49885K /s] [0 /12.2K iops] [eta 00m:00s]randwrite: (groupid=0, jobs=1): err= 0: pid=1770? write: io=8192.3MB, bw=47666KB/s, iops=11916 , runt=175991msec? cpu????????? : usr=4.33%, sys=14.28%, ctx=2071968, majf=0, minf=19? IO depths??? : 1=0.1%, 2=0.1%, 4=0.1%, 8=0.1%, 16=0.1%, 32=0.1%, >=64=100.0%???? submit??? : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0%???? complete? : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.1%, >=64=0.0%???? issued r/w/d: total=0/2097215/0, short=0/0/0Run status group 0 (all jobs):? WRITE: io=8192.3MB, aggrb=47666KB/s, minb=48810KB/s, maxb=48810KB/s, mint=175991msec, maxt=175991msecDisk stats (read/write):? sdb: ios=69/2097888, merge=0/3569, ticks=0/11243992, in_queue=11245600, util=99.99%
添加了bcache:root@utumno:~# fio ~/rw4krandwrite: (g=0): rw=randwrite, bs=4K-4K/4K-4K, ioengine=libaio, iodepth=64fio 1.59Starting 1 processJobs: 1 (f=1): [w] [100.0% done] [0K/75776K /s] [0 /18.5K iops] [eta 00m:00s]randwrite: (groupid=0, jobs=1): err= 0: pid=1914? write: io=8192.3MB, bw=83069KB/s, iops=20767 , runt=100987msec? cpu????????? : usr=3.17%, sys=13.27%, ctx=456026, majf=0, minf=19? IO depths??? : 1=0.1%, 2=0.1%, 4=0.1%, 8=0.1%, 16=0.1%, 32=0.1%, >=64=100.0%???? submit??? : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0%???? complete? : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.1%, >=64=0.0%???? issued r/w/d: total=0/2097215/0, short=0/0/0Run status group 0 (all jobs):? WRITE: io=8192.3MB, aggrb=83068KB/s, minb=85062KB/s, maxb=85062KB/s, mint=100987msec, maxt=100987msecDisk stats (read/write):? bcache0: ios=0/0, merge=0/0, ticks=0/0, in_queue=0, util=0.00%
添加了bcache之后IOPS為18.5K,裸SSD設備為12.2K。bcache表現更佳是因為bcache按順序將寫請求發送到SSD,但額外加入了更新索引的開銷。bcache對隨機寫做了優化,bcache還從高IO深度(64)獲益,因為在高IO深度的情況下就可以將多次下標更新合并為一次寫請求。高IO深度就代表著高系統負載,當IO深度下調時IOPS也出現變化:
IO depth of 32: bcache 20.3k iops, raw ssd 19.8k iops
IO depth of 16: bcache 16.7k iops, raw ssd 23.5k iops
IO depth of 8: bcache 8.7k iops, raw ssd 14.9k iops
IO depth of 4: bcache 8.9k iops, raw ssd 19.7k iops
SSD性能在不同IO深度時出現了波動。對于不同的寫模型會有不同的結果,我們只關注兩者的相對數值。當測試隨機4K寫,IO深度為1時,bcache寫次數是裸SSD設備的兩倍:每一次寫都需要再更新一次索引。
隨機讀
IO depth of 64: bcache 29.5k iops, raw ssd 25.4k iops
IO depth of 16: bcache 28.2k iops, raw ssd 27.6k iops
bcache略勝一籌,可能跟要讀的數據相關。這里的結論是隨機讀時bcache與裸SSD讀性能是相同的。這里要注意的是,讀4K隨機寫下去的數據,這樣的測試模型對于bcache是不好的。這意味btree都是4K大小,btree將比通常時候大得多。在實際應用中,平均大小是100K。btree變大就意味著索引占用更大的內存空間,并且有一部分是在二級索引。根據個人經驗這些開銷在大型機器IOPS超過500K時才會有實際影響。如果大家有其他的測試方法或者我的測試方法中有什么問題請通知郵件告訴我。常見問題關機、設備移除系統關機時cache仍然是臟的,就是說后端磁盤的數據并不可靠。如果要保證后端磁盤數據是安全的,就需要手動移動cache或者將cache設置為writethrough模式。
自動掛載bcache會自動匹配cache和后端設備。匹配過程與設備對系統可用的次序沒有關系。帶bcache的根目錄分區為了讓根分區能夠使用bcache,需要添加rootdelay=3到啟動參數,這樣才能讓udev規則在系統mount根文件系統之前運行。已格式化過的磁盤或分區如果一個分區或者磁盤設備啟動時沒有創建bcache,可能是因為超級塊發生錯誤。為了讓bcache能夠正確檢測到之前的設備,udev規則會首先檢查是否符合bcache規則和blkid檢查。udev規則檢查設備超級塊從而識別文件系統類型,如果該超級塊不符合bcache文件系統類型那么就不會添加bcache。
# cat /usr/lib/udev/rules.d/61-bcache.rules....# Backing devices: scan, symlink, registerIMPORT{program}="/sbin/blkid -o udev $tempnode"# blkid and probe-bcache can disagree, in which case don't registerENV{ID_FS_TYPE}=="?*", ENV{ID_FS_TYPE}!="bcache", GOTO="bcache_backing_end"...# lsblk -o NAME,MAJ:MIN,RM,SIZE,TYPE,FSTYPE,MOUNTPOINT,UUID,PARTUUIDNAME??????? MAJ:MIN RM?? SIZE TYPE FSTYPE MOUNTPOINT UUID???????????????????????????????? PARTUUIDsda?????????? 8:0??? 0 111.8G disk├─sda1??????? 8:1??? 0???? 3G part vfat?? /esp?????? 7E67-C0BB??????????????????????????? d39828e8-4880-4c85-9ec0-4255777aa35b└─sda2??????? 8:2??? 0 108.8G part ext2????????????? 93d22899-cd86-4815-b6d0-d72006201e75 baf812f4-9b80-42c4-b7ac-5ed0ed19be65sdb?????????? 8:16?? 0 931.5G disk└─sdb1??????? 8:17?? 0 931.5G part ntfs????????????? FAD2B75FD2B71EB7???????????????????? 90c80e9d-f31a-41b4-9d4d-9b02029402b2sdc?????????? 8:32?? 0?? 2.7T disk bcache??????????? 4bd63488-e1d7-4858-8c70-a35a5ba2c452└─bcache1?? 254:1??? 0?? 2.7T disk btrfs???????????? 2ff19aaf-852e-4c58-9eee-3daecbc6a5a1sdd?????????? 8:48?? 0?? 2.7T disk bcache??????????? ce6de517-7538-45d6-b8c4-8546f13f76c1└─bcache0?? 254:0??? 0?? 2.7T disk btrfs???????????? 2ff19aaf-852e-4c58-9eee-3daecbc6a5a1sde?????????? 8:64?? 1? 14.9G disk└─sde1??????? 8:65?? 1? 14.9G part ext4?? /????????? d07321b2-b67d-4daf-8022-f3307b605430 5d0a4d76-115f-4081-91ed-fb09aa2318d
在上面的例子中有一個分區之前是ext2文件系統。bcache將通過以下指令自動構建:# make-bcache -B /dev/sdc /dev/sdd -C /dev/sda2
因為設備/dev/sdc和/dev/sdd標識了bcache文件系統,因此會在系統啟動時自動添加,而/dev/sda2則需要手動添加。在/dev/sda2偏移1024處仍殘留有之前文件系統的超級塊信息,而bcache信息是從4096偏移開始記錄,修復的方法是:# dd if=/dev/zero count=1 bs=1024 seek=1 of=/dev/sda2
在系統重啟之后所有磁盤被正確識別:# lsblk -o NAME,MAJ:MIN,RM,SIZE,TYPE,FSTYPE,MOUNTPOINT,UUID,PARTUUIDNAME??????? MAJ:MIN RM?? SIZE TYPE FSTYPE MOUNTPOINT UUID???????????????????????????????? PARTUUIDsda?????????? 8:0??? 0 111.8G disk├─sda1??????? 8:1??? 0???? 3G part vfat?? /esp?????? 7E67-C0BB??????????????????????????? d39828e8-4880-4c85-9ec0-4255777aa35b└─sda2??????? 8:2??? 0 108.8G part bcache??????????? 93d22899-cd86-4815-b6d0-d72006201e75 baf812f4-9b80-42c4-b7ac-5ed0ed19be65? ├─bcache0 254:0??? 0?? 2.7T disk btrfs???????????? 2ff19aaf-852e-4c58-9eee-3daecbc6a5a1? └─bcache1 254:1??? 0?? 2.7T disk btrfs???????????? 2ff19aaf-852e-4c58-9eee-3daecbc6a5a1sdb?????????? 8:16?? 0 931.5G disk└─sdb1??????? 8:17?? 0 931.5G part ntfs????????????? FAD2B75FD2B71EB7???????????????????? 90c80e9d-f31a-41b4-9d4d-9b02029402b2sdc?????????? 8:32?? 0?? 2.7T disk bcache??????????? 4bd63488-e1d7-4858-8c70-a35a5ba2c452└─bcache1?? 254:1??? 0?? 2.7T disk btrfs???????????? 2ff19aaf-852e-4c58-9eee-3daecbc6a5a1sdd?????????? 8:48?? 0?? 2.7T disk bcache??????????? ce6de517-7538-45d6-b8c4-8546f13f76c1└─bcache0?? 254:0??? 0?? 2.7T disk btrfs???????????? 2ff19aaf-852e-4c58-9eee-3daecbc6a5a1sde?????????? 8:64?? 1? 14.9G disk└─sde1??????? 8:65?? 1? 14.9G part ext4?? /????????? d07321b2-b67d-4daf-8022-f3307b605430 5d0a4d76-115f-4081-91ed-fb09aa2318dd
同樣地,殘留超級塊還會引起類似的其他錯誤。
英文地址:http://bcache.evilpiepirate.org/
文章來源:http://blog.csdn.net/liumangxiong/article/details/17839797
Linux內核之bcache簡介
make-bcache提供了同時初始化多個設備的功能,并自動綁定緩存設備和后端磁盤:[html]?view plaincopy
bcache-tools現在已經包含了udev規則文件,bcache設備可以立即被內核感知。如果沒有udev規則,需要手動注冊設備:[html]?view plaincopy
注冊了后端磁盤后,bcache設備會出現在/dev/目錄下,現在就可以格式化然后使用了。bcache設備默認是透傳模式,因此需要綁定緩存。bcache顯示如下:[html]?view plaincopy
還有(有udev規則文件時):[html]?view plaincopy
如果要開始使用:[html]?view plaincopy
bcache的sysfs控制項在/sys/block/bcache<N>/bcache。bcache設備是按集合來管理的,但目前一個集合只支持一個bcache設備,將來會支持多個設備、元數據和臟數據鏡像。新cache設備顯示為/sys/fs/bcache/<UUID>
cache綁定:在緩存設備和后端設備都注冊之后,還要將緩存設備綁定到后端設備從而使用緩存。綁定操作如下:echo <CSET-UUID> ?> /sys/block/bcache0/bcache/attach這個操作只需要做一次就可以了。下一次系統重啟時,只需要重新注冊所有bcache設備。如果后端設備還有未定回的緩存數據,那么就不會創建/dev/bcache<N>,直到緩存設備回來,尤其在寫回策略時特別重要。如果需要在沒有緩存設備的時候強制使用設備:[html]?view plaincopy
注意這里參數是后端設備,而不是bcache設備,何況此時bcache設備還沒有創建。如果是使用分區創建的bcache設備,例如sdb2對應的目錄是/sys/block/sdb/sdb2/bcache。在強制使用bcache設備后,緩存設備添加到系統,這個緩存設備的所有緩存數據將會設置為無效。緩存設備的臟數據是不會繼續,因為這些臟數據將有可能使現在文件系統崩潰。
錯誤處理bcache嘗試處理IO錯誤而不影響正常操作,但如果錯誤數超過閥值(默認是0,可配置)會關閉緩存并切換到透傳模式。-如果是讀錯誤則嘗試直接從后端設備讀-如果是寫直達寫錯誤,將緩存對應數據塊設置為無效-去綁定時,刷回臟數據。臟數據寫回失敗目前是沒有處理的。
性能相關問題bcache有很多配置選項和可調參數。默認值適合于典型配置,如果想要更好性能則需要調整相關參數。-寫性能差如果寫性能不理想,那么建議調到寫回策略[html]?view plaincopy
-性能差,或者流量并沒有緩存到SSD默認情況下,bcache不會緩存順序IO和大文件。打開順序IO緩存:[html]?view plaincopy
設置回默認值:[html]?view plaincopy
-流量小,緩存不命中現實生活中,并不是所有SSD都能提供足夠快的速度作為磁盤的緩存,特別一個SSD作為多塊磁盤的緩存,或者順序IO時。所以需要避免SSD成為系統瓶頸。為了避免bcache設備因為SSD變慢,當延遲超過閥值時逐漸減少流量。需要關閉擁塞控制項:[html]?view plaincopy
對于讀,默認值是2000us(2ms),對于寫是20000.
SYSFS - 后端設備/sys/block/<bdev>/bcache, /sys/block/bcache*/bcache, /sys/fs/bcache/<cset-uuid>/bdev*
SYSFS - 緩存集合/sys/fs/bcache/<cset-uuid>
SYSFS - 緩存設備/sys/block/<cdev>/bcache
英文:Documentation/bcache.txt
文章來源:http://blog.csdn.net/liumangxiong/article/details/18090043
使用 LVM (基于dm-cache) 新的緩存特性
如果你有一臺帶有慢速硬盤和快速SSD的電腦,你想使用SSD作為快速持久緩存用來提升訪問硬盤的速度。然而直到最近,你有三個選擇:bcache和dm-cache都upstream,或者Flashcache/EnhanceIO。Flashcache不是upstream。dm-cache要求你首先坐下來,使用計算器計算塊的偏移。bcache是三個選擇中最全面的。
但是最近LVM已經增減了緩存的支持(構建在dm-cache之上),因此在理論上,你能讓已存在的邏輯卷轉換到已緩存的設備。
安裝
為了在實踐中了解是怎樣工作的,我在以前的無盤虛擬群集中添加了3塊硬盤。
在鏡像配置中有兩個2TB的WD硬盤。通過藍色(冷)線連接。在左側是三星EVO 250GB SSD,作為緩存的紅色(熱)盤。
另一個新聞:哦,現在品牌制造商的SSD是真的便宜!
lsblk輸出如下,sda和sdb是WD硬盤,sdc是三星SSD:
?| 123456789 | #?lsblkNAME?????????????????????????????????????MAJ:MIN?RM???SIZE?RO?TYPE??MOUNTPOINTsda????????????????????????????????????????8:0????0???1.8T??0?disk??└─sda1?????????????????????????????????????8:1????0???1.8T??0?part?? |
總結
以上是生活随笔為你收集整理的转 Linux块设备加速缓存bcache和dm-cache 使用SSD来加速服务器的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ios沙箱软件_iOS应用软件沙盒san
- 下一篇: NVIDIA显卡高性能模式设置