揭密Oracle之 七种武器
生活随笔
收集整理的這篇文章主要介紹了
揭密Oracle之 七种武器
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
揭密Oracle之 七種武器 第一章 搭建測試環境
vage揭密Oracle之 七種武器 ?第一章 搭建測試環境
(揭密Oracle之七種武器第二章地址:DTrace語法:跟蹤物理IO
http://www.itpub.net/thread-1609235-1-1.html
揭密Oracle之七種武器之三:破譯古老的謎題---共享CBC Latch的秘密
http://www.itpub.net/thread-1617245-1-1.html)
第一章 ?測試環境的搭建
面對越來越封閉的Oracle,你想揭開它神秘的面紗嗎。
奇奇怪怪的問題,總是查不出原因,你想揭開它背后的秘密嗎。
還等什么,DTrace+GDB,
有必要說明下,雖然我們只能在Solaris測試,但Oracle的工作原理,在
大部分平臺下,是一樣的 ?(可能Windows會有點不同吧)。我們用Dtrace分析Oracle的原理,比如在什么時候
、加什么樣的鎖、Pin、Latch或Mutex,加到什么操作為至釋放,會以怎樣的形式阻塞,等等,用這個原理,去
診斷其他平臺的問題。
1、安裝Solaris
首先你要有個測試環境,DTrace只有Solaris下有,我們就搭個Solaris的測試平臺吧。到Oracle官網上下個
Solaris,現在已經有11了,我下的是10,這是10的
鏈接:http://www.oracle.com/technetwork/server-storage/solaris10/overview/index.html 。如果你想用
11,當然也可以。對于我們測試Oracle,10和11差別不大的。
下載的文件,是個ISO文件,直接加載到虛擬機里安裝就可以了,安裝過程我不再說了,非常簡單。考慮到以后
我還要裝Oracle、建庫,磁盤最好搞大點,20G吧
。對了,我的虛擬機是VMWare 8.0.0 build-471780。你也可以選擇其他版本,或其他虛擬機。
2、安裝Oracle
(1)、下載Oracle
我們最好裝兩個版本,10GR2和11GR2。10G現在用的還比較多,而且10G相關DTrace和GDB的資料更多些,因為我
一直在用DTrace+GDB研究10G,后面我會逐步總結
一些我的研究結果。11GR2作為未來必定會流行的版本,有必要早做準備。
注意,11GR2在Solaris平臺,只有64位版本的。要求你的電腦要是64位才行。
groupadd dba
groupadd oinstall
useradd -g oinstall -G dba -d /export/home/lhb -m oracle
編輯/etc/system文件,增加如下行:
set shmsys:shminfo_shmmax=10737418240
set shmsys:shminfo_shmmin=1048576?
set shmsys:shminfo_shmseg=1000?
set shmsys:shminfo_shmmni=100?
set semsys:seminfo_semmns=700?
set semsys:seminfo_semmni=100
set semsys:seminfo_semmsl=256
我10G、11G都是這樣寫的。
我的.profile只有這些內容:
ORACLE_BASE=/export/home/oracle/opt/?
ORACLE_HOME=$ORACLE_BASE/product/10.2.0/?
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$ORACLE_HOME/lib:/usr/lib?
PATH=$PATH:/usr/ccs/bin:$ORACLE_HOME/bin
ORACLE_SID=h1
export ORACLE_BASE
export ORACLE_HOME
export LD_LIBRARY_PATH?
export PATH
export ORACLE_SID
解壓下載的Oracle安裝文件,開始安裝。
11G安裝畫面變了很多,但過程和10G大致上相差無幾。我安裝11GR2的時候,在環境檢查時,報swap和tmp不夠
大,直接忽略過去就行了。還有,在安裝的83%時,停了很
久。到底多久不知道,因為等了太久,都晚點12點多來,我一直有早睡早起的習慣,直接去睡了,第二天早上
起來一看,已經裝好了。
庫你怎么建都行,我一般是手動建,你當然可以選擇在安裝的時候一起建,這些基本的我就不再說了。
到http://www.sunfreeware.com中,下載GDB的庫,我下載了這五個庫:
expat-2.0.1-sol10-x86-local.gz ? ?
gdb-6.8-sol10-x86-local.gz ? ?
libiconv-1.14-sol10-x86-local.gz ?
libintl-3.4.0-sol10-x86-local.gz
ncurses-5.7-sol10-x86-local.gz
用如下命令,依次安裝5個庫。注意,最好安照我上面的順序安裝,
gunzip expat-2.0.1-sol10-x86-local.gz?
pkgadd -d expat-2.0.1-sol10-x86-local.gz
安裝完后,將gdb的路徑,加入到/etc/profile中:
在/etc/profile中增加如下行:
PATH=$PATH:/usr/sfw/bin:/usr/local/bin
LD_LIBRARY_PATH=/usr/sfw/lib
export LD_LIBRARY_PATH
export PATH
好了,等測試環境建好后,我們來一步一步,用DTrace+GDB,刀劍合璧,讓Oracle沒有秘密。
========
揭密Oracle之七種武器二:DTrace語法:跟蹤物理IO
vage揭密Oracle之七種武器二:DTrace語法:跟蹤物理IO
(第一章地址:
揭密Oracle之 七種武器 ?第一章 搭建測試環境
http://www.itpub.net/thread-1605241-1-1.html?
或參考我的BLOG www.MythData.com
揭密Oracle之七種武器之三:破譯古老的謎題---共享CBC Latch的秘密
http://www.itpub.net/thread-1617245-1-1.html
)
? ? ? ? 其實本章是以物理IO為例,介紹DTrace的基本語法。本篇內容還是比較多的,應該足夠有興趣的朋友
學習一周了。下周,再推出我的第三章。
? ? ? ? ?另外說明一下,我并不是DTrace專家,我用DTrace主要目的是研究Oracle。我們不會對DTrace作過多
深入的介紹(不過DTrace本身也沒有深入的東西,調試工具嗎,復雜的是要調試的目標),我們的主要內容,
還是逐步深入,介紹如何用DTrace分析、研究Oracle方法。
? ? ? ? 授人以魚,不如授人以漁。我相信,方法比結果重要。
? ? ? ? 本篇內容會用到一本書,Solaris 動態跟蹤指南,可以到這里下載。 ? D語言全面介紹.pdf (1.83?
MB, 下載次數: 1840) 這個是Solaris官方提供的文檔,而且是中文的。當字典來查,非常不錯。
第二章 ?DTrace語法:跟蹤物理IO
第一節 ?Hello World
? ? ? ? DTrace是什么,這個問題很容易回答:調試工具。具體我們可以這樣理解,Solaris在其內部,增加了
N多的觸發器,這些觸發器平時是Disable的,對性能沒有任
何影響。你可以通過DTrace,Enable某些觸發器。并且,在Enable的同時,還可以為這些觸發器指定動作。
? ? ? ? 比如,有一個I/O觸發器,你用DTrace Enable了它,同時,你定義動作,“每次發生I/O時,顯示出
I/O大小”。當然,還可以定義更復雜的動作,顯示I/O的內容
、甚至修改I/O數據。進程想往磁盤中寫個A,你可以用DTrace,將A換成B。當然,我們調試進程,一般不需要
修改,只需要觀察。
? ? ? ? 換成DTrace中的術語,觸發器就是Probe,可以譯為探針。探針并時都是關閉的,也就是Disable的。
我們可以使用DTrace,打開探針,并為探針指定動作。當探針
被觸發,你通過DTrace為探針定義的動作,就會被執行。
? ? ? ? 好,閑言少敘,試試我們的第一個DTrace程序吧。讓我們也來個DTrace版的“Hello World
”吧。
? ? ? ? 在root下,vi test1.d,輸入如下命令:
BEGIN
{
? ? printf("hello world,www.MythData.com ";
? ? exit(0);
}
如下執行此腳本:
# dtrace -s test1.d
結果顯示:
dtrace: script 'test1.d' matched 1 probe
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 3 ? ? ?1 ? ? ? ? ? ? ? ? ? ? ? ? ? :BEGIN hello world,www.MythData.com?
? ? ? ? 在此加上我的BLOG地址,我的那篇突然35歲,雖然被轉載的到處都是,但被截掉了我的BLOG地址。唉
。如果有人轉載的話,應該也會有人截掉的。
? ? ? ? 閑言少敘,上面就是顯示結果了。對于我的程序和輸出結果,略加說明。
? ? ? ? 1、BEGIN:它是DTrace的探針之一。也是最簡單的探針。它不和操作系統任何操作關聯,一般它用來
做DTrace程序運行的初始化工作。BEGIN探針中的代碼,會在
DTrace程序開始時運行。
? ? ? ? 2、大括號:如我們所見,探針名之下,就是大括號。這足以說明DTrace的設計者是C語言迷,將C語言
的格式帶入到了DTrace中來。
? ? ? ? 3、大括號中間的語句:這就是我們為BEGIN探針定義的動作了。包含兩條語句,顯示和退出。每條語
句之后以;號結尾。
? ? ? ? 4、關于這兩條語句,我就不再多說了,printf,在此的使用方法,完全和C語言一樣。
? ? ? ? 5、兩注意事項,(1)、大小寫是敏感的。(2)、如果不加exit(0)的話,此程序運行完將不會退出
。可以手工Ctrl+C退出。
? ? ? ? 輸出結果的話:
? ? ? ? 1、CPU列為3,說明此DTrace程序在運行時,剛好在3號CPU上執行命令。
? ? ? ? 2、ID列是探針編號。
? ? ? ? 3、FUNCTION:NAME,:BEGIN,探針名相關信息,這個后面再詳細說。
? ? ? ? 4、最后無列名的部分,hello world,www.MythData.com,就是我們程序的輸出結果了。
? ? ? ? 最后,每次運行此程序時,都要dtrace -s,太麻繁了。我們可以添加一個#!/usr/sbin/dtrace -s在
程序頭,如下所示:
#!/usr/sbin/dtrace -s
BEGIN
{
? ? printf("hello world,www.MythData.com ";
? ? exit(0);
}
? ? ? ? 保存,使用chmod 755 test1.d,賦上去可執行權限,如下方式執行:
# ./test1.d
dtrace: script './test1.d' matched 1 probe
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 0 ? ? ?1 ? ? ? ? ? ? ? ? ? ? ? ? ? :BEGIN hello world,www.MythData.com?
第二節 ?詳述探針(Probe)
? ? ? ? 完整的探針描述符,絕對不至上節我們遇到的BEGIN這么簡單。它包括PROVIDER(提供器),MODULE(
模塊名),FUNCTION(函數名)和NAME(探針名稱)四部分
。BEGIN只是最簡單的一個特例。
? ? ? ? PROVIDER是最上層的稱號,比如有IO PROVIDER,進程PROVIDER,等等。每種PROVIDER根據其包含的探
針不同,又分為N種MODULE。MODULE之中又包含各種FUNCTION
,最后的NAME是探針名,通常是進入、開始、退出、完成這些東西,在進入一個FUNCTION(函數)、退出函數、
完成函數等等動作發生時被觸發。
? ? ? ? 我們以IO為例,這應該是我們最關心的話題。操作系統中大部分IO事件的開始處,有這樣一個探針:
io:genunix:bdev_strategy:start
? ? ? ? io是PROVIDER,genunix是MODULE。bdev_strategy是FUNCTION,所有串行磁盤I/O事件將調用
bdev_strategy函數完成。最后一個,start,bdev_strategy函數入口
處的探針。
? ? ? ? 我們可以這樣稱呼它,io提供器下的genunix模塊中的bdev_strategy函數上的start探針。我們可以理
解為某數據庫下某Schema中的某個表上的某某觸發器。一個
探針的稱呼其實無所謂。了解Solaris一供為我們提供了什么PROVIDER(提供器),這些提供器下都有什么
MODULE(模塊),這些模塊中都有什么FUNCTION(函數),以及
這些函數上都有什么探針,這才是重要的。關于這點,我們可以參考《Solaris 動態跟蹤指南》,這是本書像
一本字典,詳細介紹了所有的提供器、模塊等等。
? ? ? ? 好,先以io:genunix:bdev_strategy:start為例子,測試一下吧:
vi test2.d
#!/usr/sbin/dtrace -s
BEGIN
{
? ? i=0;
}
io:genunix:bdev_strategy:start
{
? ? printf("%d number physio IO",i);
? ? i++;
}
保存,chmod 755 test2.d,這是執行的結果:
# ./test2.d
dtrace: script './test2.d' matched 2 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 0 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 1 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 2 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 3 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 4 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 5 number physio IO
……………………
? ? ? ? 每有一次IO,程序會都會顯示一行,“ ?1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:star”,這一部分
是固定輸出,這一部分其實可以用一個參數關掉。參數我們以
后再說。后面“ 0 number physio IO”,是我們程序的輸出結果。
? ? ? ? 如果我們不按Ctrl+C,程序會一直顯示下去。每有一次串行IO發生,準確說是每調用一次
bdev_strategy函數,探針被觸發一次,就會顯示一行。
? ? ? ? 只顯示IO的次數,也沒啥意義。其實我們可以顯示更多的東西。但要對IO類探針進一步了解些。
? ? ? ? bdev_strategy既然被叫作函數,是函數的話,當然有參數。它一共有3個參數,參數1是bufinfo_t型
的結構,參數2是devinfo_t型結構,參數3是fileinfo_t型結
構。可以參見《Solaris 動態跟蹤指南》 356頁。
? ? ? ? 另外,結構,Struct,C語言的基本東西。不會的話,去看看潭浩強的C語言吧。二級C語言,我想我們
都應該沒啥問題吧。確定寫DTrace腳本,連二級C都不需要,
只需要對C語言有最基本的了解即可。
? ? ? ? 這三個結構當中,fileinfo_t包含的有I/O所針對的文件名,請允許我粘一段《Solaris 動態跟蹤指南
》 359頁的內容,fileinfo_t結構的定義:
typedef struct fileinfo?
{
? ? ? ? string fi_name; ? ? ? ? /* name (basename of fi_pathname) */
? ? ? ? string fi_dirname; ? ? ? ? /* directory (dirname of fi_pathname) */
? ? ? ? string fi_pathname; ? ? ? ? /* full pathname */
? ? ? ? offset_t fi_offset; ? ? ? ? /* offset within file */
? ? ? ? string fi_fs; ? ? ? ? ? ? ? ? /* filesystem */
? ? ? ? string fi_mount; ? ? ? ? /* mount point of file system */
} fileinfo_t;
? ? ? ? 在此,照顧一下不會C語言的人,簡單說明一下,如果我們要訪問結構中的內容,格式是“結構名.域
”,或者“結構指針->域”。在DTrace中,我們得到的一般都
是指針。
? ? ? ? 好,下面我們改一下腳本程序:
io:genunix:bdev_strategy:start
{
? ? printf("%s",args[2]->fi_pathname);
}
? ? ? ? args[2],是bdev_strategy函數的第三個參數,這是Dtrace中的固定用法。DTrace中還會有一些類似
的固定用法,可以參考《Solaris 動態跟蹤指南》P68頁,內
置變量。我們以后還會用到一些其他的。
? ? ? ? 在bdev_strategy函數中,第三個參數是fileinfo_t型的指針,也就是說,我們可以用“args[2]->域
”的格式,訪問fileinfo_t型結構中的域。我們此外訪問的域
是fi_pathname,也就是文件的完整路徑加名字,形式就是如上面所示:args[2]->fi_pathname。
這是我執行后的結果:
# ./test2.d
dtrace: script './test2.d' matched 2 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 0 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 0 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start <none>
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start <none>
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start <none>
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start <none>
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? ? ? ? 可以看到,有很多控制文件的寫。隨帶說一下,我這個測試庫很閑,沒有任何操作。但你可以看著表
統計一下,不超過3秒,肯定會有一次控制文件的IO操作。原
因是什么,我就不用再說了吧。
? ? ? ? 再進一步的,Oracle每次控制文件的IO是多大呢? IO的大小在bufinfo_t結構中的b_bcount域,你可
以查看《Solaris 動態跟蹤指南》 356頁,為了節省篇幅,我
就不再粘過來了。bufinfo_t結構的指針,是bdev_strategy的第一個參數,也就是args[0]。因此,我們可以如
下再次修改代碼:
io:genunix:bdev_strategy:start
{
? ? printf("%s %d",args[2]->fi_pathname,args[0]->b_bcount);
}
這是我的執行結果:
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /var/tmp/Exwla4xc 8192
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/redo03 4096
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192
? ? ? ? 控制文件的IO大小,很整齊的都是8192字節,8K,控制文件的塊大小。出乎我意料的是,有一個Redo
文件:redo03,它的IO大小是4096。我以前一直以為,應該是
512才對,因為Solaris下,Redo的塊大小就是512字節啊(我碰到的系統,好像只有HP的不是512)。
? ? ? ? 不急,我們還沒有搞清楚這些IO是讀還是寫呢,說不定是歸檔的讀Redo IO呢。還是bufinfo_t結構,
b_flags域,說明了IO類型。關于這個域,在操作系統內部定
義了幾個標志(就是用#define 定義的),B_WRITE代表IO是寫,B_READ代表是讀,還有些其他的,自己到357
頁查吧。
? ? ? ? 我將代碼修改如下,添加上去IO類別的判斷:
io:genunix:bdev_strategy:start
{
? ? printf("%s %d %s",args[2]->fi_pathname,args[0]->b_bcount,args[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? args[0]->b_flags&B_READ?"R":"W",這種使用形式,條件表達式,是我們以后常用的形式,因為
DTrace中沒有if、while等流程控制語句,所以條件表達式將是if
的常用替代者,但它必竟替代不了復雜的控制語句。
? ? ? ? 仍然是為了程序不太好的人,介紹一下這個條件表達式:“條件?值1?值2”,將條件為True,值1為
整個條件表達式的值。否則,值2為整個條件表達式的值。
這是執行結果:
? 3 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192?
W
? 3 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192?
W
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/redo01 4096 W
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192?
W
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192?
W
………………
? ? ? ? 控制文件IO也全是寫,還有,中間的Redo文件IO,是我專門修改1行,Commit一下產生的,IO大小是
4096字節,而且是寫IO。看來,的確是LGWR在寫Redo01。我們
可以觀察一會兒,不會發現Redo文件有512字節IO,這也說明了一個我之前一直忽視的問題,先賣個關子,我們
待會再討論。
? ? ? ??
? ? ? ? 我們為io:genunix:bdev_strategy:start處的探針定義了動作,當運行此DTrace腳本時,我們就開啟
了探針io:genunix:bdev_strategy:start。但有些IO,并不是
通過bdev_strategy函數完成的,探針io:genunix:bdev_strategy:start捕獲不得這些IO。為了開啟更多的探針
、捕獲更多的IO操作,在完整的探針描述符中,我們可以確
實部分內容,下面,如下修改程序:
io:genunix::start
{
? ? printf("%s %d %s",args[2]->fi_pathname,args[0]->b_bcount,args[0]->b_flags&B_READ?"R":"W" );
}
腳本程序運行后的提示:
# ./test2.d
dtrace: script './test2.d' matched 4 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?
8192 W
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?
8192 W
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?
8192 W
? ? ? ? 其中,第一行“dtrace: script './test2.d' matched 4 probes”,說明一共開啟了4個探針,比之
前的測試,多開啟了兩個探針。
? ? ? ? 我們還可以進一步省略,io:::start,這將開啟7個探針。我就不再測試了。但我們不能寫成:::start
,或io:::這樣的形式。
? ? ? ? 我們還可以使用通配符,如“i*:::start”,這就是打開所有i開頭的提供器中的所有模塊、所有函數
的Start探針。當然,我們也可以在模塊、函數名中,使用通
配符,但不能在探針名中使用通配符。比如,這樣將是錯誤的:“io:::st*”。通配符還可以是問號,比如:
“i?:::start”。 * 號代表所有字符,一個 ? 號,只能代表
一個字符。
? ? ? ? 探針的使用,說的也就差不多了,最后再來一個總結,我們如何知道Solaris有哪些探針,當然,我們
可以查看《Solaris 動態跟蹤指南》。除了這個之外,
dtrace -l 命令可以查看所有的探針:
# dtrace -l|wc -l
? ?51805
? ? ? ? 我使用的Solaris中,一共有5萬多個探針。
? ? ? ? 我們還可以顯示某一個提供器下所有探針,這樣更有針對性,比如,顯示io提供器下有什么模塊、函
數、探針:
# dtrace -lP io
? ?ID ? PROVIDER ? ? ? ? ? ?MODULE ? ? ? ? ? ? ? ? ? ? ? ? ?FUNCTION NAME
? 767 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? ? ? ? biodone done
? 768 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? ? ? ? biowait wait-done
? 769 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? ? ? ? biowait wait-start
? 780 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ?default_physio start
? 781 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? bdev_strategy start
? 782 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? ? ? ? aphysio start
2530 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ?nfs4_bio done
2531 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ?nfs3_bio done
2532 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ? nfs_bio done
2533 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ?nfs4_bio start
2534 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ?nfs3_bio start
2535 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ? nfs_bio start
? ? ? ? 不多,io提供器下,只有13個探針。
? ? ? ? 好了,探針的內容我們就說到這兒,下面,下一項內容:謂詞。
第三節 謂詞
? ? ? ? 謂詞其實就是條件語句,減化版的條件語句。比如,我們繼續前面的例子,我只想觀察一下針對Redo
文件的IO,我們可以這樣做,先用如下命令確認一下當前Redo
文件是誰:
set linesize 10000
select * from v$log;
? ? GROUP# ? ?THREAD# ?SEQUENCE# ? ? ?BYTES ? ?MEMBERS ARC STATUS ? ? ? ? ? FIRST_CHANGE#?
FIRST_TIM
---------- ---------- ---------- ---------- ---------- --- ---------------- -------------?
---------
? ? ? ? ?1 ? ? ? ? ?1 ? ? ? ?470 ? 62914560 ? ? ? ? ?1 YES ACTIVE ? ? ? ? ? ? ? ? 9387236 05-
MAY-12
? ? ? ? ?2 ? ? ? ? ?1 ? ? ? ?471 ? 62914560 ? ? ? ? ?1 NO ?CURRENT ? ? ? ? ? ? ? ?9388037 05-
MAY-12
? ? ? ? ?3 ? ? ? ? ?1 ? ? ? ?469 ? 62914560 ? ? ? ? ?1 YES INACTIVE ? ? ? ? ? ? ? 9386469 05-
MAY-12
2號Redo文件是當前Redo文件,再如下確認一下2號Redo文件是誰:
select member from v$logfile where group#=2;
MEMBER
-------------------------------------------------------------------------------------------------
-----------------------------------------------------
/export/home/oracle/opt/dbdata/h1/redo2.log
? ? ? ? 好,如下修改腳本:
io:::start
/ args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo2.log" /
{
? ? ? ? printf("%s %s %d %s\n",args[1]->dev_statname,args[2]->fi_pathname,args[0]->b_bcount,args
[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? 探針描述符我簡寫為:io:::start,我開啟了所有IO開始處的探針,攔截io提供器下所有的IO函數調
用。在探針描述符之下的 / ………… / ,就是本節所要介紹
的謂詞。簡單點說,就是條件。當探針被觸發后,只有滿足謂詞條件,才會執行探針下的動作。
? ? ? ? 結合上面的程序,也就是當有IO發生時,只有當IO是針對redo2.log這個文件的,才會執行下面的
Printf命令。
? ? ? ? 開一個數據庫會話,使用update命令更新一行,觀察一下行針對Redo的IO。
? ? ? ? 我針對一個很小的表,執行如下命令:
SQL> update a1 set id=id+0 where id=1;
1 row updated.
SQL> commit;
Commit complete.
? ? ? ? 觀察結果, update a1 set id=id+0 where id=1時,并沒有Redo的IO,這是因為在全新的IMU模式下
,Redo機制Oracle做了很大調整,DML語句執行時,只要沒有
超過private strand大小,日志不會被寫進Log Buffer。關于這些內容,后面我們專門開個帖子詳細討論吧。
在Commit時,就有了如下輸出:
# ./test2.d
dtrace: script './test2.d' matched 7 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo2.log?
4096 W
? ? ? ? 有4096字節的針對Redo2.log的寫IO。但是,注意,并不是每次提交時,都會有IO。下面是我做的一個
完整測試,我一共執行了上面的Update、commit命令共10次
,有6次commit時有IO:
# ./test2.d
dtrace: script './test2.d' matched 7 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?
4096 W
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?
4096 W
? 3 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?
4096 W
? 1 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?
4096 W
? 3 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?
4096 W
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?
4096 W
? ? ? ? 我們可以用truss 跟蹤一下lgwr進程,每次提交時,lgwr都會調用pwrite64函數,寫Redo文件。寫的
大小不等,最小時會是512字節。而且,每次提交時,都會寫
Redo文件。這就是Oracle的運行法則之一嗎,提交時,一定會寫Redo文件。但是,如果你使用的是文件系統,
對日志文件的寫,操作系統有可能只是暫時先寫進主機的緩存
當中。
? ? ? ? 當然,在Solaris下,我們可以mount -o directio 這樣Mount磁盤,所有IO都將是直接IO了。
? ? ? ? 使用文件系統是危險的。我只了解Oracle,不了解各種文件系統。嚴謹點的說法,使用某些文件系統
存放Redo文件是危險的。有可能造成提交后的數據丟失。如果
你決定使用文件系統,一定要詳細了解下你的文件系統,針對Redo文件,是否是直接IO,或者在突然當機后的
處理,有沒有類似Oracle的實例恢復機制。
? ? ? ? 我們可以測試一下,做一個DML操作,提交,然后馬上關掉主機電源(我是Power Off掉虛擬機的電源
),再重新啟動虛擬機、數據庫,查看剛才已經提交DML的結
果,你會發現,有時DML的結果會丟失掉的。注意,是已提交的DML結果會丟失。
? ? ? ? 在謂詞中,我們可以使用常見的||、&&、!,就是或、與、非。比如,我共有三個日志文件,上面的
謂詞我捕獲一個日志文件redo2.log的IO,為了三個文件都捕
獲,可以如下改寫:
io:::start
/ args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo1.log" ||?
? args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo2.log" ||
? args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo3.log" /
{
? ? ? ? printf("%s %s %d %s\n",args[1]->dev_statname,args[2]->fi_pathname,args[0]->b_bcount,args
[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? 謂詞中我使用兩個||符號,也就是“或”,將三個條件連接起來。只要有任意一個條件滿足,都會執
行下面的printf命令。這樣,無論日志怎么切換,我們都可以
觀察Redo的IO情況了。
? ? ? ? 那么,ASM會不會有這樣的情況呢,我們可以測試下。
? ? ? ? 首先,配置ASM。我們先在10G下測試吧,10G的ASM配置比較簡單,網上資料也比較多。11GR2的,我們
以后再配置、觀察。
(1)、配置ASM
# export ORACLE_HOME=/export/home/oracle/opt//product/10.2.0/
# cd $ORACLE_HOME/bin
# ./localconfig add
(2)、準備ASM參數文件
$ cat asmpfile.ora
instance_type=asm
cluster_database=false
asm_diskgroups=dg1
asm_diskstring='/dev/rdsk/c*'
processes=200
remote_login_passwordfile=exclusive
core_dump_dest=/export/home/oracle/opt/admin/myasm/cdump
user_dump_dest=/export/home/oracle/opt/admin/myasm/udump
background_dump_dest=/export/home/oracle/opt/admin/myasm/bdump
(3)、啟動ASM實例
? ? ? ? 先要保證參數文件中background_dump_dest幾個參數中所指定的位置是有的,如下啟動ASM實例即可:
ORACLE_SID=myasm
sqlplus / as sysdba
create spfile from pfile='/export/home/oracle/asmpfile.ora';
startup nomount;
? ? ? ? 在我博客上有一篇文章,專門講如何配置ASM的:http://space.itpub.net/321157/viewspace-718805
(4)、給虛擬機添加新的磁盤。
? ? ? ? 這個我就不多說了,要先關掉虛擬機,添加完磁盤再重啟。先添加兩塊吧,大小不用太大。
(5)、格式化
? ? ? ? 格式化的步驟比較長,我寫的詳細些:
# format ? ?<----------------------------------format ,格式化命令。
Searching for disks...done
AVAILABLE DISK SELECTIONS:
? ? ? ?0. c0d1 <DEFAULT cyl 2085 alt 2 hd 255 sec 63>
? ? ? ? ? [url=]/pci@0,0/pci-ide@7,1/ide@1/cmdk@1,0[/url]
? ? ? ?1. c1t1d0 <DEFAULT cyl 98 alt 2 hd 64 sec 32>
? ? ? ? ? [url=]/pci@0,0/pci15ad,1976@10/sd@1,0[/url]
? ? ? ?2. c1t3d0 <DEFAULT cyl 98 alt 2 hd 64 sec 32>
? ? ? ? ? [url=]/pci@0,0/pci15ad,1976@10/sd@3,0[/url]
? ? ? ?3. c2t0d0 <DEFAULT cyl 98 alt 2 hd 64 sec 32>
? ? ? ? ? [url=]/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@0,0[/url]
? ? ? ?4. c2t1d0 <DEFAULT cyl 98 alt 2 hd 64 sec 32>
? ? ? ? ? [url=]/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0[/url]
Specify disk (enter its number):1 ? ?<-------------------------除了c0d1是我安裝系統時,原始創建的
磁盤外,剩下四個是后面添加的。此處我選擇1號磁盤,
c1t1d0。
selecting c1t1d0
[disk formatted]
FORMAT MENU:
? ? ? ? disk ? ? ? - select a disk
? ? ? ? type ? ? ? - select (define) a disk type
? ? ? ? partition ?- select (define) a partition table
? ? ? ? current ? ?- describe the current disk
? ? ? ? format ? ? - format and analyze the disk
? ? ? ? fdisk ? ? ?- run the fdisk program
? ? ? ? repair ? ? - repair a defective sector
? ? ? ? label ? ? ?- write label to the disk
? ? ? ? analyze ? ?- surface analysis
? ? ? ? defect ? ? - defect list management
? ? ? ? backup ? ? - search for backup labels
? ? ? ? verify ? ? - read and display labels
? ? ? ? save ? ? ? - save new disk/partition definitions
? ? ? ? inquiry ? ?- show vendor, product and revision
? ? ? ? volname ? ?- set 8-character volume name
? ? ? ? !<cmd> ? ? - execute <cmd>, then return
? ? ? ? quit
format> fdisk ? ?<------------------------應該先fdisk一下
No fdisk table exists. The default partition for the disk is:
? a 100% "SOLARIS System" partition
Type "y" to accept the default partition, ?otherwise type "n" to edit the
partition table.
y <-----------------------------此處輸入y
format> partition ? <---------------------進入分區命令
PARTITION MENU:
? ? ? ? 0 ? ? ?- change `0' partition
? ? ? ? 1 ? ? ?- change `1' partition
? ? ? ? 2 ? ? ?- change `2' partition
? ? ? ? 3 ? ? ?- change `3' partition
? ? ? ? 4 ? ? ?- change `4' partition
? ? ? ? 5 ? ? ?- change `5' partition
? ? ? ? 6 ? ? ?- change `6' partition
? ? ? ? 7 ? ? ?- change `7' partition
? ? ? ? select - select a predefined table
? ? ? ? modify - modify a predefined partition table
? ? ? ? name ? - name the current table
? ? ? ? print ?- display the current table
? ? ? ? label ?- write partition map and label to the disk
? ? ? ? !<cmd> - execute <cmd>, then return
? ? ? ? quit
partition> print ? ? ?<-------------------查看分區狀態
Current partition table (original):
Total disk cylinders available: 98 + 2 (reserved cylinders)
Part ? ? ?Tag ? ?Flag ? ? Cylinders ? ? ?Size ? ? ? ? ? ?Blocks
? 0 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 1 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 2 ? ? backup ? ?wu ? ? ? 0 - 97 ? ? ? 98.00MB ? ?(98/0/0) 200704 ?<-------2號分區已經被系統使用
? 3 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 4 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 5 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 6 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 7 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 8 ? ? ? boot ? ?wu ? ? ? 0 - ?0 ? ? ? ?1.00MB ? ?(1/0/0) ? ?2048 ?<-------8號分區也已經被系統使
用
? 9 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
partition> 0 ? <--------------------------------------選擇第0號分區,也可以選擇1號、3號或其他的,
但不能選擇2號、8號這兩個已經占用的。
Part ? ? ?Tag ? ?Flag ? ? Cylinders ? ? ?Size ? ? ? ? ? ?Blocks
? 0 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
Enter partition id tag[unassigned]: ? ?<-------- 缺省,直接回車
Enter partition permission flags[wm]: ?<-------- 缺省,直接回車
Enter new starting cyl[0]:1 ? ? ? ? ? ?<-------- 如果要用ASM,此處要從1開始,否則可以從0開始
Enter partition size[0b, 0c, 0e, 0.00mb, 0.00gb]: 95mb ?<-------- 輸入大小
partition> label ? <-------------設置label
Ready to label disk, continue? y ?<------------輸入y
partition> quit ? ?<-------------退出partition,回到Format
FORMAT MENU:
? ? ? ? disk ? ? ? - select a disk
? ? ? ? type ? ? ? - select (define) a disk type
? ? ? ? partition ?- select (define) a partition table
? ? ? ? current ? ?- describe the current disk
? ? ? ? format ? ? - format and analyze the disk
? ? ? ? fdisk ? ? ?- run the fdisk program
? ? ? ? repair ? ? - repair a defective sector
? ? ? ? label ? ? ?- write label to the disk
? ? ? ? analyze ? ?- surface analysis
? ? ? ? defect ? ? - defect list management
? ? ? ? backup ? ? - search for backup labels
? ? ? ? verify ? ? - read and display labels
? ? ? ? save ? ? ? - save new disk/partition definitions
? ? ? ? inquiry ? ?- show vendor, product and revision
? ? ? ? volname ? ?- set 8-character volume name
? ? ? ? !<cmd> ? ? - execute <cmd>, then return
? ? ? ? quit
format> type ? ? ? ? ?<----------------------------選擇類型
AVAILABLE DRIVE TYPES:
? ? ? ? 0. Auto configure
? ? ? ? 1. DEFAULT
? ? ? ? 2. other
Specify disk type (enter its number)[1]: 1 ? ?<---------------------此處選DEFAULT
selecting c1t1d0
[disk formatted]
format> save ? ? ? ? ? ? ? ? ? <-----------------------------此處,輸入save,保存剛才做的所有工作
Saving new disk and partition definitions
Enter file name["./format.dat"]: ? ? ? ?<-----------------------此處直接回車
format> quit ? ? ? ? ? ? <---------------------退出
#
? ? ? ? 然后到剛才啟動的ASM實例中,確定asm_diskstring參數的值為/dev/rdsk/c*:
SQL> show parameter string
NAME ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? TYPE ? ? ? ?VALUE
------------------------------------ ----------- ------------------------------
asm_diskstring ? ? ? ? ? ? ? ? ? ? ? string ? ? ?/dev/rdsk/c*
? ? ? ? 查看我們剛才Format的磁盤:
SQL> select path from v$asm_disk;
PATH
--------------------------------------------------------------------------------
/dev/rdsk/c0d1s0
/dev/rdsk/c0d1s1
/dev/rdsk/c0d1s7
/dev/rdsk/c0d1s9
/dev/rdsk/c1t1d0s0
? ? ? ? /dev/rdsk/c1t1d0s0,即為我們剛才Format的磁盤。c0d1s9這些不是,這些是裝系統時建的盤。
? ? ? ? 說到這兒,補充一下Solaris下磁盤名的格式:
/dev/[r]dsk/cXtXdXsX
c:邏輯控制器號(邏輯控制器)
t:物理總線目標號
d:磁盤或邏輯單元號(LUN)
s:分區號
如c1t1d0s0表示1號控制器,1號磁盤,0號LUN,0號分區。
? ? ? ??
? ? ? ? 分完區后,不需要設置屬主,ASM就可以自動識別到了。再把其他的盤也Format一下,讓ASM可以識別
到。
? ? ? ? 我最終選擇了這兩塊盤創建DG:
SQL> create diskgroup dg1 external redundancy disk '/dev/rdsk/c2t1d0s3','/dev/rdsk/c1t3d0s3';
Diskgroup created.
? ? ? ??
? ? ? ? 然后我們把Redo挪到ASM的dg1中,我在asmcmd中,在DG1里面建了一個redo目錄,然后到數據庫實例中
,將組2、組3挪進了ASM。在刪除組1、再添加組1到ASM中時
,報ASM空間不足。算了,我的磁盤太小了。
alter database drop logfile group 2;
alter database add logfile group 2 ('+DG1/redo/redo2.log') size 60m reuse;
alter database drop logfile group 3;
alter database add logfile group 3 ('+DG1/redo/redo3.log') size 60m reuse;
alter database drop logfile group 1;
? ? ? ? 現在我只有兩組日志,都在ASM中,對于我們測試來說,兩組已經夠了:
SQL> select * from v$log;
? ? GROUP# ? ?THREAD# ?SEQUENCE# ? ? ?BYTES ? ?MEMBERS ARC STATUS ? ? ? ? ? FIRST_CHANGE#?
FIRST_TIM
---------- ---------- ---------- ---------- ---------- --- ---------------- -------------?
---------
? ? ? ? ?2 ? ? ? ? ?1 ? ? ? ?489 ? 62914560 ? ? ? ? ?1 NO ?CURRENT ? ? ? ? ? ? ? ?9400623 07-
MAY-12
? ? ? ? ?3 ? ? ? ? ?1 ? ? ? ? ?0 ? 62914560 ? ? ? ? ?1 YES UNUSED ? ? ? ? ? ? ? ? ? ? ? 0
? ? ? ? 好了,開始我們的測試吧。修改一下腳本:
io:::start
{
? ? ? ? printf("%s %s %d %s\n",args[1]->dev_statname,args[2]->fi_pathname,args[0]->b_bcount,args
[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? 將上面所加的args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo1.log" ? ? ? ?這
種謂詞去掉。
# ./test2.d
dtrace: script './test2.d' matched 7 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 1 ? 3092 ? ? ? ? ? ? default_physio:start sd5 <none> 4096 W
? 1 ? 3092 ? ? ? ? ? ? default_physio:start sd2 <none> 4096 W
? 3 ? 3093 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?
8192 W
? 3 ? 3093 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?
8192 W
……………………………………
……………………………………
……………………………………
? ? ? ? 由于打開了7個探針,所有IO開始時的操作都會被我們捕獲,因此,輸出信息會比較多。
? ? ? ? 在Oracle 會話中,修改一行數據,再提交,可以觀察到這樣的IO:
? 2 ? 3094 ? ? ? ? ? ? ? ? ? ?aphysio:start sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? ? ? ? [url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url],這一串東西是啥?只要顯示一下
ASM中的磁盤就明了了,我的ASM DG1 中包含這兩塊盤/dev/rdsk/c2t1d0s3,
/dev/rdsk/c1t3d0s3。
# ls -lFrt /dev/rdsk/c2t1d0s3
lrwxrwxrwx ? 1 root ? ? root ? ? ? ? ?64 Mar 17 10:03 /dev/rdsk/c2t1d0s3 ->?
../../devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw*
# ls -lFrt /dev/rdsk/c1t3d0s3
lrwxrwxrwx ? 1 root ? ? root ? ? ? ? ?50 Mar 17 10:03 /dev/rdsk/c1t3d0s3 ->?
../../devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw
? ? ? ? 經過觀察,可以發現,剛才的IO,其實是針對/dev/rdsk/c1t3d0s3的,這正是DG1中的一塊盤。接下來
我們如下修改腳本:
io:::start
/ args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url]" ||
? args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url]"?
/
{
? ? ? ? printf("%s %s %d %s\n",args[1]->dev_statname,args[2]->fi_pathname,args[0]->b_bcount,args
[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? 我們只觀察針對這兩個磁盤的IO。執行一條簡單的DML,修改一行,我執行如下命令:
SQL> update a1 set id=id+0 where id=2;
1 row updated.
SQL> commit;
Commit complete.
? ? ? ? 在提交時,可以發現會有如下的IO:
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? ? ? ? 每次提交時,都會有IO發生,這是和文件系統的最大區別。這樣的話,我們提交的數據,就不會丟失
了。有時,也可以觀察到512字節的IO。
? ? ? ? 再進一步的,我們知道,在ASM中,AU的大小通常是1M,條帶大小也為1M。但Redo和控制文件Oracle會
將它們設置為“細粒度條帶”,條帶大小為128K。這個128K
,到底有什么意義呢? 為什么我上面一定要在ASM DG1中,至少搞兩塊磁盤,就是為了觀察這個“細粒度條帶
”。我們繼續。
? ? ? ??
? ? ? ? 經過觀察,我測試用的兩條命令,update a1 set id=id+0 where id=2;,commit,每次執行,都會產
生1K的Redo。這種說法也不太準備,更準確應該是這兩條命
令,每次執行會觸發Lgwr 執行1K的IO寫操作。其實這兩條語句產生的Redo只有700多字節,但提交的時候,
LGWR寫Redo數據,只能以塊為單位去寫。700多字節,正好占兩
個日志塊,1K字節。
? ? ? ? 腳本再做一下修改,完整的腳本如下:
#!/usr/sbin/dtrace -s
BEGIN
{
? ? i=0;
}
io:::start
/ args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url]" ||
? args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url]"?
/
{
? ? ? ? printf("IO number:%d %s %s %d %s\n",i,args[1]->dev_statname,args[2]->fi_pathname,args
[0]->b_bcount,args[0]->b_flags&B_READ?"R":"W" );
? ? ? ? i++;
}
? ? ? ? 我把之前用過的i++加了進來,主要用來觀察IO的次數。好,運行這個程序,然后反反復復的執行上面
的DML和提交語句。
# ./test2.d
dtrace: script './test2.d' matched 7 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:0 sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:1 sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
…………………………………………省略部分內容…………………………………………
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:99 sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 2 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:100 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? 2 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:101 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
…………………………………………省略部分內容…………………………………………
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:227 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:228 sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:229 sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
…………………………………………省略部分內容…………………………………………
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:354 sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:355 sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:356 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:357 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
^C
? ? ? ? 上面的結果,注意IO number:0的值,從IO number:100到IO number:227為止,共128次1K的IO,都是
針對,磁盤設
備“/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw”,從228次IO到355次IO,共128次1K IO,針對另一磁
盤設
備“/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw”。
? ? ? ? 這就是細粒度條帶的意義。雖然AU大小仍為1M,文件仍是按1M來分配空間。文件的第一個1M,在磁盤1
,第二個1M,在磁盤2,等等。但在使用空間的時候,卻是按
128K。先在磁盤1寫128K,再在磁盤2中寫128K,等等。
? ? ? ? 最后,還有一個問題,比如第100和101次IO:
? 2 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:100 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? 2 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:101 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? ? ? ? 這是兩次IO,每次IO的大小是1K,但是,我們如何確定這兩次1K大小的IO,一共寫了4個日志塊?有沒
有可能100次IO,寫了1、2號日志塊,101次IO,寫了2、3號
日志塊,兩次1K大小的IO,總共寫了1.5K數據?
? ? ? ? 之所以有這樣的疑問,是因為我的那條DML加提交,產生的Redo量是700多字節。雖然要占兩個塊,但
是占不滿兩個塊。那么,接下來的一次針對Redo的IO,是從沒
占滿的塊繼續往下寫,還是新占一個塊?
? ? ? ? 在資料視圖中,有一個資料redo wastage,Redo浪費空間。如果兩次IO每次各占兩個塊,redo?
wastage會不會有增加呢? 我用如下語句查了一下
SQL> col name for a20
SQL> select name,value from v$sesstat a,v$statname b where a.statistic#=b.statistic# and b.name?
in( 'redo size','redo wastage') and sid=855;
NAME ? ? ? ? ? ? ? ? ? ? ?VALUE
-------------------- ----------
redo size ? ? ? ? ? ? ? ?774092
redo wastage ? ? ? ? ? ? ? ? ?0
? ? ? ? 855號會話,就是我反反復復執行那條DML、提交語句的會話。我們沒有觀察到這個會話中有Redo浪費
。通過這個結果,我上面的測試,好像兩次相鄰的、1K大小的
IO,應該并沒有產生共2K的Redo,應該只有1.5K。
? ? ? ? 但是,如果是這樣的話,我們上面關于“細粒度條帶”的結論,就有問題了。因為它是建立在連續128
次1K大小的IO,共寫了128K Redo基本上的。或者說,是建立
在兩次相鄰的、1K大小的IO,一定會產生2K的Redo這個基礎上。但通過redo wastage分析的結果,好像應該只
有1.5K才對。
? ? ? ? 到底結果如何,如果要確定的話,我們只能分析每次Redo IO的內容了。請看下節:“獲取進程數據”
第四節 ? 獲取進程數據
? ? ? ? 不久前才看過一個笑話,從哪兒來的我也忘了。說是一名生物學家研究螃蠏的聽覺系統,對著螃蠏大
吼一聲,螃蠏馬上跑了。將螃蠏的腿截掉,對著螃蠏再次大吼
一聲,螃蠏沒有跑。因此證明螃蠏的聽覺系統是在腿上。
? ? ? ? 我們做測試,千萬不要無意中成為這名生物學家。用不嚴謹的測試、得到錯誤的結論,然后再用這個
結論去分析碰到的問題,可想而知,這會是什么結果。
? ? ? ? 好,言歸正傳,繼續上節中的測試,為了得到準確的結論,我們需要獲得IO的內容。
? ? ? ? 繼續做這個分析,需要我們對Redo的塊格式,有簡單的了解。
? ? ? ? 512字節的一個Redo塊,前16字節,是塊頭。塊頭中第8到11字節,是塊所屬于日志序列號,第4到7字
節,是塊編號。接下來要做的,在Start探針中,讀出塊頭,
將每次IO的日志序列號、塊號顯示出來。
? ? ? ? DTrace中,可以使用copyin,《Solaris 動態跟蹤指南》P155頁,有這個函數的介紹。P411頁,還有
更詳細的介紹。
? ? ? ? 簡單點說,某個進程的數據,我們不能直接顯示,要使用copyin拷貝到DTrace的緩存中,才能顯示。
如下修改我們的腳本:
#!/usr/sbin/dtrace -s
char *rd;
char bn[4];
char seq[4];
BEGIN
{
? ? i=0;
}
io:::start
/ args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url]" ||
? args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url]"?
/
{
? ? ? ? rd=copyin((uintptr_t )(args[0]->b_addr),16);
? ? ? ? bn[0]=rd[4];
? ? ? ? bn[1]=rd[5];
? ? ? ? bn[2]=rd[6];
? ? ? ? bn[3]=rd[7];
? ? ? ? seq[0]=rd[8];
? ? ? ? seq[1]=rd[9];
? ? ? ? seq[2]=rd[10];
? ? ? ? seq[3]=rd[11];
? ? ? ? printf("IO number:%d %s %s %d %s Seq:%d,Block:%d\n",i,args[1]->dev_statname,args[2]-
>fi_pathname,args[0]->b_bcount,args[0]-
>b_flags&B_READ?"R":"W",*((int *)&seq[0]),*((int *)&bn[0]));
? ? ? ? i++; ? ? ? ? ? ? ? ?
}
? ? ? ? 解釋一下這段腳本,首先,在開頭的三個變量定義:
char *rd;
char bn[4];
char seq[4];
? ? ? ? 我們在BEGIN探針中,也用過變量:i。在io:::start探針中,還對i做了自增操作。這三個變量與i的區
別有兩點,一它們是全局變量,二它們有類型。
? ? ? ? 只有這樣的全局變量,才需要專門在程序開頭定義,也只有它們,才可以有類型。可以使用的類型,
同C語言一樣。變量i我們沒有定義,直接就開始使用。DTrace
根據它的值來決定它的類型。
? ? ? ??
? ? ? ? 然后,這行是這個腳本程序的關鍵:
rd=copyin((uintptr_t )(args[0]->b_addr),16);
? ? ? ? (uintptr_t )(args[0]->b_addr),這是我們的地址,我們從這個地址中,考貝16個字節,到rd中。rd
是一個字符型指針,它的空間在DTrace緩存中。args[0]-
>b_addr這個域的值,就是存放IO內容的緩存區地址。我們在這個地址前加一個(uintptr_t ),強制類型轉換。
因為在《Solaris 動態跟蹤指南》P155頁,我們可以看到:
void *copyin(uintptr_t addr, size_t size)
? ? ? ? copyin要求的地址類型是uintptr_t型。但(args[0]->b_addr)的類型并不是這個,因此,我們需要加
個強制類型轉換。將(args[0]->b_addr)轉成uintptr_t型。
? ? ? ? 在這里我拷貝了16個字節,就是整個塊頭了。下面的賦值語句:
? ? ? ? bn[0]=rd[4];
? ? ? ? bn[1]=rd[5];
? ? ? ? bn[2]=rd[6];
? ? ? ? bn[3]=rd[7];
? ? ? ? seq[0]=rd[8];
? ? ? ? seq[1]=rd[9];
? ? ? ? seq[2]=rd[10];
? ? ? ? seq[3]=rd[11];
? ? ? ? 將塊頭中的4到7字節,傳到bn中,這是塊號。將8到11字節,傳到seq中,這是日志序列號。最后一步
輸出時,是這樣操作bn和seq這兩個數組的:
…………,*((int *)&seq[0]),*((int *)&bn[0]);
? ? ? ? &seq[0],取出seq數組中0號元素的地址。(int *),將這個地址轉成整型,(int *)&seq[0],是一個
整型的地址,指向seq的開頭。在它之前再加一個*,取出這個
整型地址中值。其實根本含意就是,將bn數組中的4個字節,當作一個整型變量輸出。這是C語言中指針的常見
玩法。在使用copyin時,可能會用的比較多。
? ? ? ? 好了,運行腳本,執行DML+提交,觀察輸出結果:
……………………
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:93 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W Seq:495,Block:513
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:94 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W Seq:495,Block:515
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:95 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W Seq:495,Block:517
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:96 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W Seq:495,Block:519
……………………
? ? ? ? 可以看到第93次IO寫的是495號日志第513號塊,大小1K。94次IO是495號日志515號塊,大小1K,等等
。
? ? ? ? 也就是說,兩次相鄰Commit觸發的IO,各自寫各自的塊。兩次1K的IO,共寫了4個塊。
? ? ? ? 也就是說,我們對“細粒度條帶”的分析是不錯的。但redo wastage資料中的值就有問題了,不知道
它衡量的是什么浪費。我每次只產生700多字節Redo,用了
1024字節空間,但redo wastage的值為0。
? ? ? ? 好了,我們的揭密Oracle之七種武器之二,先到這里吧。第三章將繼續介紹DTrace語法,同時結合
Oracle的觀察結果。
? ? ? ? 用一句廣告語:精彩繼續,敬請期待。
========
揭密Oracle之七種武器之三:破譯古老的謎題---共享CBC Latch的秘密
vage揭密Oracle之七種武器之三:破譯古老的謎題---共享CBC Latch的秘密
(前兩章地址
揭密Oracle之 七種武器 ?第一章 搭建測試環境(目前已到第三章)
http://www.itpub.net/thread-1605241-1-1.html
揭密Oracle之七種武器二:DTrace語法:跟蹤物理IO
http://www.itpub.net/thread-1609235-1-1.html
)
? ? ? ? 從9iR2開始,Cache Buffers Chain(以下簡稱CBC)Latch就變成共享Latch了。從那時開始,我想當
然的認為,如果我只有讀操作,互相之間就不會阻
塞了。于是馬上測試:
declare
? myid number;
begin
? for i in 1..10000000 loop
? ? select id1 into myid from a2_70m where rowid='AAACYJAAEAAAAAUAAA';
? end loop;
end;
/
? ? ? ? 這段過程很簡單,就是反復的邏輯讀某一行。將這段過程在兩個會話同時執行,我天真的認為,不會
再看到CBC Latch等待。但是,查看等待事件的結果
,令我深深的迷惑。為什么還是有等待呢?無論CBC 鏈還是數據塊,我都沒有修改,只是反復讀取,為什么共
享Latch不共享呢?從此,這個迷團一直困繞著我。
? ? ? ? 當然,還有其他一些謎團,比如唯一索引和非唯一索引在讀掃描時的區別。最普通的區別,是它們兩
個邏輯讀不一樣,唯一索引比非唯一少一個邏輯讀
。但其實,它們兩個的區別非常大。具體的區別在哪里?這些區別對于我們的選擇,會有什么影響?
? ? ? ? 這些謎團很長一段時間內沒有答案。
? ? ? ? 五、六年轉眼即過,2011年初,因公司技術轉型,我被迫從頭學起GreenPlum。翻開幾百頁的英文文檔
,我不禁倦意襲來。再看會Oracle的資料,又不禁
精神百倍。于是,我退意蒙生。但是,這段經歷,讓我有一個意外的收獲。阿里的GreenPlum,都是跑在
Solaris下。接手GreenPlum運維,必先學會Solaris。在
學習Solaris時,看到有一本書用兩頁紙介紹了一個工具:DTrace語言,說是可以跟蹤Solaris中的任何操作。
當時我對Oracle的研究,也陷入了困境。能用的跟
蹤事件都用了,很多原理還是無法搞清楚,只能跟著別人,人云亦云一下,自我感覺對Oracle了解甚為深入,
已經沒什么可以再學的了。但分析一些工作中奇怪
的問題,就總感覺似是,而非。
? ? ? ? 這種感覺讓我想起來多年前,年青的時候我酷愛神秘文化。什么東西都信,曾在二月底初春時節跳入
溥冰覆蓋的河水中受洗,隨身攜帶一本荒漠甘泉。
在被女神無情拋棄后,獨自站在空曠的教堂祈禱:“仁慈的圣父啊,我知道這是您對我的庇護和煅煉,雖然您
的孩子此刻心如刀絞,但我仍然感謝您、愛您。哈
利路亞,阿門。”不久之后,下一位女神出現,卻是信佛的。于是我又到家鄉著名的大相國寺,皈依佛祖,每
逢初一、十五,燒香誦經:“南無西方琉璃藥師佛
,南無……”。
? ? ? ? 在諸多雜學之中,我最精通的卻還是周易。剛剛參加工作哪會,我為我們科室6個人占卦,算他們哪一
年結婚、哪一年有小孩,6個人,只有一個算錯了
。83%的準確率,很高了。但是,為什么有一次算錯了呢?為什么其他的可以算對呢?這些問題我都答不上來,
我對周易的理解,始終似是,而非。
? ? ? ? 易經這東西,真正的神人傳下來的,幾千年中,看懂的沒幾個。但是Oracle呢,我也無法真正的看“
懂”它嗎。對易經的理解似是而非,這我服氣,但
對Oracle,我不想停留在似是而非的境界。 ? ? ? ?
? ? ? ? 當看到這個DTrace后,我眼前頓時一亮,如果用DTrace跟蹤Oracle,又會有怎樣的效果呢?是否可以
打破“似是而非”的僵局呢?于是我馬上搜集資料
開始學習,這一下,沒想到豁然為我打開一扇大門。于是我再也顧不得什么GreenPlum、什么KPI了。
? ? ? ? 好了,言歸正傳,這一節,從一個重要的提供器開始,PID進程提供器。Solaris在進程調用、退出每
個函數時,都設置了Prob,進程提供器的作用就是
打開這些Prob。
? ? ? ? 我們可以寫如下的腳本,打開PID提供器所有調用函數時的探針:
pid1234:::entry
{?
? ? ?動作;
}
? ? ? ? 這個腳本的作用是打開1234進程所有函數調用處的探針。簡單點說,1234進程每調一次函數,都會被
觸發。這個腳本還可以進一步改成這樣:
pid$1:::entry
{?
? ? ?動作;
}
? ? ? ? 用$1代替了1234。$1,這種寫法是來自于Shell腳本編程,第一個參數。當然,我們也可以pid$2。
? ? ? ? 接下來,我們可以定義什么動作呢?當然還是觀察了.
? ? ? ? 在我上傳的《Solaris 動態跟蹤指南》書中,P68頁,列出了全部的內置變量,這次,我們使用這幾個
內置變量:probeprov, probemod, probefunc,?
probename,arg0和arg1……
? ? ? ? probeprov:提供器名
? ? ? ? probemod : 模塊名
? ? ? ? probefunc:函數名,這是我們要查看的重點。
? ? ? ? probename:探針名,只有兩個。entry,return,一個進入、一個是退出。
? ? ? ? arg0,arg1,…… :調用函數時,傳遞給函數的參數。 ? ? ? ?
? ? ? ? 這些內置變量,無需定義,可以直接使用。內置變量中保存了很多重要的值,在上篇文章已經有用到
過。
? ? ? ? 好,我們的最終腳本程序,是這個樣子:
? ? ? ? 這個探針的使用很簡單,我們總的腳本如下:
#!/usr/sbin/dtrace -s -n
dtrace:::BEGIN
{
? ? ? ? i=1;
}
pid$1:::entry
{
? ? ? ? printf("i=%d PID::entry:==%s:%s:%s:%s %x %x %x %x %x %x",i, probeprov, probemod,?
probefunc, probename,arg0,arg1,arg2,arg3,arg4,arg5);
? ? ? ? i=i+1;
}
? ? ? ? 參數這塊,我們也不知道每個函數都有幾個參數,好在多輸出參數DTrace并不會報錯,所以,我們就
多顯示幾個參數,我顯示了前6個:
arg0,arg1,arg2,arg3,arg4,arg5。都以%x,16進程格式顯示。
? ? ? ? 將此腳本保存為all_func.d,授于執行權限,開始執行。
? ? ? ? 對了,別忘了,本章的目的,是觀察CBC Latch。更進一步的,觀察邏輯讀的CBC Latch。
? ? ? ? 打開一個會話,查詢出它對應的進程號:
SQL> select c.sid,spid,pid,a.SERIAL# from (select sid from v$mystat where rownum<=1) c,v$session?
a,v$process b where c.sid=a.sid and?
a.paddr=b.addr;
? ? ? ?SID SPID ? ? ? ? ? ? ? ?PID ? ?SERIAL#
---------- ------------ ---------- ----------
? ? ? ?863 970 ? ? ? ? ? ? ? ? ?22 ? ? ? ? ?1
? ? ? ? 我的進程號是970。另外,在開始觀察前,執行幾次如下語句,讓讀是邏輯讀:
select * from a2_70m where rowid='AAACYJAAEAAAAAUAAA';
? ? ? ? 如下運行腳本,觀察970號進程:
# ./all_func.d 970 > logic_read1.log
dtrace: script './all_func.d' matched 124179 probes
? ? ? ? 根據顯示結果,共有124179個探針被打開。十幾萬個探針,說明Oracle內部,有十幾萬個函數。C語言
中,程序代碼的復用,全靠函數了。C又被稱為函
數語言嗎。不過,Oracle內部競然有十幾萬個函數,還是出乎我的意料。不過,函數分的越細,對我們調試、
跟蹤越好。在沒有源代碼的情況下,我們只能跟蹤
到函數級別了。
? ? ? ??
? ? ? ? 跟蹤結果會很多,為了便于觀察,我將結果重定向到logic_read1.log文件中。
? ? ? ? 另外,由于會打開太多探針,有可能會超出DTrace的限制,報出錯誤,可以修
改/kernel/drv/fasttrap.conf中fastrap-max-probes設置,在我的測試環
境中,我設置為fastrap-max-probes=1000000。
? ? ? ? 另外,如果在970進程執行期間,all_func.d腳本報內存不足,可以在腳本開頭加上去內存大小或刷新
頻率的設置:
#!/usr/sbin/dtrace -s -n -x switchrate=10hz -b 16m
? ? ? ? -x switchrate=10hz,設置刷新頻率。DTrace會結果發送到輸出終端,這個值可以理解為發送頻率。
在數據沒有發送到輸出終端前,DTrace會先保存到
自己的緩存中。因此,增加刷新頻率,可以減少內存使用。
? ? ? ? -b 16m , 修改緩存大小。
? ? ? ? 好了,來看結果吧,在970進程對應的會話中,再執行一次:
select * from a2_70m where rowid='AAACYJAAEAAAAAUAAA';
? ? ? ? 回到執行DTrace命令的窗口,按Ctrl+C。然后查看結果,先看一下有多少行輸出吧:
# cat logic_read1.log|wc -l
? ? 1211
? ? ? ? 1211行,這是運行一次軟軟解析,再加上對一個塊邏輯讀取出一行,Oracle所要調用的函數次數。這
也是我們最細粒度的跟蹤級別了。比10046等任何一
個Event,都要細致的多。除非你去看源碼,否則,不可能比這個更細、更深入了。
? ? ? ? 下面,讓我們來看看結果都是什么吧:
# cat logic_read1.log|more
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 3 172611 ? ? ? ? ? ? ? ? ? ? memcpy:entry i=1 PID::entry:==pid970:libc.so.1:memcpy:entry?
8047708 c0f2c28 1 c028934 c02a6dc 6
? 3 ?52316 ? ? ? ? ? ? ?kslwte_resmgr:entry i=2 PID::entry:==pid970racle:kslwte_resmgr:entry 100?
62657100 1 0 8047708 c028894
? 3 174943 ? ? ? ? ? ? ? ? ?gethrtime:entry i=3 PID::entry:==pid970:libc.so.1:gethrtime:entry?
c07ad01 80461e4 80461e4 8dd9467 100 62657100
? 3 ?52313 ? ? ? ? ? ? ? ? ?kslwte_tm:entry i=4 PID::entry:==pid970racle:kslwte_tm:entry 100?
62657100 1 0 cfacb398 1
? 3 111268 ? ? ? ? ? ? ? ? ?skgslnoop:entry i=5 PID::entry:==pid970racle:skgslnoop:entry c028934?
c02a6dc 0 8046130 c0e7078 b0fc070
? 3 ?86139 ? ? ? ? ? ? kews_idle_wait:entry i=6 PID::entry:==pid970racle:kews_idle_wait:entry?
8c9775bd 0 c028934 c02a6dc 0 8046130
? 3 174943 ? ? ? ? ? ? ? ? ?gethrtime:entry i=7 PID::entry:==pid970:libc.so.1:gethrtime:entry?
8f1e27a0 8f18c820 8c9775bd a9c0001 c07ad9c 80460f0
? 3 ?86061 ? ? ? ? ? kewe_trace_level:entry i=8 PID::entry:==pid970racle:kewe_trace_level:entry?
8f18c820 c028934 c02a6dc 0 8046130 c0e7078
? 3 ?52312 ? ? ? ? ? ksl_which_bucket:entry i=9 PID::entry:==pid970racle:ksl_which_bucket:entry?
2325dd c028934 c02a6dc 0 8046130 c0e7078
? 3 ?53333 ? ? ? ? ? ? ? ? ? kskthewt:entry i=10 PID::entry:==pid970racle:kskthewt:entry c07ad01?
80461e4 80461e4 8dd9467 100 62657100
? 3 172611 ? ? ? ? ? ? ? ? ? ? memcpy:entry i=11 PID::entry:==pid970:libc.so.1:memcpy:entry?
8047714 c0f2c29 2 101 c028890 c0e7120
? 3 104873 ? ? ? ? ? ? ? ? ? kpuhhmrk:entry i=12 PID::entry:==pid970racle:kpuhhmrk:entry c028850?
101 c028890 c0e7120 804773c 0
…………………………
…………………………
…………………………
? ? ? ? 以第一行為例,pid970:libc.so.1:memcpy:entry,pid970是提供器名,libc.so.1是模塊名,memcpy
是函數名,entry是探針名。
? ? ? ? 我摘出前十幾行,DTrace是能以很細的粒度跟蹤Oracle,細致程度遠超10046,但問題來了,我們如何
解讀跟蹤結果。這是一個很重要的問題。
? ? ? ? 簡單點說,這些函數都是干嗎的。不要指望誰能告訴你,現在,進行這種探索的,還非常非常少。這
方面的資料,就不要奢望了。來吧,Maoyeye教導我
們,自己動手,豐衣足食。
? ? ? ? 我們不需要、也可能能搞清楚這每一行函數調用都是干嗎的。Oracle的代碼量哪么龐大,估計Oracle
的開發人員,也不可能搞清楚這每一行全部的意義
。我們只需要搞清楚,我們自己關心的就行了。比如,我一開始所說的,Oracle在什么時候加什么的Mutex、
Latch、Pin、Lock,什么時候釋放,會以怎樣的形式
阻塞,等等。
? ? ? ? 我們今天,先以CBC Latch為例,說一下研究它的思路。其他的也都類似。我想做的,不是告訴你一個
結果,而是這結果是怎么來的,讓我們大家都可以
都可以用這種方式去研究。
? ? ? ? 每個Latch,都有一個地址,哪么,Oracle在調函數去獲得、獲放Latch時,應該會將此地址做為參數
。好,馬上,查找Latch的地址:
1、找出測試語句中ROWID在哪個文件哪個塊:
SQL> select dbms_rowid.ROWID_RELATIVE_FNO('AAACYJAAEAAAAAUAAA'),dbms_rowid.rowid_block_number
('AAACYJAAEAAAAAUAAA') from dual;
DBMS_ROWID.ROWID_RELATIVE_FNO('AAACYJAAEAAAAAUAAA') DBMS_ROWID.ROWID_BLOCK_NUMBER
('AAACYJAAEAAAAAUAAA')
---------------------------------------------------?
---------------------------------------------------
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 4 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ?20
測試語句要查找的行在4號文件、20號塊
2、在x$BH中,找到此塊在哪個Latch的保護下:
SQL> select file#,dbablk,tch,lower(HLADDR) from x$bh where file#=4 and dbablk=20;
? ? ?FILE# ? ? DBABLK ? ? ? ?TCH LOWER(HL
---------- ---------- ---------- --------
? ? ? ? ?4 ? ? ? ? 20 ? ? ? ? ?3 8ea1d750
? ? ? ??
? ? ? ? 4號文件20號塊,是受地址為8ea1d750的Latch保護。
3、在跟蹤結果文件中查找相關的:
# cat logic_read1.log|grep 8ea1d750
? 3 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry i=517 PID::entry:==pid970racle:sskgslcas:entry?
8ea1d750 0 20000016 fdc3f1e4 fdc3f18c fdc3f1e4
? 3 111578 ? ? ? ? ? ? ? ? sskgsldecr:entry i=526 PID::entry:==pid970racle:sskgsldecr:entry?
8ea1d750 20000016 fdc3f1e4 fdc3f18c fdc3f1e4 804544c
? 3 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry i=552 PID::entry:==pid970racle:sskgslcas:entry?
8ea1d750 0 20000016 1 fdc3f17c 81e1c064
? 3 ?57740 ? ? ? ? ? ? ? ? ? ? kcbzar:entry i=557 PID::entry:==pid970racle:kcbzar:entry 8ef9a5b4?
8ea1d750 108000 8045368 1 fdc3f17c
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=558 PID::entry:==pid970racle:slmxnoop:entry?
81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=559 PID::entry:==pid970racle:slmxnoop:entry?
81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=560 PID::entry:==pid970racle:slmxnoop:entry?
81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=561 PID::entry:==pid970racle:slmxnoop:entry?
81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=562 PID::entry:==pid970racle:slmxnoop:entry?
81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=564 PID::entry:==pid970racle:slmxnoop:entry?
81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 111578 ? ? ? ? ? ? ? ? sskgsldecr:entry i=566 PID::entry:==pid970racle:sskgsldecr:entry?
8ea1d750 20000016 1 fdc3f17c 81e1c064 8045510
? 3 ?52568 ? ? ? ? ? ? ? ? ? ? kssrmf:entry i=568 PID::entry:==pid970racle:kssrmf:entry 8ef9a590?
8e94811c 81ff1de4 20000016 8ea1d750 8ef9a5b4
? ? ? ? 和這個地址相關的有這十幾行。在這里,有一點編程習慣再說一下,要申請某一個地址處的Latch,這
個Latch的地址,是這個函數的最重要的參數,因
此,Oracle會把它排在第一位,也就是說,以上這十幾行中,第一個參數不是8ea1d750的,基本可以排隊掉了
。
? ? ? ? 所以,我們只剩這些行需要關注:
# cat logic_read1.log|grep "entry 8ea1d750"
? 3 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry i=517 PID::entry:==pid970racle:sskgslcas:entry?
8ea1d750 0 20000016 fdc3f1e4 fdc3f18c fdc3f1e4
? 3 111578 ? ? ? ? ? ? ? ? sskgsldecr:entry i=526 PID::entry:==pid970racle:sskgsldecr:entry?
8ea1d750 20000016 fdc3f1e4 fdc3f18c fdc3f1e4 804544c
? 3 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry i=552 PID::entry:==pid970racle:sskgslcas:entry?
8ea1d750 0 20000016 1 fdc3f17c 81e1c064
? 3 111578 ? ? ? ? ? ? ? ? sskgsldecr:entry i=566 PID::entry:==pid970racle:sskgsldecr:entry?
8ea1d750 20000016 1 fdc3f17c 81e1c064 8045510
? ? ? ? 這四行,兩個函數調用,sskgslcas、sskgsldecr,第一個參數都是Latch的地址:8ea1d750。我相信
這不是巧合,它們肯定是申請、釋放Latch的函數。
? ? ? ? i=517這行,Oracle調用sskgslcas持有Latch,在i=526這行,調用sskgsldecr釋放,接下來在i=552又
一次調用sskgslcas持有Latch,在i=566處調用
sskgsldecr釋放。一次邏輯讀對應兩次Latch調用。
? ? ? ? 結果是這樣嗎,讓我們繼續驗證,Oracle的Oradebug可以調用某個Oracle自身的函數,就有它來驗證
吧:
SQL> oradebug setmypid
Statement processed.
SQL> oradebug call sskgslcas 0x8ea1d750 0 0x20000016 0xfdc3f1e4?
Function returned 1
SQL>?
? ? ? ? sskgslcas參數的取值,就是我們上面的跟蹤結果。我只用了4個參數,其實應該只有3個參數。但是,
用Oradebug時,多傳了參數也無所謂。
? ? ? ? Function returned 1,這一行說明我們的調用是成功的。
? ? ? ? 回到970進程對應的會話,再次執行如下語句:
SQL> select * from a2_70m where rowid='AAACYJAAEAAAAAUAAA';
? ? ? ? 被Hang住了,在另一個會話中查看等待事件(970號進程對應的會話ID是863):
SQL> select sid,event,p1raw,p2 from v$session where sid=863;
? ? ? ?SID EVENT ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?P1RAW ? ? ? ? ? ?P2
---------- ---------------------------------------------------------------- -------- ----------
? ? ? ?863 latch: cache buffers chains ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?8EA1D750 ? ? ? ?122
? ? ? ? 863果然在等待CBC Latch,而且根據P1RAW列的值,所等的Latch就是8EA1D750。接著,sskgsldecr是
釋放Latch,繼續驗證此點,在剛才Oradebug的會話
中繼續執行:
SQL> oradebug call sskgsldecr 0x8ea1d750 0x20000016?
Function returned 20000016
? ? ? ? 同樣,sskgsldecr 0x8ea1d750 0x20000016,這個函數的參數來自于我們的跟蹤文件。我們這樣手動
調用結束,剛才被Hang的會話,已經可以順利執行
下去了。說明Latch已經被釋放。
? ? ? ? 看,我們很輕松就已經找到了Oracle申請、釋放CBC Latch的函數。一切都是如此簡單。
? ? ? ? 到這里,可能有人會有不同意見了。如果你看過其他一些牛人的書,包括Oracle的DSI405,都說到
Latch的調用、釋放,是用kslgetl(獨占)、
kslgetsl(共享)和kslfre,怎么我又說申請、釋放Latch是另外的函數呢。
? ? ? ? 這很容易理解,DSI405是講9i的。其他牛人說的也沒錯,kslgetl(獨占)、kslgetsl(共享)和
kslfre的確也是Latch相關的函數。物理讀一個塊時,
Oracle也會用這三個函數來加、釋放CBC Latch,但邏輯讀不是。
? ? ? ? 這很容易理解,邏輯讀是最繁忙的操作,Oracle專門為它開個小灶、做做優化不是很正常嗎。而且,
提前說一下,Mutex也是用sskgslcas申請的(釋放
不是用sskgsldecr),關于Mutex內幕,我們到后幾章再詳細說,順便說一句,要想揭開Mutex內幕,也只有D&G
(DTrace+GDB)了。
? ? ? ? 我們還要再接著研究。CBC Latch的地址是8ea1d750,在這個地址處,Oracle都放了什么呢。有兩種方
式可以觀察這個,用Oradebug,或者,改寫我們的
DTrace腳本。我用后一種方式吧,這種方式早晚要熟練掌握的,而且并不是每個要觀察的值,都可以用
Oradebug。
? ? ? ? 使用DTrace,如果參數是地址的話,將地址的址讀出來,這種方法在上一章中已經有描述了,如下修
改腳本程序:
#!/usr/sbin/dtrace -s -n?
char *memnr;
int latchaddr;
dtrace:::BEGIN
{
? ? ? ? i=1;
? ? ? ? latchaddr=0;
}
pid$1::sskgslcas:entry
{
? ? ? ? memnr=copyin(arg0,12);
? ? ? ? latchaddr=arg0;
? ? ? ? printf("[%2x%2x%2x%2x|%2x%2x%2x%2x|%2x%2x%2x%2x]",memnr[3],memnr[2],memnr[1],memnr
[0],memnr[7],memnr[6],memnr[5],memnr[4],memnr
[11],memnr[10],memnr[9],memnr[8]);
? ? ? ? printf("i=%d PID::entry:==%s:%s:%s:%s %x %x %x %x %x %x",i, probeprov, probemod,?
probefunc, probename,arg0,arg1,arg2,arg3,arg4,arg5);
? ? ? ? i=i+1;
}
pid$1::sskgslcas:return
{
? ? ? ? memnr=copyin(latchaddr,12);
? ? ? ? printf("[%2x%2x%2x%2x|%2x%2x%2x%2x|%2x%2x%2x%2x]",memnr[3],memnr[2],memnr[1],memnr
[0],memnr[7],memnr[6],memnr[5],memnr[4],memnr
[11],memnr[10],memnr[9],memnr[8]);
? ? ? ? printf("i=%d PID::entry:==%s:%s:%s:%s %x %x %x",i, probeprov, probemod, probefunc,?
probename,latchaddr,arg0,arg1);
? ? ? ? i=i+1;
}
? ? ? ? 在這個腳本中,我只觀察CBC的申請和釋放。copyin函數的使用,上一章有,不再重述。需要注意的時
,我在pid$1::sskgslcas:entry中,執行了這樣一
行:latchaddr=arg0;目的是將Latch的地址保存到全局變量latchaddr中。然后,在sskgslcas申請Latch后,
再觀察一下此地址中的值。
? ? ? ? 看一下觀察結果吧:
# cat logic_read2.log|grep "8ea1d750"
? 0 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 291| 0 0 07a]i=3?
PID::entry:==pid970racle:sskgslcas:entry 8ea1d750 0 20000016 fdc1a2dc fdc1a284 fdc1a2dc
? 0 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 291| 0 0 07a]i=4?
PID::entry:==pid970racle:sskgslcas:return 8ea1d750 16 1
? 0 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 292| 0 0 07a]i=5?
PID::entry:==pid970racle:sskgslcas:entry 8ea1d750 0 20000016 1?
fdc1a274 81e1c064
? 0 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 292| 0 0 07a]i=6?
PID::entry:==pid970racle:sskgslcas:return 8ea1d750 16 1
? ? ? ? 我顯示了latch地址處的12個字節,我將結果整理一下:
進入sskgslcas函數時:[ 0 0 0 0| 0 0 291| 0 0 07a]
從sskgslcas返回時 ?:[20 0 016| 0 0 291| 0 0 07a]
進入sskgslcas函數時:[ 0 0 0 0| 0 0 292| 0 0 07a]
從sskgslcas返回時 ?:[20 0 016| 0 0 292| 0 0 07a]
? ? ? ? 我一共顯示了12個字節。后4個節字,7A,10進制是122。這個是Latch編號。中間4個字節,291、292
,明顯是我訪問的次數。這些可以從v
$latch_children視圖中得到。后4個字節是LATCH#列,中間4個字節,就是GETS列了。
? ? ? ? 最前面4個字節,20000016,正好是sskgslcas的第三個參數。我覺得這個應該是模式。
? ? ? ? 看來,sskgslcas的作用,應該就是將第三個參數的值“20000016”交換到Latch 地址所指向的內存中
。然后訪問次數加1。
? ? ? ? 接下來,該如何確定20000016是否是模式呢?這個,從這里就看不出來了,我們要找個索引試試。
? ? ? ? 在我的測試表a2_70m,ID1列上有個索引,索引名是A2_70M_ID1。我使用如下測試語句:
SQL> select * from a2_70m where id1=1;
? ? ? ?ID1 ? ? ? ?ID2 CC1
---------- ---------- ------------------------------
? ? ? ? ?1 ? ? ? ? 10 A-----------------------------
? ? ? ? 以上語句,多執行個幾次,在另一個會話中,查看索引的塊和Latch地址:
SQL> set pagesize 50000
SQL> set linesize 10000
SQL> select file#,dbablk,tch,ba,HLADDR from x$bh a,dba_objects b where a.obj=b.data_object_id and?
object_name='A2_70M_ID1' order by?
FILE#,DBABLK;
? ? ?FILE# ? ? DBABLK ? ? ? ?TCH BA ? ? ? HLADDR
---------- ---------- ---------- -------- --------
? ? ? ? ?5 ? ? ?23449 ? ? ? ? ?0 8189E000 8E98DAD4
? ? ? ? ?5 ? ? ?23450 ? ? ? ? ?0 81A74000 8EAF0390
? ? ? ? ?5 ? ? ?23451 ? ? ? ? ?0 8189C000 8EA150C8
? ? ? ? ?5 ? ? ?23452 ? ? ? ? ?3 81A78000 8EB77E00
? ? ? ? ?5 ? ? ?23453 ? ? ? ? ?3 81A76000 8EA9CB38
? ? ? ? ?5 ? ? ?23454 ? ? ? ? ?0 81A72000 8E9C13F4
? ? ? ? ?5 ? ? ?23455 ? ? ? ? ?0 8189A000 8EB2412C
? ? ? ? ?5 ? ? ?23456 ? ? ? ? ?0 81A70000 8EA48E64
? ? ? ? ?6 ? ? ? 5695 ? ? ? ? ?3 818A0000 8EACBC98
? ? ? ? 多執行幾次測試語句,找出TCH值不斷在增加的,這些塊就是索引掃描時相關的塊了。我這里是5號文
件23452、23453塊,和6號文件5695塊。索引的root
塊,都是段頭的下一個塊,我們可以如下確認一下:
SQL> select segment_name,header_file,header_block from dba_segments where segment_name=upper
('A2_70M_ID1');
SEGMENT_NAME ? ? ? ? ? ? ? ? ? HEADER_FILE HEADER_BLOCK
------------------------------ ----------- ------------
A2_70M_ID1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 5 ? ? ? ?23451
? ? ? ? 段頭是23451塊,哪么23452就是root塊了。提一個注意事項,索引掃描在10.2.0.2后是不用讀段頭的
,真接Root、枝、葉。但在10.2.0.1,有時還是需
要讀段頭的。
? ? ? ? 好,用我們剛才的腳本,開始觀察吧。
先執行腳本:
# ./all_func.d 970 > logic_read3.log
dtrace: script './all_func.d' matched 3 probes
? ? ? ? 再執行測試SQL,顯示logic_read3.log內容,觀察結果,先看根塊吧:
# cat logic_read3.log|grep 8eb77e00
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 721| 0 0 07a]i=3?
PID::entry:==pid970racle:sskgslcas:entry 8eb77e00 0 1 fdc1a3bc fdc1a3b4 fdc1a278
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 721| 0 0 07a]i=4?
PID::entry:==pid970racle:sskgslcas:return 8eb77e00 16 1
? ? ? ? 根塊Latch的地址是8eb77e00,先只看一下根塊。注意第三個參數,不是20000016,而是1。我們自己
調一下試試:
SQL> oradebug call sskgslcas 0x8eb77e00 0 1
Function returned 1
(釋放是:
SQL> oradebug call sskgsldecr 0x8eb77e00 1?
Function returned 1
)
? ? ? ? 再到另一個會話執行測試SQL,不會被阻塞。看來這才是共享模式啊。再往下看跟蹤文件,8eacbc98是
root塊后接著申請的一個Latch,它對應6號文件
5695號塊。看來它是枝塊了。
# cat logic_read3.log|grep 8eacbc98
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 784| 0 0 07a]i=5?
PID::entry:==pid970racle:sskgslcas:entry 8eacbc98 0 1 fdc3f2c4 fdc3f2bc fdc3f180
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 784| 0 0 07a]i=6?
PID::entry:==pid970racle:sskgslcas:return 8eacbc98 16 1
? ? ? ? 枝塊獲得CBC Latch,也是共享的。
? ? ? ? 那么5號文件23453塊,它應該是葉塊了,查看它的獲取Latch情況:
# cat logic_read3.log|grep 8ea9cb38
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 783| 0 0 07a]i=7?
PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 1 fdc3f2c4 fdc3f2bc fdc3f180
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 783| 0 0 07a]i=8?
PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 784| 0 0 07a]i=13?
PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 20000016 ffffffff fdc3f2c4 fdc3f17c
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 784| 0 0 07a]i=14?
PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 785| 0 0 07a]i=15?
PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 20000016 c030e14 fdc3f180 fdc3f2bc
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 785| 0 0 07a]i=16?
PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 786| 0 0 07a]i=17?
PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 20000016 0 fdc3f2c4 fdc3f2b8
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 786| 0 0 07a]i=18?
PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? ? ? ? 它一共獲取了4次,第一次是共享的,后面三次,是獨占的。最后還可以再看一下表塊,表塊要獲得兩
次,都是獨占的。這樣看來,索引葉塊的CBC?
Latch的爭用,要比表塊多啊。建議索引的PCTFREE可以調的比表高些,既能減少中間塊分裂的總次數。塊中行
更少,又能分散爭用。
? ? ? ? 但這樣做會使索引樹層數升高,增加索引訪問時的邏輯讀。對于解決索引塊上的CBC Latch爭用,這樣
做還是非常值得的。因為同樣是邏輯讀,消耗的資
源可是不以同日而語的。索引枝塊只需要一次CBC Latch,而且是共享的,并且,不需要把數據拷貝到PGA中,
只在Buffer Cache中比較一下Key值,取出下一層塊
的位置。這種邏輯讀,不會造成爭用,因為從頭到尾,所有資源都是共享的,所耗資源比表塊邏輯讀也少的多
。而且大的PCTFree,還可以減少索引塊分裂次數。
因此,使用這種方式,減少索引葉塊的CBC Latch爭用,是可行的。
? ? ? ? 好,經過上面的測試,本章開頭提到第一個問題,已經有了答案。為什么共享的CBC Latch會有爭用,
答案是因為Oracle以獨占的方式持有了它。
? ? ? ??
? ? ? ? 在文章開頭,我還提到過一個問題,就是唯一索引和非唯一索引讀掃描時的區別,剛才我的測試索引
,不是非唯一的,我把它重建為唯一索引試試,我
們可以比較下,區別還是非常大的:
SQL> drop index a2_70m_id1;
Index dropped.
SQL> CREATE unique INDEX a2_70m_id1 on a2_70m(id1);
Index created.
? ? ? ? 我們的測試語句和剛才相同,只不過這次它的訪問路徑是唯一索引掃描。
? ? ? ? 唯一索引的測試結果,和非唯一有很大不同:
# cat logic_read3.log
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 01d| 0 0 0 0]i=1?
PID::entry:==pid970racle:sskgslcas:entry 87d88194 0 35f0001 8886a9c8 87d88194 888f7c48
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 35f 0 1| 0 0 01d| 0 0 0 0]i=2?
PID::entry:==pid970racle:sskgslcas:return 87d88194 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 c67| 0 0 07a]i=3?
PID::entry:==pid970racle:sskgslcas:entry 8eb77e00 0 1 804520c 8045204 fda522f8
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 c67| 0 0 07a]i=4?
PID::entry:==pid970racle:sskgslcas:return 8eb77e00 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 bc3| 0 0 07a]i=5?
PID::entry:==pid970racle:sskgslcas:entry 8eafa97c 0 1 804520c 8045204 fda522f8
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 bc3| 0 0 07a]i=6?
PID::entry:==pid970racle:sskgslcas:return 8eafa97c 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 c38| 0 0 07a]i=7?
PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 1 804520c 8045204 fda522f8
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 c38| 0 0 07a]i=8?
PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 bdc| 0 0 07a]i=9?
PID::entry:==pid970racle:sskgslcas:entry 8ea1d750 0 1 fda52660 fda52658 fda52600
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 bdc| 0 0 07a]i=10?
PID::entry:==pid970racle:sskgslcas:return 8ea1d750 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 1| 0 0 01e| 0 0 0 0]i=11?
PID::entry:==pid970:oracle:sskgslcas:entry 87d88194 1 35f0000 c030d18 87d88194 888f7c48
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 35f 0 0| 0 0 01e| 0 0 0 0]i=12?
PID::entry:==pid970:oracle:sskgslcas:return 87d88194 16 1
? ? ? ? 索引還是占了同樣的數據塊,所以對應的Latch不變。可以看到,從根塊到葉塊,再到數據塊,競然都
不是獨占的,全是共享的,而且都只需要申請一次
。可以用個匿名塊驗證一下:
declare
? myid number;
begin
? for i in 1..10000000 loop
? ? select id1 into myid from a2_70m where id1=1;
? end loop;
end;
/
? ? ? ? 和最開頭的存儲過程不同的是,select id1 into myid from a2_70m where id1=1 ,這條語句不再直
接用ROWID訪問,換成唯一索引。在兩個會話中分
別執行此段過程,最終查看了一下:
SQL> select event from v$session_event where sid=862;
EVENT
---------------------------------------------
db file sequential read
cursor: pin S wait on X
SQL*Net message to client
SQL*Net message from client
SQL*Net break/reset to client
events in waitclass Other
6 rows selected.
? ? ? ? 果然沒有CBC Latch的競爭。看到沒,區別可是非常之大啊。如果不用DTrace分析,恐怕很難準確的發
現這點。看來INDEX UNIQUE SCAN和INDEX RANGE?
SCAN,不同的訪問路徑,Oracle實現起來的方法大相庭徑啊。而且,由不由的訪問路徑起始,上層的操作也會
不一樣。
? ? ? ? 比如同樣是TABLE ACCESS BY INDEX ROWID,下層是INDEX UNIQUE SCAN的話,表塊將只有共享Latch。
下層是INDEX RANGE SCAN的話,表塊上將有獨占
Latch。
? ? ? ? 比較一下唯一索引和非唯一索引的區別:
? ? ? ? ?唯一 ? ? ? ? 非唯一
------ ?-------- ?----------------
? 根 ? ?1次共享 ? 1次共享?
? 枝 ? ?1次共享 ? 1次共享
? 葉 ? ?1次共享 ? 1次共享 3次獨占
表塊 ? 1次共享 ? ? ? ? ? 2次獨占
? ? ? ? 非唯一索引共需8次CBC Latch,其中5次是獨占。看來,在讀遠高于寫的環境,想解決CBC Latch競爭
問題嗎,那就如果可能的話,使用唯一索引吧。
? ? ? ? (當然,出現CBC Latch爭用,一般都是SQL惹的禍,調SQL即可。這個結論,是說如何從宏觀上減少
CBC Latch爭用)
? ? ? ? 順便測一下DML,唯一索引時,即使修改索引列,索引的訪問不變,都是共享Latch。但表塊是獨占
Latch。其他UNDO塊、DUNO段頭了等等Latch的持有訪
問,我就不再演示了,有興趣自己測吧。
? ? ? ? 其實還有一個問題,就是為什么用Rowid訪問一個表塊,或者非唯一索引的葉塊、表塊,Oracle不會以
共享的方式獲得Latch呢?要解答這個問題,先要
搞清楚一點,為什么用ROWID的形式,訪問表塊的時候,要申請2次CBC Latch。而根塊、枝塊只要一次,唯一索
引以INDEX UNIQUE SCAN形式訪問,所有塊都只需
要一次共享的CBC Latch。
? ? ? ? 這個問題又可以寫一篇很長的文章分析了。不知道放在這里是否合適,因為這篇文章已經有點長了。
但我覺得,如果你掌握了今天我們所用的方法,繼
續這樣的分析難度不大。我先簡單描述一下,后面再另起一章詳細解剖。可以使用我們第一個腳本:
#!/usr/sbin/dtrace -s -n
dtrace:::BEGIN
{
? ? ? ? i=1;
}
pid$1:::entry
{
? ? ? ? printf("i=%d PID::entry:==%s:%s:%s:%s %x %x %x %x %x %x",i, probeprov, probemod,?
probefunc, probename,arg0,arg1,arg2,arg3,arg4,arg5);
? ? ? ? i=i+1;
}
? ? ? ? 攔截所有操作,你可以發現通過ROWID訪問,形式如下:
1、調用sskgslcas獲得Latch
2、進行一些未知操作
3、調用sskgsldecr釋放Latch
4、未知操作
5、memcpy拷貝內存,從SGA向PGA
6、未知操作
7、調用sskgslcas獲得Latch
8、進行一些未知操作
9、調用sskgsldecr釋放Latch
? ? ? ? 第5步拷貝內存,其實就是真正的邏輯讀過程,把數據從SGA中的Buffer Cache,拷貝到PGA,我跟蹤出
的Memcpy函數形式如下:
? 2 172791 ? ? ? ? ? ? ? ? ? ? memcpy:entry i=663 PID::entry:==pid972:libc.so.1:memcpy:entry?
fdad1b10 82c61fde 1e fdad2f94 886f2bf8 8045478
? ? ? ??
? ? ? ? 第二個參數82c61fde , 是Buffer Cache中行的位置,我們可以如下確定:
SQL> select file#,dbablk,tch,lower(HLADDR),ba from x$bh where file#=4 and dbablk=20;
? ? ?FILE# ? ? DBABLK ? ? ? ?TCH LOWER(HL BA
---------- ---------- ---------- -------- --------
? ? ? ? ?4 ? ? ? ? 20 ? ? ? ? ?7 8ea1d750 82C60000
? ? ? ? BA列,82C60000開始的8K,也就是從82C60000到82C62000,都是4號文件20號塊的Buffer。memcpy第二
個參數82c61fde,正是在這個范圍之間。證明是從
4號文件20號塊中拷貝數據。第一個參數地址fdad1b10,它不在任何內存池地址空間范圍之內,它是進程自身的
內存,可以認為是PGA。第三個參數1e,十進制是
30,是拷貝數據的長度。查看表的定義:
SQL> desc a2_70m;
Name ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Null? ? ?Type
----------------------------------------- -------- ----------------------------
ID1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?NUMBER(38)
ID2 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?NUMBER(38)
CC1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?VARCHAR2(30)
? ? ? ? 拷貝30個字節,其實就是將CC1列的數據讀到PGA中。
? ? ? ? 另外,還有一點,先說明一下,到下一章再詳細講。上面步驟1至3中間的未知操作,和7至9中的未知
操作,其實是加Buffer Pin和釋放Buffer Pin。其
實,上面那9個步驟,我們可以簡化一下:
? ? ? ??
1、調用sskgslcas獲得獨占Latch
2、加Buffer Pin
3、調用sskgsldecr釋放Latch
5、memcpy拷貝內存,從SGA向PGA
7、調用sskgslcas獲得獨占Latch
8、釋放Buffer Pin
9、調用sskgsldecr釋放Latch
? ? ? ? 但在唯一索引訪問時,形式是這樣的:
1、調用sskgslcas獲得共享Latch
2、memcpy拷貝內存,從SGA向PGA
3、調用sskgsldecr釋放Latch
? ? ? ? 和ROWID訪問的不同之處,沒有了Buffer Pin。一個CBC Latch,從邏輯讀開始到邏輯讀結尾。
? ? ? ? 為什么索引Root塊、枝塊的訪問,只需要一次共享CBC Latch,葉塊、表塊需要多次獨占。這個問題,
現在可以回答了。Oracle認為根塊、枝塊不會經常
修改,因為,用一個共享CBC Latch,保護邏輯讀所有操作。雖然Latch持有時間長,但由于是共享的,不會有
爭用。而對于葉塊和表塊,Oracle認為有可能會頻
繁修改,所以,用獨占Latch保護,獲得Buffer Pin,在Pin的保護下,讀取、修改Buffer數據。
? ? ? ? 而至于唯一索引,INDEX UNIQUE SCAN的訪問路徑,Oracle單獨做了處理,也依照根塊、枝塊的方式訪
問。這說明如果是唯一索引,對表有大量讀寫混合
的操作,那么CBC Latch競爭會激烈些,因為沒有了Buffer Pin,讀持有CBC Latch的時間會較長。但對于讀遠
遠多于寫的環境,由于讀都是共享Latch,反而可以
大大減少CBC Latch的爭用。
? ? ? ? 好了,先到這里吧。已經有點長了。
? ? ? ? 本章內容,難度稍高,有興趣的兄弟還是要好好測測。這章內容是后面的基礎,如果這一章沒問題,
那后理解Mutex等等內容就方便了。
? ? ? ? 由于本章長度有限,有些問題,比如Buffer Pin的問題。我們交到以后解決,這里先提出來,有興趣
可以自己動手分析、測試下。
? ? ? ? 好,今天就到這里為止了,后續更精彩,敬請期待。
========
揭密buffer Cache中的鏈表補遺
vage揭密buffer Cache中的鏈表補遺:
(揭密Oracle之七種武器之四:揭密Buffer Cache中的鏈表
http://www.itpub.net/thread-1631537-1-1.html)
補充兩個問題:
1、如果一個臟塊在CKPT-Q上,當此臟塊被移到LRUW時,會從CKPT-Q上去掉嗎?
回答:不會。直到從LRUW上被寫到磁盤上后,才會從CKPT-Q上去掉。
測試過程很簡單,搞一個臟塊,然后再運行一個需要大量掃描LRU的操作,我是這樣的:
set autot trace
update a2_70m set id2=id2+0 where id1=1;
commit;
select * from a4_70m;
(測試環境和前面所述一致,Buffer Cache 100M,a4_70m 80M,但它被設為了Cache)
然后在另一會話中不停運行如下幾條語句:
alter session set events 'immediate trace name SET_TSN_P1 level 5';
set pagesize 50000
set linesize 10000
select file#,dbablk,tch,lru_flag,ba,decode(state,0,'free',1,'xcur',2,'scur',3,'cr',?
4,'read',5,'mrec',6,'irec',7,'write',8,'pi', 9,'memory',10,'mwrite',11,'donated'),
decode(bitand(flag,1), 0, 'N', 'Y') dirty,NXT_REPL,PRV_REPL,WA_NXT,WA_PRV,ts#,HLADDR from x$bh a?
where file#=4 and dbablk=20
order by ? ? ?FILE# ?, ? DBABLK;
select CNUM_SET,CNUM_REPL,ANUM_REPL,CNUM_WRITE ,ANUM_WRITE ?from x$kcbwds where cnum_set>0;
alter session set events 'immediate trace name BUFFER level 0x01000014';
在DUMP結果中,可以找到如下內容:
BH (7c3f497c) file#: 4 rdba: 0x01000014 (4/20) class: 1 ba: 7c298000
……………………(省略部分無意義內容)…………………………………………………………
? hash: [8e96e068,8e96e068] lru: [80bf9cc8,7c7efffc]
? obj-flags: object_ckpt_list
? ckptq: [7bfe8140,7dfea5d0] fileq: [8ea707ec,8ea707ec] objq: [88c3d034,88c3d034]
……………………(省略部分無意義內容)…………………………………………………………
Hex dump of block: st=0, typ_found=1
Dump of memory from 0x7C298000 to 0x7C29A000
……………………(省略部分無意義內容)…………………………………………………………
BH (7c3f497c) file#: 4 rdba: 0x01000014 (4/20) class: 1 ba: 7c298000
……………………(省略部分無意義內容)…………………………………………………………
? hash: [8e96e068,8e96e068] lru-write: [8ea63e58,7c7efffc]
? obj-flags: object_ckpt_list
? ckptq: [7bfe8140,7dfea5d0] fileq: [8ea707ec,8ea707ec] objq: [88c3d034,88c3d034]
……………………(省略部分無意義內容)…………………………………………………………
上一次DUMP的時候,LRU鏈前后塊的指針為lru: [80bf9cc8,7c7efffc],下一次DUMP時,已經變成lru-write:?
[8ea63e58,7c7efffc],但檢查點隊列相關的信息沒變,都是ckptq: [7bfe8140,7dfea5d0]。
當臟塊寫完成時,BH中信息變為這樣:
BH (7c3f497c) file#: 4 rdba: 0x01000014 (4/20) class: 1 ba: 7c298000
……………………(省略部分無意義內容)…………………………………………………………
? hash: [8e96e068,8e96e068] lru: [7c7efffc,7c3f2f18]
? lru-flags: on_auxiliary_list
? ckptq: [NULL] fileq: [NULL] objq: [88c3d02c,88c3d02c]
……………………(省略部分無意義內容)…………………………………………………………
從lru-write: [8ea63e58,7c7efffc],變為了lru: [7c7efffc,7c3f2f18],從lru-flags可以看到,已經被放到
輔助鏈表中了。同時,ckptq已經是NULL了。寫磁盤完成時,才從CKPT-Q上摘掉。
2、根據上面的測試結果,臟塊可能會同時存在于兩個鏈表:LRUW和CKPT-Q。塊從LRUW寫磁盤后,會從CKPT-Q上
摘掉。但反過來呢?從CKPT-Q中寫磁盤,寫完后會從LRUW上摘掉嗎?
答案是,會的。
如何驗證呢?我是通過Latch的獲取來驗證的。
臟塊通過CKPT-Q寫到磁盤后,其所處的LRU位置不變,這一點我在前文中已經提到過,也很容易驗證這點,從x
$BH中的NXT_REPL,PRV_REPL兩列,就可以驗證此點。也就是說,從CKPT-Q寫臟塊,是和LRU鏈表無關的,也就是
不需要獲得LRU Latch。如果從CKPT-Q寫臟塊申請了LRU Latch,哪一定和LRUW有關。
將檢查點超時參數設為很小的值,寫個簡單的DTrace腳本,跟蹤一下DBWR進程Latch的獲得情況。發現每次從
CKPT-Q寫臟塊時,DBWR都要按如下順序申請Latch:
獲得cache buffers chains Latch
? 獲得LRU Latch
? 釋放LRU Latch
釋放cache buffers chains Latch
獲得checkpoint queue latch
釋放checkpoint queue latch
獲得cache buffers lru chain
釋放cache buffers lru chain
也就是說,從CKPT-Q寫臟塊時,不但要獲得checkpoint queue latch,還要LRU Latch。根據前面的分析,從
CKPT-Q寫臟塊時,獲取LRU Latch的目的,只能是為了訪問LRUW,因為CKPT-Q寫不改變塊在LRU的位置,不必要
訪問LRU。哪么,CKPT-Q寫訪問LRUW的目的是什么,可以推論,目的是為了檢查臟塊是否在LRUW、并摘掉它。
還有一點,由于塊已經從LUR移到了LURW,從CKPT-Q寫完成后,雖然不是從LURW寫的,塊應該仍會被放入輔助
LRU,這個就是猜想了。我盡量找個測試實際驗證下。
========
總結
以上是生活随笔為你收集整理的揭密Oracle之 七种武器的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Oracle表空间离线在线切换和数据库关
- 下一篇: Oracle 表空间数据文件迁移图解