當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

揭密Oracle之七种武器

發布時間：2025/4/14 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了揭密Oracle之七种武器小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

揭密Oracle之七種武器第一章搭建測試環境

vage

揭密Oracle之七種武器 ?第一章搭建測試環境

（揭密Oracle之七種武器第二章地址：DTrace語法：跟蹤物理IO
http://www.itpub.net/thread-1609235-1-1.html

揭密Oracle之七種武器之三：破譯古老的謎題---共享CBC Latch的秘密
http://www.itpub.net/thread-1617245-1-1.html)

第一章 ?測試環境的搭建

面對越來越封閉的Oracle，你想揭開它神秘的面紗嗎。
奇奇怪怪的問題，總是查不出原因，你想揭開它背后的秘密嗎。
還等什么，DTrace+GDB，

有必要說明下，雖然我們只能在Solaris測試，但Oracle的工作原理，在
大部分平臺下，是一樣的 ?（可能Windows會有點不同吧）。我們用Dtrace分析Oracle的原理，比如在什么時候
、加什么樣的鎖、Pin、Latch或Mutex，加到什么操作為至釋放，會以怎樣的形式阻塞，等等，用這個原理，去
診斷其他平臺的問題。

1、安裝Solaris
首先你要有個測試環境，DTrace只有Solaris下有，我們就搭個Solaris的測試平臺吧。到Oracle官網上下個

Solaris，現在已經有11了，我下的是10，這是10的
鏈接：http://www.oracle.com/technetwork/server-storage/solaris10/overview/index.html 。如果你想用
11，當然也可以。對于我們測試Oracle，10和11差別不大的。
下載的文件，是個ISO文件，直接加載到虛擬機里安裝就可以了，安裝過程我不再說了，非常簡單。考慮到以后

我還要裝Oracle、建庫，磁盤最好搞大點，20G吧
。對了，我的虛擬機是VMWare 8.0.0 build-471780。你也可以選擇其他版本，或其他虛擬機。
2、安裝Oracle
（1）、下載Oracle
我們最好裝兩個版本，10GR2和11GR2。10G現在用的還比較多，而且10G相關DTrace和GDB的資料更多些，因為我
一直在用DTrace+GDB研究10G，后面我會逐步總結
一些我的研究結果。11GR2作為未來必定會流行的版本，有必要早做準備。

注意，11GR2在Solaris平臺，只有64位版本的。要求你的電腦要是64位才行。

（1）、創建Oracle用戶和Oinstall、DBA組
groupadd dba
groupadd oinstall

useradd -g oinstall -G dba -d /export/home/lhb -m oracle

（2）、設置內核參數
編輯/etc/system文件，增加如下行：
set shmsys:shminfo_shmmax=10737418240
set shmsys:shminfo_shmmin=1048576?
set shmsys:shminfo_shmseg=1000?
set shmsys:shminfo_shmmni=100?
set semsys:seminfo_semmns=700?
set semsys:seminfo_semmni=100
set semsys:seminfo_semmsl=256

我10G、11G都是這樣寫的。

（3）、設置oracle用戶下的.profile
我的.profile只有這些內容：
ORACLE_BASE=/export/home/oracle/opt/?
ORACLE_HOME=$ORACLE_BASE/product/10.2.0/?
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$ORACLE_HOME/lib:/usr/lib?
PATH=$PATH:/usr/ccs/bin:$ORACLE_HOME/bin
ORACLE_SID=h1
export ORACLE_BASE
export ORACLE_HOME
export LD_LIBRARY_PATH?
export PATH

export ORACLE_SID

（4）、安裝和建庫
解壓下載的Oracle安裝文件，開始安裝。
11G安裝畫面變了很多，但過程和10G大致上相差無幾。我安裝11GR2的時候，在環境檢查時，報swap和tmp不夠
大，直接忽略過去就行了。還有，在安裝的83%時，停了很
久。到底多久不知道，因為等了太久，都晚點12點多來，我一直有早睡早起的習慣，直接去睡了，第二天早上
起來一看，已經裝好了。

庫你怎么建都行，我一般是手動建，你當然可以選擇在安裝的時候一起建，這些基本的我就不再說了。

3、安裝GDB
到http://www.sunfreeware.com中，下載GDB的庫，我下載了這五個庫：
expat-2.0.1-sol10-x86-local.gz ? ?
gdb-6.8-sol10-x86-local.gz ? ?
libiconv-1.14-sol10-x86-local.gz ?
libintl-3.4.0-sol10-x86-local.gz
ncurses-5.7-sol10-x86-local.gz
用如下命令，依次安裝5個庫。注意，最好安照我上面的順序安裝，
gunzip expat-2.0.1-sol10-x86-local.gz?
pkgadd -d expat-2.0.1-sol10-x86-local.gz
安裝完后，將gdb的路徑，加入到/etc/profile中：
在/etc/profile中增加如下行：
PATH=$PATH:/usr/sfw/bin:/usr/local/bin
LD_LIBRARY_PATH=/usr/sfw/lib
export LD_LIBRARY_PATH
export PATH
好了，等測試環境建好后，我們來一步一步，用DTrace+GDB，刀劍合璧，讓Oracle沒有秘密。

========

揭密Oracle之七種武器二：DTrace語法：跟蹤物理IO

vage

揭密Oracle之七種武器二：DTrace語法：跟蹤物理IO

（第一章地址：
揭密Oracle之七種武器 ?第一章搭建測試環境
http://www.itpub.net/thread-1605241-1-1.html?
或參考我的BLOG www.MythData.com

揭密Oracle之七種武器之三：破譯古老的謎題---共享CBC Latch的秘密
http://www.itpub.net/thread-1617245-1-1.html
）

? ? ? ? 其實本章是以物理IO為例，介紹DTrace的基本語法。本篇內容還是比較多的，應該足夠有興趣的朋友

學習一周了。下周，再推出我的第三章。
? ? ? ? ?另外說明一下，我并不是DTrace專家，我用DTrace主要目的是研究Oracle。我們不會對DTrace作過多

深入的介紹（不過DTrace本身也沒有深入的東西，調試工具嗎，復雜的是要調試的目標），我們的主要內容，

還是逐步深入，介紹如何用DTrace分析、研究Oracle方法。
? ? ? ? 授人以魚，不如授人以漁。我相信，方法比結果重要。

? ? ? ? 本篇內容會用到一本書，Solaris 動態跟蹤指南，可以到這里下載。 ? D語言全面介紹.pdf (1.83?
MB, 下載次數: 1840) 這個是Solaris官方提供的文檔，而且是中文的。當字典來查，非常不錯。

第二章 ?DTrace語法：跟蹤物理IO

第一節 ?Hello World
? ? ? ? DTrace是什么，這個問題很容易回答：調試工具。具體我們可以這樣理解，Solaris在其內部，增加了
N多的觸發器，這些觸發器平時是Disable的，對性能沒有任
何影響。你可以通過DTrace，Enable某些觸發器。并且，在Enable的同時，還可以為這些觸發器指定動作。
? ? ? ? 比如，有一個I/O觸發器，你用DTrace Enable了它，同時，你定義動作，“每次發生I/O時，顯示出
I/O大小”。當然，還可以定義更復雜的動作，顯示I/O的內容
、甚至修改I/O數據。進程想往磁盤中寫個A，你可以用DTrace，將A換成B。當然，我們調試進程，一般不需要
修改，只需要觀察。
? ? ? ? 換成DTrace中的術語，觸發器就是Probe，可以譯為探針。探針并時都是關閉的，也就是Disable的。
我們可以使用DTrace，打開探針，并為探針指定動作。當探針
被觸發，你通過DTrace為探針定義的動作，就會被執行。
? ? ? ? 好，閑言少敘，試試我們的第一個DTrace程序吧。讓我們也來個DTrace版的“Hello World
”吧。
? ? ? ? 在root下，vi test1.d，輸入如下命令：
BEGIN
{
? ? printf("hello world,www.MythData.com ";
? ? exit(0);
}
如下執行此腳本：
# dtrace -s test1.d
結果顯示：
dtrace: script 'test1.d' matched 1 probe
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 3 ? ? ?1 ? ? ? ? ? ? ? ? ? ? ? ? ? :BEGIN hello world,www.MythData.com?
? ? ? ? 在此加上我的BLOG地址，我的那篇突然35歲，雖然被轉載的到處都是，但被截掉了我的BLOG地址。唉

。如果有人轉載的話，應該也會有人截掉的。
? ? ? ? 閑言少敘，上面就是顯示結果了。對于我的程序和輸出結果，略加說明。
? ? ? ? 1、BEGIN：它是DTrace的探針之一。也是最簡單的探針。它不和操作系統任何操作關聯，一般它用來

做DTrace程序運行的初始化工作。BEGIN探針中的代碼，會在
DTrace程序開始時運行。
? ? ? ? 2、大括號：如我們所見，探針名之下，就是大括號。這足以說明DTrace的設計者是C語言迷，將C語言

的格式帶入到了DTrace中來。
? ? ? ? 3、大括號中間的語句：這就是我們為BEGIN探針定義的動作了。包含兩條語句，顯示和退出。每條語

句之后以;號結尾。
? ? ? ? 4、關于這兩條語句，我就不再多說了，printf，在此的使用方法，完全和C語言一樣。
? ? ? ? 5、兩注意事項，（1）、大小寫是敏感的。（2）、如果不加exit(0)的話，此程序運行完將不會退出

。可以手工Ctrl+C退出。
? ? ? ? 輸出結果的話：
? ? ? ? 1、CPU列為3，說明此DTrace程序在運行時，剛好在3號CPU上執行命令。
? ? ? ? 2、ID列是探針編號。
? ? ? ? 3、FUNCTION:NAME，:BEGIN，探針名相關信息，這個后面再詳細說。
? ? ? ? 4、最后無列名的部分，hello world,www.MythData.com，就是我們程序的輸出結果了。
? ? ? ? 最后，每次運行此程序時，都要dtrace -s，太麻繁了。我們可以添加一個#!/usr/sbin/dtrace -s在

程序頭，如下所示：
#!/usr/sbin/dtrace -s
BEGIN
{
? ? printf("hello world,www.MythData.com ";
? ? exit(0);
}
? ? ? ? 保存，使用chmod 755 test1.d，賦上去可執行權限，如下方式執行：
# ./test1.d
dtrace: script './test1.d' matched 1 probe
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 0 ? ? ?1 ? ? ? ? ? ? ? ? ? ? ? ? ? :BEGIN hello world,www.MythData.com?

第二節 ?詳述探針（Probe）

? ? ? ? 完整的探針描述符，絕對不至上節我們遇到的BEGIN這么簡單。它包括PROVIDER（提供器），MODULE（

模塊名），FUNCTION（函數名）和NAME（探針名稱）四部分
。BEGIN只是最簡單的一個特例。
? ? ? ? PROVIDER是最上層的稱號，比如有IO PROVIDER，進程PROVIDER，等等。每種PROVIDER根據其包含的探

針不同，又分為N種MODULE。MODULE之中又包含各種FUNCTION
，最后的NAME是探針名，通常是進入、開始、退出、完成這些東西，在進入一個FUNCTION（函數)、退出函數、

完成函數等等動作發生時被觸發。
? ? ? ? 我們以IO為例，這應該是我們最關心的話題。操作系統中大部分IO事件的開始處，有這樣一個探針：
io:genunix:bdev_strategy:start
? ? ? ? io是PROVIDER，genunix是MODULE。bdev_strategy是FUNCTION，所有串行磁盤I/O事件將調用

bdev_strategy函數完成。最后一個，start，bdev_strategy函數入口
處的探針。
? ? ? ? 我們可以這樣稱呼它，io提供器下的genunix模塊中的bdev_strategy函數上的start探針。我們可以理

解為某數據庫下某Schema中的某個表上的某某觸發器。一個
探針的稱呼其實無所謂。了解Solaris一供為我們提供了什么PROVIDER（提供器），這些提供器下都有什么

MODULE（模塊），這些模塊中都有什么FUNCTION（函數），以及
這些函數上都有什么探針，這才是重要的。關于這點，我們可以參考《Solaris 動態跟蹤指南》，這是本書像

一本字典，詳細介紹了所有的提供器、模塊等等。
? ? ? ? 好，先以io:genunix:bdev_strategy:start為例子，測試一下吧：
vi test2.d
#!/usr/sbin/dtrace -s
BEGIN
{
? ? i=0;
}
io:genunix:bdev_strategy:start
{
? ? printf("%d number physio IO",i);
? ? i++;
}
保存，chmod 755 test2.d，這是執行的結果：
# ./test2.d
dtrace: script './test2.d' matched 2 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 0 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 1 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 2 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 3 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 4 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 5 number physio IO
……………………
? ? ? ? 每有一次IO，程序會都會顯示一行，“ ?1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:star”，這一部分

是固定輸出，這一部分其實可以用一個參數關掉。參數我們以
后再說。后面“ 0 number physio IO”，是我們程序的輸出結果。
? ? ? ? 如果我們不按Ctrl+C，程序會一直顯示下去。每有一次串行IO發生，準確說是每調用一次

bdev_strategy函數，探針被觸發一次，就會顯示一行。
? ? ? ? 只顯示IO的次數，也沒啥意義。其實我們可以顯示更多的東西。但要對IO類探針進一步了解些。
? ? ? ? bdev_strategy既然被叫作函數，是函數的話，當然有參數。它一共有3個參數，參數1是bufinfo_t型

的結構，參數2是devinfo_t型結構，參數3是fileinfo_t型結
構。可以參見《Solaris 動態跟蹤指南》 356頁。
? ? ? ? 另外，結構，Struct，C語言的基本東西。不會的話，去看看潭浩強的C語言吧。二級C語言，我想我們

都應該沒啥問題吧。確定寫DTrace腳本，連二級C都不需要，
只需要對C語言有最基本的了解即可。
? ? ? ? 這三個結構當中，fileinfo_t包含的有I/O所針對的文件名，請允許我粘一段《Solaris 動態跟蹤指南

》 359頁的內容，fileinfo_t結構的定義：
typedef struct fileinfo?
{
? ? ? ? string fi_name; ? ? ? ? /* name (basename of fi_pathname) */
? ? ? ? string fi_dirname; ? ? ? ? /* directory (dirname of fi_pathname) */
? ? ? ? string fi_pathname; ? ? ? ? /* full pathname */
? ? ? ? offset_t fi_offset; ? ? ? ? /* offset within file */
? ? ? ? string fi_fs; ? ? ? ? ? ? ? ? /* filesystem */
? ? ? ? string fi_mount; ? ? ? ? /* mount point of file system */
} fileinfo_t;
? ? ? ? 在此，照顧一下不會C語言的人，簡單說明一下，如果我們要訪問結構中的內容，格式是“結構名.域

”，或者“結構指針->域”。在DTrace中，我們得到的一般都
是指針。
? ? ? ? 好，下面我們改一下腳本程序：
io:genunix:bdev_strategy:start
{
? ? printf("%s",args[2]->fi_pathname);
}
? ? ? ? args[2]，是bdev_strategy函數的第三個參數，這是Dtrace中的固定用法。DTrace中還會有一些類似

的固定用法，可以參考《Solaris 動態跟蹤指南》P68頁，內
置變量。我們以后還會用到一些其他的。
? ? ? ? 在bdev_strategy函數中，第三個參數是fileinfo_t型的指針，也就是說，我們可以用“args[2]->域

”的格式，訪問fileinfo_t型結構中的域。我們此外訪問的域
是fi_pathname，也就是文件的完整路徑加名字，形式就是如上面所示：args[2]->fi_pathname。
這是我執行后的結果：
# ./test2.d
dtrace: script './test2.d' matched 2 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 0 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 0 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start <none>
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start <none>
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start <none>
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start <none>
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? ? ? ? 可以看到，有很多控制文件的寫。隨帶說一下，我這個測試庫很閑，沒有任何操作。但你可以看著表

統計一下，不超過3秒，肯定會有一次控制文件的IO操作。原
因是什么，我就不用再說了吧。
? ? ? ? 再進一步的，Oracle每次控制文件的IO是多大呢？ IO的大小在bufinfo_t結構中的b_bcount域，你可

以查看《Solaris 動態跟蹤指南》 356頁，為了節省篇幅，我
就不再粘過來了。bufinfo_t結構的指針，是bdev_strategy的第一個參數，也就是args[0]。因此，我們可以如

下再次修改代碼：

io:genunix:bdev_strategy:start
{
? ? printf("%s %d",args[2]->fi_pathname,args[0]->b_bcount);
}
這是我的執行結果：
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /var/tmp/Exwla4xc 8192
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/redo03 4096
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192
? ? ? ? 控制文件的IO大小，很整齊的都是8192字節，8K，控制文件的塊大小。出乎我意料的是，有一個Redo

文件：redo03，它的IO大小是4096。我以前一直以為，應該是
512才對，因為Solaris下，Redo的塊大小就是512字節啊（我碰到的系統，好像只有HP的不是512）。
? ? ? ? 不急，我們還沒有搞清楚這些IO是讀還是寫呢，說不定是歸檔的讀Redo IO呢。還是bufinfo_t結構，

b_flags域，說明了IO類型。關于這個域，在操作系統內部定
義了幾個標志（就是用#define 定義的），B_WRITE代表IO是寫，B_READ代表是讀，還有些其他的，自己到357

頁查吧。
? ? ? ? 我將代碼修改如下，添加上去IO類別的判斷：
io:genunix:bdev_strategy:start
{
? ? printf("%s %d %s",args[2]->fi_pathname,args[0]->b_bcount,args[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? args[0]->b_flags&B_READ?"R":"W"，這種使用形式，條件表達式，是我們以后常用的形式，因為

DTrace中沒有if、while等流程控制語句，所以條件表達式將是if
的常用替代者，但它必竟替代不了復雜的控制語句。
? ? ? ? 仍然是為了程序不太好的人，介紹一下這個條件表達式：“條件？值1？值2”，將條件為True，值1為

整個條件表達式的值。否則，值2為整個條件表達式的值。
這是執行結果：
? 3 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192?

W
? 3 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192?

W
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/redo01 4096 W
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192?

W
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192?

W
………………
? ? ? ? 控制文件IO也全是寫，還有，中間的Redo文件IO，是我專門修改1行，Commit一下產生的，IO大小是

4096字節，而且是寫IO。看來，的確是LGWR在寫Redo01。我們
可以觀察一會兒，不會發現Redo文件有512字節IO，這也說明了一個我之前一直忽視的問題，先賣個關子，我們

待會再討論。
? ? ? ??
? ? ? ? 我們為io:genunix:bdev_strategy:start處的探針定義了動作，當運行此DTrace腳本時，我們就開啟

了探針io:genunix:bdev_strategy:start。但有些IO，并不是
通過bdev_strategy函數完成的，探針io:genunix:bdev_strategy:start捕獲不得這些IO。為了開啟更多的探針

、捕獲更多的IO操作，在完整的探針描述符中，我們可以確
實部分內容，下面，如下修改程序：
io:genunix::start
{
? ? printf("%s %d %s",args[2]->fi_pathname,args[0]->b_bcount,args[0]->b_flags&B_READ?"R":"W" );
}
腳本程序運行后的提示：
# ./test2.d
dtrace: script './test2.d' matched 4 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?

8192 W
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?

8192 W
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?

8192 W
? ? ? ? 其中，第一行“dtrace: script './test2.d' matched 4 probes”，說明一共開啟了4個探針，比之

前的測試，多開啟了兩個探針。
? ? ? ? 我們還可以進一步省略，io:::start，這將開啟7個探針。我就不再測試了。但我們不能寫成:::start

，或io:::這樣的形式。
? ? ? ? 我們還可以使用通配符，如“i*:::start”，這就是打開所有i開頭的提供器中的所有模塊、所有函數

的Start探針。當然，我們也可以在模塊、函數名中，使用通
配符，但不能在探針名中使用通配符。比如，這樣將是錯誤的：“io:::st*”。通配符還可以是問號，比如：

“i?:::start”。 * 號代表所有字符，一個 ? 號，只能代表
一個字符。
? ? ? ? 探針的使用，說的也就差不多了，最后再來一個總結，我們如何知道Solaris有哪些探針，當然，我們

可以查看《Solaris 動態跟蹤指南》。除了這個之外，
dtrace -l 命令可以查看所有的探針：
# dtrace -l|wc -l
? ?51805
? ? ? ? 我使用的Solaris中，一共有5萬多個探針。
? ? ? ? 我們還可以顯示某一個提供器下所有探針，這樣更有針對性，比如，顯示io提供器下有什么模塊、函

數、探針：
# dtrace -lP io
? ?ID ? PROVIDER ? ? ? ? ? ?MODULE ? ? ? ? ? ? ? ? ? ? ? ? ?FUNCTION NAME
? 767 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? ? ? ? biodone done
? 768 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? ? ? ? biowait wait-done
? 769 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? ? ? ? biowait wait-start
? 780 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ?default_physio start
? 781 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? bdev_strategy start
? 782 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? ? ? ? aphysio start
2530 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ?nfs4_bio done
2531 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ?nfs3_bio done
2532 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ? nfs_bio done
2533 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ?nfs4_bio start
2534 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ?nfs3_bio start
2535 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ? nfs_bio start
? ? ? ? 不多，io提供器下，只有13個探針。
? ? ? ? 好了，探針的內容我們就說到這兒，下面，下一項內容：謂詞。

第三節謂詞

? ? ? ? 謂詞其實就是條件語句，減化版的條件語句。比如，我們繼續前面的例子，我只想觀察一下針對Redo

文件的IO，我們可以這樣做，先用如下命令確認一下當前Redo
文件是誰：
set linesize 10000
select * from v$log;
? ? GROUP# ? ?THREAD# ?SEQUENCE# ? ? ?BYTES ? ?MEMBERS ARC STATUS ? ? ? ? ? FIRST_CHANGE#?

FIRST_TIM
---------- ---------- ---------- ---------- ---------- --- ---------------- -------------?

---------
? ? ? ? ?1 ? ? ? ? ?1 ? ? ? ?470 ? 62914560 ? ? ? ? ?1 YES ACTIVE ? ? ? ? ? ? ? ? 9387236 05-

MAY-12
? ? ? ? ?2 ? ? ? ? ?1 ? ? ? ?471 ? 62914560 ? ? ? ? ?1 NO ?CURRENT ? ? ? ? ? ? ? ?9388037 05-

MAY-12
? ? ? ? ?3 ? ? ? ? ?1 ? ? ? ?469 ? 62914560 ? ? ? ? ?1 YES INACTIVE ? ? ? ? ? ? ? 9386469 05-

MAY-12
2號Redo文件是當前Redo文件，再如下確認一下2號Redo文件是誰：
select member from v$logfile where group#=2;
MEMBER
-------------------------------------------------------------------------------------------------

-----------------------------------------------------
/export/home/oracle/opt/dbdata/h1/redo2.log
? ? ? ? 好，如下修改腳本：
io:::start
/ args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo2.log" /
{
? ? ? ? printf("%s %s %d %s\n",args[1]->dev_statname,args[2]->fi_pathname,args[0]->b_bcount,args

[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? 探針描述符我簡寫為：io:::start，我開啟了所有IO開始處的探針，攔截io提供器下所有的IO函數調

用。在探針描述符之下的 / ………… / ，就是本節所要介紹
的謂詞。簡單點說，就是條件。當探針被觸發后，只有滿足謂詞條件，才會執行探針下的動作。
? ? ? ? 結合上面的程序，也就是當有IO發生時，只有當IO是針對redo2.log這個文件的，才會執行下面的

Printf命令。
? ? ? ? 開一個數據庫會話，使用update命令更新一行，觀察一下行針對Redo的IO。
? ? ? ? 我針對一個很小的表，執行如下命令：
SQL> update a1 set id=id+0 where id=1;
1 row updated.
SQL> commit;
Commit complete.
? ? ? ? 觀察結果， update a1 set id=id+0 where id=1時，并沒有Redo的IO，這是因為在全新的IMU模式下

，Redo機制Oracle做了很大調整，DML語句執行時，只要沒有
超過private strand大小，日志不會被寫進Log Buffer。關于這些內容，后面我們專門開個帖子詳細討論吧。

在Commit時，就有了如下輸出：
# ./test2.d
dtrace: script './test2.d' matched 7 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo2.log?

4096 W
? ? ? ? 有4096字節的針對Redo2.log的寫IO。但是，注意，并不是每次提交時，都會有IO。下面是我做的一個

完整測試，我一共執行了上面的Update、commit命令共10次
，有6次commit時有IO：
# ./test2.d
dtrace: script './test2.d' matched 7 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?

4096 W
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?

4096 W
? 3 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?

4096 W
? 1 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?

4096 W
? 3 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?

4096 W
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?

4096 W
? ? ? ? 我們可以用truss 跟蹤一下lgwr進程，每次提交時，lgwr都會調用pwrite64函數，寫Redo文件。寫的

大小不等，最小時會是512字節。而且，每次提交時，都會寫
Redo文件。這就是Oracle的運行法則之一嗎，提交時，一定會寫Redo文件。但是，如果你使用的是文件系統，

對日志文件的寫，操作系統有可能只是暫時先寫進主機的緩存
當中。
? ? ? ? 當然，在Solaris下，我們可以mount -o directio 這樣Mount磁盤，所有IO都將是直接IO了。
? ? ? ? 使用文件系統是危險的。我只了解Oracle，不了解各種文件系統。嚴謹點的說法，使用某些文件系統

存放Redo文件是危險的。有可能造成提交后的數據丟失。如果
你決定使用文件系統，一定要詳細了解下你的文件系統，針對Redo文件，是否是直接IO，或者在突然當機后的

處理，有沒有類似Oracle的實例恢復機制。
? ? ? ? 我們可以測試一下，做一個DML操作，提交，然后馬上關掉主機電源（我是Power Off掉虛擬機的電源

），再重新啟動虛擬機、數據庫，查看剛才已經提交DML的結
果，你會發現，有時DML的結果會丟失掉的。注意，是已提交的DML結果會丟失。
? ? ? ? 在謂詞中，我們可以使用常見的||、&&、！，就是或、與、非。比如，我共有三個日志文件，上面的

謂詞我捕獲一個日志文件redo2.log的IO，為了三個文件都捕
獲，可以如下改寫：
io:::start
/ args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo1.log" ||?
? args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo2.log" ||
? args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo3.log" /
{
? ? ? ? printf("%s %s %d %s\n",args[1]->dev_statname,args[2]->fi_pathname,args[0]->b_bcount,args

[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? 謂詞中我使用兩個||符號，也就是“或”，將三個條件連接起來。只要有任意一個條件滿足，都會執

行下面的printf命令。這樣，無論日志怎么切換，我們都可以
觀察Redo的IO情況了。
? ? ? ? 那么，ASM會不會有這樣的情況呢，我們可以測試下。
? ? ? ? 首先，配置ASM。我們先在10G下測試吧，10G的ASM配置比較簡單，網上資料也比較多。11GR2的，我們

以后再配置、觀察。
(1)、配置ASM
# export ORACLE_HOME=/export/home/oracle/opt//product/10.2.0/
# cd $ORACLE_HOME/bin
# ./localconfig add
（2）、準備ASM參數文件
$ cat asmpfile.ora
instance_type=asm
cluster_database=false
asm_diskgroups=dg1
asm_diskstring='/dev/rdsk/c*'
processes=200
remote_login_passwordfile=exclusive
core_dump_dest=/export/home/oracle/opt/admin/myasm/cdump
user_dump_dest=/export/home/oracle/opt/admin/myasm/udump
background_dump_dest=/export/home/oracle/opt/admin/myasm/bdump
（3）、啟動ASM實例
? ? ? ? 先要保證參數文件中background_dump_dest幾個參數中所指定的位置是有的，如下啟動ASM實例即可：
ORACLE_SID=myasm
sqlplus / as sysdba
create spfile from pfile='/export/home/oracle/asmpfile.ora';
startup nomount;
? ? ? ? 在我博客上有一篇文章，專門講如何配置ASM的：http://space.itpub.net/321157/viewspace-718805
（4）、給虛擬機添加新的磁盤。
? ? ? ? 這個我就不多說了，要先關掉虛擬機，添加完磁盤再重啟。先添加兩塊吧，大小不用太大。
（5）、格式化
? ? ? ? 格式化的步驟比較長，我寫的詳細些：
# format ? ?<----------------------------------format ，格式化命令。
Searching for disks...done
AVAILABLE DISK SELECTIONS:
? ? ? ?0. c0d1 <DEFAULT cyl 2085 alt 2 hd 255 sec 63>
? ? ? ? ? [url=]/pci@0,0/pci-ide@7,1/ide@1/cmdk@1,0[/url]
? ? ? ?1. c1t1d0 <DEFAULT cyl 98 alt 2 hd 64 sec 32>
? ? ? ? ? [url=]/pci@0,0/pci15ad,1976@10/sd@1,0[/url]
? ? ? ?2. c1t3d0 <DEFAULT cyl 98 alt 2 hd 64 sec 32>
? ? ? ? ? [url=]/pci@0,0/pci15ad,1976@10/sd@3,0[/url]
? ? ? ?3. c2t0d0 <DEFAULT cyl 98 alt 2 hd 64 sec 32>
? ? ? ? ? [url=]/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@0,0[/url]
? ? ? ?4. c2t1d0 <DEFAULT cyl 98 alt 2 hd 64 sec 32>
? ? ? ? ? [url=]/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0[/url]
Specify disk (enter its number):1 ? ?<-------------------------除了c0d1是我安裝系統時，原始創建的

磁盤外，剩下四個是后面添加的。此處我選擇1號磁盤，
c1t1d0。
selecting c1t1d0
[disk formatted]

FORMAT MENU:
? ? ? ? disk ? ? ? - select a disk
? ? ? ? type ? ? ? - select (define) a disk type
? ? ? ? partition ?- select (define) a partition table
? ? ? ? current ? ?- describe the current disk
? ? ? ? format ? ? - format and analyze the disk
? ? ? ? fdisk ? ? ?- run the fdisk program
? ? ? ? repair ? ? - repair a defective sector
? ? ? ? label ? ? ?- write label to the disk
? ? ? ? analyze ? ?- surface analysis
? ? ? ? defect ? ? - defect list management
? ? ? ? backup ? ? - search for backup labels
? ? ? ? verify ? ? - read and display labels
? ? ? ? save ? ? ? - save new disk/partition definitions
? ? ? ? inquiry ? ?- show vendor, product and revision
? ? ? ? volname ? ?- set 8-character volume name
? ? ? ? !<cmd> ? ? - execute <cmd>, then return
? ? ? ? quit
format> fdisk ? ?<------------------------應該先fdisk一下
No fdisk table exists. The default partition for the disk is:
? a 100% "SOLARIS System" partition
Type "y" to accept the default partition, ?otherwise type "n" to edit the
partition table.
y <-----------------------------此處輸入y
format> partition ? <---------------------進入分區命令
PARTITION MENU:
? ? ? ? 0 ? ? ?- change `0' partition
? ? ? ? 1 ? ? ?- change `1' partition
? ? ? ? 2 ? ? ?- change `2' partition
? ? ? ? 3 ? ? ?- change `3' partition
? ? ? ? 4 ? ? ?- change `4' partition
? ? ? ? 5 ? ? ?- change `5' partition
? ? ? ? 6 ? ? ?- change `6' partition
? ? ? ? 7 ? ? ?- change `7' partition
? ? ? ? select - select a predefined table
? ? ? ? modify - modify a predefined partition table
? ? ? ? name ? - name the current table
? ? ? ? print ?- display the current table
? ? ? ? label ?- write partition map and label to the disk
? ? ? ? !<cmd> - execute <cmd>, then return
? ? ? ? quit
partition> print ? ? ?<-------------------查看分區狀態
Current partition table (original):
Total disk cylinders available: 98 + 2 (reserved cylinders)
Part ? ? ?Tag ? ?Flag ? ? Cylinders ? ? ?Size ? ? ? ? ? ?Blocks
? 0 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 1 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 2 ? ? backup ? ?wu ? ? ? 0 - 97 ? ? ? 98.00MB ? ?(98/0/0) 200704 ?<-------2號分區已經被系統使用
? 3 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 4 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 5 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 6 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 7 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 8 ? ? ? boot ? ?wu ? ? ? 0 - ?0 ? ? ? ?1.00MB ? ?(1/0/0) ? ?2048 ?<-------8號分區也已經被系統使

用
? 9 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
partition> 0 ? <--------------------------------------選擇第0號分區，也可以選擇1號、3號或其他的，

但不能選擇2號、8號這兩個已經占用的。
Part ? ? ?Tag ? ?Flag ? ? Cylinders ? ? ?Size ? ? ? ? ? ?Blocks
? 0 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
Enter partition id tag[unassigned]: ? ?<-------- 缺省，直接回車
Enter partition permission flags[wm]: ?<-------- 缺省，直接回車
Enter new starting cyl[0]:1 ? ? ? ? ? ?<-------- 如果要用ASM，此處要從1開始，否則可以從0開始
Enter partition size[0b, 0c, 0e, 0.00mb, 0.00gb]: 95mb ?<-------- 輸入大小
partition> label ? <-------------設置label
Ready to label disk, continue? y ?<------------輸入y
partition> quit ? ?<-------------退出partition，回到Format
FORMAT MENU:
? ? ? ? disk ? ? ? - select a disk
? ? ? ? type ? ? ? - select (define) a disk type
? ? ? ? partition ?- select (define) a partition table
? ? ? ? current ? ?- describe the current disk
? ? ? ? format ? ? - format and analyze the disk
? ? ? ? fdisk ? ? ?- run the fdisk program
? ? ? ? repair ? ? - repair a defective sector
? ? ? ? label ? ? ?- write label to the disk
? ? ? ? analyze ? ?- surface analysis
? ? ? ? defect ? ? - defect list management
? ? ? ? backup ? ? - search for backup labels
? ? ? ? verify ? ? - read and display labels
? ? ? ? save ? ? ? - save new disk/partition definitions
? ? ? ? inquiry ? ?- show vendor, product and revision
? ? ? ? volname ? ?- set 8-character volume name
? ? ? ? !<cmd> ? ? - execute <cmd>, then return
? ? ? ? quit
format> type ? ? ? ? ?<----------------------------選擇類型
AVAILABLE DRIVE TYPES:
? ? ? ? 0. Auto configure
? ? ? ? 1. DEFAULT
? ? ? ? 2. other
Specify disk type (enter its number)[1]: 1 ? ?<---------------------此處選DEFAULT
selecting c1t1d0
[disk formatted]
format> save ? ? ? ? ? ? ? ? ? <-----------------------------此處，輸入save，保存剛才做的所有工作
Saving new disk and partition definitions
Enter file name["./format.dat"]: ? ? ? ?<-----------------------此處直接回車
format> quit ? ? ? ? ? ? <---------------------退出
#
? ? ? ? 然后到剛才啟動的ASM實例中，確定asm_diskstring參數的值為/dev/rdsk/c*：
SQL> show parameter string
NAME ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? TYPE ? ? ? ?VALUE
------------------------------------ ----------- ------------------------------
asm_diskstring ? ? ? ? ? ? ? ? ? ? ? string ? ? ?/dev/rdsk/c*
? ? ? ? 查看我們剛才Format的磁盤：
SQL> select path from v$asm_disk;
PATH
--------------------------------------------------------------------------------
/dev/rdsk/c0d1s0
/dev/rdsk/c0d1s1
/dev/rdsk/c0d1s7
/dev/rdsk/c0d1s9
/dev/rdsk/c1t1d0s0
? ? ? ? /dev/rdsk/c1t1d0s0，即為我們剛才Format的磁盤。c0d1s9這些不是，這些是裝系統時建的盤。
? ? ? ? 說到這兒，補充一下Solaris下磁盤名的格式：
/dev/[r]dsk/cXtXdXsX
c:邏輯控制器號（邏輯控制器）
t:物理總線目標號
d:磁盤或邏輯單元號(LUN)
s:分區號
如c1t1d0s0表示1號控制器，1號磁盤，0號LUN，0號分區。
? ? ? ??
? ? ? ? 分完區后，不需要設置屬主，ASM就可以自動識別到了。再把其他的盤也Format一下，讓ASM可以識別

到。
? ? ? ? 我最終選擇了這兩塊盤創建DG：
SQL> create diskgroup dg1 external redundancy disk '/dev/rdsk/c2t1d0s3','/dev/rdsk/c1t3d0s3';
Diskgroup created.
? ? ? ??
? ? ? ? 然后我們把Redo挪到ASM的dg1中，我在asmcmd中，在DG1里面建了一個redo目錄，然后到數據庫實例中

，將組2、組3挪進了ASM。在刪除組1、再添加組1到ASM中時
，報ASM空間不足。算了，我的磁盤太小了。
alter database drop logfile group 2;
alter database add logfile group 2 ('+DG1/redo/redo2.log') size 60m reuse;
alter database drop logfile group 3;
alter database add logfile group 3 ('+DG1/redo/redo3.log') size 60m reuse;
alter database drop logfile group 1;
? ? ? ? 現在我只有兩組日志，都在ASM中，對于我們測試來說，兩組已經夠了：
SQL> select * from v$log;
? ? GROUP# ? ?THREAD# ?SEQUENCE# ? ? ?BYTES ? ?MEMBERS ARC STATUS ? ? ? ? ? FIRST_CHANGE#?

FIRST_TIM
---------- ---------- ---------- ---------- ---------- --- ---------------- -------------?

---------
? ? ? ? ?2 ? ? ? ? ?1 ? ? ? ?489 ? 62914560 ? ? ? ? ?1 NO ?CURRENT ? ? ? ? ? ? ? ?9400623 07-

MAY-12
? ? ? ? ?3 ? ? ? ? ?1 ? ? ? ? ?0 ? 62914560 ? ? ? ? ?1 YES UNUSED ? ? ? ? ? ? ? ? ? ? ? 0
? ? ? ? 好了，開始我們的測試吧。修改一下腳本：
io:::start
{
? ? ? ? printf("%s %s %d %s\n",args[1]->dev_statname,args[2]->fi_pathname,args[0]->b_bcount,args

[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? 將上面所加的args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo1.log" ? ? ? ?這

種謂詞去掉。
# ./test2.d
dtrace: script './test2.d' matched 7 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 1 ? 3092 ? ? ? ? ? ? default_physio:start sd5 <none> 4096 W
? 1 ? 3092 ? ? ? ? ? ? default_physio:start sd2 <none> 4096 W
? 3 ? 3093 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?

8192 W
? 3 ? 3093 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?

8192 W
……………………………………
……………………………………
……………………………………
? ? ? ? 由于打開了7個探針，所有IO開始時的操作都會被我們捕獲，因此，輸出信息會比較多。
? ? ? ? 在Oracle 會話中，修改一行數據，再提交，可以觀察到這樣的IO：
? 2 ? 3094 ? ? ? ? ? ? ? ? ? ?aphysio:start sd3?

[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? ? ? ? [url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url]，這一串東西是啥？只要顯示一下

ASM中的磁盤就明了了，我的ASM DG1 中包含這兩塊盤/dev/rdsk/c2t1d0s3，
/dev/rdsk/c1t3d0s3。

# ls -lFrt /dev/rdsk/c2t1d0s3
lrwxrwxrwx ? 1 root ? ? root ? ? ? ? ?64 Mar 17 10:03 /dev/rdsk/c2t1d0s3 ->?

../../devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw*
# ls -lFrt /dev/rdsk/c1t3d0s3
lrwxrwxrwx ? 1 root ? ? root ? ? ? ? ?50 Mar 17 10:03 /dev/rdsk/c1t3d0s3 ->?

../../devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw
? ? ? ? 經過觀察，可以發現，剛才的IO，其實是針對/dev/rdsk/c1t3d0s3的，這正是DG1中的一塊盤。接下來

我們如下修改腳本：
io:::start
/ args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url]" ||
? args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url]"?

/
{
? ? ? ? printf("%s %s %d %s\n",args[1]->dev_statname,args[2]->fi_pathname,args[0]->b_bcount,args

[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? 我們只觀察針對這兩個磁盤的IO。執行一條簡單的DML，修改一行，我執行如下命令：
SQL> update a1 set id=id+0 where id=2;
1 row updated.
SQL> commit;
Commit complete.
? ? ? ? 在提交時，可以發現會有如下的IO：
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start sd5?

[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? ? ? ? 每次提交時，都會有IO發生，這是和文件系統的最大區別。這樣的話，我們提交的數據，就不會丟失

了。有時，也可以觀察到512字節的IO。
? ? ? ? 再進一步的，我們知道，在ASM中，AU的大小通常是1M，條帶大小也為1M。但Redo和控制文件Oracle會

將它們設置為“細粒度條帶”，條帶大小為128K。這個128K
，到底有什么意義呢？為什么我上面一定要在ASM DG1中，至少搞兩塊磁盤，就是為了觀察這個“細粒度條帶

”。我們繼續。
? ? ? ??
? ? ? ? 經過觀察，我測試用的兩條命令，update a1 set id=id+0 where id=2;，commit，每次執行，都會產

生1K的Redo。這種說法也不太準備，更準確應該是這兩條命
令，每次執行會觸發Lgwr 執行1K的IO寫操作。其實這兩條語句產生的Redo只有700多字節，但提交的時候，

LGWR寫Redo數據，只能以塊為單位去寫。700多字節，正好占兩
個日志塊，1K字節。
? ? ? ? 腳本再做一下修改，完整的腳本如下：
#!/usr/sbin/dtrace -s
BEGIN
{
? ? i=0;
}
io:::start
/ args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url]" ||
? args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url]"?

/
{
? ? ? ? printf("IO number:%d %s %s %d %s\n",i,args[1]->dev_statname,args[2]->fi_pathname,args

[0]->b_bcount,args[0]->b_flags&B_READ?"R":"W" );
? ? ? ? i++;
}
? ? ? ? 我把之前用過的i++加了進來，主要用來觀察IO的次數。好，運行這個程序，然后反反復復的執行上面

的DML和提交語句。
# ./test2.d
dtrace: script './test2.d' matched 7 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:0 sd5?

[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:1 sd5?

[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
…………………………………………省略部分內容…………………………………………
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:99 sd5?

[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 2 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:100 sd3?

[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? 2 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:101 sd3?

[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
…………………………………………省略部分內容…………………………………………
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:227 sd3?

[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:228 sd5?

[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:229 sd5?

[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
…………………………………………省略部分內容…………………………………………
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:354 sd5?

[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:355 sd5?

[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:356 sd3?

[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:357 sd3?

[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
^C
? ? ? ? 上面的結果，注意IO number:0的值，從IO number:100到IO number:227為止，共128次1K的IO，都是

針對，磁盤設
備“/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw”，從228次IO到355次IO，共128次1K IO，針對另一磁

盤設
備“/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw”。
? ? ? ? 這就是細粒度條帶的意義。雖然AU大小仍為1M，文件仍是按1M來分配空間。文件的第一個1M，在磁盤1

，第二個1M，在磁盤2，等等。但在使用空間的時候，卻是按
128K。先在磁盤1寫128K，再在磁盤2中寫128K，等等。
? ? ? ? 最后，還有一個問題，比如第100和101次IO：
? 2 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:100 sd3?

[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? 2 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:101 sd3?

[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? ? ? ? 這是兩次IO，每次IO的大小是1K，但是，我們如何確定這兩次1K大小的IO，一共寫了4個日志塊？有沒

有可能100次IO，寫了1、2號日志塊，101次IO，寫了2、3號
日志塊，兩次1K大小的IO，總共寫了1.5K數據？
? ? ? ? 之所以有這樣的疑問，是因為我的那條DML加提交，產生的Redo量是700多字節。雖然要占兩個塊，但

是占不滿兩個塊。那么，接下來的一次針對Redo的IO，是從沒
占滿的塊繼續往下寫，還是新占一個塊？
? ? ? ? 在資料視圖中，有一個資料redo wastage，Redo浪費空間。如果兩次IO每次各占兩個塊，redo?

wastage會不會有增加呢？我用如下語句查了一下
SQL> col name for a20
SQL> select name,value from v$sesstat a,v$statname b where a.statistic#=b.statistic# and b.name?

in( 'redo size','redo wastage') and sid=855;
NAME ? ? ? ? ? ? ? ? ? ? ?VALUE
-------------------- ----------
redo size ? ? ? ? ? ? ? ?774092
redo wastage ? ? ? ? ? ? ? ? ?0
? ? ? ? 855號會話，就是我反反復復執行那條DML、提交語句的會話。我們沒有觀察到這個會話中有Redo浪費

。通過這個結果，我上面的測試，好像兩次相鄰的、1K大小的
IO，應該并沒有產生共2K的Redo，應該只有1.5K。
? ? ? ? 但是，如果是這樣的話，我們上面關于“細粒度條帶”的結論，就有問題了。因為它是建立在連續128

次1K大小的IO，共寫了128K Redo基本上的。或者說，是建立
在兩次相鄰的、1K大小的IO，一定會產生2K的Redo這個基礎上。但通過redo wastage分析的結果，好像應該只

有1.5K才對。
? ? ? ? 到底結果如何，如果要確定的話，我們只能分析每次Redo IO的內容了。請看下節：“獲取進程數據”

第四節 ? 獲取進程數據

? ? ? ? 不久前才看過一個笑話，從哪兒來的我也忘了。說是一名生物學家研究螃蠏的聽覺系統，對著螃蠏大

吼一聲，螃蠏馬上跑了。將螃蠏的腿截掉，對著螃蠏再次大吼
一聲，螃蠏沒有跑。因此證明螃蠏的聽覺系統是在腿上。
? ? ? ? 我們做測試，千萬不要無意中成為這名生物學家。用不嚴謹的測試、得到錯誤的結論，然后再用這個

結論去分析碰到的問題，可想而知，這會是什么結果。
? ? ? ? 好，言歸正傳，繼續上節中的測試，為了得到準確的結論，我們需要獲得IO的內容。
? ? ? ? 繼續做這個分析，需要我們對Redo的塊格式，有簡單的了解。
? ? ? ? 512字節的一個Redo塊，前16字節，是塊頭。塊頭中第8到11字節，是塊所屬于日志序列號，第4到7字

節，是塊編號。接下來要做的，在Start探針中，讀出塊頭，
將每次IO的日志序列號、塊號顯示出來。
? ? ? ? DTrace中，可以使用copyin，《Solaris 動態跟蹤指南》P155頁，有這個函數的介紹。P411頁，還有

更詳細的介紹。
? ? ? ? 簡單點說，某個進程的數據，我們不能直接顯示，要使用copyin拷貝到DTrace的緩存中，才能顯示。

如下修改我們的腳本：
#!/usr/sbin/dtrace -s
char *rd;
char bn[4];
char seq[4];
BEGIN
{
? ? i=0;
}
io:::start
/ args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url]" ||
? args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url]"?

/
{
? ? ? ? rd=copyin((uintptr_t )(args[0]->b_addr),16);
? ? ? ? bn[0]=rd[4];
? ? ? ? bn[1]=rd[5];
? ? ? ? bn[2]=rd[6];
? ? ? ? bn[3]=rd[7];
? ? ? ? seq[0]=rd[8];
? ? ? ? seq[1]=rd[9];
? ? ? ? seq[2]=rd[10];
? ? ? ? seq[3]=rd[11];
? ? ? ? printf("IO number:%d %s %s %d %s Seq:%d,Block:%d\n",i,args[1]->dev_statname,args[2]-

>fi_pathname,args[0]->b_bcount,args[0]-
>b_flags&B_READ?"R":"W",*((int *)&seq[0]),*((int *)&bn[0]));
? ? ? ? i++; ? ? ? ? ? ? ? ?
}
? ? ? ? 解釋一下這段腳本，首先，在開頭的三個變量定義：
char *rd;
char bn[4];
char seq[4];
? ? ? ? 我們在BEGIN探針中，也用過變量:i。在io:::start探針中，還對i做了自增操作。這三個變量與i的區

別有兩點，一它們是全局變量，二它們有類型。
? ? ? ? 只有這樣的全局變量，才需要專門在程序開頭定義，也只有它們，才可以有類型。可以使用的類型，

同C語言一樣。變量i我們沒有定義，直接就開始使用。DTrace
根據它的值來決定它的類型。
? ? ? ??
? ? ? ? 然后，這行是這個腳本程序的關鍵：
rd=copyin((uintptr_t )(args[0]->b_addr),16);
? ? ? ? (uintptr_t )(args[0]->b_addr)，這是我們的地址，我們從這個地址中，考貝16個字節，到rd中。rd

是一個字符型指針，它的空間在DTrace緩存中。args[0]-
>b_addr這個域的值，就是存放IO內容的緩存區地址。我們在這個地址前加一個(uintptr_t )，強制類型轉換。

因為在《Solaris 動態跟蹤指南》P155頁，我們可以看到：
void *copyin(uintptr_t addr, size_t size)
? ? ? ? copyin要求的地址類型是uintptr_t型。但(args[0]->b_addr)的類型并不是這個，因此，我們需要加

個強制類型轉換。將(args[0]->b_addr)轉成uintptr_t型。
? ? ? ? 在這里我拷貝了16個字節，就是整個塊頭了。下面的賦值語句：
? ? ? ? bn[0]=rd[4];
? ? ? ? bn[1]=rd[5];
? ? ? ? bn[2]=rd[6];
? ? ? ? bn[3]=rd[7];
? ? ? ? seq[0]=rd[8];
? ? ? ? seq[1]=rd[9];
? ? ? ? seq[2]=rd[10];
? ? ? ? seq[3]=rd[11];
? ? ? ? 將塊頭中的4到7字節，傳到bn中，這是塊號。將8到11字節，傳到seq中，這是日志序列號。最后一步

輸出時，是這樣操作bn和seq這兩個數組的：
…………，*((int *)&seq[0]),*((int *)&bn[0]);
? ? ? ? &seq[0]，取出seq數組中0號元素的地址。(int *)，將這個地址轉成整型，(int *)&seq[0]，是一個

整型的地址，指向seq的開頭。在它之前再加一個*，取出這個
整型地址中值。其實根本含意就是，將bn數組中的4個字節，當作一個整型變量輸出。這是C語言中指針的常見

玩法。在使用copyin時，可能會用的比較多。
? ? ? ? 好了，運行腳本，執行DML+提交，觀察輸出結果：
……………………
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:93 sd3?

[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W Seq:495,Block:513
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:94 sd3?

[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W Seq:495,Block:515
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:95 sd3?

[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W Seq:495,Block:517
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:96 sd3?

[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W Seq:495,Block:519
……………………
? ? ? ? 可以看到第93次IO寫的是495號日志第513號塊，大小1K。94次IO是495號日志515號塊，大小1K，等等

。
? ? ? ? 也就是說，兩次相鄰Commit觸發的IO，各自寫各自的塊。兩次1K的IO，共寫了4個塊。
? ? ? ? 也就是說，我們對“細粒度條帶”的分析是不錯的。但redo wastage資料中的值就有問題了，不知道

它衡量的是什么浪費。我每次只產生700多字節Redo，用了
1024字節空間，但redo wastage的值為0。

? ? ? ? 好了，我們的揭密Oracle之七種武器之二，先到這里吧。第三章將繼續介紹DTrace語法，同時結合

Oracle的觀察結果。
? ? ? ? 用一句廣告語：精彩繼續，敬請期待。
========

揭密Oracle之七種武器之三：破譯古老的謎題---共享CBC Latch的秘密

vage

揭密Oracle之七種武器之三：破譯古老的謎題---共享CBC Latch的秘密

（前兩章地址
揭密Oracle之七種武器 ?第一章搭建測試環境（目前已到第三章）
http://www.itpub.net/thread-1605241-1-1.html

揭密Oracle之七種武器二：DTrace語法：跟蹤物理IO
http://www.itpub.net/thread-1609235-1-1.html
）

? ? ? ? 從9iR2開始，Cache Buffers Chain（以下簡稱CBC）Latch就變成共享Latch了。從那時開始，我想當

然的認為，如果我只有讀操作，互相之間就不會阻
塞了。于是馬上測試：
declare
? myid number;
begin
? for i in 1..10000000 loop
? ? select id1 into myid from a2_70m where rowid='AAACYJAAEAAAAAUAAA';
? end loop;
end;
/
? ? ? ? 這段過程很簡單，就是反復的邏輯讀某一行。將這段過程在兩個會話同時執行，我天真的認為，不會

再看到CBC Latch等待。但是，查看等待事件的結果
，令我深深的迷惑。為什么還是有等待呢？無論CBC 鏈還是數據塊，我都沒有修改，只是反復讀取，為什么共

享Latch不共享呢？從此，這個迷團一直困繞著我。
? ? ? ? 當然，還有其他一些謎團，比如唯一索引和非唯一索引在讀掃描時的區別。最普通的區別，是它們兩

個邏輯讀不一樣，唯一索引比非唯一少一個邏輯讀
。但其實，它們兩個的區別非常大。具體的區別在哪里？這些區別對于我們的選擇，會有什么影響？
? ? ? ? 這些謎團很長一段時間內沒有答案。
? ? ? ? 五、六年轉眼即過，2011年初，因公司技術轉型，我被迫從頭學起GreenPlum。翻開幾百頁的英文文檔

，我不禁倦意襲來。再看會Oracle的資料，又不禁
精神百倍。于是，我退意蒙生。但是，這段經歷，讓我有一個意外的收獲。阿里的GreenPlum，都是跑在

Solaris下。接手GreenPlum運維，必先學會Solaris。在
學習Solaris時，看到有一本書用兩頁紙介紹了一個工具：DTrace語言，說是可以跟蹤Solaris中的任何操作。

當時我對Oracle的研究，也陷入了困境。能用的跟
蹤事件都用了，很多原理還是無法搞清楚，只能跟著別人，人云亦云一下，自我感覺對Oracle了解甚為深入，

已經沒什么可以再學的了。但分析一些工作中奇怪
的問題，就總感覺似是，而非。
? ? ? ? 這種感覺讓我想起來多年前，年青的時候我酷愛神秘文化。什么東西都信，曾在二月底初春時節跳入

溥冰覆蓋的河水中受洗，隨身攜帶一本荒漠甘泉。
在被女神無情拋棄后，獨自站在空曠的教堂祈禱：“仁慈的圣父啊，我知道這是您對我的庇護和煅煉，雖然您

的孩子此刻心如刀絞，但我仍然感謝您、愛您。哈
利路亞，阿門。”不久之后，下一位女神出現，卻是信佛的。于是我又到家鄉著名的大相國寺，皈依佛祖，每

逢初一、十五，燒香誦經：“南無西方琉璃藥師佛
，南無……”。
? ? ? ? 在諸多雜學之中，我最精通的卻還是周易。剛剛參加工作哪會，我為我們科室6個人占卦，算他們哪一

年結婚、哪一年有小孩，6個人，只有一個算錯了
。83%的準確率，很高了。但是，為什么有一次算錯了呢？為什么其他的可以算對呢？這些問題我都答不上來，

我對周易的理解，始終似是，而非。
? ? ? ? 易經這東西，真正的神人傳下來的，幾千年中，看懂的沒幾個。但是Oracle呢，我也無法真正的看“

懂”它嗎。對易經的理解似是而非，這我服氣，但
對Oracle，我不想停留在似是而非的境界。 ? ? ? ?
? ? ? ? 當看到這個DTrace后，我眼前頓時一亮，如果用DTrace跟蹤Oracle，又會有怎樣的效果呢？是否可以

打破“似是而非”的僵局呢？于是我馬上搜集資料
開始學習，這一下，沒想到豁然為我打開一扇大門。于是我再也顧不得什么GreenPlum、什么KPI了。
? ? ? ? 好了，言歸正傳，這一節，從一個重要的提供器開始，PID進程提供器。Solaris在進程調用、退出每

個函數時，都設置了Prob，進程提供器的作用就是
打開這些Prob。
? ? ? ? 我們可以寫如下的腳本，打開PID提供器所有調用函數時的探針：
pid1234:::entry
{?
? ? ?動作;
}
? ? ? ? 這個腳本的作用是打開1234進程所有函數調用處的探針。簡單點說，1234進程每調一次函數，都會被

觸發。這個腳本還可以進一步改成這樣：
pid$1:::entry
{?
? ? ?動作;
}
? ? ? ? 用$1代替了1234。$1，這種寫法是來自于Shell腳本編程，第一個參數。當然，我們也可以pid$2。
? ? ? ? 接下來，我們可以定義什么動作呢？當然還是觀察了.
? ? ? ? 在我上傳的《Solaris 動態跟蹤指南》書中，P68頁，列出了全部的內置變量，這次，我們使用這幾個

內置變量：probeprov, probemod, probefunc,?
probename,arg0和arg1……
? ? ? ? probeprov：提供器名
? ? ? ? probemod : 模塊名
? ? ? ? probefunc：函數名，這是我們要查看的重點。
? ? ? ? probename：探針名，只有兩個。entry，return，一個進入、一個是退出。
? ? ? ? arg0,arg1,…… ：調用函數時，傳遞給函數的參數。 ? ? ? ?
? ? ? ? 這些內置變量，無需定義，可以直接使用。內置變量中保存了很多重要的值，在上篇文章已經有用到

過。
? ? ? ? 好，我們的最終腳本程序，是這個樣子：
? ? ? ? 這個探針的使用很簡單，我們總的腳本如下：
#!/usr/sbin/dtrace -s -n
dtrace:::BEGIN
{
? ? ? ? i=1;
}
pid$1:::entry
{
? ? ? ? printf("i=%d PID::entry:==%s:%s:%s:%s %x %x %x %x %x %x",i, probeprov, probemod,?

probefunc, probename,arg0,arg1,arg2,arg3,arg4,arg5);
? ? ? ? i=i+1;
}
? ? ? ? 參數這塊，我們也不知道每個函數都有幾個參數，好在多輸出參數DTrace并不會報錯，所以，我們就

多顯示幾個參數，我顯示了前6個：
arg0,arg1,arg2,arg3,arg4,arg5。都以%x，16進程格式顯示。
? ? ? ? 將此腳本保存為all_func.d，授于執行權限，開始執行。
? ? ? ? 對了，別忘了，本章的目的，是觀察CBC Latch。更進一步的，觀察邏輯讀的CBC Latch。
? ? ? ? 打開一個會話，查詢出它對應的進程號：
SQL> select c.sid,spid,pid,a.SERIAL# from (select sid from v$mystat where rownum<=1) c,v$session?

a,v$process b where c.sid=a.sid and?
a.paddr=b.addr;
? ? ? ?SID SPID ? ? ? ? ? ? ? ?PID ? ?SERIAL#
---------- ------------ ---------- ----------
? ? ? ?863 970 ? ? ? ? ? ? ? ? ?22 ? ? ? ? ?1
? ? ? ? 我的進程號是970。另外，在開始觀察前，執行幾次如下語句，讓讀是邏輯讀：
select * from a2_70m where rowid='AAACYJAAEAAAAAUAAA';
? ? ? ? 如下運行腳本，觀察970號進程：
# ./all_func.d 970 > logic_read1.log
dtrace: script './all_func.d' matched 124179 probes
? ? ? ? 根據顯示結果，共有124179個探針被打開。十幾萬個探針，說明Oracle內部，有十幾萬個函數。C語言

中，程序代碼的復用，全靠函數了。C又被稱為函
數語言嗎。不過，Oracle內部競然有十幾萬個函數，還是出乎我的意料。不過，函數分的越細，對我們調試、

跟蹤越好。在沒有源代碼的情況下，我們只能跟蹤
到函數級別了。
? ? ? ??
? ? ? ? 跟蹤結果會很多，為了便于觀察，我將結果重定向到logic_read1.log文件中。
? ? ? ? 另外，由于會打開太多探針，有可能會超出DTrace的限制，報出錯誤，可以修

改/kernel/drv/fasttrap.conf中fastrap-max-probes設置，在我的測試環
境中，我設置為fastrap-max-probes=1000000。
? ? ? ? 另外，如果在970進程執行期間，all_func.d腳本報內存不足，可以在腳本開頭加上去內存大小或刷新

頻率的設置：
#!/usr/sbin/dtrace -s -n -x switchrate=10hz -b 16m
? ? ? ? -x switchrate=10hz，設置刷新頻率。DTrace會結果發送到輸出終端，這個值可以理解為發送頻率。

在數據沒有發送到輸出終端前，DTrace會先保存到
自己的緩存中。因此，增加刷新頻率，可以減少內存使用。
? ? ? ? -b 16m ，修改緩存大小。
? ? ? ? 好了，來看結果吧，在970進程對應的會話中，再執行一次：
select * from a2_70m where rowid='AAACYJAAEAAAAAUAAA';
? ? ? ? 回到執行DTrace命令的窗口，按Ctrl+C。然后查看結果，先看一下有多少行輸出吧：
# cat logic_read1.log|wc -l
? ? 1211
? ? ? ? 1211行，這是運行一次軟軟解析，再加上對一個塊邏輯讀取出一行，Oracle所要調用的函數次數。這

也是我們最細粒度的跟蹤級別了。比10046等任何一
個Event，都要細致的多。除非你去看源碼，否則，不可能比這個更細、更深入了。
? ? ? ? 下面，讓我們來看看結果都是什么吧：
# cat logic_read1.log|more
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 3 172611 ? ? ? ? ? ? ? ? ? ? memcpy:entry i=1 PID::entry:==pid970:libc.so.1:memcpy:entry?

8047708 c0f2c28 1 c028934 c02a6dc 6
? 3 ?52316 ? ? ? ? ? ? ?kslwte_resmgr:entry i=2 PID::entry:==pid970racle:kslwte_resmgr:entry 100?

62657100 1 0 8047708 c028894
? 3 174943 ? ? ? ? ? ? ? ? ?gethrtime:entry i=3 PID::entry:==pid970:libc.so.1:gethrtime:entry?

c07ad01 80461e4 80461e4 8dd9467 100 62657100
? 3 ?52313 ? ? ? ? ? ? ? ? ?kslwte_tm:entry i=4 PID::entry:==pid970racle:kslwte_tm:entry 100?

62657100 1 0 cfacb398 1
? 3 111268 ? ? ? ? ? ? ? ? ?skgslnoop:entry i=5 PID::entry:==pid970racle:skgslnoop:entry c028934?

c02a6dc 0 8046130 c0e7078 b0fc070
? 3 ?86139 ? ? ? ? ? ? kews_idle_wait:entry i=6 PID::entry:==pid970racle:kews_idle_wait:entry?

8c9775bd 0 c028934 c02a6dc 0 8046130
? 3 174943 ? ? ? ? ? ? ? ? ?gethrtime:entry i=7 PID::entry:==pid970:libc.so.1:gethrtime:entry?

8f1e27a0 8f18c820 8c9775bd a9c0001 c07ad9c 80460f0
? 3 ?86061 ? ? ? ? ? kewe_trace_level:entry i=8 PID::entry:==pid970racle:kewe_trace_level:entry?

8f18c820 c028934 c02a6dc 0 8046130 c0e7078
? 3 ?52312 ? ? ? ? ? ksl_which_bucket:entry i=9 PID::entry:==pid970racle:ksl_which_bucket:entry?

2325dd c028934 c02a6dc 0 8046130 c0e7078
? 3 ?53333 ? ? ? ? ? ? ? ? ? kskthewt:entry i=10 PID::entry:==pid970racle:kskthewt:entry c07ad01?

80461e4 80461e4 8dd9467 100 62657100
? 3 172611 ? ? ? ? ? ? ? ? ? ? memcpy:entry i=11 PID::entry:==pid970:libc.so.1:memcpy:entry?

8047714 c0f2c29 2 101 c028890 c0e7120
? 3 104873 ? ? ? ? ? ? ? ? ? kpuhhmrk:entry i=12 PID::entry:==pid970racle:kpuhhmrk:entry c028850?

101 c028890 c0e7120 804773c 0
…………………………
…………………………
…………………………
? ? ? ? 以第一行為例，pid970:libc.so.1:memcpy:entry，pid970是提供器名，libc.so.1是模塊名，memcpy

是函數名，entry是探針名。
? ? ? ? 我摘出前十幾行，DTrace是能以很細的粒度跟蹤Oracle，細致程度遠超10046，但問題來了，我們如何

解讀跟蹤結果。這是一個很重要的問題。
? ? ? ? 簡單點說，這些函數都是干嗎的。不要指望誰能告訴你，現在，進行這種探索的，還非常非常少。這

方面的資料，就不要奢望了。來吧，Maoyeye教導我
們，自己動手，豐衣足食。
? ? ? ? 我們不需要、也可能能搞清楚這每一行函數調用都是干嗎的。Oracle的代碼量哪么龐大，估計Oracle

的開發人員，也不可能搞清楚這每一行全部的意義
。我們只需要搞清楚，我們自己關心的就行了。比如，我一開始所說的，Oracle在什么時候加什么的Mutex、

Latch、Pin、Lock，什么時候釋放，會以怎樣的形式
阻塞，等等。
? ? ? ? 我們今天，先以CBC Latch為例，說一下研究它的思路。其他的也都類似。我想做的，不是告訴你一個

結果，而是這結果是怎么來的，讓我們大家都可以
都可以用這種方式去研究。
? ? ? ? 每個Latch，都有一個地址，哪么，Oracle在調函數去獲得、獲放Latch時，應該會將此地址做為參數

。好，馬上，查找Latch的地址：
1、找出測試語句中ROWID在哪個文件哪個塊：
SQL> select dbms_rowid.ROWID_RELATIVE_FNO('AAACYJAAEAAAAAUAAA'),dbms_rowid.rowid_block_number

('AAACYJAAEAAAAAUAAA') from dual;
DBMS_ROWID.ROWID_RELATIVE_FNO('AAACYJAAEAAAAAUAAA') DBMS_ROWID.ROWID_BLOCK_NUMBER

('AAACYJAAEAAAAAUAAA')
---------------------------------------------------?

---------------------------------------------------
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 4 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ?20
測試語句要查找的行在4號文件、20號塊
2、在x$BH中，找到此塊在哪個Latch的保護下：
SQL> select file#,dbablk,tch,lower(HLADDR) from x$bh where file#=4 and dbablk=20;
? ? ?FILE# ? ? DBABLK ? ? ? ?TCH LOWER(HL
---------- ---------- ---------- --------
? ? ? ? ?4 ? ? ? ? 20 ? ? ? ? ?3 8ea1d750
? ? ? ??
? ? ? ? 4號文件20號塊，是受地址為8ea1d750的Latch保護。
3、在跟蹤結果文件中查找相關的：
# cat logic_read1.log|grep 8ea1d750
? 3 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry i=517 PID::entry:==pid970racle:sskgslcas:entry?

8ea1d750 0 20000016 fdc3f1e4 fdc3f18c fdc3f1e4
? 3 111578 ? ? ? ? ? ? ? ? sskgsldecr:entry i=526 PID::entry:==pid970racle:sskgsldecr:entry?

8ea1d750 20000016 fdc3f1e4 fdc3f18c fdc3f1e4 804544c
? 3 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry i=552 PID::entry:==pid970racle:sskgslcas:entry?

8ea1d750 0 20000016 1 fdc3f17c 81e1c064
? 3 ?57740 ? ? ? ? ? ? ? ? ? ? kcbzar:entry i=557 PID::entry:==pid970racle:kcbzar:entry 8ef9a5b4?

8ea1d750 108000 8045368 1 fdc3f17c
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=558 PID::entry:==pid970racle:slmxnoop:entry?

81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=559 PID::entry:==pid970racle:slmxnoop:entry?

81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=560 PID::entry:==pid970racle:slmxnoop:entry?

81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=561 PID::entry:==pid970racle:slmxnoop:entry?

81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=562 PID::entry:==pid970racle:slmxnoop:entry?

81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=564 PID::entry:==pid970racle:slmxnoop:entry?

81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 111578 ? ? ? ? ? ? ? ? sskgsldecr:entry i=566 PID::entry:==pid970racle:sskgsldecr:entry?

8ea1d750 20000016 1 fdc3f17c 81e1c064 8045510
? 3 ?52568 ? ? ? ? ? ? ? ? ? ? kssrmf:entry i=568 PID::entry:==pid970racle:kssrmf:entry 8ef9a590?

8e94811c 81ff1de4 20000016 8ea1d750 8ef9a5b4
? ? ? ? 和這個地址相關的有這十幾行。在這里，有一點編程習慣再說一下，要申請某一個地址處的Latch，這

個Latch的地址，是這個函數的最重要的參數，因
此，Oracle會把它排在第一位，也就是說，以上這十幾行中，第一個參數不是8ea1d750的，基本可以排隊掉了

。
? ? ? ? 所以，我們只剩這些行需要關注：
# cat logic_read1.log|grep "entry 8ea1d750"
? 3 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry i=517 PID::entry:==pid970racle:sskgslcas:entry?

8ea1d750 0 20000016 fdc3f1e4 fdc3f18c fdc3f1e4
? 3 111578 ? ? ? ? ? ? ? ? sskgsldecr:entry i=526 PID::entry:==pid970racle:sskgsldecr:entry?

8ea1d750 20000016 fdc3f1e4 fdc3f18c fdc3f1e4 804544c
? 3 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry i=552 PID::entry:==pid970racle:sskgslcas:entry?

8ea1d750 0 20000016 1 fdc3f17c 81e1c064
? 3 111578 ? ? ? ? ? ? ? ? sskgsldecr:entry i=566 PID::entry:==pid970racle:sskgsldecr:entry?

8ea1d750 20000016 1 fdc3f17c 81e1c064 8045510
? ? ? ? 這四行，兩個函數調用，sskgslcas、sskgsldecr，第一個參數都是Latch的地址：8ea1d750。我相信

這不是巧合，它們肯定是申請、釋放Latch的函數。
? ? ? ? i=517這行，Oracle調用sskgslcas持有Latch，在i=526這行，調用sskgsldecr釋放，接下來在i=552又

一次調用sskgslcas持有Latch，在i=566處調用
sskgsldecr釋放。一次邏輯讀對應兩次Latch調用。
? ? ? ? 結果是這樣嗎，讓我們繼續驗證，Oracle的Oradebug可以調用某個Oracle自身的函數，就有它來驗證

吧：
SQL> oradebug setmypid
Statement processed.
SQL> oradebug call sskgslcas 0x8ea1d750 0 0x20000016 0xfdc3f1e4?
Function returned 1
SQL>?
? ? ? ? sskgslcas參數的取值，就是我們上面的跟蹤結果。我只用了4個參數，其實應該只有3個參數。但是，

用Oradebug時，多傳了參數也無所謂。
? ? ? ? Function returned 1，這一行說明我們的調用是成功的。
? ? ? ? 回到970進程對應的會話，再次執行如下語句：
SQL> select * from a2_70m where rowid='AAACYJAAEAAAAAUAAA';
? ? ? ? 被Hang住了，在另一個會話中查看等待事件（970號進程對應的會話ID是863）：
SQL> select sid,event,p1raw,p2 from v$session where sid=863;
? ? ? ?SID EVENT ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?P1RAW ? ? ? ? ? ?P2
---------- ---------------------------------------------------------------- -------- ----------
? ? ? ?863 latch: cache buffers chains ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?8EA1D750 ? ? ? ?122
? ? ? ? 863果然在等待CBC Latch，而且根據P1RAW列的值，所等的Latch就是8EA1D750。接著，sskgsldecr是

釋放Latch，繼續驗證此點，在剛才Oradebug的會話
中繼續執行：
SQL> oradebug call sskgsldecr 0x8ea1d750 0x20000016?
Function returned 20000016
? ? ? ? 同樣，sskgsldecr 0x8ea1d750 0x20000016，這個函數的參數來自于我們的跟蹤文件。我們這樣手動

調用結束，剛才被Hang的會話，已經可以順利執行
下去了。說明Latch已經被釋放。
? ? ? ? 看，我們很輕松就已經找到了Oracle申請、釋放CBC Latch的函數。一切都是如此簡單。
? ? ? ? 到這里，可能有人會有不同意見了。如果你看過其他一些牛人的書，包括Oracle的DSI405，都說到

Latch的調用、釋放，是用kslgetl（獨占）、
kslgetsl（共享）和kslfre，怎么我又說申請、釋放Latch是另外的函數呢。
? ? ? ? 這很容易理解，DSI405是講9i的。其他牛人說的也沒錯，kslgetl（獨占）、kslgetsl（共享）和

kslfre的確也是Latch相關的函數。物理讀一個塊時，
Oracle也會用這三個函數來加、釋放CBC Latch，但邏輯讀不是。
? ? ? ? 這很容易理解，邏輯讀是最繁忙的操作，Oracle專門為它開個小灶、做做優化不是很正常嗎。而且，

提前說一下，Mutex也是用sskgslcas申請的（釋放
不是用sskgsldecr），關于Mutex內幕，我們到后幾章再詳細說，順便說一句，要想揭開Mutex內幕，也只有D&G

（DTrace+GDB）了。
? ? ? ? 我們還要再接著研究。CBC Latch的地址是8ea1d750，在這個地址處，Oracle都放了什么呢。有兩種方

式可以觀察這個，用Oradebug，或者，改寫我們的
DTrace腳本。我用后一種方式吧，這種方式早晚要熟練掌握的，而且并不是每個要觀察的值，都可以用

Oradebug。
? ? ? ? 使用DTrace，如果參數是地址的話，將地址的址讀出來，這種方法在上一章中已經有描述了，如下修

改腳本程序：
#!/usr/sbin/dtrace -s -n?
char *memnr;
int latchaddr;
dtrace:::BEGIN
{
? ? ? ? i=1;
? ? ? ? latchaddr=0;
}
pid$1::sskgslcas:entry
{
? ? ? ? memnr=copyin(arg0,12);
? ? ? ? latchaddr=arg0;
? ? ? ? printf("[%2x%2x%2x%2x|%2x%2x%2x%2x|%2x%2x%2x%2x]",memnr[3],memnr[2],memnr[1],memnr

[0],memnr[7],memnr[6],memnr[5],memnr[4],memnr
[11],memnr[10],memnr[9],memnr[8]);
? ? ? ? printf("i=%d PID::entry:==%s:%s:%s:%s %x %x %x %x %x %x",i, probeprov, probemod,?

probefunc, probename,arg0,arg1,arg2,arg3,arg4,arg5);
? ? ? ? i=i+1;
}
pid$1::sskgslcas:return
{
? ? ? ? memnr=copyin(latchaddr,12);
? ? ? ? printf("[%2x%2x%2x%2x|%2x%2x%2x%2x|%2x%2x%2x%2x]",memnr[3],memnr[2],memnr[1],memnr

[0],memnr[7],memnr[6],memnr[5],memnr[4],memnr
[11],memnr[10],memnr[9],memnr[8]);
? ? ? ? printf("i=%d PID::entry:==%s:%s:%s:%s %x %x %x",i, probeprov, probemod, probefunc,?

probename,latchaddr,arg0,arg1);
? ? ? ? i=i+1;
}
? ? ? ? 在這個腳本中，我只觀察CBC的申請和釋放。copyin函數的使用，上一章有，不再重述。需要注意的時

，我在pid$1::sskgslcas:entry中，執行了這樣一
行：latchaddr=arg0；目的是將Latch的地址保存到全局變量latchaddr中。然后，在sskgslcas申請Latch后，

再觀察一下此地址中的值。
? ? ? ? 看一下觀察結果吧：
# cat logic_read2.log|grep "8ea1d750"
? 0 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 291| 0 0 07a]i=3?

PID::entry:==pid970racle:sskgslcas:entry 8ea1d750 0 20000016 fdc1a2dc fdc1a284 fdc1a2dc
? 0 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 291| 0 0 07a]i=4?

PID::entry:==pid970racle:sskgslcas:return 8ea1d750 16 1
? 0 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 292| 0 0 07a]i=5?

PID::entry:==pid970racle:sskgslcas:entry 8ea1d750 0 20000016 1?
fdc1a274 81e1c064
? 0 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 292| 0 0 07a]i=6?

PID::entry:==pid970racle:sskgslcas:return 8ea1d750 16 1
? ? ? ? 我顯示了latch地址處的12個字節，我將結果整理一下：
進入sskgslcas函數時：[ 0 0 0 0| 0 0 291| 0 0 07a]
從sskgslcas返回時 ?：[20 0 016| 0 0 291| 0 0 07a]
進入sskgslcas函數時：[ 0 0 0 0| 0 0 292| 0 0 07a]
從sskgslcas返回時 ?：[20 0 016| 0 0 292| 0 0 07a]
? ? ? ? 我一共顯示了12個字節。后4個節字，7A，10進制是122。這個是Latch編號。中間4個字節，291、292

，明顯是我訪問的次數。這些可以從v
$latch_children視圖中得到。后4個字節是LATCH#列，中間4個字節，就是GETS列了。
? ? ? ? 最前面4個字節，20000016，正好是sskgslcas的第三個參數。我覺得這個應該是模式。
? ? ? ? 看來，sskgslcas的作用，應該就是將第三個參數的值“20000016”交換到Latch 地址所指向的內存中

。然后訪問次數加1。
? ? ? ? 接下來，該如何確定20000016是否是模式呢？這個，從這里就看不出來了，我們要找個索引試試。
? ? ? ? 在我的測試表a2_70m，ID1列上有個索引，索引名是A2_70M_ID1。我使用如下測試語句：
SQL> select * from a2_70m where id1=1;
? ? ? ?ID1 ? ? ? ?ID2 CC1
---------- ---------- ------------------------------
? ? ? ? ?1 ? ? ? ? 10 A-----------------------------
? ? ? ? 以上語句，多執行個幾次，在另一個會話中，查看索引的塊和Latch地址：
SQL> set pagesize 50000
SQL> set linesize 10000
SQL> select file#,dbablk,tch,ba,HLADDR from x$bh a,dba_objects b where a.obj=b.data_object_id and?

object_name='A2_70M_ID1' order by?
FILE#,DBABLK;
? ? ?FILE# ? ? DBABLK ? ? ? ?TCH BA ? ? ? HLADDR
---------- ---------- ---------- -------- --------
? ? ? ? ?5 ? ? ?23449 ? ? ? ? ?0 8189E000 8E98DAD4
? ? ? ? ?5 ? ? ?23450 ? ? ? ? ?0 81A74000 8EAF0390
? ? ? ? ?5 ? ? ?23451 ? ? ? ? ?0 8189C000 8EA150C8
? ? ? ? ?5 ? ? ?23452 ? ? ? ? ?3 81A78000 8EB77E00
? ? ? ? ?5 ? ? ?23453 ? ? ? ? ?3 81A76000 8EA9CB38
? ? ? ? ?5 ? ? ?23454 ? ? ? ? ?0 81A72000 8E9C13F4
? ? ? ? ?5 ? ? ?23455 ? ? ? ? ?0 8189A000 8EB2412C
? ? ? ? ?5 ? ? ?23456 ? ? ? ? ?0 81A70000 8EA48E64
? ? ? ? ?6 ? ? ? 5695 ? ? ? ? ?3 818A0000 8EACBC98
? ? ? ? 多執行幾次測試語句，找出TCH值不斷在增加的，這些塊就是索引掃描時相關的塊了。我這里是5號文

件23452、23453塊，和6號文件5695塊。索引的root
塊，都是段頭的下一個塊，我們可以如下確認一下：
SQL> select segment_name,header_file,header_block from dba_segments where segment_name=upper

('A2_70M_ID1');
SEGMENT_NAME ? ? ? ? ? ? ? ? ? HEADER_FILE HEADER_BLOCK
------------------------------ ----------- ------------
A2_70M_ID1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 5 ? ? ? ?23451
? ? ? ? 段頭是23451塊，哪么23452就是root塊了。提一個注意事項，索引掃描在10.2.0.2后是不用讀段頭的

，真接Root、枝、葉。但在10.2.0.1，有時還是需
要讀段頭的。
? ? ? ? 好，用我們剛才的腳本，開始觀察吧。
先執行腳本：
# ./all_func.d 970 > logic_read3.log
dtrace: script './all_func.d' matched 3 probes
? ? ? ? 再執行測試SQL，顯示logic_read3.log內容，觀察結果，先看根塊吧：
# cat logic_read3.log|grep 8eb77e00
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 721| 0 0 07a]i=3?

PID::entry:==pid970racle:sskgslcas:entry 8eb77e00 0 1 fdc1a3bc fdc1a3b4 fdc1a278
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 721| 0 0 07a]i=4?

PID::entry:==pid970racle:sskgslcas:return 8eb77e00 16 1
? ? ? ? 根塊Latch的地址是8eb77e00，先只看一下根塊。注意第三個參數，不是20000016，而是1。我們自己

調一下試試：
SQL> oradebug call sskgslcas 0x8eb77e00 0 1
Function returned 1
（釋放是：
SQL> oradebug call sskgsldecr 0x8eb77e00 1?
Function returned 1
）
? ? ? ? 再到另一個會話執行測試SQL，不會被阻塞。看來這才是共享模式啊。再往下看跟蹤文件，8eacbc98是

root塊后接著申請的一個Latch，它對應6號文件
5695號塊。看來它是枝塊了。
# cat logic_read3.log|grep 8eacbc98
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 784| 0 0 07a]i=5?

PID::entry:==pid970racle:sskgslcas:entry 8eacbc98 0 1 fdc3f2c4 fdc3f2bc fdc3f180
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 784| 0 0 07a]i=6?

PID::entry:==pid970racle:sskgslcas:return 8eacbc98 16 1
? ? ? ? 枝塊獲得CBC Latch，也是共享的。
? ? ? ? 那么5號文件23453塊，它應該是葉塊了，查看它的獲取Latch情況：
# cat logic_read3.log|grep 8ea9cb38
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 783| 0 0 07a]i=7?

PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 1 fdc3f2c4 fdc3f2bc fdc3f180
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 783| 0 0 07a]i=8?

PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 784| 0 0 07a]i=13?

PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 20000016 ffffffff fdc3f2c4 fdc3f17c
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 784| 0 0 07a]i=14?

PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 785| 0 0 07a]i=15?

PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 20000016 c030e14 fdc3f180 fdc3f2bc
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 785| 0 0 07a]i=16?

PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 786| 0 0 07a]i=17?

PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 20000016 0 fdc3f2c4 fdc3f2b8
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 786| 0 0 07a]i=18?

PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? ? ? ? 它一共獲取了4次，第一次是共享的，后面三次，是獨占的。最后還可以再看一下表塊，表塊要獲得兩

次，都是獨占的。這樣看來，索引葉塊的CBC?
Latch的爭用，要比表塊多啊。建議索引的PCTFREE可以調的比表高些，既能減少中間塊分裂的總次數。塊中行

更少，又能分散爭用。
? ? ? ? 但這樣做會使索引樹層數升高，增加索引訪問時的邏輯讀。對于解決索引塊上的CBC Latch爭用，這樣

做還是非常值得的。因為同樣是邏輯讀，消耗的資
源可是不以同日而語的。索引枝塊只需要一次CBC Latch，而且是共享的，并且，不需要把數據拷貝到PGA中，

只在Buffer Cache中比較一下Key值，取出下一層塊
的位置。這種邏輯讀，不會造成爭用，因為從頭到尾，所有資源都是共享的，所耗資源比表塊邏輯讀也少的多

。而且大的PCTFree，還可以減少索引塊分裂次數。
因此，使用這種方式，減少索引葉塊的CBC Latch爭用，是可行的。
? ? ? ? 好，經過上面的測試，本章開頭提到第一個問題，已經有了答案。為什么共享的CBC Latch會有爭用，

答案是因為Oracle以獨占的方式持有了它。
? ? ? ??
? ? ? ? 在文章開頭，我還提到過一個問題，就是唯一索引和非唯一索引讀掃描時的區別，剛才我的測試索引

，不是非唯一的，我把它重建為唯一索引試試，我
們可以比較下，區別還是非常大的：
SQL> drop index a2_70m_id1;
Index dropped.
SQL> CREATE unique INDEX a2_70m_id1 on a2_70m(id1);
Index created.
? ? ? ? 我們的測試語句和剛才相同，只不過這次它的訪問路徑是唯一索引掃描。
? ? ? ? 唯一索引的測試結果，和非唯一有很大不同：
# cat logic_read3.log
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 01d| 0 0 0 0]i=1?

PID::entry:==pid970racle:sskgslcas:entry 87d88194 0 35f0001 8886a9c8 87d88194 888f7c48
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 35f 0 1| 0 0 01d| 0 0 0 0]i=2?

PID::entry:==pid970racle:sskgslcas:return 87d88194 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 c67| 0 0 07a]i=3?

PID::entry:==pid970racle:sskgslcas:entry 8eb77e00 0 1 804520c 8045204 fda522f8
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 c67| 0 0 07a]i=4?

PID::entry:==pid970racle:sskgslcas:return 8eb77e00 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 bc3| 0 0 07a]i=5?

PID::entry:==pid970racle:sskgslcas:entry 8eafa97c 0 1 804520c 8045204 fda522f8
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 bc3| 0 0 07a]i=6?

PID::entry:==pid970racle:sskgslcas:return 8eafa97c 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 c38| 0 0 07a]i=7?

PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 1 804520c 8045204 fda522f8
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 c38| 0 0 07a]i=8?

PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 bdc| 0 0 07a]i=9?

PID::entry:==pid970racle:sskgslcas:entry 8ea1d750 0 1 fda52660 fda52658 fda52600
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 bdc| 0 0 07a]i=10?

PID::entry:==pid970racle:sskgslcas:return 8ea1d750 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 1| 0 0 01e| 0 0 0 0]i=11?

PID::entry:==pid970:oracle:sskgslcas:entry 87d88194 1 35f0000 c030d18 87d88194 888f7c48
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 35f 0 0| 0 0 01e| 0 0 0 0]i=12?

PID::entry:==pid970:oracle:sskgslcas:return 87d88194 16 1
? ? ? ? 索引還是占了同樣的數據塊，所以對應的Latch不變。可以看到，從根塊到葉塊，再到數據塊，競然都

不是獨占的，全是共享的，而且都只需要申請一次
。可以用個匿名塊驗證一下：
declare
? myid number;
begin
? for i in 1..10000000 loop
? ? select id1 into myid from a2_70m where id1=1;
? end loop;
end;
/
? ? ? ? 和最開頭的存儲過程不同的是，select id1 into myid from a2_70m where id1=1 ，這條語句不再直

接用ROWID訪問，換成唯一索引。在兩個會話中分
別執行此段過程，最終查看了一下：
SQL> select event from v$session_event where sid=862;
EVENT
---------------------------------------------
db file sequential read
cursor: pin S wait on X
SQL*Net message to client
SQL*Net message from client
SQL*Net break/reset to client
events in waitclass Other
6 rows selected.
? ? ? ? 果然沒有CBC Latch的競爭。看到沒，區別可是非常之大啊。如果不用DTrace分析，恐怕很難準確的發

現這點。看來INDEX UNIQUE SCAN和INDEX RANGE?
SCAN，不同的訪問路徑，Oracle實現起來的方法大相庭徑啊。而且，由不由的訪問路徑起始，上層的操作也會

不一樣。
? ? ? ? 比如同樣是TABLE ACCESS BY INDEX ROWID，下層是INDEX UNIQUE SCAN的話，表塊將只有共享Latch。

下層是INDEX RANGE SCAN的話，表塊上將有獨占
Latch。
? ? ? ? 比較一下唯一索引和非唯一索引的區別：
? ? ? ? ?唯一 ? ? ? ? 非唯一
------ ?-------- ?----------------
? 根 ? ?1次共享 ? 1次共享?
? 枝 ? ?1次共享 ? 1次共享
? 葉 ? ?1次共享 ? 1次共享 3次獨占
表塊 ? 1次共享 ? ? ? ? ? 2次獨占
? ? ? ? 非唯一索引共需8次CBC Latch，其中5次是獨占。看來，在讀遠高于寫的環境，想解決CBC Latch競爭

問題嗎，那就如果可能的話，使用唯一索引吧。
? ? ? ? （當然，出現CBC Latch爭用，一般都是SQL惹的禍，調SQL即可。這個結論，是說如何從宏觀上減少

CBC Latch爭用）
? ? ? ? 順便測一下DML，唯一索引時，即使修改索引列，索引的訪問不變，都是共享Latch。但表塊是獨占

Latch。其他UNDO塊、DUNO段頭了等等Latch的持有訪
問，我就不再演示了，有興趣自己測吧。
? ? ? ? 其實還有一個問題，就是為什么用Rowid訪問一個表塊，或者非唯一索引的葉塊、表塊，Oracle不會以

共享的方式獲得Latch呢？要解答這個問題，先要
搞清楚一點，為什么用ROWID的形式，訪問表塊的時候，要申請2次CBC Latch。而根塊、枝塊只要一次，唯一索

引以INDEX UNIQUE SCAN形式訪問，所有塊都只需
要一次共享的CBC Latch。
? ? ? ? 這個問題又可以寫一篇很長的文章分析了。不知道放在這里是否合適，因為這篇文章已經有點長了。

但我覺得，如果你掌握了今天我們所用的方法，繼
續這樣的分析難度不大。我先簡單描述一下，后面再另起一章詳細解剖。可以使用我們第一個腳本：
#!/usr/sbin/dtrace -s -n
dtrace:::BEGIN
{
? ? ? ? i=1;
}
pid$1:::entry
{
? ? ? ? printf("i=%d PID::entry:==%s:%s:%s:%s %x %x %x %x %x %x",i, probeprov, probemod,?

probefunc, probename,arg0,arg1,arg2,arg3,arg4,arg5);
? ? ? ? i=i+1;
}
? ? ? ? 攔截所有操作，你可以發現通過ROWID訪問，形式如下：
1、調用sskgslcas獲得Latch
2、進行一些未知操作
3、調用sskgsldecr釋放Latch
4、未知操作
5、memcpy拷貝內存，從SGA向PGA
6、未知操作
7、調用sskgslcas獲得Latch
8、進行一些未知操作
9、調用sskgsldecr釋放Latch
? ? ? ? 第5步拷貝內存，其實就是真正的邏輯讀過程，把數據從SGA中的Buffer Cache，拷貝到PGA，我跟蹤出

的Memcpy函數形式如下：
? 2 172791 ? ? ? ? ? ? ? ? ? ? memcpy:entry i=663 PID::entry:==pid972:libc.so.1:memcpy:entry?

fdad1b10 82c61fde 1e fdad2f94 886f2bf8 8045478
? ? ? ??
? ? ? ? 第二個參數82c61fde ，是Buffer Cache中行的位置，我們可以如下確定：
SQL> select file#,dbablk,tch,lower(HLADDR),ba from x$bh where file#=4 and dbablk=20;
? ? ?FILE# ? ? DBABLK ? ? ? ?TCH LOWER(HL BA
---------- ---------- ---------- -------- --------
? ? ? ? ?4 ? ? ? ? 20 ? ? ? ? ?7 8ea1d750 82C60000
? ? ? ? BA列，82C60000開始的8K，也就是從82C60000到82C62000，都是4號文件20號塊的Buffer。memcpy第二

個參數82c61fde，正是在這個范圍之間。證明是從
4號文件20號塊中拷貝數據。第一個參數地址fdad1b10，它不在任何內存池地址空間范圍之內，它是進程自身的

內存，可以認為是PGA。第三個參數1e，十進制是
30，是拷貝數據的長度。查看表的定義：
SQL> desc a2_70m;
Name ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Null? ? ?Type
----------------------------------------- -------- ----------------------------
ID1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?NUMBER(38)
ID2 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?NUMBER(38)
CC1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?VARCHAR2(30)
? ? ? ? 拷貝30個字節，其實就是將CC1列的數據讀到PGA中。
? ? ? ? 另外，還有一點，先說明一下，到下一章再詳細講。上面步驟1至3中間的未知操作，和7至9中的未知

操作，其實是加Buffer Pin和釋放Buffer Pin。其
實，上面那9個步驟，我們可以簡化一下：
? ? ? ??
1、調用sskgslcas獲得獨占Latch
2、加Buffer Pin
3、調用sskgsldecr釋放Latch
5、memcpy拷貝內存，從SGA向PGA
7、調用sskgslcas獲得獨占Latch
8、釋放Buffer Pin
9、調用sskgsldecr釋放Latch
? ? ? ? 但在唯一索引訪問時，形式是這樣的：
1、調用sskgslcas獲得共享Latch
2、memcpy拷貝內存，從SGA向PGA
3、調用sskgsldecr釋放Latch
? ? ? ? 和ROWID訪問的不同之處，沒有了Buffer Pin。一個CBC Latch，從邏輯讀開始到邏輯讀結尾。
? ? ? ? 為什么索引Root塊、枝塊的訪問，只需要一次共享CBC Latch，葉塊、表塊需要多次獨占。這個問題，

現在可以回答了。Oracle認為根塊、枝塊不會經常
修改，因為，用一個共享CBC Latch，保護邏輯讀所有操作。雖然Latch持有時間長，但由于是共享的，不會有

爭用。而對于葉塊和表塊，Oracle認為有可能會頻
繁修改，所以，用獨占Latch保護，獲得Buffer Pin，在Pin的保護下，讀取、修改Buffer數據。
? ? ? ? 而至于唯一索引，INDEX UNIQUE SCAN的訪問路徑，Oracle單獨做了處理，也依照根塊、枝塊的方式訪

問。這說明如果是唯一索引，對表有大量讀寫混合
的操作，那么CBC Latch競爭會激烈些，因為沒有了Buffer Pin，讀持有CBC Latch的時間會較長。但對于讀遠

遠多于寫的環境，由于讀都是共享Latch，反而可以
大大減少CBC Latch的爭用。
? ? ? ? 好了，先到這里吧。已經有點長了。
? ? ? ? 本章內容，難度稍高，有興趣的兄弟還是要好好測測。這章內容是后面的基礎，如果這一章沒問題，

那后理解Mutex等等內容就方便了。
? ? ? ? 由于本章長度有限，有些問題，比如Buffer Pin的問題。我們交到以后解決，這里先提出來，有興趣

可以自己動手分析、測試下。
? ? ? ? 好，今天就到這里為止了，后續更精彩，敬請期待。
========

揭密buffer Cache中的鏈表補遺

vage

揭密buffer Cache中的鏈表補遺：

(揭密Oracle之七種武器之四：揭密Buffer Cache中的鏈表
http://www.itpub.net/thread-1631537-1-1.html)

補充兩個問題：
1、如果一個臟塊在CKPT-Q上，當此臟塊被移到LRUW時，會從CKPT-Q上去掉嗎？
回答：不會。直到從LRUW上被寫到磁盤上后，才會從CKPT-Q上去掉。
測試過程很簡單，搞一個臟塊，然后再運行一個需要大量掃描LRU的操作，我是這樣的：
set autot trace
update a2_70m set id2=id2+0 where id1=1;
commit;
select * from a4_70m;
（測試環境和前面所述一致，Buffer Cache 100M，a4_70m 80M，但它被設為了Cache）
然后在另一會話中不停運行如下幾條語句：
alter session set events 'immediate trace name SET_TSN_P1 level 5';
set pagesize 50000
set linesize 10000
select file#,dbablk,tch,lru_flag,ba,decode(state,0,'free',1,'xcur',2,'scur',3,'cr',?

4,'read',5,'mrec',6,'irec',7,'write',8,'pi', 9,'memory',10,'mwrite',11,'donated'),
decode(bitand(flag,1), 0, 'N', 'Y') dirty,NXT_REPL,PRV_REPL,WA_NXT,WA_PRV,ts#,HLADDR from x$bh a?

where file#=4 and dbablk=20
order by ? ? ?FILE# ?, ? DBABLK;
select CNUM_SET,CNUM_REPL,ANUM_REPL,CNUM_WRITE ,ANUM_WRITE ?from x$kcbwds where cnum_set>0;
alter session set events 'immediate trace name BUFFER level 0x01000014';
在DUMP結果中，可以找到如下內容：
BH (7c3f497c) file#: 4 rdba: 0x01000014 (4/20) class: 1 ba: 7c298000
……………………（省略部分無意義內容）…………………………………………………………
? hash: [8e96e068,8e96e068] lru: [80bf9cc8,7c7efffc]
? obj-flags: object_ckpt_list
? ckptq: [7bfe8140,7dfea5d0] fileq: [8ea707ec,8ea707ec] objq: [88c3d034,88c3d034]
……………………（省略部分無意義內容）…………………………………………………………
Hex dump of block: st=0, typ_found=1
Dump of memory from 0x7C298000 to 0x7C29A000
……………………（省略部分無意義內容）…………………………………………………………
BH (7c3f497c) file#: 4 rdba: 0x01000014 (4/20) class: 1 ba: 7c298000
……………………（省略部分無意義內容）…………………………………………………………
? hash: [8e96e068,8e96e068] lru-write: [8ea63e58,7c7efffc]
? obj-flags: object_ckpt_list
? ckptq: [7bfe8140,7dfea5d0] fileq: [8ea707ec,8ea707ec] objq: [88c3d034,88c3d034]
……………………（省略部分無意義內容）…………………………………………………………

上一次DUMP的時候，LRU鏈前后塊的指針為lru: [80bf9cc8,7c7efffc]，下一次DUMP時，已經變成lru-write:?

[8ea63e58,7c7efffc]，但檢查點隊列相關的信息沒變，都是ckptq: [7bfe8140,7dfea5d0]。
當臟塊寫完成時，BH中信息變為這樣：

BH (7c3f497c) file#: 4 rdba: 0x01000014 (4/20) class: 1 ba: 7c298000
……………………（省略部分無意義內容）…………………………………………………………
? hash: [8e96e068,8e96e068] lru: [7c7efffc,7c3f2f18]
? lru-flags: on_auxiliary_list
? ckptq: [NULL] fileq: [NULL] objq: [88c3d02c,88c3d02c]
……………………（省略部分無意義內容）…………………………………………………………
從lru-write: [8ea63e58,7c7efffc]，變為了lru: [7c7efffc,7c3f2f18]，從lru-flags可以看到，已經被放到

輔助鏈表中了。同時，ckptq已經是NULL了。寫磁盤完成時，才從CKPT-Q上摘掉。

2、根據上面的測試結果，臟塊可能會同時存在于兩個鏈表：LRUW和CKPT-Q。塊從LRUW寫磁盤后，會從CKPT-Q上

摘掉。但反過來呢？從CKPT-Q中寫磁盤，寫完后會從LRUW上摘掉嗎？
答案是，會的。
如何驗證呢？我是通過Latch的獲取來驗證的。
臟塊通過CKPT-Q寫到磁盤后，其所處的LRU位置不變，這一點我在前文中已經提到過，也很容易驗證這點，從x

$BH中的NXT_REPL,PRV_REPL兩列，就可以驗證此點。也就是說，從CKPT-Q寫臟塊，是和LRU鏈表無關的，也就是

不需要獲得LRU Latch。如果從CKPT-Q寫臟塊申請了LRU Latch，哪一定和LRUW有關。
將檢查點超時參數設為很小的值，寫個簡單的DTrace腳本，跟蹤一下DBWR進程Latch的獲得情況。發現每次從

CKPT-Q寫臟塊時，DBWR都要按如下順序申請Latch：
獲得cache buffers chains Latch
? 獲得LRU Latch
? 釋放LRU Latch
釋放cache buffers chains Latch
獲得checkpoint queue latch
釋放checkpoint queue latch
獲得cache buffers lru chain
釋放cache buffers lru chain
也就是說，從CKPT-Q寫臟塊時，不但要獲得checkpoint queue latch，還要LRU Latch。根據前面的分析，從

CKPT-Q寫臟塊時，獲取LRU Latch的目的，只能是為了訪問LRUW，因為CKPT-Q寫不改變塊在LRU的位置，不必要

訪問LRU。哪么，CKPT-Q寫訪問LRUW的目的是什么，可以推論，目的是為了檢查臟塊是否在LRUW、并摘掉它。

還有一點，由于塊已經從LUR移到了LURW，從CKPT-Q寫完成后，雖然不是從LURW寫的，塊應該仍會被放入輔助

LRU，這個就是猜想了。我盡量找個測試實際驗證下。
========

總結

以上是生活随笔為你收集整理的揭密Oracle之七种武器的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Oracle表空间离线在线切换和数据库关
下一篇： Oracle 表空间数据文件迁移图解