CGI跟我学
CGI 意思為 Common Gateway Interface, 一種基于瀏覽器的輸入、在Web服務器上運行的程序方法. CGI腳本 使你的瀏覽器與用戶能交互,為了在數據庫中尋找一個名詞, 提供你寫入的評論,或者從一個表單中選擇幾個條目并且能得到一個明確的回答. 如果你曾經遇到過在web上填表或進行搜索, 你就是用的CGI腳本. 你那時也許沒有意識到,因為大部分工作是在服務器上運行的,你看到的只是結果.
作為一個網頁設計者, 你創建客戶端的 CGI腳本, 服務器端的程序用來處理用戶輸入, 結果返回給用戶.
在這里你將學習關于CGI腳本的一切:
- CGI腳本是什么?它是怎樣工作的
- 一個CGI腳本輸出象什么?
- 怎樣用參數或無參數創建一個CGI腳本
- 怎樣創建一個返回規定響應的CGI腳本
- 怎樣創建一個輸入表單的CGI腳本
- 有關在使用CGI腳本中的問題
- 你能在腳本中使用的CGI變量
目 錄
- CGI腳本是什么?
- CGI腳本 怎樣工作的?
- 一個簡單的例子
- 我能用CGI腳本嗎?
- 你的服務器配置允許CGI腳本嗎?
- 你能編程嗎?
- 你應該用什么編程語言?
- 你的服務器設置正確嗎?
- 如果你的服務器不是UNIX系統呢?
- 解剖CGI腳本
- 輸出頭部
- 輸出數據部
- 帶闡述的腳本
- 傳遞其他信息給腳本
- 創建特殊的腳本輸出
- 以裝載另一個文本響應
- 無響應
- 處理表單的腳本
- 表單格式和表單腳本
- GET 和 POST
- URL 編碼
- 問題
- CGI 變量
- 解碼程序
- uncgi
- cgi-lib.pl
- 解碼文件上傳的輸入
- 自己做
- 非解剖的頭部腳本
- 總結
- CGI腳本是什么?
CGI腳本是什么?
CGI腳本簡單地講是個運行在Web服務器上的程序, 有瀏覽器的輸入觸發. 這個腳本通常象服務器和系統中其他程序如數據庫的橋梁。 CGI 腳本難道不是一個真正的腳本?按照你的服務器的支持, 他們可能是一個編譯好的程序或者批命令文件或者其他可執行的東西. 為了簡單起見,我們統稱他們為腳本scripts.?
CGI 腳本是任何運行在web服務器上的程序. CGI意思是Common Gateway Interface。
CGI腳本是用下列兩種方法使用的: 作為一個表單的ACTION 或 作為一個頁中的直接link。
?
CGI腳本是怎樣工作的?
CGI腳本由服務器調用, 基于瀏覽器的數據輸入. 其工作原理如下:一個簡單的例子
這里詳細一步一步地解釋所有有關發生的細節。?假設有一個Html頁面有一個指向CGI腳本的鏈接: <A HREF="http://www.jdon.com/cgi-bin/getdate">Display the Date</A> 這個鏈接指向的是一個CGI腳本,因為其中有cgi-bin的路徑. 在許多服務器cgi-bin是僅能夠放置CGI腳本 的目錄。
當你選擇這個鏈接時, 你的瀏覽器將向www.jdon.com服務器提出請求. 服務器接收這個請求計算出URL處的腳本文件名然后執行getdate這個腳本.
這個getdate腳本, 在UNIX系統中執行是這樣的:
#!/bin/sh echo Content-type: text/plain echo /bin/date 第一行是個特殊的命令,告訴UNIX系統這是個shell腳本; 真正邏輯是從這行開始的下一行,這個腳本做兩件事:它輸出行Content-type: text/plain, 接著開始一個空行;第二, 它調用UNIX系統時間date程序, 這樣輸出日期和時間. 腳本執行后輸出應該這樣: Content-type: text/plain Tue Oct 25 16:15:57 EDT 1994 這個Content-type是什么東東?它是個特殊的編碼,Web服務器用來告訴瀏覽器輸出這個文本是什么類型的. 這與HTML中Content-type含義是一樣的。這是最基本的,實際情況要復雜得多,總之可以用來理解瀏覽器、服務器和腳本之間是怎樣工作的。
?
我能用CGI腳本嗎?
在你使用CGI腳本之前,有兩件事你也許要解決:CGI腳本 是個高級的Web特性并且需要你擁有與Web 服務器管理者一樣棒的知識。肯定嗎?就是做不到,學學也可以?好吧!讓我們繼續.
?
你的服務器配置允許CGI腳本嗎?
為了能編寫和運行CGI腳本, 你需要一個Web服務器. 不象通常靜態的HTML文件, 你不能在本地系統上編寫或試驗你的CGI腳本; 你得通過Web服務器來做這個.但是即使你有一個Web服務器, 這個服務器必須特別地為運行CGI腳本配置一下. 那意味著你所有的腳本必須放置在一個叫做cgi-bin的目錄下.
在編寫CGI腳本之前, 需要詢問你的服務器管理者是否允許你安裝和運行CGI腳本, 并且如果可以的話,他們必須放置在哪兒?還有,你必須有個真正的Web服務器,如果是FTP或Gopher服務器,那你就不能用CGI.
如果你在自己的服務器上運行, 你必須特別地創造一個叫cgi-bin的目錄,并配置你的服務器認可這個目錄為一個腳本目錄. 也必須記住下面有關CGI腳本特點:
- 每個腳本是個程序, 它運行在瀏覽器可以請求的系統上, 執行時使用CPU時間和內存. 如果有成打上千的這些腳本同時運行,會怎樣?你的系統將不忍負載直至崩潰。
- 如果你不仔細地編寫你的CGI腳本, 你將有可能讓別人通過你的CGI腳本參數進入傷害你的系統.
你會編程嗎?
初學者注意! 一般地, 你必須具備一些基本編程概念與方法。你必須有類似系統工作的經驗。如果你沒有這些背景, 你必須去學習,好了,費話不多說.
?
你必須用什么編程語言?
你可以用你熟悉的任何語言編寫CGI腳本, 只要你的腳本遵守下一節所陳列的規則即可,只要那個語言能在你的Web服務器系統上運行.在這本學習手冊中,僅用兩種語言編寫CGI腳本: UNIX shell和 Perl語言. 這個shell是適合在任何相近的UNIX系統上運行并且容易學習, 但是處理復雜的情況就困難了. Perl是免費的, 這個語言特點是穩定和強大的,類似C,但它也是較難學習的.
你的服務器設置正確了嗎?
為了運行任何一個CGI腳本, 不管簡單或復雜的,你的服務器必須設置成能夠運行他們,必須放置在一個特定的目錄,必須有一個依賴你服務器設定的文件擴展名.如果你是租用服務器,就要是否允許運行CGI腳本.
如果你擁有自己的服務器,檢查你的服務器說明書是怎樣處理CGI腳本的.
?
如果你用的不是UNIX?
只好再找別的學習手冊了。
?
解剖一個CGI腳本
如果你編寫它很久,克服很多警告和配置,恭喜你,你已經會些CGI腳本,并且可以在你的網頁使用了. 在這一章,將學習腳本是怎樣執行,你的服務器又是怎樣與他們對話產生回應的。
?
輸出頭部
雖然你的CGI腳本可以讓你做任何事情,但是腳本的輸出還是必須有一個規定形式.? 這個 "腳本輸出" 意思是指你的腳本發回服務器的數據. 在UNIX系統中, 輸出是發向標準輸出, 服務器從那兒檢測它. 在其他系統和服務器, 你的腳本輸出也許不一樣了.?
首先,輸出頭部信息,頭部是實際不是文本的一部分,是服務器與瀏覽器之間的信息協議,你實際看不到。 有三個類型的頭部: Content-type, Location, 和Status. Content-type 是最普遍的。
有關content-type解釋可以見有關HTML的說明, 發出text/html特定編碼如下:
Content-type: text/html 在這個例子中,輸出數據的類型是text/html; 換句話說, 輸出的是個HTML文件.表1. 通用格式和content-types.?
| Format | Content-Type |
| HTML | text/html |
| Text | text/plain |
| GIF | image/gif |
| JPEG | image/jpeg |
| PostScript | application/postscript |
| MPEG | video/mpeg |
注意content-type 后面必須跟一個空行. 如果你沒有空行,服務器將無法搞清這個頭部在哪里結束。
輸出數據
你輸出的數據應該符合你所規定的content-type; 如果content-type是text/html, 輸出安置應該是在HTML. 如果content-type是image/gif, 輸出應該是在一個二進制的GIF文件.
?
練習1: 小試試.
這是個簡單的輸出日期的簡單腳本,這個CGI腳本還檢查看看是否已經登陸到Web服務器,并且報告發現了什么。調用代碼這樣:
<A HREF="http://www.jdon.com/cgi-bin/pinglaura">Is Laura Logged in?</A> 這是沒有輸入的腳本,它只運行并且返回數據.pinglaura腳本內容是這樣::
#!/bin/sh?
echo Content-type: text/html
echo "<HTML><HEAD>"?
echo "<TITLE>Is Laura There?</TITLE>"?
echo "</HEAD><BODY>"?
為了測試是否已經登陸系統,用who命令(登陸名假設為lemay), 儲存結果在變量ison中. 如果登陸, 變量ison將有些登錄內容,否則是空的.
?
現在將它copy到你的服務器的cgi-bin目錄下,就可以從瀏覽器調用執行了,如果你不能訪問cgi-bin目錄,你必須詢問你的服務器管理者,你不能理所當然地自己建立個cgi-bin目錄,那沒用的。?
這個例子完整的腳本如下:
#!/bin/shecho "Content-type: text/html"echoecho "<HTML><HEAD>"echo "<TITLE>Is Laura There?</TITLE>"echo "</HEAD><BODY>"ison='who | grep lemay'if [ ! -z "$ison" ]; thenecho "<P>Laura is logged in"elseecho "<P>Laura isn't logged in"fiecho "</BODY></HTML>"帶有參數的腳本
為了傳遞一個參數給腳本,可以在URL中使用 (?) 插入腳本名詞和參數之間, 用加號(+) 表示每個單一的參數, 如: <A HREF="/cgi-bin/myscript?arg1+arg2+arg3">run my script</A> 當服務器接收到這個請求,它傳遞 arg1, arg2, 和 arg3 參數給腳本. 你然后能在腳本中使用這些參數. 這個方法有時叫查詢, 因為早期它用在搜索功能中.?
練習2: 檢查是否有人登陸.
既然你知道怎樣使用參數,讓我們繼續上面的例子pinglaura,通過修改這個例子我們得到下面這個腳本pinggeneric.我們取個不同標題:
#!/bin/shecho "Content-type: text/html" echo echo "<HTML><HEAD>" echo "<TITLE>Are You There?</TITLE>" echo "</HEAD><BODY>" 在上面的例子中, 下一步應該是測試我是否登陸,在這里我們用參數${1}代替我的名字lemay,? ${1}作為第一個參數, ${2}作為第二個, ${3}作為第三個. ison='who | grep "${1}"'剩下的所有修改如下:
if [ ! -z "$ison" ]; thenecho "<P>$1 is logged in"elseecho "<P>$1 isn't logged in"fi echo "</BODY></HTML>" 好了,讓我們修改HTML頁中的連接吧!原來是這樣: <A HREF="http://www.lne.com/cgi-bin/pinglaura">Is Laura Logged in?</A> 修改為通用查詢功能后是這樣,比如查詢名字叫john的人是否登陸: <A HREF="http://www.lne.com/cgi-bin/pinggeneric?john">Is John Logged in?</A>在你的服務器上試試,看是否有結果。
?
傳遞其他信息給腳本
除了上面介紹的方法傳遞數據給腳本以外,還有第二種方法傳遞信息給CGI腳本. 它叫作路徑信息path information, 在上面例子的問號后面的參數是因用戶表單的輸入而改變的. 路徑信息Path info用作其他信息傳遞給腳本,實際上,你可以用它作任何事情.?路徑信息Path information是一種不象通常參數腳本那樣頻繁傳遞信息的方法. 路徑Path information通常是指Web服務器上的那些比如配置文件、臨時文件或者被腳本因問題調用的文件等等此類文件.
看下面一個路徑信息path information例子, :
http://myhost/cgi-bin/myscript/remaining_path_info?arg1+arg2 當腳本運行時,在路徑中的信息"myscript"將被放置于環境參數PATH_INFO. 你能在你的腳本內容中使用這些信息.比如說, 讓我們假設你在多頁上已有多個連接到同一個腳本. 你能用這個路徑信息顯示那個有鏈接的HTML文件名, 這樣, 在你完成處理你的腳本之后, 當你發回一個HTML文件時, 你能在這個文件里包含一個鏈接,發回給用戶其剛開始訪問的那個起始頁。
你會在下一章節學到更多路徑信息:有用的表單和腳本.
創建一個特殊的腳本輸出
現在你已經學習了諸如輸出數據 如HTML數據 發給瀏覽器解釋顯示的數據. 但是如果你不想把腳本結果作為一個數據流形式發回瀏覽器,而是想把一個存在的頁發回,怎么辦? 如果你只是要腳本做一些事而不讓任何結果回答給瀏覽器,怎么辦? 不用擔心, 這里開始解釋這些情況.?
用調用另一個文本作為響應
CGI輸出不是非得一個數據流,有時可以響應告訴瀏覽器的是在服務器上的一個頁面文件,為了發出這個信息,看下面的例子: Location: ../docs/final.html 這個Location行用作通常的輸出文件定位,也就是說,如果你用了Location, 你就不必再用象Content-type這樣的數據輸出(實際上,你也不能). 正如Content-type, 你也必須在這一行后面跟一個空行.指向這個文件的路徑可以是一個URL或相對路徑. 所有相對路徑是指相對于腳本所在的位置. 例子中的final.html文本是在當前上一個目錄下docs的目錄下:
echo Location: ../docs/final.htmlecho 你不能同時使用Content-type 和 Location兩個輸出. 比如, 如果你想輸出一個標準頁,但是想在這個頁尾加上客戶的內容, 你就得用Content-type自行組建這兩個部分. 注意:你可以用腳本命令打開一個當地文件作為數據直接將之輸出.?
No Response
有時對于一個CGI腳本也許一點沒有輸出. 有時你只是要從用戶那兒收集點信息. 你就不用再調用一個新文本, 也不用輸出結果或打開一個存在的文件. 在瀏覽器上的屏幕還是那個樣子.很幸運, 這一切很容易. 你只要輸出下面這個命令即可(后面跟一個空行):
echo Status: 204 No Response echo 這個Status頭部提供狀態碼給服務器(并且也給瀏覽器). 特別的204將傳遞給瀏覽器,如果能識別它,它將什么也不做.?盡管無響應是一個官方HTTP規定的一部分,但也并不是適合所有的瀏覽器,也許會產生奇怪的結果,那你要多試驗試試看啦.
處理表單的腳本
今天,大多數CGI腳本是用來處理表單輸入的. 這個過程大致象上面說闡述的一樣,但還是有些不同,比如CGI腳本只要被調用;數據怎樣從服務器被發向瀏覽器.記住, 大多數表單有兩個部分: HTML的表單格式;處理表單數據的CGI腳本。 這個CGI腳本是使用Html標簽<FORM action=..>屬性調用的.
?
表單形式和表單腳本
正如上面所說,由于表單有兩個部分. Action屬性包含著處理表單的腳本: <FORM ACTION="http://www.popchina.com/cgi-bin/processorscript"> 在這個表單中, 每個輸入區都有一個NAME的屬性, 用來稱呼表單元素. 當這個表單數據被遞交,你在ACTION中定義的CGI腳本, 這樣這些name和輸入內容被作為一個數字或字符傳遞給腳本.?
GET 和 POST
表單從瀏覽器發給服務器有兩種方法.? GET 和 POST.我們上面談論的方法,實際是GET,它將數據打包放置在環境變量QUERY_STRING中作為URL整體的一部分傳遞給服務器。
POST做很多類似GET同樣的事情, 不同的地方就是它是分離地傳遞數據給腳本. 你的腳本通過標準輸入獲取這些數據. (有些Web服務器是存儲在臨時文件中.) 這個QUERY_STRING環境變量將不再設置.
那你用那個方法呢? POST是個安全的方法, 尤其如果你的表單中有很多數據的話. 當你用GET, 這個服務器就分配變量QUERY_STRING給所有的表單數據, 但是這個變量可存儲量是有限的. 換句話說,如果你有很多數據但是你又用GET,你會丟失很多數據.
如果你用POST, 你可以盡可能多地使用數據, 因為這些數據從來也不分配到一個變量里.
?
URL 編碼
URL 編碼是一種瀏覽器用來打包表單輸入的格式. 瀏覽器從表單中獲取所有的name和其中的值 ,將他們作為name/value參數編碼, 移去那些不能傳送的字符, 將數據排行等等,這些還取決于你用GET還是POST?是作為URL的一部分或者分離地發給服務器? 不管哪種情況, 在服務器端的表單輸入格式樣子象這樣: theName=Ichabod+Crane&gender=male&status=missing&headless=yes URL編碼遵循下列規則:- 每對name/value由&符分開.
- 每對來自表單的name/value由=符分開. 如果用戶沒有輸入值給這個name,那么這個name還是出現,只是無值(象這樣 "name=").
- 任何特殊的字符(就是那些不是簡單的七位ASCII,如漢字) 將以百分符%用十六進制編碼. 當然也包括象 =, &, 和 % 這些特殊的字符.
- 在輸入區中的空格將以加號+顯示.
這里介紹一個叫uncgi的解碼程序, 你可以從http://www.hyperion.com/~koreth/uncgi.html. 得到原碼,安裝在你自己的cgi-bin目錄下.
?
CGI變量
表2 總結了環境變量. 如下| 環境變量????????? | 意義 |
| SERVER_NAME | CGI腳本運行時的主機名和IP地址. |
| SERVER_SOFTWARE | 你的服務器的類型如: CERN/3.0 或 NCSA/1.3. |
| GATEWAY_INTERFACE | 運行的CGI版本. 對于UNIX服務器, 這是CGI/1.1. |
| SERVER_PROTOCOL | 服務器運行的HTTP協議. 這里當是HTTP/1.0. |
| SERVER_PORT | 服務器運行的TCP口,通常Web服務器是80. |
| REQUEST_METHOD | POST 或 GET, 取決于你的表單是怎樣遞交的. |
| HTTP_ACCEPT? | 瀏覽器能直接接收的Content-types, 可以有HTTP Accept header定義. |
| HTTP_USER_AGENT | 遞交表單的瀏覽器的名稱、版本 和其他平臺性的附加信息。 |
| HTTP_REFERER | 遞交表單的文本的 URL,不是所有的瀏覽器都發出這個信息,不要依賴它 |
| PATH_INFO | 附加的路徑信息, 由瀏覽器通過GET方法發出. |
| PATH_TRANSLATED | 在PATH_INFO中系統規定的路徑信息. |
| SCRIPT_NAME | 指向這個CGI腳本的路徑, 是在URL中顯示的(如, /cgi-bin/thescript). |
| QUERY_STRING | 腳本參數或者表單輸入項(如果是用GET遞交). QUERY_STRING 包含URL中問號后面的參數. |
| REMOTE_HOST | 遞交腳本的主機名,這個值不能被設置. |
| REMOTE_ADDR | 遞交腳本的主機IP地址. |
| REMOTE_USER | 遞交腳本的用戶名. 如果服務器的authentication被激活,這個值可以設置。 |
| REMOTE_IDENT | 如果Web服務器是在ident (一種確認用戶連接你的協議)運行, 遞交表單的系統也在運行ident, 這個變量就含有ident返回值. |
| CONTENT_TYPE | 如果表單是用POST遞交, 這個值將是 application/x-www-form-urlencoded. 在上載文件的表單中, content-type 是個 multipart/form-data. |
| CONTENT_LENGTH | 對于用POST遞交的表單, 標準輸入口的字節數. |
表單輸入的解碼程序
目前有兩個程序: 通用目的的uncgi, 和cgi-lib.pl, 這是個Perl庫,用于perl編寫的CGI腳本.當然也有表單上載時可以解碼的程序,不過很少。?
uncgi
說明原碼可以從?http://www.hyperion.com/~koreth/uncgi.html獲得。
?
cgi-lib.pl
這是由Steve Brenner編寫的, 幫助你管理輸入. 他能從GET和POST獲取輸入并且放置在一個Perl列表或陣列中. 更新的版本也能處理來自表單的文件上傳. 從這兒可以得到信息與原碼 http://www.bio.cam.ac.uk/cgi-lib . 如果你決定用Perl語言處理你的表單輸入,cgi-lib是個很好的庫. 為了使用cgi-lib.pl,你通常要這樣寫:?
#!/usr/lib/perl
如果你有多個用同樣名字的name對, cgi-lib.pl用(\0)分隔多個名字. 這樣可以正常處理你的腳本.
?
解碼上傳的文件輸入
基于表單的文件上傳需要不同的表單輸入,有一些程序可以對其進行解碼。cgi-lib.pl 后來版本可以很好支持這個功能, 在 http://www.bio.cam.ac.uk/cgi-lib/ ?了解更多的情況.另一個處理用Perl編寫的CGI地址是?http://valine.ncsa.uiuc.edu/cgi_docs.html?.
?
自己做
找專門書籍學習吧:? ftp://ds.internic.net/rfc/rfc1867.txt .非解剖的腳本頭部
按照本書闡述,大多數情況可以正常操作,在一些情況下不是這樣的,你可以翻閱說明書了解。<ISINDEX> 腳本
為了在CGI中完成討論組, 我們看看叫<ISINDEX>的搜索. 這是早期在瀏覽器中用來向服務器發出搜索關鍵字的辦法,參看以前的資料。總結
CGI腳本, 有時叫服務器端腳本或網關腳本。 在internet上有很多免費資源,你可以搜索下載讀懂他們,當然都是英文的,如果你下決心翻譯他們(可能更加強理解). 這樣一舉兩得啊.注意:上述程序可以用ultra edit來編輯,注意轉換UNIX格式 ,必須采用UNIX格式存盤,再上載,用telnet登陸,在命令行鍵入perl sample.pl,看有無bug,再 在瀏覽器中調用。CGI程序包括放置CGI的目錄一定要改屬性為777, 要寫入的HTML文件也要改屬性為777.
總結
- 上一篇: 如何配置Apache虚拟主机?(基于IP
- 下一篇: SELinux深入理解