php表单提取,php – 使用RegEx提取表单字段
使用正則表達(dá)式解析HTML可能不是最好的方法.
您可以查看DOMDocument::loadHTML,這將允許您使用DOM方法處理HTML文檔(例如,如果您知道這些,則使用XPath查詢).
您可能還想看一下Zend_Dom和Zend_Dom_Query,順便說一句,如果您可以在應(yīng)用程序中使用Zend Framework的某些部分,這是非常好的.
例如,在使用Zend_Test進(jìn)行功能測試時,它們用于從HTML頁面獲取數(shù)據(jù) – 并且工作得很好;-)
首先看起來似乎更難……但是,考慮到一些HTML頁面的混亂,它可能是一個更明智的想法……
在評論和編輯OP之后編輯
這里有幾個想法,從“簡單”開始,一個輸入標(biāo)簽:
>它可以跨越幾條線傳播
>它可以有很多屬性
>只考慮名稱和價值是您感興趣的,您必須處理這兩個可能處于任何可能的順序的事實
>屬性可以包含雙引號,單引號,甚至不包含其值
> tags / attributes可以是小寫的也可以是大寫的
>標(biāo)簽并不總是必須關(guān)閉
好吧,其中一些點無效 – HTML;但仍然在大多數(shù)公共網(wǎng)絡(luò)瀏覽器中工作,所以必須考慮到它們……
只有這些點,我不想成為寫正則表達(dá)式的人^^
但我想可能還有其他一些我沒想過的困難.
另一方面,你有DOM和xpath …要獲得輸入名稱=“q”的值(例如this page),這是一個類似這樣的問題:
$url = 'http://www.google.fr/search?q=test&ie=utf-8&oe=utf-8&aq=t&rls=com.ubuntu:en-US:unofficial&client=firefox-a';
$html = file_get_contents($url);
$dom = new DOMDocument();
if (@$dom->loadHTML($html)) {
// yep, not necessarily valid-html...
$xpath = new DOMXpath($dom);
$nodeList = $xpath->query('//input[@name="q"]');
if ($nodeList->length > 0) {
for ($i=0 ; $ilength ; $i++) {
$node = $nodeList->item($i);
var_dump($node->getAttribute('value'));
}
}
} else {
// too bad...
}
重要的是什么? XPath查詢,只有…并且它有什么靜態(tài)/常量嗎?
好吧,我說我想要所有< input>具有等于??“q”的name屬性.
它只是工作:我得到這個結(jié)果:
string 'test' (length=4)
string 'test' (length=4)
(我查了一下:頁面上有兩個輸入名稱=“q”^^)
我知道頁面的結(jié)構(gòu)嗎?絕對沒有;-)
我只知道我/你/我們想要名為q的輸入標(biāo)簽;-)
這就是我們得到的;-)
編輯2:選擇和選項有點樂趣:
好吧,只是為了好玩,這是我為選擇和選項提出的:
$url = 'http://www.google.fr/language_tools?hl=fr';
$html = file_get_contents($url);
$dom = new DOMDocument();
if (@$dom->loadHTML($html)) {
// yep, not necessarily valid-html...
$xpath = new DOMXpath($dom);
$nodeListSelects = $xpath->query('//select');
if ($nodeListSelects->length > 0) {
for ($i=0 ; $ilength ; $i++) {
$nodeSelect = $nodeListSelects->item($i);
$name = $nodeSelect->getAttribute('name');
$nodeListOptions = $xpath->query('option[@selected="selected"]', $nodeSelect); // We want options that are inside the current select
if ($nodeListOptions->length > 0) {
for ($j=0 ; $jlength ; $j++) {
$nodeOption = $nodeListOptions->item($j);
$value = $nodeOption->getAttribute('value');
var_dump("name='$name' => value='$value'");
}
}
}
}
} else {
// too bad...
}
我得到一個輸出:
string 'name='sl' => value='fr'' (length=23)
string 'name='tl' => value='en'' (length=23)
string 'name='sl' => value='en'' (length=23)
string 'name='tl' => value='fr'' (length=23)
string 'name='sl' => value='en'' (length=23)
string 'name='tl' => value='fr'' (length=23)
這是我的預(yù)期.
一些解釋?
好吧,首先,我獲取頁面的所有選擇標(biāo)記,并將其名稱保存在內(nèi)存中.
然后,對于每一個,我得到選定的選項標(biāo)簽作為其后代(總是只有一個,順便說一句).
在這里,我有價值.
比前面的例子復(fù)雜一點……但是仍然比正則表達(dá)式容易得多,我相信……花了我10分鐘,而不是更多……我仍然沒有勇氣(瘋狂?)開始想想某種能夠做到這一點的突變正則表達(dá)式:-D
哦,作為旁注:我仍然不知道HTML文檔的結(jié)構(gòu)是什么樣的:我甚至沒有看過它的源代碼^^
我希望這會有所幫助……
誰知道,也許我會說服你正則表達(dá)式在解析HTML時不是一個好主意……也許吧? 😉
還是:玩得開心!
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的php表单提取,php – 使用RegEx提取表单字段的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 升序排列python_Python3基础
- 下一篇: java服务端无法发送给客户端,无法从客