正则表达式与html信息提取,基于正则表达式的HTML信息提取.pdf
基于正則表達式的HTML信息提取
文章編號 :1003—5850(2012)04·0044—03
基于正則表達式的HTML信息提取
李文華,楊亞仿 ,吳 昊
(長江大學計算機科學學院,湖北 荊州 434023)
摘 要:在實際應用中經常需要分析Web頁面的源代碼,對HTML標記進行分析提取有用的數據。研究了如何利用正則表達
式獲取常見的HTML標記內容 ,實現了對 HTML信息的定制提取,并以如何抓取一個學生成績表的數據信息為例介紹了其實現
過程 。
關鍵詞:正則表達式,HTML,信息提取
中圖分類號:TP311 文獻標識碼:A
TheHTM L Information Extraction Based on RegularExpressions
LIW en—hua,YANG Ya-fang,W uHao
(CollegeofComputerScience,YangtzeUniversity,Jingzhou434023,China)
Abstract:Under theactualapplication,we need to analyse source code ofweb and extractuseful
informationfrom htmltags.Thepaperresearchedhow togetcommonhtmltagcontentbyregularexpressions,
realized toextractcustom htmltag information,and took grabingastudentscoredataasan exampleto
illustratetheimplementationprocess.
Keywords:regularexpressions,HTM L,informationextraction
如何從Web頁面定制提取數據是當前信息研究
的熱點之一。大部分的Web頁面內容由HTML標記 1 正則表達式
組成 ,少數 web頁面基于XML標記。無論基于哪一
正則表達式是用來進行文本匹配的工具 。通配符
種標記 ,Web頁面 內容都遵循一定的標記規則和模
就是最簡單的正則表達式 ,只不過比起通配符,它能更
式。很多學者已經研究了各種各樣的網頁信息抽取包
精確地描述文本匹配的模式。如復雜用戶名檢測、密碼
裝器[ ,這些包裝器能分析指定的Web頁面。通過其
復雜度判斷以及郵箱名等,它廣泛應用在處理各種復
白定義的算法生成并存儲抽取規則供應用程序使用,
雜字符串規則的程序中。
但包裝器生成的規則總不能盡如人意,需要加以改進 ,
正則表達式是由普通字符和特殊字符 (稱為元字
而且這些規則并不是適合每一種程序開發語言。
符)組成的文字模式。普通字符包括單詞字符a-z,數字
正則表達式(regularexpression)描述 了一種字符
0-9,底劃線正則表達式作為一個模板 ,將某個字符模
串匹配的模式,可以用來檢查一個串是否含有某種子
式與所搜索的字符串進行匹配。本文中用到的元字符
串、將匹配的子串做替換或者從某個串中取出符合某
如下頁表 1C。.5]所示 。
個條件的子串等 。它非常適合用于查找、匹配
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的正则表达式与html信息提取,基于正则表达式的HTML信息提取.pdf的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [云炬创业学笔记]第二章决定成为创业者测
- 下一篇: [云炬创业学笔记]第二章决定成为创业者测