php_cawler_html嵌套标签清洗
生活随笔
收集整理的這篇文章主要介紹了
php_cawler_html嵌套标签清洗
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
主要處理 嵌套 div,正則無法很好的處理清洗 比如文本: 想要移除 class =quizPutTag 的div ,內部可能嵌套的還有未知層級的div【前提是html文本段是閉合標簽的】 這是<div>test<div class="quizPutTag">test</div><div class="quizPutTag">H<sub>2</sub>C<sub>2</sub>O<sub>4</sub>?2H<sub>2</sub>O<span dealflag="1" class="MathJye" mathtag="math" style="whiteSpace:nowrap;wordSpacing:normal;wordWrap:normal"><table cellpadding="-1" cellspacing="-1" style="margin-right:1px"><tbody><tr><td style="border-bottom:1px solid black;padding-bottom:1px;font-size:90%"><table style="margin-right: 1px" cellspacing="-1" cellpadding="-1"><tbody><tr><td> △ </td></tr><tr><td style="font-size: 90%"><div style="border-top:1px solid black;line-height:1px">.</div></td></tr></tbody></table></td></tr><tr><td> </td></tr></tbody></table></span>CO↑+CO<sub>2</sub>↑+3H<sub>2</sub>O↑</div>保留的</div> 實現code
<?phpinclude "./simple_html_dom.php";$output="";$input=fgets(fopen($argv[1],'r'));echo $input."\n\n";$html = new simple_html_dom();$html->load('<html><body>'.$input.'</body></html>');$divsq = $html->find('div.quizPutTag');$divsa = $html->find('div.sanwser');$output=str_replace($divsq,'___',$input);$output=str_replace($divsa,'',$output);echo $divs[0]."\n";echo $html."\n";$html->clear();echo $output."\n";?>
simple_html_dom.php
<?phpinclude "./simple_html_dom.php";$output="";$input=fgets(fopen($argv[1],'r'));echo $input."\n\n";$html = new simple_html_dom();$html->load('<html><body>'.$input.'</body></html>');$divsq = $html->find('div.quizPutTag');$divsa = $html->find('div.sanwser');$output=str_replace($divsq,'___',$input);$output=str_replace($divsa,'',$output);echo $divs[0]."\n";echo $html."\n";$html->clear();echo $output."\n";?>
?
simple_html_dom.php
轉載于:https://www.cnblogs.com/cphmvp/p/4728139.html
總結
以上是生活随笔為你收集整理的php_cawler_html嵌套标签清洗的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android下获取无线wif信号、ss
- 下一篇: matlab 矩阵jocobi迭代_第6