python新闻评论分析_从新闻文章中提取评论
我的問題和這里問的問題類似:
https://stackoverflow.com/questions/14599485/news-website-comment-analysis
我試圖從任何新聞文章中摘錄評論。E、 g.我有一個新聞網址:
http://www.cnn.com/2013/09/24/politics/un-obama-foreign-policy/
我嘗試在python中使用BeautifulSoup來提取注釋。然而,注釋部分似乎要么嵌入到iframe中,要么通過javascript加載。通過firebug查看源代碼不會顯示評論部分的源代碼。但是通過瀏覽器的“查看源代碼”功能顯式地查看注釋的源代碼是正確的。如何提取評論,尤其是當評論來自新聞網頁中嵌入的不同url時?在
這是我到現在為止所做的,雖然不多:import urllib2
from bs4 import BeautifulSoup
opener = urllib2.build_opener()
url = ('http://www.cnn.com/2013/08/28/health/stem-cell-brain/index.html')
urlContent = opener.open(url).read()
soup = BeautifulSoup(urlContent)
title = soup.title.text
print title
body = soup.findAll('body')
outfile = open("brain.txt","w+")
for i in body:
i=i.text.encode('ascii','ignore')
outfile.write(i +'\n')
如果您能幫我做些什么或如何去做,我們將不勝感激。在
總結
以上是生活随笔為你收集整理的python新闻评论分析_从新闻文章中提取评论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 曝英国一监狱发生丑闻 18名女狱警与囚犯
- 下一篇: 男子回应女儿众筹登珠峰 称会全力支持女儿