python爬虫获取小说根据正文调用函数传入章节地址列表_python爬虫之小说章节获取,聊斋志异小说完整版...
“寫鬼寫妖高人一等,刺貪刺虐入骨三分。”
沒找到聊齋志異完整版的txt文檔,那就把在線閱讀的文章抓下來吧。
開發環境
python3.7
requests模塊
lxml模塊
獲取分析
找到聊齋志異的小說網站。
通過查看源碼與分析小說每一章的URL鏈接發現,構成每一章的URL鏈接其實是通過小說網站URL鏈接的前綴+每一章的章節屬性得到。
#獲取章節鏈接
for name0 in url2:
name = name0.xpath("./a/text()")[0]
urlhref = name0.xpath("./a/@href")[0]
finurl = "https://www.sbkk88.com" + urlhref
獲取到小說每一章的URL鏈接后分析章節內容網頁,發現是靜態頁面,直接通過requests.get()方法就獲取到。
#解析,獲取內容
response2 = requests.get(finurl,headers = headers).content.decode('gbk')
html = etree.HTML(response2)
cons = html.xpath("//*[@id='f_article']/p")
for one in cons:
essay = []
conss = one.xpath(".//text()")
for sentence in conss:
if sentence == "一":
pass
else:
essay.append(sentence)
最后將爬取到的內容寫入.txt文本,就能得到一本完整的聊齋志異小說!
結果展示:
聊齋志異小說
現在就能閱讀整本的聊齋志異白話文小說了。
總結
以上是生活随笔為你收集整理的python爬虫获取小说根据正文调用函数传入章节地址列表_python爬虫之小说章节获取,聊斋志异小说完整版...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql数据库管理与开发pdf_深入浅
- 下一篇: php barcode设置黑条宽度,打印