生活随笔
收集整理的這篇文章主要介紹了
教你如何用python俘获女神芳心
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
教你如何用python爬取豆丁網(wǎng)付費(fèi)文章俘獲女神芳心。
事情是這樣的
女神想要一篇關(guān)于如下的文章:
可一看,下載需要十個(gè)米,作為打工人哪舍得花這個(gè)錢去下載如此貴的文章,于是她想到了我。
記錄:
這里聊天告一段落,
身兼CV大法的我看了看,怎么可以在女神面前這么無能呢·,分析了一下該網(wǎng)站,好家伙,這算法我不想找了,據(jù)我分析,是通過wasm文件加載的算法.
如下是加密數(shù)據(jù):
但是可見即可爬,然后又嘗試了selenium也翻車,也不想試其他的了,于是我選擇了另一種查看方式,這下總算被我發(fā)現(xiàn)了可行方法,于是擼代碼。
"""
# @Time : 2021/11/2 11:06
# @Author : ChenLvLei
# @Email : 2516455367@qq.com
# @FileName : docin
# @Description :
"""
import os
from fpdf
import FPDF
from PIL
import Image
from pdf2docx
import Converter
from configparser
import ConfigParser
import requestsheaders
= {'Accept': 'image/avif,image/webp,image/apng,image/svg+xml,image/*,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9',"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36"" (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"}def download(**kwargs
):page
= kwargs
.pop
('maxPage')for page
in range(1, page
):print(f
'豆丁文檔下載中......第{page}張')kwargs
.update
({'pageno': str(page
)})response
= requests
.request
("GET",'https://docimg1.docin.com/docinpic.jsp?',headers
=headers
,params
=kwargs
)if not os
.path
.exists
('./豆丁'):os
.mkdir
('./豆丁')with open(f
'./豆丁/{page}.png', 'wb') as f
:f
.write
(response
.content
)def generate_pdf(pdf_file_name
, list_ages
):cover
= Image
.open(list_ages
[0])width
, height
= cover
.sizepdf
= FPDF
(unit
="pt", format=[width
, height
])for page
in list_ages
:pdf
.add_page
()pdf
.image
(page
, 0, 0)pdf
.output
(pdf_file_name
, "F")def pdf_to_word():config_parser
= ConfigParser
()config_parser
.read
('config.cfg', encoding
='utf-8')config
= config_parser
['default']for file in os
.listdir
(config
['pdf_folder']):extension_name
= os
.path
.splitext
(file)[1]if extension_name
!= '.pdf':continuefile_name
= os
.path
.splitext
(file)[0]pdf_file
= config
['pdf_folder'] + '/' + fileword_file
= config
['word_folder'] + '/' + file_name
+ '.docx'cv
= Converter
(pdf_file
)cv
.convert
(word_file
)cv
.close
()def main(file: str,width
: str,sid
: str,pageno
: str,pcimg
: str,page
: int,**kwargs
):key
= {'file': file,'width': width
,'sid': sid
,'pageno': pageno
,'pcimg': pcimg
,'maxPage': page
}download
(**key
)generate_pdf
("人力資源項(xiàng)目計(jì)劃書.pdf",['./豆丁/' + imgFileName
for imgFileName
inos
.listdir
('./豆丁')if imgFileName
.endswith
(".png")])if __name__
== '__main__':main
('填入對應(yīng)參數(shù)即可')```
最終不負(fù)所托完成了女神交付的任務(wù)。
就這樣,我成功忽悠到10米。
你以為事情就這樣結(jié)束了嗎???大錯(cuò)特錯(cuò)!錯(cuò)的離譜!不能再錯(cuò)了!
正當(dāng)我準(zhǔn)備給女神用網(wǎng)上免費(fèi)的OCR字符識別庫Tesseract,識別一下文字,免得女神復(fù)制的如此辛苦,結(jié)果:
女神由于被我忽悠了10米,于是氣氛的去上個(gè)廁所壓壓驚,結(jié)果特喵手機(jī)掉廁所了。。。。。。
這時(shí)候女神的心情就如同她掉到廁所的手機(jī),一樣沉重.
洗澡睡覺覺啦,覺得不錯(cuò)的小伙伴點(diǎn)贊關(guān)注不迷路
本故事根據(jù)真實(shí)故事改編
如有侵權(quán) 聯(lián)系刪除
總結(jié)
以上是生活随笔為你收集整理的教你如何用python俘获女神芳心的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。