半自动化批量下载专利全文pdf傻瓜攻略
半自動化批量下載專利全文pdf傻瓜攻略
- 寫在前面
- 適合人群
- 使用前提
- 基本思路
- 鍵鼠記錄器腳本
- 前期準備
- 腳本原理
- 注意事項
- 檢查下載效果
寫在前面
整理專利的時候,在專利引擎上只能一條條的下載,很是煩人。我比較討厭這種重復(fù)性勞動,所以每次碰上都得想想辦法怎么自動化操作,雖然上每次研究自動化辦法的時間把都足夠把活干完了哈哈。可惜的是每次搞完都沒有把文檔保留下來,下次有點什么事情又得從頭開始。因此準備開始寫寫文檔記錄一些思路,同時如果能幫到有需要的人就更好了!
適合人群
不會爬蟲的都可以來看看!能大概看明白python就夠了。
使用前提
基本思路
現(xiàn)在的專利搜索引擎大概都有批量下載庫,如果只要摘要的話直接下載就可以了。但是下載全文的時候,大部分引擎都不支持批量下載,只能一個一個點,還得輸驗證碼。
這里就不得不提到google patent了,這是我目前找到的唯一一個不需要驗證碼就能下載的專利引擎了(其實主要是還不會用python識別驗證碼)。那么有了google patent這個神器,就可以用自動辦法來進行下載了。我這里使用的是按鍵精靈,傻瓜式操作。(沒用python爬蟲的原因是requests不能掛梯子。。。這里我不是很確定是什么問題,希望有大佬指點一下。anyway,主要思路就是用鍵鼠記錄器點點點,我用的是按鍵精靈,理論上什么記錄器都可以。
ps. 聽說poxoq能批量下載,但是新版本只能下載前十頁,因此我沒有嘗試,如果能直接下載全文的話請評論區(qū)告訴我。
鍵鼠記錄器腳本
前期準備
腳本原理
以edge瀏覽器為例,按鍵精靈雙擊全選文本中第一行的公開號,ctrl+c復(fù)制,鼠標轉(zhuǎn)到網(wǎng)頁搜索框,ctrl+v粘貼,點搜索。等搜索完成右鍵download PDF,選鏈接另存為并確定,之后點擊網(wǎng)頁關(guān)閉下載欄,一次下載完成。返回編輯器,刪除第一行的文本,把第二行提到第一行,完成復(fù)位。
這樣就形成了完整的一次過程,只要重復(fù)運行腳本就可以把所有專利全文下載下來。
注意事項
實際操作中,可能遇到兩大問題:
這里指的是搜索后沒有來到我們想象中的專利頁,可能是沒有搜索到專利,或該專利google patent沒有pdf文檔,這時如果腳本還在運行,那么顯然就會錯誤運行。
主要要考慮的是命令之間的延時。延時調(diào)小確實運行速度會變快,但是如果電腦運行速度不夠或者網(wǎng)速/服務(wù)器慢了,就會錯誤執(zhí)行命令。我的建議是文本操作可以適當刪減延時,涉及網(wǎng)頁的部分適量增加延時,保證腳本的容錯率。
由此可以看出來這個腳本還是離不開人的,在跑的時候還是需要盯著點,如果有錯誤可以及時處理。
檢查下載效果
看了上面的注意事項,想必你也知道這個腳本不太靠譜。那么解決這個問題的方法就是負反饋。下載完了檢查一遍就好了。
由于google patent下載的文件是以公開號命名的,所以對照要下載的和已下載的公開號就能看出哪些專利沒有下載成功。
我這里寫了一個python小腳本。
沒下載的專利具體問題具體解決就好了。
希望能幫到大家!
總結(jié)
以上是生活随笔為你收集整理的半自动化批量下载专利全文pdf傻瓜攻略的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: idenet 学习记录:bili
- 下一篇: 粘贴应变片步骤及注意事项