python爬虫和医学数据_医学论文中的数据有什么软件可以对之进行收集和处理吗?爬虫?...
主要看你是什么數據,要做什么。
一般醫學領域數據提取錄入也就下面這些方法:
Excel:直接建一個 Excel 然后表頭列好你要錄入的哪些數據,然后一行一行錄。優點:最簡單方便;格式通用,后期處理基本上所有軟件都能讀取,直接 Excel 也能一定程度進行分析。缺點:人工工作量大;所有數據前后格子貼著,一不小心弄錯了不好排查;多人錄入的話不好交叉核對(會寫腳本的話忽略這點)。
Epidata:數據錄入工具,根據軟件流程創建相應錄入模板然后錄入,最后導出需要的格式。優點:工作流程清晰,可以一定程度提高錄入質量并減少工作量,可以導出多種格式用于后期處理;軟件提供多種質量控制和校驗功能。缺點:軟件有一定學習成本;多人錄入需要每個人都有軟件并且會進行錄入(軟件倒是可以不用安裝直接打開用);軟件版本比較舊,字段和樣本最大數量的軟件上的限制,而且好像是英文的(好久沒用了,具體忘了,不過好像有出新的系列,改動挺大,我沒試過)。
Python/R/等其他編程語言:根據相應語言編寫代碼提取數據。優點:代碼編寫完成后可以反復使用,省人工;自由度高,可以進行各種騷操作。缺點:學習成本高,對于初學來說學習時費的人工很可能比后期省的要多得多得多。
========= 我是可愛的分割線 =========
編程的方法學習成本高,之前沒接觸過還是不推薦,畢竟你們不是計算機專業的,真要嘗試可以去了解了解 Python 還是比較好上手一點。我個人對數據錄入還是推薦 Epidata,因為質控好而且寫好錄入模板的話可以方便很多。但是因為我是自學過編程,所以寫起來還順手,沒接觸過的可能會稍微需要一些時間。懶的話那就直接 Excel 吧,也差不了太多。
還有如果你是從論文(PDF)中提取的話,腳本的可操作性很低;如果是網頁或者什么規范的數據庫上的數據用腳本是有很大優勢的。
所以看你的問題的話,還是建議先去看看 Epidata 能不能接受,不行的話直接上 Excel 吧。
========= 我也是分割線,我不知道我可不可愛 =========
然后數據處理這個可就有的說了,得看你具體啥數據,要分析啥,這里沒法說清楚。至于工具的話也就是那些統計軟件,SPSS 一般就可以,還有 SAS,Stata 啥的。如果是要用新方法或者復雜點的方法可能后兩者,或者 Python / R 會更合適。
具體沒法展開,就醬。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的python爬虫和医学数据_医学论文中的数据有什么软件可以对之进行收集和处理吗?爬虫?...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 退保险的诀窍 退保险有啥诀窍
- 下一篇: Intel官宣144核心全新至强!3、1