R语言批量下载PubMed摘要
生活随笔
收集整理的這篇文章主要介紹了
R语言批量下载PubMed摘要
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
1,安裝easyPubMed包:
install.packages("easyPubMed")2,關(guān)鍵字搜索下載摘要信息
library(easyPubMed) query <- "GATK" #以關(guān)鍵字“GATK”為例 file_name <- "GATK" #保存結(jié)果的輸出文件的文件名前綴 path <- "C:\\Users\\EDY\\Desktop\\GATK_abstra" setwd(path) #設(shè)置結(jié)果文件的保存路徑 out.A <- batch_pubmed_download(pubmed_query_string = query,format = "xml",batch_size = 100, #每個文件保存的記錄個數(shù)dest_file_prefix = file_name,encoding = "UTF8")運行完成后在"C:\Users\EDY\Desktop\GATK_abstra"目錄下會生成對應(yīng)的xml文件:
一共會生成多少文件取決于在PubMed一共有多少記錄以及“batch_size”參數(shù)的設(shè)置。
文件的內(nèi)容大致如下:
3,從xml文件中提取信息(pmid、doi、摘要等)
path <- "C:\\Users\\EDY\\Desktop\\GATK_abstra" merge_txt <- paste0(path,"\\GATK01.txt") #也可以把多個文件合并到一起再操作 abstra_df <- table_articles_byAuth(pubmed_data = merge_txt, included_authors = "first", max_chars = 100000000, encoding = "UTF8") outfile <- paste0(path,"\\GATK.abstra") write.table(abstra_df,outfile,row.names=F,sep="\t",quote=T)運行完成后會生成“GATK.abstra”文件,對應(yīng)的內(nèi)容如下:
第一行為表頭,一共14列,其中第四列即為摘要信息。
4,設(shè)置好腳本,即可實現(xiàn)對多種搜索條目的批量查找和信息保存了
總結(jié)
以上是生活随笔為你收集整理的R语言批量下载PubMed摘要的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 调用IOS邮件系统发送邮件
- 下一篇: 正则表达式 笔记