Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息
生活随笔
收集整理的這篇文章主要介紹了
Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Crawler:爬蟲之基于https+parse庫實現爬取國內某知名招聘網上海、北京關于區塊鏈職位的求職信息
?
?
目錄
輸出結果
1、上海區塊鏈職位
2、北京區塊鏈職位
設計思路
核心代碼
?
?
?
?
?
輸出結果
1、上海區塊鏈職位
國內某知名招聘網上海關于區塊鏈職位的求職信息分析圖
?
2、北京區塊鏈職位
國內某知名招聘網北京關于區塊鏈職位的求職信息分析圖
?
設計思路
Python實現爬取國內某知名招聘網上海、北京關于區塊鏈職位的求職信息
?
?
?
核心代碼
from https import Http from parse import Parse from setting import headers from setting import cookies import time import logging import codecs#logging.basicConfig函數為日志系統做基本配置:Python寫比較大型的程序,用日志系統會方便發現錯誤。 logging.basicConfig(level=logging.ERROR,format='%(asctime)s Process%(process)d:%(thread)d %(message)s',datefmt='%Y-%m-%d %H:%M:%S',filename='diary.log',filemode='a')def getInfo(url, para): #輸入網址、參數實現獲取網頁上的內容generalHttp = Http() htmlCode = generalHttp.post(url, para=para, headers=headers, cookies=cookies) generalParse = Parse(htmlCode) pageCount = generalParse.parsePage() info = [] def getInfoDetail(generalParse): info = generalParse.parseInfo()return infodef processInfo(info, para): #實現將爬取的網頁內容存入到xls表格文件logging.error('Process start') try: title = '公司名稱\t公司類型\t融資階段\t標簽\t公司規模\t公司所在地\t職位類型\t學歷要求\t福利\t薪資\t工作經驗\t發布時間\n'file = codecs.open('%s市有關區塊鏈的職位信息表.xls' % para['city'], 'w', 'utf-8')file.write(title) #file.write函數先將xls表格的列名寫入xls文件內for p in info: #for循環依次將十二個字段的內容寫入xls文件line = str(p['companyName']) + '\t' + str(p['companyType']) + '\t' + str(p['companyStage']) + '\t' + \str(p['companyLabel']) + '\t' + str(p['companySize']) + '\t' + str(p['companyDistrict']) + '\t' + \str(p['positionType']) + '\t' + str(p['positionEducation']) + '\t' + str(p['positionAdvantage']) + '\t' + \str(p['positionSalary']) + '\t' + str(p['positionWorkYear']) + '\t' + str(p['createTime'])+'\n'file.write(line) #最后將line寫入xls文件file.close() #file.close()關閉xls文件return Trueexcept Exception as e:print(e)return Nonedef main(url, para): #函數開始進行爬取網址logging.error('Main start') if url:info = getInfo(url, para) flag = processInfo(info, para) return flagelse:return Noneif __name__ == '__main__':kdList = [u'區塊鏈'] cityList = [u'上海', u'北京'] url = 'https://www.lagou.com/jobs/positionAjax.json' for city in cityList:print('現在開始爬取%s' % city)para = {'first': 'true', 'pn': '1', 'kd': kdList[0], 'city': city} #{,頁數,城市}flag = main(url, para) if flag: #if人性化輸出是否爬取成功print('%s爬取成功!' % city)else:print('%s爬取失敗!' % city)?
?
?
總結
以上是生活随笔為你收集整理的Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Py之demjson:Python库之d
- 下一篇: BlockChain:Scene app