當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Crawler：爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息

發布時間：2025/3/21 编程问答 18 豆豆

生活随笔收集整理的這篇文章主要介紹了 Crawler：爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Crawler：爬蟲之基于https+parse庫實現爬取國內某知名招聘網上海、北京關于區塊鏈職位的求職信息

輸出結果

1、上海區塊鏈職位

2、北京區塊鏈職位

設計思路

核心代碼

輸出結果

1、上海區塊鏈職位

國內某知名招聘網上海關于區塊鏈職位的求職信息分析圖

2、北京區塊鏈職位

國內某知名招聘網北京關于區塊鏈職位的求職信息分析圖

設計思路

Python實現爬取國內某知名招聘網上海、北京關于區塊鏈職位的求職信息

核心代碼

from https import Http from parse import Parse from setting import headers from setting import cookies import time import logging import codecs#logging.basicConfig函數為日志系統做基本配置：Python寫比較大型的程序，用日志系統會方便發現錯誤。 logging.basicConfig(level=logging.ERROR,format='%(asctime)s Process%(process)d:%(thread)d %(message)s',datefmt='%Y-%m-%d %H:%M:%S',filename='diary.log',filemode='a')def getInfo(url, para): #輸入網址、參數實現獲取網頁上的內容generalHttp = Http() htmlCode = generalHttp.post(url, para=para, headers=headers, cookies=cookies) generalParse = Parse(htmlCode) pageCount = generalParse.parsePage() info = [] def getInfoDetail(generalParse): info = generalParse.parseInfo()return infodef processInfo(info, para): #實現將爬取的網頁內容存入到xls表格文件logging.error('Process start') try: title = '公司名稱\t公司類型\t融資階段\t標簽\t公司規模\t公司所在地\t職位類型\t學歷要求\t福利\t薪資\t工作經驗\t發布時間\n'file = codecs.open('%s市有關區塊鏈的職位信息表.xls' % para['city'], 'w', 'utf-8')file.write(title) #file.write函數先將xls表格的列名寫入xls文件內for p in info: #for循環依次將十二個字段的內容寫入xls文件line = str(p['companyName']) + '\t' + str(p['companyType']) + '\t' + str(p['companyStage']) + '\t' + \str(p['companyLabel']) + '\t' + str(p['companySize']) + '\t' + str(p['companyDistrict']) + '\t' + \str(p['positionType']) + '\t' + str(p['positionEducation']) + '\t' + str(p['positionAdvantage']) + '\t' + \str(p['positionSalary']) + '\t' + str(p['positionWorkYear']) + '\t' + str(p['createTime'])+'\n'file.write(line) #最后將line寫入xls文件file.close() #file.close()關閉xls文件return Trueexcept Exception as e:print(e)return Nonedef main(url, para): #函數開始進行爬取網址logging.error('Main start') if url:info = getInfo(url, para) flag = processInfo(info, para) return flagelse:return Noneif __name__ == '__main__':kdList = [u'區塊鏈'] cityList = [u'上海', u'北京'] url = 'https://www.lagou.com/jobs/positionAjax.json' for city in cityList:print('現在開始爬取%s' % city)para = {'first': 'true', 'pn': '1', 'kd': kdList[0], 'city': city} #{，頁數，城市}flag = main(url, para) if flag: #if人性化輸出是否爬取成功print('%s爬取成功！' % city)else:print('%s爬取失敗！' % city)

總結

以上是生活随笔為你收集整理的Crawler：爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Py之demjson：Python库之d
下一篇： BlockChain：Scene app