當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

基于Python的简单数据挖掘

發(fā)布時間：2023/12/10 python 19 豆豆

生活随笔收集整理的這篇文章主要介紹了基于Python的简单数据挖掘小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

基于Python的簡單數(shù)據(jù)挖掘

最近閑著就用Python做了一個簡單的數(shù)據(jù)挖掘,主要是挖掘一些公司的百度新聞數(shù)據(jù)還有篩選出來保存到TXT文檔里面

爬取數(shù)據(jù)的話方式思路很簡單,首先是獲取整個網(wǎng)頁源碼當(dāng)然不是在瀏覽器上而是通過代碼的方式,python已經(jīng)為我們封裝好了,代碼如下

#headers模擬瀏覽器打開網(wǎng)站,User-Agent的值可以通過在瀏覽器直接輸入chrome://version/獲取,其中的用戶代理就是 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36'} url = "https://www.baidu.com/s?rtt=4&bsst=1&cl=2&tn=news&word=阿里巴巴"#要爬取的數(shù)據(jù)網(wǎng)站rtt=1的話就是默認排序,爬取其他網(wǎng)站的話就自行修改網(wǎng)址和篩序規(guī)則就行 res = requests.get(url, headers=headers, timeout=20).text

這樣就獲取到源碼了,接下來就是數(shù)據(jù)過濾和篩選代碼如下

p_href = '<h3 class="c-title">.*?<a href="(.*?)"' #標(biāo)題鏈接的提取,每個網(wǎng)站不一定一樣可以通過在網(wǎng)頁上右鍵查看源碼的方式獲取然后通過正則表達式去篩選p_title = '<h3 class="c-title">.*?>(.*?)</a>' #標(biāo)題提取,方式和鏈接一樣p_info = '<p class="c-author">(.*?)</p>' #時間和來源提取href = re.findall(p_href, res, re.S)title = re.findall(p_title, res, re.S)info = re.findall(p_info, res, re.S)

這樣就把標(biāo)題,鏈接,還有新聞來源以及時間篩選出來了,當(dāng)然如果各位想要其他數(shù)據(jù)的話就自行改變篩選規(guī)則就行
數(shù)據(jù)篩選出來后就是把數(shù)據(jù)保存到文件中代碼如下

file1 = open('E:\\數(shù)據(jù)挖掘報告.txt', 'a') #以追加的方式打開文件,如果不存在就新建file1.write(company + '數(shù)據(jù)挖掘' + '\n' + '\n')for i in range(len(title)):file1.write(str(i + 1) + '.' + title[i] + '(' + date[i] + '-' + source[i] + ')' + '\n')file1.write(href[i] + '\n' + '\n')file1.write('----------------------------------------------------------------' + '\n' + '\n')file1.close()

這樣運行完了后就完成了,不過只篩選了第一頁的內(nèi)容如果各位要其他頁的內(nèi)容的話就把url改成

url = "https://www.baidu.com/s?rtt=4&bsst=1&cl=2&tn=news&word=阿里巴巴&pn=10"

pn=10表示第二頁,20表示第三頁,30表示第四頁
好了以下是全部源碼

import requests import re#headers模擬瀏覽器打開網(wǎng)站,User-Agent的值可以通過在瀏覽器直接輸入chrome://version/獲取,其中的用戶代理就是 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36'}#從百度獲取新聞資訊并且按時間排序 def baidu(company):url = "https://www.baidu.com/s?rtt=4&bsst=1&cl=2&tn=news&word="+company #要爬取的數(shù)據(jù)網(wǎng)站rtt=1的話就是默認排序,爬取其他網(wǎng)站的話就自行修改網(wǎng)址和篩序規(guī)則就行res = requests.get(url, headers=headers, timeout=20).textp_href = '<h3 class="c-title">.*?<a href="(.*?)"' #標(biāo)題鏈接的提取,每個網(wǎng)站不一定一樣可以通過在網(wǎng)頁上右鍵查看源碼的方式獲取然后通過正則表達式去篩選p_title = '<h3 class="c-title">.*?>(.*?)</a>' #標(biāo)題提取,方式和鏈接一樣p_info = '<p class="c-author">(.*?)</p>' #時間和來源提取href = re.findall(p_href, res, re.S)title = re.findall(p_title, res, re.S)info = re.findall(p_info, res, re.S)source = [] #保存來源date = [] #保存時間for i in range(len(title)):title[i] = title[i].strip()title[i] = re.sub('<.*?>', '', title[i])info[i] = re.sub('<.*?>', '', info[i])source.append(info[i].split('  ')[0])date.append(info[i].split('  ')[1])source[i] = source[i].strip()date[i] = date[i].strip()file1 = open('E:\\數(shù)據(jù)挖掘報告.txt', 'a') #以追加的方式打開文件,如果不存在就新建file1.write(company + '數(shù)據(jù)挖掘' + '\n' + '\n')for i in range(len(title)):file1.write(str(i + 1) + '.' + title[i] + '(' + date[i] + '-' + source[i] + ')' + '\n')file1.write(href[i] + '\n' + '\n')file1.write('----------------------------------------------------------------' + '\n' + '\n')file1.close()companys = ['華能信托', '阿里巴巴', '萬科集團', '百度集團', '騰訊', '京東']#爬取的公司名字,可增減 #可能會出現(xiàn)異常,所以進行一下異常處理 for i in companys:try:baidu(i)print(i + '百度新聞爬取成功')except:print(i + '百度新聞爬取失敗')

過兩天改一下爬取金融數(shù)據(jù)

金融數(shù)據(jù)的已經(jīng)改好了,有興趣的可以看這篇
基于Python的簡單金融數(shù)據(jù)挖掘分析

總結(jié)

以上是生活随笔為你收集整理的基于Python的简单数据挖掘的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： mybatis学习(33):动态sql
下一篇：插图引用同一行两个插图_提出食物主题