python刷阅读_用Python汇集并生成每日教育动态
生活随笔
收集整理的這篇文章主要介紹了
python刷阅读_用Python汇集并生成每日教育动态
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
本文記錄了“每日教育動態”想法的產生以及實現過程,分為三部分:想法由來及實現效果、實現步驟和實現后的一點想法。
一、想法由來及實現效果
教育學是一門理論與實踐相結合的學科,實踐起來人人都會,每天打開手機刷個公眾號都是完成了一次教育活動。而研究起來卻比較難受,誰都知道教育學會涉及到人才培養、科學研究和社會服務,誰都知道從事教育領域的研究無非就是從教育價值、教學理念、培養目標、培養標準、人才培養模式與過程、學科和專業建設、學位點建設、課程體系建設、教育教學質量保障、教育評估與評價、教師隊伍建設與管理、教育經費支出等方面入手,從特定層級(基礎教育、高等教育、職業教育等等)教育著眼,對不同的教育現象進行研究。但是,不結合實際和實踐經驗,也只是對上面這些概念的某些提法進行一下排列組合,做一些沒有營養的官樣文章罷了。實際和實踐經驗從哪里來呢?要么就是親自去做,要么就是做過的人告訴你,要么去看別人寫好的經驗總結。教育經驗總是不斷涌現的,使得搞教育研究的人(或者說搞研究的人)需要有一種追熱點的自覺,熱點從何而來?主要是新聞。新聞看不過來怎么辦,那就篩選著看;新聞分散在各個網站找不到重點怎么辦,那就把它們聚集起來,方便你找重點;就是不想看怎么辦,那就把每天的新聞打包好,定時發給你,感興趣的就點開看,不感興趣的看看標題以后遇到類似的事情還可以似曾相識一下。基于以上的想法(或者說我的自己的需求),我做了一個教育新聞聚集器,取名為“每日教育動態”,每天定時訪問教育部官網、教育網、人民網教育頻道、新聞教育4個站點,把發布在他們網站上的教育新聞的整理成一個郵件,每天定時發給我。在這個郵件里,會有當天教育部官網、人民網教育頻道和新華教育3個網頁滾動新聞的所有鏈接,和教育網頭條新聞的鏈接,感興趣的點進去看看,不感興趣的過一遍標題。根據當天的內容,提取出各個網站教育新聞的關鍵詞。這一天的新聞在說什么,一目了然。比如昨天(2020.7.22)新聞的關鍵詞主要是“就業”、“招生”、“志愿”,當時我能夠理解“就業”,畢竟今年就業形勢如此嚴峻,保就業的新聞肯定不少。“招生”還不太理解,到了今天高考出分才能夠理解。從這個角度看,這個“每日教育動態”還是有點用的,畢竟可以讓人保持一定的教育敏感度。另外,在刷公眾號和微博的時候看到1-2天前看到過的內容,還是有點興奮,在一定程度上說明這個“每日教育動態”可以讓我這種后知后覺的人提高獲取教育時事的效率。那么,這個東西是怎么做的呢?二、實現步驟
在做之前,我覺得還是挺簡單的,無非就是寫一個“爬蟲+發郵件”的Python小程序,但是真上手起來也花費了不少時間。對于實現步驟,就不贅述過程和代碼了,免得影響閱讀量。簡單總結,有以下3個步驟:步驟1:網站選取,確認為公開信息,分析各個網站的HTML結構,編寫各自的爬蟲代碼。我們的“每日教育動態”信息主要來源于教育部官網、中國教育新聞網、人民網教育頻道和新華教育。為什么選這幾個網站?一是我自己的原因,我的研究范圍偏向宏觀教育政策,所以教育部官網是要不時刷一下的,把信息整合起來更方便刷。二是這幾個網站都比較全面、也比較權威,能代表主流的聲音,少一些信息雜音。三是網頁頁面直接request就可以獲得,爬蟲不是很費勁。不算import,核心代碼兩行:獲得response、解析HTML(如下)。剩下的都是搬磚的活,用xpath解析得到相應的標題、時間等信息,具體過程可以參考用python幫你扒數據。import requests #訪問鏈接from lxml import etree #解析網頁response = requests.get(url)html = etree.HTML(response.content.decode('utf-8'))步驟2:信息匯總,提取標題、鏈接等關鍵信息,構造郵件內容(如下圖)。在構造郵件內容之前,先篩選出當日的新聞,并根據當日的新聞內容,使用textrank算法(參考:用Python對自己的文章做文本分析)提取關鍵詞,將爬取的內容按照網站的順序生成一個字典數組,包含網站名字、關鍵詞、文章標題和文章鏈接,整理成HTML格式,生成郵件內容。步驟3:定時自動發送郵件。自動發送郵件的方法在Python常用代碼(2)中已經提到了,不再贅述。我的這個小程序是在centOS中運行的,使用的是系統自帶有crontab來定期執行程序,具體可以參考https://www.cnblogs.com/yangjisen/p/13171918.html。我設置的發送郵件的時間是晚上的9點30分,在這個時間4個網頁基本都完成了當日新聞的更新。三、實現后的一點想法
這個產品本質上是一個新聞聚集器,可以理解為以前的RSS(簡易信息聚合,最早可以追溯到1995年),用一個膠水語言實現一個我出生那年就有的東西并沒有什么值得驕傲的地方。做“每日教育動態”的初衷是為了提高我自己的工作和科研效率(這個想法在寫用Python實現科研自動化之前就有了),事實證明還是有點用的,能夠讓自己每天看的那些文獻有一種落地的感覺,不至于整天飄在半空中。但是在做的過程中也著實花了不少時間,既有學習新技術的快樂,也有不務正業的懊惱,所用時間超出了計劃內時間,還是應該把計劃做得更好一些,效率再提高一些。獨樂樂不如眾樂樂,如果也有小伙伴跟我一樣有看教育領域新聞的需求,可以在公眾號后臺私信你的郵箱,這樣,每天晚上9點半都可以收到一份“每日教育動態”哦。在每天晚上結束了一天的工作和學習來上一份教育新聞晚餐,也不失為一件愉快的事~ 創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的python刷阅读_用Python汇集并生成每日教育动态的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 联想与信通院发企业智能化成熟度报告:中国
- 下一篇: 元气森林纤茶推出概念新品“十全茶” ,暂