kettle大于0的转换成1_第一期实训周:基于Python+MySQL+Kettle+R的某网站数据采集分析...
↓
基于Python+MySQL+Kettle+R的
某網站數據采集分析
哈嘍!各位學員們
咱們第一期課程就要開始了
下面劃重點!
一
高校院系
齊魯工業大學數學與統計學院應用統計系
二
實訓日期
2019年2月27日~3月7日
三
參加人數
70人
四
實訓內容
本案例涉及數據采集、存儲、查詢、清洗和可視化分析等數據處理全流程所涉及的各種典型操作,涵蓋Python、MySQL、Navicat、Kettle和R語言等系統和軟件的使用方法。本案例適合高校大數據相關專業教學,可以作為學習大數據的綜合實踐案例。通過本案例,將有助于讀者綜合運用大數據知識以及各種工具軟件,實現數據全流程操作。
五
案例簡介
本次實踐的數據來源于國內某網站Top100餐廳網頁,包括商戶名稱、所在商區、口味、環境、服務評分以及人均消費等數據。
1 | 案例目的 |
案例綜合實踐的目的就在于通過對該網站數據進行統計分析,評估各城市餐廳、菜品,幫助游客選擇適合自己的餐廳就餐。
?編寫Python爬蟲程序采集數據
了解MySQL操作,存儲數據
了解Kettle進行數據清洗、轉換流程和操作
用Python/R/主流統計軟件進行數據統計分析可視化展示
2 | 適用對象 |
高校(高職)教師
高校(高職)學生
大數據學習者
數據處理分析者
3 | 時間安排 |
本案例可以作為大數據課程結束后的“大作業”,或者可以作為學生暑期或寒假大數據相關專業實習實踐基礎案例,建議5-7天。
4 | 硬件要求 |
水滴實驗營提供本案例所有實驗環境(8CPU、8G內存/人)及指導手冊,免去高校教師實驗環境配置與實驗設計的煩惱。
5 | 軟件工具 |
本案例所涉及的系統及軟件包括:Windows, Python, Pycharm, MySQL, Navicat, Kettle, R及相關主流統計分析軟件等。
6 | 案例任務 |
本案例需要完成以下實驗任務:
Python編程爬取某網站數據,存儲于MySQL數據庫
利用Kettle對MySQL表數據進行清洗,一份存儲到MySQL新表,一份轉換成CSV文件。
使用Python/?R/主流統計軟件進行數據統計分析、可視化展示
7 | 實驗步驟概述 |
下面表格分別給出了每個實驗步驟所需的知識儲備、訓練技能和任務清單。
表1:Python編程爬取某網站數據存儲于MySQL數據庫
知識儲備
Python基礎知識、使用、編程,MySQL數據庫基礎知識、Navicat使用
訓練技能
Python編程調試、Navicat基本操作
任務清單
Python爬蟲某網站數據、解析數據、創建數據庫存儲數據
表2:使用Kettle進行數據轉換、清洗
知識儲備
Kettle基本使用
訓練技能
Kettle基本使用、數據清洗、數據轉換
任務清單
使用Kettle建立數據清洗、轉換流程,一是完成MySQL數據表清洗存儲到新表,二是MySQL表數據清洗后轉換成CSV文件
表3:利用Python/R/主流統計軟件進行數據統計分析、可視化展示
知識儲備
Python/R/主流統計軟件工具選擇其一,熟悉基本使用
訓練技能
編程調試能力、數據統計分析能力、數據可視化設計
任務清單
編程調試、數據統計分析、數據可視化
8 | 實驗結果示例 |
好啦!
第一期內容預告就是這樣了
各位可以有其他問題的話
可以關注我們的公眾號繼續探索
小編在此
?期待你的關注
掃描下方“山東省云計算中心”微信公眾號,
申請教師邀請碼,成為我們的一員!
總結
以上是生活随笔為你收集整理的kettle大于0的转换成1_第一期实训周:基于Python+MySQL+Kettle+R的某网站数据采集分析...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 部分颜色已售罄:戴森 Zone 空气净化
- 下一篇: 索尼招聘新项目经理,推动 PS5 进入下