数据分析——起源
數據分析生命周期:
從數據到決策的過程。
1.詢問:業務挑戰、目標、問題
2.準備:數據生成、收集、存儲、管理
3.處理:數據清洗、數據完整性
4.分析:數據探索、可視化和分析
5.分享:交流和解釋結果
6.行動:將見解付諸實踐以解決問題
EMC的數據分析生命周期:
EMC Corporation 的數據分析生命周期是循環的,分為六個步驟:
1.發現數據
2.預處理數據
3.模型規劃
4.建筑模型
5.交流結果
6.行動
EMC Corporation 現在更名為 Dell EMC。這個模型由 David Dietrich 創建,反映了現實世界項目的周期性。這些階段不是靜態的里程碑;每一步都連接并通向下一步,并最終重復。關鍵問題可幫助分析師測試他們是否已取得足夠的成就以繼續前進,并確保團隊在每個階段都花費了足夠的時間,并且在數據準備好之前不要開始建模。它與這個程序所基于的數據分析生命周期略有不同,但它有一些共同的核心思想:第一階段是對發現和提出問題感興趣;必須先準備好數據,然后才能對其進行分析和使用;然后應該分享調查結果并采取行動。
SAS的迭代生命周期:
迭代生命周期由一家名為SAS的公司創建,該公司是領先的數據分析解決方案提供商。它可用于產生可重復、可靠和可預測的結果:
1.詢問
2.準備
3.探索
4.建模
5.行動
6.事實
7.評估
SAS 模型通過將其可視化為無窮大符號來強調其模型的周期性。它們的生命周期有七個步驟,我們在其他模型中看到了其中的許多步驟,例如 Ask、Prepare、Model 和 Act。但是這個生命周期也有點不同;它包括行動階段之后的一個步驟,旨在幫助分析師評估他們的解決方案并可能再次返回詢問階段。?
基于項目的數據分析生命周期:
1.識別問題
2.設計數據需求
3.預處理數據
4.執行數據分析
5.可視化數據
此數據分析項目生命周期由 Vignesh Prajapati 開發。它不包括第六階段,或者我們所說的行動階段。但是,它仍然涵蓋了許多與我們已經描述的生命周期相同的步驟。它從識別問題開始,在分析前準備和處理數據,并以數據可視化結束。
大數據分析生命周期:
作者 Thomas Erl、Wajid Khattak 和 Paul Buhler 在他們的書《大數據基礎:概念、驅動程序和技術》中提出了大數據分析生命周期。他們的生命周期建議將階段分為九個步驟:
1.商業案例評估
2.數據識別
3.數據采集和過濾
4.數據提取
5.數據驗證和清理
6.數據聚合和表示
7.數據分析
8.數據可視化
9.分析結果的利用
這個生命周期似乎比以前的生命周期模型多三四個步驟。但實際上,他們只是將我們所說的準備和處理分解為更小的步驟。它強調在分析階段之前收集、準備和清理數據所需的各個任務。
總結
- 上一篇: 在ppt中加入python_python
- 下一篇: 实验楼Linux入门:Linux用户管理