第2章 Python与数据分析
《Python數據分析基礎教程》學習筆記。
第2章 Python與數據分析
2.1 Python數據分析常用的類庫
類庫是用來實現各種功能的類的集合。
-1. NumPy
NumPy(Numerical Python)是Python科學計算的基礎包,提供以下功能:
- 快速高效的多維數組對象ndarrray是其核心。
- 用于對數組執行元素計算和直接對數組執行數學運算的函數。
- 用于讀寫硬盤上基于數組的數據集的工具。
- 線性代數運算、傅里葉變換,以及隨機數生成。
- 用于將C、C++、Fortran代碼集成到Python的工具。
- 作為算法之間傳遞數據的容器。
-2. pandas
pandas是Python數據分析的核心庫,是基于NumPy構建的含有復雜數據結構和工具的數據分析包。
pandas圍繞著Series(一維序列)和DataFrame(二維序列)著兩個核心數據結構展開的。
pandas提供了復雜精細的索引功能,以便快捷地完成重塑、切片、聚合和選取數據子集等操作。
-3. Matplotlib
Matplotlib是最流行的用于繪制數據圖表的Python庫,非常適合創建出版物中的圖表。
-4. SciPy
SciPy是一組專門用于科學計算的開源Python庫,它構建于NumPy的基礎之上,提供了一個用于在Python中進行科學計算的工具集。
SciPy經常于NumPy、pandas、Matplotlib和IPython這些核心庫一起使用。
-5. scikit-learn
scikit-learn 是一個簡單有效的數據挖掘和數據分析工具,可供用戶在各種環境下重復使用。是建立在NumPy、SciPy和Matplotlib的基礎上的,對一些常用的算法進行了封裝。
scikit-learn 的基本功能主要為:
- 分類
- 回歸
- 聚類
- 數據降維
- 模型選擇
- 數據預處理
-6. IPython
IPython 是Python科學計算標準工具集的組成部分,它為交互式和探索式計算機提供了一個高效的開發環境。
2.2 Jupyter Notebook
Jupyter Notebook(又稱 IPython Notebook)是一個交互式的在線編輯器,它可以每編輯一行代碼就運行該行代碼,并且將運行的結果顯示在代碼的下方。
Jupyter Notebook本質上是一個支持實時代碼、數學方程式、可視化和Markdown的Web應用程序。它的用途:
- 數據清理和轉換
- 數值模擬
- 統計建模
- 數據可視化
- 機器學習
總結
以上是生活随笔為你收集整理的第2章 Python与数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第1章 数据分析概述
- 下一篇: 第2章 线性表