Pig股票交易数据处理
生活随笔
收集整理的這篇文章主要介紹了
Pig股票交易数据处理
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
實訓目的
實訓內容
1. 認識數據
- 文件daily_stocks.csv文件中保存的是65020條股票交易數據,各列說明如下。
2. 環境準備
- 安裝pig
教程推薦 https://blog.csdn.net/qq_42881421/article/details/84331794
- 啟動hadoop環境
- 啟動grunt shell。
3. 數據上傳
- 將數據文件daily_stocks.csv上傳到HDFS的/pig_input目錄下,并查看是否上傳成功。
4. 加載數據
- 將daily_stocks.csv中的數據加載到名為stock的關系中,
- 在grunt shell中輸入如下命令:
- 并查看數據的前十行:
5. 數據分組
- 按交易所(exchange)進行分組,將結果保存到名為stock_exc_grp的關系中并檢查分組結果:
6. 統計交易所數量
- 根據分組后的數據,統計出每只股票有幾家交易所可進行交易:
- 顯示結果
7. 統計平均開盤收盤價
- 將stock關系按照股票代碼(symbol)進行分組,并統計每只股票的平均開盤與收盤價格:
8. 統計平均最高最低價
- 統計每只股票的平均最高和最低價格
9. 導出數據
- 將avg_stock_price_high_low, avg_stock_price_opens_closes 和 unique_symbols導出HDFS
文件系統中
- 查看導出的數據
實訓總結
- Pig包括兩部分:用于描述數據流的語言,稱為Pig Latin;和用于運行Pig Latin程序的執行環境。
- Pig不適合所有的數據處理任務,和MapReduce一樣,它是為數據批處理而設計的。如果只想查詢大數據集中的一小部分數據,pig的實現不會很好,因為它要掃描整個數據集或絕大部分。
- Pig Latin 程序有一系列語句構成。操作和命令是大小寫無關的,而別名和函數名是大小寫敏感的。
- Pig處理多行語句時,在整個程序邏輯計劃沒有構造完畢前,pig并不處理數據。
總結
以上是生活随笔為你收集整理的Pig股票交易数据处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 初闻噩耗... ...
- 下一篇: Java咖啡馆---叹咖啡