大数据处理Pig
Pig用于處理大規模數據的高級查詢語言
- 由兩部分組成:用于描述數據流的語言Pig Latin和執行Pig Latin程序的執行環境,使用Pig Latin可以對數據進行加載、排序、過濾、求和、分組、關聯、存儲操作等。
- 應用場景:以數據流水線的方式考慮問題,并需要對作業運行方式更細粒度的控制。
- Pig運行模式:
1、本地模式:grunt shell 方式、腳本文件方式、嵌入式程序方式
2、MapReduce模式:Grunt Shell 方式、腳本文件方式、嵌入式程序方式
- 常用Pig Latin操作
1、數據加載命令:LOAD
2、數據存儲命令:STORE
3、數據轉換:分組命令GROUP、過濾命令FILTER、篩選命令LIMIT、去重命令DISTINCT、排序命令ORDER BY,遍歷命令FOREACH 、連接命令JOIN等等。。。
Pig Latin是一種面向數據流的編程語言,數據流的特征主要體現在數據處理過程中,以關系為單位將數據進行有序的轉換。每一次轉換產生一個新的關系,每一個關系保留了此時的數據狀態。
總結
- 上一篇: 云教室服务器装系统,在Windows S
- 下一篇: 多元线性回归分析练习题