pig连接oracle数据库,Pig安装讲解
Pig 簡介:
Pig 是 Apache 項目的一個子項目,Pig 提供了一個支持大規模數據分析的平臺,Pig 突出的特點就是它的結構經得起大量并行任務的檢驗,使得它能夠處理大規模數據集
Pig? 特點:
Pig?可簡化?MapReduce?任務的開發
Pig?可以看做?Hadoop?的客戶端軟件,可以連接到?Hadoop?集群進行數據分析工作
Pig?方便不熟悉?Java?的用戶,使用一種較為簡便的類似 SQL?的面向數據流的語言?PigLatin?語言進行數據處理
PigLatin?可以進行排序,過濾,求和,分組,關聯等常用操作,還可以自定義函數,這是面向數據分析處理的輕量級腳本語言
Pig?可以看做是?PigLatin?到?MapReduce?的映射器
當Pig在MapReduce模式運行時,它將訪問一個Hadoop集群和HDFS的安裝位置。這時Pig將自動地對這個集群進行分配和回收
Pig?的數據模式:?relation(關系), bag(包), tuple(元組), field(字段,列)
relation(關系):具有相同字段(列)的?tuple?稱為關系
bag(包):與關系型數據庫中的表類似,包含多個 tuple,
tuple(元組):相當于關系型數據庫中的行,與關系型數據庫不同的是,tuple?不要求每一行具有相同的結構
field(字段,列):與關系型數據庫中的列相似,不同的是,field?中可以嵌套表,而關系型?數據庫中的列中不可以嵌套表
Pig?的安裝和配置:
安裝:?解壓安裝包并添加環境變量即可
tar -zxvf pig-0.17.0.tar.gz -C ~/app
vim? ~/.bash_profix
PIG_HOME=?PIG_HOME=/app/pig-0.17.0
export? PIG_HOME
PATH=$PIG_HOME/bin:$PATH
export? PATH
Pig?有兩種運行模式:本地模式:?操作?Linux?文件
啟動方式:?pig? -x? ?local
集群模式:?鏈接到 HDFS
PIG_CLASSPATH=/app/hadoop-2.7.3/etc/hadoop
export??PIG_CLASSPATH
啟動命令:?pig
Pig?操作?Linux?命令:
sh? 后面跟linux?命令可以直接對 linux?中的文件進行操作
ls? ? cd? ?cat? ?mkdir? ? pwd? 操作 HDFS
copyFromLocal? ? 從linux?系統?copy?文件到? HDFS
copyToLocal????????從 HDFS?copy?文件到?linux?系統
register? ?define????????使用?Pig?自定義函數
PigLatin?語句:
--->?需要使用?Hadoop?的?HistoryServer
mr-jobhistory-daemon.sh? start? historyserver
地址:?http://192.168.10.100:19888/jobhistory
--->?常用的?PigLatin?語句
load????????????????????????加載數據到 bag (表)
foreach????????????????? ?相當于循環,?對 bag?每一條數據遍歷
filter????????????????????????相當于 where
group? by????????????????分組
join????????????????????????? 連接
generate????????????????? 提取列
union/intersect????????集合運算
輸出:dump????????????直接打印到屏幕上
·????????????????????? store?????????????輸出到 HDFS?上
舉例: 7654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,30
加載員工數據到bag(表)
emp = load? '/input/table/emp.csv'? using? PigStorage(',')
as? ?(empno:int, ename:chararray, job:chararray, mgr:int, hiredate:chararray,? sal:int,? comm:int,? deptno:int );
dept = load '/scott/dept.csv' using PigStorage(',') as(deptno:int,dname:chararray,loc:chararray);
查看表結構:?describe? ?emp;
查詢員工信息:員工號,?姓名,?薪水
SQL語句: select? empno, ename, sal? from? ?emp ;
PL?語句: emp = foreach? emp? generate? empno,? ename,? sal;
輸出到屏幕上: dump? emp;
查詢員工信息,按照月薪排序:
SQL?語句:select? *? from? emp? order? by? sal ;
PL?語句:emp = order? emp? by? sal ;
分組:求每個部門工資最高值
SQL語句: select? ?deptno,? max(sql)? ?from? emp? group? by? deptno ;
PL?語句:需要分兩部
1.? 分組
emp_group = group? emp? by? deptno ;
2.?求每個部門最大值
max_sal = foreach? emp_group? generate? group, MAX(emp.sal)
查詢 10?號部門的員工:
SQL?語句: select? *? from? emp? where? deptno = 10 ;
PL?語句: deptno_10? = filter? emp? by? deptno==10 ;
多表查詢:員工姓名,?部門名稱
SQL?語句: select? e.ename? d.dname? from? emp? e,? dept? d? where? e.ename=d.dname;
PL?語句:?分兩部實現
1.?將兩個表中的兩個字段提取出來放入一張表中
newtable = join dept by deptno,? emp? by? ename
2.?遍歷提取出來的表,將?員工表的員工姓名,?部門表的部門名稱提取出來
table = foreach? newtable? generate? dept:: dname,? emp:: ename
集合運算:?關系型數據庫?Oracle :?參與集合運算的各個集合必須列數相同且類型一致
查詢 10? 號? 和 20? 號部門的員工
SQL?語句:? select? *? from emp? where? deptno=10
union? select? *? from emp? where? deptno=20;
PL?語句:emp10 = filter? emp? by? deptno==10;
emp20 = filter? dept? by? deptno==20;
emp10_20 = union? emp10,? emp20;
使用PL實現WordCount:
① 加載數據
mydata = load '/data/data.txt' as (line:chararray);
② 將字符串分割成單詞
words = foreach mydata generate flatten(TOKENIZE(line)) as word;
③ 對單詞進行分組
grpd = group words by word;
④ 統計每組中單詞數量
cntd = foreach grpd generate group,COUNT(words);
⑤ 打印結果
dump cntd;
總結
以上是生活随笔為你收集整理的pig连接oracle数据库,Pig安装讲解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ue4插件导入导出_Blender到UE
- 下一篇: MySQL read-c_技术分享 |