hive的row_number()、rank()和dense_rank()的区别以及具体使用
?
參考:https://blog.csdn.net/qq_20641565/article/details/52841345?locationNum=5&fps=1
2016年10月17日 20:05:21
閱讀數(shù):4931
row_number()、rank()和dense_rank()這三個是hive內置的分析函數(shù),下面我們來看看他們的區(qū)別和具體的使用案例。
- 首先創(chuàng)建一個文件test:
A,1 B,3 C,2 D,3 E,4 F,5 G,6
- ?
- 然后創(chuàng)建hive表:
create table test_rank(a string,b int) row format delimited fields terminated by ',' stored as textfile;
- 1
- load數(shù)據(jù)到表中
load data local inpath '/usr/java/test' overwrite into table test_rank;
- 1
- 執(zhí)行下面的語句
select a,row_number() over(order by b) row_number,rank() over(order by b) rank, dense_rank() over(order by b) dense_rank from lijie.test_rank;
- 1
- 2
結果為:
a row_number rank dense_rank A 1 1 1 C 2 2 2 D 3 3 3 B 4 3 3 E 5 5 4 F 6 6 5 G 7 7 6
由此可見:?
row_number:不管排名是否有相同的,都按照順序1,2,3…..n?
rank:排名相同的名次一樣,同一排名有幾個,后面排名就會跳過幾次?
dense_rank:排名相同的名次一樣,且后面名次不跳躍
實際使用:?
現(xiàn)在有一個需求: 需要加工一張表M 其中要求要A表,B表,C表的數(shù)據(jù)加工,A和B表連接字段都是唯一值,但是和C表連接的字段不唯一,如果A join B,然后再Join C 這樣加工出來的表數(shù)據(jù)會不準確,這里需求是需要最新的C表中關聯(lián)字段的數(shù)據(jù)。?
可以按照如下方法解決(c2是C表的關聯(lián)字段,通過update_time的降序取最新的那條數(shù)據(jù)):
select A.xxx, B.xxx, C.xxx, .... from A left outer join B on A.c1 = B.c1 left outer join ( select cc.*,row_number() over(distribute by cc.c2 sort by cc.update_time desc) as rownum from C cc ) C on A.c2 = C.c2 and C.rownum = 1;
- ?
版權聲明:本文為博主原創(chuàng)文章,未經(jīng)博主允許不得轉載。 https://blog.csdn.net/qq_20641565/article/details/52841345
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結
以上是生活随笔為你收集整理的hive的row_number()、rank()和dense_rank()的区别以及具体使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 傲腾会是NAND的接班人么?
- 下一篇: 程序=数据结构+算法