當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

hive的row_number()、rank()和dense_rank()的区别以及具体使用

發(fā)布時間：2023/12/10 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 hive的row_number()、rank()和dense_rank()的区别以及具体使用小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

參考:https://blog.csdn.net/qq_20641565/article/details/52841345?locationNum=5&fps=1

2016年10月17日 20:05:21

閱讀數(shù)：4931

row_number()、rank()和dense_rank()這三個是hive內置的分析函數(shù)，下面我們來看看他們的區(qū)別和具體的使用案例。

首先創(chuàng)建一個文件test：

A,1 B,3 C,2 D,3 E,4 F,5 G,6

然后創(chuàng)建hive表：

create table test_rank(a string,b int) row format delimited fields terminated by ',' stored as textfile;

load數(shù)據(jù)到表中

load data local inpath '/usr/java/test' overwrite into table test_rank;

執(zhí)行下面的語句

select a,row_number() over(order by b) row_number,rank() over(order by b) rank, dense_rank() over(order by b) dense_rank from lijie.test_rank;

結果為：

a row_number rank dense_rank A 1 1 1 C 2 2 2 D 3 3 3 B 4 3 3 E 5 5 4 F 6 6 5 G 7 7 6

由此可見：?

row_number:不管排名是否有相同的，都按照順序1，2，3…..n?

rank:排名相同的名次一樣，同一排名有幾個，后面排名就會跳過幾次?

dense_rank:排名相同的名次一樣，且后面名次不跳躍

實際使用：?

現(xiàn)在有一個需求: 需要加工一張表M 其中要求要A表，B表，C表的數(shù)據(jù)加工，A和B表連接字段都是唯一值，但是和C表連接的字段不唯一，如果A join B，然后再Join C 這樣加工出來的表數(shù)據(jù)會不準確，這里需求是需要最新的C表中關聯(lián)字段的數(shù)據(jù)。?

可以按照如下方法解決(c2是C表的關聯(lián)字段，通過update_time的降序取最新的那條數(shù)據(jù))：

select A.xxx, B.xxx, C.xxx, .... from A left outer join B on A.c1 = B.c1 left outer join ( select cc.*,row_number() over(distribute by cc.c2 sort by cc.update_time desc) as rownum from C cc ) C on A.c2 = C.c2 and C.rownum = 1;

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結

以上是生活随笔為你收集整理的hive的row_number()、rank()和dense_rank()的区别以及具体使用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯，歡迎將生活随笔推薦給好友。