Hivesql里的limit使用误区
生活随笔
收集整理的這篇文章主要介紹了
Hivesql里的limit使用误区
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
select * from HIVE_D_MT_UU_H_SPARK limit 1000; 讀取前1000行。
需求: 在hive表前1000行里,過濾出不重復的refid,imsi。 錯誤的寫法: select distinct refid,imsi from HIVE_D_MT_UU_H_SPARK limit 1000; 會去讀取全表,把0~1000行的不重復refid,imsi顯示出來。
正確的寫法: select distinct refid,imsi from (select * from HIVE_D_MT_UU_H_SPARK limit 1000);
調優的寫法: CREATE TABLE TEMP_HIVE_D_MT_UU_H_SPARK AS select * from HIVE_D_MT_UU_H_SPARK limit 1000;
select distinct refid,imsi from TEMP_HIVE_D_MT_UU_H_SPARK;
hive最快的執行就是不走MapReduce。簡單的select的是最快的,嵌套啥的都比較忙。與關系型數據庫不同。 調優的寫法執行更快。
需求: 在hive表前1000行里,過濾出不重復的refid,imsi。 錯誤的寫法: select distinct refid,imsi from HIVE_D_MT_UU_H_SPARK limit 1000; 會去讀取全表,把0~1000行的不重復refid,imsi顯示出來。
正確的寫法: select distinct refid,imsi from (select * from HIVE_D_MT_UU_H_SPARK limit 1000);
調優的寫法: CREATE TABLE TEMP_HIVE_D_MT_UU_H_SPARK AS select * from HIVE_D_MT_UU_H_SPARK limit 1000;
select distinct refid,imsi from TEMP_HIVE_D_MT_UU_H_SPARK;
hive最快的執行就是不走MapReduce。簡單的select的是最快的,嵌套啥的都比較忙。與關系型數據庫不同。 調優的寫法執行更快。
總結
以上是生活随笔為你收集整理的Hivesql里的limit使用误区的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java中boolean类型占用多少个字
- 下一篇: 灰度内测是什么意思?