MapReduce-Reduce端join操作-步骤分析
生活随笔
收集整理的這篇文章主要介紹了
MapReduce-Reduce端join操作-步骤分析
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
?[案例] Reduce 端實現 JOIN
需求
假如數據量巨大,兩表的數據是以文件的形式存儲在 HDFS 中, 需要用 MapReduce 程序來實現以下 SQL 查詢運算
select a.id,a.date,b.name,b.category_id,b.price from t_order a left join t_product b on a.pid = b.id訂單數據表
| id | date | pid | amount |
| 1001 | 20150710 | P0001 | 2 |
| 1002 | 20150710 | P0001 | 3 |
| 1002 | 20150710 | P0002 | 3 |
商品信息表
| id | pname | category_id | price |
| P0001 | 小米5 | 1000 | 2000 |
| P0002 | 錘子T1 | 1000 | 3000 |
實現機制
通過將關聯的條件作為map輸出的key,將兩表滿足join條件的數據并攜帶數據所來源的文件信息,發往同一個reduce task,在reduce中進行數據的串聯
總結
以上是生活随笔為你收集整理的MapReduce-Reduce端join操作-步骤分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MapReduce运行机制-Reduce
- 下一篇: MapReduce-Reduce端joi