四十四、ETL工具的查询_连接和映射
生活随笔
收集整理的這篇文章主要介紹了
四十四、ETL工具的查询_连接和映射
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1. ETL工具Kettle的查詢、連接和映射
在ETL工具中,查詢、連接和映射各自的作用包括:
- 查詢步驟:用來查詢數據源中的數據并合并到主數據流中
- 連接步驟:將結果集合通過關鍵字進行連接
- 子轉換/映射:在轉換里調用一個子轉換,便于封裝和重用
2. 查詢步驟
在Kettle工具中,查詢步驟常見的方式包括:流查詢、模糊匹配、數據庫查詢、Web查詢等等。
- 流查詢
- 只支持“==”的查詢
- 如果匹配上多條,只保留最后一條
- 如果沒有匹配上,只保留字段值為NULL
- 模糊匹配
- 只支持單列的查詢
- 匹配相似度最大的字符串
- 自定義匹配的取值范圍
- 支持的模糊匹配算法Jaro,Jaro Winkler, Levenshtein等
- 數據庫查詢
- 只返回一行
- 如果有多行結果:
- 如果有多行結果:字符串模糊匹配,相似讀最高一條
- 對數據流的每條記錄都要做一次數據庫查詢,效率低
- 數據庫查詢(加載所有數據到緩存)=表輸入+流查詢
kettle數據庫查詢操作相關的圖標如圖所示:
- Web查詢
- HTTP客戶端:使用GET的方式提交請求。(URL、參數名、參數值)
- 使用POST方式提交請求,獲得返回的頁面內容
3. 連接步驟
在Kettle工具中,連接步驟主要包括記錄集連接和記錄關聯操作:
- 記錄集連接:兩個記錄集做左連接、右連接、內連接、外連接
- 兩個記錄集做笛卡爾乘積,如果速度慢,調整main step
4. 子轉換/映射操作
- 創建子轉換的過程:對映射輸入接口和輸出接口進行操作,具體步驟如下:
- 映射輸入接口:多個輸入列,作為接口。輸入列可以友調用的轉換輸入。
- 映射輸出接口:不用做任何設置,并向調用的轉換輸出所有列。
- 調用子轉換
- 指定子轉換位置
- 傳入命名慘呼和變量
- 傳入輸入列
- 接收輸出列
總結
以上是生活随笔為你收集整理的四十四、ETL工具的查询_连接和映射的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 四十三、ETL工具的流程和应用
- 下一篇: 一、自然语言处理概述