六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)...
生活随笔
收集整理的這篇文章主要介紹了
六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)...
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
-
六種 主流ETL 工具的比較(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)
| 適用場(chǎng)景 | 主要用于各類(lèi)數(shù)據(jù)融合、數(shù)據(jù)交換場(chǎng)景,專(zhuān)為超大數(shù)據(jù)量、高度復(fù)雜的數(shù)據(jù)鏈路設(shè)計(jì)的靈活、可擴(kuò)展的數(shù)據(jù)交換平臺(tái) | 面向數(shù)據(jù)倉(cāng)庫(kù)建模傳統(tǒng)ETL工具 | 主要用于數(shù)據(jù)備份、容災(zāi) | 面向數(shù)據(jù)倉(cāng)庫(kù)建模傳統(tǒng)ETL工具 | 面向數(shù)據(jù)倉(cāng)庫(kù)建模傳統(tǒng)ETL工具 | 面向數(shù)據(jù)倉(cāng)庫(kù)建模傳統(tǒng)ETL工具 |
| 使用方式 | 全流程圖形化界面,應(yīng)用端采用B/S架構(gòu),Cloud Native為云而生,所有操作在瀏覽器內(nèi)就可以完成,不需要額外的開(kāi)發(fā)和生產(chǎn)發(fā)布 | C/S客戶端模式,開(kāi)發(fā)和生產(chǎn)環(huán)境需要獨(dú)立部署,任務(wù)的編寫(xiě)、調(diào)試、修改都在本地,需要發(fā)布到生產(chǎn)環(huán)境,線上生產(chǎn)環(huán)境沒(méi)有界面,需要通過(guò)日志來(lái)調(diào)試、debug,效率低,費(fèi)時(shí)費(fèi)力 | 沒(méi)有圖形化的界面,操作皆為命令行方式,可配置能力差 | C/S客戶端模式,開(kāi)發(fā)和生產(chǎn)環(huán)境需要獨(dú)立部署,任務(wù)的編寫(xiě)、調(diào)試、修改都在本地,需要發(fā)布到生產(chǎn)環(huán)境;學(xué)習(xí)成本較高,一般需要受過(guò)專(zhuān)業(yè)培訓(xùn)的工程師才能使用; | C/S客戶端模式,開(kāi)發(fā)和生產(chǎn)環(huán)境需要獨(dú)立部署,任務(wù)的編寫(xiě)、調(diào)試、修改都在本地,需要發(fā)布到生產(chǎn)環(huán)境; | DataX是以腳本的方式執(zhí)行任務(wù)的,需要完全吃透源碼才可以調(diào)用,學(xué)習(xí)成本高,沒(méi)有圖形開(kāi)發(fā)化界面和監(jiān)控界面,運(yùn)維成本相對(duì)高。 |
| 底層架構(gòu) | 分布式集群高可用架構(gòu),可以水平擴(kuò)展到多節(jié)點(diǎn)支持超大數(shù)據(jù)量,架構(gòu)容錯(cuò)性高,可以自動(dòng)調(diào)節(jié)任務(wù)在節(jié)點(diǎn)之間分配,適用于大數(shù)據(jù)場(chǎng)景 | 主從結(jié)構(gòu)非高可用,擴(kuò)展性差,架構(gòu)容錯(cuò)性低,不適用大數(shù)據(jù)場(chǎng)景 | 可做集群部署,規(guī)避單點(diǎn)故障,依賴于外部環(huán)境,如Oracle RAC等; | schema mapping非自動(dòng);可復(fù)制性比較差;更新?lián)Q代不是很強(qiáng) | 支持分布式部署 | 支持單機(jī)部署和集群部署兩種方式 |
| CDC機(jī)制 | 基于日志、基于時(shí)間戳和自增序列等多種方式可選 | 基于時(shí)間戳、觸發(fā)器等 | 主要是基于日志 | 基于日志、基于時(shí)間戳和自增序列等多種方式可選 | 基于觸發(fā)器、基于時(shí)間戳和自增序列等多種方式可選 | 離線批處理 |
| 對(duì)數(shù)據(jù)庫(kù)的影響 | 基于日志的采集方式對(duì)數(shù)據(jù)庫(kù)無(wú)侵入性 | 對(duì)數(shù)據(jù)庫(kù)表結(jié)構(gòu)有要求,存在一定侵入性 | 源端數(shù)據(jù)庫(kù)需要預(yù)留額外的緩存空間 | 基于日志的采集方式對(duì)數(shù)據(jù)庫(kù)無(wú)侵入性 | 有侵入性 | 通過(guò)sql select 采集數(shù)據(jù),對(duì)數(shù)據(jù)源沒(méi)有侵入性 |
| 自動(dòng)斷點(diǎn)續(xù)傳 | 支持 | 不支持 | 支持 | 不支持,依賴ETL設(shè)計(jì)的合理性(例如T-1),指定續(xù)讀某個(gè)時(shí)間點(diǎn)的數(shù)據(jù),非自動(dòng) | 不支持,依賴ETL設(shè)計(jì)的合理性(例如T-1),指定續(xù)讀某個(gè)時(shí)間點(diǎn)的數(shù)據(jù),非自動(dòng) | 不支持 |
| 監(jiān)控預(yù)警 | 可視化的過(guò)程監(jiān)控,提供多樣化的圖表,輔助運(yùn)維,故障問(wèn)題可實(shí)時(shí)預(yù)警 | 依賴日志定位故障問(wèn)題,往往只能是后處理的方式,缺少過(guò)程預(yù)警 | 無(wú)圖形化的界面預(yù)警 | monitor可以看到報(bào)錯(cuò)信息,信息相對(duì)籠統(tǒng),定位問(wèn)題仍需依賴分析日志 | 有問(wèn)題預(yù)警,定位問(wèn)題仍需依賴日志 | 依賴工具日志定位故障問(wèn)題,沒(méi)有圖形化運(yùn)維界面和預(yù)警機(jī)制,需要自定義開(kāi)發(fā)。 |
| 數(shù)據(jù)清洗 | 圍繞數(shù)據(jù)質(zhì)量做輕量清洗 | 圍繞數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)需求進(jìn)行建模計(jì)算,清洗功能相對(duì)復(fù)雜,需要手動(dòng)編程 | 輕量清洗 | 支持復(fù)雜邏輯的清洗和轉(zhuǎn)化 | 支持復(fù)雜邏輯的清洗和轉(zhuǎn)化 | 需要根據(jù)自身清晰規(guī)則編寫(xiě)清洗腳本,進(jìn)行調(diào)用(DataX3.0 提供的功能)。 |
| 數(shù)據(jù)轉(zhuǎn)換 | 自動(dòng)化的schema mapping | 手動(dòng)配置schema mapping | 需手動(dòng)配置異構(gòu)數(shù)據(jù)間的映射 | 手動(dòng)配置schema mapping | 手動(dòng)配置schema mapping | 通過(guò)編寫(xiě)json腳本進(jìn)行schema mapping映射 |
| 數(shù)據(jù)實(shí)時(shí)性 | 實(shí)時(shí) | 非實(shí)時(shí) | 實(shí)時(shí) | 支持實(shí)時(shí),但是主流應(yīng)用都是基于時(shí)間戳等方式做批量處理,實(shí)時(shí)同步效率未知 | 實(shí)時(shí) | 定時(shí) |
| 應(yīng)用難度 | 低 | 高 | 中 | 高 | 中 | 高 |
| 是否需要開(kāi)發(fā) | 否 | 是 | 是 | 是 | 是 | 是 |
| 易用性 | 高 | 低 | 中 | 低 | 低 | 低 |
| 穩(wěn)定性 | 高 | 低 | 高 | 中 | 中 | 中 |
| 實(shí)施及售后服務(wù) | 原廠實(shí)施和售后服務(wù) | 開(kāi)源軟件,需自客戶自行實(shí)施、維護(hù) | 原廠和第三方的實(shí)施和售后服務(wù) | 主要為第三方的實(shí)施和售后服務(wù) | 分為開(kāi)源版和企業(yè)版,企業(yè)版可提供相應(yīng)服務(wù) | 阿里開(kāi)源代碼,需要客戶自動(dòng)實(shí)施、開(kāi)發(fā)、維護(hù) |
轉(zhuǎn)載于:https://www.cnblogs.com/DataPipeline2018/p/11131723.html
總結(jié)
以上是生活随笔為你收集整理的六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Ubuntu下在线安装mysql
- 下一篇: idea中Could not autow