数据迁移工具Sqoop和DataX功能比较
作者: 大圓那些事 | 文章可以轉(zhuǎn)載,請以超鏈接形式標明文章原始出處和作者信息
網(wǎng)址: http://www.cnblogs.com/panfeng412/archive/2013/04/29/data-migration-tool-sqoop-and-datax.html
最近由于項目需要,對Apache Sqoop和Taobao DataX工具進行了調(diào)研,這里是對二者功能的初步梳理,不會涉及技術(shù)細節(jié)和使用方法,留作日后選型參考。
Sqoop是Apache下的頂級項目,用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移,可以將一個關(guān)系型數(shù)據(jù)庫(例如:MySQL,Oracle,PostgreSQL等)中的數(shù)據(jù)導(dǎo)入到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)入到關(guān)系型數(shù)據(jù)庫中。目前在各個公司應(yīng)用廣泛,且發(fā)展前景比較樂觀。其特點在于:
1)專門為Hadoop而生,隨Hadoop版本更新支持程度好,且原本即是從CDH版本孵化出來的開源項目,支持CDH4應(yīng)該沒問題。
2)支持并行導(dǎo)入,宣稱速度很快(由于時間緊,未來得及進行真實環(huán)境的測試),可以指定按某個字段進行拆分并行化導(dǎo)入過程。
3)支持按字段進行導(dǎo)入與導(dǎo)出。
4)自帶的輔助工具比較豐富,如sqoop-import、sqoop-list-databases、sqoop-list-tables等。
DataX是淘寶開源的數(shù)據(jù)導(dǎo)入導(dǎo)出的工具,支持HDFS集群與各種關(guān)系型數(shù)據(jù)庫之間的數(shù)據(jù)交換。其特點在于:
1)官方版本支持的Hadoop版本較低(0.19),暫不支持高版本(如CDH4)。
2)支持從一個HDFS集群到另一個HDFS集群之間的數(shù)據(jù)導(dǎo)入導(dǎo)出。
3)支持數(shù)據(jù)不落地的并行導(dǎo)入導(dǎo)出。
注:以上并非是對這兩個工具很全面的對比分析,僅供參考,歡迎拍磚。
轉(zhuǎn)載于:https://www.cnblogs.com/panfeng412/archive/2013/04/29/data-migration-tool-sqoop-and-datax.html
總結(jié)
以上是生活随笔為你收集整理的数据迁移工具Sqoop和DataX功能比较的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 建设银行存款利率
- 下一篇: 贷款的放款时间需要多久