DataWorks搬站方案:Azkaban作业迁移至DataWorks
DataWorks遷移助手提供任務(wù)搬站功能,支持將開(kāi)源調(diào)度引擎Oozie、Azkaban、Airflow的任務(wù)快速遷移至DataWorks。本文主要介紹如何將開(kāi)源Azkaban工作流調(diào)度引擎中的作業(yè)遷移至DataWorks上。
支持遷移的Azkaban版本
支持全部版本的Azkaban遷移。
整體遷移流程
遷移助手支持開(kāi)源工作流調(diào)度引擎到DataWorks體系的大數(shù)據(jù)開(kāi)發(fā)任務(wù)遷移的基本流程如下圖所示。
針對(duì)不同的開(kāi)源調(diào)度引擎,DataWorks遷移助手會(huì)出一個(gè)相關(guān)的任務(wù)導(dǎo)出方案。
整體遷移流程為:通過(guò)遷移助手調(diào)度引擎作業(yè)導(dǎo)出能力,將開(kāi)源調(diào)度引擎中的作業(yè)導(dǎo)出;再將作業(yè)導(dǎo)出包上傳至遷移助手中,通過(guò)任務(wù)類型映射,將映射后的作業(yè)導(dǎo)入至DataWorks中。作業(yè)導(dǎo)入時(shí)可設(shè)置將任務(wù)轉(zhuǎn)換為MaxCompute類型作業(yè)、EMR類型作業(yè)、CDH類型作業(yè)等。
Azkaban作業(yè)導(dǎo)出
Azkaban工具本身具備導(dǎo)出工作流的能力,有自己的Web控制臺(tái),如下圖所示:
Azkaban界面支持直接Download某個(gè)Flow。Flow的導(dǎo)出流程:
操作步驟:
1.進(jìn)入Project頁(yè)面
2.點(diǎn)擊Flows,會(huì)列出Project下面所有的工作流(Flow)
3.點(diǎn)擊Download即可下載Project的導(dǎo)出文件
Azkaban導(dǎo)出包格式原生Azkaban即可,導(dǎo)出包Zip文件內(nèi)部為Azakaban的某個(gè)Project的所有任務(wù)(Job)和關(guān)系信息。
Azkaban作業(yè)導(dǎo)入
拿到了開(kāi)源調(diào)度引擎的導(dǎo)出任務(wù)包后,用戶可以拿這個(gè)zip包到遷移助手的遷移助手->任務(wù)上云->調(diào)度引擎作業(yè)導(dǎo)入頁(yè)面上傳導(dǎo)入包進(jìn)行包分析。
導(dǎo)入包分析成功后點(diǎn)擊確認(rèn),進(jìn)入導(dǎo)入任務(wù)設(shè)置頁(yè)面,頁(yè)面中會(huì)展示分析出來(lái)的調(diào)度任務(wù)信息。
開(kāi)源調(diào)度導(dǎo)入設(shè)置
用戶可以點(diǎn)擊高級(jí)設(shè)置,設(shè)置Azkaban任務(wù)與DataWorks任務(wù)的轉(zhuǎn)換關(guān)系。不同的開(kāi)源調(diào)度引擎,在高級(jí)設(shè)置里面的設(shè)置界面基本一致,如下圖:
高級(jí)設(shè)置項(xiàng)介紹:
- sparkt-submit轉(zhuǎn)換為:導(dǎo)入過(guò)程會(huì)去分析用戶的任務(wù)是不是sparkt-submit任務(wù),如果是的話,會(huì)將spark-submit任務(wù)轉(zhuǎn)換為對(duì)應(yīng)的DataWorks任務(wù)類型,比如說(shuō):ODPS_SPARK/EMR_SPARK/CDH_SPARK等
- 命令行 SQL任務(wù)轉(zhuǎn)換為:開(kāi)源引擎很多任務(wù)類型是命令行運(yùn)行SQL,比如說(shuō)hive -e, beeline -e, impala-shell等等,遷移助手會(huì)根據(jù)用戶選擇的目標(biāo)類型做對(duì)應(yīng)的轉(zhuǎn)換。比如可以轉(zhuǎn)換成ODPS_SQL, EMR_HIVE, EMR_IMPALA, EMR_PRESTO, CDH_HIVE, CDH_PRESTO, CDH_IMPALA等等
- 目標(biāo)計(jì)算引擎類型:這個(gè)主要是影響的是Sqoop同步的目的端的數(shù)據(jù)寫(xiě)入配置。我們會(huì)默認(rèn)將sqoop命令轉(zhuǎn)換為數(shù)據(jù)集成任務(wù)。計(jì)算引擎類型決定了數(shù)據(jù)集成任務(wù)的目的端數(shù)據(jù)源使用哪個(gè)計(jì)算引擎的project。
- Shell類型轉(zhuǎn)換為:SHELL類型的節(jié)點(diǎn)在Dataworks根據(jù)不同計(jì)算引擎會(huì)有很多種,比如EMR_SHELL,CDH_SHELL,DataWorks自己的Shell節(jié)點(diǎn)等等。
- 未知任務(wù)轉(zhuǎn)換為:對(duì)目前遷移助手無(wú)法處理的任務(wù),我們默認(rèn)用一個(gè)任務(wù)類型去對(duì)應(yīng),用戶可以選擇SHELL或者虛節(jié)點(diǎn)VIRTUAL
- SQL節(jié)點(diǎn)轉(zhuǎn)換為:DataWorks上的SQL節(jié)點(diǎn)類型也因?yàn)榻壎ǖ挠?jì)算引擎的不同也有很多種。比如 EMR_HIVE,EMR_IMPALA、EMR_PRESTO,CDH_HIVE,CDH_IMPALA,CDH_PRESTO,ODPS_SQL,EMR_SPARK_SQL,CDH_SPARK_SQL等,用戶可以選擇轉(zhuǎn)換為哪種任務(wù)類型。
注意:這些導(dǎo)入映射的轉(zhuǎn)換值是動(dòng)態(tài)變化的,和當(dāng)前項(xiàng)目空間綁定的計(jì)算引擎有關(guān),轉(zhuǎn)換關(guān)系如下。
導(dǎo)入至DataWorks + MaxCompute
設(shè)置項(xiàng) | 可選值 |
sparkt-submit轉(zhuǎn)換為 | ODPS_SPARK |
命令行 SQL任務(wù)轉(zhuǎn)換為 | ODPS_SQL、ODPS_SPARK_SQL |
目標(biāo)計(jì)算引擎類型 | ODPS |
Shell類型轉(zhuǎn)換為 | DIDE_SHELL |
未知任務(wù)轉(zhuǎn)換為 | DIDE_SHELL、VIRTUAL |
SQL節(jié)點(diǎn)轉(zhuǎn)換為 | ODPS_SQL、ODPS_SPARK_SQL |
導(dǎo)入至DataWorks + EMR
設(shè)置項(xiàng) | 可選值 |
sparkt-submit轉(zhuǎn)換為 | EMR_SPARK |
命令行 SQL任務(wù)轉(zhuǎn)換為 | EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL |
目標(biāo)計(jì)算引擎類型 | EMR |
Shell類型轉(zhuǎn)換為 | DIDE_SHELL, EMR_SHELL |
未知任務(wù)轉(zhuǎn)換為 | DIDE_SHELL、VIRTUAL |
SQL節(jié)點(diǎn)轉(zhuǎn)換為 | EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL |
導(dǎo)入至DataWorks + CDH
設(shè)置項(xiàng) | 可選值 |
sparkt-submit轉(zhuǎn)換為 | CDH_SPARK |
命令行 SQL任務(wù)轉(zhuǎn)換為 | CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL |
目標(biāo)計(jì)算引擎類型 | CDH |
Shell類型轉(zhuǎn)換為 | DIDE_SHELL |
未知任務(wù)轉(zhuǎn)換為 | DIDE_SHELL、VIRTUAL |
SQL節(jié)點(diǎn)轉(zhuǎn)換為 | CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL |
執(zhí)行導(dǎo)入
設(shè)置完映射關(guān)系后,點(diǎn)擊開(kāi)始導(dǎo)入即可。導(dǎo)入完成后,請(qǐng)進(jìn)入數(shù)據(jù)開(kāi)發(fā)中查看導(dǎo)入結(jié)果。
數(shù)據(jù)遷移
大數(shù)據(jù)集群上的數(shù)據(jù)遷移,可參考:DataWorks數(shù)據(jù)集成或MMA。
任務(wù)上云詳細(xì)文檔:https://help.aliyun.com/document_detail/181296.html
原文鏈接:https://developer.aliyun.com/article/783735?
版權(quán)聲明:本文內(nèi)容由阿里云實(shí)名注冊(cè)用戶自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,阿里云開(kāi)發(fā)者社區(qū)不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請(qǐng)查看《阿里云開(kāi)發(fā)者社區(qū)用戶服務(wù)協(xié)議》和《阿里云開(kāi)發(fā)者社區(qū)知識(shí)產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,填寫(xiě)侵權(quán)投訴表單進(jìn)行舉報(bào),一經(jīng)查實(shí),本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。 與50位技術(shù)專家面對(duì)面20年技術(shù)見(jiàn)證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的DataWorks搬站方案:Azkaban作业迁移至DataWorks的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: “低代码”开发管理应用,这家大型连锁企业
- 下一篇: DataWorks搬站方案:Airflo