常用的数据交换格式有哪些_大数据架构之数据交换平台
首先輕松一下:
學校門前,一名家長趁攤主正忙,把一瓶奶茶暗暗塞給身后的兒子,舉著另一瓶奶茶付完錢正要走,身后的兒子嚷道:“兩瓶,我這還有一瓶!”攤主皺皺眉,很快笑了:“你媽媽這一瓶蓋上有獎,那一瓶是獎品!”孩子進校后,家長紅著臉要補錢,攤主對她擺擺手道:“票子是小事,孩子是大事……
Exchangis是一款輕量級的數據交換服務平臺,支持結構化、半結構化以及無結構化的存儲系統之間的數據同步。平臺將數據交換流程進行拆分,抽象出數據源,交換任務,交換作業等概念,達到可視化管理數據同步流程的目的。而在實際數據傳輸過程中可集成多個傳輸組件特性,做到功能橫向擴展。
使用接入
界面接入
主要界面介紹
1.數據源管理-數據源
分類列舉了用戶創建的所有數據源,提供常用的搜索,編輯,刪除方法,再點擊 編輯 出現的彈窗中可以對數據源進行 連接性測試 和 對外權限設置。
2.數據源管理-模板管理
管理數據源的連接信息,將這些信息生成模板。例如IP地址,端口,集群配置參數,認證方式等信息,根據不同數據源類型和環境分開存儲成模板,創建數據源時可以復用這些已有的連接模板。
3.任務配置
以項目為集合,管理用戶配置的任務,用戶可以組合現有的數據源創建交換任務,創建的任務將掛載到對應的項目下。同時還提供任務 定時執行 和 歷史數據重跑 等功能。
4.任務作業
列舉了用戶相關任務下所有的執行作業,包括作業調用時間、完成時間、執行參數、執行節點以及完成狀態,可以點擊詳細日志查看具體的執行細節。
5.權限組管理
默認用戶創建一個項目時自動生成對應的一個權限組,用戶可以通過增刪成員的方式管理自己創建的項目權限組,同一權限組內的用戶可以做到共享數據源。
數據源模塊
1.創建數據源模板
數據源模板包含各種形式的連接參數,持有模板可以快速創建數據源。進入數據源管理-模板管理界面,點擊+新建模板,選擇要創建的模板類型:
- 模板上一般可以選擇認證方式,使用不同認證方式的模板創建數據源時,要求輸入的認證信息不一樣;
- 普通用戶可以編輯自己創建的模板,可以瀏覽管理員創建的模板,但不可以編輯,暫時不同用戶之間不能共享模板。
各種類型模板的填寫樣例如下:
1.1 HIVE、HDFS連接模板
HIVE連接模板的必填項目:
Metastore地址, HiveMetastore地址,格式形如: thrift://path。HDFS地址,格式形如: hdfs://path。Hadoop配置項,包括namenode的地址,rpc端口等Hadoop客戶端連接配置。認證方式,有kerberos、LDAP和無權限三個選項,kerberos中realm為必填項HDFS連接模板的內容和HIVE模板相似
1.2 SFTP連接模版
SFTP連接模版的必填項目:
SFTP HOST地址SFTP PORT端口號認證方式,默認為用戶密碼認證,keyfile為密鑰文件驗證1.3 ElasticSearch連接模版
ElasticSearch連接模版的必填項目:
Elastic Url (ElasticSerach連接地址),可以填寫多個認證方式,默認為Basic Authentication1.4 MySQL連接模版
TDSQL連接模版的必填項目:
MySQL HST地址MySQL PORT端口號MySQL的連接參數,例如:useUnicode, characterEncoding, allowMultiQuery2.創建數據源
點擊 數據源管理界面 上方的 新增數據源,選擇對應的數據源類型,目前支持的類型有HIVE,HDFS, SFTP,ElasticSearch和MySQL, 選擇后出現彈窗,開始新建數據源。其中必須要填寫的項目有 數據源名稱 和 數據源屬主,以及 連接模板:
- 模板這里可以直接點擊創建模板打開新標簽頁去創建對應的連接模板,創建完成后再點擊刷新按鈕加載新模板。
- 數據源與項目存在綁定關系,一個數據源只能綁定一個項目,項目的成員可以瀏覽項目下綁定的所有數據源, 同時數據源創建者可以指定其對外權限,設置項目組其他成員對該數據源的編輯,使用,讀取以及寫入權限。
- 最后填寫完必要信息后,點擊連接測試,檢驗數據源的可用性。
任務配置模塊
1.創建項目/權限組
項目是Exchangis劃分數據權限的基礎,數據交換任務都掛載在項目上,數據源、用戶也和項目有綁定關聯關系,點擊任務配置界面左側的+ 新建可快速創建。
2.配置數據交換任務
選中對應要添加任務的項目后,點擊 增加任務 按鈕,彈出任務配置窗口,選擇要使用的傳輸引擎。
目前Exchangis底層完全集成DataX,部分支持SQOOP,選擇引擎要注意以下幾點:
- 是否已經安裝了引擎依賴的環境,DataX默認使用服務的JAVA環境,SQOOP則依賴了Hive和HDFS環境.
- 選用SQOOP引擎執行任務,由于依賴的是具體執行機器的環境,任務配置的Hive/HDFS數據源相關的參數信息會被具體環境的覆蓋,數據源的認證信息也會失效。
選擇成功后,開始如下步驟的操作:
2.1 選擇數據來源和數據目的
數據交換任務的主要工作是在不同數據源之間傳輸數據,所以需要用戶選擇不同數據源和配置其具體的數據信息,數據信息就比如HIVE數據源的 庫、表以及表分區,如下圖:
此外除了數據源管理界面里面創建的數據源外,用戶在配置交換任務的時候還可以選擇一種local_fs數據源,代表執行任務的機器節點的本地文件系統(Linux):
在最開始選擇數據來源的時候,對于文件系統類的數據源可以選擇不同的數據交換方式,有兩種方式二進制和 記錄:
二進制方式下數據直接以流的形式傳輸,記錄方式下數據將被解碼并切割成多個記錄實體來傳遞,適用于結構化數據庫。
2.2 配置時間占位符
在配置交換任務時候,用戶可以在一些配置項例如路徑或者分區值里面加入時間占位符,在任務執行的時候,會用任務綁定的時間參數(默認是任務觸發時間)去替換這些占位符
支持的時間占位符有常見的:yyyyMMdd, yyyy-MM-dd,其他的具體含義見下表:
占位符含義例子run_date設置為當前時間的前一天,格式為yyyyMMdd20200129run_date_std設置為當前時間的前一天,格式為yyy-MM-dd2020-01-29run_month_begin設置為當前時間所在月的第一天,格式為yyyyMMdd20200101run_month_begin_std設置為當前時間所在月的第一天,格式為yyyy-MM-dd2020-01-01run_month_end設置為當前時間所在月的最后一天,格式為yyyyMMdd20200131run_month_end_std設置為當前時間所在月的最后一天,格式為yyyy-MM-dd20200131
2.3 字段映射
在對記錄類型的數據進行傳輸的情況下,用戶可以組合源表字段和目標表字段的對應關系,校驗源表字段的值是否符合要求,對源表的字段的值進行轉換:
2.4 速度控制
速度控制控制的是任務每秒全局傳輸數據的最大值,同時從字節和記錄兩個緯度進行限制;在速度控制選項卡下還可以控制并行數和最大使用內存數。
2.5 基本信息
交換任務的基本信息應包括如下幾點:
任務名稱、任務描述提醒人:任務失敗以及超時的時候提醒的關系人,多個關系人逗號分隔 【默認告警信息打在后臺日志中】定時:設置任務定時的corn表達式執行用戶:設定的實際執行任務的系統(Linux)用戶 【默認擁有同名的執行用戶,其他需要管理員綁定授權】執行節點:設定的實際執行任務的服務節點列表 【公用默認服務節點,其他需要管理員綁定授權】超時時間:任務超時時間,單位秒同步方式:全量同步、增量同步,默認為全量同步,增量方式目前只支持對文件類數據源需要關注的點:
執行用戶相當于代理用戶,作用是限定權限,在任務執行的過程中,會用執行用戶去啟新進程和申請資源; 而對于數據源連接,如果數據源有認證信息,則以數據源認證信息為主,如果沒有,權限則會自動落到執行用戶上(SQOOP引擎下HIVE/HDFS權限都落在執行用戶上);3.配置后置處理器
Exchangis支持內嵌基礎的處理代碼,目前界面僅對ElasticSearch相關任務提供入口。當數據交換任務的目的端為ElasticSearch的時候,可以選擇使用后置處理器,后置處理器允許用戶以編寫代碼的方式對要寫入的記錄數據做更加定制化的處理操作:
在后置處理器代碼中,只可以讀取作業進程工作目錄下的文件,寫入操作以及網絡連接將被攔截禁止
任務作業模塊
1.查看作業日志
在任務配置頁面創建執行任務后,可以在任務作業界面找到對應的作業,點擊詳細日志后拿到執行端的日志,如果作業的狀態是執行中則會對日志窗口持續刷新:
系統管理模塊
1.應用用戶管理
在系統管理 - 用戶管理界面可以新增Exchangis平臺的應用用戶,并授權用戶不同的角色,新用戶可以預設密碼:
對于單個用戶,可以綁定執行(代理)用戶和執行服務節點:
2.執行(代理)用戶管理
單獨的界面維護系統內的執行(代理)用戶:
3.執行節點管理
在執行節點界面可以看到當前集群存在的所有執行節點,這些服務節點通過心跳的方式自動更新自己的信息,點擊對應的節點的管理節點按鈕,進入如下界面:
在該界面可以允許管理員綁定關聯執行(代理)用戶和執行節點,關聯成功后,將會自動在節點機器上建立對應的系統帳號(目前只支持Linux發行版的系統)
總結
以上是生活随笔為你收集整理的常用的数据交换格式有哪些_大数据架构之数据交换平台的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python爬虫科研数据提取_pytho
- 下一篇: python field readonl