[點(diǎn)晴模切ERP][轉(zhuǎn)帖]數(shù)據(jù)遷移工具,用這8種!
![]() ![]() 數(shù)據(jù)遷移工具,用這8種!前言最近有些小伙伴問我, ETL(是Extract-Transform-Load的縮寫,即數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程),對(duì)于企業(yè)應(yīng)用來說,我們經(jīng)常會(huì)遇到各種數(shù)據(jù)的處理、轉(zhuǎn)換、遷移的場(chǎng)景。 今天特地給大家匯總了一些目前市面上比較常用的 1.Kettle
Kettle 中有兩種腳本文件,transformation 和 job,transformation 完成針對(duì)數(shù)據(jù)的基礎(chǔ)轉(zhuǎn)換,job 則完成整個(gè)工作流的控制。 Kettle 中文名稱叫水壺,該項(xiàng)目的主程序員 MATT 希望把各種數(shù)據(jù)放到一個(gè)壺里,然后以一種指定的格式流出。 Kettle 這個(gè) ETL 工具集,它允許你管理來自不同數(shù)據(jù)庫(kù)的數(shù)據(jù),通過提供一個(gè)圖形化的用戶環(huán)境來描述你想做什么,而不是你想怎么做。
2.Datax
DataX 是一個(gè)異構(gòu)數(shù)據(jù)源離線同步工具,致力于實(shí)現(xiàn)包括關(guān)系型數(shù)據(jù)庫(kù)(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步功能。 ![]() 設(shè)計(jì)理念:為了解決異構(gòu)數(shù)據(jù)源同步問題,DataX將復(fù)雜的網(wǎng)狀的同步鏈路變成了星型數(shù)據(jù)鏈路,DataX作為中間傳輸載體負(fù)責(zé)連接各種數(shù)據(jù)源。當(dāng)需要接入一個(gè)新的數(shù)據(jù)源的時(shí)候,只需要將此數(shù)據(jù)源對(duì)接到DataX,便能跟已有的數(shù)據(jù)源做到無縫數(shù)據(jù)同步。 當(dāng)前使用現(xiàn)狀:DataX在阿里巴巴集團(tuán)內(nèi)被廣泛使用,承擔(dān)了所有大數(shù)據(jù)的離線同步業(yè)務(wù),并已持續(xù)穩(wěn)定運(yùn)行了6年之久。目前每天完成同步8w多道作業(yè),每日傳輸數(shù)據(jù)量超過300TB。 DataX本身作為離線數(shù)據(jù)同步框架,采用Framework + plugin架構(gòu)構(gòu)建。將數(shù)據(jù)源讀取和寫入抽象成為Reader/Writer插件,納入到整個(gè)同步框架中。 ![]() DataX 3.0 開源版本支持單機(jī)多線程模式完成同步作業(yè)運(yùn)行,本小節(jié)按一個(gè)DataX作業(yè)生命周期的時(shí)序圖,從整體架構(gòu)設(shè)計(jì)非常簡(jiǎn)要說明DataX各個(gè)模塊相互關(guān)系。
3.DataPipeline
可實(shí)現(xiàn) Oracle、IBM DB2、MySQL、MS SQL Server、PostgreSQL、GoldenDB、TDSQL、OceanBase 等數(shù)據(jù)庫(kù)準(zhǔn)確的增量數(shù)據(jù)獲取。 平臺(tái)具備“數(shù)據(jù)全、傳輸快、強(qiáng)協(xié)同、更敏捷、極穩(wěn)定、易維護(hù)”六大特性。 在支持傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的基礎(chǔ)上,對(duì)大數(shù)據(jù)平臺(tái)、國(guó)產(chǎn)數(shù)據(jù)庫(kù)、云原生數(shù)據(jù)庫(kù)、API 及對(duì)象存儲(chǔ)也提供廣泛的支持,并在不斷擴(kuò)展。 DataPipeline 數(shù)據(jù)融合產(chǎn)品致力于為用戶提供企業(yè)級(jí)數(shù)據(jù)融合解決方案,為用戶提供統(tǒng)一平臺(tái)同時(shí)管理異構(gòu)數(shù)據(jù)節(jié)點(diǎn)實(shí)時(shí)同步與批量數(shù)據(jù)處理任務(wù),在未來還將提供對(duì)實(shí)時(shí)流計(jì)算的支持。 采用分布式集群化部署方式,可水平垂直線性擴(kuò)展的,保證數(shù)據(jù)流轉(zhuǎn)穩(wěn)定高效,讓客戶專注數(shù)據(jù)價(jià)值釋放。
4.TalendTalend (踏藍(lán)) 是第一家針對(duì)的數(shù)據(jù)集成工具市場(chǎng)的 ETL (數(shù)據(jù)的提取 Extract、傳輸 Transform、載入 Load) 開源軟件供應(yīng)商。
5.DataStageDataStage,即IBM WebSphere DataStage,是一套專門對(duì)多種操作數(shù)據(jù)源的數(shù)據(jù)抽取、轉(zhuǎn)換和維護(hù)過程進(jìn)行簡(jiǎn)化和自動(dòng)化,并將其輸入數(shù)據(jù)集市或數(shù)據(jù)倉(cāng)庫(kù)目標(biāo)數(shù)據(jù)庫(kù)的集成工具,可以從多個(gè)不同的業(yè)務(wù)系統(tǒng)中,從多個(gè)平臺(tái)的數(shù)據(jù)源中抽取數(shù)據(jù),完成轉(zhuǎn)換和清洗,裝載到各種系統(tǒng)里面。 其中每步都可以在圖形化工具里完成,同樣可以靈活地被外部系統(tǒng)調(diào)度,提供專門的設(shè)計(jì)工具來設(shè)計(jì)轉(zhuǎn)換規(guī)則和清洗規(guī)則等,實(shí)現(xiàn)了增量抽取、任務(wù)調(diào)度等多種復(fù)雜而實(shí)用的功能。其中簡(jiǎn)單的數(shù)據(jù)轉(zhuǎn)換可以通過在界面上拖拉操作和調(diào)用一些 DataStage 預(yù)定義轉(zhuǎn)換函數(shù)來實(shí)現(xiàn),復(fù)雜轉(zhuǎn)換可以通過編寫腳本或結(jié)合其他語(yǔ)言的擴(kuò)展來實(shí)現(xiàn),并且 DataStage 提供調(diào)試環(huán)境,可以極大提高開發(fā)和調(diào)試抽取、轉(zhuǎn)換程序的效率。 Datastage 操作界面
Datastage 包含四大部件:
6.SqoopSqoop 是 Cloudera 公司創(chuàng)造的一個(gè)數(shù)據(jù)同步工具,現(xiàn)在已經(jīng)完全開源了。 目前已經(jīng)是 hadoop 生態(tài)環(huán)境中數(shù)據(jù)遷移的首選 Sqoop 是一個(gè)用來將 Hadoop 和關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如 :MySQL ,Oracle ,Postgres 等)中的數(shù)據(jù)導(dǎo)入到 Hadoop 的 HDFS 中,也可以將 HDFS 的數(shù)據(jù)導(dǎo)入到關(guān)系型數(shù)據(jù)庫(kù)中。
同時(shí)也可以將 hadoop 生態(tài)集群中的數(shù)據(jù)導(dǎo)回到傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù) | 文件型數(shù)據(jù)庫(kù) | 企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中。 那么 Sqoop 如何抽取數(shù)據(jù)呢?
7.FineDataLinkFineDataLink是國(guó)內(nèi)做的比較好的ETL工具,F(xiàn)ineDataLink是一站式的數(shù)據(jù)處理平臺(tái),具備高效的數(shù)據(jù)同步功能,可以實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)傳輸、數(shù)據(jù)調(diào)度、數(shù)據(jù)治理等各類復(fù)雜組合場(chǎng)景的能力,提供數(shù)據(jù)匯聚、研發(fā)、治理等功能。 FDL擁有低代碼優(yōu)勢(shì),通過簡(jiǎn)單的拖拽交互就能實(shí)現(xiàn)ETL全流程。 8.canalcanal [kə'næl],譯意為水道/管道/溝渠,主要用途是基于 MySQL 數(shù)據(jù)庫(kù)增量日志解析,提供增量數(shù)據(jù)訂閱和消費(fèi)。 基于日志增量訂閱和消費(fèi)的業(yè)務(wù)包括:
當(dāng)前的 canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.x , 5.7.x , 8.0.x。 ![]()
canal 工作原理:
點(diǎn)晴模切ERP更多信息:http://moqie.clicksun.cn,聯(lián)系電話:4001861886 該文章在 2023/7/28 16:54:11 編輯過 |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |