跳到主要内容
工程的博客

デタレクで増分etlのメリットを活かす- CDCの課題など

John O 'Dwyerによる投稿

2021年8月30日 デ,タエンジニアリング

分享这篇文章

従来のデータウェアハウスでの増分ETLといえば,疾病预防控制中心(变化数据捕获,変更データキャプチャ)を利用する方法が一般的になっています。しかし,スケーラビリティ,コスト,状態の把握や機械学習との連携が困難であることなどの問題があり,このCDCにより増分ETLを実行する方法は,必ずしも理想的とはいえません。一方,データレイクでの増分ETLはこれまで,ビッグデータのテーブルのデータ更新や変更データの特定ができないといった理由により不可能とされてきました。しかし今日,デ,タレクで増分etlを利用することが可能になりました!増分etlには多くのメリットがあります。効率性やシンプルさ,データサイエンティストやデータアナリストのどちらも利用できる柔軟なデータアーキテクチャの構築などが挙げられます。このブログでは,データレイクで増分ETLを使用するメリットと,それをサポートするデータアーキテクチャについて解説します。

増分etlとは?
まず,増分etlとは何かを明らかにしましょう。増分ETLとは,ソースとデスティネーションとの間の,新規データ/変更データのみの移動を意味します。Webトラフィックのイベントや物联网センサーの測定値(アペンドデータの場合),エンタープライズデータベースの変更(CDCの場合)など,ビッグデータの種類を問いません。増分etlをジョブとしてスケジュ,ルすることも可能です。また,新規データへの継続的アクセスを低レイテンシで行う必要のあるビジネスインテリジェンス(BI)のユースケースにも対応します。下の図は、増分 ETL データが、異なる目的を持つ複数のテーブル間でどのように移動し、変換されるかを示しています。

砖の増分ETLプロセスは,メダリオン(ゴールド・シルバー・ブロンズ)テーブルのアーキテクチャを可能かつ効率的にします。あらゆるデ,タ消費者は,ニ,ズに合った適切なキュレ,ションデ,タセットの利用が可能になります。

デタレクを活用した増分etlのメリット

増分etlを活用すべきメリットは多数あります。三角洲湖や Apache Spark™ などのオープンソースのビッグデータテクノロジーでは、ベンダーロックインすることなく、大規模かつ高いコスト効率で増分データ処理をシームレスに実行できます。このアプローチの採用により、次のようなメリットが得られます。

  • 低コストなビッグデ,タストレ,ジ:データウェアハウスではなく,データレイクでもビッグデータストレージを利用することで,ストレージとコンピューティングを分け,コスト増なしで全ての過去データをストレージに保存できます。これにより,設計時には予測できなかった変換の実行にも柔軟に対応できるようになります。
  • 効率性:増分ETLは新規または変更があったデータなど,処理が必要な増分データのみに実行できるため,効率的なETLやコストの削減,処理時間の短縮が可能になります。
  • 複数のデ,タセットおよびユ,スケ,ス:取り込まれたデ,タセットは,利用される目的も,エンドユ,ザ,のペルソナも異なります。例えば,高精度な集計データセット(ゴールドテーブル)は,データアナリストがレポート作成に使用し,高精度なイベントレベルデータは,データサイエンティストが機械学習モデルの構築に利用します。メダリオン(ゴ,ルド,シルバ,ブロンズ)テ,ブルア,キテクチャにより,目的に応じた多くの価値をデ,タから引き出すことができます。
  • 常時利用可能な原子性のデ,タ:増分的な処理ではデタの誤消去や再処理は発生しないため,いでもデタを利用できます。そのため,さまざまなペルソナが任意の時点で,中間状態や最終状態のテーブルを利用できるようになります。デ,タの原子性とは,行レベルでその行の処理が完全に成功するか失敗するかを意味します。すなわ,この原子性がデタの読み取りを可能にします。これまでのビッグデータテクノロジーでは,行レベルでの原子性は実現できませんでしたが,増分ETLにより可能になりました。
  • 状態の追跡:状態とは,etl処理がどの段階にあるかを把握することです。Etlにおける状態の追跡は極めて困難です。しかし,増分ETLには,デフォルトで状態を追跡する機能があり,ETLのコーディングを容易にします。これにより,ジョブのスケジュ,ル実行やエラ,の発生の際に,いずれも中断したところから再開できます。
  • レ电子邮箱テンシ:増分etlでは,ジョブの周期を日単位から時間単位または連続実行に,容易に変更できます。レイテンシとは,データが処理可能になってから処理されるまでの時間差のことで,ジョブの周期を短くすることで短縮できます。
  • 過去のデ,タセット/再現性:データの順序や取り込み方が整理されているため,エラーが発生した場合やETLの再現が必要な場合にも対応できます。

増分etlが普及していない5の理由

増分etlは,優れているのにあまり実装されていないのが実情です。このアキテクチャの一部や,高コストなデタウェアハウスでの運用にいては知られています。ここではまず,このようなアーキテクチャの実現がなぜ今まで困難であった理由を探り,次に,増分ETLを可能にするビッグデータテクノロジーについて説明します。

  • コスト:変更データキャプチャ/イベント駆動型のETLはデータウェアハウスの世界では新しいものではありません。しかし,全ての過去データをデータウェアハウスに保持し,アーキテクチャにおけるデータ移行で複数のテーブルを利用可能にするには,膨大なコストがかかります。増分ETLの継続実行(データウェアハウスでの英语教学)にかかるコストやリソースも考慮しなければなりません。データウェアハウスアーキテクチャでは,抽出,ロード,そして変換という英语教学が広く使用されています。
  • デ,タの更新:最近までデタレクにおけるデタ更新は極めて困難でした。特にデ,タが大規模な場合や,デ,タを同時に読み込む場合には,実行不可能なこともありました。
  • 状態:前回のETLジョブがどこで中断してどこで再開すべきかを常に知ることは,状態を把握していない限りは困難です。しかし今は,中断したところからの再開を容易にするテクノロジ,が存在します。この問題は,例外が発生しプロセスが予期せず停止した場合に,さらに深刻になる可能性があります。
  • 非効率:処理が変更だけではなく他にもある場合,かなりの時間とリソ,スが必要になります。
  • 増分デ,タソ,スとしてのビッグデ,タテ,ブル:三角洲湖などの特定のビッグデータテーブルの原子性により,増分データソースが利用できるようになりました。これにより,中間テ,ブルのア,キテクチャが可能になります。

増分etlを可能にするビッグデタテクノロジ

Apache火花™と三角洲湖における多くのイノベーションが,増分ETLを基盤としたデータアーキテクチャの実現と容易な構築を可能にしています。以下は,そのビッグデ,タテクノロジ,の詳細です。

  • 三角洲湖のACIDトランザクション:三角洲湖はACID(原子性,一貫性,独立性,永続性)トランザクションを提供します。これはビッグデ,タア,キテクチャには斬新な機能であり,デタレクハウスにおいて不可欠です。酸トランザクションは,ソース/三角洲湖の中間テーブルにおける行レベルでの更新および変更の特定を可能にします。また,合并オペレ,ションにより,アップサ,ト処理(行レベルでの挿入や更新を一度に行うこと)が極めてシンプルになります。
  • チェックポ电子邮箱ント:Spark構造化ストリ,ミングのチェックポ@ @ント機能により、ETLジョブが中断した際の本質的な状態をアーキテクチャで把握できるため,状態管理が容易になります。
  • トリガ,ワンス:トリガワンス(触发。一次)はSpark構造化ストリ,ミングの機能です。Apache卡夫卡からの読み込みなどの継続的なユースケースをスケジュールジョブに変換します。これは,継続的かつ低レイテンシなETLが範囲外である場合でも,多くの機能を採用できることを意味します。また,スケジュールジョブの周期の変更が可能な柔軟性も備えており、最終的にはアーキテクチャを変更することなく、継続的なユースケースを実現します。

ビッグデータとオープンソーステクノロジーを利用した増分ETLが可能になった今,組織では,必要なキュレーションデータセットを効率的かつ容易に構築できる増分ETLの利用価値を評価する必要があります。

増分etlを可能にするオプンソステクノロジにいて詳しくは,delta.ioまたはspark.apache.orgをご覧ください。

数据库無料トラ电子词典アル

関連記事

工程的博客

デタレクで増分etlのメリットを活かす- CDCの課題など

2021年8月30日 John O 'Dwyerによる投稿 デ,タエンジニアリング
従来のデータウェアハウスでの増分ETLといえば,疾病预防控制中心(变化数据捕获,変更データキャプチャ)を利用する方法が一般的になっています。しかし,スケーラビリティ,コスト,状態の把握や機械学習との連携が困難であることなどの問題があり,このCDCにより増分ETLを実行する方法は,必ずしも理想的とはいえません。一方,データレイクでの増分ETLはこれまで,ビッグデータのテーブルのデータ更新や変更データの特定ができないといった理由により不可能とされてきました。しかし今日,デ,タレクで増分etlを利用することが可能になりました!増分etlには多くのメリットがあります。効率性やシンプルさ,データサイエンティストやデータアナリストのどちらも利用できる柔軟なデータアーキテクチャの構築などが挙げられます。このブログでは,データレイクで増分ETLを使用するメリットと,それをサポートするデータアーキテクチャについて解説します。増分etlとは?まず,増分etlとは何かを明らかにし
看到所有デ,タエンジニアリング的帖子