Databricksレクハウスプラットフォムでのデタウェアハウスのモデリングと実装
2022年6月24日 在プラットフォ,ムブログ
レイクハウスは,データレイクとデータウェアハウスの長所を組み合わせた,新しいデータプラットフォームパラダイムです。多くのユースケースやデータプロダクトを格納できる,大規模なエンタープライズレベルのデータプラットフォームとして設計されています。データレイクとデータウェアハウスを統合した,単一のエンタープライズデータリポジトリとして使用することができます。
- デタドメン
- リアルタムストリミングのユスケス
- デ,タマ,ト
- 異種デ,タウェアハウス
- デタサエンス機能ストア,デタサエンスサンドボックス
- 部門別のセルフサ,ビス型分析サンドボックス
ユースケースの多様性を考えると,レイクハウスのプロジェクトによって異なるデータ整理の原則やモデリングテクニックが適用されるかもしれません。技術的には,Databricksレ. cerクハウスプラットフォ. cerムは,多くの異なるデ,タモデリング形式をサポ,トすることができます。この記事では,レイクハウスの青铜/银/金データ編成原則の実装と,異なるデータモデリング技術が各レイヤーにどのようにフィットするかを説明することを目的としています。
数据仓库とは
数据保险库は,金博やInmonの手法に比べ,企業規模の分析用データウェアハウスを構築するために用いられる,より新しいデータモデリングのデザインパターンです。
数据仓库は、デ、タをハブ、リンク、サテラ@ @トの3のタプに整理しています。ハブはコアのビジネスエンティティを表し、リンクはハブ間の関係を表し、サテライトはハブやリンクに関する属性を格納します。
数据保险库は拡張性,データ統合/ ETL,開発スピードが重要視されるアジャイルデータウェアハウス開発に重点を置いています。ほとんどのお客様は,ランディングゾーン,拱顶ゾーン,データマートゾーンを,砖の組織パラダイムのブロンズ,シルバー,ゴールドレイヤーに対応させています。数据保险库のハブ,リンク,サテライトテーブルのモデリングスタイルは,通常砖レイクハウスのシルバーレイヤーによく合います。
数据仓库のモデリングにいては,数据仓库联盟で詳しく説明しています。
ディメンショナルモデリングとは
次元モデリングは,データウェアハウスを分析用に最適化するために設計するボトムアップのアプローチです。次元モデルは,ビジネスデ,タを次元(時間や商品など)とファクト(金額や数量の取引など)に非正規化し,異なる対象領域を適合した次元で接続して,異なるファクトテーブルにナビゲートするために使用されます。
次元モデリングの最も一般的な形式は,スタ,スキ,マです。スタースキーマは多次元データモデルで,データを整理して理解しやすく,分析しやすく,またレポートの実行が非常に簡単で直感的にできるようにするために使用されます。金伯尔スタイルのスタースキーマや次元モデルは,データウェアハウスやデータマートのプレゼンテーション層,さらにはセマンティック層やレポート層におけるゴールドスタンダードと言えます。スタ,スキ,マの設計は,大規模なデ,タセットに対するクエリに最適化されています。
砖レイクハウスでは,正規化数据金库(書き込み最適化)と非正規化ディメンジョンモデル(読み込み最適化)の両方のデータモデリングスタイルが採用されています。银レイヤーの数据金库のハブおよびサテライトは,スタースキーマのディメンジョンをロードするために使用され,数据金库のリンクテーブルは,ディメンションモデルのファクトテーブルをロードするためのキードライビングテーブルとなります。金宝集团のディメンジョンモデリングにいて詳しくは,こらを参照してください。
レクハウスの各レヤにおけるデタ編成の原則
最新のレクハウスは,全てを網羅したエンタプラズレベルのデタプラットフォムです。ETL、BIデータサイエンス,ストリーミングなど,さまざまなデータモデリングアプローチを必要とするあらゆるユースケースに対応する高い拡張性と性能を備えています。典型的なレ@ @クハウスがどのように構成されているかを見てみましょう。
ブロンズレヤ:ランディングゾン
青铜レヤは,ソスシステムから全てのデタを取り込む場所である。このレイヤーのテーブル構造は,ロード日時,プロセスIDなどを取得するために追加できるオプションのメタデータカラムを除けば,ソースシステムのテーブル構造に”そのまま“対応する。このレイヤーの焦点は,変更データの取得(CDC)とソースデータの履歴アーカイブ(コールドストレージ),データリネージ,監査可能性,および必要に応じて再処理を提供する機能(ソースシステムからデータを再読込せずに)にあります。
多くの場合、青铜レイヤーのデータを三角洲フォーマットにしておくと,その後のETLのための青铜レイヤーからの読み込みが効率的になり,青铜でCDCの変更を書き込むための更新ができるようになります。JSONやXML形式のデータが届くと,元のソースデータのフォーマットでランディングし,三角洲フォーマットに変更してステージングするお客様を時々見かけます。そのため,論理的な青铜レイヤーを物理的なランディング・ステージングゾーンにするお客様もいらっしゃいます。
ランディングゾーンにオリジナルのソースデータフォーマットで生データを保存することは,ネイティブシンクとして三角洲をサポートしていないインジェストツールを介してデータを取り込む場合,またはソースシステムがオブジェクトストアに直接データをダンプする場合の一貫性を保つためにも役立ちます。このパタンは,ソスがrawファルのランディングゾンにデタを取り込み,数据库オ,トロ,ダがデータを三角洲フォーマットのステージングレイヤーに変換するという,オートローダ取り込みフレームワークともうまく連携しています。
シルバレヤ:エンタプラズセントラルレポジトリ
レイクハウスのシルバー層では,ブロンズ層からのデータが照合,マージ,適合,クリーニングされ,シルバー層が全ての主要なビジネスエンティティ,概念,トランザクションの”エンタープライズビュー”を提供できるようにします。これは,エンタープライズオペレーショナルデータストア(ODS)セントラルリポジトリ,データメッシュのデータドメイン(マスター顧客,製品,重複のないトランザクション,相互参照テーブルなど)に似ています。このエンタープライズビューは,異なるソースからのデータをまとめ,アドホックレポート,高度な分析,毫升のためのセルフサービス分析を可能にします。また,部門アナリスト,データエンジニア,データサイエンティストがさらにデータプロジェクトを作成し,ゴールドレイヤーの企業および部門データプロジェクトを通じてビジネス上の問題に答えるための分析を行うためのソースとしても機能します。
レイクハウスデータエンジニアリングのパラダイムでは,従来の提取-转换-装载(ETL)に対して,英语教学(Extract-Load-Transform)メソドロジーが採用されています。英语教学アプローチとは、银レイヤーのロード時に最小限の,あるいは”必要十分な“変換とデータクレンジングルールのみが適用されることを意味します。プロジェクト固有の変換ルールがゴールドレイヤーで適用されるのに対して,“エンタープライズレベル”のルールは全てシルバーレイヤーで適用されます。レクハウスにデタを取り込み,配信するためのスピドと俊敏性が優先されます。
データモデリングの観点からは,シルバーレイヤーはより3 rd-normal形式に近いデータモデルを持ちます。数据保险库のような書き込み可能なデータアーキテクチャとデータモデルをこのレイヤーで使用することができます。数据保险库の手法を使用する場合、生のData VaultとBusiness Vaultの両方がレイクの論理的なシルバー層に収まり、ポイントインタイム(PIT)プレゼンテーションビューまたはマテリアライズドビューはゴールド層に表示されることになります。
ゴルドレヤ:プレゼンテションレヤ
ゴールドレイヤーでは,ディメンションモデリングや金博手法に従って,複数のデータマートやウェアハウスを構築することができます。先に述べたように,ゴールドレイヤーはレポーティング用であり,シルバーレイヤーと比較して結合を減らし,より非正規化,読み取り最適化されたデータモデルを使用します。ゴールドレイヤーのテーブルを完全に非正規化することも可能で,通常はデータサイエンティストが特徴抽出のアルゴリズムに利用するためにそのようにします。
シルバーレイヤーからゴールドレイヤーへのデータ変換の際には,“プロジェクト固有“のETLとデータ品質のルールが適用されます。デ,タウェアハウス、デ,タマ,ト、あるいは顧客分析、製品/品質分析、在庫分析、顧客セグメンテーション、製品推奨、マーケティング/販売分析などのデータプロダクトなどの最終的なプレゼンテーション層は、このレイヤーで提供されます。キンブル式のスタースキーマ型データモデルやインモン式のデータマートは、このレイクハウスのゴールドレイヤーに適合します。セルフサービス分析のためのデータサイエンスラボラトリーや部門別サンドボックスも、このゴールドレイヤーに属します。
レ▪▪クハウスのデ▪▪タ整理のパラダ▪▪ム
要約すると,データはレイクハウスのさまざまなレイヤーを通過する際にキュレーションされるということです。
- ブロンズレヤは,ソ,スシステムのデ,タモデルを使用します。もしデータが生のフォーマットで着地した場合,このレイヤー内でDeltaLakeフォーマットに変換されます。
- シルバレヤは,異なるソスからのデタをまとめ,エンタプラズビュを作成するために適合させます。通常,より正規化され,書き込みが最適化されたデ,タモデルを使用します。
- ゴルドレヤは,シルバーレイヤーよりも非正規化またはフラット化されたデータモデルを持つプレゼンテーションレイヤーで,一般的にはキンボール式のディメンションモデルやスタースキーマが使用されます。ゴールドレイヤーには,企業全体でセルフサービス分析やデータサイエンスを実現するための部門別サンドボックスやデータサイエンスサンドボックスも配置されます。これらのサンドボックスと独立した計算クラスタを提供することで,ビジネスチームがレイクハウス外でデータのコピーを独自に作成することを防ぎます。
このレイクハウスのデータ組織のアプローチは,データのサイロを壊し,チームをまとめ,適切なガバナンスのもと,1つのプラットフォームでETL、ストリーミング,BIやAIを行う権限を与えることを意図しています。中央データチームは,データモデリングプロセスがボトルネックになるのではなく,新しいセルフサービスユーザーのオンボーディングや,多くのデータプロジェクトの開発を並行してスピードアップし,組織内のイノベーションを実現する存在であるべきです。Databricks统一目录は,レイクハウス上で検索と発見,ガバナンス,リネージを提供し,データガバナンスを確実に実行することができます。
砖的SQLで数据金库とスタ,スキ,マデ,タウェアハウスを今すぐ構築しましょう。