跳到主要内容
bob体育客户端下载平台的博客

Databricksレクハウスプラットフォムでのデタウェアハウスのモデリングと実装

レ▪▪クハウスでの数据仓库と星型架构の利用に▪▪いて
分享这篇文章

レイクハウスは,データレイクとデータウェアハウスの長所を組み合わせた,新しいデータプラットフォームパラダイムです。多くのユースケースやデータプロダクトを格納できる,大規模なエンタープライズレベルのデータプラットフォームとして設計されています。データレイクとデータウェアハウスを統合した,単一のエンタープライズデータリポジトリとして使用することができます。

  • デタドメン
  • リアルタムストリミングのユスケス
  • デ,タマ,ト
  • 異種デ,タウェアハウス
  • デタサエンス機能ストア,デタサエンスサンドボックス
  • 部門別のセルフサ,ビス型分析サンドボックス

ユースケースの多様性を考えると,レイクハウスのプロジェクトによって異なるデータ整理の原則やモデリングテクニックが適用されるかもしれません。技術的には,Databricksレ. cerクハウスプラットフォ. cerムは,多くの異なるデ,タモデリング形式をサポ,トすることができます。この記事では,レイクハウスの青铜/银/金データ編成原則の実装と,異なるデータモデリング技術が各レイヤーにどのようにフィットするかを説明することを目的としています。

数据仓库とは

数据保险库は,金博やInmonの手法に比べ,企業規模の分析用データウェアハウスを構築するために用いられる,より新しいデータモデリングのデザインパターンです。

数据仓库は、デ、タをハブリンクサテラ@ @トの3のタプに整理しています。ハブはコアのビジネスエンティティを表し、リンクはハブ間の関係を表し、サテライトはハブやリンクに関する属性を格納します。

数据保险库は拡張性,データ統合/ ETL,開発スピードが重要視されるアジャイルデータウェアハウス開発に重点を置いています。ほとんどのお客様は,ランディングゾーン,拱顶ゾーン,データマートゾーンを,砖の組織パラダイムのブロンズ,シルバー,ゴールドレイヤーに対応させています。数据保险库のハブ,リンク,サテライトテーブルのモデリングスタイルは,通常砖レイクハウスのシルバーレイヤーによく合います。

数据仓库のモデリングにいては,数据仓库联盟で詳しく説明しています。

显示数据库建模如何工作的图表,其中集线器、链路和卫星相互连接。
数据保险库のモデリングの仕組みを示す図で,ハブ,リンク,サテライトが互いに接続されている。

ディメンショナルモデリングとは

次元モデリングは,データウェアハウスを分析用に最適化するために設計するボトムアップのアプローチです。次元モデルは,ビジネスデ,タを次元(時間や商品など)とファクト(金額や数量の取引など)に非正規化し,異なる対象領域を適合した次元で接続して,異なるファクトテーブルにナビゲートするために使用されます。

次元モデリングの最も一般的な形式は,スタ,スキ,マです。スタースキーマは多次元データモデルで,データを整理して理解しやすく,分析しやすく,またレポートの実行が非常に簡単で直感的にできるようにするために使用されます。金伯尔スタイルのスタースキーマや次元モデルは,データウェアハウスやデータマートのプレゼンテーション層,さらにはセマンティック層やレポート層におけるゴールドスタンダードと言えます。スタ,スキ,マの設計は,大規模なデ,タセットに対するクエリに最適化されています。

星型模式示例
スタ,スキ,マの例

砖レイクハウスでは,正規化数据金库(書き込み最適化)と非正規化ディメンジョンモデル(読み込み最適化)の両方のデータモデリングスタイルが採用されています。银レイヤーの数据金库のハブおよびサテライトは,スタースキーマのディメンジョンをロードするために使用され,数据金库のリンクテーブルは,ディメンションモデルのファクトテーブルをロードするためのキードライビングテーブルとなります。金宝集团のディメンジョンモデリングにいて詳しくは,こらを参照してください。

レクハウスの各レヤにおけるデタ編成の原則

最新のレクハウスは,全てを網羅したエンタプラズレベルのデタプラットフォムです。ETL、BIデータサイエンス,ストリーミングなど,さまざまなデータモデリングアプローチを必要とするあらゆるユースケースに対応する高い拡張性と性能を備えています。典型的なレ@ @クハウスがどのように構成されているかを見てみましょう。

这张图表显示了数据湖屋架构的青铜层、银层和金层的特征。
数据レイクハウスアーキテクチャの青铜、白银、黄金の各レイヤーの特徴を示した図です。

ブロンズレヤ:ランディングゾン

青铜レヤは,ソスシステムから全てのデタを取り込む場所である。このレイヤーのテーブル構造は,ロード日時,プロセスIDなどを取得するために追加できるオプションのメタデータカラムを除けば,ソースシステムのテーブル構造に”そのまま“対応する。このレイヤーの焦点は,変更データの取得(CDC)とソースデータの履歴アーカイブ(コールドストレージ),データリネージ,監査可能性,および必要に応じて再処理を提供する機能(ソースシステムからデータを再読込せずに)にあります。

多くの場合、青铜レイヤーのデータを三角洲フォーマットにしておくと,その後のETLのための青铜レイヤーからの読み込みが効率的になり,青铜でCDCの変更を書き込むための更新ができるようになります。JSONやXML形式のデータが届くと,元のソースデータのフォーマットでランディングし,三角洲フォーマットに変更してステージングするお客様を時々見かけます。そのため,論理的な青铜レイヤーを物理的なランディング・ステージングゾーンにするお客様もいらっしゃいます。

ランディングゾーンにオリジナルのソースデータフォーマットで生データを保存することは,ネイティブシンクとして三角洲をサポートしていないインジェストツールを介してデータを取り込む場合,またはソースシステムがオブジェクトストアに直接データをダンプする場合の一貫性を保つためにも役立ちます。このパタンは,ソスがrawファルのランディングゾンにデタを取り込み,数据库オ,トロ,ダがデータを三角洲フォーマットのステージングレイヤーに変換するという,オートローダ取り込みフレームワークともうまく連携しています。

シルバレヤ:エンタプラズセントラルレポジトリ

レイクハウスのシルバー層では,ブロンズ層からのデータが照合,マージ,適合,クリーニングされ,シルバー層が全ての主要なビジネスエンティティ,概念,トランザクションの”エンタープライズビュー”を提供できるようにします。これは,エンタープライズオペレーショナルデータストア(ODS)セントラルリポジトリ,データメッシュのデータドメイン(マスター顧客,製品,重複のないトランザクション,相互参照テーブルなど)に似ています。このエンタープライズビューは,異なるソースからのデータをまとめ,アドホックレポート,高度な分析,毫升のためのセルフサービス分析を可能にします。また,部門アナリスト,データエンジニア,データサイエンティストがさらにデータプロジェクトを作成し,ゴールドレイヤーの企業および部門データプロジェクトを通じてビジネス上の問題に答えるための分析を行うためのソースとしても機能します。

レイクハウスデータエンジニアリングのパラダイムでは,従来の提取-转换-装载(ETL)に対して,英语教学(Extract-Load-Transform)メソドロジーが採用されています。英语教学アプローチとは、银レイヤーのロード時に最小限の,あるいは”必要十分な“変換とデータクレンジングルールのみが適用されることを意味します。プロジェクト固有の変換ルールがゴールドレイヤーで適用されるのに対して,“エンタープライズレベル”のルールは全てシルバーレイヤーで適用されます。レクハウスにデタを取り込み,配信するためのスピドと俊敏性が優先されます。

データモデリングの観点からは,シルバーレイヤーはより3 rd-normal形式に近いデータモデルを持ちます。数据保险库のような書き込み可能なデータアーキテクチャとデータモデルをこのレイヤーで使用することができます。数据保险库の手法を使用する場合、生のData VaultとBusiness Vaultの両方がレイクの論理的なシルバー層に収まり、ポイントインタイム(PIT)プレゼンテーションビューまたはマテリアライズドビューはゴールド層に表示されることになります。

ゴルドレヤ:プレゼンテションレヤ

ゴールドレイヤーでは,ディメンションモデリングや金博手法に従って,複数のデータマートやウェアハウスを構築することができます。先に述べたように,ゴールドレイヤーはレポーティング用であり,シルバーレイヤーと比較して結合を減らし,より非正規化,読み取り最適化されたデータモデルを使用します。ゴールドレイヤーのテーブルを完全に非正規化することも可能で,通常はデータサイエンティストが特徴抽出のアルゴリズムに利用するためにそのようにします。

シルバーレイヤーからゴールドレイヤーへのデータ変換の際には,“プロジェクト固有“のETLとデータ品質のルールが適用されます。デ,タウェアハウス、デ,タマ,ト、あるいは顧客分析、製品/品質分析、在庫分析、顧客セグメンテーション、製品推奨、マーケティング/販売分析などのデータプロダクトなどの最終的なプレゼンテーション層は、このレイヤーで提供されます。キンブル式のスタースキーマ型データモデルやインモン式のデータマートは、このレイクハウスのゴールドレイヤーに適合します。セルフサービス分析のためのデータサイエンスラボラトリーや部門別サンドボックスも、このゴールドレイヤーに属します。

レ▪▪クハウスのデ▪▪タ整理のパラダ▪▪ム

Lakehouse数据组织范例

要約すると,データはレイクハウスのさまざまなレイヤーを通過する際にキュレーションされるということです。

  • ブロンズレヤは,ソ,スシステムのデ,タモデルを使用します。もしデータが生のフォーマットで着地した場合,このレイヤー内でDeltaLakeフォーマットに変換されます。
  • シルバレヤは,異なるソスからのデタをまとめ,エンタプラズビュを作成するために適合させます。通常,より正規化され,書き込みが最適化されたデ,タモデルを使用します。
  • ゴルドレヤは,シルバーレイヤーよりも非正規化またはフラット化されたデータモデルを持つプレゼンテーションレイヤーで,一般的にはキンボール式のディメンションモデルやスタースキーマが使用されます。ゴールドレイヤーには,企業全体でセルフサービス分析やデータサイエンスを実現するための部門別サンドボックスやデータサイエンスサンドボックスも配置されます。これらのサンドボックスと独立した計算クラスタを提供することで,ビジネスチームがレイクハウス外でデータのコピーを独自に作成することを防ぎます。

このレイクハウスのデータ組織のアプローチは,データのサイロを壊し,チームをまとめ,適切なガバナンスのもと,1つのプラットフォームでETL、ストリーミング,BIやAIを行う権限を与えることを意図しています。中央データチームは,データモデリングプロセスがボトルネックになるのではなく,新しいセルフサービスユーザーのオンボーディングや,多くのデータプロジェクトの開発を並行してスピードアップし,組織内のイノベーションを実現する存在であるべきです。Databricks统一目录は,レイクハウス上で検索と発見,ガバナンス,リネージを提供し,データガバナンスを確実に実行することができます。

砖的SQLで数据金库とスタ,スキ,マデ,タウェアハウスを今すぐ構築しましょう。

数据在Lakehouse的不同层中移动时进行管理。
デタがレクハウスのさまざまなレヤを通過する際にキュレションされる仕組み

もっと詳しく

数据库無料トラ电子词典アル

関連記事

bob体育客户端下载平台的博客

三角洲湖で砖にスタースキーマを実装するための簡単な5ステップ

2022年5月20日 加里·摩尔卢卡斯Bilbro布兰诺Heintzによる投稿 製品
デ,タウェアハウスの開発者の多くは,常に存在するスタ,スキ,マに精通しています。1990年代にラルフ・キンボールによって紹介されたスタースキーマは,ビジネスデータをディメンション(時間や商品など)とファクト(金額や数量のトランザクション)に非正規化するために使用されます。スタースキーマは,反復的なビジネス定義の重複を減らすことで,データの保存,履歴の維持,更新を効率的に行い,集計とフィルタリングを高速化します。ビジネスインテリジェンス(BI)アプリケーションをサポートするスタースキーマの一般的な実装は,慣例化し成功しているため,多くのデータモデルの設計者にとってその実装は極めて容易なものになっています。砖では,非常に多くのデータアプリケーションを作成しており,経験則によるベストプラクティスのアプローチ,成果につながることを保証する基本的な実装を常に探求しています。従来のデータウェアハウスと同様に,三角洲湖でもいくつかの簡単な経験則に従うことで,三角洲スタースキーマの結合を
看到所有プラットフォ,ムブログ的帖子