デ,タウェアハウス

《数据湖屋的崛起》作者:Bill Inmon

デタウェアハウスとは?

デ,タウェアハウス(DWH)は複数のソースから得られた最新データや履歴データをビジネスに適した形で蓄積し,知見の取得やレポート作成を容易にするデータ管理システムです。主に,ビジネスンテリジェンス(bi),レポト作成,デタ分析に使用されます。

データウェアハウスでは,POSシステム,インベントリ管理システム,マーケティングや販売データベースなどの業務システムに蓄積されたデータを,迅速かつ容易に分析可能です。データは,オペレーショナルデータストアを中継する場合があり,データウェアハウスでレポート作成のために使用する前にデータクレンジングを行い,データ品質を確保する必要があります。

デ,タウェアハウスの利用用途

データウェアハウスは,BI,レポート作成,データ分析において,オペレーショナルデータベースからのデータ抽出と集計に使用されます。トランザクションデータベースから直接取得することが困難な情報も,データウェアハウスを経由して取得できます。例えば,経営陣から,各営業担当者による月次ベースの製品カテゴリ別の総売上高を知りたいという要望があるとします。トランザクションデータベースではこのようなデータの取得は困難ですが,データウェアハウスでは可能です。

デ,タウェアハウスにおけるetlとelt

デ,タの変換には,etl(抽出,変換,ロ,ド)elt(抽出,ロ,ド,変換)の2の方法があります。データエンジニアは通常,ETL(抽出・変換・ロード)を使用し,さまざまなデータソースから抽出したデータをデータウェアハウスに移動させて,データクレンジングやデータの構造化を行います。一方,英语教学では,まず元の形式のデータをデータウェアハウスにロードし,処理する際にデータクレンジングと構造化を行います。

ETLは通常,全社的なデータクレンジングと準拠規則を適用するために,企業のデータエンジニアリングチームによって一元的に行われます。一方,ELTは中,プロジェクトやビジネスチームに特化した変換が後の段階で行われ,セルフサービス分析を可能にします。

トランザクション処理(oltp)と分析処理(olap)の比較

オンラ电子邮箱ントランザクション処理(oltp)システムは,デ,タベ,ス内のトランザクションデ,タの取得および管理を行います。トランザクションには、複数のフィールドやカラムで構成される独立したデータベースレコードが含まれます。OLTP データベースは、オンラインバンキング、ERP システム、インベントリ管理などのアプリケーションで頻繁に使用され、瞬時に処理される行レベルのデータを迅速に更新します。

オンラaapl . aapl . aapl . aapl . aapl . aapl . aapl . aapl . aapl . aaplは,データマイニング,分析,ビジネスインテリジェンスのプロジェクトに使用され,OLTPデータベースやその他のソースから集約された膨大な履歴データに複雑なクエリを適用します。デタウェアハウスはolapシステムです。OLAPデータベースとデータウェアハウスにより,アナリストや意思決定者は,カスタムレポートツールを使用して,データドリブンな情報の収集と意思決定ができるようになります。OLAPデータベースでクエリに失敗しても,顧客のトランザクション処理が中断したり遅延したりすることはありませんが,ビジネスインテリジェンスに関する分析結果の取得が遅れたり,精度に影響を及ぼしたりする可能性があります。

デ,タウェアハウスのメリット

  • 複数ソ,スから取得したデ,タの統合:あらゆるデータに対する単一のアクセスポイントとして機能し,ユーザが数十あるいは数百ものデータストアに個別にアクセスする必要がなくなります。
  • ヒストリカル@ @ンテリジェンス:デ,タウェアハウスは,複数ソ,スから得られたデ,タを統合し,過去の傾向を表示します。
  • 分析処理とトランザクションデ,タベ,スの分離:この2の処理を分離することで,両システムのパフォマンスを向上させます。
  • デ,タの品質,一貫性,正確性:データウェアハウスでは,命名規則の一貫性,さまざまな製品タイプのコード,言語,通貨など,標準的なセマンティクスをデータに使用します。

デ,タウェアハウスの課題

  • 非構造化デ,タのサポ,ト:画的像,テキスト,物联网データなどの非構造化データ,HL7、JSON、XMLなどのメッセージングフレームワークには対応していません。ガ,トナ,社の推定では,組織のデタの最大80%が非構造化デタであるにもかかわらず,従来のデータウェアハウスでは高度に構造化されたクリーンなデータしか格納できません。非構造化デタを使用してaiを活用したいと考える組織は,他のルに目を向ける必要があります。
  • Aiや機械学習のサポ,ト:データウェアハウスは,履歴レポート,BI,クエリなどの一般的なDWHワークロードのために設計,最適化されており,機械学習ワークロードをサポートするために設計されていません。
  • SQLのみをサポト:データウェアハウスでは,アプリ開発,データサイエンス,機械学習で利用されるPythonやRをサポートしません。
  • 重複デ,タ:多くの企業では,データレイクに加えて,データウェアハウス,サブジェクトエリアまたは(部門)データマートを使用しています。その結果,デ,タの重複や冗長なetlが発生し,信頼できるソ,スが一意に定まりません。
  • 同期が困難:データレイクとデータウェアハウスの間でデータを同期させる必要があるため,複雑さと脆弱性が増大し,管理するのが難しくなります。デ,タドリフトは,一貫性のないレポ,ト作成や誤った分析の原因となります。
  • クロズドな独自フォマットによるベンダロックンの増加:多くの企業のデータウェアハウスでは,オープンソースやオープンスタンダードに基づくフォーマットではなく,独自のデータフォーマットを使用しています。そのため,ベンダーロックインが進み,他のツールでのデータ分析が困難または不可能になり,データの移行も難しくなります。
  • 高価:商用デ,タウェアハウスでは,デ,タの保存と分析に対して課金されます。そのため,ストレ,ジとコンピュ,ティングのコストは依然として密接に関係しています。レイクハウスでは,コンピューティングとストレージを分離し,必要に応じてどちらかを独立して拡張できます。

レ@ @クハウスによる課題解決

レ@ @クハウスによる課題解決

レ▪▪クハウスア▪▪キテクチャは、デ、タレ、クとデ、タウェアハウスの両方の利点を最大限に活かし、上記の課題を解決しています。数据库のオ、プンレ、クハウスア、キテクチャの真価は、こらからご覧ください。

デ,タウェアハウスのためのDatabricksレ,etc,クハウス

数据库デタレクハウスのプラットフォムアキテクチャ

レクハウスを効果的に構築するために,企業が注目しているのが,オプンソスの三角洲湖です。三角洲湖は,データレイクとデータウェアハウスの両方の利点を兼ね備えた,オープンフォーマットのデータ管理およびガバナンスレイヤーです。三角洲湖を使用した砖のレイクハウスプラットフォームは,次のことを実現しています。

  • デタレクの経済性で,dwhパフォマンスの公式記録を更新。
  • SQL処理。
  • 印度生物技术部,画面、PowerBI Fivetranなどの最新のデータスタックとシームレスに統合し,インプレースでのデータインジェスト,クエリ,変換を実行。
  • ansi SQLのサポートにより,組織内の全てのデータユーザーにクラス最高のSQL開発体験を提供。
  • データリネージ,テーブルおよび行レベルのタグ,ロールベースのアクセスコントロールなど,きめ細かなガバナンス。

额外的资源

回到术语表