デタレクハウス

数据库無料トラ电子词典アル

デタレクハウスとは?

デタレクハウスとは,デタレクの柔軟性,経済性,スケーラビリティとデータウェアハウスのデータ管理や酸トランザクションの機能を取り入れたオープンで新たなデータ管理アーキテクチャで,あらゆるデータにおけるビジネスインテリジェンス(BI)と機械学習(ML)を可能にします。

シンプル,柔軟で低コストなデ,タレ,クハウス

データレイクハウスは新たなオープンシステムデザインによって構築されており,データウェアハウスと類似のデータ構造とデータ管理機能を,データレイクに使用される低コストのストレージに直接実装しています。データレイクとデータウェアハウスを単一のシステムに統合することで,データ部門が複数のシステムにアクセスする必要がなくなり,データ処理が迅速化します。さらに,データレイクハウスは,データサイエンス,機械学習,ビジネスアナリティクスのプロジェクトに利用できる,有用で最新のデータを組織に提供します。デタウェアハウスからデタレク,レクハウスへ,デタストレジの革新

デタレクハウスを実現する主要テクノロジ

次のような主要な技術の向上により,デ,タレ,クハウスは実現しました。

  • デタレクのためのメタデタレヤ
  • デタレクで高性能なSQL実行を可能にする新たなクエリエンジン設計
  • デタサエンスと機械学習ルへの最適化されたアクセス

メタデタレヤは,オ,プンソ,スの三角洲湖のように,拼花ファiphone7ルなどのオープンなファイル形式上に配置され,異なるテーブルバージョンに含まれるファイルを追跡して,酸準拠のトランザクションなどの豊富な管理機能を提供します。メタデタレヤにより、ストリーミングの I/O サポート(Kafka のようなメッセージパスは不要)、古いテーブルバージョンへのタイムトラベル、スキーマの適用と展開、データの検証など、データレイクハウスでの一般的な機能が有効になります。性能は,データウェアハウスが2層アーキテクチャで存在する重要な理由の1つであり,データレイクハウスを企業の主要なデータアーキテクチャにするための鍵です。低コストのオブジェクトストアを使用するデータレイクでは,これまでアクセスに時間がかかっていましたが,レイクハウスは新たなクエリエンジンの設計により,高性能なSQL分析が可能になります。これらの最適化には,RAM / SSDでのホットデータのキャッシュ(より効率的な形式にトランスコードされる可能性があります),クラスタの同時アクセスデータのデータレイアウトの最適化,統計やインデックスなどの補助的なデータ構造,最新CPUでのベクトル化された実行が含まれます。データレイクハウスは,これらの技術が統合されることにより,一般的なデータウェアハウスに匹敵する性能(TPC-DS基準)を実現します。デタレクハウスで使用されるオプンなデタ形式(拼花など)により,レ▪▪クハウスのデ▪▪タへのアクセスが容易になります。データサイエンティストや機械学習エンジニアは,拼花や兽人などのソースにすでにアクセスがある大熊猫,TensorFlow, PyTorch,その他のDS/MLエコシステムにおける一般的なルを使用できます。火花DataFramesは,これらのオープンフォーマットに対応した宣言型のインターフェイスを提供し,さらなるI / Oの最適化を可能にします。その他,デタレクハウスには,監査履歴やタムトラブルなどの機械学習の再現性を高める機能も備わっています。デタレクハウスへの移行を支えるテクノロジーの進化については、CIDR レポート“レクハウス:デタウェアハウスと高度な分析を統合する新世代のオプンプラットフォム”,またはリサチペパ“三角洲湖︓クラウドオブジェクトストアによる高性能ACIDテ,ブルストレ,ジ”で詳細をお読みいただけます。

デ,タア,キテクチャの歴史

デ,タウェアハウスの背景

データウェアハウスはこれまで,意思決定支援やBI(ビジネスインテリジェンス)アプリケーションにおいて広く利用されてきており,これには長い歴史があります。しかし,データウェアハウスには,構造化データの処理には適しているが,非構造化・半構造化データの処理には適していないという問題があり,高速で多様なデータの大規模処理やコスト効率に課題がありました。

デタレクの誕生

そこで,データサイエンスや機械学習用の安価なストレージで多様な形式の生データに対応するデータレイクが構築されました。デタレクはデータの格納には適していましたが、重要な機能が欠けており、トランザクションのサポートやデータ品質の保証がありません。一貫性と分離性の欠如により、アペンドと読み取り、バッチとストリーミングジョブを混在させることはほぼ不可能です。

一般的な2層デタアキテクチャ

そのため,データ部門はデータレイクとデータウェアハウスのデータでBIや毫升を実行可能にするために,これらのシステムをつなぎ合わせる必要がありました。しかしその結果,重複データ,余分なインフラコスト,セキュリティ上の課題,大きな運用コストが発生します。2層データアーキテクチャでは,まず,データは運用データベースからデータレイクにETLされます。このデタレクは,企業のデタを低コストのオブジェクトストレジに格納します。データは一般的な機械学習ツールと互換性のある形式で保存されますが,適切に整理,維持されていない場合がほとんどです。次に,重要なビジネスデータの小さなセグメントでETLをもう一度実行し,BIやデータ分析のためにデータウェアハウスにロードします。2層アーキテクチャでは,ETLステップが複数あるため,定期的なメンテナンスを必要とし,データが古くて使えない場合もあります。データアナリストとデータサイエンティストはこの問題に大きな懸念を抱いていることが,KaggleとFivetranによる最近の調査でわかっています。2層ア,キテクチャの問題点の詳細は,こらのブログで解説しています。

额外的资源

回到术语表