데이터볼트란무엇입니까?

데이터볼트는엔터프라이즈급분석을위한데이터웨어하우스를구축하는데사용되는데이터모델링설계패턴입니다。데이터볼트는허브링크위성,이렇게세가지유형의엔터티가있습니다。

허브는핵심비즈니스개념을대하며,링크는허브간의관계를대하고,위성은허브와허브간관계에대한정보를저장합니다。

데이터볼트는레이크하우스패러다임을채택하고있는조직에게매우적합한데이터모델입니다。

데이터볼트허브,링크,위성사이의관계를보여주는다이어그램

데이터볼트모델링:허브,링크,위성

  • 허브- - - - - -각허브는고객ID /제품이름/차량식별번호(VIN)와같은핵심비즈니스개념을나타냅니다。사용자는비즈니스키를사용하여허브에대한정보를얻으며비즈니스키에는비즈니스개념ID및시퀀스ID,로드날짜그리고기타메타데이터정보가조합되어있을수있습니다。
  • 링크-링크는허브엔터티간의관계를나타냅니다。
  • 위성-위성은누락된핵심비즈니스개념설명정보에대한추가정보를제공합니다。위성은허브와허브사이의관계에속하는정보를저장합니다。

추가로기억해야할사항이더있습니다。

  • 위성은다른위성과직접적으로연결될수없습니다。
  • 허브또는링크는하나이상의위성을가질수있습니다。

데이터볼트의장점

  • 민첩함
  • 구조화되어있지만리팩터링을위한유연성을제공
  • 최대pb단위규모까지확장가능
  • Etl코드생성을지원하는패턴을사용
  • 익숙한아키텍처:데이터레이어,etl,스타스키마

데이터볼트는애자일방법론과기술을기반이므로급변하는비즈니스요구사항에맞게조정할수있습니다。데이터볼트방법론을사용하면얻을수있는주된이점중하나는모델이변경될경우ETL작업에리팩터링이더적게필요하다는것입니다。

레이크하우스레이어별모델링기법

이러한개념들을염두에두고데이터볼트가가공되지않은데이터상태에서분석준비가완료된정제상태로변경된브론즈,실버,골드데이터레이어에어떻게적용되는지살펴보겠습니다。이멀티홉(多跳)아키텍처에서는가공되지않은데이터가최소한으로변환된상태에서소스시스템과근접한데이터구조로브론즈레이어에저장됩니다。데이터볼트방법론은실버레이어에적용할수있으며실버레이어에서는데이터가허브,링크,위성으로변환됩니다。

골드레이어에서는여러데이터마트/데이터웨어하우스가차원모델링/金博방법론에따라구축될수있습니다。앞서논의한대로,골드레이어는보고용이기때문에조인의개수가적고더욱비정규화된읽기최적화데이터모델을사용합니다。일반적으로데이터사이언티스트가피처엔지니어링을위한알고리즘을공급하기위해비정규화를원할경우,골드레이어의테이블은완전히비정규화될수있습니다。

데이터볼트모델이실버레이어에서사용되면허브가키관리(대체키/자연키)를용이하게해주어데이터마트및데이터웨어하우스에대한ETL을수행하는데필요한변경사항을간소화하고대폭줄일수있습니다。위성은모든속성을갖고있으므로차원로딩을용이하게하며,링크는모든관계를갖고있으므로팩트테이블로딩을상당히간편하게만듭니다。

리소스

    回到术语表

    了解是什么驱动了莱克豪斯模式。

    现在注册