데이터레이크하우스

回到术语表

데이터레이크하우스란무엇입니까?

데이터레이크하우스는데이터레이크가가지고있는유연성,비용효율성,그리고대용량지원기능에더해,데이터웨어하우스의데이터관리기능과酸트랜잭션을통합한새로운형태의오픈데이터관리아키텍처로,모든데이터를대상으로비즈니스인텔리전스(BI)와머신러닝(ML)을지원합니다。

데이터레이크하우스:단순함，유연함그리고저렴한비용

데이터레이크하우스는새로운오픈시스템디자입니다。데이터웨어하우스와비슷한데이터구조와데이터관리기능을구현하되,데이터레이크에쓰이는저가스토리지상에직접구현하였습니다。이두가지를하나로병합함으로써데이터팀의작업속도가빨라지는데,이는여러시스템에액세스하지않고도데이터를사용할수있기때문입니다。또한데이터레이크하우스를사용하면팀원들이가장완전한버전의최신데이터를이용하여데이터사이언스,머신러닝과비즈니스분석프로젝트를수행할수있습니다。 데이터웨어하우스부터데이터레이크와데이터레이크하우스까지，데이터스토리지발전사

데이터레이크하우스를가능하게하는주소기술

데이터레이크하우스를가능하게한기술적발전이몇가지있습니다。

데이터레이크용메타데이터계층
데이터레이크에서고성능SQL실행이가능한새로운쿼리엔진디자表
데이터사이언스및머신러닝툴에최적화된액세스등입니다。

메타데이터계층도오픈소스三角洲湖와마찬가지로오픈파일형식을기반으로하며(예:拼花파일)어느파일이여러테이블버전중어디에속하는지추적하여酸규정준수트랜잭션과같은강력한관리기능을제공합니다。메타데이터계층을사용하면데이터레이크하우스에공통으로제공되는다른기능도지원됩니다。스트리밍I / O지원(卡夫卡와같은메시지버스가필요없어짐),기존테이블버전으로의시간이동,스키마적용과변화및데이터검증등이대표적인예입니다。성능은데이터레이크하우스가최근비즈니스에서사용되는대세데이터아키텍처로자리잡은중대한요인입니다。2데이터웨어하우스가계층(双层)아키텍처에존재하는주된원인중하나이기도합니다。저가의개체스토리지를사용하는데이터레이크의경우이전에액세스속도가느렸지만,새로운쿼리엔진디자인덕분에고성능SQL분석을지원하게되었습니다。이와같은최적화에는RAM / SSD에서의핫데이터캐싱(더효율적인형식으로트랜스코딩할가능성이큼),클러스터에서공동액세스되는데이터에맞춘데이터레이아웃최적,화통계와인덱스등의보조적데이터구조,그리고최신형CPU에서의벡터화된실행등이포함됩니다。데이터레이크는이와같은여러기술을조합하여TPC-DS벤치마크에따른다른대중적인데이터웨어하우스에비견할만큼대규모数据集에우수한성능을달성합니다。데이터레이크하우스에서사용하는오픈데이터형식(예:Parquet)을이용하면데이터사이언티스트와머신러닝엔지니어가레이크하우스에저장된데이터에손쉽게액세스할수있습니다。熊猫,TensorFlow, PyTorch등과같이이미铺와兽人등의소스에액세스를확보한DS /毫升에코시스템에서보편적으로쓰이는툴을사용하면됩니다。火花DataFrames의경우이러한오픈형식에선언적인터페이스까지제공하여추가적인I / O최적화를지원하기도합니다。이외에감사기록이나시간이동과같은데이터레이크하우스의다른여러기능도머신러닝의재현성향상에도움이됩니다。데이터레이크하우스로이동하는추세의기저가되어준여러가지기술발전에대해더자세히알아보려면CIDR논문레이크하우스:데이터웨어하우징과고급분석을하나로통합한차세대오픈플랫폼과또다른논문三角洲湖:클라우드개체스토어기반고성능ACID테이블스토리지를참조하시기바랍니다。

데이터아키텍처의역사

데이터웨어하우스배경지식

데이터웨어하우스는의사결정지원과비즈니스인텔리전스애플리케이션분야에서오랫동안존재해왔지만,비구조적데이터,반구조적데이터및다양성,속도와볼륨이모두높은수준인데이터를취급하기에는적합하지않거나비용이너무비쌌습니다。

데이터레이크의출현

그러다데이터레이크가출현하면데이터사이언스와머신러닝용도로저가스토리지에서다양한형식의원시데이터를처리할수있게되었는데,다만여기에는데이터웨어하우스분야의중대한기능이빠져있었습니다。데이터레이크는트랜잭션을지원하지않고,데이터품질을적용하지않으며일관/성격리가부족해추가(附加)와읽기,배치와스트리밍작업을혼합하기란불가능에가까웠습니다。

보편적v2계층(Two-Tier)데이터아키텍처

데이터팀에서는이두가지시스템을끊임없이짜집고봉합하여두시스템양쪽모두의데이터에BI와毫升을지원하고자애썼으며,그결과중복데이터,인프라추가비용,보안문제점,중대한운영비용등이발생하게되었습니다。2계층(双层)데이터아키텍처에서는데이터를운영데이터베이스에서데이터레이크로ETL합니다。이레이크에기업전체에서가져온데이터를저가对象存储에저장하고,보편적인머신러닝툴과호환회는형식으로저장하지만구성이나유지상태는좋지않은경우가많습니다。다음으로,중요한업무용데이터의작은조각을다시ETL하여데이터웨어하우스에로드해비즈니스인텔리전스와데이터분석에씁니다。이런2계층(双层)아키텍처는이처럼ETL단계를여러번거치기때문에정기적으로유지해주어야하고데이터가부실해질때가많습니다。이는Kaggle이나Fivetran에서최근에실시한설문조사에따르면데이터애널리스트와데이터사이언티스트가주목하는공통의중대한우려사항이라고합니다。2계층(两层)아키텍처의보편적ccle문제점에관해자세히알아보세。

额外的资源

回到术语表