데이터웨어하우스

回到术语表

데이터웨어하우스란무엇입니까?

데이터웨어하우스는여러소스의현재및과거데이터를비즈니스에서쉽게인사이트와보고서를얻을수있도록저장하는데이터관리시스템입니다。일반적으로데이터웨어하우스는비즈니스인텔리전스(BI),보고및데이터분석에사용합니다。

데이터웨어하우스를사용하면운영시스템(예:POS시스템,재고관리시스템,마케팅/영업데이터베이스)에서업로드된비즈니스데이터를빠르고쉽게분석할수있습니다。데이터는운영데이터스토어를통과할수있고,데이터웨어하우스에서보고목적으로사용하기전에데이터정리를거쳐데이터품질을보장해야합니다。

데이터웨어하우스의용도는무엇가?

데이터웨어하우스는BI,보고,데이터분석분야에서운영데이터베이스로부터데이터를추출하고요약하는데사용합니다。트랜잭션데이터베이스에서직접얻기어려운정보는데이터웨어하우스를통해획득할수있습니다。예를들어경영진이영업사원한사람이각제품카테고리에서매월발생시킨총수익을알고싶어합니다。트랜잭션데이터베이스에서이데이터를캡처하지못하더라도데이터웨어하우스에서는가능합니다。

데이터웨어하우스의etl및elt

ETL(提取,转换,加载)提取,加载,转换는모두데이터를변환하는방법입니다。데이터엔지니어는ETL(추출——변환-로드)을사용하여다른데이터소스에서데이터를추출하고,데이터웨어하우스로옮겨간편하게정리하고구조화하는경우가많습니다。반면,英语教学은먼저원래의형식으로데이터웨어하우스에데이터를로드하고처리와동시에정리와구조화를실행합니다。

일반적으로ETL은엔터프라이즈데이터엔지니어링팀에서모아회사전체의데이터정리및순응규칙을적용합니다。Elt은변환단계가나중에있습니다。일반적으로프로젝트/비즈니스팀에서셀프서비스분석을지원하기에좋습니다。

트랜잭션처리(OLTP)与분석처리(OLAP)

온라트랜잭션처리(oltp)시스템은데이터베이스에서트랜잭션데이터를캡처하고관리합니다。트랜잭션에는여러필드나컬럼으로구성된개별데이터베이스기록이포함됩니다。OLTP데이터베이스는온라인뱅킹,ERP시스템,재고관리등의분야에서주로사용하며,거의즉시처리되는행데이터를빠르게업데이트합니다。

온라분석처리(olap)시스템은OLTP데이터베이스및다른소스에서집계한대량의과거데이터에복잡한쿼리를적용함으로써,데이터마이닝,분석,비즈니스인텔리전스프로젝트에활용합니다。데이터웨어하우스는olap시스템입니다。OLAP데이터베이스와데이터웨어하우스를사용하는애널리스트와의사결정자는맞춤보고도구를사용하여데이터를정보와행동으로바꿉니다。OLAP데이터베이스에서쿼리에실패하더라도고객을위한거래처리가중단되거나지연되지않지만,비즈니스인텔리전스인사이트를지연하거나정확도에영향을미칠수있습니다。

데이터웨어하우스의장점

  • 여러소스에서얻은데이터통합.사용자가수십,수백가지개별시스템에연결할필요없이모든데이터의단일액세스지점역할을합니다。
  • 과거텔리전스。데이터웨어하우스는여러소스에서데이터를통합하여과거트렌드를보여줍니다。
  • 트랜잭션데이터베이스에서별도로분석을처리하여두시스템의성능을향상합니다。
  • 데이터품질,일관성과정확도。데이터웨어하우스는이름지정규칙의일관성,다양한제품유형코드,언어,통화등의데이터에관한표준의미체계를사용합니다。

데이터웨어하우스의단점

  • 이미지,텍스트,IoT데이터,메시지프레임워크(HL7, JSON, XML)등의비구조적데이터를지원하지않습니다.기존데이터웨어하우스는깨끗하고매우구조화된데이터만저장할수있습니다。하지만Gartner에서는조직내데이터의최대80%가비구조적데이터라고추정합니다。비구조적데이터에ai를활용하려는조직은다른방법을찾아야합니다。
  • Ai와머신러닝을지원하지않습니다。데이터웨어하우스는일반적인DWH워크로드(예:과거보고,BI,쿼리)용으로설계및최적화되었습니다。머신러닝워크로드를지원하도록설계되지도않았고,절대그러한목적으로사용할수없습니다。
  • SQL전용-일반적으로DWH는Python이나R에대한지원을제공하지않습니다。이들언어는앱개발자,데이터사이언티스트,머신러닝엔지니어들이주로사용하는언어입니다。
  • 중복데이터——데이터레이크뿐만아니라,대부분엔터프라이즈데이터웨어하우스와주제분야(또는부서)데이터마트도중복데이터,대량의중복ETL이많이발생하고단일한정보출처가없습니다。
  • 동기화가어려움——데이터레이크와데이터웨어하우스사이에동기화된데이터의사본두개를유지하려면복잡성과취약성이커져서관리하기어렵습니다。데이터드리프트로해일관적이지못한보고와잘못된분석이발생할수있습니다。
  • 폐쇄적독점적형식으로한공급업체종속효과——대부분엔터프라이즈데이터웨어하우스는오픈소스와개방적표준기반형식이아닌자체적인데이터형식을사용합니다。이는공급업체종속효과를키워서,다른도구로데이터를분석하기어렵거나불가능하게되고,데이터를마이그레이션하기도어렵게됩니다。
  • 값비싼비용-상용데이터웨어하우스는데이터저장과분석에비용을부과합니다。그러므로스토리지와컴퓨팅비용이여전히긴밀하게결합되어있습니다。레이크하우스로컴퓨팅과스토리지를분리하면필요에따라하나씩독립적으로확장할수있습니다。

레이크하우스에서이러한단점을해결하는방법

레이크하우스에서이러한단점을해결하는방법

레이크하우스아키텍처는이런단점을해결하고특히데이터레이크와데이터웨어하우스의장점만을제공합니다。Databricks의오픈레이크하우스아키텍처의가치를확护栏护栏해보세护栏护栏

데이터웨어하우징을위한数据库레이크하우스

数据库레이크하우스플랫폼아키텍처

기업에서는레이크하우스를무사히구축하기위해三角洲湖에주목했습니다。三角洲湖는데이터레이크와데이터웨어하우스양쪽의가장좋은점만합친오픈소스,오픈형식데이터관리및거버넌스계층입니다。砖레이크하우스플랫폼은三角洲湖를사용하여다음과같은기능을제공합니다。

  • 데이터레이크의경제적护栏护栏가격으로세계최고의데이터웨어하우스성능을활용해보세护栏护栏。
  • 프라관리가필없는서버리스SQL컴퓨팅을제공합니다。
  • 현대적데이터스택(예:印度生物技术部、表、PowerBI Fivetran)과의매끄러운통합으로데이터수집,쿼리,변환을제공합니다。
  • ansi SQL지원으로조직전체의모든데이터실무자에게최고의SQL개발경험을제공합니다。
  • 데이터리니지,테이블/행수준태그,역할기반액세스제어등으로세분화된거버넌스를제공합니다。

额外的资源

回到术语表