추출,변환,로드(etl)

回到术语表

Delta Live테이블
三角洲生活表(DLT)을사용하면三角洲湖에서고품질데이터를제공하는안정적인데이터파이프라인을손쉽게구축하고관리할수있습니다。

Etl이란무엇입니까?

기업에서다루는데이터,데이터소스와데이터유형의양이늘어나면서분석,데이터사이언스와머신러닝이니셔티브에그러한데이터를활용하여비즈니스인사이트성장도유도하는것도중요성이점점커지게되었습니다。이러한이니셔티브에우선순위를부여하면데이터엔지니어링팀에부담이가중되는데,지저분한원시데이터를깔끔하게정리된,새롭고안정적인데이터로처리하는중대한단계를거친다음에만이러한이니셔티브를추진할수있기때문입니다。ETL은추출,변환과로드를뜻하며데이터엔지니어가다양한소스로부터데이터를추출,데이터를사용가능하고믿을수있는리소스로변환,그데이터를시스템에로드하여최종사용자가액세스하고다운스트림방식으로사용하여비즈니스문제를해결할수있게처리하는과정을말합니다。

Etl은어떻게작용합니까?

추출

이프로세스의첫단계는대상소스에서데이터를추출하는것인데,소스는대개비즈니스시스템,API,센서데이터,마케팅툴과트랜잭션데이터베이스등여러가지종류로이루어져있습니다。보시다시피이런데이터유형중몇가지는널리사용되는시스템의구조적출력이될가능성이크지만,나머지는반구조적JSON서버로그입니다。추출을수행하는데는여러가지방법이있습니다。세가지데이터추출방식:

  1. 부분추출——데이터를얻는가장쉬운방법은레코드가변경되면소스시스템이알려주는것입니다。
  2. (업부분추출데이트알림포함)-시스템에따라업데이트가발생해도알림을제공할수없는경우도있습니다。다만변경된레코드를지목하여그러한레코드의추출을제공할수는있습니다。
  3. 전체추출-어느데이터가변경되었는지전혀파악할수없는시스템도있습니다。이경우,시스템에서데이터를추출할가능성이있는유일한방식은전체추출뿐입니다。이방식을취하면마지막추출의사본을같은형식으로추출하여변경사항을확인해야합니다。

변환

두번째단계로는소스에서추출된원시데이터를변환하여다양한애플리케이션에서사용할수있는형식으로지정합니다。이단계에서는데이터를정리,매핑,변환(대개특정스키마로)하여운영요구사항에부합하도록합니다。이프로세스에는데이터의품질과무결성을보장하기위한몇가지유형이수반됩니다。보통은데이터를대상데이터소스에바로로드하는것이아니라,준비(分期)데이터베이스에업로드하는것이보편적입니다。이단계를거치면혹시나무언가계획에서어긋난다하더라도금세롤백할수있습니다。이단계를진행하면서규정준수목적으로감사보고서를생성할수도있고,각종데이터문제점을진단하여복구할수도있습니다。

로드

마지막으로,로드기능은변환한데이터를준비영역에서대상데이터베이스에쓰는프로세스를말하며,이데이터베이스는기존에존재하던것이어도되고아니어도됩니다。이프로세스는애플리케이션요구사항에따라아주간단할수도있고복잡할수도있습니다。이러한단계는각각etl툴을써서,아니면맞춤형코드를써서수행하면됩니다。

Etl파이프라이란무엇입니까?

ETL파이프라인(또는데이터파이프라인)은ETL프로세스가발생하는메커니즘을말합니다。데이터파이프라인이란자체적인데이터스토리지및처리방식이있는한시스템에서다른시스템으로데이터를옮기기위한일련의툴과작업을말하는데,대상시스템은원본시스템과는데이터저장과관리방식이다를수도있습니다。또한파이프라인을사용하면여러가지서로다른소스에서자동으로정보를가져온다음변환하여단하나의고성능데이터스토리지에통합할수있습니다。

Etl에수반되는문제점

ETL이필수적인것은사실이지만,데이터소스와유형이이렇게기하급수적으로늘어나는바람에안정적인데이터파이프라인을구축,유지하는것이데이터엔지니어링계에서가장어려운일중하나가되었습니다。데이터정성을보장하는파이프라을구축하기란처음부터어렵고오래걸리는일입니다。데이터파이프라marketing은복잡한코드를써서구축하며,재사용가능성에도한계가있습니다。한가지환경에서구축한파이프라은다른환경에서는쓸수없습니다。기본코드가아주유사하다해도마찬가지입니다。따라서데이터엔지니어는매번이미있는것을다시다새로만드는업무를맡게되어병목현상에시달립니다。파이프라인개발외에점점복잡해지는파이프라인아키텍처에서데이터품질을관리하는것도어렵습니다。때때로불량한데이터가파이프라인을통과해이동하는것을탐지하지못해데이터세트전체의가치가저하되는일이있습니다。데이터엔지니어는품질을유지하고안정적인인사이트를확보하기위해광범위한맞춤형코드를써서파이프라인의모든단계마다각각품질검사와검증을구현해야합니다。마지막으로,파이프라인의규모가커지고복잡해지면서기업에서이를관리하기위한운영부담도늘어나데이터안정성을유지하기가엄청나게어려워졌습니다。 데이터 처리 인프라를 설치, 확장, 다시 시작, 업데이트해야 하는데 이 모든 것이 결국 시간과 비용으로 직결됩니다. 파이프라인 오류가 발생하면 파악하기도 힘들뿐더러 해결하기는 더 어렵습니다. 가시성과 툴링이 부족하기 때문입니다. 이 모든 문제점이 있는데도 불구하고, 안정적인 ETL은 인사이트 중심 기업을 꿈꾸는 사업체라면 어디에나 절대적으로 중대한 프로세스입니다. 데이터 안정성 표준을 유지해주는 ETL 툴이 없다면 여러 부서 팀에서 믿을 만한 지표나 보고서도 없이 맹목적으로 의사 결정을 내려야 하게 됩니다. 데이터 엔지니어에게는 지속적인 확장을 위해 ETL을 간소화, 민주화(democratize)해줄 툴이 있어야 합니다. 이로써 ETL 수명 주기를 간편하게 만들고, 데이터 팀에서 자체적으로 데이터 파이프라인을 구축, 활용하여 더 빨리 인사이트를 얻을 수 있습니다.

Delta Lake에서정적ETL자동화

Delta Live Table(DLT)을사용하면三角洲湖에서고품질데이터를제공하는안정적인데이터파이프라인을손쉽게구축하고관리할수있습니다。DLT를이용하면데이터엔지니어링팀에서선언적파이프라인개발,자동테스트및모니터링과복구를위한심층적인가시성을얻어ETL개발과관리를간소화할수있습니다。

额外的资源

回到术语表