고객 사례

Ai를활용한새로운치료법발견

600年배

전체데이터세트에대한
쿼리런타임개선

10배

데이터파이프라가속화로
더많은연구지원

배경이미지

工业:生命科学

솔루션:유전관련연구

플랫폼사용사례:三角洲湖데이터사이언스머신 러닝ETL

클라우드:AWS

“砖플랫폼은통합약물개발프로세스에있는물리학자,컴퓨팅생물학자를비롯한모든사람이모든데이터에쉽게액세스하여분석하고,인사이트를추출하도록지원합니다。”

-Jeffrey Reid, Regeneron博士유전체정보학책임자

Regeneron은유전체데이터를활용하여도움이필요한환자에게새로운약물을제공하는것을사명으로삼습니다。그러나이데이터를사람들의삶을바꿀수있는새로운발견과표적화된치료법으로바꾸는일은그어느때보다도어려움이큽니다。데이터팀은처리성능이낮고확장성에제한이있어서페타바이트규모의유전체및임상데이터를분석하기에는역부족이었습니다。砖는모든유전체데이터세트를신속히분석하고,새로운치료방법을찾는데걸리는시간을단축할수있도록지원합니다。

분산된유전체데이터로해머신러닝사용이불가

현재약물개발파이프라인에있는전체실험약물95%의이상이실패할것으로예상됩니다。Regeneron遗传学中心는이를개선하기위해40만명이상의전자건강기록과서열이정리된진유전체를결합하여세계에서가장포괄적인유전체데이터베이스를구축했습니다。그러나이방대한데이터세트를분석하는데는여러가지어려움이있었습니다。

  • 유전체및임상데이터가매우분산되어있어서10 tb에달하는데이터세트로모델을분석하고훈련하기가매우어려웠습니다。
  • 기존아키텍처는800억개이상의데이터포인트분석을지원하기어렵고,비용이많이들어갑니다。
  • 데이터팀에서는분석에사용하기위해데이터etl을시도하는데만며칠이걸렸습니다。

Databricks로lm프라및대규모ML단순화

砖는AWS에서실행되는플랫폼을Regeneron에게제공하여데이터사이언스의생산성을향상함으로써,운영을단순화하고약물발견기간을단축하도록지원합니다。Regeneron은이전에는불가능했던새로운방식으로데이터를분석할수있게되었습니다。

  • 자동클러스터관리:클러스터프로비저닝을단순화하여,DevOps작업에걸리는시간을단축함으로써엔지니어와데이터사이언티스트는더욱중요한작업에더많은시간을할애할수있습니다。
  • 인터랙티브업무공간:데이터사이언티스트들이데이터와인사이트를공유하여,모든약물개발수명주기에서투명성과협업이가능한환경을조성합니다。
  • 적절한성능을제공하는기火花반파이프라인:수십테라바이트에달하는EHR + DNAseq데이터를처리하는데사용하는ETL파이프라인의안정성과속도를개선했습니다。

새로운약물및치료법을신속히발견

Regeneron연구팀은砖를사용한이후로분석을지원하기위한DevOps작업설정과인프라관리에과도한리소스를낭비할필요가사라졌습니다。이제생물정보연구팀,데이터사이언티스트,컴퓨팅생물학자들은새로운치료법개발등의더욱중요한작업에더많은시간을투자할수있습니다。

  • 약물타겟식별가속화:데이터사이언티스트와컴퓨팅생물학자가모든데이터세트에쿼리를실행하는시간30분이에서3분으로단축되어,600배나속도가향상되었습니다!
  • 생산성향상:협업개선,DevOps자동화및파이프라인가속화(ETL기간이3주에서2일로단축)로다양한연구를지원할수있게되었습니다。