수천개의소스에서
데이터포트처리
새로운약물을발견하여개발하고상용화에이르기까지는10 ~ 15년이상이걸리고研发에50억달러이상을투자하더라도5%도안되는약물만이시장에출시된다는것은잘알려진사실입니다。阿斯利康는이런혁신속도로는부족하다는것을깨닫고약물발견의성공률을높이고임상시험을안전히관리할수있는데이터기반전략으로바꾸었습니다。
阿斯利康하지만의연구자들은활용가능한모든과학적정보에따라신속하게결정을내리기어려웠습니다。데이터가회사내에산재하는소스와외부공개데이터베이스에저장되어있었기때문입니다。게다가새로운연구결과가빠른속도로공개되고있기때문에과학적발견속도를따라가기란사실상불가능했습니다。
프라복잡성:유연하지만지속적유지관리가필하지않은프라를찾아야합니다。
곳곳에산재된방대한데이터:내부데이터소스,기술문서등의공개소스,공개데이터베이스등을비롯한수백개의데이터소스에서수백만개의데이터포인트를수집하여파싱,분석해야합니다。
오픈소스Python노트북으로데이터사이언스활동을지원할수있을만큼운영을확장하기어려웠습니다。
阿斯利康는砖레이크하우스플랫폼을사용하여생물학적인사이트및정보의지식그래프를구축합니다。阿斯利康의모든연구자는이그래프를기반으로하는추천시스템을사용하여모든질병에대한새로운타겟가설을생성하고,그에따른모든데이터를활용할수있습니다。
완전관리형플랫폼:클러스터관리및대규모분석리소스의유지관리를단순화했습니다。
적절한성능의확장형데이터파이프라인구축:방대한과학문헌라이브러리및데이터소스에서NLP를활용하여다운스트림분석을실행합니다。
머신러닝혁신가속화:데이터사이언티스트는더욱현명한결정을내리는데도움이되는순위예측을제공하는모델을구축,훈련할수있습니다。
阿斯利康는砖로이동한후,수천개의소스에서수백만개의데이터포인트를더욱손쉽게처리할수있게되었습니다。확장의장애물을제거한덕분에의미있는인사이트를훨씬안정적으로추출하여,사람들이더욱건강한삶을영위할수있는신약을개발할수있습니다。
提高运营效率:集群管理和集群自动伸缩等功能改进了从数据摄取到管理整个机器学习生命周期的操作。
更好的数据科学生产力:支持多种语言的共享笔记本环境提高了团队工作效率。
更快的time-to-insight:由Databricks提供支持的推荐引擎提高了他们做出更明智假设的能力,使他们能够加快新药物和药物的上市时间。