新薬開発の成功率は低く,バイオ医薬品を含む現在医薬品開発パイプラインにある全実験薬の95%以上が失敗に終わると予測されています。リジェネロン遺伝学センターでは,40多万人以上のエクソーム解析データ(エキソン配列データ)と臨床データを含む電子健康記録(EHR)をペアにしたデータベースを構築し,改善に挑みました。このデタベスは,現在最も包括的な遺伝子デタベスの1となっています。しかし,リジェネロン社は,この膨大なデ,タセットの分析において,次のような課題を抱えていました。
遺伝子解析データや臨床データが広く分散していたため,10 TBにおよぶデータセット全体を分析してモデルをトレーニングすることは非常に困難だった。
従来のアーキテクチャを拡張しても,800億以上のデータポイントの分析をサポートするのは困難で,コストも見合わなかった。
デ,タを分析に使用できるようにetl処理するだけで,デ,タ部門は何日もかかっていた。
リジェネロン社では,Amazon Webサービス(AWS)で実行する砖の統合データ分析プラットフォームの導入により,データサイエンスの生産効率を向上させ,運用をシンプルにし,バイオ医薬品創薬を加速させています。これにより,以前は不可能であった新しい方法でのデ,タ分析が可能に成りました。
クラスターの自動管理により,クラスターのプロビジョニングが簡素化され,DevOpsの作業に費やされていた時間が削減されるため,エンジニアとデータサイエンティストは価値の高いタスクにより多くの時間をかけることができるようになりました。
:データサイエンティストはデータと洞察を共有し,医薬品開発のライフサイクル全体において透明性が高く協力的な環境を構築できます。
Sparkによる高性能パ电子商城プラ电子商城ン:ETLパイプラインの信頼性とスピードが大幅に向上し,10 TBにおよぶEHRとDNAシーケンスのデータ処理が可能になった。
リジェネロン社では,砖の導入によって,分析をサポートするインフラの構築・維持のためのETL処理を含むDevOps作業の大幅な軽減に成功しました。その結果,バイオインフォマティクス,データサイエンス,計算生物学の各部門は,新しい薬や治療法の開発といったより高価値の業務に注力できるようになりました。
創薬標的同定の高速化:データサイエンティストや計算生物学者がデータセット全体に対して行うクエリの実行時間が600倍高速になった(30分から3秒に短縮)。
生産性の向上:コラボレーションの改善,DevOpsの自動化,パイプラインの高速化(ETLは3週間から2日に短縮)を実現し,より広範な研究をサポートできるようになった。