跳转到主要内容
公司博客上

深度学习在医学图像人口规模:按需网络研讨会和FAQ现在可用!

2019年8月13日, 公司博客上

分享这篇文章

6月26日,我们举办了一个研讨会深度学习在人口规模的医学图像与数据科学与工程团队的成员——从人类长寿公司(HLI),一个领导者在医学成像和基因组学。

在研讨会期间,HLI分享他们如何使用MRI图像,全基因组测序数据,和其他临床数据集健康核,一个个性化的健康检测和确定平台的风险pre-symptomatic痴呆等疾病。bob体育客户端下载这个平台的核心是使用深度学bob体育客户端下载习管道在大群MRI图像识别生物标志物的综合风险报告,让人们更好地管理自己的生命周期,因为它与退化性疾病有关。

AI成功的主要障碍

HLI面临的主要挑战之一是创建一个敏捷的机器学习环境。他们的团队非常杂乱的使用一系列孤立的数据和机器学习工具。这使得他们很难创建工作流协作,高效和可再生的——生产率放缓和他们的创新能力。

他们面临的另一个挑战是在管理他们的数据聚合和训练数据的验证。他们不仅努力过程tb的数据,通过各种杂乱的系统,但是他们有严格的HIPAA法规要求保护病人健康信息。

他们如何权力杠杆砖综合健康屏幕吗

讨论关键挑战后,HLI分享他们如何使用砖和开源技术像Apache的火花TM、Tensorflow MLflow构建一个综合影像数据库14000 +消除识别信息的个人和力量敏捷开发环境模型,训练,和部署。

砖是核心数据架构。数据存储在S3中,然后通过一个SQS消息传递系统输入数据砖,ETL批处理作业。成像数据然后消除识别信息和准备下游分析。

HLI团队分享他们如何发展核心逻辑在交互式集群以及砖砖IDE集成使他们轻松地调试代码在他们的管道。通过使用工作区CLI,他们可以很容易地复制/粘贴代码从他们的IDE成砖笔记本快速和简单的故障诊断和调试,然后轻松导出代码回他们的IDE。

接下来,他们展示了他们如何使用数据来训练机器学习模型预测健康得分。他们的机器学习的关键工作流程是确保高层之间的协作研究,数据科学与工程和模型再现性。MLflow开源框架管bob下载地址理端到端毫升生命周期,是这个过程的核心。

通过使用MLflow,数据科学团队HLI能够记录和版本等实验结果和参数——让他们轻松地分享和培训模式,并允许团队成员然后重用代码和模型。MLflow另一个很棒的特性是它的语言和环境无关,允许数据科学家使用编程环境的选择和执行自己的代码对远程数据砖集群。

最后,HLI团队详细的一些结果和影响砖有能力履行深度学习项目。具体地说,他们意识到以下好处:

  • 改善跨团队合作在一个统一的平台上bob体育客户端下载
  • 加速时间从想法到产品
  • 加速生物标志物识别,减少了时间评估模型
  • 改善工作流程统一的生物信息学和数据科学推动生产力
  • 更快的ETL管道和ETL开发时间短
  • 简化模型开发——MLflow和预先包装好的库使团队构建深度学习模型更快

现场演示和笔记本:深度学习转移识别

HLI的演讲后,我们举办了一个现场演示的深度学习转移模型识别砖。现在这些笔记本电脑供你上运行自己的:

网络研讨会问答

在研讨会结束后我们举行了问答。下面是问题和答案:

1)被存储在一个单独的数据存储的元数据的etl图像或只是被存储在另一个桶吗?。你用的数据存储和格式?

DICOM图像的元数据仍在S3是DICOM的一部分,但我们也存储元数据的一个子集信息在我们的数据目录查询图像需要研究。提供更快的性能,查询元数据的标准化的方式,为我们提供了一个额外的级别的控制谁有权访问的数据。研究人员将使用REST API来查询这些图像的数据目录。

有趣的知道也许是我们不存储每个DICOM文件的标签在我们的数据目录。而我们将它存储在一系列层面上,我们的研究人员所关心的图像系列,而不是一个单独的图像。

我们的数据存储后端是一个非关系数据库优化大数据查询。

2)图书馆/算法被用来de-identify DICOM图像吗?

我们主要使用pydicom。然而,我们也使用GDCM做一些减压的pydicom不能处理。

在算法方面,我们使用指数退下重试逻辑,flatMap转换分发工作负载在我们的工作进程。

3)你能分享任何数字GPU设置和典型的训练时间吗?

我们将培训分布在四个NVIDIA Tesla V100使用p3.8x gpu。大的实例。自从3 d数据需要更多的内存,我们使用小批量大小和分裂模型在gpu。平均培训花了至少9个小时,患者在早期验证骰子被用作停止标准。提取定量成像生物标志物与训练模型参考15 k +个人的人口,我们使用100 c4.2x.large类型的节点。

下一个步骤

免费试着砖
看到所有公司博客上的帖子