弗兰克·奥斯汀诺莎福特

卫生保健和生命科学的技术总监,砖

    弗兰克是卫生保健和生命科学的技术总监垂直砖。加入砖之前,弗兰克是一个引导开发人员在大数据基因组学/亚当和辛劳项目在加州大学伯克利分校,在博通公司设计自动化技术为工业规模的无线通信芯片。弗兰克博士,加州大学伯克利分校的计算机科学硕士学位,学士,斯坦福大学的电气工程科学与荣誉。

    过去的会议

    峰会的欧洲2020 小组讨论:改善健康结果与数据+人工智能

    2020年11月17日下午内PT

    更好的结果,降低了医疗费用,医疗保健和生命科学组织需要提供正确的干预措施正确的病人通过在正确的时间正确的车辆。为了实现这一点,卫生组织需要混合和分析不同跨大量人口的数据集,包括电子病历、医疗保健索赔,SoDH /人口统计数据和精密医学技术像基因组序列。整合这些不同的数据源下常见的和可再生的框架是卫生保健和生命科学公司面临的一个关键挑战,在驱动的道路上数据驱动的结果。在这个会话中,我们探索优化在整个医疗服务价值链的机会通过统一的数据和人工智能。与会者将了解的最佳实践构建数据驱动的组织和听到真实的故事如何先进的分析改善患者的结果。

    小组成员:

    • Iyibo杰克,主管工程,立MedInsight
    • 执行董事Arek Kaczmarek,数据工程,普罗维登斯圣约瑟夫的健康

    演讲者:Frank Nothaft

    2020年峰会 英国生物库数据,提高治疗发展砖,DNAnexus

    2020年6月25日凌晨5点PT

    大规模基因组数据集的英国生物库对制药公司如何确定治疗目标发展。然而,海量基因组数据转化为可操作的基因型和表型之间的联系的公司使用遗留基因组数据技术。在这个演讲中,生原体将描述他们与DNAnexus和砖将本地数据基础设施到AWS云。结合DNAnexus砖基因组学的运行时平台,生原体可bob体育客户端下载以使用英国生物库数据集包含protein-truncating识别基因变异影响人类长寿和神经状态。

    峰会的欧洲2018 医疗与大数据和人工智能的未来

    2023年3月15日09:12点PT

    2018年峰会 拯救生命的统一分析bob体育亚洲版

    2023年3月15日09:12点PT

    大数据和人工智能是密不可分的:最好的人工智能应用程序需要大量的训练数据不断更新建立最先进的人工智能模型一直是大数据的一个最令人激动的应用和Apache火花。引发用户越来越希望将引发与分布式深度学习和机器学习框架建立最先进的训练。

    2018年峰会 基因组学的演示

    2018年6月5日凌晨5点PT

    2018年峰会 扩展云中的基因组学管道

    2018年6月5日凌晨5点PT

    下一代测序技术变得更便宜、更容易。排序的数据量增长速度超过摩尔定律。然而,它仍然是昂贵的和缓慢的从原始读取变量调用,并产生带注释的变体,可以分析下游。在这次演讲中,我们将讨论的第一个国家艺术、可伸缩的和简单的DNA测序工作流程,是建立在Apache火花和砖的api。管道设置比较简单,很容易扩展,可以30 x覆盖基因组序列成本有效地在云上。

    我们将介绍校准和变异的问题,呼吁整个基因组,讨论构建一个简单的挑战还可伸缩管道和展示我们的解决方案。这个演讲应该感兴趣的开发人员希望构建ETL管道上的Apache火花,以及生物化学家和分子生物学家那些希望学习如何开发廉价和快速的DNA测序管道。

    Sesson标签:# DevSAIS10

    2014年峰会 亚当:快速、可伸缩的基因组分析

    2014年6月29日凌晨5点PT

    亚当是一个高性能的分布式处理管道和DNA测序数据的API。允许计算规模与一百多节点集群,亚当使用Apache火花作为计算引擎和存储数据使用Apache Avro开源铺柱状。这种可扩展性允许我们执行复杂的计算密集型任务,如基质量分数调整(BQSR),或重复标记在高覆盖率人类基因组(> 60%,236 gb)在半个小时。在Amazon Elastic Compute测试平台,我们在目前的处理管道,bob体育客户端下载实现50%的加速和较低的处理成本。
    为了实现可伸缩性在分布式环境中,我们把传统的序列DNA处理算法的方式来表述数据并行处理算法。在这次演讲中,我们将讨论使用的一般原则,我们将对这些算法可伸缩而实现全面和谐与串行算法。此外,通过基因组分析适应商品分布式分析平台(比如Apache火花,它更容易执行临时对基因组数据分析和机器学习。bob体育客户端下载我们将讨论如何影响的临床使用DNA分析管道,以及人口基因组学。

    2016年峰会 处理70 tb的基因组数据和亚当和辛劳

    2016年6月7日凌晨5点PT

    现代基因组测序项目捕获数以百计的每个字节的数据。在这次演讲中,我们讨论最近的工作我们Spark-based亚当工具用来验算基因组变异从70年结核病西蒙斯基因组多样性的读取数据集。亚当是一个不速之客,Spark-based替代传统基因组学像GATK管道。我们计算了跨成百上千的节点在Amazon EC2上使用辛劳,小说集群编制工具。辛苦是用于自动使用的节点数量规模,并无缝地运行大型单节点工作和火花集群在一个工作流。通过结合亚当和辛劳,我们能够提高端到端管道运行时同时利用EC2实例市场。此外,辛苦是专为科学的再现性,和我们整个工作流运行使用码头工人容器,确保有一个静态的二进制文件可以用来繁殖管道在稍后的日期。亚当和辛劳都是免费Apache 2许可的工具。

    东2017年峰会 处理与亚当t级基因组数据集

    2017年2月7日,内点PT

    罕见的基因事件的检测和分析需要综合分析在大群tb pb级的基因组数据。现代基因组分析工具并没有为这种规模的数据密集型计算而设计的。这个演讲提出了亚当,一个Apache 2许可库之上流行的Apache火花分布式计算框架。亚当的目的是允许无缝地分布在基因组分析大型集群,并提供了一个干净的API编写并行基因组分析算法。在这次演讲中,我们将看看我们使用亚当达到3.5×提高端到端变量调用延迟和成本改进了66%目前的工具包,在不牺牲准确性。我们将讨论最近的验算工作用亚当对GRCh38召回西蒙斯基因组多样性的数据集。我们还将讨论使用亚当与Apache Hbase交互式地探索大变体数据集。