比尔钱伯斯

Databricks的产品经理

    Bill Chambers是Databricks公司的产品经理,主要从事结构化流和数据科学产品方面的工作。他是《火花:权威指南》的主要作者,与Matei Zaharia合著。他拥有加州大学伯克利分校信息学院的信息管理与系统硕士学位。在校期间,Bill还是Udemy的Python数据分析与熊猫课程的创建者,以及UC Berkeley信息与数据科学硕士课程Python数据科学的联合创建者和第一位讲师。

    过去的会议

    2019年欧洲峰会 战术数据科学技巧:一起使用Python和Spark

    2019年10月16日下午05:00 PT

    考虑到生态系统中各种数据科学工具(如sci-kit Learn、TensorFlow、Spark、Pandas和MLlib)的复杂性,运行Spark和Python数据科学工作负载可能具有挑战性。所有这些不同的工具和架构提供了重要的权衡,当涉及到概念证明和进入生产时,需要考虑。虽然概念的证明可能相对简单,但转移到生产可能具有挑战性,因为不仅很难理解开发解决方案的短期工作,而且很难理解长期支持项目的长期成本。

    本次演讲将讨论评估项目的重要战术模式,运行概念证明以告知生产,最后是我们在Databricks内部使用的将数据和机器学习项目带入生产的关键战术。本课程将介绍一些架构选择,包括Spark、PySpark、Pandas、笔记本电脑、各种机器学习工具包,以及支持它们所需的框架和技术。

    主要收获包括:
    1.如何最好地组织各种工具的项目,
    2.如何更好地理解机器学习模型的单节点和分布式训练的权衡
    3.我们如何在Databricks内部组织和执行数据科学项目。

    2018欧洲峰会 成功数据科学项目的模式

    太平洋时间2018年10月2日下午05:00

    无论您是在笔记本电脑上、本地集群上还是在云中运行数据科学工作负载,运行数据科学工作负载都是一个挑战。虽然购买100%托管服务是一种选择,但这些工具可能昂贵且缺乏可扩展性。因此,许多公司选择开源数据科学工具,如scikit-learn和Apachbob下载地址e Spark的MLlib,以平衡功能和成本。

    然而,即使一个项目使用任何一组工具在某个时间点上取得了成功,随着数据量的增加和对实时的渴望将技术推向极限,这些项目也会变得越来越难以维护。新项目也面临挑战,因为新的规模挑战使之前的假设失效。

    这次演讲将讨论一些我们在Databricks看到的模式,这些模式是公司利用它们的数据科学项目取得成功的。主要要点是:力求简单-为您和您的团队消除认知负荷-处理大大小小的数据-有效地利用工具生态系统以获得成功

    会话标记:#SAISDS1