比尔钱伯斯

Databricks的产品经理

Bill Chambers是Databricks公司的产品经理，主要从事结构化流和数据科学产品方面的工作。他是《火花:权威指南》的主要作者，与Matei Zaharia合著。他拥有加州大学伯克利分校信息学院的信息管理与系统硕士学位。在校期间，Bill还是Udemy的Python数据分析与熊猫课程的创建者，以及UC Berkeley信息与数据科学硕士课程Python数据科学的联合创建者和第一位讲师。

过去的会议

2019年欧洲峰会战术数据科学技巧:一起使用Python和Spark

2019年10月16日下午05:00 PT

考虑到生态系统中各种数据科学工具(如sci-kit Learn、TensorFlow、Spark、Pandas和MLlib)的复杂性，运行Spark和Python数据科学工作负载可能具有挑战性。所有这些不同的工具和架构提供了重要的权衡，当涉及到概念证明和进入生产时，需要考虑。虽然概念的证明可能相对简单，但转移到生产可能具有挑战性，因为不仅很难理解开发解决方案的短期工作，而且很难理解长期支持项目的长期成本。

本次演讲将讨论评估项目的重要战术模式，运行概念证明以告知生产，最后是我们在Databricks内部使用的将数据和机器学习项目带入生产的关键战术。本课程将介绍一些架构选择，包括Spark、PySpark、Pandas、笔记本电脑、各种机器学习工具包，以及支持它们所需的框架和技术。

主要收获包括:
1.如何最好地组织各种工具的项目，
2.如何更好地理解机器学习模型的单节点和分布式训练的权衡
3.我们如何在Databricks内部组织和执行数据科学项目。

2018欧洲峰会成功数据科学项目的模式

太平洋时间2018年10月2日下午05:00

无论您是在笔记本电脑上、本地集群上还是在云中运行数据科学工作负载，运行数据科学工作负载都是一个挑战。虽然购买100%托管服务是一种选择，但这些工具可能昂贵且缺乏可扩展性。因此，许多公司选择开源数据科学工具，如scikit-learn和Apachbob下载地址e Spark的MLlib，以平衡功能和成本。

然而，即使一个项目使用任何一组工具在某个时间点上取得了成功，随着数据量的增加和对实时的渴望将技术推向极限，这些项目也会变得越来越难以维护。新项目也面临挑战，因为新的规模挑战使之前的假设失效。

这次演讲将讨论一些我们在Databricks看到的模式，这些模式是公司利用它们的数据科学项目取得成功的。主要要点是:力求简单-为您和您的团队消除认知负荷-处理大大小小的数据-有效地利用工具生态系统以获得成功

会话标记:#SAISDS1