Bill Chambers是Databricks公司的产品经理,主要从事结构化流和数据科学产品方面的工作。他是《火花:权威指南》的主要作者,与Matei Zaharia合著。他拥有加州大学伯克利分校信息学院的信息管理与系统硕士学位。在校期间,Bill还是Udemy的Python数据分析与熊猫课程的创建者,以及UC Berkeley信息与数据科学硕士课程Python数据科学的联合创建者和第一位讲师。
考虑到生态系统中各种数据科学工具(如sci-kit Learn、TensorFlow、Spark、Pandas和MLlib)的复杂性,运行Spark和Python数据科学工作负载可能具有挑战性。所有这些不同的工具和架构提供了重要的权衡,当涉及到概念证明和进入生产时,需要考虑。虽然概念的证明可能相对简单,但转移到生产可能具有挑战性,因为不仅很难理解开发解决方案的短期工作,而且很难理解长期支持项目的长期成本。
本次演讲将讨论评估项目的重要战术模式,运行概念证明以告知生产,最后是我们在Databricks内部使用的将数据和机器学习项目带入生产的关键战术。本课程将介绍一些架构选择,包括Spark、PySpark、Pandas、笔记本电脑、各种机器学习工具包,以及支持它们所需的框架和技术。
主要收获包括:
1.如何最好地组织各种工具的项目,
2.如何更好地理解机器学习模型的单节点和分布式训练的权衡
3.我们如何在Databricks内部组织和执行数据科学项目。
无论您是在笔记本电脑上、本地集群上还是在云中运行数据科学工作负载,运行数据科学工作负载都是一个挑战。虽然购买100%托管服务是一种选择,但这些工具可能昂贵且缺乏可扩展性。因此,许多公司选择开源数据科学工具,如scikit-learn和Apachbob下载地址e Spark的MLlib,以平衡功能和成本。
然而,即使一个项目使用任何一组工具在某个时间点上取得了成功,随着数据量的增加和对实时的渴望将技术推向极限,这些项目也会变得越来越难以维护。新项目也面临挑战,因为新的规模挑战使之前的假设失效。
这次演讲将讨论一些我们在Databricks看到的模式,这些模式是公司利用它们的数据科学项目取得成功的。主要要点是:力求简单-为您和您的团队消除认知负荷-处理大大小小的数据-有效地利用工具生态系统以获得成功
会话标记:#SAISDS1