Niall Turbitt是Databricks机器学习实践团队的高级数据科学家。他与Databricks客户合作,构建和部署机器学习解决方案,并提供专注于Spark机器学习的培训课程。他拥有都柏林大学学院的统计学硕士学位,之前在从电子商务到供应链和物流等一系列领域构建可扩展的数据科学解决方案方面有经验。
部署机器学习模型已经成为一个相对无摩擦的过程。然而,正确部署具有健壮测试和监视框架的模型是一项复杂得多的任务。在生产ML模型时,没有一种万能的解决方案,通常需要使用多个库和工具进行自定义实现。然而,有一组核心的统计测试和指标应该在适当的地方来检测数据和概念漂移等现象,以防止模型在不知不觉中变得陈旧并对业务有害。
结合我们与Databricks客户合作的经验,我们深入探讨了如何使用MLflow、SciPy和statmodels等开源工具在生产环境中测试您的ML模型。bob下载地址通过这次演讲,您将掌握在生产环境中测试模型和数据有效性的关键原则,以及一个使用MLflow来辅助该过程重现性的可推广演示。
(daisna21-sessions-od)
Spark已经成为大数据处理的代名词,然而大多数数据科学家仍然使用单机库来构建模型。本次演讲将探讨Spark可用于扩展机器学习应用程序的多种方式。特别是,我们将指导您了解Apache Spark 3.0中用于训练和推理的分布式解决方案、分布式超参数搜索、部署问题以及机器学习的新特性。Niall Turbitt和Holly Smith结合他们多年使用Spark的经验总结了扩展ML解决方案的最佳实践。
主讲人:Holly Smith和Niall Turbitt
在本教程中,我们将介绍Koalas,一个新的开源项目。bob下载地址Koalas是一个开源的Pbob下载地址ython包,它在Apache Spark上实现了pandas API,使pandas API可扩展到大数据。使用Koalas,数据科学家可以从一台机器过渡到分布式环境,而不需要学习新的框架。
我们将展示Koalas自首次发布以来的新功能,包括Apache Spark 3.0,讨论它的路线图,以及我们如何认为Koalas可以成为大规模数据科学的标准API。
你将学到:
在本教程中,我们将介绍Koalas,这是我们在4月份的Spark + AI峰会上宣布的一个新的bob下载地址开源项目。Koalas是一个开源的Python包,它在Apache Spark上实现了pandas API,使pandas API可扩展到大数据。使用Koalas,数据科学家可以从一台机器过渡到分布式环境,而不需要学习新的框架。
我们将展示Koalas自首次发布以来的新功能,讨论它的路线图,以及我们如何认为Koalas可以成为大规模数据科学的标准API。
你将学到:
先决条件:
在本教程中,我们将介绍Koalas,这是我们在4月份的Spark + AI峰会上宣布的一个新的bob下载地址开源项目。Koalas是一个开源的Python包,它在Apache Spark上实现了pandas API,使pandas API可扩展到大数据。使用Koalas,数据科学家可以从一台机器过渡到分布式环境,而不需要学习新的框架。
我们将展示Koalas自首次发布以来的新功能,讨论它的路线图,以及我们如何认为Koalas可以成为大规模数据科学的标准API。
你将学到:
先决条件: