尼尔Turbitt

Databricks的高级数据科学家

    Niall Turbitt是Databricks机器学习实践团队的高级数据科学家。他与Databricks客户合作,构建和部署机器学习解决方案,并提供专注于Spark机器学习的培训课程。他拥有都柏林大学学院的统计学硕士学位,之前在从电子商务到供应链和物流等一系列领域构建可扩展的数据科学解决方案方面有经验。

    过去的会议

    2021年峰会 漂移:在生产环境中测试ML模型

    2021年5月27日上午11:35 PT

    部署机器学习模型已经成为一个相对无摩擦的过程。然而,正确部署具有健壮测试和监视框架的模型是一项复杂得多的任务。在生产ML模型时,没有一种万能的解决方案,通常需要使用多个库和工具进行自定义实现。然而,有一组核心的统计测试和指标应该在适当的地方来检测数据和概念漂移等现象,以防止模型在不知不觉中变得陈旧并对业务有害。

    结合我们与Databricks客户合作的经验,我们深入探讨了如何使用MLflow、SciPy和statmodels等开源工具在生产环境中测试您的ML模型。bob下载地址通过这次演讲,您将掌握在生产环境中测试模型和数据有效性的关键原则,以及一个使用MLflow来辅助该过程重现性的可推广演示。

    在本节中请注意:
    Eng Chengyin, Databricks数据科学顾问
    Niall Turbitt, Databricks的高级数据科学家

    (daisna21-sessions-od)

    2020年欧洲峰会 使用Apache Spark扩展机器学习

    太平洋时间2020年11月17日下午04:00

    Spark已经成为大数据处理的代名词,然而大多数数据科学家仍然使用单机库来构建模型。本次演讲将探讨Spark可用于扩展机器学习应用程序的多种方式。特别是,我们将指导您了解Apache Spark 3.0中用于训练和推理的分布式解决方案、分布式超参数搜索、部署问题以及机器学习的新特性。Niall Turbitt和Holly Smith结合他们多年使用Spark的经验总结了扩展ML解决方案的最佳实践。

    主讲人:Holly Smith和Niall Turbitt

    2020年峰会 考拉:熊猫在阿帕奇火花NA

    2020年6月25日下午05:00 PT

    在本教程中,我们将介绍Koalas,一个新的开源项目。bob下载地址Koalas是一个开源的Pbob下载地址ython包,它在Apache Spark上实现了pandas API,使pandas API可扩展到大数据。使用Koalas,数据科学家可以从一台机器过渡到分布式环境,而不需要学习新的框架。

    我们将展示Koalas自首次发布以来的新功能,包括Apache Spark 3.0,讨论它的路线图,以及我们如何认为Koalas可以成为大规模数据科学的标准API。

    你将学到:

    • 如何开始与考拉
    • 在Apache Spark上显示从熊猫到考拉的轻松过渡
    • 演示Pandas和Koalas api在数据框架转换和特征工程方面的相似性
    • 用于单机Pandas vs分布式环境Koalas
    2019年欧洲峰会 考拉:熊猫在阿帕奇火花欧盟

    2019年10月15日下午05:00 PT

    在本教程中,我们将介绍Koalas,这是我们在4月份的Spark + AI峰会上宣布的一个新的bob下载地址开源项目。Koalas是一个开源的Python包,它在Apache Spark上实现了pandas API,使pandas API可扩展到大数据。使用Koalas,数据科学家可以从一台机器过渡到分布式环境,而不需要学习新的框架。

    我们将展示Koalas自首次发布以来的新功能,讨论它的路线图,以及我们如何认为Koalas可以成为大规模数据科学的标准API。

    你将学到:

    • 如何开始与考拉
    • 在Apache Spark上轻松从熊猫过渡到考拉
    • Pandas和Koalas api在数据框架转换和特征工程方面的相似性
    • 单机Pandas vs分布式环境Koalas

    先决条件:

    • 一台充满电的笔记本电脑(8-16GB内存),配备Chrome或Firefox浏览器
    • 预安装Python 3和pip
    • pip从PyPI安装考拉
    • 预注册Databricks社区版
    • 阅读考拉文档
    2019年欧洲峰会 考拉:阿帕奇星火上的熊猫(续)

    2019年10月15日下午05:00 PT

    在本教程中,我们将介绍Koalas,这是我们在4月份的Spark + AI峰会上宣布的一个新的bob下载地址开源项目。Koalas是一个开源的Python包,它在Apache Spark上实现了pandas API,使pandas API可扩展到大数据。使用Koalas,数据科学家可以从一台机器过渡到分布式环境,而不需要学习新的框架。

    我们将展示Koalas自首次发布以来的新功能,讨论它的路线图,以及我们如何认为Koalas可以成为大规模数据科学的标准API。

    你将学到:

    • 如何开始与考拉
    • 在Apache Spark上轻松从熊猫过渡到考拉
    • Pandas和Koalas api在数据框架转换和特征工程方面的相似性
    • 单机Pandas vs分布式环境Koalas

    先决条件:

    • 一台充满电的笔记本电脑(8-16GB内存),配备Chrome或Firefox浏览器
    • 预安装Python 3和pip
    • pip从PyPI安装考拉
    • 阅读考拉文档