蒂姆·亨特(Tim Hunter)是荷兰银行的高级人工智能专家。他是Databricks的早期软件工程师,为Apache Spark MLlib项目做出了贡献,他与人共同创建了Koalas、GraphFrames、TensorFrames和Deep Learning Pipelines库。他拥有加州大学伯克利分校的机器学习博士学位,自Spark 0.0.2版本以来,他一直在使用Spark构建分布式机器学习系统,在Spark成为Apache软件基金会项目之前。
软件工程围绕某些最佳实践发展,如版本控制代码、依赖管理、功能分支等。然而,同样的最佳实践并没有转化为数据科学。更新ML管道某个阶段的数据科学家需要了解其更改的级联效应,这样他们的下游依赖关系就不会以陈旧的数据结束,或者不必要地从头到尾重新运行整个管道。当数据科学家合作时,他们应该能够使用来自同事的中间结果,而不是从头开始计算所有内容。
这个演示展示了如何通过数据驱动软件(DDS)的概念来像对待代码一样对待数据。这个概念是作为一个轻量级且易于使用的python包实现的,它解决了上面提到的针对单用户和协作数据管道的所有问题,并且它完全集成了Databricks等lakehouse架构。实际上,它允许数据工程师和数据科学家进行YOLO:只加载一次数据,并且永远不会重新计算现有的部分。
通过利用DDS的现场演示,您将看到数据科学团队如何:
(daisna21-sessions-od)
在本教程中,我们将介绍Koalas,这是我们在4月份的Spark + AI峰会上宣布的一个新的bob下载地址开源项目。Koalas是一个开源的Python包,它在Apache Spark上实现了pandas API,使pandas API可扩展到大数据。使用Koalas,数据科学家可以从一台机器过渡到分布式环境,而不需要学习新的框架。
我们将展示Koalas自首次发布以来的新功能,讨论它的路线图,以及我们如何认为Koalas可以成为大规模数据科学的标准API。
你将学到:
先决条件:
在本教程中,我们将介绍Koalas,这是我们在4月份的Spark + AI峰会上宣布的一个新的bob下载地址开源项目。Koalas是一个开源的Python包,它在Apache Spark上实现了pandas API,使pandas API可扩展到大数据。使用Koalas,数据科学家可以从一台机器过渡到分布式环境,而不需要学习新的框架。
我们将展示Koalas自首次发布以来的新功能,讨论它的路线图,以及我们如何认为Koalas可以成为大规模数据科学的标准API。
你将学到:
先决条件:
在这次演讲中,我们将介绍Koalas,这是一个新的开源项目,旨在为数据科学家弥合大数据和小数据之间的差距,并为已经熟悉Python中的pandas库的人简化Apache Spark。
Pandas是python中用于数据科学的标准工具,它通常是数据科学家探索和操作数据集的第一步。问题是熊猫无法很好地适应大数据。它是为单个机器可以处理的小数据集而设计的。
如今,当数据科学家处理非常大的数据集时,他们要么必须迁移到PySpark来利用Spark,要么降低数据样本,以便使用pandas。本演讲将深入探讨Spark和pandas数据框架之间的转换。
通过现场演示和代码示例,您将了解:—如何在同一个代码库中有效地利用pandas和Spark—如何利用强大的pandas概念,例如Spark的轻量级索引—统一Spark和pandas的不同行为的技术考虑
深度学习现在是目标检测的标准,但分析大量图像并不容易,尤其是以交互方式。传统上,擅长图像处理的深度学习框架与更传统的ETL和数据科学工具之间存在差距,这些工具通常不能处理大量复杂的数据类型,如图像。
在这次演讲中,我们将展示如何在几行代码中完成对大型图像语料库的操作,因为Apache Spark的最新开发。多亏了Spark混合不同库的独特能力,我们展示了如何从卫星图像开始,快速在高级信息(如房屋或建筑物)上构建复杂的查询。这要感谢地理空间包Magellan和深度学习管道(Deep Learning Pipelines),后者是一个简化Spark中深度学习框架集成的库。在本课程结束时,您将带着信心离开,因为Spark的强大功能,您可以解决任何规模的图像检测问题。
数据是构建高质量、生产性人工智能应用程序的关键因素。在训练阶段,更多和更高质量的训练数据可以实现更好的模型,以及在生产阶段,理解模型在生产中的行为和检测预测和输入数据的变化对维护生产应用程序至关重要。然而,到目前为止,大多数数据管理和机器学习工具在很大程度上是分开的。
在这次演讲中,我们将讨论Databricks在Apache Spark以及其他开源项目中为统一数据和AI所做的一些努力,以使构建生产AI应用程序变得更加简单。bob下载地址
会话标签:#SAISAI2
深度学习现在是目标检测的标准,但分析大量图像并不容易,尤其是以交互方式。传统上,擅长图像处理的深度学习框架与更传统的ETL和数据科学工具之间存在差距,这些工具通常不能处理大量复杂的数据类型,如图像。
在这次演讲中,我们将展示如何在几行代码中完成对大型图像语料库的操作,因为Apache Spark的最新开发。多亏了Spark混合不同库的独特能力,我们展示了如何从卫星图像开始,快速在高级信息(如房屋或建筑物)上构建复杂的查询。这要感谢地理空间包Magellan和深度学习管道(Deep Learning Pipelines),后者是一个简化Spark中深度学习框架集成的库。在本课程结束时,您将带着信心离开,因为Spark的强大功能,您可以解决任何规模的图像检测问题。
会话标签:#SAISDL1
2017年对于大数据和Apache Spark来说仍然是令人兴奋的一年。我将谈论Databricks正在构建的两个主要项目:结构化流,用于流处理的新的高级API,以及我们正在为机器学习开发的新库。这些举措可以在当前开源系统的基础上提供数量级的性能改进,同时使流处理和机器学习比以往任何时候都更容易访问。bob下载地址
大数据工具很难组合成一个更大的应用程序:具有讽刺意味的是,大数据应用程序本身的可伸缩性并不好。这些集成和数据管理的问题只会随着越来越大的数据量而被放大。Apache Spark为批处理、流和特别的交互式分析提供了强大的构建块。然而,当将一个可能涉及数百个转换步骤的连贯管道组合在一起时,用户会面临挑战,特别是当面临快速迭代的需求时。本次演讲将通过函数式编程来探讨这些问题。它提供了一个实验性框架,通过向Apache Spark引入更多惰性来提供全管道保证。由于整个程序检查、自动缓存以及积极的计算并行化和重用,这个框架允许无缝地组合转换并缓解常见问题。
会话标签:#EUdev1