连续应用程序的编写与结构化流PySpark API

下载幻灯片

“我们在大数据时代精神数据之际,我们快速的时代,无数形式和格式在间歇时间间隔或连续流,我们需要立即响应流数据。这需要编写一个流媒体应用程序创建了一个概念,是连续的,反应和与实时数据进行交互。我们称之为连续应用程序。

在本教程中我们将探讨背后的概念和动机连续应用,如何在Apache火花™结构化流Python api启用连续应用程序的编写,检查结构化流背后的编程模型,并查看api,支持他们。

通过演讲、代码示例和笔记本,我将展示如何编写一个端到端的结构化流媒体应用程序反应和交互的实时和历史数据来执行先进的分析使用火花SQL, DataFrames和数据集的api。

你带走的理解什么是连续应用,欣赏的易于使用的结构化流api,为什么结构化流在Apache火花是一个一步开发新类型的流媒体应用程序。

本教程将教师指导和实践交互式会话。说明如何获得教程材料将在课堂上介绍。

你将学习:
——理解结构化流背后的概念和动机
——如何使用DataFrame api
——如何使用SQL和火花流数据上创建表
——如何编写一个简单的端到端连续应用程序

先决条件
——一个充足的笔记本电脑(8-16GB内存)Chrome和Firefox
-Pre-register砖Community Edition的”

试着砖
看到更多的火花+人工智能峰会在旧金山2019视频


«回来
关于朱尔斯Damji

朱尔斯s Damji开发人员提倡在砖和MLflow贡献者。他是一个实际的开发人员拥有超过15年的经验,在大公司工作,如Sun微系统公司,网景,@ home, Opsware /响云,VeriSign, ProQuest, Hortonworks,构建大规模分布式系统。他拥有一个B。Sc和M。Sc在计算机科学(从俄勒冈州立大学、加州州立大学奇科),和硕士学位的政治宣传和沟通(来自约翰霍普金斯大学)。