构建和部署的最佳实践数据管道在Apache火花

下载幻灯片

许多数据管道的共同特点和往往是建立在相似但定制方面,甚至在一个组织。在这次演讲中,我们将概述的关键因素需要被应用在构建数据管道,如性能、幂等性、重现性,处理小文件的问题。我们将努力描述一个通用数据工程工具包将这些问题与业务逻辑代码,允许non-Data-Engineers(例如业务分析师和数据科学家)来定义数据管道而不用担心本质生产注意事项。

然后我们将介绍一个实现这样一个工具包的形式Waimak, Apache火花(https://github.com/CoxAutomotiveDataSolutions/waimak)的开源库,大大缩短了我们的路线从原型到生产。最后,我们将定义新的方法和最佳实践对我们相信的是最被忽视的方面数据工程:部署的数据管道。

试着砖
看到更多的火花+人工智能峰会欧洲2019个视频


«回来
Vicky Avison
关于Vicky Avison

考克斯汽车英国

维姬是一个领先的数据工程师考克斯汽车数据解决方案。她有超过5年的工作经验编写高性能的应用程序在MapReduce和火花。她毕业于英国华威大学的数学硕士学位,2013年,在安卓开发了一段时间后,一直在解决数据问题。她现在大部分天构建和优化数据管道,和是Waimak的共同创造者,一个开源框架,使它更容易创建复杂的数据流在Apache火花。

关于亚历克斯·布什

毕马威的灯塔

亚历克斯·布什是一个数据工程师毕马威(KPMG)灯塔新西兰。他曾领导数据工程师在考克斯汽车共创Waimak、一个开源框架,可以更容易地创建复杂的数据流在Apache火花。有毕业于爱丁堡大学计算物理学硕士学位,他走上世界的大数据6年前以来,他一直在家里。他曾为Centrica /英国天然气和Hortonworks。