在Apache Spark中构建和部署数据管道的最佳实践

下载幻灯片

许多数据管道具有共同的特征,并且通常以类似但定制的方式构建,甚至在单个组织中也是如此。在这次演讲中,我们将概述在构建数据管道时需要考虑的关键因素,例如性能、幂等性、可再现性和处理小文件问题。我们将致力于描述一个通用的数据工程工具包,该工具包将这些关注点从业务逻辑代码中分离出来,允许非数据工程师(例如业务分析师和数据科学家)定义数据管道,而不用担心生产的本质问题。

然后,我们将以Waimak的形式介绍这样一个工具包的实现,Waimak是我们的Apache Spark开源库(https://github.com/CoxAutomotiveDataSolutions/waimak),它极大地缩短了我们从原型到生产的路径。最后,我们将定义新的方法和最佳实践,我们认为这是数据工程中最容易被忽视的方面:部署数据管道。

试着砖
查看更多Spark + AI欧洲峰会2019视频


«回来
Vicky Avison
关于Vicky Avison

考克斯汽车英国

Vicky是Cox Automotive Data Solutions的首席数据工程师。她有超过5年的MapReduce和Spark高性能应用程序编写经验。她于2013年毕业于华威大学(University of Warwick),获得数学硕士学位,在安卓(Android)开发工作过一段时间后,一直在解决数据问题。她现在大部分时间都在构建和优化数据管道,并且是Waimak的联合创建者,Waimak是一个开源框架,可以更容易地在Apache Spark中创建复杂的数据流。

关于Alex Bush

毕马威的灯塔

Alex Bush是KPMG Lighthouse新西兰的数据工程师。他曾是Cox Automotive的首席数据工程师,在那里他与人共同创建了Waimak,这是一个开源框架,可以更容易地在Apache Spark中创建复杂的数据流。他毕业于爱丁堡大学,获得计算物理学硕士学位,6年前就进入了大数据领域,从那时起他就一直呆在家里。他曾在Centrica/British Gas和Hortonworks工作。