Vicky是Cox Automotive Data Solutions的首席数据工程师。她有超过5年的MapReduce和Spark高性能应用程序编写经验。她于2013年毕业于华威大学(University of Warwick),获得数学硕士学位,在安卓(Android)开发工作过一段时间后,一直在解决数据问题。她现在大部分时间都在构建和优化数据管道,并且是Waimak的联合创建者,Waimak是一个开源框架,可以更容易地在Apache Spark中创建复杂的数据流。
许多数据管道具有共同的特征,并且通常以类似但定制的方式构建,甚至在单个组织中也是如此。在这次演讲中,我们将概述在构建数据管道时需要考虑的关键因素,例如性能、幂等性、可再现性和处理小文件问题。我们将致力于描述一个通用的数据工程工具包,该工具包将这些关注点从业务逻辑代码中分离出来,允许非数据工程师(例如业务分析师和数据科学家)定义数据管道,而不用担心生产的本质问题。
然后,我们将以Waimak的形式介绍这样一个工具包的实现,Waimak是我们的Apache Spark开源库(https://github.com/CoxAutomotiveDataSolutions/waimak),它极大地缩短了我们从原型到生产的路径。最后,我们将定义新的方法和最佳实践,我们认为这是数据工程中最容易被忽视的方面:部署数据管道。