从HelloWorld到Scala中可配置和可重用的Apache Spark应用程序-一个开发人员的旅程

下载幻灯片

我们可以将Apache Spark应用程序视为复杂数据工作流中的工作单元。构建一个可配置且可重用的Apache Spark应用程序本身就存在挑战,特别是对于刚刚开始这个领域的开发人员来说。应用程序代码的配置、参数化和可重用性可能具有挑战性。解决这些问题将使开发人员能够专注于增值工作,而不是像编写大量配置代码、初始化SparkSession甚至启动新项目这样的单调任务。

这个演示将使用代码示例描述一个开发人员的旅程,从第一步进入Apache Spark一直到一个简单的开源框架,可以帮助非常容易地启动Apache Spark项目,只需最少的代码。本演示中涉及的主要思想来源于关注点分离原则。

第一个想法是通过将应用程序逻辑与配置逻辑分离,使编写和测试新的Apache Spark应用程序更加容易。

第二个想法是简化应用程序的配置,提供SparkSessions开箱即用,仅通过配置就可以轻松设置数据读取器、数据写入器和应用程序参数。

第三个想法是,启动一个新项目应该非常简单和直接。这三个想法是构建可重用的、有生产价值的Apache Spark应用程序的良好开端。

由此产生的框架spark-utils已经可用,可以作为开源项目使用,但更重要的是其背后的思想和原则。

试着砖
查看更多Spark + AI欧洲峰会2019视频


«回来
关于奥利弗·图普兰

Devoteam

Oliver Tupran是一名软件工程师,在航空、电信、软件建模工具和银行等各个领域拥有超过20年的专业经验。自2015年以来,他专注于在Scala中构建Apache Spark应用程序。在开源领域,他bob下载地址专注于创建工具和框架。他目前正在致力于简化Spark Streaming应用程序的开发,以及在线分析、在线异常检测系统和机器学习算法。