应用λ架构与火花

λ架构(LA)使开发人员可以构建大规模、分布式数据处理系统在一个灵活的和可扩展的方式,在容错对硬件故障和人为错误。

在我们洛杉矶处理三层,每个来与自己的要求:即批处理层、管理主数据集(不可变,只能添加组原始数据),并不是预先计算批意见,二世。服务层,批索引视图,这样他们可以查询在一个低延迟,特别的方式,三世。速度层,处理最近的数据,和补偿高延迟的批处理层。

尽管它越来越受欢迎,有些医生发现它具有挑战性的应用拉;一个原因是为了实现批处理和实时视图通常不同的环境使用。例如,批处理视图可能实现实时视图时使用蜂巢实现通过一个风暴拓扑。此外,业务逻辑重复在两个地方,需要保持同步。

引发我们有一个简单的、优雅的、日益流行的解决方案:火花堆栈使开发人员能够实现一个LA-compliant系统使用一个统一的开发和测试环境(选择一个Scala, Python, Java)同时也支持批处理和流媒体业务,规模。谈论我们将展示一个端到端的演示LA-compliant系统实现的火花,将讨论其功能及组件开发、测试和维护以及可扩展性和操作方面的问题。

更多阅读:

  • 改进的容错和零数据丢失在Apache引发流


    «回来
  • 关于吉姆•斯科特

    吉姆一直位置运行操作、工程、建筑和QA团队。吉姆是芝加哥的创始人Hadoop用户组(轧轧声),他协调芝加哥Hadoop社区在过去的4年。吉姆在消费品、数字广告、数字地图、化工和制药行业。吉姆已经建立了系统每天处理500亿多个事务。吉姆的工作与高通量计算陶氏化学的前身更标准化的大数据概念(比如Hadoop。