IndexedRDD:用于rdd的高效细粒度更新

下载幻灯片

Spark的核心抽象是RDD,一个不可变的分布式数据集。Spark需要不可变性来实现数据集重用、容错和延迟缓解。但新的Spark应用程序,如流聚合和增量图处理,似乎需要变异:一条新的推文需要更新用户的推文计数;一个新的电影评级需要更新少量的预测。现有的解决方案要么牺牲了灵活性,要么牺牲了效率。对于小型更新来说,批量转换是一种浪费。直接突变牺牲了容错能力。即使是复杂的解决方案,比如将数据存储在持久的、原子更新的外部数据库中,也会遇到数据集重用和复杂依赖关系图方面的问题。本次演讲将介绍IndexedRDD,我们的细粒度RDD更新解决方案,它保留了Spark的所有优势。IndexedRDD使用了一系列来自函数式编程和版本化数据库的技术。 We will describe its implementation, its solutions to GC overhead and memory constraints, and its performance.



«回来