研究

GraphFrames:用于混合图形查询和关系查询的集成API

作者:Ankur Dave, Alekh Jindal, Li Erran Li, reynolds Xin, Joseph Gonzalez, Matei Zaharia

下载论文

摘要

图数据在许多领域都很普遍,但它通常需要专门的引擎来分析。这种设计对用户来说是繁重的,并且排除了跨完整工作流的优化。我们展示了GraphFrames,这是一个集成系统,允许用户组合图算法、模式匹配和关系查询,并优化它们之间的工作。GraphFrames通过让系统具体化图的多个视图(而不仅仅是这些系统中特定的三元组视图)并使用连接执行迭代算法和模式匹配,将以前的graph-on- rdbms系统(如GraphX和Vertexica)中的思想进行了泛化。为了使应用程序易于编写,GraphFrames提供了一个简洁的、声明性的API,该API基于R中的“数据框架”概念,既可用于交互式查询,也可用于独立程序。在这个API下,GraphFrames在整个计算过程中使用了一个图感知的连接优化算法,可以从可用的视图中进行选择。我们通过Spark SQL实现GraphFrames,支持在Spark上并行执行,并与自定义代码集成。我们发现GraphFrames可以很容易地表达端到端工作流,并且能够匹配或超过独立工具的性能,同时支持跨工作流步骤的优化,这在当前系统中是无法实现的。此外,我们还展示了GraphFrames的视图抽象通过注册适当的视图可以很容易地进一步加快交互式查询的速度,并且图数据和关系数据的组合允许进行其他优化,例如属性感知分区。

相关内容

作者:Matei Zaharia, Reynold S. Xin, Patrick Wendell, Tathagata Das, Michael Armbrust, Ankur Dave, Xiangrui孟,Josh Rosen, Shivaram Venkataraman, Michael J. Franklin, Ali Ghodsi, Joseph Gonzalez, Scott Shenker, Ion Stoica

作者:Matei Zaharia, Tathagata Das, Li Haoyuan, Timothy Hunter, Scott Shenker, Ion Stoica

作者:约瑟夫·e·冈萨雷斯,雷诺兹·s·辛,安库尔·戴夫,丹尼尔·克兰肖,迈克尔·j·富兰克林,Ion Stoica

作者:Shivaram Venkataraman,杨宗恒,Davies Liu, Eric Liang, Hossein Falaki, Xiangrui孟,Reynold Xin, Ali Ghodsi, Michael Franklin, Ion Stoica, Matei Zaharia

作者:Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica