主持的火花

回到术语表

什么是托管Spark?

Apache Spark是一个针对大数据的快速通用集群计算系统,围绕速度、易用性和高级分析构建,最初于2009年在加州大学伯克利分校建立。它提供了Scala、Java、Python和R的高级api,以及一个优化的引擎,支持用于数据分析的通用计算图。此外,它还支持其他一些工具,如用于SQL和DataFrames的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和用于流处理的Spark Streaming。

Spark提供两种数据探索模式:

  • 互动
  • 批处理
火花探索模式为了简化终端用户交互,Spark还提供给组织在一个统一的托管数据平台。bob体育客户端下载在远程应用程序无法直接访问Spark资源的情况下,用户不得不面临到生产环境的更长的路径。为了克服这一障碍,已经创建了一些服务,使远程应用程序能够从任何地方通过REST API有效地连接到Spark集群。这些接口支持在本地或Apache中运行的Spark上下文中执行代码或程序片段Hadoop纱线。托管Spark接口被证明是交钥匙解决方案,因为它们促进了Spark和应用服务器之间的交互,简化了交互式web和移动应用程序所需的架构。

托管Spark服务提供以下特性:

  • 交互式Scala、Python和R覆盖
  • 在Scala, Java, Python中批量提交
  • 多个用户可以共享同一个服务器
  • 允许用户通过REST从任何地方提交作业
  • 不需要对程序进行代码更改
组织现在可以很容易地克服阻碍他们运营Spark能力的现有瓶颈,而是专注于捕捉大数据所承诺的价值。

额外的资源


回到术语表