主持的火花

回到术语表

什么是托管Spark?

Apache Spark是一个针对大数据的快速通用集群计算系统，围绕速度、易用性和高级分析构建，最初于2009年在加州大学伯克利分校建立。它提供了Scala、Java、Python和R的高级api，以及一个优化的引擎，支持用于数据分析的通用计算图。此外，它还支持其他一些工具，如用于SQL和DataFrames的Spark SQL，用于机器学习的MLlib，用于图形处理的GraphX和用于流处理的Spark Streaming。

Spark提供两种数据探索模式:

互动
批处理

为了简化终端用户交互，Spark还提供给组织在一个统一的托管数据平台。bob体育客户端下载在远程应用程序无法直接访问Spark资源的情况下，用户不得不面临到生产环境的更长的路径。为了克服这一障碍，已经创建了一些服务，使远程应用程序能够从任何地方通过REST API有效地连接到Spark集群。这些接口支持在本地或Apache中运行的Spark上下文中执行代码或程序片段Hadoop纱线。托管Spark接口被证明是交钥匙解决方案，因为它们促进了Spark和应用服务器之间的交互，简化了交互式web和移动应用程序所需的架构。

托管Spark服务提供以下特性:

交互式Scala、Python和R覆盖
在Scala, Java, Python中批量提交
多个用户可以共享同一个服务器
允许用户通过REST从任何地方提交作业
不需要对程序进行代码更改

组织现在可以很容易地克服阻碍他们运营Spark能力的现有瓶颈，而是专注于捕捉大数据所承诺的价值。

额外的资源

回到术语表