欢迎

这个自定义的指南是Apache Spark使用Databricks的“Hello World”教程。在下面的教程模块中,您将学习创建Spark作业、加载数据和使用数据的基础知识。您还将了解如何运行机器学习算法和处理流数据。Databricks可以让你立即开始编写Spark查询,这样你就可以专注于你的数据问题。

浏览这个Apache Spark教程

将鼠标悬停在上面的导航栏上,您将看到在Databricks上开始使用Apache Spark的六个阶段。本指南将首先提供如何使用开源Apache Spark的快速入门,然后利用这些知识学习如何与Spark SQL一起使用bob下载地址Spark DataFrames。我们还将讨论如何使用数据集,以及数据框架和数据集现在是如何统一的。该指南还提供了机器学习和流媒体的快速入门,以便您可以轻松地将其应用于您的数据问题。这些模块中的每一个都涉及独立的使用场景(包括物联网和家庭销售),包括笔记本电脑和数据集,所以如果你觉得舒服的话,你可以跳过。

Apache Spark简介

spark-logo-trademark

Apache Spark是一个强大的开源处理引擎,围绕速度、易用性和复杂的分析构建。

Spark SQL + DataFrames

结构化数据:Spark SQL

许多数据科学家、分析师和一般商业智能用户依赖交互式SQL查询来探索数据。Spark SQL是一个用于结构化数据处理的Spark模块。它提供了一种名为DataFrames的编程抽象,还可以充当分布式SQL查询引擎。它使未经修改的Hadoop Hive查询在现有部署和数据上的运行速度提高了100倍。它还提供了与Spark生态系统其他部分的强大集成(例如,将SQL查询处理与机器学习集成)。

流媒体

流式分析:Spark流式

许多应用程序不仅需要处理和分析批量数据,还需要实时处理和分析新数据流。Spark Streaming运行在Spark之上,支持跨流和历史数据的强大交互和分析应用程序,同时继承了Spark的易用性和容错特性。它很容易与各种流行的数据源集成,包括HDFS、Flume、Kafka和Twitter。

MLlib机器学习

机器学习:MLlib

机器学习已经迅速成为挖掘大数据以获得可操作见解的关键部分。MLlib构建在Spark之上,是一个可扩展的机器学习库,提供高质量的算法(例如,多次迭代以提高精度)和惊人的速度(比MapReduce快100倍)。该库可作为Spark应用程序的一部分在Java、Scala和Python中使用,因此您可以将其包含在完整的工作流中。

GraphX图计算

图计算:GraphX

GraphX是一个构建在Spark之上的图计算引擎,使用户能够交互式地构建、转换和推理大规模的图结构数据。它配有一个通用算法库。

Spark Core API

一般执行:Spark Core

Spark Core是Spark平台的底层通用执行引擎,所有其他功能都构建在其之上。bob体育客户端下载它提供了内存计算功能以提高速度,提供了支持各种应用程序的通用执行模型,以及简化开发的Java、Scala和Python api。

R
SQL
Python
Scala
Java

“在Databricks,我们正在努力使Spark比以往任何时候都更容易使用和运行,通过我们在Spark代码库和支持材料方面的努力。我们在Spark上的所有工作都是开源的,并直接提供给Apbob下载地址ache。”

Apache Spark副总裁Matei Zaharia
Databricks联合创始人兼首席技术专家

有关Spark的更多信息,您也可以参考:

把砖

是一个bob体育亚洲版统一分析平台bob体育客户端下载Apache Spark通过统一数据科学、工程和业务来加速创新。通过我们在云中完全托管的Spark集群,您只需单击几下就可以轻松地配置集群。Databricks集成了一个用于探索和可视化的集成工作空间,因此用户可以在一个易于使用的单一环境中学习、工作和协作。您可以轻松地安排任何现有的笔记本电脑或本地开发的Spark代码从原型到生产,而无需重新设计。

今天注册

此外,Databricks还包括:

  • 我们屡获殊荣的大型在线公开课程使用Apache Spark介绍大数据到目前为止,已经有超过76000名参与者!
  • 大规模开放在线课程(MOOCs),包括使用Apache Spark进行机器学习
  • 在R和Scala分析管道样本

在这里可以找到我们所有的课程https://academy.www.neidfyre.com

额外的资源

Spark:有Delta Lake更好

本系列技术讲座教程将带您了解Delta Lake (Apache Spark)的技术基础,以及Delta Lake为云数据湖添加的功能。

看现在