火花API

回到术语表
如果你正在与火花,你将遇到三个api: DataFrames,数据集和抽样

弹性分布式数据集是什么?

抽样或弹性分布式数据集,是记录的集合与分布式计算、容错、不可变的。他们可以并行的低级api,而他们懒惰的特性使得火花操作在一种改进的工作速度。抽样支持两种类型的操作:
  • 转换——懒惰的操作返回另一个抽样,抽样不计算,除非执行行动。一些例子的转换映射(),flatmap()、过滤器()火花API:抽样转换
  • 行动——操作触发计算和返回值。操作数的例子,一些顶级(),savetofile ()火花API:抽样操作

抽样的缺点

如果您选择使用抽样必须优化每个抽样。此外,与数据集和DataFrames不同,抽样推断数据的模式不摄取,因此您必须指定它。

DataFrames是什么?

DataFrames是一种分布式行下命名列的集合。简而言之,它看起来像一个Excel表和列标题,或者你可以把它相当于一个表在一个关系数据库或DataFrame R或Python。它有三个主要的共同特征与抽样:
  • 不变的性质:你将能够创建一个DataFrame但你无法改变它。DataFrame就像一个抽样可以改变
  • 懒惰的评估:都不执行一个任务执行一个动作。
  • 分布:DataFrames就像抽样都是分布在自然界中。

创建一个DataFrame方法

在火花DataFrames可以创建在几个方面:
  • 使用不同的数据格式。诸如加载JSON的数据、CSV、RDBMS, XML或拼花
  • 加载数据从一个已经存在的抽样。
  • 以编程方式指定模式

缺点DataFrames

DataFrame API的主要缺点是,它不支持编译时安全的,因此,用户是有限的,以防数据的结构尚不清楚。

数据集是什么?

数据集是强类型的,不可变的对象集合映射到一个关系模式。数据集可以使用JVM创建对象和操作使用复杂的功能转换。数据集可以通过两种方式创建:
  • 动态
  • 阅读使用SparkSession从JSON文件。

缺点的数据集

数据集的主要缺点是,它们需要铸字成字符串。

额外的资源


回到术语表