火花API
回到术语表弹性分布式数据集是什么?
抽样或弹性分布式数据集,是记录的集合与分布式计算、容错、不可变的。他们可以并行的低级api,而他们懒惰的特性使得火花操作在一种改进的工作速度。抽样支持两种类型的操作:- 转换——懒惰的操作返回另一个抽样,抽样不计算,除非执行行动。一些例子的转换映射(),flatmap()、过滤器()
- 行动——操作触发计算和返回值。操作数的例子,一些顶级(),savetofile ()
抽样的缺点
如果您选择使用抽样必须优化每个抽样。此外,与数据集和DataFrames不同,抽样推断数据的模式不摄取,因此您必须指定它。DataFrames是什么?
DataFrames是一种分布式行下命名列的集合。简而言之,它看起来像一个Excel表和列标题,或者你可以把它相当于一个表在一个关系数据库或DataFrame R或Python。它有三个主要的共同特征与抽样:- 不变的性质:你将能够创建一个DataFrame但你无法改变它。DataFrame就像一个抽样可以改变
- 懒惰的评估:都不执行一个任务执行一个动作。
- 分布:DataFrames就像抽样都是分布在自然界中。
创建一个DataFrame方法
在火花DataFrames可以创建在几个方面:- 使用不同的数据格式。诸如加载JSON的数据、CSV、RDBMS, XML或拼花
- 加载数据从一个已经存在的抽样。
- 以编程方式指定模式
缺点DataFrames
DataFrame API的主要缺点是,它不支持编译时安全的,因此,用户是有限的,以防数据的结构尚不清楚。数据集是什么?
数据集是强类型的,不可变的对象集合映射到一个关系模式。数据集可以使用JVM创建对象和操作使用复杂的功能转换。数据集可以通过两种方式创建:- 动态
- 阅读使用SparkSession从JSON文件。
缺点的数据集
数据集的主要缺点是,它们需要铸字成字符串。额外的资源
回到术语表