转换是什么?

在火花中,核心数据结构不可变的这意味着他们不能改变一旦创建。这可能似乎是一个奇怪的概念,如果你不能改变它,你应该如何使用它呢?为了“改变”DataFrame你需要指导火花有您想修改DataFrame成你想要的那一个。这些指令被称为转换。转换是如何表达你的核心业务逻辑使用火花。有两种类型的转换,那些指定狭窄的依赖性和那些指定广泛依赖关系。

狭窄的依赖关系是什么?

转换组成的狭窄的依赖关系(我们称之为缩小转换)是那些将有助于每个输入分区分区只有一个输出。狭窄的转换

广泛的依赖关系是什么?

一个广泛的依赖(或宽转换)风格转换输入分区导致许多输出分区。你会经常听到这个称为洗牌跨集群火花将交换分区。比较窄的转换,火花就会自动执行操作称为流水线上狭窄的依赖性,这意味着如果我们指定多个过滤器DataFrames将内存中执行。同样不能说打乱。当我们执行一个洗牌,火花将结果写入磁盘。你会看到很多讨论改组优化在网络上,因为它是一个重要的话题但是现在所有您需要了解,有两种类型的转换。广泛的转换

额外的资源

回到术语表