增加每阶段的任务

学习如何增加任务的数量每阶段当使用spark-xml包砖。

写的亚当Pavlacka

去年发表在:2022年5月11日

当使用spark-xml包,你可以增加任务的数量每阶段通过更改配置设置spark.hadoop.mapred.max.split.size集群中的一个较低的值火花配置(AWS|Azure)。这个配置设置控制输入块大小。从DBFS读写数据时,它分为输入模块,然后发送到不同的执行人。这个配置控制这些输入块的大小。默认情况下,它为128 MB(128000000字节)。

设置这个值在笔记本上spark.conf.set ()不是有效的。

在以下的示例中,火花配置字段显示输入块大小是32 MB。

这篇文章有用吗?