如果你仍然有问题或更愿意直接从代理得到帮助,请提交一个请求。我们会尽快给您回复。
请输入你的请求的详细信息。的一员,我们的支持人员将尽快回应。
学习如何增加任务的数量每阶段当使用spark-xml包砖。
写的亚当Pavlacka
当使用spark-xml包,你可以增加任务的数量每阶段通过更改配置设置spark.hadoop.mapred.max.split.size集群中的一个较低的值火花配置(AWS|Azure)。这个配置设置控制输入块大小。从DBFS读写数据时,它分为输入模块,然后发送到不同的执行人。这个配置控制这些输入块的大小。默认情况下,它为128 MB(128000000字节)。
设置这个值在笔记本上spark.conf.set ()不是有效的。
在以下的示例中,火花配置字段显示输入块大小是32 MB。