pyspark.RDD.repartition

抽样。 重新分区 ( numPartitions:int )→pyspark.rdd.RDD(T]

返回一个新的抽样numPartitions分区。

可以增加或减少抽样水平的并行性。在内部,它使用一个洗牌重新分配数据。如果你减少分区的数量在这个抽样,考虑使用合并,它可以避免执行洗牌。

例子

> > >抽样=sc并行化([1,2,3,4,5,6,7),4)> > >排序(抽样()收集())[[1],[2、3],[4 5],[6、7]]> > >len(抽样重新分区(2)()收集())2> > >len(抽样重新分区(10)()收集())10