pyspark.RDD.repartition¶

抽样。 重新分区 ( numPartitions:int )→pyspark.rdd.RDD(T] ¶

返回一个新的抽样numPartitions分区。

可以增加或减少抽样水平的并行性。在内部,它使用一个洗牌重新分配数据。如果你减少分区的数量在这个抽样,考虑使用合并,它可以避免执行洗牌。

例子

           > > >抽样=sc。并行化([1,2,3,4,5,6,7),4)> > >排序(抽样。偷()。收集())[[1],[2、3],[4 5],[6、7]]> > >len(抽样。重新分区(2)。偷()。收集())2> > >len(抽样。重新分区(10)。偷()。收集())10
          

以前的

pyspark.RDD.reduceByKeyLocally

下一个

pyspark.RDD.repartitionAndSortWithinPartitions