pyspark.RDD.repartition¶
-
抽样。
重新分区
( numPartitions:int )→pyspark.rdd.RDD(T] ¶ -
返回一个新的抽样numPartitions分区。
可以增加或减少抽样水平的并行性。在内部,它使用一个洗牌重新分配数据。如果你减少分区的数量在这个抽样,考虑使用合并,它可以避免执行洗牌。
例子
> > >抽样=sc。并行化([1,2,3,4,5,6,7),4)> > >排序(抽样。偷()。收集())[[1],[2、3],[4 5],[6、7]]> > >len(抽样。重新分区(2)。偷()。收集())2> > >len(抽样。重新分区(10)。偷()。收集())10