包火花
核心火花功能。org.apache.spark.SparkContext作为火花的主要入口点,org.apache.spark.rdd.RDD是代表一个分布式的数据类型集合,并提供大多数并行操作。
此外,org.apache.spark.rdd.PairRDDFunctions包含操作只能在抽样键值对,等groupByKey
和加入
;org.apache.spark.rdd.DoubleRDDFunctions包含操作只能在双打的抽样;和org.apache.spark.rdd.SequenceFileRDDFunctions包含操作可以在抽样SequenceFiles能得救。这些操作是自动上可用任何抽样的类型(如抽样((Int, Int))通过隐式转换。
Java程序员应该引用org.apache.spark.api.java包火花在Java编程api。
类和方法标注实验是面向用户的功能还没有被正式采用火花项目。这些小版本中更改或删除。
类和方法标注开发人员API仅供高级用户希望延长火花通过低层接口。这些小版本中更改或删除。
- 字母
- 通过继承
- 火花
- AnyRef
- 任何
- 隐藏所有
- 显示所有
- 公共
- 所有
类型成员
- 用例类聚合器(K,V,C](createCombiner:(V)⇒C,mergeValue:(C,V)⇒C,mergeCombiners:(C,C)⇒C)扩展产品与可序列化的
::DeveloperApi::一组函数用于聚合数据。
::DeveloperApi::一组函数用于聚合数据。
- createCombiner
-
函数创建的初始值聚合。
- mergeValue
-
函数将一个新值合并到聚合的结果。
- mergeCombiners
-
函数从多个mergeValue合并输出函数。
- 注释
- @DeveloperApi ()
- 类BarrierTaskContext扩展TaskContext与日志记录
实验::::TaskContext额外的上下文信息和工具的任务在舞台的一个障碍。
实验::::TaskContext额外的上下文信息和工具的任务在舞台的一个障碍。使用BarrierTaskContext #得到获取运行障碍的障碍环境的任务。
- 注释
- @Experimental () @Since (“测试盒框”)
- 类BarrierTaskInfo扩展AnyRef
::实验::所有任务信息的障碍。
::实验::所有任务信息的障碍。
- 注释
- @Experimental () @Since (“测试盒框”)
- 类ComplexFutureAction(T]扩展FutureAction(T]
一个FutureAction行动可能会引发多个火花工作。
一个FutureAction行动可能会引发多个火花工作。例子包括,takeSample。取消的作品将取消标志设置为true,取消任何悬而未决的工作。
- 注释
- @DeveloperApi ()
- 类ContextAwareIterator(+ T]扩展迭代器(T]
::DeveloperApi:: TaskContext知道迭代器。
::DeveloperApi:: TaskContext知道迭代器。
作为Python评估消耗家长迭代器在一个单独的线程,它可以消耗更多数据从父母甚至在任务结束后,父母是关闭的。如果一个堆访问存在于父母迭代器,它可能导致段错误执行程序崩溃。因此,我们应该使用ContextAwareIterator任务结束后停止消费。
- 注释
- @DeveloperApi ()
- 自
-
3.1.0
- 文摘类依赖(T]扩展可序列化的
::DeveloperApi::基类的依赖关系。
::DeveloperApi::基类的依赖关系。
- 注释
- @DeveloperApi ()
- 用例类ExceptionFailure(类名:字符串,描述:字符串,加:数组(StackTraceElement],fullStackTrace:字符串,exceptionWrapper:选项(ThrowableSerializationWrapper],accumUpdates:Seq(AccumulableInfo]=Seq.empty,accums:Seq(AccumulatorV2[_,_]]=零,metricPeaks:Seq(长]=Seq.empty)扩展TaskFailedReason与产品与可序列化的
::DeveloperApi::任务失败由于一个运行时异常。
::DeveloperApi::任务失败由于一个运行时异常。这是最常见的失败案例也捕捉用户程序异常。
加亮
包含异常本身的堆栈跟踪。它仍然存在为了向后兼容。最好使用这(Throwable,指标:选择[TaskMetrics])
创建ExceptionFailure
因为它会妥善处理的向后兼容性。fullStackTrace
堆栈跟踪的是一种更好的表示因为它包含整个堆栈跟踪包括异常及其原因异常
是实际的异常,导致任务失败。它可能是没有一个
如果异常不是事实上可序列化的。如果一个任务失败不止一次(由于重试)异常
是一个导致了最后的失败。- 注释
- @DeveloperApi ()
- 用例类ExecutorLostFailure(execId:字符串,exitCausedByApp:布尔=真正的,原因:选项(字符串])扩展TaskFailedReason与产品与可序列化的
::DeveloperApi::任务失败了,因为执行程序是运行在迷路了。
::DeveloperApi::任务失败了,因为执行程序是运行在迷路了。这可能发生,因为任务JVM坠毁。
- 注释
- @DeveloperApi ()
- 用例类FetchFailed(bmAddress:BlockManagerId,shuffleId:Int,mapId:长,mapIndex:Int,reduceId:Int,信息:字符串)扩展TaskFailedReason与产品与可序列化的
::DeveloperApi::任务未能获取洗牌数据从远程节点。
::DeveloperApi::任务未能获取洗牌数据从远程节点。可能意味着我们失去了远程执行任务试图获取,因此需要重新运行之前的阶段。
- 注释
- @DeveloperApi ()
- 特征FutureAction(T]扩展未来(T]
未来的结果支持取消操作。
未来的结果支持取消操作。这是未来的扩展Scala接口以支持取消。
- 类HashPartitioner扩展瓜分者
一个org.apache.spark.Partitioner使用Java的实现基于散列分区
Object.hashCode
。一个org.apache.spark.Partitioner使用Java的实现基于散列分区
Object.hashCode
。Java数组hashcode基于数组的身份而不是他们的内容,所以试图分区一个抽样[Array[_]]或抽样((数组(_),_))使用HashPartitioner会产生意想不到的或不正确的结果。
- 类InterruptibleIterator(+ T]扩展迭代器(T]
::DeveloperApi::包装现有的迭代器迭代器提供任务杀死功能。
::DeveloperApi::包装现有的迭代器迭代器提供任务杀死功能。它通过检查中断标志TaskContext。
- 注释
- @DeveloperApi ()
- 密封的抽象的最后类JobExecutionStatus扩展枚举(JobExecutionStatus]
- 特征JobSubmitter扩展AnyRef
处理通过一个函数传递给一个“运行”ComplexFutureAction可以提交作业的执行。
处理通过一个函数传递给一个“运行”ComplexFutureAction可以提交作业的执行。
- 注释
- @DeveloperApi ()
- 文摘类NarrowDependency(T]扩展依赖(T]
::DeveloperApi::基类的依赖关系,孩子的每个分区抽样取决于父抽样的少量的分区。
::DeveloperApi::基类的依赖关系,孩子的每个分区抽样取决于父抽样的少量的分区。狭窄的依赖让流水线执行。
- 注释
- @DeveloperApi ()
- 类OneToOneDependency(T]扩展NarrowDependency(T]
::DeveloperApi::代表一个分区之间的一对一依赖父母和孩子的抽样。
::DeveloperApi::代表一个分区之间的一对一依赖父母和孩子的抽样。
- 注释
- @DeveloperApi ()
- 特征分区扩展可序列化的
一个标识符的一个分区一个抽样。
- 文摘类瓜分者扩展可序列化的
对象定义元素的键-值对抽样的分区键。
对象定义元素的键-值对抽样的分区键。每个键映射到一个分区ID,从0到
numPartitions - 1
。注意,瓜分者必须是确定的,即它必须返回相同的分区id相同的分区键。
- 类RangeDependency(T]扩展NarrowDependency(T]
::DeveloperApi::代表一个一对一的依赖父母和孩子之间范围分区的抽样。
::DeveloperApi::代表一个一对一的依赖父母和孩子之间范围分区的抽样。
- 注释
- @DeveloperApi ()
- 类RangePartitioner(K,V]扩展瓜分者
一个org.apache.spark.Partitioner分区可排序的记录范围到大致相等的范围。
一个org.apache.spark.Partitioner分区可排序的记录范围到大致相等的范围。范围是由抽样抽样传入的内容。
- 请注意
-
由RangePartitioner创建分区的实际数量可能不是一样的
分区
参数,如果采样记录的数量小于的价值分区
。
- 类SerializableWritable(T <:可写的]扩展可序列化的
- 注释
- @DeveloperApi ()
- 类ShuffleDependency(K,V,C]扩展依赖(Product2(K,V]],日志记录
::DeveloperApi::代表一个依赖的输出洗牌阶段。
::DeveloperApi::代表一个依赖的输出洗牌阶段。请注意,在混乱的情况下,抽样是短暂的,因为我们不需要执行者。
- 注释
- @DeveloperApi ()
- 类SimpleFutureAction(T]扩展FutureAction(T]
一个FutureAction保持一个动作的结果,触发一个工作。
一个FutureAction保持一个动作的结果,触发一个工作。例子包括统计、收集、减少。
- 注释
- @DeveloperApi ()
- 类SparkConf扩展可克隆与日志记录与可序列化的
为火花应用程序配置。
为火花应用程序配置。用于设置各种火花参数键值对。
大多数时候,您将创建一个SparkConf对象
新的SparkConf ()
,这将从任何负载值火花。*
Java系统属性设置在您的应用程序。在这种情况下,直接在设置参数SparkConf
在系统属性对象优先。对于单元测试,您还可以打电话
新SparkConf(假)
跳过加载外部设置和获得相同的配置无论系统属性是什么。这个类中的所有setter方法支持链接。例如,您可以编写
新的SparkConf () .setMaster(“本地”)。setAppName(“我的应用”)
。- 请注意
-
一旦SparkConf对象传递给火花,克隆,用户不能修改。火花不支持在运行时修改配置。
- 类SparkContext扩展日志记录
主要入口点火花的功能。
主要入口点火花的功能。SparkContext代表连接火花集群,并且可以用于创建抽样,蓄电池和广播变量集群。
- 请注意
-
只有一个
SparkContext
应该每个JVM活跃。你必须stop ()
活动SparkContext
在创建一个新的。
- 类SparkEnv扩展日志记录
::DeveloperApi::持有所有运行的火花实例的运行时环境对象(主或工人),包括序列化器,RpcEnv,块经理、地图输出跟踪,等等。
::DeveloperApi::持有所有运行的火花实例的运行时环境对象(主或工人),包括序列化器,RpcEnv,块经理、地图输出跟踪,等。目前火花代码发现SparkEnv通过一个全局变量,所以所有的线程可以访问相同的SparkEnv。它可以被SparkEnv访问。(如创建SparkContext后)。
- 注释
- @DeveloperApi ()
- 类SparkException扩展异常与SparkThrowable
- 特征SparkExecutorInfo扩展可序列化的
- 类SparkFirehoseListener扩展SparkListenerInterface
- 注释
- @DeveloperApi ()
- 特征SparkJobInfo扩展可序列化的
- 特征SparkStageInfo扩展可序列化的
- 类SparkStatusTracker扩展AnyRef
低级状态报告api和阶段进度监控工作。
低级状态报告api和阶段进度监控工作。
这些api故意提供很弱一致性语义;这些api的消费者应该准备处理空/丢失的信息。例如,一个工作阶段id可能已知但地位API可能没有任何阶段的细节信息,所以
getStageInfo
可能会回来没有一个
一个有效的阶段id。限制内存使用,这些api只提供最近的工作/信息阶段。这些api提供信息
spark.ui.retainedStages
阶段,spark.ui.retainedJobs
就业机会。注意:这个类的构造函数应该考虑私人和可能会更改。
- 特征SparkThrowable扩展AnyRef
- 注释
- @Evolving ()
- 用例类TaskCommitDenied(jobID:Int,partitionID:Int,attemptNumber:Int)扩展TaskFailedReason与产品与可序列化的
::DeveloperApi::任务要求司机承诺,但被拒绝。
::DeveloperApi::任务要求司机承诺,但被拒绝。
- 注释
- @DeveloperApi ()
- 文摘类TaskContext扩展可序列化的
上下文信息的任务在执行期间可以读取或突变。
上下文信息的任务在执行期间可以读取或突变。访问TaskContext运行的任务,使用:
org.apache.spark.TaskContext.get ()
- 密封特征TaskEndReason扩展AnyRef
::DeveloperApi::各种可能原因一个任务结束。
::DeveloperApi::各种可能原因一个任务结束。底层TaskScheduler应该为“短暂”的失败重试几次任务,并且只报告失败,需要重新提交一些旧阶段,如洗牌地图获取失败。
- 注释
- @DeveloperApi ()
- 密封特征TaskFailedReason扩展TaskEndReason
::DeveloperApi::各种任务失败的可能原因。
::DeveloperApi::各种任务失败的可能原因。
- 注释
- @DeveloperApi ()
- 用例类TaskKilled(原因:字符串,accumUpdates:Seq(AccumulableInfo]=Seq.empty,accums:Seq(AccumulatorV2[_,_]]=零,metricPeaks:Seq(长]=Seq.empty)扩展TaskFailedReason与产品与可序列化的
::DeveloperApi::任务被故意和需要改期。
::DeveloperApi::任务被故意和需要改期。
- 注释
- @DeveloperApi ()
- 类TaskKilledException扩展RuntimeException
::DeveloperApi::异常抛出时的任务是明确(即死亡。预计,任务失败)。
::DeveloperApi::异常抛出时的任务是明确(即死亡。预计,任务失败)。
- 注释
- @DeveloperApi ()
值的成员
- 瓦尔SPARK_BRANCH:字符串
- 瓦尔SPARK_BUILD_DATE:字符串
- 瓦尔SPARK_BUILD_USER:字符串
- 瓦尔SPARK_REPO_URL:字符串
- 瓦尔SPARK_REVISION:字符串
- 瓦尔SPARK_VERSION:字符串
- 瓦尔SPARK_VERSION_SHORT:字符串
- 对象BarrierTaskContext扩展可序列化的
- 注释
- @Experimental () @Since (“测试盒框”)
- 对象瓜分者扩展可序列化的
- 对象重新提交扩展TaskFailedReason与产品与可序列化的
::DeveloperApi::
org.apache.spark.scheduler.ShuffleMapTask
成功完成之前,但我们失去了舞台前的遗嘱执行人完成。::DeveloperApi::
org.apache.spark.scheduler.ShuffleMapTask
成功完成之前,但我们失去了舞台前的遗嘱执行人完成。这意味着火花需要重新安排做任务在不同的执行者。- 注释
- @DeveloperApi ()
- 对象SparkContext扩展日志记录
SparkContext对象包含大量的隐式转换为使用各种火花特性和参数。
- 对象SparkEnv扩展日志记录
- 对象SparkFiles
解决路径文件通过补充道
SparkContext.addFile ()
。 - 对象成功扩展TaskEndReason与产品与可序列化的
::DeveloperApi::任务成功了。
::DeveloperApi::任务成功了。
- 注释
- @DeveloperApi ()
- 对象TaskContext扩展可序列化的
- 对象TaskResultLost扩展TaskFailedReason与产品与可序列化的
::DeveloperApi::任务成功完成,但结果是失去了遗嘱执行人的块经理之前获取。
::DeveloperApi::任务成功完成,但结果是失去了遗嘱执行人的块经理之前获取。
- 注释
- @DeveloperApi ()
- 对象UnknownReason扩展TaskFailedReason与产品与可序列化的
::DeveloperApi::我们不知道为什么——例如,任务结束时由于ClassNotFound异常反序列化任务的结果。
::DeveloperApi::我们不知道为什么——例如,任务结束时由于ClassNotFound异常反序列化任务的结果。
- 注释
- @DeveloperApi ()
- 对象WritableConverter扩展可序列化的
- 对象WritableFactory扩展可序列化的