类SparkSession扩展可序列化的与Closeable与日志记录
入口点和数据集和DataFrame API编程火花。
环境中创建了这个前期(例如REPL,笔记本电脑),使用builder获取现有的会话:
.getOrCreate SparkSession.builder () ()
建造者也可以用来创建一个新的会话:
SparkSession。建筑部分(“本地”).appName (“字数统计”). config (“spark.some.config.option”,“有价值”).getOrCreate ()
- 自我类型
- SparkSession
- 注释
- @Stable ()
- 字母
- 通过继承
- SparkSession
- 日志记录
- Closeable
- AutoCloseable
- 可序列化的
- 可序列化的
- AnyRef
- 任何
- 隐藏所有
- 显示所有
- 公共
- 所有
值的成员
- 最后def! =(arg0:任何):布尔
- 定义类
- AnyRef→任何
- 最后def# #():Int
- 定义类
- AnyRef→任何
- 最后def= =(arg0:任何):布尔
- 定义类
- AnyRef→任何
- 最后defasInstanceOf(T0]:T0
- 定义类
- 任何
- defbaseRelationToDataFrame(baseRelation:BaseRelation):DataFrame
把一个
BaseRelation
为外部数据源创建成一个DataFrame
。把一个
BaseRelation
为外部数据源创建成一个DataFrame
。- 自
-
2.0.0
- 懒惰的瓦尔目录:目录
界面,通过它,用户可以创建、删除、更改或查询底层数据库、表、函数等。
界面,通过它,用户可以创建、删除、更改或查询底层数据库、表、函数等。
- 注释
- @transient ()
- 自
-
2.0.0
- def克隆():AnyRef
- 属性
- 保护(朗]
- 定义类
- AnyRef
- 注释
- @throws (…) @native ()
- def关闭():单位
的同义词
stop ()
。的同义词
stop ()
。- 定义类
- SparkSession→Closeable→AutoCloseable
- 自
-
魅惑
- 懒惰的瓦尔相依:RuntimeConfig
为引发运行时配置界面。
为引发运行时配置界面。
通过这个界面,用户可以获取和设置所有火花和Hadoop配置相关的火花SQL。当配置的价值,这个默认值设置在底层
SparkContext
,如果任何。- 注释
- @transient ()
- 自
-
2.0.0
- defcreateDataFrame(数据:列表(_),beanClass:类(_)):DataFrame
一个模式适用于Java bean的列表。
一个模式适用于Java bean的列表。
警告:由于没有保证排序字段的Java Bean, SELECT *查询将返回的列定义的顺序。
- 自
-
1.6.0
- defcreateDataFrame(抽样:JavaRDD(_),beanClass:类(_)):DataFrame
一个模式适用于Java bean的一个抽样。
一个模式适用于Java bean的一个抽样。
警告:由于没有保证排序字段的Java Bean, SELECT *查询将返回的列定义的顺序。
- 自
-
2.0.0
- defcreateDataFrame(抽样:抽样(_),beanClass:类(_)):DataFrame
一个模式适用于Java bean的一个抽样。
一个模式适用于Java bean的一个抽样。
警告:由于没有保证排序字段的Java Bean, SELECT *查询将返回的列定义的顺序。
- 自
-
2.0.0
- defcreateDataFrame(行:列表(行],模式:StructType):DataFrame
::DeveloperApi::创建一个
DataFrame
从一个并不知道
包含行使用给定的模式。 - defcreateDataFrame(rowRDD:JavaRDD(行],模式:StructType):DataFrame
::DeveloperApi::创建一个
DataFrame
从一个JavaRDD
包含行使用给定的模式。 - defcreateDataFrame(rowRDD:抽样(行],模式:StructType):DataFrame
::DeveloperApi::创建一个
DataFrame
从一个抽样
包含行使用给定的模式。::DeveloperApi::创建一个
DataFrame
从一个抽样
包含行使用给定的模式。重要的是要确保所有的结构行提供的抽样匹配提供了模式。否则,将会有运行时异常。例子:进口org.apache.spark.sql._进口org.apache.spark.sql.types._瓦尔sparkSession =新org.apache.spark.sql.SparkSession (sc)瓦尔模式= StructType (StructField (“名称”StringType,假)::StructField (“年龄”IntegerType,真正的)::Nil)瓦尔人= sc.textFile (“例子/ src / main /资源/ people.txt”)。地图(_.split (”、“). map (p= >行(p (0)、p (1).trim.toInt))瓦尔dataFrame = sparkSession。createDataFrame(people, schema) dataFrame.printSchema/ /根/ / |——名称:字符串(nullable = false)/ / |——年龄:整数(nullable = true)dataFrame.createOrReplaceTempView (“人”)sparkSession.sql (“选择的名字的人”).collect.foreach println ()
- 注释
- @DeveloperApi ()
- 自
-
2.0.0
- defcreateDataFrame(<:产品](数据:Seq(一个])(隐式的arg0:scala.reflect.api.JavaUniverse.TypeTag(一个]):DataFrame
创建一个
DataFrame
从本地Seq的产品。创建一个
DataFrame
从本地Seq的产品。- 自
-
2.0.0
- defcreateDataFrame(<:产品](抽样:抽样(一个])(隐式的arg0:scala.reflect.api.JavaUniverse.TypeTag(一个]):DataFrame
创建一个
DataFrame
抽样的产品(如。创建一个
DataFrame
从一个抽样的产品(例如case类、元组)。- 自
-
2.0.0
- defcreateDataset(T](数据:列表(T])(隐式的arg0:编码器(T]):数据集(T]
创建一个数据集从一个
并不知道
一个给定的类型。 - defcreateDataset(T](数据:抽样(T])(隐式的arg0:编码器(T]):数据集(T]
创建一个数据集从一个给定类型的抽样。
- defcreateDataset(T](数据:Seq(T])(隐式的arg0:编码器(T]):数据集(T]
创建一个数据集从本地Seq给定类型的数据。
创建一个数据集从本地Seq给定类型的数据。这个方法需要一个编码器(将一个JVM类型的对象
T
从内部引发SQL表示),通常是通过自动创建从一个值得一提的SparkSession
,或者可以显式地调用静态方法创建编码器。例子
进口spark.implicits._情况下类人(名字:字符串年龄:长)瓦尔data =Seq(人“迈克尔”,29日)、人(“安迪”,30.)、人(“贾斯汀”,19))瓦尔ds = spark.createDataset(数据)ds.show ()/ / + - - - - - - - + - - - +/ /年龄| | |名称/ / + - - - - - - - + - - - +/ / Michael | | | 29日/ / |安迪30 | |/ / |贾斯汀19 | |/ / + - - - - - - - + - - - +
- 自
-
2.0.0
- 懒惰的瓦尔emptyDataFrame:DataFrame
返回一个
DataFrame
没有行或列。返回一个
DataFrame
没有行或列。- 注释
- @transient ()
- 自
-
2.0.0
- defemptyDataset(T](隐式的arg0:编码器(T]):数据集(T]
创建一个新的数据集T型包含零元素。
创建一个新的数据集T型包含零元素。
- 返回
-
2.0.0
- 最后def情商(arg0:AnyRef):布尔
- 定义类
- AnyRef
- def=(arg0:任何):布尔
- 定义类
- AnyRef→任何
- defexecuteCommand(运动员:字符串,命令:字符串,选项:地图(字符串,字符串]):DataFrame
执行任意命令字符串内部外部的执行引擎,而不是火花。
执行任意命令字符串内部外部的执行引擎,而不是火花。这可能是有用的,当用户想要执行一些命令的火花。例如,JDBC执行定制的DDL和DML命令,为ElasticSearch创建索引,为Solr创造核心等等。
会急切地执行的命令调用此方法后,返回DataFrame将包含命令的输出(如果有的话)。
- 跑步者
-
实现的类名跑步者
ExternalCommandRunner
。 - 命令
-
目标要执行的命令
- 选项
-
跑步者的选择。
- 注释
- @Unstable ()
- 自
-
3.0.0
- def实验:ExperimentalMethods
::实验::一个集合被认为是实验的方法,但可以用来钩到高级功能的查询计划。
::实验::一个集合被认为是实验的方法,但可以用来钩到高级功能的查询计划。
- 注释
- @Experimental () @Unstable ()
- 自
-
2.0.0
- def完成():单位
- 属性
- 保护(朗]
- 定义类
- AnyRef
- 注释
- @throws (名为[java.lang.Throwable] classOf)
- 最后defgetClass():类(_)
- 定义类
- AnyRef→任何
- 注释
- @native ()
- defhashCode():Int
- 定义类
- AnyRef→任何
- 注释
- @native ()
- definitializeLogIfNecessary(isInterpreter:布尔,沉默:布尔):布尔
- 属性
- 受保护的
- 定义类
- 日志记录
- definitializeLogIfNecessary(isInterpreter:布尔):单位
- 属性
- 受保护的
- 定义类
- 日志记录
- 最后defisInstanceOf(T0]:布尔
- 定义类
- 任何
- defisTraceEnabled():布尔
- 属性
- 受保护的
- 定义类
- 日志记录
- deflistenerManager:ExecutionListenerManager
注册自定义的接口org.apache.spark.sql.util.QueryExecutionListener年代,监听执行度量。
注册自定义的接口org.apache.spark.sql.util.QueryExecutionListener年代,监听执行度量。
- 自
-
2.0.0
- def日志:日志记录器
- 属性
- 受保护的
- 定义类
- 日志记录
- deflogDebug(味精:⇒字符串,throwable:Throwable):单位
- 属性
- 受保护的
- 定义类
- 日志记录
- deflogDebug(味精:⇒字符串):单位
- 属性
- 受保护的
- 定义类
- 日志记录
- deflogError(味精:⇒字符串,throwable:Throwable):单位
- 属性
- 受保护的
- 定义类
- 日志记录
- deflogError(味精:⇒字符串):单位
- 属性
- 受保护的
- 定义类
- 日志记录
- deflogInfo(味精:⇒字符串,throwable:Throwable):单位
- 属性
- 受保护的
- 定义类
- 日志记录
- deflogInfo(味精:⇒字符串):单位
- 属性
- 受保护的
- 定义类
- 日志记录
- deflogName:字符串
- 属性
- 受保护的
- 定义类
- 日志记录
- deflogTrace(味精:⇒字符串,throwable:Throwable):单位
- 属性
- 受保护的
- 定义类
- 日志记录
- deflogTrace(味精:⇒字符串):单位
- 属性
- 受保护的
- 定义类
- 日志记录
- deflogWarning(味精:⇒字符串,throwable:Throwable):单位
- 属性
- 受保护的
- 定义类
- 日志记录
- deflogWarning(味精:⇒字符串):单位
- 属性
- 受保护的
- 定义类
- 日志记录
- 最后def不(arg0:AnyRef):布尔
- 定义类
- AnyRef
- defnewSession():SparkSession
开始一个新的会话与孤立的SQL配置、临时表、注册功能是孤立的,但共享底层
SparkContext
和缓存数据。开始一个新的会话与孤立的SQL配置、临时表、注册功能是孤立的,但共享底层
SparkContext
和缓存数据。- 自
-
2.0.0
- 请注意
-
以外的其他
SparkContext
,所有的共享状态延迟初始化。这种方法将迫使共享状态的初始化,确保父母和孩子会话设置相同的共享状态。如果底层的目录实现蜂巢,这将初始化metastore,这可能需要一些时间。
- 最后def通知():单位
- 定义类
- AnyRef
- 注释
- @native ()
- 最后defnotifyAll():单位
- 定义类
- AnyRef
- 注释
- @native ()
- defparseDataType(dataTypeString:字符串):数据类型
解析数据类型在我们内部的字符串表示。
解析数据类型在我们内部的字符串表示。的数据类型的字符串应该有相同的格式生成的一个
toString
在scala中。只有PySpark使用。- 属性
- 保护(spark.sql]
- def范围(开始:长,结束:长,步骤:长,numPartitions:Int):数据集(长]
创建一个数据集用一个
LongType
列命名id
,包含元素的范围从开始
来结束
(独家)与价值,一步指定分区号。创建一个数据集用一个
LongType
列命名id
,包含元素的范围从开始
来结束
(独家)与价值,一步指定分区号。- 自
-
2.0.0
- def范围(开始:长,结束:长,步骤:长):数据集(长]
创建一个数据集用一个
LongType
列命名id
,包含元素的范围从开始
来结束
(独家)价值迈出的一步。创建一个数据集用一个
LongType
列命名id
,包含元素的范围从开始
来结束
(独家)价值迈出的一步。- 自
-
2.0.0
- def范围(开始:长,结束:长):数据集(长]
创建一个数据集用一个
LongType
列命名id
,包含元素的范围从开始
来结束
(独家)值1步。创建一个数据集用一个
LongType
列命名id
,包含元素的范围从开始
来结束
(独家)值1步。- 自
-
2.0.0
- def范围(结束:长):数据集(长]
创建一个数据集用一个
LongType
列命名id
,包含元素的范围从0到结束
(独家)值1步。创建一个数据集用一个
LongType
列命名id
,包含元素的范围从0到结束
(独家)值1步。- 自
-
2.0.0
- def读:DataFrameReader
返回一个DataFrameReader可以用来作为读取非流式数据
DataFrame
。返回一个DataFrameReader可以用来作为读取非流式数据
DataFrame
。sparkSession.read.parquet (“/道路/ / file.parquet”)sparkSession.read.schema(模式). json (“/道路/ / file.json”)
- 自
-
2.0.0
- defreadStream:DataStreamReader
返回一个
DataStreamReader
可以作为一个用于读取流数据DataFrame
。返回一个
DataStreamReader
可以作为一个用于读取流数据DataFrame
。sparkSession.readStream.parquet (“/道路/ /拼花/文件/目录/”)sparkSession.readStream.schema(模式). json (“/道路/ / / json /目录/文件”)
- 自
-
2.0.0
- 懒惰的瓦尔sessionState:SessionState
国家孤立的跨会话,包括SQL配置、临时表、注册功能,和接受的一切org.apache.spark.sql.internal.SQLConf。
国家孤立的跨会话,包括SQL配置、临时表、注册功能,和接受的一切org.apache.spark.sql.internal.SQLConf。如果
parentSessionState
不是null,SessionState
将父母的一个副本。这是内部引发和没有保证界面的稳定性。
- 注释
- @Unstable () @transient ()
- 自
-
2.2.0
- 懒惰的瓦尔sharedState:SharedState
国家之间共享会话,包括
SparkContext
缓存数据,侦听器,与外部系统交互的一个目录。国家之间共享会话,包括
SparkContext
缓存数据,侦听器,与外部系统交互的一个目录。这是内部引发和没有保证界面的稳定性。
- 注释
- @Unstable () @transient ()
- 自
-
2.2.0
- 瓦尔sparkContext:SparkContext
- defsql(sqlText:字符串):DataFrame
使用火花,执行一个SQL查询返回的结果
DataFrame
。使用火花,执行一个SQL查询返回的结果
DataFrame
。这个API急切地运行DDL和DML命令,而不是选择查询。- 自
-
2.0.0
- 瓦尔sqlContext:SQLContext
包版本的会话的形式SQLContext向后兼容性。
包版本的会话的形式SQLContext向后兼容性。
- 自
-
2.0.0
- def停止():单位
阻止潜在的
SparkContext
。阻止潜在的
SparkContext
。- 自
-
2.0.0
- def流:StreamingQueryManager
返回一个
StreamingQueryManager
让所有的管理StreamingQuery
年代活跃这
。返回一个
StreamingQueryManager
让所有的管理StreamingQuery
年代活跃这
。- 注释
- @Unstable ()
- 自
-
2.0.0
- 最后def同步(T0](arg0:⇒T0):T0
- 定义类
- AnyRef
- def表(表名:字符串):DataFrame
返回指定的表/视图作为
DataFrame
。返回指定的表/视图作为
DataFrame
。如果它是一个表,它必须支持批处理阅读和返回的DataFrame批量扫描这个表的查询计划。如果它是一个视图,返回DataFrame只是视图的查询计划,这可以是一个批处理或流查询计划。- 的表
-
合格或不合格的名称指定一个表或视图。如果指定一个数据库,它从数据库中标识表/视图。否则,它首先试图找到一个临时视图与给定的名称,然后匹配当前数据库的表/视图。注意,这里的全局临时视图数据库也是有效的。
- 自
-
2.0.0
- def时间(T](f:⇒T):T
执行一些代码块和打印到stdout的时间执行。
执行一些代码块和打印到stdout的时间执行。这是仅在Scala中可用,主要用于交互式测试和调试。
- 自
-
魅惑
- deftoString():字符串
- 定义类
- AnyRef→任何
- defudf:UDFRegistration
一组注册用户定义函数(UDF)的方法。
一组注册用户定义函数(UDF)的方法。
下面的例子会注册一个Scala UDF关闭:
sparkSession.udf.register (“myUDF”,(__arg1:Int最长:字符串)= >最长+ __arg1)
下面的例子会注册一个Java UDF:
sparkSession.udf () .register (“myUDF”(整数__arg1、字符串最长)- >最长+ __arg1、DataTypes.StringType);
- 自
-
2.0.0
- 请注意
-
用户定义的函数必须是确定的。由于优化,重复调用可能被淘汰或甚至可能调用的函数多次出现在查询。
- def版本:字符串
火花的版本运行该应用程序。
火花的版本运行该应用程序。
- 自
-
2.0.0
- 最后def等待():单位
- 定义类
- AnyRef
- 注释
- @throws (…)
- 最后def等待(arg0:长,__arg1:Int):单位
- 定义类
- AnyRef
- 注释
- @throws (…)
- 最后def等待(arg0:长):单位
- 定义类
- AnyRef
- 注释
- @throws (…) @native ()
- 对象值得一提的扩展SQLImplicits与可序列化的
(Scala-specific)隐式方法可用在Scala中常见的Scala对象转换成
DataFrame
年代。(Scala-specific)隐式方法可用在Scala中常见的Scala对象转换成
DataFrame
年代。瓦尔sparkSession = SparkSession.builder.getOrCreate ()进口sparkSession.implicits._
- 自
-
2.0.0