砖Scala API——org.apache.spark.sql.SparkSession火花 - bob下载地址,bob体育客户端下载,bob体育外网下载

最后def! =(arg0:任何):布尔

定义类: AnyRef→任何

最后def# #():Int

定义类: AnyRef→任何

最后def= =(arg0:任何):布尔

定义类: AnyRef→任何

最后defasInstanceOf(T0]:T0

定义类: 任何

defbaseRelationToDataFrame(baseRelation:BaseRelation):DataFrame

把一个BaseRelation为外部数据源创建成一个DataFrame。

自: 2.0.0

界面,通过它,用户可以创建、删除、更改或查询底层数据库、表、函数等。

注释: @transient ()
自: 2.0.0

def克隆():AnyRef

属性: 保护(朗]
定义类: AnyRef
注释: @throws (…) @native ()

def关闭():单位

的同义词stop ()。

定义类: SparkSession→Closeable→AutoCloseable
自: 魅惑

懒惰的瓦尔相依:RuntimeConfig

为引发运行时配置界面。

通过这个界面,用户可以获取和设置所有火花和Hadoop配置相关的火花SQL。当配置的价值,这个默认值设置在底层SparkContext,如果任何。

注释: @transient ()
自: 2.0.0

defcreateDataFrame(数据:列表(_),beanClass:类(_)):DataFrame

一个模式适用于Java bean的列表。

警告:由于没有保证排序字段的Java Bean, SELECT *查询将返回的列定义的顺序。

自: 1.6.0

defcreateDataFrame(抽样:JavaRDD(_),beanClass:类(_)):DataFrame

一个模式适用于Java bean的一个抽样。

警告:由于没有保证排序字段的Java Bean, SELECT *查询将返回的列定义的顺序。

自: 2.0.0

defcreateDataFrame(抽样:抽样(_),beanClass:类(_)):DataFrame

一个模式适用于Java bean的一个抽样。

警告:由于没有保证排序字段的Java Bean, SELECT *查询将返回的列定义的顺序。

自: 2.0.0

defcreateDataFrame(行:列表(行],模式:StructType):DataFrame

::DeveloperApi::创建一个DataFrame从一个并不知道包含行使用给定的模式。

::DeveloperApi::创建一个DataFrame从一个并不知道包含行使用给定的模式。重要的是要确保所有的结构行提供列表的匹配提供的模式。否则,将会有运行时异常。

注释: @DeveloperApi ()
自: 2.0.0

defcreateDataFrame(rowRDD:JavaRDD(行],模式:StructType):DataFrame

::DeveloperApi::创建一个DataFrame从一个JavaRDD包含行使用给定的模式。

::DeveloperApi::创建一个DataFrame从一个JavaRDD包含行使用给定的模式。重要的是要确保所有的结构行提供的抽样匹配提供了模式。否则,将会有运行时异常。

注释: @DeveloperApi ()
自: 2.0.0

defcreateDataFrame(rowRDD:抽样(行],模式:StructType):DataFrame

::DeveloperApi::创建一个DataFrame从一个抽样包含行使用给定的模式。

::DeveloperApi::创建一个DataFrame从一个抽样包含行使用给定的模式。重要的是要确保所有的结构行提供的抽样匹配提供了模式。否则,将会有运行时异常。例子:

进口org.apache.spark.sql._进口org.apache.spark.sql.types._瓦尔sparkSession =新org.apache.spark.sql.SparkSession (sc)瓦尔模式= StructType (StructField (“名称”StringType,假)::StructField (“年龄”IntegerType,真正的)::Nil)瓦尔人= sc.textFile (“例子/ src / main /资源/ people.txt”)。地图(_.split (”、“). map (p= >行(p (0)、p (1).trim.toInt))瓦尔dataFrame = sparkSession。createDataFrame(people, schema) dataFrame.printSchema/ /根/ / |——名称:字符串(nullable = false)/ / |——年龄:整数(nullable = true)dataFrame.createOrReplaceTempView (“人”)sparkSession.sql (“选择的名字的人”).collect.foreach println ()

注释: @DeveloperApi ()
自: 2.0.0

defcreateDataFrame(<:产品](数据:Seq(一个])(隐式的arg0:scala.reflect.api.JavaUniverse.TypeTag(一个]):DataFrame

创建一个DataFrame从本地Seq的产品。

自: 2.0.0

defcreateDataFrame(<:产品](抽样:抽样(一个])(隐式的arg0:scala.reflect.api.JavaUniverse.TypeTag(一个]):DataFrame

创建一个DataFrame抽样的产品(如。

创建一个DataFrame从一个抽样的产品(例如case类、元组)。

自: 2.0.0

defcreateDataset(T](数据:列表(T])(隐式的arg0:编码器(T]):数据集(T]

创建一个数据集从一个并不知道一个给定的类型。

创建一个数据集从一个并不知道一个给定的类型。这个方法需要一个编码器(将一个JVM类型的对象T从内部引发SQL表示),通常是通过自动创建从一个值得一提的SparkSession,或者可以显式地调用静态方法创建编码器。

Java示例

列表<字符串> data = arrays . aslist (“你好”,“世界”);数据集<字符串> ds =火花。createDataset(data, Encoders.STRING());

自: 2.0.0

defcreateDataset(T](数据:抽样(T])(隐式的arg0:编码器(T]):数据集(T]

创建一个数据集从一个给定类型的抽样。

创建一个数据集从一个给定类型的抽样。这个方法需要一个编码器(将一个JVM类型的对象T从内部引发SQL表示),通常是通过自动创建从一个值得一提的SparkSession,或者可以显式地调用静态方法创建编码器。

自: 2.0.0

defcreateDataset(T](数据:Seq(T])(隐式的arg0:编码器(T]):数据集(T]

创建一个数据集从本地Seq给定类型的数据。

创建一个数据集从本地Seq给定类型的数据。这个方法需要一个编码器(将一个JVM类型的对象T从内部引发SQL表示),通常是通过自动创建从一个值得一提的SparkSession,或者可以显式地调用静态方法创建编码器。

例子

进口spark.implicits._情况下类人(名字:字符串年龄:长)瓦尔data =Seq(人“迈克尔”,29日)、人(“安迪”,30.)、人(“贾斯汀”,19))瓦尔ds = spark.createDataset(数据)ds.show ()/ / + - - - - - - - + - - - +/ /年龄| | |名称/ / + - - - - - - - + - - - +/ / Michael | | | 29日/ / |安迪30 | |/ / |贾斯汀19 | |/ / + - - - - - - - + - - - +

自: 2.0.0

懒惰的瓦尔emptyDataFrame:DataFrame

返回一个DataFrame没有行或列。

注释: @transient ()
自: 2.0.0

defemptyDataset(T](隐式的arg0:编码器(T]):数据集(T]

创建一个新的数据集T型包含零元素。

返回: 2.0.0

最后def情商(arg0:AnyRef):布尔

定义类: AnyRef

def=(arg0:任何):布尔

定义类: AnyRef→任何

defexecuteCommand(运动员:字符串,命令:字符串,选项:地图(字符串,字符串]):DataFrame

执行任意命令字符串内部外部的执行引擎,而不是火花。

执行任意命令字符串内部外部的执行引擎,而不是火花。这可能是有用的,当用户想要执行一些命令的火花。例如,JDBC执行定制的DDL和DML命令,为ElasticSearch创建索引,为Solr创造核心等等。

会急切地执行的命令调用此方法后,返回DataFrame将包含命令的输出(如果有的话)。

跑步者: 实现的类名跑步者ExternalCommandRunner。
命令: 目标要执行的命令
选项: 跑步者的选择。

注释: @Unstable ()
自: 3.0.0

def实验:ExperimentalMethods

::实验::一个集合被认为是实验的方法,但可以用来钩到高级功能的查询计划。

注释: @Experimental () @Unstable ()
自: 2.0.0

def完成():单位

属性: 保护(朗]
定义类: AnyRef
注释: @throws (名为[java.lang.Throwable] classOf)

最后defgetClass():类(_)

定义类: AnyRef→任何
注释: @native ()

defhashCode():Int

定义类: AnyRef→任何
注释: @native ()

definitializeLogIfNecessary(isInterpreter:布尔,沉默:布尔):布尔

属性: 受保护的
定义类: 日志记录

definitializeLogIfNecessary(isInterpreter:布尔):单位

属性: 受保护的
定义类: 日志记录

最后defisInstanceOf(T0]:布尔

定义类: 任何

defisTraceEnabled():布尔

属性: 受保护的
定义类: 日志记录

deflistenerManager:ExecutionListenerManager

注册自定义的接口org.apache.spark.sql.util.QueryExecutionListener年代,监听执行度量。

自: 2.0.0

def日志:日志记录器

属性: 受保护的
定义类: 日志记录

deflogDebug(味精:⇒字符串,throwable:Throwable):单位

属性: 受保护的
定义类: 日志记录

deflogDebug(味精:⇒字符串):单位

属性: 受保护的
定义类: 日志记录

deflogError(味精:⇒字符串,throwable:Throwable):单位

属性: 受保护的
定义类: 日志记录

deflogError(味精:⇒字符串):单位

属性: 受保护的
定义类: 日志记录

deflogInfo(味精:⇒字符串,throwable:Throwable):单位

属性: 受保护的
定义类: 日志记录

deflogInfo(味精:⇒字符串):单位

属性: 受保护的
定义类: 日志记录

deflogName:字符串

属性: 受保护的
定义类: 日志记录

deflogTrace(味精:⇒字符串,throwable:Throwable):单位

属性: 受保护的
定义类: 日志记录

deflogTrace(味精:⇒字符串):单位

属性: 受保护的
定义类: 日志记录

deflogWarning(味精:⇒字符串,throwable:Throwable):单位

属性: 受保护的
定义类: 日志记录

deflogWarning(味精:⇒字符串):单位

属性: 受保护的
定义类: 日志记录

最后def不(arg0:AnyRef):布尔

定义类: AnyRef

defnewSession():SparkSession

开始一个新的会话与孤立的SQL配置、临时表、注册功能是孤立的,但共享底层SparkContext和缓存数据。

自: 2.0.0
请注意: 以外的其他SparkContext,所有的共享状态延迟初始化。这种方法将迫使共享状态的初始化,确保父母和孩子会话设置相同的共享状态。如果底层的目录实现蜂巢,这将初始化metastore,这可能需要一些时间。

最后def通知():单位

定义类: AnyRef
注释: @native ()

最后defnotifyAll():单位

定义类: AnyRef
注释: @native ()

defparseDataType(dataTypeString:字符串):数据类型

解析数据类型在我们内部的字符串表示。

解析数据类型在我们内部的字符串表示。的数据类型的字符串应该有相同的格式生成的一个toString在scala中。只有PySpark使用。

属性: 保护(spark.sql]

def范围(开始:长,结束:长,步骤:长,numPartitions:Int):数据集(长]

创建一个数据集用一个LongType列命名id,包含元素的范围从开始来结束(独家)与价值,一步指定分区号。

自: 2.0.0

def范围(开始:长,结束:长,步骤:长):数据集(长]

创建一个数据集用一个LongType列命名id,包含元素的范围从开始来结束(独家)价值迈出的一步。

自: 2.0.0

def范围(开始:长,结束:长):数据集(长]

创建一个数据集用一个LongType列命名id,包含元素的范围从开始来结束(独家)值1步。

自: 2.0.0

def范围(结束:长):数据集(长]

创建一个数据集用一个LongType列命名id,包含元素的范围从0到结束(独家)值1步。

自: 2.0.0

def读:DataFrameReader

返回一个DataFrameReader可以用来作为读取非流式数据DataFrame。

sparkSession.read.parquet (“/道路/ / file.parquet”)sparkSession.read.schema(模式). json (“/道路/ / file.json”)

自: 2.0.0

defreadStream:DataStreamReader

返回一个DataStreamReader可以作为一个用于读取流数据DataFrame。

sparkSession.readStream.parquet (“/道路/ /拼花/文件/目录/”)sparkSession.readStream.schema(模式). json (“/道路/ / / json /目录/文件”)

自: 2.0.0

懒惰的瓦尔sessionState:SessionState

国家孤立的跨会话,包括SQL配置、临时表、注册功能,和接受的一切org.apache.spark.sql.internal.SQLConf。

国家孤立的跨会话,包括SQL配置、临时表、注册功能,和接受的一切org.apache.spark.sql.internal.SQLConf。如果parentSessionState不是null,SessionState将父母的一个副本。

这是内部引发和没有保证界面的稳定性。

注释: @Unstable () @transient ()
自: 2.2.0

懒惰的瓦尔sharedState:SharedState

国家之间共享会话,包括SparkContext缓存数据,侦听器,与外部系统交互的一个目录。

这是内部引发和没有保证界面的稳定性。

注释: @Unstable () @transient ()
自: 2.2.0

瓦尔sparkContext:SparkContext

defsql(sqlText:字符串):DataFrame

使用火花,执行一个SQL查询返回的结果DataFrame。

使用火花,执行一个SQL查询返回的结果DataFrame。这个API急切地运行DDL和DML命令,而不是选择查询。

自: 2.0.0

瓦尔sqlContext:SQLContext

包版本的会话的形式SQLContext向后兼容性。

自: 2.0.0

def停止():单位

阻止潜在的SparkContext。

自: 2.0.0

def流:StreamingQueryManager

返回一个StreamingQueryManager让所有的管理StreamingQuery年代活跃这。

注释: @Unstable ()
自: 2.0.0

最后def同步(T0](arg0:⇒T0):T0

定义类: AnyRef

def表(表名:字符串):DataFrame

返回指定的表/视图作为DataFrame。

返回指定的表/视图作为DataFrame。如果它是一个表,它必须支持批处理阅读和返回的DataFrame批量扫描这个表的查询计划。如果它是一个视图,返回DataFrame只是视图的查询计划,这可以是一个批处理或流查询计划。

的表: 合格或不合格的名称指定一个表或视图。如果指定一个数据库,它从数据库中标识表/视图。否则,它首先试图找到一个临时视图与给定的名称,然后匹配当前数据库的表/视图。注意,这里的全局临时视图数据库也是有效的。

自: 2.0.0

def时间(T](f:⇒T):T

执行一些代码块和打印到stdout的时间执行。

执行一些代码块和打印到stdout的时间执行。这是仅在Scala中可用,主要用于交互式测试和调试。

自: 魅惑

deftoString():字符串

定义类: AnyRef→任何

defudf:UDFRegistration

一组注册用户定义函数(UDF)的方法。

下面的例子会注册一个Scala UDF关闭:

sparkSession.udf.register (“myUDF”,(__arg1:Int最长:字符串)= >最长+ __arg1)

下面的例子会注册一个Java UDF:

sparkSession.udf () .register (“myUDF”(整数__arg1、字符串最长)- >最长+ __arg1、DataTypes.StringType);

自: 2.0.0
请注意: 用户定义的函数必须是确定的。由于优化,重复调用可能被淘汰或甚至可能调用的函数多次出现在查询。

def版本:字符串

火花的版本运行该应用程序。

自: 2.0.0

最后def等待():单位

定义类: AnyRef
注释: @throws (…)

最后def等待(arg0:长,__arg1:Int):单位

定义类: AnyRef
注释: @throws (…)

最后def等待(arg0:长):单位

定义类: AnyRef
注释: @throws (…) @native ()

对象值得一提的扩展SQLImplicits与可序列化的

(Scala-specific)隐式方法可用在Scala中常见的Scala对象转换成DataFrame年代。

瓦尔sparkSession = SparkSession.builder.getOrCreate ()进口sparkSession.implicits._

自: 2.0.0

包

SparkSession

同伴对象SparkSession

类SparkSession扩展可序列化的与Closeable与日志记录

值的成员

Java示例

例子

继承自日志记录

继承自Closeable

继承自AutoCloseable

继承自可序列化的

继承自可序列化的

继承自AnyRef

继承自任何

未分组的

包

SparkSession

同伴对象SparkSession

类SparkSession扩展可序列化的与Closeable与日志记录

值的成员

Java示例

例子

继承自日志记录

继承自Closeable

继承自AutoCloseable

继承自可序列化的

继承自可序列化的

继承自AnyRef

继承自任何

未分组的

SparkSession