SparkSession扩展可序列化的Closeable日志记录

入口点和数据集和DataFrame API编程火花。

环境中创建了这个前期(例如REPL,笔记本电脑),使用builder获取现有的会话:

.getOrCreate SparkSession.builder () ()

建造者也可以用来创建一个新的会话:

SparkSession。建筑部分(“本地”).appName (“字数统计”). config (“spark.some.config.option”,“有价值”).getOrCreate ()
自我类型
SparkSession
注释
@Stable ()
线性超
日志记录,Closeable,AutoCloseable,可序列化的,可序列化的,AnyRef,任何
订购
  1. 字母
  2. 通过继承
继承了
  1. SparkSession
  2. 日志记录
  3. Closeable
  4. AutoCloseable
  5. 可序列化的
  6. 可序列化的
  7. AnyRef
  8. 任何
  1. 隐藏所有
  2. 显示所有
可见性
  1. 公共
  2. 所有

值的成员

  1. 最后def! =(arg0:任何):布尔
    定义类
    AnyRef→任何
  2. 最后def# #():Int
    定义类
    AnyRef→任何
  3. 最后def= =(arg0:任何):布尔
    定义类
    AnyRef→任何
  4. 最后defasInstanceOf(T0]:T0
    定义类
    任何
  5. defbaseRelationToDataFrame(baseRelation:BaseRelation):DataFrame

    把一个BaseRelation为外部数据源创建成一个DataFrame

    把一个BaseRelation为外部数据源创建成一个DataFrame

    2.0.0

  6. 懒惰的瓦尔目录:目录

    界面,通过它,用户可以创建、删除、更改或查询底层数据库、表、函数等。

    界面,通过它,用户可以创建、删除、更改或查询底层数据库、表、函数等。

    注释
    @transient ()

    2.0.0

  7. def克隆():AnyRef
    属性
    保护(]
    定义类
    AnyRef
    注释
    @throws () @native ()
  8. def关闭():单位

    的同义词stop ()

    的同义词stop ()

    定义类
    SparkSession→Closeable→AutoCloseable

    魅惑

  9. 懒惰的瓦尔相依:RuntimeConfig

    为引发运行时配置界面。

    为引发运行时配置界面。

    通过这个界面,用户可以获取和设置所有火花和Hadoop配置相关的火花SQL。当配置的价值,这个默认值设置在底层SparkContext,如果任何。

    注释
    @transient ()

    2.0.0

  10. defcreateDataFrame(数据:列表(_),beanClass:(_)):DataFrame

    一个模式适用于Java bean的列表。

    一个模式适用于Java bean的列表。

    警告:由于没有保证排序字段的Java Bean, SELECT *查询将返回的列定义的顺序。

    1.6.0

  11. defcreateDataFrame(抽样:JavaRDD(_),beanClass:(_)):DataFrame

    一个模式适用于Java bean的一个抽样。

    一个模式适用于Java bean的一个抽样。

    警告:由于没有保证排序字段的Java Bean, SELECT *查询将返回的列定义的顺序。

    2.0.0

  12. defcreateDataFrame(抽样:抽样(_),beanClass:(_)):DataFrame

    一个模式适用于Java bean的一个抽样。

    一个模式适用于Java bean的一个抽样。

    警告:由于没有保证排序字段的Java Bean, SELECT *查询将返回的列定义的顺序。

    2.0.0

  13. defcreateDataFrame(行:列表(],模式:StructType):DataFrame

    ::DeveloperApi::创建一个DataFrame从一个并不知道包含使用给定的模式。

    ::DeveloperApi::创建一个DataFrame从一个并不知道包含使用给定的模式。重要的是要确保所有的结构提供列表的匹配提供的模式。否则,将会有运行时异常。

    注释
    @DeveloperApi ()

    2.0.0

  14. defcreateDataFrame(rowRDD:JavaRDD(],模式:StructType):DataFrame

    ::DeveloperApi::创建一个DataFrame从一个JavaRDD包含使用给定的模式。

    ::DeveloperApi::创建一个DataFrame从一个JavaRDD包含使用给定的模式。重要的是要确保所有的结构提供的抽样匹配提供了模式。否则,将会有运行时异常。

    注释
    @DeveloperApi ()

    2.0.0

  15. defcreateDataFrame(rowRDD:抽样(],模式:StructType):DataFrame

    ::DeveloperApi::创建一个DataFrame从一个抽样包含使用给定的模式。

    ::DeveloperApi::创建一个DataFrame从一个抽样包含使用给定的模式。重要的是要确保所有的结构提供的抽样匹配提供了模式。否则,将会有运行时异常。例子:

    进口org.apache.spark.sql._进口org.apache.spark.sql.types._瓦尔sparkSession =org.apache.spark.sql.SparkSession (sc)瓦尔模式= StructType (StructField (“名称”StringType,)::StructField (“年龄”IntegerType,真正的)::Nil)瓦尔人= sc.textFile (“例子/ src / main /资源/ people.txt”)。地图(_.split (”、“). map (p= >行(p (0)、p (1).trim.toInt))瓦尔dataFrame = sparkSession。createDataFrame(people, schema) dataFrame.printSchema/ /根/ / |——名称:字符串(nullable = false)/ / |——年龄:整数(nullable = true)dataFrame.createOrReplaceTempView (“人”)sparkSession.sql (“选择的名字的人”).collect.foreach println ()
    注释
    @DeveloperApi ()

    2.0.0

  16. defcreateDataFrame(<:产品](数据:Seq(一个])(隐式的arg0:scala.reflect.api.JavaUniverse.TypeTag(一个]):DataFrame

    创建一个DataFrame从本地Seq的产品。

    创建一个DataFrame从本地Seq的产品。

    2.0.0

  17. defcreateDataFrame(<:产品](抽样:抽样(一个])(隐式的arg0:scala.reflect.api.JavaUniverse.TypeTag(一个]):DataFrame

    创建一个DataFrame抽样的产品(如。

    创建一个DataFrame从一个抽样的产品(例如case类、元组)。

    2.0.0

  18. defcreateDataset(T](数据:列表(T])(隐式的arg0:编码器(T]):数据集(T]

    创建一个数据集从一个并不知道一个给定的类型。

    创建一个数据集从一个并不知道一个给定的类型。这个方法需要一个编码器(将一个JVM类型的对象T从内部引发SQL表示),通常是通过自动创建从一个值得一提的SparkSession,或者可以显式地调用静态方法创建编码器

    Java示例

    列表<字符串> data = arrays . aslist (“你好”,“世界”);数据集<字符串> ds =火花。createDataset(data, Encoders.STRING());

    2.0.0

  19. defcreateDataset(T](数据:抽样(T])(隐式的arg0:编码器(T]):数据集(T]

    创建一个数据集从一个给定类型的抽样。

    创建一个数据集从一个给定类型的抽样。这个方法需要一个编码器(将一个JVM类型的对象T从内部引发SQL表示),通常是通过自动创建从一个值得一提的SparkSession,或者可以显式地调用静态方法创建编码器

    2.0.0

  20. defcreateDataset(T](数据:Seq(T])(隐式的arg0:编码器(T]):数据集(T]

    创建一个数据集从本地Seq给定类型的数据。

    创建一个数据集从本地Seq给定类型的数据。这个方法需要一个编码器(将一个JVM类型的对象T从内部引发SQL表示),通常是通过自动创建从一个值得一提的SparkSession,或者可以显式地调用静态方法创建编码器

    例子

    进口spark.implicits._情况下人(名字:字符串年龄:)瓦尔data =Seq(人“迈克尔”,29日)、人(“安迪”,30.)、人(“贾斯汀”,19))瓦尔ds = spark.createDataset(数据)ds.show ()/ / + - - - - - - - + - - - +/ /年龄| | |名称/ / + - - - - - - - + - - - +/ / Michael | | | 29日/ / |安迪30 | |/ / |贾斯汀19 | |/ / + - - - - - - - + - - - +

    2.0.0

  21. 懒惰的瓦尔emptyDataFrame:DataFrame

    返回一个DataFrame没有行或列。

    返回一个DataFrame没有行或列。

    注释
    @transient ()

    2.0.0

  22. defemptyDataset(T](隐式的arg0:编码器(T]):数据集(T]

    创建一个新的数据集T型包含零元素。

    创建一个新的数据集T型包含零元素。

    返回

    2.0.0

  23. 最后def情商(arg0:AnyRef):布尔
    定义类
    AnyRef
  24. def=(arg0:任何):布尔
    定义类
    AnyRef→任何
  25. defexecuteCommand(运动员:字符串,命令:字符串,选项:地图(字符串,字符串]):DataFrame

    执行任意命令字符串内部外部的执行引擎,而不是火花。

    执行任意命令字符串内部外部的执行引擎,而不是火花。这可能是有用的,当用户想要执行一些命令的火花。例如,JDBC执行定制的DDL和DML命令,为ElasticSearch创建索引,为Solr创造核心等等。

    会急切地执行的命令调用此方法后,返回DataFrame将包含命令的输出(如果有的话)。

    跑步者

    实现的类名跑步者ExternalCommandRunner

    命令

    目标要执行的命令

    选项

    跑步者的选择。

    注释
    @Unstable ()

    3.0.0

  26. def实验:ExperimentalMethods

    ::实验::一个集合被认为是实验的方法,但可以用来钩到高级功能的查询计划。

    ::实验::一个集合被认为是实验的方法,但可以用来钩到高级功能的查询计划。

    注释
    @Experimental () @Unstable ()

    2.0.0

  27. def完成():单位
    属性
    保护(]
    定义类
    AnyRef
    注释
    @throws (名为[java.lang.Throwable] classOf)
  28. 最后defgetClass():(_)
    定义类
    AnyRef→任何
    注释
    @native ()
  29. defhashCode():Int
    定义类
    AnyRef→任何
    注释
    @native ()
  30. definitializeLogIfNecessary(isInterpreter:布尔,沉默:布尔):布尔
    属性
    受保护的
    定义类
    日志记录
  31. definitializeLogIfNecessary(isInterpreter:布尔):单位
    属性
    受保护的
    定义类
    日志记录
  32. 最后defisInstanceOf(T0]:布尔
    定义类
    任何
  33. defisTraceEnabled():布尔
    属性
    受保护的
    定义类
    日志记录
  34. deflistenerManager:ExecutionListenerManager

    注册自定义的接口org.apache.spark.sql.util.QueryExecutionListener年代,监听执行度量。

    注册自定义的接口org.apache.spark.sql.util.QueryExecutionListener年代,监听执行度量。

    2.0.0

  35. def日志:日志记录器
    属性
    受保护的
    定义类
    日志记录
  36. deflogDebug(味精:⇒字符串,throwable:Throwable):单位
    属性
    受保护的
    定义类
    日志记录
  37. deflogDebug(味精:⇒字符串):单位
    属性
    受保护的
    定义类
    日志记录
  38. deflogError(味精:⇒字符串,throwable:Throwable):单位
    属性
    受保护的
    定义类
    日志记录
  39. deflogError(味精:⇒字符串):单位
    属性
    受保护的
    定义类
    日志记录
  40. deflogInfo(味精:⇒字符串,throwable:Throwable):单位
    属性
    受保护的
    定义类
    日志记录
  41. deflogInfo(味精:⇒字符串):单位
    属性
    受保护的
    定义类
    日志记录
  42. deflogName:字符串
    属性
    受保护的
    定义类
    日志记录
  43. deflogTrace(味精:⇒字符串,throwable:Throwable):单位
    属性
    受保护的
    定义类
    日志记录
  44. deflogTrace(味精:⇒字符串):单位
    属性
    受保护的
    定义类
    日志记录
  45. deflogWarning(味精:⇒字符串,throwable:Throwable):单位
    属性
    受保护的
    定义类
    日志记录
  46. deflogWarning(味精:⇒字符串):单位
    属性
    受保护的
    定义类
    日志记录
  47. 最后def(arg0:AnyRef):布尔
    定义类
    AnyRef
  48. defnewSession():SparkSession

    开始一个新的会话与孤立的SQL配置、临时表、注册功能是孤立的,但共享底层SparkContext和缓存数据。

    开始一个新的会话与孤立的SQL配置、临时表、注册功能是孤立的,但共享底层SparkContext和缓存数据。

    2.0.0

    请注意

    以外的其他SparkContext,所有的共享状态延迟初始化。这种方法将迫使共享状态的初始化,确保父母和孩子会话设置相同的共享状态。如果底层的目录实现蜂巢,这将初始化metastore,这可能需要一些时间。

  49. 最后def通知():单位
    定义类
    AnyRef
    注释
    @native ()
  50. 最后defnotifyAll():单位
    定义类
    AnyRef
    注释
    @native ()
  51. defparseDataType(dataTypeString:字符串):数据类型

    解析数据类型在我们内部的字符串表示。

    解析数据类型在我们内部的字符串表示。的数据类型的字符串应该有相同的格式生成的一个toString在scala中。只有PySpark使用。

    属性
    保护(spark.sql]
  52. def范围(开始:,结束:,步骤:,numPartitions:Int):数据集(]

    创建一个数据集用一个LongType列命名id,包含元素的范围从开始结束(独家)与价值,一步指定分区号。

    创建一个数据集用一个LongType列命名id,包含元素的范围从开始结束(独家)与价值,一步指定分区号。

    2.0.0

  53. def范围(开始:,结束:,步骤:):数据集(]

    创建一个数据集用一个LongType列命名id,包含元素的范围从开始结束(独家)价值迈出的一步。

    创建一个数据集用一个LongType列命名id,包含元素的范围从开始结束(独家)价值迈出的一步。

    2.0.0

  54. def范围(开始:,结束:):数据集(]

    创建一个数据集用一个LongType列命名id,包含元素的范围从开始结束(独家)值1步。

    创建一个数据集用一个LongType列命名id,包含元素的范围从开始结束(独家)值1步。

    2.0.0

  55. def范围(结束:):数据集(]

    创建一个数据集用一个LongType列命名id,包含元素的范围从0到结束(独家)值1步。

    创建一个数据集用一个LongType列命名id,包含元素的范围从0到结束(独家)值1步。

    2.0.0

  56. def:DataFrameReader

    返回一个DataFrameReader可以用来作为读取非流式数据DataFrame

    返回一个DataFrameReader可以用来作为读取非流式数据DataFrame

    sparkSession.read.parquet (“/道路/ / file.parquet”)sparkSession.read.schema(模式). json (“/道路/ / file.json”)

    2.0.0

  57. defreadStream:DataStreamReader

    返回一个DataStreamReader可以作为一个用于读取流数据DataFrame

    返回一个DataStreamReader可以作为一个用于读取流数据DataFrame

    sparkSession.readStream.parquet (“/道路/ /拼花/文件/目录/”)sparkSession.readStream.schema(模式). json (“/道路/ / / json /目录/文件”)

    2.0.0

  58. 懒惰的瓦尔sessionState:SessionState

    国家孤立的跨会话,包括SQL配置、临时表、注册功能,和接受的一切org.apache.spark.sql.internal.SQLConf

    国家孤立的跨会话,包括SQL配置、临时表、注册功能,和接受的一切org.apache.spark.sql.internal.SQLConf。如果parentSessionState不是null,SessionState将父母的一个副本。

    这是内部引发和没有保证界面的稳定性。

    注释
    @Unstable () @transient ()

    2.2.0

  59. 懒惰的瓦尔sharedState:SharedState

    国家之间共享会话,包括SparkContext缓存数据,侦听器,与外部系统交互的一个目录。

    国家之间共享会话,包括SparkContext缓存数据,侦听器,与外部系统交互的一个目录。

    这是内部引发和没有保证界面的稳定性。

    注释
    @Unstable () @transient ()

    2.2.0

  60. 瓦尔sparkContext:SparkContext
  61. defsql(sqlText:字符串):DataFrame

    使用火花,执行一个SQL查询返回的结果DataFrame

    使用火花,执行一个SQL查询返回的结果DataFrame。这个API急切地运行DDL和DML命令,而不是选择查询。

    2.0.0

  62. 瓦尔sqlContext:SQLContext

    包版本的会话的形式SQLContext向后兼容性。

    包版本的会话的形式SQLContext向后兼容性。

    2.0.0

  63. def停止():单位

    阻止潜在的SparkContext

    阻止潜在的SparkContext

    2.0.0

  64. def:StreamingQueryManager

    返回一个StreamingQueryManager让所有的管理StreamingQuery年代活跃

    返回一个StreamingQueryManager让所有的管理StreamingQuery年代活跃

    注释
    @Unstable ()

    2.0.0

  65. 最后def同步(T0](arg0:⇒T0):T0
    定义类
    AnyRef
  66. def(表名:字符串):DataFrame

    返回指定的表/视图作为DataFrame

    返回指定的表/视图作为DataFrame。如果它是一个表,它必须支持批处理阅读和返回的DataFrame批量扫描这个表的查询计划。如果它是一个视图,返回DataFrame只是视图的查询计划,这可以是一个批处理或流查询计划。

    的表

    合格或不合格的名称指定一个表或视图。如果指定一个数据库,它从数据库中标识表/视图。否则,它首先试图找到一个临时视图与给定的名称,然后匹配当前数据库的表/视图。注意,这里的全局临时视图数据库也是有效的。

    2.0.0

  67. def时间(T](f:⇒T):T

    执行一些代码块和打印到stdout的时间执行。

    执行一些代码块和打印到stdout的时间执行。这是仅在Scala中可用,主要用于交互式测试和调试。

    魅惑

  68. deftoString():字符串
    定义类
    AnyRef→任何
  69. defudf:UDFRegistration

    一组注册用户定义函数(UDF)的方法。

    一组注册用户定义函数(UDF)的方法。

    下面的例子会注册一个Scala UDF关闭:

    sparkSession.udf.register (“myUDF”,(__arg1:Int最长:字符串)= >最长+ __arg1)

    下面的例子会注册一个Java UDF:

    sparkSession.udf () .register (“myUDF”(整数__arg1、字符串最长)- >最长+ __arg1、DataTypes.StringType);

    2.0.0

    请注意

    用户定义的函数必须是确定的。由于优化,重复调用可能被淘汰或甚至可能调用的函数多次出现在查询。

  70. def版本:字符串

    火花的版本运行该应用程序。

    火花的版本运行该应用程序。

    2.0.0

  71. 最后def等待():单位
    定义类
    AnyRef
    注释
    @throws ()
  72. 最后def等待(arg0:,__arg1:Int):单位
    定义类
    AnyRef
    注释
    @throws ()
  73. 最后def等待(arg0:):单位
    定义类
    AnyRef
    注释
    @throws () @native ()
  74. 对象值得一提的扩展SQLImplicits可序列化的

    (Scala-specific)隐式方法可用在Scala中常见的Scala对象转换成DataFrame年代。

    (Scala-specific)隐式方法可用在Scala中常见的Scala对象转换成DataFrame年代。

    瓦尔sparkSession = SparkSession.builder.getOrCreate ()进口sparkSession.implicits._

    2.0.0

继承自日志记录

继承自Closeable

继承自AutoCloseable

继承自可序列化的

继承自可序列化的

继承自AnyRef

继承自任何

未分组的