火花会话¶

入口点和数据集和DataFrame API编程火花。创建一个火花会话,您应该使用SparkSession.builder属性。另请参阅SparkSession。

`SparkSession.builder.appName`(名字)	设置应用程序的名称,将显示在web UI火花。
`SparkSession.builder.config`([键、值、])	设置一个配置选项。
`SparkSession.builder.enableHiveSupport`()	使蜂巢支持,包括连接到一个持久蜂巢metastore,支持蜂巢并行转换器和蜂窝用户自定义函数。
`SparkSession.builder.getOrCreate`()	就现有的`SparkSession`或者,如果没有现有的,创造了一个新的基于选项集生成器。
`SparkSession.builder.master`(主)	设置火花主人要连接的URL,比如“本地”在本地运行,“当地[4]“本地运行4核,或“火花:/ /主:7077”火花独立集群上运行。
`SparkSession.catalog`	界面,通过它,用户可以创建、删除、更改或查询底层数据库、表、函数等。
`SparkSession.conf`	为引发运行时配置界面。
`SparkSession.createDataFrame`(数据、模式…)	创建一个`DataFrame`从一个`抽样`一个列表,`pandas.DataFrame`或者一个`numpy.ndarray`。
`SparkSession.getActiveSession`()	返回活动`SparkSession`当前线程返回的建设者
`SparkSession.newSession`()	返回一个新的`SparkSession`新会话,有单独的SQLConf注册临时视图和udf,但共享`SparkContext`和表缓存。
`SparkSession.range`(开始、结束步骤,…))	创建一个`DataFrame`与单`pyspark.sql.types.LongType`列命名`id`,包含元素的范围从`开始`来`结束`(独家)值`一步`。
`SparkSession.read`	返回一个`DataFrameReader`可以用来作为一个读取数据`DataFrame`。
`SparkSession.readStream`	返回一个`DataStreamReader`可以用于读取数据流流`DataFrame`。
`SparkSession.sparkContext`	返回底层`SparkContext`。
`SparkSession.sql`(args sqlQuery * * kwargs)	返回一个`DataFrame`代表给定查询的结果。
`SparkSession.stop`()	阻止潜在的`SparkContext`。
`SparkSession.streams`	返回一个`StreamingQueryManager`让所有的管理`StreamingQuery`实例的活跃这上下文。
`SparkSession.table`(表)	返回指定表的`DataFrame`。
`SparkSession.udf`	返回一个`UDFRegistration`UDF登记。
`SparkSession.version`	火花的版本运行该应用程序。

以前的

pyspark.sql.DataFrameWriter

下一个

pyspark.sql.SparkSession.builder.appName