开始
加载和管理数据
处理数据
政府
参考和资源
2023年1月13日更新
给我们反馈
本文解释如何从Databricks帐户读取和分析使用数据。
你可以直接在帐户控制台中查看和下载计费使用情况.
列
类型
描述
例子
workspaceId
字符串
工作区的ID。
1234567890123456
时间戳
datetime
所提供的用法到此结束。
2019 - 02年- 22 - t09:59:59.999z
clusterId
集群ID(适用于集群)或仓库ID(适用于SQL仓库)
集群的例子:0406 - 020048 brawl507
0406 - 020048 brawl507
SQL仓库示例:8 e00f0c8b392983e
8 e00f0c8b392983e
clusterName
用户提供的集群/仓库名称。
共享自动定量
clusterNodeType
集群/仓库的实例类型。
集群的例子:m4.16xlarge
m4.16xlarge
SQL仓库示例:db.xlarge
db.xlarge
clusterOwnerUserId
创建集群/仓库的用户ID。
12345678901234
clusterCustomTags
字符串(" -转义json)
在这个小时内与集群/仓库关联的自定义标记。
“{”“部门”“:”“mktg”“、”“op_phase”“:”“开发”“}”
sku
计费SKU。看到计费sku表用于值列表。
STANDARD_ALL_PURPOSE_COMPUTE
dbus
双
用户在这一小时内使用的DBUs数。
1.2345
machineHours
集群/仓库中所有容器使用的机器总小时数。
12.345
clusterOwnerUserName
创建集群/仓库的用户名(邮箱)。
user@yourcompany.com
标签
默认和自定义集群/仓库标记,以及默认和自定义实例池标记(如果适用)。看到集群的标签,仓库标签,池标签.这是一个超集clusterCustomTags列。
“{”“部门”“:”“mktg”“、”“op_phase”“:”“开发”,”“供应商”“:”“砖”," ClusterId ": " 0405 - 020048 brawl507””,”“创造者”“:”“user@yourcompany.com”“}”
“{”“部门”“:”“mktg”“、”“op_phase”“:”“开发”,
”“供应商”“:”“砖”,
" ClusterId ": " 0405 - 020048 brawl507””,
”“创造者”“:”“user@yourcompany.com”“}”
ENTERPRISE_ALL_PURPOSE_COMPUTE
ENTERPRISE_ALL_PURPOSE_COMPUTE_(光子)
ENTERPRISE_JOBS_COMPUTE
ENTERPRISE_JOBS_COMPUTE_(光子)
ENTERPRISE_JOBS_LIGHT_COMPUTE
ENTERPRISE_SQL_COMPUTE
ENTERPRISE_DLT_CORE_COMPUTE
ENTERPRISE_DLT_CORE_COMPUTE_(光子)
ENTERPRISE_DLT_PRO_COMPUTE
ENTERPRISE_DLT_PRO_COMPUTE_(光子)
ENTERPRISE_DLT_ADVANCED_COMPUTE
ENTERPRISE_DLT_ADVANCED_COMPUTE_(光子)
PREMIUM_ALL_PURPOSE_COMPUTE
PREMIUM_ALL_PURPOSE_COMPUTE_(光子)
PREMIUM_JOBS_COMPUTE
PREMIUM_JOBS_COMPUTE_(光子)
PREMIUM_JOBS_LIGHT_COMPUTE
PREMIUM_SQL_COMPUTE
PREMIUM_DLT_CORE_COMPUTE
PREMIUM_DLT_CORE_COMPUTE_(光子)
PREMIUM_DLT_PRO_COMPUTE
PREMIUM_DLT_PRO_COMPUTE_(光子)
PREMIUM_DLT_ADVANCED_COMPUTE
PREMIUM_DLT_ADVANCED_COMPUTE_(光子)
STANDARD_ALL_PURPOSE_COMPUTE_(光子)
STANDARD_JOBS_COMPUTE
STANDARD_JOBS_COMPUTE_(光子)
STANDARD_JOBS_LIGHT_COMPUTE
STANDARD_DLT_CORE_COMPUTE
STANDARD_DLT_CORE_COMPUTE_(光子)
STANDARD_DLT_PRO_COMPUTE
STANDARD_DLT_PRO_COMPUTE_(光子)
STANDARD_DLT_ADVANCED_COMPUTE
STANDARD_DLT_ADVANCED_COMPUTE_(光子)
介绍如何将计费使用CSV文件中的数据提供给Databricks进行分析。它描述了创建使用量表的选项,并包括一个示例笔记本,您可以使用它来运行使用量分析仪表板。
CSV文件使用的格式是商业电子表格应用程序的标准格式,但需要经过修改才能被Apache Spark读取。你必须使用选项(“逃脱”,“\”)当您在Databricks中创建使用表时。
选项(“逃脱”,“\”)
DBUs的总和是dbus列。
您可以使用使用添加数据UI加载数据将CSV文件导入到Databricks中进行分析。
您还可以使用以下代码从CSV文件的路径创建使用表:
df=(火花.读.选项(“头”,“真正的”).选项(“inferSchema”,“真正的”).选项(“逸出”,"\”").csv(“/ FileStore /表/ usage_data.csv”))df.createOrReplaceTempView(“使用”)
如果文件存储在S3桶中,例如,当它与日志传递一起使用时,代码将如下所示。可以指定文件路径或目录。如果传递一个目录,则导入所有文件。下面的示例指定一个文件。
df=(火花.读.选项(“头”,“真正的”).选项(“inferSchema”,“真正的”).选项(“逸出”,"\”").负载(“s3: / / < bucketname > / < pathprefix > / billable-usage csv / workspaceId = < workspace-id > -usageMonth = <月> . csv”))df.createOrReplaceTempView(“使用”)
下面的示例导入一个计费使用文件目录:
df=(火花.读.选项(“头”,“真正的”).选项(“inferSchema”,“真正的”).选项(“逸出”,"\”").负载(“s3: / / < bucketname > / < pathprefix > / billable-usage csv /”))df.createOrReplaceTempView(“使用”)
从DataFrame创建Delta表(df)在前面的例子中,使用以下代码:
df
(df.写.格式(“δ”).模式(“覆盖”).saveAsTable(“database_name.table_name”))
警告
保存的Delta表为不当您添加或替换新的CSV文件时自动更新。如果需要最新的数据,请在使用Delta表之前重新运行这些命令。
如果您使用计费使用量交付,您可以使用下面的笔记本运行使用量分析仪表板,方法是提供存储CSV文件的S3桶的路径,并在小部件中输入报告参数。
当您将笔记本导入到Databricks工作区时,用于输入报表参数的小部件将出现在第一个笔记本单元格的上方。小部件不会出现在笔记本的纯浏览器视图中。下面是这个小部件的图片:
在新标签页打开笔记本