上传数据到Databricks
上传数据用户界面允许您上传CSV或TSV文件,以创建或覆盖托管的Delta Lake表。
您可以在Unity Catalog或Hive Metastore中创建托管Delta表。
请注意
若要了解如何从云存储(如Azure Data Lake storage Gen2、AWS S3或谷歌云存储)加载文件,请查看COPY INTO教程.
重要的
您必须能够访问正在运行的计算资源,并具有在目标模式中创建表的权限。
工作区管理员可以关闭上传数据界面.
使用文件上传创建表
您可以使用UI通过从本地机器导入小型CSV或TSV文件来创建Delta表。
上传界面一次最多支持上传10个文件。
上传的文件总大小不能超过100mb。
文件必须是CSV或TSV,并且扩展名为“。CSV”或“。TSV”。
压缩文件,例如
邮政编码
而且焦油
不支持文件。
上传文件
点击新增>文件上传.
或者,您可以访问添加数据界面并选择上传数据.
单击文件浏览器按钮或直接在拖放区域上拖放文件。
请注意
导入的文件被上传到一个安全的内部位置,在您的帐户,这是垃圾收集每天。
预览、配置和创建表
可以在不连接计算资源的情况下将数据上传到登台区域,但必须选择活动计算资源才能预览和配置表。
在为上传表配置选项时,可以预览50行数据。单击文件名下的网格或列表按钮可切换数据的表示方式。
Databricks将托管表的数据文件存储在为包含的模式配置的位置中。在模式中创建表需要适当的权限。
选择需要在其中创建表的模式,执行以下操作:
(仅适用于支持Unity catalog的工作区)您可以选择一个目录或遗留目录
hive_metastore
.选择模式。
(可选)编辑表名。
请注意
您可以使用下拉菜单进行选择覆盖现有表或创建新表.尝试创建名称冲突的新表的操作将显示错误消息。
如需创建表,请单击创建在这一页的底部。
格式选项
格式选项取决于您上传的文件格式。常用格式选项出现在标题栏中,而不太常用的选项可在先进的属性对话框。
对于CSV,可以使用以下选项。
第一行包含标题(默认启用):该选项指定CSV/TSV文件是否包含头文件。
列分隔符:列之间的分隔符。只允许使用单个字符,不支持反斜杠。对于CSV文件,默认为逗号。
自动检测列类型(默认启用):自动从文件内容检测列类型。您可以在预览表中编辑类型。如果将其设置为false,则所有列类型都推断为
字符串
.行跨多行(默认禁用):一个列的值是否可以跨越文件中的多行。
当您编辑格式选项时,数据预览会自动更新。
请注意
当您上传多个文件时,以下规则适用:
上传数据的模式是合并所有检测到的模式的结果。不能禁用此功能。
头设置适用于所有文件。确保在所有上传的文件中始终没有或存在标题,以避免数据丢失。
上传的文件通过将所有数据作为行追加到目标表中进行组合。不支持在文件上传过程中加入或合并记录。
列名和类型
您可以编辑列名和类型。
若要编辑类型,请单击该类型的图标。
若要编辑列名,请单击列顶部的输入框。
列名不支持逗号、反斜杠或unicode字符(例如表情符号)。
默认情况下,CSV文件会推断列数据类型。您可以将所有列解释为字符串
通过禁用输入先进的属性>自动检测列类型.
请注意
支持的数据类型
上传数据UI支持以下数据类型。有关各个数据类型的详细信息,请参见SQL数据类型.
数据类型 |
描述 |
---|---|
|
8字节有符号整数。 |
|
布尔( |
|
包含年、月和日字段的值,不带时区。 |
|
8字节双精度浮点数。 |
|
字符串值。 |
|
由年、月、日、小时、分和秒字段的值和会话本地时区组成。 |