上传数据到Databricks

上传数据用户界面允许您上传CSV或TSV文件,以创建或覆盖托管的Delta Lake表。

您可以在Unity Catalog或Hive Metastore中创建托管Delta表。

请注意

若要了解如何从云存储(如Azure Data Lake storage Gen2、AWS S3或谷歌云存储)加载文件,请查看COPY INTO教程

重要的

  • 您必须能够访问正在运行的计算资源,并具有在目标模式中创建表的权限。

  • 工作区管理员可以关闭上传数据界面

使用文件上传创建表

您可以使用UI通过从本地机器导入小型CSV或TSV文件来创建Delta表。

  • 上传界面一次最多支持上传10个文件。

  • 上传的文件总大小不能超过100mb。

  • 文件必须是CSV或TSV,并且扩展名为“。CSV”或“。TSV”。

  • 压缩文件,例如邮政编码而且焦油不支持文件。

上传文件

  1. 点击新图标新增>文件上传

    或者,您可以访问添加数据界面并选择上传数据

  2. 单击文件浏览器按钮或直接在拖放区域上拖放文件。

请注意

导入的文件被上传到一个安全的内部位置,在您的帐户,这是垃圾收集每天。

预览、配置和创建表

可以在不连接计算资源的情况下将数据上传到登台区域,但必须选择活动计算资源才能预览和配置表。

在为上传表配置选项时,可以预览50行数据。单击文件名下的网格或列表按钮可切换数据的表示方式。

Databricks将托管表的数据文件存储在为包含的模式配置的位置中。在模式中创建表需要适当的权限。

选择需要在其中创建表的模式,执行以下操作:

  1. (仅适用于支持Unity catalog的工作区)您可以选择一个目录或遗留目录hive_metastore

  2. 选择模式。

  3. (可选)编辑表名。

请注意

您可以使用下拉菜单进行选择覆盖现有表创建新表.尝试创建名称冲突的新表的操作将显示错误消息。

你可以配置选项在创建表之前。

如需创建表,请单击创建在这一页的底部。

格式选项

格式选项取决于您上传的文件格式。常用格式选项出现在标题栏中,而不太常用的选项可在先进的属性对话框。

  • 对于CSV,可以使用以下选项。

    • 第一行包含标题(默认启用):该选项指定CSV/TSV文件是否包含头文件。

    • 列分隔符:列之间的分隔符。只允许使用单个字符,不支持反斜杠。对于CSV文件,默认为逗号。

    • 自动检测列类型(默认启用):自动从文件内容检测列类型。您可以在预览表中编辑类型。如果将其设置为false,则所有列类型都推断为字符串

    • 行跨多行(默认禁用):一个列的值是否可以跨越文件中的多行。

当您编辑格式选项时,数据预览会自动更新。

请注意

当您上传多个文件时,以下规则适用:

  • 上传数据的模式是合并所有检测到的模式的结果。不能禁用此功能。

  • 头设置适用于所有文件。确保在所有上传的文件中始终没有或存在标题,以避免数据丢失。

  • 上传的文件通过将所有数据作为行追加到目标表中进行组合。不支持在文件上传过程中加入或合并记录。

列名和类型

您可以编辑列名和类型。

  • 若要编辑类型,请单击该类型的图标。

  • 若要编辑列名,请单击列顶部的输入框。

    列名不支持逗号、反斜杠或unicode字符(例如表情符号)。

默认情况下,CSV文件会推断列数据类型。您可以将所有列解释为字符串通过禁用输入先进的属性>自动检测列类型

请注意

  • 模式推断尽最大努力检测列类型。更改列类型可能导致将某些值强制转换为如果该值不能正确地转换为目标数据类型。铸造长整型数字日期时间戳不支持列。Databricks建议先创建一个表,然后使用SQL函数转换这些列。

  • 为了支持具有特殊字符的表列名,上传数据UI利用了列映射

  • 若要向列添加注释,请创建表并导航到数据浏览在这里你可以添加注释。

支持的数据类型

上传数据UI支持以下数据类型。有关各个数据类型的详细信息,请参见SQL数据类型

数据类型

描述

长整型数字

8字节有符号整数。

布尔

布尔(真正的)的值。

日期

包含年、月和日字段的值,不带时区。

8字节双精度浮点数。

字符串

字符串值。

时间戳

由年、月、日、小时、分和秒字段的值和会话本地时区组成。

已知的问题

铸造长整型数字到不可浇注类型,如日期,例如' yyyy '格式的日期,可能会触发错误。