加载数据使用统一目录外部位置

预览

这个特性是在公共预览

本文描述了如何使用添加数据UI创建一个管理表从谷歌云存储中的数据使用统一目录外的位置。外部的位置是一个对象,结合了云存储路径和存储凭证授权访问云存储路径。

对于其他方法来加载数据使用外部位置,明白了创建一个表从文件存储在云的房客

在你开始之前

在你开始之前,你必须有以下:

文件类型

以下文件类型支持:

  • CSV

  • TSV

  • JSON

  • AVRO

  • 拼花

步骤1:确认访问外部的位置

确认访问外部位置,做到以下几点:

  1. 侧边栏的砖工作区,点击数据

  2. 在数据资源管理器中,单击外部数据>外部位置

步骤2:创建管理表

创建管理表,请执行以下操作:

  1. 侧边栏的工作区,点击+新>添加数据

  2. 在添加数据界面,单击谷歌云存储

  3. 从下拉列表中选择一个外部位置。

  4. 选择你想要的文件夹和文件加载到砖,然后单击预览表

  5. 从下拉列表选择一个目录和一个模式。

  6. (可选)编辑表名。

  7. (可选)文件类型设置advanced format选项,点击先进的属性,关掉自动检测文件类型,然后选择一个文件类型。

    格式选项的列表,请参阅下一节。

  8. (可选)编辑列名称,点击输入框顶部的列。

    列名不支持逗号,反斜杠或者unicode字符(如emojis)。

  9. (可选)编辑列类型,单击图标类型。

  10. 点击创建表

文件类型格式选项

以下格式可供选择,根据不同的文件类型:

格式选项

描述

支持的文件类型

分隔符

列之间的分隔符。只允许一个字符,不支持反斜杠。

默认是一个逗号。

CSV

逃避字符

解析数据时使用的转义字符。

默认是一个引号。

CSV

第一个包含

这个选项指定文件是否包含一个头。

默认启用。

CSV

自动检测类型

从文件内容自动检测列类型。您可以编辑预览表类型。如果这是设置为false,所有列类型推断是字符串。

默认启用。

  • CSV

  • JSON

跨度多个

一个列的值是否能跨越多个文件中。

默认情况下禁用。

  • CSV

  • JSON

合并模式多个文件

是否来推断模式跨多个文件和每个文件的合并模式。

默认启用。

CSV

允许评论

是否允许在文件的评论。

默认启用。

JSON

允许报价

单引号是否允许在文件中。

默认启用。

JSON

推断出时间戳

是否尝试推断时间戳字符串作为TimestampType

默认启用。

JSON

获救数据

是否保存列不匹配模式。有关更多信息,请参见获救的数据列是什么?

默认启用。

  • CSV

  • JSON

  • Avro

  • 拼花

列的数据类型

下面的列数据类型支持。关于个人数据类型的更多信息SQL数据类型

数据类型

描述

长整型数字

8字节整数数字签名。

布尔

布尔(真正的,)的值。

日期

一天,没有一个时区。

小数(P, S)

以最大的精密数字P规模和固定年代

8字节双精度浮点数。

字符串

字符串值。

时间戳

字段的值组成的值年,月,日,小时,分钟,第二,当地时区与会话。

已知的问题

  • 你可能会经历复杂数据类型中的特殊字符的问题,比如一个JSON对象键包含一个撇号或冒号。

  • 一些JSON文件可能需要您手动选择JSON文件类型。手动选择一个文件类型选择文件后,点击先进的属性,关掉自动检测文件类型,然后选择JSON

  • 内嵌套的时间戳和小数复杂类型可能会遇到问题。