数据加载到砖Lakehouse

砖提供了多种方式来帮助你的数据加载到一个lakehouse由三角洲湖。砖建议使用自动加载器的增量数据摄入从云对象存储。添加数据的UI提供了许多选项,快速上传本地文件或连接到外部数据源。

你的第一个ETL工作负载运行

如果你还没有使用自动加载器在砖上,从一个教程开始。看到砖上运行你的第一个ETL工作负载。

自动加载程序增量地和有效地处理新的数据文件到云存储没有额外的设置。自动加载器提供了一个结构化流源cloudFiles。给定一个输入在云端文件存储目录路径,cloudFiles源自动流程为到达的新文件,选择也处理现有的文件目录。

可以简化部署可伸缩、增量摄入基础设施自动加载器和δ生活表。注意,δ住表不使用标准的互动执行中发现笔记本电脑,而不是强调基础设施部署准备生产。

你可以安全地上传本地数据文件或摄取来自外部数据源的数据创建表。看到加载数据使用UI添加数据。

砖验证技术合作伙伴集成,使您的数据加载到数据砖。这些集成使low-code、可伸缩数据摄入来自各种来源的砖。看到技术合作伙伴bob体育外网下载。在一些技术合作伙伴bob体育外网下载砖的合作伙伴联系连接第三方工具,它提供了一个用户界面,简化了lakehouse数据。

复制到允许SQL用户从云幂等和增量加载数据对象存储到三角洲湖表中。它可以用于砖SQL,笔记本,和砖的工作。

这里有一些事情要考虑在选择自动加载程序,复制到:

如果你要摄取成千上万的文件的顺序,您可以使用复制成。如果你预计数百万以上的顺序文件随着时间的推移,使用自动加载程序。自动加载程序需要更少的总操作发现文件相比,复制,可以处理分割成多个批次,即自动加载器是更便宜,更有效地规模。
如果您的数据模式经常会进化,自动加载程序提供了更好的基元模式推理和演化。看到配置模式推理和进化自动加载程序为更多的细节。
文件可以加载的一个子集上传有点容易管理和复制。使用自动加载程序,很难再加工的选择子集文件。不过,您可以使用复制到重新加载文件时自动加载程序流的子集是同时运行。

简要概述和演示的自动加载程序,以及复制到,看这个YouTube视频(2分钟)。

你可以连接到不同的数据源使用Apache火花。看到在砖与外部数据连接的选项和示例列表。

Apache火花自动捕获数据在数据加载源文件。砖允许您访问这个数据的文件元数据列。

使用上传数据的UI将CSV, TSV或JSON文件。看到上传数据到数据砖。

现有的数据应用程序迁移到砖,这样你就可以处理数据从源系统在一个单一的平台。bob体育客户端下载看到数据应用迁移到砖。