将数据加载到Databricks Lakehouse
Databricks提供了多种方法来帮助您将数据加载到三角洲湖后面的湖屋。Databricks建议使用Auto Loader从云对象存储增量数据摄取。的添加数据界面提供许多选项,用于快速上传本地文件或连接到外部数据源。
运行您的第一个ETL工作负载
如果你还没有在Databricks上使用Auto Loader,可以从教程开始。看到在Databricks上运行您的第一个ETL工作负载.
自动加载程序
自动加载程序在新数据文件到达云存储时,增量地、高效地处理它们,而无需额外设置。Auto Loader提供了一个名为cloudFiles
.给定云文件存储上的输入目录路径,则cloudFiles
Source在新文件到达时自动处理,还可以选择处理该目录中的现有文件。
自动ETL与德尔塔活动表和自动加载器
可以简化可伸缩的增量摄取基础设施的部署自动加载器和Delta活动表.注意,Delta Live Tables并没有使用笔记本电脑中标准的交互式执行,而是强调了为生产准备的基础设施的部署。
上传本地数据文件或连接外部数据源
您可以安全地上传本地数据文件或从外部源摄取数据以创建表。看到使用添加数据UI加载数据.
合作伙伴集成
Databricks合作伙伴的集成使您能够将数据加载到Databricks中。这些集成使低代码、可伸缩的数据从各种来源摄取到Databricks成为可能。看到砖的集成.
复制到
复制到允许SQL用户以幂等方式增量地将数据从云对象存储加载到Delta Lake表中。它可以用于Databricks SQL,笔记本,和Databricks工作。
转换为Delta
Databricks提供了一个单一的命令,将Parquet或Iceberg表转换为Delta Lake,并解锁湖屋的全部功能;看到转换为三角洲湖.
何时使用COPY INTO,何时使用Auto Loader
这里有一些事情要考虑,当选择Auto Loader和COPY INTO:
如果您要摄取数千个量级的文件,您可以使用
复制成
.如果你期望随着时间的推移文件数量达到数百万或更多,请使用Auto Loader。与COPY INTO相比,Auto Loader需要更少的总操作来发现文件,并且可以将处理分成多个批次,这意味着Auto Loader在规模上更便宜,更高效。如果您的数据模式将频繁演变,Auto Loader将提供更好的模式推断和演变原语。看到在Auto Loader中配置模式推断和进化欲知详情。
使用COPY INTO加载重新上传的文件的子集可能更容易管理。使用Auto Loader,重新处理选定的文件子集更加困难。但是,您可以使用COPY INTO在Auto Loader流同时运行时重新加载文件子集。
对于一个简要的概述和演示的自动装载机,以及复制到观看这段YouTube视频(2分钟)。
使用Data选项卡加载数据
Data Science & Engineering工作区Data选项卡允许您使用UI加载小文件来创建表;看到在DBFS中探索和创建表.
使用Apache Spark从外部源加载数据
您可以使用Apache Spark连接到各种数据源。看到与Databricks上的外部数据交互获取连接的选项和示例列表。
检查在数据摄取期间捕获的文件元数据
Apache Spark在加载数据时自动捕获源文件的数据。Databricks允许您使用文件元数据列.