将数据加载到Databricks Lakehouse

Databricks提供了多种方法来帮助您将数据加载到三角洲湖后面的湖屋。Databricks建议使用Auto Loader从云对象存储增量数据摄取。的添加数据界面提供许多选项，用于快速上传本地文件或连接到外部数据源。

运行您的第一个ETL工作负载

如果你还没有在Databricks上使用Auto Loader，可以从教程开始。看到在Databricks上运行您的第一个ETL工作负载．

自动加载程序在新数据文件到达云存储时，增量地、高效地处理它们，而无需额外设置。Auto Loader提供了一个名为cloudFiles．给定云文件存储上的输入目录路径，则cloudFilesSource在新文件到达时自动处理，还可以选择处理该目录中的现有文件。

可以简化可伸缩的增量摄取基础设施的部署自动加载器和Delta活动表．注意，Delta Live Tables并没有使用笔记本电脑中标准的交互式执行，而是强调了为生产准备的基础设施的部署。

您可以安全地上传本地数据文件或从外部源摄取数据以创建表。看到使用添加数据UI加载数据．

Databricks合作伙伴的集成使您能够将数据加载到Databricks中。这些集成使低代码、可伸缩的数据从各种来源摄取到Databricks成为可能。看到砖的集成．

复制到允许SQL用户以幂等方式增量地将数据从云对象存储加载到Delta Lake表中。它可以用于Databricks SQL，笔记本，和Databricks工作。

Databricks提供了一个单一的命令，将Parquet或Iceberg表转换为Delta Lake，并解锁湖屋的全部功能;看到转换为三角洲湖．

这里有一些事情要考虑，当选择Auto Loader和COPY INTO:

如果您要摄取数千个量级的文件，您可以使用复制成．如果你期望随着时间的推移文件数量达到数百万或更多，请使用Auto Loader。与COPY INTO相比，Auto Loader需要更少的总操作来发现文件，并且可以将处理分成多个批次，这意味着Auto Loader在规模上更便宜，更高效。
如果您的数据模式将频繁演变，Auto Loader将提供更好的模式推断和演变原语。看到在Auto Loader中配置模式推断和进化欲知详情。
使用COPY INTO加载重新上传的文件的子集可能更容易管理。使用Auto Loader，重新处理选定的文件子集更加困难。但是，您可以使用COPY INTO在Auto Loader流同时运行时重新加载文件子集。

对于一个简要的概述和演示的自动装载机，以及复制到观看这段YouTube视频(2分钟)。

Data Science & Engineering工作区Data选项卡允许您使用UI加载小文件来创建表;看到在DBFS中探索和创建表．

您可以使用Apache Spark连接到各种数据源。看到与Databricks上的外部数据交互获取连接的选项和示例列表。

Apache Spark在加载数据时自动捕获源文件的数据。Databricks允许您使用文件元数据列．