与砖自动加载程序,您可以逐步有效地摄取新的批处理和实时流数据文件到你的三角洲湖表尽快到达您的数据湖——这样他们总是包含最完整和最新的数据。自动加载程序是一个简单的、灵活的工具,它可以连续运行,或在“triggerOnce”模式在批量处理数据。SQL用户可以使用简单的“复制到”命令将新的数据自动进入三角洲湖表,而不需要跟踪哪些文件已经处理。
视频记录
获取数据为三角洲湖汽车加载程序
原始数据加载到数据仓库可以是混乱的,复杂的过程,但随着砖,用最新鲜的数据填充你的三角洲湖从来都不是一件容易的事。
在这里,我们使用一些JSON等物联网设备的遥测数据智能手表,跟踪措施。湖新数据文件是降落在我们的数据每5秒,所以我们需要一种方法来自动摄取湖成三角洲。自动加载器结构提供了一种新的流数据来源被称为“cloudFiles”,我们可以使用它来做到这一点。
单击扩大→记录
单击崩溃记录→
如何使用砖自动加载程序吗
首先,我们指定“cloudFiles”作为对我们的数据流格式。接下来,我们指定的目录数据中湖监视的新文件。一旦到来,汽车加载程序有效地和增量加载到我们指定的三角洲湖表。
和你做的!使用自动加载程序就像按原始数据摄入的“简单”按钮。我们不需要指定一个模式,建立一个消息队列或手动跟踪哪些文件已经处理。在幕后,自动加载器使用不间断文件跟踪新文件事件通知服务比运行更快和更可伸缩数据湖上昂贵的“列表”操作。
使用自动加载器与triggerOnce批处理模式
持续时间敏感数据的工作负载,运行自动加载器是显而易见的。少但对时间敏感的工作负载,您可以在“批处理模式”运行自动加载程序通过指定“triggerOnce”选项,然后设置笔记本作为调度运行工作。仍然在triggerOnce模式下,自动加载程序跟踪新文件,即使没有一个活跃的集群运行——它实际上只是等待处理它们,直到你手动再次运行自动加载程序代码,或者是计划工作的一部分。
与复制到SQL用户加载数据
最后,SQL用户更喜欢这种批量数据摄入方法可以使用复制到命令。复制到retriable和幂等命令,所以它已经忽略了数据处理,就像汽车装载机“triggerOnce”模式。
Pronto每cominciare ?