自动加载器常见问题解答
一般询问砖自动加载程序。
并自动加载程序处理文件再次当文件被附加或覆盖?
文件处理,除非完全一次cloudFiles.allowOverwrites
启用。如果一个文件附加到或覆盖,砖并不能保证哪个版本的文件处理。砖建议您使用自动加载程序只摄取不变的文件。如果这个不符合您的需求,请联系你的砖的代表。
如果我没有数据文件不断,但在相等的时间间隔,例如,一天一次,我仍然应该使用这个源和有什么好处吗?
在这种情况下,您可以设置一个Trigger.AvailableNow
(砖中可用的运行时10.2及以后)结构化流工作,调度运行后预期的文件到达时间。自动加载程序适用与罕见的或频繁的更新。即使最终的更新是非常大的,汽车装载机秤输入大小。自动加载程序的高效的文件发现技术和模式演化能力使汽车装载机增量数据摄入推荐的方法。
我需要事先创建事件通知服务吗?
不。如果你选择文件通知模式和提供所需的权限,自动加载程序可以创建文件通知为您服务。看到自动加载程序文件通知模式是什么?
我如何清理事件通知资源由汽车装载机?
您可以使用云资源管理器列表和拆除资源。您还可以手动删除这些资源使用云提供商的UI或api。
我可以从不同的输入运行多个流查询目录在同一个桶/集装箱吗?
是的,只要他们不是父子目录;例如,prod-logs /
和prod-logs /使用/
不会工作,因为/使用
是一个孩子的目录吗/ prod-logs
。
自动加载程序推断模式如何?
DataFrame首先被定义时,自动加载程序列表你的源目录,选择最近的(通过文件修改时间)50或1000 GB的数据文件,并使用这些数据来推断模式。
自动加载器也推断分区列通过检查源目录结构和查找包含的文件路径/ /关键=价值
结构。如果源目录结构不一致,例如:
基地/道路/分区= 1 /日期= 2020-12-31 / file1。json / /不一致,因为日期和分区目录是不同订单基地/道路/日期= 2020-12-31 = 2 / file2 /分区。json / /不一致,因为日期目录丢失= 3 / file3.json基地/道路/分区
自动加载程序推断分区列是空的。使用cloudFiles.partitionColumns
的显式解析列目录结构。
什么时候自动装卸机推断模式吗?进化后自动每micro-batch吗?
模式推断DataFrame时第一次在您的代码中定义。在每个micro-batch,模式变化动态评估;因此,您不需要担心性能。流重启的时候,拿起进化模式的模式位置并开始执行从推理没有任何开销。