如何处理损坏的镶花的文件不同的模式吗

学习如何阅读使用砖拼花文件与一个特定的模式。

写的亚当Pavlacka

去年发表在:2022年5月31日

问题

假设你有一个大的本质上独立检查机关文件,与各种不同的模式。你要读的只有那些文件匹配一个特定的模式和跳过不匹配的文件。

一个解决方案可以按顺序读取文件,确定模式,和工会DataFrames在一起。然而,这种方法是不切实际的,当有成千上万的文件。

解决方案

设置Apache火花的属性spark.sql.files.ignoreCorruptFiles真正的然后读取文件所需的模式。文件不匹配指定的模式将被忽略。合成数据集仅包含与指定的模式匹配的文件数据。

设置火花属性使用spark.conf.set:

spark.conf.set (“spark.sql.files。ignoreCorruptFiles”、“真正的”)

或者,你可以设置这个属性火花配置(AWS|Azure|GCP)。

这篇文章有用吗?