问题
假设你有一个大的本质上独立检查机关文件,与各种不同的模式。你要读的只有那些文件匹配一个特定的模式和跳过不匹配的文件。
一个解决方案可以按顺序读取文件,确定模式,和工会DataFrames在一起。然而,这种方法是不切实际的,当有成千上万的文件。
解决方案
设置Apache火花的属性spark.sql.files.ignoreCorruptFiles来真正的然后读取文件所需的模式。文件不匹配指定的模式将被忽略。合成数据集仅包含与指定的模式匹配的文件数据。
设置火花属性使用spark.conf.set:
spark.conf.set (“spark.sql.files。ignoreCorruptFiles”、“真正的”)