问题
你有在你的源文件中特殊字符和使用OSS库Spark-XML。
特殊字符不正确呈现。
例如,“CLU®”呈现“CLU�”。
导致
Spark-XML默认支持utf - 8字符集。你是在XML文件中使用不同的字符集。
解决方案
你必须指定字符集使用XML文件中读取数据。
使用字符集选项来定义字符集与Spark-XML读取XML文件时。
例如,如果您的源文件使用iso - 8859 - 1:
% python dfResult = spark.read.format (“xml”) . schema (customSchema) \ .options (rowTag =“实体”)\ .options (charset =“iso - 8859 - 1”) \ .load (' / < path-to-xml > / <示例文件> . xml”)
检查Spark-XML自述文件有关支持选项的更多信息。