负载与Spark-XML特殊字符

特殊字符不正确呈现。用Spark-XML字符集。

写的annapurna.hiriyur

去年发表在:2022年5月19日

问题

你有在你的源文件中特殊字符和使用OSS库Spark-XML

特殊字符不正确呈现。

例如,“CLU®”呈现“CLU�”。

导致

Spark-XML默认支持utf - 8字符集。你是在XML文件中使用不同的字符集。

解决方案

你必须指定字符集使用XML文件中读取数据。

使用字符集选项来定义字符集与Spark-XML读取XML文件时。

例如,如果您的源文件使用iso - 8859 - 1:

% python dfResult = spark.read.format (“xml”) . schema (customSchema) \ .options (rowTag =“实体”)\ .options (charset =“iso - 8859 - 1”) \ .load (' / < path-to-xml > / <示例文件> . xml”)

检查Spark-XML自述文件有关支持选项的更多信息。

这篇文章有用吗?