[关闭]
@liayun 2016-06-27T20:16:09.000000Z 字数 3893 阅读 4637

Dom4j保存数据的乱码问题以及xml文件头编码格式改变的原因和解决方法

JavaWeb


问题描述

dom4j对xml文档进行增删改查后,将内存中的Document对象保存到持久化设备生成XML文件后,XML文件无法正常打开,出现乱码。也有可能会报异常:Xml:org.dom4j.DocumentException: 2字节的UTF-8序列的2无效

产生乱码原因

乱码原因分析:

book.xml如下:

  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <书架>
  3. <书>
  4. <书名>Java就业培训教程</书名>
  5. <作者>张孝祥</作者>
  6. <售价>109元</售价>
  7. </书>
  8. <书>
  9. <书名 name="xxxx">JavaScript网页开发</书名>
  10. <作者>黎活明</作者>
  11. <售价>28.00元</售价>
  12. </书>
  13. </书架>

需求:在第一本书中添加一个新的售价:<售价>209元</售价>
使用Dom4j API将内存中的Document对象写入到XML文件中,代码如下:

  1. XMLWriter writer = new XMLWriter(new FileWriter("book.xml"));
  2. writer.write(document);
  3. writer.close();

在上面的代码中输出使用的是FileWriter对象进行文件的输出。这就是不能正确进行文件编码的原因所在,Java中由Writer类继承下来的子类没有提供编码格式处理,所以dom4j也就无法对输出的文件进行正确的格式处理。这时候所保存的文件会以系统的默认编码对文件进行保存,在中文版的window下Java的默认的编码为GBK,也就是说虽然我们标识了要将xml保存为UTF-8格式,但实际上文件是以GBK格式来保存的,即把内存中的Document对象(UTF-8编码,encoding=“UTF-8”)转换成GBK编码的字符流存入持久化设备,此时文件的真正格式为GBK,encoding依旧为UTF-8,故出现乱码。
图示:

解决办法:将Document对象写入到XML文件中使用的FileWriter改为转换流写入。

  1. XMLWriter writer = new XMLWriter(new OutputStreamWriter(new FileOutputStream("src/book.xml"), "UTF-8"));
  2. writer.write(document);
  3. writer.close();

转换流指定了编码格式把内存中的Document对象(UTF-8编码,encoding=“UTF-8”)转换成字节流,如果指定的编码格式是GBK,则此时文件的真正格式为GBK,encoding依旧为UTF-8,故出现乱码。如果将指定的编码格式指定为UTF-8格式,不会出现乱码。
缺点:虽然解决了乱码问题,但是这样会改变原xml文档的编码模式,即改为:encoding="UTF-8"

文件头编码格式被改变原因

假设此时xml文档的编码格式是GBK,写回文件的编码格式也是GBK。代码如下:

  1. XMLWriter writer = new XMLWriter(new OutputStreamWriter(new FileOutputStream("src/book.xml"), "GBK"));
  2. writer.write(document);
  3. writer.close();

xml文档仍然出现乱码,原因:写入数据时使用的是GBK编码表,写入后xml文件头的编码格式被改为了UTF-8——这是因为,文档在写回时,文档的头编码格式是根据内存中Document的编码(UTF-8)设定的,则文档解码时使用的是UTF-8来解码,会出现乱码。
解决方法:使用dom4j提供方的输出格式化类OutputFormat。代码如下:

  1. OutputFormat format = OutputFormat.createPrettyPrint();
  2. format.setEncoding("GBK");
  3. XMLWriter writer = new XMLWriter(new FileOutputStream("src/book.xml"), format); // 该方法是直接通过字节流来处理,所以不会存在编码解码问题,因为本身就是字节。
  4. writer.write(document);
  5. writer.close();

结论一:通过上述分析,可以说明数据写入时使用的码表和解码时使用的码表不同就会造成乱码问题。所以只有输出流编码方式为UTF-8 的方式下才不会出现乱码,但所有方式都会改变原xml文档的编码表。改为:encoding="UTF-8"

最佳解决办法

为了解决保持xml文档编码表不变,dom4j引入了格式化输出器,通过格式化输入器,能够实现按指定的编码表来编码,也可以把xml文档的码表改为指定的码表。

  1. OutputFormat format = OutputFormat.createPrettyPrint();
  2. format.setEncoding("GBK"); // 给格式化输出器指定一个码表,xml文档什么编码,格式化输出器就是什么编码
  3. XMLWriter writer = new XMLWriter(new FileOutputStream("src/book.xml"), format);
  4. writer.write(document);
  5. writer.close();

生成一个漂亮的格式化输出器(紧缩的格式化输出器也可以)对象format,设置其编码格式为自己想要的任意格式。输出时,format会先把内存中的Document对象的encoding属性值改为设置的编码格式,然后再把Document对象按设置的编码格式格式化字节流。此时XML文件的真正格式和encoding属性值一致,不会出现乱码。
注:构造XMLWriter对象的输出流对象必须是字节流对象,如果是字符流对象又会导致Document对象多次按不同编码转换,可能又会出现乱码问题。分两种情况讨论:


结论二:通过格式化输出器来指定码表的方式写入数据后,都会将原xml文档的编码表更改为指定的码表。因此只要我们指定的码表与xml文档的码表相同,在写入数据时都不会更改xml文档的默认码表。但是如果使用字符输入流写入数据时,一定要保证平台默认码表与xml文档码表一致,这样写入数据时不会出现乱码。在任何情况下使用字节输入流写入数据都不会出现乱码。

这里我参考如下:

  1. Dom4j保存数据乱码以及xml文件头编码格式改变的原因和解决方法
  2. Dom4j中文异常处理:Invalid byte 2 of 2-byte UTF-8 sequence
  3. xml读取异常Invalid byte 1 of 1-byte UTF-8 sequence
  4. dom4j学习总结
  5. 黑马程序员---关于使用dom4j写入数据时的乱码问题分析
  6. Xml—dom4j解析以及写入xml文档时的乱码问题
  7. Dom4j中的中文编码问题
  8. Dom4j方式解析XML乱码问题详解
  9. javaweb入门20160305---xml的解析入门
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注