将 HTML 文件转换成 XML

转自:互联网


  在Java专家MichaelGeisler为Builder澳大利亚写的第一篇文章中,他向读者展示了如何使用JTidy将HTML文件转换成XML。

  有关Java的最重要的事情是有很多扩展标准库可以作为标准平台的一部分,而且在那些库中有对XML提供了非常多的支持。然而对于某些特定的需要,在标准库中可能没有直接的支持。

  其实你有两个选择:

  完全由自己来构建一些东西。这一般很痛苦,而且很费时间。
  去“社区”看看是否已经有人遇到了同样的问题(这种情况非常有可能发生),看他是否乐意与你分享他的成果。
  对于这个情况,SourceForge上有一个非常有用的小项目,叫做JTidy。JTidy的Web站点位于http://sourceforge.net/projects/jtidy/。

  JTidy提供HTML语法检查和HTML的“prettyprinting(漂亮打印)”,但是对于你来说,它还允许你将一个HTML文件作为输入,然后将其转换成为XML。JTidy读取输入文件,然后如果发现有任何不匹配或遗漏的闭合标记,将纠正这些标记,最后输出一个格式良好的XML文档。

  从下面的示例代码中可以看到,JTidy的用法相当简单。简单地将JTidy实例设置为输出XML,提供一个输入URL,输出文件和错误文件,然后启动转换过程就可以了。