1.一种基于翻译的word文档解析方法,其特征在于,包括以下步骤,
利用XPath扫描解析XML格式文件;
根据扫描得到的wp标签内容构造POI段落;
解析段落中原文文本和样式,记录wp在文件中的位置信息并编号。
2.根据权利要求1所述的一种基于翻译的word文档解析方法,其特征在于:在扫描解析XML格式文件之前还包括文本转换步骤,该步骤具体为:若原文为word文件,则直接将其转换为XML格式的文件;若原文为PDF格式的文件,先将其转换为word文件再转换为XML格式的文件。
3.根据权利要求2所述的一种基于翻译的word文档解析方法,其特征在于:所述word文件为2003以后的版本文件,若word文件为2003以前的版本,还包括版本转化步骤。