一种基于翻译的word文档解析方法与流程

文档序号:11155019阅读:来源:国知局

技术特征:

1.一种基于翻译的word文档解析方法,其特征在于,包括以下步骤,

利用XPath扫描解析XML格式文件;

根据扫描得到的wp标签内容构造POI段落;

解析段落中原文文本和样式,记录wp在文件中的位置信息并编号。

2.根据权利要求1所述的一种基于翻译的word文档解析方法,其特征在于:在扫描解析XML格式文件之前还包括文本转换步骤,该步骤具体为:若原文为word文件,则直接将其转换为XML格式的文件;若原文为PDF格式的文件,先将其转换为word文件再转换为XML格式的文件。

3.根据权利要求2所述的一种基于翻译的word文档解析方法,其特征在于:所述word文件为2003以后的版本文件,若word文件为2003以前的版本,还包括版本转化步骤。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1