技术总结
本发明公开了一种基于翻译的word文档解析方法,包括以下步骤,利用XPath扫描解析XML格式文件;根据扫描得到的wp标签内容构造POI段落;解析段落中原文文本和样式,记录wp在文件中的位置信息并编号;该方法利用XPath对XML格式文件进行扫描解析,通过识别wp标签实现对段落得识别,有效的避免表格嵌表格时,嵌套的表格中的段落不能被识别出现漏译的情况。
技术研发人员:席斌;李明;王兴强;张马成;彭成超
受保护的技术使用者:成都优译信息技术股份有限公司
文档号码:201611180452
技术研发日:2016.12.19
技术公布日:2017.05.10