一种Word格式提取及再利用方法

文档序号:6543019阅读:598来源:国知局
一种Word格式提取及再利用方法
【专利摘要】本发明公开了一种Word格式提取及再利用方法,包括如下步骤:第一步,Word文档分解树节点;第二步,形成xml文档;第三步,与用户所交的文档按照规则匹配;第四步,判定这一节点是否匹配成功;如是则进入第五步;如否则查找并提示错误进入下一节点,然后再回到第四步;第五步,判断是否为尾节点;如是则结束;如否则进入下一节点,然后再回到第四步。本发明的有益效果是:系统的模块具有独立性,系统把文档数据的输入、处理和输出分开,各层负责不同的任务和功能实现,实现良好的松耦合特性。此外系统的模块还具有通用性,因为XML使用一种易适配、易转换的通用数据格式,所以各个模块转换和传递的数据都有统一的格式。
【专利说明】—种Word格式提取及再利用方法
【技术领域】
[0001]本发明涉及一种提取及再利用方法,更具体说,它涉及一种Word格式提取及再利用方法。
【背景技术】
[0002]Microsoft Word是微软公司的一个文字处理应用程序,在办公自动化中,Microsoft Word得到了越来越多的应用。然而,在自动化办公应用非常广泛的今天,经常需要读取并甄别有用信息,如何成批、快速的实现对Word文档的提取利用,将直接影响到人们的办公效率。

【发明内容】

[0003]本发明的目的是克服现有技术中的不足,提供一种易适配、易转换提高效率的Word格式提取及再利用方法。
[0004]这种Word格式提取及再利用方法,包括如下步骤:
[0005]第一步,Word文档分解树节点;
[0006]第二步,形成xml文档;
[0007]第三步,与用户所交的文档按照规则匹配;
[0008]第四步,判定这一节点是否匹配成功;如是则进入第五步;如否则查找并提示错误进入下一节点,然后再回到第四步;
[0009]第五步,判断是否为尾节点;如是则结束;如否则进入下一节点,然后再回到第四
止/J/ O
[0010]作为优选:所述第三步的规则为:
[0011]步骤一,读取节点为WordProcessingML中的proofErr节点;
[0012]步骤二,解析WordProcessingML 提取 proofErr 节点;
[0013]步骤三,提示用户修改;
[0014]步骤四,进入下一结点。
[0015]作为优选:所述第三步的规则为:
[0016]步骤一,检查子节点属性;
[0017]步骤二,找出错误语句;
[0018]步骤三,调用标准xml文档;
[0019]步骤四,找到相应位置的r节点;
[0020]步骤五,将r节点下的t节点放入内存中进行合并。
[0021]步骤六,进入下一节点。
[0022]本发明的有益效果是:本发明通过XML和Office应用程序相结合,虽然它不能替代Word的功能,但在一定程度上可提高人们的工作效率,能够提取出文本的格式,并且加以储存。系统的模块具有独立性,系统把文档数据的输入、处理和输出分开,各层负责不同的任务和功能实现,实现良好的松耦合特性。此外系统的模块还具有通用性,因为XML使用一种易适配、易转换的通用数据格式,所以各个模块转换和传递的数据都有统一的格式。
【专利附图】

【附图说明】
[0023]图1为本发明流程图;
[0024]图2为检查错别字流程图;
[0025]图3为检查格式错误流程图。
【具体实施方式】[0026]下面结合附图和实施例对本发明做进一步描述。虽然本发明将结合较佳实施例进行描述,但应知道,并不表示本发明限制在所述实施例中。相反,本发明将涵盖可包含在有附后权利要求书限定的本发明的范围内的替换物、改进型和等同物。
[0027]系统首先将提交的word标准文档分解成树节点,每一个单位子节点都可以设置匹配量词,是否贪婪匹配,子元素匹配模式(子元素以与的方式还是以或的方式匹配)和另外单独添加的匹配代码,遍历整体文档,形成XML文件,再根据XML文件生成能够与用户提交的文档进行匹配的模板文档。
[0028]在匹配过程中,将用户文档按照段落区分。单位子节点的匹配结果能够以未匹配的数量显示出来。依照段落次序,对比以上的单位节点的配置方式,遍历整个文档。
[0029]对于文字部分可以进行字体,字号的匹配,也可以进行格式的匹配,读取章节的标号,校验章节标号的连续性,同时放到context[’ currentChapterNos’ ]中以供其他校验器使用。比对开题报告的专业班级的格式为“专业YYXX” YY为年级,XX为班号。专业为“计
曾姐,,“,,坐坐
-^=f- L 、 oooo -rj- -rj- O
[0030]对于图片部分,可以检查图片序号和图片名称是否在同一行,也可以进行图片序号的匹配,是否与章节号一致,记录当前图片序号是否是上一当前图片序号加1,若是,则图片序号匹配正确,否则,图片序号匹配错误,增加批注信息。这一对于图片序号的对比匹配同样适用于表序号。
[0031]具体实现步骤如下:
[0032]⑴错别字检测和修正
[0033]在WordProcessingML中,错别字的检测是较容易实现的。XML文档对象模型中,通过对XMLShowAdvan-cedErrors属性的设置,可返回包含关于错别字的信息。Word中错别字是以下滑波浪线形式注明的。在Word-ProcessingML中,则以proofErr标记注明,如下例:
[0034]〈w: proofErrw: type=//gramStart///><w: rXw: rPr>
[0035]<w:rFontsw:hint=〃fareast7>〈wx:fontwx:val=〃 宋体 〃/>〈/w:rPr>〈w: t> 进录</w:t></w:r>
[0036]<w: proofErrw: type=//gramEnd7>
[0037]有了 proofErr节点,然后解析WordProcess-1ngML提取proofErr节点,找到它的子节点t,并给出相应的上下文,提示用户对错别字进行修正。
[0038]⑵格式检测和修正[0039]格式检测在小篇幅的文档中较容易解决,但通过wordPro-cessingML操作,可能就会变成Word操作中最复杂的问题。然而对于超大篇幅的文档(论文,论证材料等),我们不采用人工检测的方式,而是用程序检测,通过递归调用子节点来实现。
[0040]格式检测由于Word文档格式的多样化,对于正文文字的格式检测相对比较容易。下面给出一个例子说明。
[0041]如“测试的格式”这一句中,“测试的”是宋体五号,“格式”是宋体小三。我们要求全部是宋体五号。在WordProcessingML中代码如下:
[0042]
【权利要求】
1.一种Word格式提取及再利用方法,其特征在于:包括如下步骤: 第一步,Word文档分解树节点; 第二步,形成xml文档; 第三步,与用户所交的文档按照规则匹配; 第四步,判定这一节点是否匹配成功;如是则进入第五步;如否则查找并提示错误进入下一节点,然后再回到第四步; 第五步,判断是否为尾节点;如是则结束;如否则进入下一节点,然后再回到第四步。
2.根据权利要求1所述的Word格式提取及再利用方法,其特征在于:所述第三步的规则为: 步骤一,读取节点为WordProcessingML中的proofErr节点; 步骤二,解析 WordProcessingML 提取 proofErr 节点; 步骤三,提示用户修改; 步骤四,进入下一结点。
3.根据权利要求1所述的Word格式提取及再利用方法,其特征在于:所述第三步的规则为: 步骤一,检查子节点属性; 步骤二,找出错误语句; 步骤三,调用标准xml文档; 步骤四,找到相应位置的r节点; 步骤五,将r节点下的t节点放入内存中进行合并。 步骤六,进入下一节点。
【文档编号】G06F17/21GK103902514SQ201410135907
【公开日】2014年7月2日 申请日期:2014年4月4日 优先权日:2014年4月4日
【发明者】柯海丰, 张高燕, 陈佳宁, 何瓣, 宋 莹 申请人:浙江大学城市学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1