一种扫描文档编改的方法与系统的制作方法

文档序号:6340845阅读:251来源:国知局
专利名称:一种扫描文档编改的方法与系统的制作方法
技术领域
本发明涉及一种扫描文档编改的方法与系统。
技术背景
光学字符识别(Optical Character Recognition, OCR)是指对文本资料进行扫 描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
由于OCR本身算法的局限性以及原始文本资料的质量原因,OCR从扫描的文本中 获取文字信息的过程并不能做到完全正确,因此在扫描文档编改的工作中,通常先由OCR 进行识别,再由校勘用户进行人工校勘,即由人工将OCR处理之后的识别文档与被扫描的 文档进行比较,找出识别文档中与被扫描文档不一致的字符然后修改。这种工作方式如图 1所示,图1是根据现有技术的扫描文档编改的方法的主要步骤示意图。
根据图1所示的流程,如果校勘用户的校勘正确率较低,即校勘发现的OCR错误识 别的字符数与OCR错误识别的总字符数的比值校低,则经过该校勘用户处理的校勘文档中 仍有可能存在较多的错误字符,影响了扫描文档编改工作的准确性。
现有的扫描文档编改的方法准确性较低,对于该问题,目前尚未提出有效解决方 案。发明内容
本发明的主要目的是提供一种扫描文档编改的方法与系统,用以解决现有技术中 扫描文档编改的方法准确性较低的问题。
为解决上述问题,根据本发明的一个方面,提供了一种扫描文档编改的方法。
本发明的扫描文档编改方法包括接收初始文档在光学字符识别(OCR)后的识别 文档;对所述识别文档进行修改并对该修改进行记录;接收校勘用户对修改后的识别文档 进行校勘得出的校勘文档;根据所述校勘文档中对所述修改的内容的校勘结果,得出所述 校勘用户的校勘正确率;判断所述校勘正确率是否大于预设值,若是则输出所述校勘文档。
进一步地,对所述识别文档进行修改包括在所述识别文档中的预设位置将识别 正确的字符修改为其他字符。
进一步地,对所述识别文档进行修改包括在所述识别文档中的预设位置将识别 错误的字符修改为该预设位置的正确字符以外的字符。
进一步地,对所述识别文档进行修改之前还包括按字符统计所述校勘用户对各 字符的校勘正确率;对所述识别文档进行修改包括从所述校勘用户的校勘正确率低于预 设值的字符中确定出一种或多种字符,将所述识别文档中的全部或部分所述一种或多种字 符分别对应修改为各字符被错误识别时得到的字符。
进一步地,在所述校勘正确率不大于预设值的情况下,输出提示信息,该提示信息 用于提示所述校勘用户对所述校勘文档再次进行校勘,以及接收对所述校勘文档再次进行 校勘的校勘文档。
进一步地,输出所述校勘文档之后包括将所述校勘文档中经过所述修改的内容 恢复为所述修改前的内容。
为解决上述问题,根据本发明的一个方面,提供了一种扫描文档编改的系统。
本发明的扫描文档编改的系统包括第一接收模块,用于接收初始文档在光学字 符识别(OCR)后的识别文档;修改记录模块,用于对所述识别文档进行修改并对该修改进 行记录;第二接收模块,用于接收校勘用户对修改后的识别文档进行校勘得出的校勘文档; 第一统计模块,用于根据所述校勘文档中对所述修改的内容的校勘结果,得出所述校勘用 户的校勘正确率;分析模块,用于判断所述校勘正确率是否大于预设值,若是则输出所述校 勘文档。
进一步地,所述修改记录模块还用于在所述识别文档中的预设位置将识别正确的 字符修改为其他字符。
进一步地,所述修改记录模块还用于在所述识别文档中的预设位置将识别错误的 字符修改为该预设位置的正确字符以外的字符。
进一步地,所述系统还包括第二统计模块,用于按字符统计所述校勘用户对各字 符的校勘正确率;所述修改记录模块还用于从所述校勘用户的校勘正确率低于预设值的字 符中确定出一种或多种字符,将所述识别文档中的全部或部分所述一种或多种字符分别对 应修改为各字符被错误识别时得到的字符。
进一步地,所述系统还包括输出模块,用于输出提示信息,该提示信息用于提示所 述校勘用户对所述校勘文档再次进行校勘;所述第二接收模块还用于接收对所述校勘文档 再次进行校勘的校勘文档。
进一步地,所述系统还包括恢复模块,用于将所述校勘文档中经过所述修改的内 容恢复为所述修改前的内容。
根据本发明的技术方案,通过获取用户的校勘正确率的方式来考察校勘文档是否 可以接受,只有用户的校勘正确率大于预设值的情况下才认可其校勘结果,从而提高了扫 描文档编改的准确性。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中
图1是根据现有技术的扫描文档编改的方法的主要步骤示意图2是根据本发明实施例的扫描文档编改的方法的主要步骤示意图;以及
图3是根据本发明实施例的扫描文档编改的系统的模块的示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图2是根据本发明实施例的扫描文档编改的方法的主要步骤示意图,如图2所示, 该方法包括如下步骤
步骤S21 接收初始文档在光学字符识别(OCR)后的识别文档;
步骤S22 对识别文档进行修改并对该修改进行记录;
步骤S23 接收校勘用户对修改后的识别文档进行校勘得出的校勘文档;
步骤S24:根据校勘文档中对修改的内容的校勘结果,得出校勘用户的校勘正确 率;
步骤S25 判断校勘正确率是否大于预设值,若是则进入步骤S26,否则进入步骤 S27 ;
步骤S26 输出校勘文档;
步骤S27 输出提示信息,提示校勘用户对校勘文档再次进行校勘。接下来可以转 入步骤SM。
在获取用户的校勘正确率的时候,在步骤S22中具体可以采用双向加扰的方法。
双向加扰的方法中,一种是在识别文档中的预设位置将识别正确的字符修改为其 他字符,这样在步骤S24中,统计这些经过修改的字符中有多少字被校勘用户检查出来,将 检查出的字数占经过修改字符总数的比例作为该校勘用户的校勘正确率。
双向加扰的另一种方法是在识别文档中的预设位置将识别错误的字符修改为该 预设位置的正确字符以外的字符。因为OCR结果中有可能存在某一字符常常被错误识别为 另一字符,这样校对人员可能直接查找该另一字符,从而忽略对其他字符的校对,所以可将 该另一字符进行修改,改为其他字符,该其他字符应当不是当前位置的正确字符,这样可以 促使校对人员对每个字符进行校对,而不是直接查找那些易错的结果。
在加扰时可以针对不同的校勘用户采取不同的加扰策略。例如校勘用户对于某些 OCR结果中存在的错误常常不能校勘出来,就可以针对校勘用户A的这种特点进行加扰。具 体可以是在步骤S22之前,按字符统计校勘用户对各字符的校勘正确率,然后从该校勘用 户的校勘正确率低于预设值的字符中确定出一种或多种字符,将识别文档中的全部或部分 所述一种或多种字符分别对应修改为各字符被错误识别时得到的字符。例如“未”常被识别 为“末”这样的错误,常常被校勘用户A忽略,那么就可以将识别文档中正确识别出的“未” 改为“末”,看校勘用户A是否检查得出。
在步骤S25之后,可能还包含未被校勘用户检查出的在步骤S22中修改的个别字 符,因此可以根据步骤S22中的记录,将步骤S22中修改的内容恢复为修改前的内容。
图3是根据本发明实施例的扫描文档编改的系统的模块的示意图。如图3所示, 扫描文档编改的系统30包括如下模块
第一接收模块,用于接收初始文档在光学字符识别(OCR)后的识别文档;
修改记录模块,用于对所述识别文档进行修改并对该修改进行记录;
第二接收模块,用于接收校勘用户对修改后的识别文档进行校勘得出的校勘文 档;
第一统计模块,用于根据所述校勘文档中对所述修改的内容的校勘结果,得出所 述校勘用户的校勘正确率;
分析模块,用于判断所述校勘正确率是否大于预设值,若是则输出所述校勘文档。
修改记录模块还可用于在识别文档中的预设位置将识别正确的字符修改为其他字符。
修改记录模块还可用于在所述识别文档中的预设位置将识别错误的字符修改为 该预设位置的正确字符以外的字符。
扫描文档编改的系统30还可包括第二统计模块,用于按字符统计校勘用户对各 字符的校勘正确率;这样修改记录模块还可用于从校勘用户的校勘正确率低于预设值的字 符中确定出一种或多种字符,将识别文档中的全部或部分所述一种或多种字符分别对应修 改为各字符被错误识别时得到的字符。
扫描文档编改的系统30还可包括输出模块,用于输出提示信息,该提示信息用于 提示所述校勘用户对所述校勘文档再次进行校勘;这样第二接收模块还用于接收对所述校 勘文档再次进行校勘的校勘文档。
扫描文档编改的系统30还可包括恢复模块,用于将校勘文档中经过修改的内容 恢复为修改前的内容。
从以上的说明可以看出,本实施例中通过获取用户的校勘正确率的方式来考察校 勘文档是否可以接受,只有用户的校勘正确率大于预设值的情况下才认可其校勘结果,从 而提高了扫描文档编改的准确性。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用 的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成 的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储 在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们 中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的 硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技 术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。权利要求
1.7 一种扫描文档编改的方法,其特征在于,包括 接收初始文档在光学字符识别(OCR)后的识别文档; 对所述识别文档进行修改并对该修改进行记录;接收校勘用户对修改后的识别文档进行校勘得出的校勘文档;根据所述校勘文档中对所述修改的内容的校勘结果,得出所述校勘用户的校勘正确率;判断所述校勘正确率是否大于预设值,若是则输出所述校勘文档。
2.根据权利要求1所述的方法,其特征在于,对所述识别文档进行修改包括在所述识 别文档中的预设位置将识别正确的字符修改为其他字符。
3.根据权利要求1所述的方法,其特征在于,对所述识别文档进行修改包括在所述识 别文档中的预设位置将识别错误的字符修改为该预设位置的正确字符以外的字符。
4.根据权利要求1所述的方法,其特征在于,对所述识别文档进行修改之前还包括按字符统计所述校勘用户对各字符的校勘正确率;对所述识别文档进行修改包括从所述校勘用户的校勘正确率低于预设值的字符中确 定出一种或多种字符,将所述识别文档中的全部或部分所述一种或多种字符分别对应修改 为各字符被错误识别时得到的字符。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在所述校勘正确率不大于预 设值的情况下,输出提示信息,该提示信息用于提示所述校勘用户对所述校勘文档再次进 行校勘,以及接收对所述校勘文档再次进行校勘的校勘文档。
6.根据权利要求1至4中任一项所述的方法,其特征在于,输出所述校勘文档之后包 括将所述校勘文档中经过所述修改的内容恢复为所述修改前的内容。
7.一种扫描文档编改的系统,其特征在于,包括第一接收模块,用于接收初始文档在光学字符识别(OCR)后的识别文档; 修改记录模块,用于对所述识别文档进行修改并对该修改进行记录; 第二接收模块,用于接收校勘用户对修改后的识别文档进行校勘得出的校勘文档; 第一统计模块,用于根据所述校勘文档中对所述修改的内容的校勘结果,得出所述校 勘用户的校勘正确率;分析模块,用于判断所述校勘正确率是否大于预设值,若是则输出所述校勘文档。
8.根据权利要求7所述的系统,其特征在于,所述修改记录模块还用于在所述识别文 档中的预设位置将识别正确的字符修改为其他字符。
9.根据权利要求7所述的系统,其特征在于,所述修改记录模块还用于在所述识别文 档中的预设位置将识别错误的字符修改为该预设位置的正确字符以外的字符。
10.根据权利要求7所述的系统,其特征在于,所述系统还包括第二统计模块,用于按字符统计所述校勘用户对各字符的校勘正确率;所述修改记录模块还用于从所述校勘用户的校勘正确率低于预设值的字符中确定出 一种或多种字符,将所述识别文档中的全部或部分所述一种或多种字符分别对应修改为各 字符被错误识别时得到的字符。
11.根据权利要求7至10中任一项所述的系统,其特征在于,所述系统还包括输出模块,用于输出提示信息,该提示信息用于提示所述校勘用户对 所述校勘文档再次进行校勘;所述第二接收模块还用于接收对所述校勘文档再次进行校勘的校勘文档。
12.根据权利要求7至10中任一项所述的系统,其特征在于,还包括恢复模块,用于将 所述校勘文档中经过所述修改的内容恢复为所述修改前的内容。
全文摘要
本发明公开了一种扫描文档编改的方法与系统,以解决现有技术中扫描文档编改的方法准确性较低的问题。该方法包括接收初始文档在光学字符识别(OCR)后的识别文档;对所述识别文档进行修改并对该修改进行记录;接收校勘用户对修改后的识别文档进行校勘得出的校勘文档;根据所述校勘文档中对所述修改的内容的校勘结果,得出所述校勘用户的校勘正确率;判断所述校勘正确率是否大于预设值,若是则输出所述校勘文档。采用本发明的技术方案,有助于提高扫描文档编改的准确性。
文档编号G06F17/21GK102043766SQ20101061682
公开日2011年5月4日 申请日期2010年12月30日 优先权日2010年12月30日
发明者周长岭, 赵海涛 申请人:方正国际软件(北京)有限公司, 方正国际软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1