文字识别、编改的系统的制作方法

文档序号:6607696阅读:333来源:国知局
专利名称:文字识别、编改的系统的制作方法
技术领域
本发明涉及涉及文档电子化过程中文字识别及编改的系统,尤其涉及中文印刷体 识别与编改的系统。
背景技术
在纸制文件电子化的过程中,OCR识别后的文字编改工作耗费了极大的人力,它是 一项人力密集性工作,劳动强度也很高。目前的应用现状是用普通OCR软件进行图像识 别,再进行一次编改校正,在保证每人8万字/8小时正常编改的速度下,编改的错误率通常 也会超过1/1000。

发明内容
为解决现有的人工编改效率低,错误率高的现状,本发明提供了一种文字识别、编 改的系统。该系统可以极大地提高人工编改的效率,降低成本,所述技术方案如下文字识别、编改的系统,包括双路识别单元,调用识别软件并采用外挂的方式对文档中的文字进行识别;流控处理单元,对待识别的文档图像进行段落切图,对识别后的不同的文字进行 编改校对并进行质检;后续加工处理单元,对其发现的错误进行改正并返还到发现错误的执行者。本发明提供的技术方案的有益效果是通过本发明对正常的汉字为主体的文档其编改的效率可以提高7倍以上,达到70 万字/8小时;同时编改错误率降低60 %,达到4/10000以下。


图1是本发明基于网络和数据库的流程化加工系统图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述本实施例提供了一种文字识别、编改的系统,该系统包括该系统包括双路识别单 元、流控处理单元及后续加工处理单元,其中双路识别单元,调用识别软件并采用外挂的方 式对文档中的文字进行识别;流控处理单元,对待识别的文档图像进行段落切图,对识别后 的不同的文字进行编改校对并进行质检;后续加工处理单元,对其发现的错误进行改正并 返还到发现错误的执行者。上述外挂识别就是不改变原来的OCR识别软件,编写新程序模 拟人工操作OCR识别软件的过程,以便完成图像识别工作。外挂程序和OCR程序是各自独 立运行的软件。外挂程序识别图像不需要OCR程序的识别接口,外挂程序利用OCR程序进 行图像识别。
上述双路识别单元包括识别机器人与机器人智能监控程序,其中,识别机器人采 用汉王OCR识别软件和文通OCR识别软件通过外挂的方式对待识别的文档图像进行识别, 对其识别的结果进行比较,并将二者不一致的字抛出编改。机器人智能监控程序,监控识别机器人的运行状态,如果有异常则重启机器人,严 重问题则重启操作系统并启动机器人,以保证识别机器人持续、稳定运行。本系统采用的汉王OCR识别软件和文通OCR识别软件具有很强的互补性,我们利 用其识别结果并进行单行逐字比对,过滤出具有相同的识别结果的字,不交给人工进行编 改,将识别不同的字交给人工进行编改校对。上述流控处理单元包括切图模块、纵编模块、横编模块及质检模块,其中,切图模 块,对待识别的文档图像进行段落切图,以保证双路OCR识别软件具有相同的版面分析结 果。其切图顺序遵照文章段落的自然顺序,并提供倾斜校正、去噪、二值化等图像处理功能。 纵编模块,以每人每天的编改效率(例如70万字)为参考标准组织编改任务批次,将同一 批次的需要纵编的文字以字为单位重新组合进行编改。对双路识别有矛盾且重复出现两次 以上的字先交给人工进行纵向编改校对。所有需纵编的字都在段落中标红,编过的字标蓝, 且图文对照。按70万字一批形成任务批次,基本保证该批次在一天内完成。正常情况下, 该过程的编改量只占全部应编改工作量的5%。纵编有效地提高了编改效率,减轻编改劳 动强度。为了提高系统整体的正确率,我们还主动加入了一些易混字和易错字,对他们全部 进行纵编。如“人”、“入”、“一”、“二”、“卜”、“白”、“· ”、“儿”等二十个字。横编模块,在纵编 的基础上对需要编改的文字以文档的自然顺序进行图文对照编改。所有需横编的文字都在 段落中标红,已纵编的字都在段落中标绿,编过的字标蓝,且图文对照,在正常情况下,该过 程的编改量小于全部应编改工作量的1 %,在编改的过程中,要求编改者同时检查段落的正 确。质检模块,按人按批按设定的比例进行抽检,对抽取的编改结果进行质量检查,并下质 检结论。上述后续加工处理单元包括改错返工模块及管理与监控模块,所述改错返工模 块,对其双路识别单元和流控处理模块单元中的每个工作岗位发现的错误以及质检结果为 返工的任务,流程将任务分派给出现错误的员工,错误被改正后再将任务返回给发现错误 的员。管理与监控模块,包括工资的结算、任务统计分析、任务优先级调整、暂停加工及恢复 加工的功能。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
文字识别、编改的系统,其特征在于,所述系统包括双路识别单元,调用识别软件并采用外挂的方式对文档中的文字进行识别;流控处理单元,对待识别的文档图像进行段落切图,对识别后的不同的文字进行纵向编改及横向编改校对并进行质检;后续加工处理单元,对其发现的错误进行改正并返还到发现错误的执行者。
2.根据权利要求1所述的文字识别、编改的系统,其特征在于,所述双路识别单元包括 识别机器人及机器人智能监控程序,所述识别机器人,采用汉王OCR识别软件和文通OCR识别软件通过外挂的方式对待识别的 文档图像进行识别;机器人智能监控程序,监控识别机器人的运行状态。
3.根据权利要求1所述的文字识别、编改的系统,其特征在于,所述流控处理单元包括 切图模块、纵编模块、横编模块及质检模块,所述切图模块,对待识别的文档图像进行段落切图;纵编模块,将同一批次的需要纵编的文字以字为单位重新组合进行编改;横编模块,对需要编改的文字以文档的自然顺序进行图文对照编改;质检模块,对抽取的编改结果进行质量检查。
4.根据权利要求1所述的文字识别、编改的系统,其特征在于,所述后续加工处理单元 包括改错返工模块及管理与监控模块,所述改错返工模块,对其双路识别单元和流控处理模块单元中发现的错误进行改正并返回 给发现错误的执行者;管理与监控模块,包括系统人工岗位员工的工资结算、在线任务加工情况的统计分析、 在线任务优先级调整、加工任务的临时暂停和恢复加工等功能。
5.根据权利要求1 4任一项所述的文字识别、编改的系统,其特征在于,所述系统的 识别还包括对英文及其他字符的识别。
全文摘要
本发明公开了一种文字识别、编改的系统,所述系统包括双路识别单元,调用识别软件并采用外挂的方式对文档中的文字进行识别;流控处理单元,对待识别的文档图像进行段落切图,对识别后的不同的文字进行纵向编改及横向编改校对并进行质检;后续加工处理单元,对其发现的错误进行改正并返还到发现错误的执行者。通过本发明对正常的汉字为主体的文档其编改的效率可以提高7倍以上,达到70万字/8小时;同时编改错误率降低60%,达到4/10000以下。
文档编号G06T11/60GK101908147SQ201010253559
公开日2010年12月8日 申请日期2010年8月16日 优先权日2010年8月16日
发明者张振海, 梁洵, 瞿洋, 袁仁慧 申请人:同方知网(北京)技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1