文字识别、编改的方法

文档序号:6607697阅读:271来源:国知局
专利名称:文字识别、编改的方法
技术领域
本发明涉及文档电子化过程中文字识别、编改的方法,尤其涉及中文印刷体识别、 编改的方法。
背景技术
在纸制文件电子化的过程中,OCR识别后的文字编改工作耗费了极大的人力,它是 一项人力密集性工作,劳动强度也很高。目前的应用现状是用普通OCR软件进行图像识 别,再进行一次编改校正,在保证每人8万字/8小时正常编改的速度下,编改的错误率通常 也会超过1/1000。

发明内容
为解决现有的人工编改效率低,错误率高的现状,本发明提供了一种文字识别、编 改的方法。该方法可以极大地提高人工编改的效率,降低成本,其技术方案如下文字识别、编改的方法,包括选用不同的识别软件并采用外挂的方式对文档中的文字进行识别;比对所识别文字的结果;将识别不同的文字进行编改校对并进行质检;将质检合格后的文字合成文档并输出。本发明提供的技术方案的有益效果是通过本发明对正常的汉字为主体的文档其编改的效率可以提高7倍以上,达到70 万字/8小时;同时编改错误率降低60 %,达到4/10000以下。


图1是本发明实施方法流程图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述本实施例提供了一种文字识别、编改的方法,具体包括以下流程(参见图1)文档扫描与处理为提高OCR识别软件识别正确率,对文档统一采用300DPI精度进行扫描,随后对 图像进行必要的倾斜矫正、图像去污去噪等处理。按段落切图为保证双路OCR识别软件具有相同的版面分析结果,必须对文档图像进行段落切 图,其切图顺序遵照文章段落的自然顺序,并且自动命名,以便结果输出时使用。版面分析与检查
对切好的图像用“汉王” OCR识别软件进行自动版面分析;人工检查自动版面分析 结果,纠正错误结果。检查时,对图像缺陷进行必要的修补,保证段落及行分析正确。如果 需要,进行人工版面分析。我们以“汉王”OCR识别软件版面分析的结果作为最后重组段落 的依据。“汉王”和“文通”双路OCR识别软件外挂识别把段落切图的图像进行“行切图”一一切成若干行图像,分别传入“汉王”和“文通” 双路识别软件,进行外挂识别。外挂识别就是不改变原来的OCR识别软件,编写新程序模拟人工操作OCR识别软 件的过程,以便完成图像识别工作。外挂程序和OCR程序是各自独立运行的软件。外挂程 序识别图像不需要OCR程序的识别接口,外挂程序利用OCR程序进行图像识别。采用外挂识别可以有效地节约采购双路OCR识别SDK软件的费用,降低系统构建 成本,也可以避免SDK软件相对于其正品软件技术落后的问题。之所以经过“行切图”,再逐行送入双路识别软件进行识别的原因是对即使很清 晰的段落图像,由于两个识别软件的版面分析算法不同,版面分析的结果也可能不同。经过 “行切图”,我们就能保证双路识别软件行分析的正确性。双路识别结果比对“汉王”和“文通”是国内对中文和英文都具有较高识别率的OCR系统,它们对清晰 印刷体汉字图象识别率都在98%以上。更为可贵的是通过我们的对比测试,“汉王”和“文 通”识别软件具有很强的互补性,利用他们的识别结果并进行单行逐字比对,过滤出具有相 同的识别结果的字,不交给人工进行编改;把识别不同字交给人工进行编改校对。实际应用统计说明,对正常印刷体汉字为主体的文档,我们不编改文字抛出率达 到95%,这部分文字的错误率达到< 3/10000。在双路比对前,针对其应用需求,还对一些字符做了必要的全角字符转半角字符 的归一化处理。这些字符包括A-Z、a-z、0-9、“! ”、“ [”、“] ”等,共计80个字符。双路行对比算法采用基于状态空间搜索A*算法,采用横向搜索寻找最优匹配。设 两行待对比的文字串为Sl和S2,它们的长度分别为m和n,且m彡η ;S1包含字符(Csl, Cs2,· · ·,Csm),S2 包含字符(Cll,C12,· · ·,Cln)。比对算法如下(1)对短文字串Sl的每个文字Csi,且0 < i Sm,在长文字串S2中寻找匹配的字 符,并把在S2中与Csi相匹配字符的索引放入可能匹配的集合SMi ;随后在SMi中增加一 个-1的索引,代表不匹配。过程如下FOR i = 1 TO mbeginFOR j = 1 TO ηbeginif Csi = Clj then SMi — jendSMi — -1end由此,得到搜索空间(SMI, SM2,...,SMm)
4
(2)为减少搜索空间的大小,对于每一个可能的匹配,计算包括它本身随后可能的 最大匹配数MaxMatchAfter (简称MMA),用于下一步的启发式搜索。对SMi中-1的可能匹 配,即Csi不与S2任何一个字符匹配,其MMA = m-i ;对SMi中其他可能的匹配,递归计算 其MMA,计算要利用顺序约束和长度约束排除明显不合理的匹配。(3)进行横向启发式递归搜索,快速找出匹配数量大的解。纵编对双路识别有矛盾且重复出现两次以上的字先交给人工进行纵向编改校对。所有 需纵编的字都在段落中标红,编过的字标蓝,且图文对照。按70万字一批形成任务批次,基 本保证该批次在一天内完成。正常情况下,该过程的编改量只占全部应编改工作量的5%。纵编有效地提高了编 改效率,减轻编改劳动强度。为了提高系统整体的正确率,我们还主动加入了一些易混字和易错字,对他们全 部进行纵编。如“人”、“入”、“一”、“二”、“卜”、“白”、“· ”、“儿”等二十个字。横编经过纵编后,系统进行横编过程,所有需横编的文字都在段落中标红,已纵编的字 在段落中标绿,编过的字标蓝,且图文对照。正常工作情况下,该过程的编改量小于全部应编改工作量的1%。在编改过程中, 要求编改者同时检查段落的正确。质检为督促编改人达到常规编改质量,设计了编改抽检岗位,对每一批人工编改数据 进行抽检。一般抽检1/10,确保编改错误低于1/1000。合并输出根据段落切图信息,合成正常文章编改文本。其系统错误率3/10000*95% +1/1000*5%= 3. 35/10000。以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围 为准。
权利要求
文字识别、编改的方法,其特征在于,所述方法包括选用不同的识别软件并采用外挂的方式对文档中的文字进行识别;比对所识别文字的结果;将识别不同的文字进行编改校对并进行质检;将质检合格后的文字合成文档并输出。
2.根据权利要求1所述的文字识别、编改的方法,其特征在于,所述识别软件至少包含 两种,其识别软件可采用“汉王” OCR识别软件和“文通” OCR识别软件进行外挂识别。
3.根据权利要求1所述的文字识别、编改方法,其特征在于,所述文字的编改包括纵向 编改和横向编改。
4.根据权利要求2所述的文字识别、编改的方法,其特征在于,所述“汉王”OCR识别软 件和“文通” OCR识别软件为两种识别结果互补的识别软件。
5.根据权利要求1所述的文字识别、编改的方法,其特征在于,在执行“选用不同的识 别软件并采用外挂的方式对文档中的文字进行识别”之前还包括以下步骤对文档进行扫描并进行相应的处理; 对文档图像进行段落切图;通过识别软件对切好的段落图像进行自动版面分析并检查其分析的结果。
6.根据权利要求1 5任一项所述的文字识别、编改的方法,其特征在于,所述识别还 包括对英文及其他字符的识别。
全文摘要
本发明公开了一种文字识别、编改的方法,该方法包括选用不同的识别软件并采用外挂的方式对文档中的文字进行识别;比对所识别文字的结果;将识别不同的文字进行纵向编改及横向编改校对并进行质检;将质检合格后的文字合成文档并输出。本发明对正常的汉字为主体的文档其编改的效率可以提高7倍以上,达到70万字/8小时;同时编改错误率降低60%,达到4/10000以下。
文档编号G06F17/21GK101887519SQ20101025356
公开日2010年11月17日 申请日期2010年8月16日 优先权日2010年8月16日
发明者张振海, 梁洵, 瞿洋, 袁仁慧 申请人:同方知网(北京)技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1