文字识别、编改的方法

文档序号：6607697阅读：271来源：国知局

专利名称：文字识别、编改的方法
技术领域：
本发明涉及文档电子化过程中文字识别、编改的方法，尤其涉及中文印刷体识别、编改的方法。
背景技术：
在纸制文件电子化的过程中，OCR识别后的文字编改工作耗费了极大的人力，它是一项人力密集性工作，劳动强度也很高。目前的应用现状是用普通OCR软件进行图像识别，再进行一次编改校正，在保证每人8万字/8小时正常编改的速度下，编改的错误率通常也会超过1/1000。

发明内容
为解决现有的人工编改效率低，错误率高的现状，本发明提供了一种文字识别、编改的方法。该方法可以极大地提高人工编改的效率，降低成本，其技术方案如下文字识别、编改的方法，包括选用不同的识别软件并采用外挂的方式对文档中的文字进行识别；比对所识别文字的结果；将识别不同的文字进行编改校对并进行质检；将质检合格后的文字合成文档并输出。本发明提供的技术方案的有益效果是通过本发明对正常的汉字为主体的文档其编改的效率可以提高7倍以上，达到70 万字/8小时；同时编改错误率降低60 %，达到4/10000以下。

图1是本发明实施方法流程图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述本实施例提供了一种文字识别、编改的方法，具体包括以下流程(参见图1)文档扫描与处理为提高OCR识别软件识别正确率，对文档统一采用300DPI精度进行扫描，随后对图像进行必要的倾斜矫正、图像去污去噪等处理。按段落切图为保证双路OCR识别软件具有相同的版面分析结果，必须对文档图像进行段落切图，其切图顺序遵照文章段落的自然顺序，并且自动命名，以便结果输出时使用。版面分析与检查
对切好的图像用“汉王” OCR识别软件进行自动版面分析；人工检查自动版面分析结果，纠正错误结果。检查时，对图像缺陷进行必要的修补，保证段落及行分析正确。如果需要，进行人工版面分析。我们以“汉王”OCR识别软件版面分析的结果作为最后重组段落的依据。“汉王”和“文通”双路OCR识别软件外挂识别把段落切图的图像进行“行切图”一一切成若干行图像，分别传入“汉王”和“文通” 双路识别软件，进行外挂识别。外挂识别就是不改变原来的OCR识别软件，编写新程序模拟人工操作OCR识别软件的过程，以便完成图像识别工作。外挂程序和OCR程序是各自独立运行的软件。外挂程序识别图像不需要OCR程序的识别接口，外挂程序利用OCR程序进行图像识别。采用外挂识别可以有效地节约采购双路OCR识别SDK软件的费用，降低系统构建成本，也可以避免SDK软件相对于其正品软件技术落后的问题。之所以经过“行切图”，再逐行送入双路识别软件进行识别的原因是对即使很清晰的段落图像，由于两个识别软件的版面分析算法不同，版面分析的结果也可能不同。经过 “行切图”，我们就能保证双路识别软件行分析的正确性。双路识别结果比对“汉王”和“文通”是国内对中文和英文都具有较高识别率的OCR系统，它们对清晰印刷体汉字图象识别率都在98%以上。更为可贵的是通过我们的对比测试，“汉王”和“文通”识别软件具有很强的互补性，利用他们的识别结果并进行单行逐字比对，过滤出具有相同的识别结果的字，不交给人工进行编改；把识别不同字交给人工进行编改校对。实际应用统计说明，对正常印刷体汉字为主体的文档，我们不编改文字抛出率达到95%，这部分文字的错误率达到< 3/10000。在双路比对前，针对其应用需求，还对一些字符做了必要的全角字符转半角字符的归一化处理。这些字符包括A-Z、a-z、0-9、“! ”、“ [”、“] ”等，共计80个字符。双路行对比算法采用基于状态空间搜索A*算法，采用横向搜索寻找最优匹配。设两行待对比的文字串为Sl和S2，它们的长度分别为m和n，且m彡η ;S1包含字符(Csl， Cs2，· · ·，Csm)，S2 包含字符(Cll，C12，· · ·，Cln)。比对算法如下(1)对短文字串Sl的每个文字Csi，且0 < i Sm，在长文字串S2中寻找匹配的字符，并把在S2中与Csi相匹配字符的索引放入可能匹配的集合SMi ；随后在SMi中增加一个-1的索引，代表不匹配。过程如下FOR i = 1 TO mbeginFOR j = 1 TO ηbeginif Csi = Clj then SMi — jendSMi — -1end由此，得到搜索空间(SMI, SM2，...，SMm)
4
(2)为减少搜索空间的大小，对于每一个可能的匹配，计算包括它本身随后可能的最大匹配数MaxMatchAfter (简称MMA)，用于下一步的启发式搜索。对SMi中-1的可能匹配，即Csi不与S2任何一个字符匹配，其MMA = m-i ；对SMi中其他可能的匹配，递归计算其MMA，计算要利用顺序约束和长度约束排除明显不合理的匹配。(3)进行横向启发式递归搜索，快速找出匹配数量大的解。纵编对双路识别有矛盾且重复出现两次以上的字先交给人工进行纵向编改校对。所有需纵编的字都在段落中标红，编过的字标蓝，且图文对照。按70万字一批形成任务批次，基本保证该批次在一天内完成。正常情况下，该过程的编改量只占全部应编改工作量的5%。纵编有效地提高了编改效率，减轻编改劳动强度。为了提高系统整体的正确率，我们还主动加入了一些易混字和易错字，对他们全部进行纵编。如“人”、“入”、“一”、“二”、“卜”、“白”、“· ”、“儿”等二十个字。横编经过纵编后，系统进行横编过程，所有需横编的文字都在段落中标红，已纵编的字在段落中标绿，编过的字标蓝，且图文对照。正常工作情况下，该过程的编改量小于全部应编改工作量的1%。在编改过程中，要求编改者同时检查段落的正确。质检为督促编改人达到常规编改质量，设计了编改抽检岗位，对每一批人工编改数据进行抽检。一般抽检1/10，确保编改错误低于1/1000。合并输出根据段落切图信息，合成正常文章编改文本。其系统错误率3/10000*95% +1/1000*5%= 3. 35/10000。以上所述，仅为本发明较佳的具体实施方式
，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。
权利要求
文字识别、编改的方法，其特征在于，所述方法包括选用不同的识别软件并采用外挂的方式对文档中的文字进行识别；比对所识别文字的结果；将识别不同的文字进行编改校对并进行质检；将质检合格后的文字合成文档并输出。
2.根据权利要求1所述的文字识别、编改的方法，其特征在于，所述识别软件至少包含两种，其识别软件可采用“汉王” OCR识别软件和“文通” OCR识别软件进行外挂识别。
3.根据权利要求1所述的文字识别、编改方法，其特征在于，所述文字的编改包括纵向编改和横向编改。
4.根据权利要求2所述的文字识别、编改的方法，其特征在于，所述“汉王”OCR识别软件和“文通” OCR识别软件为两种识别结果互补的识别软件。
5.根据权利要求1所述的文字识别、编改的方法，其特征在于，在执行“选用不同的识别软件并采用外挂的方式对文档中的文字进行识别”之前还包括以下步骤对文档进行扫描并进行相应的处理；对文档图像进行段落切图；通过识别软件对切好的段落图像进行自动版面分析并检查其分析的结果。
6.根据权利要求1 5任一项所述的文字识别、编改的方法，其特征在于，所述识别还包括对英文及其他字符的识别。
全文摘要
本发明公开了一种文字识别、编改的方法，该方法包括选用不同的识别软件并采用外挂的方式对文档中的文字进行识别；比对所识别文字的结果；将识别不同的文字进行纵向编改及横向编改校对并进行质检；将质检合格后的文字合成文档并输出。本发明对正常的汉字为主体的文档其编改的效率可以提高7倍以上，达到70万字/8小时；同时编改错误率降低60％，达到4/10000以下。
文档编号G06F17/21GK101887519SQ20101025356
公开日2010年11月17日申请日期2010年8月16日优先权日2010年8月16日
发明者张振海, 梁洵, 瞿洋, 袁仁慧申请人:同方知网(北京)技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：瞿洋;袁仁慧;梁洵;张振海
技术所有人：同方知网（北京）技术有限公司
我是此专利的发明人

上一篇：核电用干式变压器的抗震性能分析方法
上一篇：文字识别、编改的系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。