一种文字编改系统及编改的方法

文档序号:6376877阅读:293来源:国知局
专利名称:一种文字编改系统及编改的方法
技术领域
本发明涉及扫描文档的电子化,尤其涉及一种基于交互式版面分析的文字编改系统。
背景技术
目前流水线上涉及到图像文字识别的主流工具有汉王、FineReader两种,其中又以汉王软件的使用最为广泛。根据生产部门长期使用的经验,这些工具在某些应用中取得了非常好的效果,但同时又存在很大的不足,主要表现在汉王识别软件对中文的支持相当好,但在英文识别中表现不佳。FineReader对英文文献识别效果非常好,但中文识别支持不好。单独使用某种识别引擎会一方面增加编改字符的数量,影响编改效率的提升,另一方面由于编改字符的增加,在一致的编改错误率下增加了错误字符的数量,从而降低了最终产品的质量。因此对于中英文混合的文献不管选择哪种识别工具都有各自的瓶颈,需要改进编改系统。发明内容
为解决上述中存在的问题与缺陷,本发明提供了一种编改系统及编改方法,该系统和方法可以极大地提高编改效率、降低成本、提高质量。所述技术方案如下
一种文字编改系统,包括
所述系统包括版面分析模块、版面加工模块及编改合并模块,所述
版面分析模块,用于处理版面非文字内容,并通过行列扫描分析出文档中的每一单位块,计算所述板块的语种属性;
版面加工模块,用于辅助版面分析模块,对需要交互式版面分析的单位块及单位块属性进行调整;
编改合并模块,利用版面分析产生的文档,按不同的语种进行不同的识别和编改, 生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本。
一种文字编改的方法,包括
对版面非文字内容进行处理;
通过行列扫描分析出文档中的每一单位块,并计算出所述单位块的语种属性;
对需要交互式版面分析的单位块及单位块属性进行调整;
通过不同的语种对文档进行不同的识别和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本。
本发明提供的技术方案的有益效果是
可以极大地提高编改效率、降低成本、提高质量;
通过交互式版面调整,整合各语种独立的编改系统,可快速、高质的完成编改任务,经试验可得,根据本发明进行编改,每年的成本可节约71. 6%。


图I是文字编改系统结构图2是文字编改方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述
如图I所示,为文字编改系统结构,包括版面分析模块、版面加工模块及编改合并丰吴块,所述
版面分析模块,用于处理版面非文字内容,并通过行列扫描分析出文档中的每一单位块,计算所述板块的语种属性;
版面加工模块,用于辅助版面分析模块,对需要交互式版面分析的单位块及单位块属性进行调整;
编改合并模块,利用版面分析产生的文档,按不同的语种进行不同的识别和编改, 生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本。
上述版面非文字内容的处理包括黑边、杂质及图像中的非文字内容等。
在处理完版面非文字内容文档中,为了对版面作出尽可能准确的分析,采用如下算法
I)行扫描对图像进行逐行扫描,统计处每一行的像素点个数,利用其统计特征, 得到每一行的上下边界。
2)列扫描对每一行进行列扫描,统计出每一列的像素点个数,利用其统计特征, 得到每一行的左右边界,从而得到每一单位块。
3)单位块语种的识别对每行文件进行简单识别处理,分析出中英文语种的特征,如中英文文字的长宽比特征等。
4)后处理个性化处理不同类型的文献。
交互式版面分析
经过自动版面分析之后,对于大部分排版较好的文档,处理结果基本可以接受,但对于一些版式较乱、较复杂的文档,需要辅助一定的交互式版面分析,即调整版面的单位块、每块的语种等其它属性,确保最后版面分析的正确性。
按语种识别编改
经过交互式版面分析后按语种形式的文档,提交给各自的编改系统;对用中文部分,采用汉王和文通识别,不一致的部分抛出编改;对于英文部分,采用FineReader和文通识别,不一致的部分抛出编改。
编改结果合并
将不同的编改文本进行合并生成最终的编改结果。
如图2所示,为文字编改方法,该方法包括
对版面非文字内容进行处理;
通过行列扫描分析出文档中的每一单位块,并计算出所述单位块的语种属性;
对需要交互式版面分析的单位块及单位块属性进行调整;
通过不同的语种对文档进行不同的识别和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种文字编改系统,其特征在于,所述系统包括版面分析模块、版面加工模块及编改合并模块,所述 版面分析模块,用于处理版面非文字内容,并通过行列扫描分析出文档中的每一单位块,分析单位块的排列属性,计算所述单位块的语种属性,形成文档的整体版面; 版面加工模块,用于辅助版面分析模块,对版面分析所得的单位块及单位块属性进行调整; 编改合并模块,利用版面分析产生的文档,按不同的语种进行不同的识别和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本。
2.根据权利要求I所述的文字编改系统,其特征在于,所述版面分析模块包括预处理单元和自动版面分析单元;所述版面加工模块包括交互式版面分析单元;所述编改合并模块包括识别编改单元和编改结果合并单元。
3.根据权利要求I所述的文字编改系统,其特征在于,根据所述行扫描得到每行的有效像素点个数,并对有效像素点个数的分布进行统计得到每行的上下边界。
4.根据权利要求I所述的文字编改系统,其特征在于,所述列扫描是对每一行进行列扫描,统计处每一列的像素点个数,并对像素点个数特征进行统计得到每行的左右边界。
5.根据权利要求3或4所述的文字编改系统,其特征在于,根据所述行的上下边界和左右边界得到所述文档单位块。
6.一种文字编改的方法,其特征在于,所述方法包括 对版面非文字内容进行处理; 通过行列扫描分析出文档中的每一单位块,并计算出所述单位块的语种属性; 对需要交互式版面分析的单位块及单位块属性进行调整; 通过不同的语种对文档进行不同的识别和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本。
7.根据权利要求6所述的文字编改系统,其特征在于,所述行扫描得到每行的有效像素点个数,并对有效像素点个数的分布进行统计得到每行的上下边界; 所述列扫描是对每一行进行列扫描,统计处每一列的像素点个数,并对像素点个数特征进行统计得到每行的左右边界。
8.根据权利要求7所述的文字编改系统,其特征在于,根据所述行的上下边界和左右边界得到所述文档单位块。
全文摘要
本发明公开了一种文字编改系统及编改的方法,所述系统包括版面分析模块、版面加工模块及编改合并模块,所述版面分析模块,用于处理版面非文字内容,并通过行列扫描分析出文档中的每一单位块,计算所述板块的语种属性;版面加工模块,用于辅助版面分析模块,对需要交互式版面分析的单位块及单位块属性进行调整;编改合并模块,利用版面分析产生的文档,按不同的语种进行不同的识别和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本。本发明可以极大地提高编改效率、降低成本、提高质量;通过交互式版面调整,整合各语种独立的编改系统,可快速、高质的完成编改任务,经试验可得,根据本发明进行编改,每年的成本可节约71.6%。
文档编号G06K9/20GK102929843SQ201210338739
公开日2013年2月13日 申请日期2012年9月14日 优先权日2012年9月14日
发明者王艳, 瞿洋, 梁洵, 袁仁慧 申请人:《中国学术期刊(光盘版)》电子杂志社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1