文档图像的语言判别方法和系统的制作方法

文档序号:6463605阅读:140来源:国知局
专利名称:文档图像的语言判别方法和系统的制作方法
技术领域
本发明涉及 一 种东亚语言文档图像的语言判别方法和系统,东亚 语言诸如是韩文、日文、简体中文和繁体中文。
背景技术
光学字符识别(OCR)系统是依赖于语言的系统。对OCR装置 进行训练以识别特定语言。如果以不适当的语言运行OCR装置,则 OCR装置将不能正确地处理文档,并将不能获得高的精度。所以, 语系或语言判别是自动文档识别中非常重要的预处理步骤。
已经开发了用于对语系(基于拉丁语的语系和基于汉语的语系) 进行分类和判别语言的各种技术。
A. L. Spitz在标题为"Determination of the Script and Language Content of Document Images", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19, No. 3, 1997的文章中公开 了一种现有技术,该技术将"光学密度"信息用于对东亚语言(中文、 日文和韩文)进行分类,这里特此引入该文章作为参考。这种技术仅 使用密度分布来决定图像的语言集。但是"光学密度"信息不是用于判 别不同字体(粗体或正常)的语言的稳定标准。
在标题为"DEVICE AND METHOD FOR RECOGNIZING CHARACTER, PROGRAM AND STORAGE MEDIUM (文字認識装 置好J: ^文字認識方法、7。 a夕',厶扭j:"記憶媒体)"的第JP 2004046315号日本专利和标题为"用于多种语言光字符识别的自动语 言识别系统,,的第CN97182407.X号中国专利中公开了其它的现有技 术,这些技术使用字典来区分一幅图像中的语系,这里特此引入所有 这些专利作为参考。然而,这些现有技术仅使用具有最佳识别置信度的单词来决定语言集。由于在简体中文和繁体中文这两种语言集中存 在许多相同形状的字符,所以通过这些现有技术不能很好地区别简体 中文和繁体中文。另外,如果仅将字典方法用于判别语言,则语言判 别的速度是不可接受的。

发明内容
本发明的一个目的在于提供一种用于解决以上问题中的任何一 个的方法和系统。
根据本发明的第 一方面,提供了 一种文档图像的语言判别方法,
该方法包括检测文档图像的文本块中的圆形白色像素连通域;和基 于检测到的圆形白色像素连通域来确定该文本块是否是韩文。
根据本发明的第 一方面的实施例,所述方法还包括执行行分割; 执行文本块的字符切分。作为本发明的示例,所述方法还可包括删除 噪声字符和标点符号的步骤。
根据本发明的第一方面的实施例,其中,所述圆形白色像素连通 域检测步骤包括以下步骤检测白色像素连通域;忽略具有小尺寸的 白色像素连通域;忽略在其内部存在黑色像素的白色像素连通域;忽 略一个字符区域中其相对位置满足中文字符特征的白色像素连通域; 通过基于笔划方向的特征和圆形对称性确定未被忽略的白色像素连 通域是否是圆形的来检测圆形白色像素连通域。
根据本发明的第一方面的实施例,所述方法还包括检测文本块 中的字符,并计算这些字符的总数;计算文本块中的白色像素连通域 的总数;计算文本块中的圆形白色像素连通域的总数;检测文本块中 的行,并计算这些行的数量;和检测包括圆形白色像素连通域的行, 并计算这些行的数量。
根据本发明的第一方面的实施例,所述方法还包括计算文本块 中圆形白色像素连通域的总数与字符的总数的第一比率;计算文本块 中非圆形白色像素连通域的总数与字符的总数的第二比率;和计算文 本块中包括圆形白色像素连通域的行的数量与所有行的数量的第三根据本发明的第一方面的实施例,所述方法还包括基于第一比 率、第二比率和第三比率确定文本块是否是韩文。
根据本发明的第一方面的实施例,所述方法还包括通过训练样 本序列分别获得多个用于第一比率、第二比率和第三比率的阈值组; 和基于第一比率、第二比率、第三比率和所述阈值组确定文本块是否 是韩文。
根据本发明的第一方面的实施例,所述方法还包括根据字符的 光学密度和对称值选择文本块中的字符;计算所选择的字符的平均对 称值;和基于平均对称值确定文本块是否是日文。
根据本发明的第一方面的实施例,所述根据字符的光学密度和对 称值选择文本块中的字符的步骤还包括选择具有比文本块中的字符 的平均光学密度低的光学密度的字符。
根据本发明的第一方面的实施例,所述方法还包括确定所选择 的字符的图像的对称轴;计算所选择的字符的对称值;和选择具有正 常对称值的字符。
根据本发明的第 一方面的实施例,所述确定所选择的字符的图像 的对称轴的步骤还包括扫描所选择的字符中的每个字符的图像的中 下区域;和选择以下基准中的一个作为字符的图像的对称轴靠近字 符的中心轴的白色像素列的中心轴,其中在该白色像素列的两侧存在 黑色像素列;靠近字符的中心轴的最高且足够高的黑色像素列的中心 轴;和字符的中心轴。
根据本发明的第一方面的实施例,所述计算所选择的字符的对称 值的步骤还包括根据字符的对称轴获得所选择的字符中的每个字符 的图像的左部分和右部分;从左部分和右部分提取特征;和基于左部 分和右部分的特征之间的差异计算字符的对称值。
根据本发明的第一方面的实施例,所述方法还包括通过使用简 体中文快速OCR识别文档图像的文本块中的所有字符来获得第一距 离值;通过使用繁体中文快速OCR识别文档图像的文本块中的所有
12字符来获得第二距离值;基于第一距离值和第二距离值选择字符;计 算所选择的字符的第一距离值的第一平均距离值;计算所选择的字符 的第二距离值的第二平均距离值;对第一平均距离值和笫二平均距离 值中的一个进行正规化;通过将第一平均距离值和第二平均距离值中 的被正规化的那个与第一平均距离值和第二平均距离值中的另一个 进行比较来确定文本块是简体中文还是繁体中文。
根据本发明的第 一方面的实施例,所述基于第 一距离值和第二距 离值选择字符的步骤还包括以下步骤中的至少一个步骤选择下述字 符,所述字符的第一距离值在简体中文快速OCR的正确区中,且所 述字符的第二距离值在繁体中文快速OCR的错误区中;选择下述字 符,所述字符的第一距离值在简体中文快速OCR的错误区中,且所 述字符的第二距离值在繁体中文快速OCR的正确区中;选择下述字 符,所述字符的第一距离值在简体中文快速OCR的可疑区中,或所 述字符的第二距离值在繁体中文快速OCR的可疑区中。
根据本发明的第 一方面的实施例,通过以下步骤获得简体中文快 速OCR的正确区、可疑区和错误区通过用简体中文快速OCR分别 识别简体中文文本块和繁体中文文本块来获得第三距离值组和第四 距离值组;分别获得关于第三距离值组和第四距离值组的两条单调距 离值曲线;获得所述两条单调距离值曲线的最大斜率差所在的位置; 和通过使用与所述位置对应的两个距离值确定所述正确区、可疑区和 错误区。
根据本发明的第一方面的实施例,通过以下步骤获得繁体中文快 速OCR的正确区、可疑区和错误区通过用繁体中文快速OCR分别 识别简体中文文本块和繁体中文文本块来获得第五距离值组和第六 距离值组;分别获得关于第五距离值組和第六距离值組的两条单调距 离值曲线;获得所述两条单调距离值曲线的最大斜率差所在的位置; 和通过使用与所述位置对应的两个距离值确定所述正确区、可疑区和 错误区。
根据本发明的第二方面,提供一种文档图像的语言判别方法,该方法包括根据字符的光学密度和对称值选择文档图像的文本块中的 字符;计算所选择的字符的平均对称值;和基于平均对称值确定文本 块是否是日文。
根据本发明的第二方面的实施例,所述根据字符的光学密度和对 称值来选择文本块中的字符的步骤还包括选择具有比文本块中的字 符的平均光学密度低的光学密度的字符。
根据本发明的第二方面的实施例,所述方法还包括确定所选择 的字符的图像的对称轴;计算所选择的字符的对称值;和选择具有正 常对称值的字符。
根据本发明的第二方面的实施例,所述确定所选择的字符的图像 的对称轴的步骤还包括扫描所选择的字符中的每个字符的图像的中 下区域;和选择以下基准中的一个作为字符的图像的对称轴靠近字 符的中心轴的白色像素列的中心轴,其中在该白色像素列的两侧存在 黑色像素列;靠近字符的中心轴的最高且足够高的黑色像素列的中心 轴;和字符的中心轴。
根据本发明的笫二方面的实施例,所述计算所选择的字符的对称 值的步骤还包括根据字符的对称轴获得所选择的字符中的每个字符 的图像的左部分和右部分;从左部分和右部分提取特征;和基于所述 左部分和右部分的特征之间的差异计算字符的对称值。
根据本发明的第二方面的实施例,所述方法还包括通过使用简 体中文快速OCR识别文档图像的文本块中的所有字符来获得第一距 离值;通过使用繁体中文快速OCR识别文档图像的文本块中的所有 字符来获得第二距离值;基于第一距离值和第二距离值选择字符;计 算所选择的字符的第一距离值的第一平均距离值;计算所选择的字符 的第二距离值的笫二平均距离值;对第一平均距离值和第二平均距离 值中的一个进行正规化;通过将笫一平均距离值和第二平均距离值中 被正规化的那个与笫一平均距离值和第二平均距离值中的另一个进 行比较来确定文本块是简体中文还是繁体中文。
根据本发明的笫二方面的实施例,所迷基于第一距离值和第二距离值选择字符的步骤还包括以下步骤中的至少一个步骤选择下述字 符,所述字符的第一距离值在简体中文快速OCR的正确区中,且所 述字符的第二距离值在繁体中文快速OCR的错误区中;选择下述字 符,所述字符的第一距离值在简体中文快速OCR的错误区中,且所 述字符的第二距离值在繁体中文快速OCR的正确区中;选择下述字 符,所述字符的第一距离值在简体中文快速OCR的可疑区中,或所 述字符的第二距离值在繁体中文快速OCR的可疑区中。
根据本发明的第二方面的实施例,通过以下步骤获得简体中文快 速OCR的正确区、可疑区和错误区通过用简体中文快速OCR分别 识别筒体中文文本块和繁体中文文本块来获得第三距离值组和第四 距离值组;分别获得关于第三距离值组和笫四距离值组的两条单调距 离值曲线;获得所述两条单调距离值曲线的最大斜率差所在的位置; 和通过使用与所述位置对应的两个距离值确定所述正确区、可疑区和 错误区。
根据本发明的第二方面的实施例,通过以下步骤获得繁体中文快 速OCR的正确区、可疑区和错误区通过用繁体中文快速OCR分别 识别简体中文文本块和繁体中文文本块来获得第五距离值組和第六 距离值組;分别获得关于第五距离值组和笫六距离值组的两条单调距 离值曲线;获得所述两条单调距离值曲线的最大斜率差所在的位置; 和通过使用与所述位置对应的两个距离值确定所述正确区、可疑区和 错误区。
根据本发明的第三方面,提供一种文档图像的语言判别方法,该 方法包括通过使用简体中文快速OCR识别文档图像的文本块中的 所有字符来获得第一距离值;通过使用繁体中文快速OCR识别文档 图像的文本块中的所有字符来获得第二距离值;基于第一距离值和第 二距离值选择字符;计算所选择的字符的第一距离值的第一平均距离 值;计算所选择的字符的第二距离值的第二平均距离值;对第一平均 距离值和第二平均距离值中的一个进行正规化;通过将第一平均距离 值和第二平均距离值中被正规化的那个与第一平均距 值和第二平均距离值中的另 一个进行比较来确定文本块是简体中文还是繁体中 文。其中,所述基于第一距离值和第二距离值选择字符的步骤还包括
以下步骤中的至少一个步骤选择下述字符,所述字符的第一距离值 在简体中文快速OCR的正确区中,且所述字符的第二距离值在繁体 中文快速OCR的错误区中;选择下述字符,所述字符的第一距离值 在简体中文快速OCR的错误区中,且所述字符的第二距离值在繁体 中文快速OCR的正确区中;选择下述字符,所述字符的第一距离值 在简体中文快速OCR的可疑区中,或所述字符的第二距离值在繁体 中文快速OCR的可疑区中。
根据本发明的第三方面的实施例,通过以下步骤获得简体中文快 速OCR的正确区、可疑区和错误区通过用简体中文快速OCR分别 识别简体中文文本块和繁体中文文本块来获得第三距离值组和第四 距离值组;分别获得关于笫三距离值组和笫四距离值组的两条单调距 离值曲线;获得所述两条单调距离值曲线的最大斜率差所在的位置; 和通过使用与所述位置对应的两个距离值确定所述正确区、可疑区和 错误区。
根据本发明的第三方面的实施例,通过以下步骤获得繁体中文快 速OCR的正确区、可疑区和错误区通过用繁体中文快速OCR分别 识别筒体中文文本块和繁体中文文本块来获得第五距离值组和笫六 距离值組;分别获得关于第五距离值组和笫六距离值组的两条单调距 离值曲线;获得所迷两条单调距离值曲线的最大斜率差所在的位置; 和通过使用与所述位置对应的两个距离值确定所述正确区、可疑区和 错误区。
根据本发明的第四方面,提供一种文档图像的语言判别系统,其 被构造为执行根据本发明的方法。
根据本发明的第五方面,提供一种OCR系统,包括根据本发 明的文档图像的语言判别系统;和至少一个东亚语言OCR。
本发明的一个优点在于,通过本发明,可判别不同字体的语言。
本发明的另 一优点在于,由于通过检测圃形白色像素连通域来判
16别韩文字符,所以判别速度远快于现有技术的判别速度(现有技术仅 使用"光学密度"信息)。
本发明的另一优点在于,由于通过日文字符的对称性判别日文字 符并且没有必要判别字符是什么,所以速度比现有技术快。
本发明的另一优点在于,由于根据日文字符的"光学密度"和对称 性预先选择日文字符,所以判别速度甚至能够更快。
本发明的另一优点在于,在本发明中,由于在判别之前对简体中 文字符和繁体中文字符进行过滤并且只有所选择的字符被判别,所以 速度被加速。
本发明的另 一优点在于,由于通过快速OCR判别简体中文字符 和繁体中文字符,所以本发明的速度比现有技术的速度快。


合并在本说明书中并构成本说明书的一部分的附图示出了本发 明的实施例,并与说明书一起用于对本发明的原理进行解释。
图l是解释简体中文字符和繁体中文字符之间的关系的示图。
图2是显示根据本发明的一个实施例的用于东亚语言文档图像 的语言判别的语言判别系统的框图。
图3是显示根据本发明的一个实施例的用于东亚语言文档图像 的语言判别的语言判别方法的流程图。
图4是显示根据本发明的一个实施例的用于从日文和中文文本 块图像中区分韩文文本块图像的方法的流程图。
图5至图7显示韩文字符和中文字符中的白色像素连通域和圆形 白色像素连通域的示例。
图8显示对韩文文本块中的圆形白色像素连通域的标记结果的示例。
图9显示对中文文本块中的圆形白色像素连通域的标记结果的示例。
图IO显示不能被判别的韩文标题的示例。图11是显示根据本发明的一个实施例的用于区分日文语系和中 文语系的方法的流程图。
图12是字符密度的曲线图。
图13是显示根据本发明的一个实施例的用于计算对称值的方法 的流程图。
图14至图15显示根据本发明的一个实施例的对称轴的示例。 图16显示字符的两个部分的示例。
图17显示根据本发明的一个实施例的提取字符的左部分和右部 分的特征的示例。
图18显示用于解释笔划轮廓方向特征的示例。
图19是字符的对称值的曲线图。
图20至图21显示本发明的示例。
图22至图23显示本发明的另一示例。
图24是显示根据本发明的一个实施例的用于区分简体中文和繁 体中文语系的方法的流程图。
图25是显示根据本发明的一个实施例的用于选择简体中文特殊 字符和/或繁体中文特殊字符的方法的流程图。
图26是显示根据本发明的一个实施例的用于得到简体中文快速 OCR的正确区、可疑区和错误区的方法的流程图。
图27是显示简体中文文本块图像和繁体中文文本块图像的两个 平均距离值数列的两条曲线的曲线图。
图28显示图27中的曲线的斜率。
图29是显示图27和图28中的曲线的斜率距离的曲线图。
图30显示从简体中文到繁体中文的拟合曲线。
图31至图32显示根据本发明的一个实施例的用于识别繁体中文 图像的过程的示例。
图33至图34显示根据本发明的一个实施例的用于识别简体中文 图像的过程的示例。
图35是显示可应用根据本发明的语言判别系统的多语言OCR系统的示图。
具体实施例方式
首先,我们将对本说明书中使用的一些基本概念进行解释,这些
基本概念如下o
-语系/语言集
在该说明书中,语系/语言集是指基于汉语或者基于拉丁语的语 言。基于汉语的语系包括三种东亚语言,它们是中文(包括简体中文 和繁体中文)、日文和韩文。基于拉丁语的语系主要包括欧洲语言。
-连通域
在无向图中,连通域为最大连接子图。当且仅当在两个顶点之间 存在路径时,这两个顶点在相同的连通域中。在绘图时,可分别地绘 制每个连通域,这些连通域之间具有空区间。非空连接图具有至少一
个连通域。
—圆形/圆连通域
圆形/圆连通域的形状类似于圆形或椭圆形,而不类似于矩形。
—感知器
生物神经元的简单计算模型包括一些输入信道、 一个处理元件和 单个输出。每个输入值与信道权重相乘、由处理器对其求和、通过非 线性滤波器并输入进输出信道。
-字符的密度
在本说明书中,可如下表达字符的密度
字符的密度=(黑色像素的数量* 1000) / (字符区域中的全部 像素的数量) (1) -对称性
关于字符的形状,当字符图像的左部分类似于其右部分时,我们 说它具有对称性。 -中心轴
它是指通过字符图像的宽度中心的垂直线。-对称轴
它是指将字符图像划分为两个类似的形状部分的垂直线。由于字 体差异,有时候,中心轴与对称轴不相同。
—简体中文特殊字符/繁体中文特殊字符/相同形状字符/其它字

可参考图l解释这些术语。在图1中,存在两个椭圆,分别代表
简体中文字符集(也称为GB2312字符集)和繁体中文字符集(也称 为Big5字符集)。这两个椭圆部分重叠,从而,在图1中存在四个 区域,这四个区域是简体中文特殊字符区域1001、繁体中文特殊字符 区域1002、相同形状字符区域1003和其它字符区域1004。
简体中文特殊字符区域1001包含简体中文特殊字符。简体中文 特殊字符是属于简体中文字符集并具有与繁体中文字符集中的任何 字符形状不同的形状的字符。例如,"计"为简体中文特殊字符。
类似地,繁体中文特殊字符区域1002包含繁体中文特殊字符。 繁体中文特殊字符是属于繁体中文字符集并具有与简体中文字符集 中的任何形状不同的形状的字符。例如,"計"为繁体中文特殊字符。
相同形状字符区域1003包含相同形状的字符。相同形状的字符 是在繁体中文字符集和简体中文字符集中具有相同或类似的形状的 字符。例如,"大"为相同形状的字符。在该说明书中,相同形状的字 符包括类似形状的字符。
其它字符区域1004包含可能由于错误分割而产生的其它字符。 例如,可能在一个字符被错误地分割为几个字符或者几个字符被错误 地组合成一个字符的情况下产生其它字符。
-OCR的正确区、可疑区和错误区
简体中文OCR或繁体中文OCR的正确区、可疑区和错误区为
用于根据每个字符的距离值确定字符是简体中文字符还是繁体中文 字符的区域。
以下将参考图26详细描述简体中文快速OCR或繁体中文快速 OCR的正确区、可疑区和错误区。-快速OCR
快速OCR为可快速地识别字符图像并给出每个字符的距离值的 系统。该系统的正确率并不重要。与一般的OCR相比,快速OCR 引擎使用更简单的特征或更低维数的特征以及更简单的分类器。
例如, 一般的OCR的字符识别精度高于99。/。,而快速OCR的 字符识别精度约为90% ~95%。但是,快速OCR的识别速度比一般 的OCR的识别速度快至少2倍。
现在将参考附图详细描述本发明的优选实施例。应该指出,在这 些实施例中阐述的组件的相对布置、步骤顺序、数值表达式和数值不 限制本发明的范围,除非以其它方式特别说明。
图2是显示根据本发明的一个实施例的用于东亚语言文档图像 的语言判别的语言判别系统2000的框图。
如图2所示,语言判别系统2000包括行分割单元2100、字符切 分单元2200、噪声过滤单元2300、韩文判别单元2400、日文判别单 元2500和中文判别单元2600。
行分割单元2100接收东亚语言文本块图像,并将该东亚语言文 本块图像划分成行图像LINE[1 N。
字符切分单元2200接收行图像LINE[1 N,并将每幅行图像 LINE[n,其中,n-l,2…N,切分成字符图像CHAR[1 M]。
噪声过滤单元2300通过删除字符图像CHAR[1 M中的噪声字 符和标点符号对字符图像CHAR1 M进行过滤。
韩文判别单元2400从过滤的字符图像中判别韩文文本块。
日文判别单元2500判别日文文本块。
中文判别单元2600判别筒体中文文本块和繁体中文文本块。
以下,将参考图3详细描述语言判别系统2000的单元。
图3是显示根据本发明的一个实施例的用于东亚语言文档图像
的语言判别的语言判别方法的流程图。
在步骤3100,行分割单元2100接收东亚语言文本块图像,并基
于白色像素行(在行的方向为水平的情况下)或者基于白色像素列(在行的方向为垂直的情况下)将接收的东亚语言文本块图像划分成行图
像L麗[1 N。
在该说明书中,我们仅描述其方向为水平的行。本领域的技术人 员将理解,本发明还可应用于垂直行,对垂直行的处理与对水平行的 处理类似。
在步骤3200,字符切分单元3200基于白色像素列将行图像 LINE[1 N切分成字符图像CHAR[1 M。同时,可获得围绕每个字 符的边界框。
在步骤3300,噪声过滤单元2300通过删除噪声字符和标点符号 对字符图像CHAR[1 M进行过滤。例如,根据字符高度和行高度, 噪声过滤单元2300检查每个字符(CHAR[i,其中,i=l,2...M),并 删除噪声字符和标点符号。这个步骤的目的在于避免以下方面的影 响
-中文标点符号中的圆形白色像素连通域,诸如中文中的句号; -将会影响光学密度或对称值的计算的小的图像区域;和 -当比较距离值时的小的图像区域。
在步骤3400,韩文判别单元2400通过从日文和中文语系中区分 韩文来识别韩文。
以下,将参考图4描述用于从日文和中文语系中区分韩文的方法。
图4是示出用于从日文和中文语系中区分韩文的方法的子流程图。
在步骤4410,韩文判别单元2400对每个字符中的白色像素连通 域(ccWhite )的数量进行计数。在这点上,对于每个字符(CHARi, 其中,i=l,2...M),韩文判别单元2400得到所有白色像素连通域 (ccWhite)的区域,然后对白色像素连通域(ccWhite)的数量计数。
在步骤4420,韩文判别单元2400对每个字符中的圆形白色像素 连通域(ccCircle)的数量进行计数。
对于每个白色像素连通域(ccWhite[JI,其中,j=l,2...I),韩文判别单元2400检查白色像素连通域的形状是否是圆形的。如果白色 像素连通域是圆形的,则韩文判别单元2400将该白色像素连通域判 别为圆形白色像素连通域。然后,韩文判别单元2400对每个字符中 的圆形白色像素连通域进行计数作为ccCircle。
其中,以下四个子步骤(步骤4421 -4424)可用于检查白色像 素连通域是否是圆形的。以下,将参考图5至图7详细描述检查白色 像素连通域是否是圆形的子步骤。
在步骤4421,韩文判别单元2400检查所有的白色像素连通域的 大小,并跳过其中的小的部分(其不可能是韩文的圆笔划)。
在步骤4422,韩文判别单元2400检查在每个白色像素连通域的 区域中是否存在黑色像素,并跳过在其区域内具有黑色像素的那些白 色像素连通域。
在步骤4423,韩文判别单元2400检查每个字符(CHARi,其 中,i=l,2...M)范围内的白色像素连通域的相对位置,并跳过其白色 像素连通域符合中文字符特征的字符。
例如, 一些中文字符具有不止一个的白色像素连通域,并且通常 其中的白色像素连通域聚集在一起。图5显示作为示例的一些中文字 符。如果白色像素连通域的相对位置满足以上情形,则白色像素连通 域不是圆形白色像素连通域.
在步骤4424,韩文判别单元2400通过使用以下步骤检查其余的 白色像素连通域是否是圆形的。
(1)如图6所示,韩文判别单元2400得到白色像素连通域及 其边界框。
(2 ) 如图7所示,韩文判别单元2400将边界框划分成四个部分.
(3)韩文判别单元2400检查每个部分的黑色像素笔划方向。 根据四个部分中的斜笔划的分布和笔划的圃形对称性,韩文判别单元
2400估计白色像素连通域是否是圆形的。
通过使用以上四个子步骤4421 ~4424,可获得圃形白色像素连
23通域的数量。虽然存在一些判别错误,但是这些错误很难影响对韩文 的判断。
图8和图9中分别显示了韩文文本块和中文文本块中的圆形白色 连像素通域的估计结果的示例。
图8给出对韩文文本块中的圆形白色像素连通域的标记结果的 示例,在图8中,在具有圆形白色像素连通域的韩文字符下面加有下 划线。
图9给出对中文文本块中的圆形白色像素连通域的标记结果的 示例。在这种情况下,仅存在被标记为圆形白色像素连通域的四个白 色像素连通域。它们是i、收、敫和^。其中,如图9所示,在其 中用圆标记这些字符中的圆形白色像素连通域。虽然存在一些判别错 误,但是这些错误几乎将不影响对韩文的判断。
根据本发明,能够以更高的精度判别韩文。对于仅具有在其中不 存在圆笔划的几个韩文字符的文章标题,存在少数错误。但是这种现 象不是普遍的。图10中显示了错误示例,在该示例中,不能将标题 判别为韩文。
在步骤4430,韩文判别单元2400计算整个文本块中的各个参数 的总值。例如,韩文判别单元2400得到字符的总数(SumChar)、 ccWhite的总数(SumCCWhite ) 、 CCCircle的总数(SumCCCircle )、 行的数量(SumLine)和整个文本块中包括圆形白色像素连通域的行 的数量(SumLineCCCircle )。
在步骤4440,韩文判别单元2400基于在步骤4430中计算的值 判别文本块图像的语言。
通过使用在步骤4430中计算的值,韩文判别单元2400计算整个 文本块中圆形白色像素连通域(ccCircle)与所有字符的比率。韩文 判别单元2400还计算整个文本块中非圆形白色像素连通域 (non- )与所有字符的比率。此外,韩文判别单元2400计算 整个文本块中包含圆形白色像素连通域(ccCircle)的行与所有行的 比率.通过使用在步骤4430冲获得的值和以上列出的三个比率,我们 可得到参数序列或逻辑表达式来判断整个文本块的语言属性。其中, 我们可计算VI为"SumCCCircle/SumChar"(当前文本块中圆形白色 像素连通域与所有字符的比率)、计算V2为"(SumCCWhite-SumCCCirle)/SumChar"(当前文本块中非圆形白色像素连通域与所 有字符的比率),并计算V3为"SumLineCCCircle/SumLine,,(当前 文本块中包括圆形白色像素连通域的行与所有行的比率)。
另外,韩文判别单元2400可首先从作为标准的训练样本得到用 于韩文和其它东亚语言的一组值。基于从训练样本计算的值,韩文判 别单元2400可使用"感知器"方法得到一组参数/判断阈值。例如,韩 文判别单元2400可从训练样本序列计算如上定义的VI、 V2和V3作 为阈值TH1、 TH2和TH3。
例如,
THl=l/4、 TH2-21/100和TH3-2/3, 或者TH1-1/5、 TH2-155/1000和TH3-2/3, 或者TH1-1/8、 TH2-21/100和TH3-4/5, 或者THK/5 、 TH2-任何值和TH3=4/5。
通过使用如上计算的值(V1~V3)和阈值(TH1~TH3),韩 文判别单元2400可判别输入的文本块图像的语言属性(是韩文还是 其它东亚语言)。如果VI大于TH1、V2小于TH2并且V3大于TH3, 则文本块图像的语言是韩文;否则,文本块图像的语言不是韩文。
本领域的技术人员将理解,以上特定值和阈值仅仅是示例,意不 在于限制本发明。
现在返回到图3,在步骤3500,日文判别单元2500区分日文和 中文语系。
图ll是用于区分日文和中文语系的方法的子流程图。 如图11所示,在步骤11510,日文判别单元2500计算每个字符 的密度。
对于每个字符(CHAR[i,其中,i=l,2...M),日文判别单元2500扫描每个字符图像,对字符图像区域中的黑色像素的数量和全部 像素的数量进行计数,然后计算字符图像的密度为Density[i,其中, i=l,2...M。
在步骤11520,日文判别单元2500根据所述密度选择一些字符。 根据Density[i,其中,i=l,2...M,日文判别单元2500通过使用 以下公式计算全部字符的密度的方差
- (2)
其中,乂'表示每个字符CHAR[i(其中,i=l,2...M)的密度,& 表示所有字符的密度的平均值。
日文判别单元2500使用。的值来计算标准值阈值,并根据标准 值阈值选择字符。在示例中,如图12的灰色区域所示,日文判别单 元2500可选择其凡低于凡并且其,i-凡小于1.5*^的字符。现在,可 将所选择的字符标识为CHAR1 L1。
在这个步骤之后,在日文文本块图像中,将删除一些日本汉字字 符,并将留下几乎所有的假名。在中文文本块图像中,将删除一些过 于复杂或者过于简单的字符。
如果不存在可在这个步骤中选择的字符,则它肯定是中文。这是 由于在图像中存在太多复杂的字符,并且只有中文(特别是繁体中文) 图像具有这种属性。
在步骤11530,日文判别单元2500计算所选择的字符中的每个 字符的对称值。
对于每个字符(CHARli,其中,i-l,2…L),日文判别单元 2500计算每个字符的对称值SYMMETRYil,其中,i-l,2…L。 以下,将参考图13至图18描述用于计算对称值的方法。 图13是根据本发明的用于计算对称值的方法的流程图。 如图13所示,在步骤13531,日文判别单元2500找到字符图像 的对称轴。
由于字体差异,中心轴不可能总是被取作字符图像的对称轴。如
26果中心轴总是被取作字符图像的对称轴,则将引起判别日文的错误。
为了找到字符图像的对称轴,日文判别单元2500首先垂直地扫 描整个字符图像或部分字符图像。在实施例中,日文判别单元2500 扫描图像,仅从右侧开始,从1/4至3/4宽度的区域范围内,从顶端 开始,从2/3至l高度的区域范围内。
在靠近中心轴的区域(在实施例中,该区域从"中心轴-宽度/8" 至"中心轴+宽度/8")中,日文判别单元2500根据以下规则之一找到 作为对称轴的垂直线
1、 如果在靠近中心轴的区域中存在白色像素列(在该白色像素 列的两侧肯定存在黑色像素列),则日文判别单元2500将该白色像 素列的中心轴取作字符图像的对称轴。
2、 如果在所述区域中存在其黑色像素的数量最多并且大于扫描 区域的2/3高度的黑色像素列,则日文判别单元2500将该黑色像素列 的中心轴取作字符图像的对称轴。
图14中显示这两种情况的两个示例,其中,矩形区域为扫描区 域,垂直线为对称轴。
在步骤13532,如果在步骤13531中没有找到对称轴,则日文判 别单元2500将中心轴用作字符图像的对称轴以继续随后的计算。图 15显示这样的情况的示例,其中,垂直线为中心轴并且现在被取作对 称轴。
在步骤13533,日文判别单元2500根据对称轴得到字符的左部 分和右部分。
除了对称轴之外,还存在作为左部分图像和右部分图像的两个部 分图像。为了使两个部分图像的宽度相等(用于特征提取),日文判 别单元2500计算这两个部分图像的宽度,并将较窄的部分的宽度取 作这两个部分图像的标准宽度。然后,日文判别单元2500得到左部 分和右部分的区域。图16显示这两个部分图像的示例,其中,矩形 为左部分图像和右部分图像的区域。部分和右部分的特征。首先,如图17的(a)所示,日文判别单元2500 根据对称轴得到字符的左部分和右部分。如图17的(b)和(c)所 示,在提取特征之前,日文判别单元2500首先转换一幅部分图像(诸 如左部分图像)以得到其与另一幅部分图像对应的镜像图像。这将使 得两个部分图像在同一方向上类似。然后,日文判别单元2500通过 使用笔划轮廓方向特征的提取方法从两个部分图像提取特征,其中, 以下将参考图18详细描述笔划轮廓方向特征。然后,日文判别单元 2500分别得到两个部分的特征值数列。现在,可将左部分特征值标识 为 leftfeature[l P
,可将其对应的右部分特征值标识为 rightfeature[l PJ 。
现在,我们参考图18描述笔划轮廓方向特征。
如图18所示,可将一幅图像分成几个子区域,且可对每个子区 域提取各种类型的特征值,所述特征可包含垂直、水平、右倾、左 倾等。这些特征被称为笔划轮廓方向特征。最后,日文判别单元2500 提取所有的子区域,并得到图像的特征值数列。
还存在得到特征值的另一方式,我们可提取两个部分图像的特 征,并转换一个部分的特征以使得它们对应于另一个部分的特征。此 外,还可使用一些其它的特征提取方法,诸如骨架特征等。
现在,返回到图13,在步骤13535,日文判别单元2500计算字 符图像的对称值。
在日文判别单元2500得到一个字符的两个特征值数列,即, leftfeaturel P和rightfeaturel P之后,日文判别单元2500可通过 使用以下公式计算该字符的对称值
1000 x 21 /ey^她一]—Wg/z(/fea/^e[/
| 矽附附e^yva/we 二-^~-- (3)
从公式(3),可看出对称值包含笔划方向特征的一些密度信息。 所以,在这个步骤之后,日文判别单元2500可计算每个字符 CHARli(其中,i-l,2…L)的对称值。
现在,返回到图ll,在步骤11540,日文判别单元2500根据对称值选择一些字符。
曰文判别单元2500计算在步骤11520中选择的字符CHAR1[1 L
的平均对称值,然后通过使用以下公式计算方差值^:
<722 =^- (4)
其中,力'表示每个字符CHARl[i(其中,i=l,2...L)的对称值, ,2表示字符组CHAR1[1 L中所有字符的对称值的平均值。
日文判别单元2500基于方差值^和平均值A选择CHAR1[1 L
中的字符。在实施例中,如图19的灰色区域所示,日文判别单元2500 选捧其对称值在(A_1.5*。2 , A+1.5*^)区域中的字符。
在这个步驟中,将删除字符组CHAR1[1 L中的一些奇异字符。 剩余的字符可显示语言图像的属性。对于中文图像,将留下其属性为 对称的大多数字符,对于日文图像,将留下大多数不对称的字符。
在步骤11550,日文判别单元2500计算在步骤11540中所选择 的字符的平均对称值。然后,日文判别单元2500得到文本块图像的 平均对称值。
在步骤11560,日文判别单元2500 # 据平均对称值决定文本块 图像的语言集。
在实施例中,日文判别单元2500可将文本块图像的平均对称值 与通过经验或者训练得到的阈值THa进行比较。
如果平均对称值在阈值THa之上,则文本块图像的语言为日文, 否则为中文。在实施例中,可定义阈值THa为410。本领域的技术人 员将理解,阈值THa依赖于在字符图像中提取的特征和用于计算对 称值的公式。
在实施例中,可如下获得阈值THa,首先,可从许多简体中文 和繁体中文的图像样本对日文判别单元2500进行训练。在这种情况 下,日文判别单元2500可分别对简体中文和繁体中文的图像样本根 据如上所述的方法计算字符的对称值。然后,日文判别单元2500将 计算的对称值的平均对称值取作阈值THa。图20和图21显示本发明的示例。如图20所示,存在文本块图 像。日文判别单元2500对该文本块图像进行处理。在步骤11520之 后,留下三个字符,在图21中显示了这三个字符。在步骤11540之 后,没有更多的字符被省略。然后,日文判别单元2500计算留下的 文本块图像的平均对称值,该平均对称值为243。由于平均对称值低 于阈值THa,所以可确信该语言为中文,而这得到了图20和图21的 证实。
图22和图23显示本发明的另一示例。如图22所示,存在文本 块图像。日文判别单元2500对该文本块图像进行处理。在步骤11520 之后,留下五个字符,图23中显示了这个五个字符。在步骤11540 之后,仅留下四个字符。然后,日文判别单元2500计算留下的文本 块图像的平均对称值,该平均对称值为578。由于平均对称值在阈值 THa之上,所以可确信该语言为日文,这得到了图22和图23的证实。
现在返回到图3,在步骤3600,中文判别单元2600区分简体中 文和繁体中文语系。
图24是用于区分简体中文和繁体中文语系的方法的子流程图。
如图24所示,在步骤24610,中文判别单元2600分别使用简体 中文快速OCR和繁体中文快速OCR来识别每个字符(CHAR1 M), 并得到两种类型的距离值dvSl M和dvT[l M。
在步骤24620,中文判别单元2600选择在文本块中将对其进行 分析的字符。
对于任何未知的中文(简体中文和繁体中文)文档图像,如图1 所示,在快速OCR之后存在四个区域。
步骤24620的目的是选择简体中文特殊字符或者繁体中文特殊 字符,从而可以当在以下步骤中对平均距离值进行正规化之后比较平 均距离值时扩大差异.
对于每个字符(CHARil, i=l,2...M),基于两种类型的距离值 (dvS[il和dvTi,i-l,2…M),中文判别单元2600通过使用如图25 所示的步骤来选择字符。并选择符合图25的每个步骤中的规则之一的任何字符。
图25是用于选择简体中文特殊字符和/或繁体中文特殊字符的方 法的流程图。
如图25所示,在步骤25621,中文判别单元2600根据规则l选 择简体中文特殊字符区域中的字符。
规则1:当dvS[i
,i=l,2.,.M,在简体中文的正确区中,并且 dvT[i,i-l,2…M,在繁体中文的错误区中时,可确定字符(CHAR[i, i=l,2...M)在简体中文特殊字符区域中。
在步骤25622,中文判别单元2600根据规则2选择繁体中文特 殊字符区域中的字符。
规则2:当dvT[i,i=l,2...M,在繁体中文的正确区中,并且 dvSil, i=l,2...M,在简体中文的错误区中时,可确定字符(CHARi, i=l,2...M)在繁体中文特殊字符区域中。
在步骤25623,中文判别单元2600根据规则3选择不确定的字 符,这些字符不在相同形状字符图像的区域和错误分割字符图像的区 域(其它字符)中。
规则3:当dvSi,i=l,2...M,在简体中文的可疑区中,或者 dvT[i
,i=l,2...M,在繁体中文的可疑区中时,不确定字符(CHARi, 1=1,2...]\1)是在繁体中文特殊字符区域中还是在简体中文特殊字符区 域中,但是最可能的情况是字符(CHARi,i=l,2...M)不在相同形 状字符区域和错误分割字符区域中。
图31至图34显示以上规则的应用示例。
在该实施例中,作为示例,分别如下定义简体中文快速OCR和 繁体中文快速OCR的正确区、可疑区和错误区 简体中文的正确区0,1592); 简体中文的可疑区1592,4594; 简体中文的错误区(4594,+oo) 繁体中文的正确区
,错误区为(AvSu,,oo)。
在本发明的实施例中,对于简体中文快速OCR, x。的值为1276, 对于繁体中文快速OCR, x!的值为1263。
接下来,以下将参考图30详细描述用于得到函数f(x)的方法。
函数F(x)用于对两种类型的平均距离值(即,AvSx和AvTx)进 行正规化。
通过使用在步骤26720中介绍的方法,可获得两个平均距离值数 列(AvSx和AvTx) 。 AvSx用于使用简体中文快速OCR来识别简体 中文字符图像,AvTx用于使用繁体中文快速OCR来识别繁体中文字 符图像。然后,根据AvSx及其对应的AvTx,可将拟合方法用于处理 两个平均距离值数列(AvSx和AvTx)。最后,我们可得到函数F(x" A*AvSx + B = AvTx (A、 B为参数)。
在本发明的实施例中,A为0.9, B为2391。
图30显示从简体中文到繁体中文的拟合曲线。如图30所示,用 具有钻石形"- -"的曲线表示平均距离值AvlV的曲线,用具有三角 形的曲线"-a-"表示平均距离值AvSx的曲线,用具有矩形的曲线 "+ ,,表示正规化的AvSx的曲线。
在另一实施例中,将"感知器函数"用于训练基准图像,并得到 AvSx和AvTx的关系函数。
图31至图32显示根据本发明的一个实施例的用于识别繁体中文图像的过程的示例。
如图31所示,存在将被识别的一个文本块图像(将繁体中文图 像取作示例)。在步骤24620之后,选择出如图32所示的四个字符。
图33至图34显示根据本发明的一个实施例的用于识别简体中文 图像的过程的示例。
如图33所示,存在将被识别的一个文本块图像(将简体中文图 像取作示例)。在步骤24620之后,选择出如图34所示的五个字符。
根据以上描述,本领域的技术人员将明白的是,通过使用本发明, 在区分简体中文和繁体中文时很少发生错误。
应用
可将本发明用在语言识别系统中,作为OCR系统的预处理,所 述OCR系统例如图35的多语言OCR系统。
多语言(例如,东亚语言)OCR系统可处理不同东亚语言的文 档图像,或者甚至可处理一个文档中的不同文本块具有不同语言的状 况。语言判别系统首先根据本发明确定每个文本块的语言,然后,根 据确定结果,通过使用对应语言的OCR引擎来识别文本块。
可以以许多方式执行本发明的方法和系统。例如,可通过软件、 硬件、固件或者软件、硬件、固件的任何组合来执行本发明的方法和 系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的 方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。 此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程 序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而, 本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明, 但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不 是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离 本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范 围由所附权利要求来限定。
权利要求
1、一种文档图像的语言判别方法,该方法包括检测文档图像的文本块中的圆形白色像素连通域;和基于检测到的圆形白色像素连通域来确定文本块是否是韩文。
2、 根据权利要求1所述的方法,还包括 执行行分割;和 执行文本块的字符切分。
3、 根据权利要求2所述的方法,还包括 删除噪声字符和标点符号。
4、 根据权利要求1至权利要求3中的任何一个所述的方法,其中,所述圆形白色像素连通域检测步骤包括以下步骤检测白色像素连通域; 忽略具有小尺寸的白色像素连通域;忽略在其内部存在黑色像素的白色像素连通域; 忽略一个字符区域中其相对位置满足中文字符特征的白色像素连通域;通过基于笔划方向的特征和圆形对称性确定未被忽略的白色像 素连通域是否是圆形的来检测圆形白色像素连通域。
5、 根据权利要求4所述的方法,还包括检测文本块中的字符,并计算这些字符的总数; 计算文本块中的白色像素连通域的总数;计算文本块中的圆形白色像素连通域的总数; 检测文本块中的行,并计算这些行的数量;和 检测包括圆形白色像素连通域的行,并计算这些行的数量。
6、 根据权利要求5所述的方法,还包括 计算文本块中圆形白色像素连通域的总数与字符的总数的第一比率;计算文本块中非圆形白色像素连通域的总数与字符的总数的第二比率;和计算文本块中包括圓形白色像素连通域的行的数量与所有行的 数量的第三比率。
7、 根据权利要求6所述的方法,还包括 基于第一比率、第二比率和第三比率确定文本块是否是韩文。
8、 根据权利要求6所述的方法,还包括通过训练样本序列分别获得多个用于第一比率、第二比率和第三 比率的阈值组;和基于第一比率、第二比率、第三比率和阈值组确定文本块是否是韩文。
9、 根据权利要求l所述的方法,还包括 根据字符的光学密度和对称值选择文本块中的字符; 计算所选择的字符的平均对称值;和 基于平均对称值确定文本块是否是日文。
10、 根据权利要求9所述的方法,其中,根据字符的光学密度和 对称值选择文本块中的字符的步骤还包括选择具有比文本块中的字符的平均光学密度低的光学密度的字符。
11、 根据权利要求9或IO所述的方法,还包括 确定所选择的字符的图像的对称轴; 计算所选择的字符的对称值;和 选择具有正常对称值的字符。
12、 根据权利要求11所述的方法,其中,所述确定所选择的字 符的图像的对称轴的步骤还包括扫描所选择的字符中的每个字符的图像的中下区域;和 选择以下基准中的一个作为字符图像的对称轴—靠近字符的中心轴的白色像素列的中心轴,其中在所述白色像 素列的两侧存在黑色像素列,-靠近字符的中心轴的最高且足够高的黑色像素列的中心轴,和-字符的中心轴。
13、 根据权利要求11所述的方法,其中,所述计算所选择的字 符的对称值的步骤还包括根据字符的对称轴获得所选择的字符中的每个字符的图像的左 部分和右部分;从左部分和右部分提取特征;和基于左部分和右部分的特征之间的差异计算字符的对称值。
14、 根据权利要求1或9所述的方法,还包括通过使用简体中文快速OCR识别文档图像的文本块中的所有字 符来获得第一距离值;通过使用繁体中文快速OCR识别文档图像的文本块中的所有字 符来获得第二距离值;基于第一距离值和第二距离值选择字符;计算所选择的字符的第一距离值的第一平均距离值;计算所选择的字符的第二距离值的第二平均距离值; 对第一平均距离值和第二平均距离值中的一个进行正规化;通过将第一平均距离值和第二平均距离中被正规化的那个与第 一平均距离值和第二平均距离值中的另一个进行比较来确定文本块 是简体中文还是繁体中文。
15、 根据权利要求14所述的方法,其中,所述基于第一距离值 和第二距离值来选择字符的步骤还包括以下步骤中的至少一个步骤选择下述字符,所述字符的第一距离值在简体中文快速OCR的 正确区中,且所述字符的第二距离值在繁体中文快速OCR的错误区中;选择下述字符,所述字符的第一距离值在简体中文快速OCR的 错误区中,且所述字符的第二距离值在繁体中文快速OCR的正确区中;选择下述字符,所述字符的第一距离值在简体中文快速OCR的 可疑区中,或所述字符的第二距离值在繁体中文快速OCR的可疑区中。
16、 根据权利要求15所述的方法,其中,通过以下步骤获得简 体中文快速OCR的正确区、可疑区和错误区通过用简体中文快速OCR分别识别简体中文文本块和繁体中文 文本块来获得第三距离值组和第四距离值组;分别获得关于第三距离值组和第四距离值组的两条单调距离值曲线;获得所述两条单调距离值曲线的最大斜率差所在的位置;和 通过使用与所述位置对应的两个距离值确定所述正确区、可疑区 和错误区。
17、 根据权利要求15所述的方法,其中,通过以下步骤获得繁 体中文快速OCR的正确区、可疑区和错误区通过用繁体中文快速OCR分别识别简体中文文本块和繁体中文 文本块来获得第五距离值组和第六距离值组;分别获得关于第五距离值组和第六距离值组的两条单调距离值曲线;获得所述两条单调距离值曲线的最大斜率差所在的位置;和 通过使用与所述位置对应的两个距离值确定所述正确区、可疑区 和错误区。
18、 一种文档图像的语言判别方法,该方法包括根据字符的光学密度和对称值选择文档图像的文本块中的字符;计算所选择的字符的平均对称值;和 基于平均对称值确定文本块是否是日文。
19、 根据权利要求18所述的方法,其中,所述根据字符的光学 密度和对称值选择文本块中的字符的步骤还包括选择具有比文本块中的字符的平均光学密度低的光学密度的字符。.
20、 根据权利要求18或19所述的方法,还包括 确定所选择的字符的图像的对称轴;计算所选择的字符的对称值;和 选择具有正常对称值的字符。
21、 根据权利要求20所述的方法,其中,所述确定所选择的字 符的图像的对称轴的步骤还包括扫描所选择的字符中的每个字符的图像的中下区域;和 选择以下基准中的一个作为字符的图像的对称轴—靠近字符的中心轴的白色像素列的中心轴,其中在所述白色像 素列的两侧存在黑色像素列,—靠近字符的中心轴的最高且足够高的黑色像素列的中心轴,-字符的中心轴。
22、 根据权利要求20所述的方法,其中,所述计算所选择的字 符的对称值的步骤还包括根据字符的对称轴获得所选择的字符中的每个字符的图像的左 部分和右部分;从左部分和右部分提取特征;和基于左部分和右部分的特征之间的差异计算字符的对称值。
23、 根据权利要求18所述的方法,还包括通过使用简体中文快速OCR识别文档图^ 的文本块中的所有字 符来获得第一距离值;通过使用繁体中文快速OCR识别文档图像的文本块中的所有字 符来获得第二距离值;基于笫 一距离值和第二距离值选择字符;计算所选择的字符的第一距离值的第一平均距离值;计算所选择的字符的第二距离值的第二平均距离值; 对第一平均距离值和第二平均距离值中的一个进行正规化;通过将第一平均距离值和第二平均距离中被正规化的那个与第 一平均距离值和第二平均距离值中的另一个进行比较来确定文本块 是简体中文还是繁体中文。
24、 根据权利要求23所述的方法,其中,所述基于第一距离值和第二距离值选择字符的步骤还包括以下步骤中的至少一个步骤选择下述字符,所述字符的第一距离值在简体中文快速OCR的 正确区中,且所述字符的第二距离值在繁体中文快速OCR的错误区中;选择下述字符,所述字符的第一距离值在简体中文快速OCR的 错误区中,且所述字符的第二距离值在繁体中文快速OCR的正确区中;选择下述字符,所述字符的第一距离值在简体中文快速OCR的 可疑区中,或所述字符的第二距离值在繁体中文快速OCR的可疑区 中。
25、 根据权利要求24所述的方法,其中,通过以下步骤获得简 体中文快速OCR的正确区、可疑区和错误区通过用简体中文快速OCR分别识别简体中文文本块和繁体中文 文本块来获得第三距离值组和第四距离值组;分别获得关于第三距离值组和第四距离值组的两条单调距离值曲线;获得所述两条单调距离值曲线的最大斜率差所在的位置;和 通过使用与所述位置对应的两个距离值确定所述正确区、可疑区 和错误区。
26、 根据权利要求24所述的方法,其中,通过以下步骤获得繁 体中文快速OCR的正确区、可疑区和错误区通过用繁体中文快速OCR分别识别简体中文文本块和繁体中文 文本块来获得第五距离值组和第六距离值组;分别获得关于第五距离值组和第六距离值組的两条单调距离值曲线;获得所述两条单调距离值曲线的最大斜率差所在的位置;和 通过使用与所述位置对应的两个距离值确定所述正确区、可疑区 和错误区。
27、 一种文档图像的语言判别方法,该方法包括通过使用简体中文快速OCR识别文档图像的文本块中的所有字 符来获得第一距离;通过使用繁体中文快速OCR识别文档图像的文本块中的所有字 符来获得第二距离值;基于第一距离值和第二距离值选择字符;计算所选择的字符的第一距离值的第一平均距离值;计算所选择的字符的第二距离值的第二平均距离值; 对第一平均距离值和第二平均距离值中的一个进行正规化;通过将第一平均距离值和第二平均距离中被正规化的那个与第 一平均距离值和第二平均距离值中的另一个进行比较来确定文本块 是简体中文还是繁体中文,其中,所述基于第一距离值和第二距离值选择字符的步骤还包括 以下步骤中的至少一个步骤选择下述字符,所述字符的第一距离值在简体中文快速OCR的 正确区中,且所述字符的第二距离值在繁体中文快速OCR的错误区中;选择下述字符,所述字符的第一距离值在简体中文快速OCR的 错误区中,且所述字符的第二距离值在繁体中文快速OCR的正确区中;选择下述字符,所述字符的笫一距离值在简体中文快速OCR的 可疑区中,或所述字符的笫二距离值在繁体中文快速OCR的可疑区 中。
28、根据权利要求27所述的方法,其中,通过以下步骤获得简 体中文快速OCR的正确区、可疑区和错误区通过用简体中文快速OCR分别识别简体中文文本块和繁体中文 文本块来获得第三距离值组和第四距离值组;分别获得关于第三距离值组和笫四距离值组的两条单调距离值曲线;获得所述两条单调距离值曲线的最大斜率差所在的位置;和通过使用与所述位置对应的两个距离值确定所述正确区、可疑区 和错误区。
29、 根据权利要求27所述的方法,其中,通过以下步骤获得繁 体中文快速OCR的正确区、可疑区和错误区通过用繁体中文快速OCR分别识别简体中文文本块和繁体中文 文本块来获得第五距离值组和第六距离值组;分别获得关于第五距离值组和第六距离值组的两条单调距离值曲线;获得所述两条单调距离值曲线的最大斜率差所在的位置;和 通过使用与所述位置对应的两个距离值确定所述正确区、可疑区 和错误区。
30、 一种文档图像的语言判别系统,该系统被构造为执行权利要 求1 ~29中的任何一个的方法。
31、 一种OCR系统,包括根据权利要求30所述的文档图像 的语言判别系统;和至少一个东亚语言OCR。
全文摘要
本发明提供一种文档图像的语言判别方法和系统。文档图像的语言判别方法包括检测文档图像的文本块中的圆形白色像素连通域;和基于检测到的圆形白色像素连通域来确定该文本块是否是韩文。
文档编号G06K9/72GK101593278SQ20081010857
公开日2009年12月2日 申请日期2008年5月27日 优先权日2008年5月27日
发明者罗兆海, 刚 陈 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1