字符辨识装置以及识别函数生成方法_2

文档序号:9226045阅读:来源:国知局
,进 行辨识写有标题、作者、要点、页面编号等的位置等元数据提取。
[0化7] 在字符串提取504中,CPU 206从文档图像中提取字符串单位的图像。CPU 206 在一般文档的情况下提取1行量的图像,在表的情况下提取框内的图像等字符串单位的图 像。例如,如图3的字符串602那样,提取表的记载有"7, 890, 123"的框内的图像。
[0化引在字符截取505、字符辨识512、辨识结果选定509该一系列的处理中,辨识所提取 的各字符串图像中的字符。在此处的处理中,通过如图3的字符截取603那样,将字符串图 像分割为字符单位,辨识各个字符图像中的字符,从而最终地变换为字符代码等计算机可 处理的代码604。
[0化9] 举出例子,说明从上述字符串提取504之后的、字符截取505至辨识结果选定509 的处理。
[0060] 图4是由本发明的实施例的字符辨识装置201实施的字符截取处理的说明图。
[0061] 首先,对字符截取505进行说明。例如,设为通过字符串提取504,得到了图4的图 像1001那样的字符串图像。首先,在字符截取505的处理中,CPU206根据字符线彼此交 叉的点、字符线被中断了的点等,创建切断候选点。图4的图像1002示出基于切断候选点 的分割。在该例子中,字符串图像被分割为4个图像。该各分割图像、和邻接的多个图像的 合成成为字符图像候选。在图4的图像1003的例子中,通过把将左数第1个和第两个图像 合成而得的图像、W及将左数第两个和第3个图像合成而得的图像也分别作为字符图像候 选,从而得到6个字符图像候选。W左端的点为起点且W右端的点为终点的、从左到右的各 路线(route)上的字符图像成为图像1001的字符串的截取候选。
[0062] 图5是由本发明的实施例的字符辨识装置201实施的字符识别的结果的说明图。
[0063] 接下来,在字符辨识512中,CPU206辨识成为候选的各个字符图像中的字符。此 处,例如,如图5那样,得到针对各字符图像701的正确候选字符、和针对该正确候选字符的 相似度(似然度、可靠度)。在图5的例子中,对于各字符图像,得到多个正确候选字符。在 它们当中,可W是相似度最高的为1位候选字符类型702,其相似度为1位候选字符相似度 703,相似度次高的为2位候选字符类型704,其相似度为2位候选字符相似度705,类似地 得到更下位的n位候选字符类型。
[0064] 接下来,CPU 206根据在字符辨识512中得到的正确候选字符和相似度,创建成为 辨识结果的候选的网络。
[0065] 图6是由本发明的实施例的字符辨识装置201实施的辨识结果的候选的网络的说 明图。
[0066] 具体而言,图6的网络1101,作为一个例子,示出对如图4所示截取的字符图像中 的字符进行辨识而得到的结果。在各个字符图像的右上所显示的字符是正确候选字符,也 可W针对一个字符图像得到多个正确候选字符(例如1位候选字符类型W及2位候选字符 类型)。
[0067] 从网络1101去掉了字符图像的结果是网络1102。W左端的点为起点且W右端的 点为终点的、从左到右的各路线成为辨识结果候选。另外,此处,CPU 206在判断为字符图 像的辨识结果的可靠性低的情况下,进行丢弃处理,针对辨识结果,设立丢弃标志等,对后 面的处理或者用户通知辨识结果的可靠性低。
[0068] 对该字符辨识512的内部的处理进行说明。此处,CPU 206辨识在各个字符图像 中所描绘的字符(字符识别506)。另外,还进行辨识结果的丢弃处理(非字符丢弃507 W 及含糊字符丢弃508)。
[0069] 首先,对字符识别506进行说明。此处,首先,CPU 206进行将字符图像变换为向 量值的特征提取处理。如果将向量值的维数设为N,则通过特征提取处理,1个字符图像被 表现为N维向量。通过将字符图像表现为向量值,能够统计性地处理字符图像的分布。
[0070] 图7是示出由本发明的实施例的字符辨识装置201实施的特征提取的处理的例子 的说明图。
[0071] 首先,CPU 206进行字符图像的标准化(normalization)。一般地,输入字符图像 的尺寸不同。因此,在标准化中,通过使字符图像的尺寸一致,使得在后面的处理中能够统 一地处理。另外,关于输入字符图像,有时由于书写工具、书写者、字型等的差异,即使是相 同的字符类型的字符,字形也大幅不同。该成为辨识精度降低的原因。因此,在标准化处理 中,通过输入字符图像的尺寸的变形和字形的变形,使尺寸统一,降低同一字符类型之间的 字形的偏差。
[0072] 图7的图像1401是输入字符图像的例子,图像1402是使输入字符图像变形 为64X64像素的尺寸的标准化图像。关于标准化处理,有各种方法,例如,在Mohammed Cheriet, Nawwaf Kharma,Cheng lin Liu,and Ching Suen. Character Recognition Systems ;A Guide for Students and Practitioners. Wiley-Interscience, 2007 ( W下还 简记为文献"Qiaracter Reco即ition Systems")中详细记载。
[0073] 接下来,CPU 206进行将通过标准化所生成的标准化图像变换为向量值的特征提 取。特征提取也有各种方法,例如,在上述的文献"Qiaracter Recognition Systems"中详 细记载。此处,使用最简单的像素特征提取的例子来说明。在像素特征提取中,将标准化图 像分割为小区域。在图7的例子中,将标准化图像1402分割为64个小区域。在图像1403 中示出分割的情形。接下来,变换为将各小区域的黑像素的个数作为要素的向量值。由于 有64个小区域,所W如向量1404那样生成64维的向量值。
[0074] 作为广泛使用的特征提取的方法的另一例子,对梯度特征提取方法进行说明。
[0075] 图8 W及图9分别是由本发明的实施例的字符辨识装置201实施的梯度特征提取 方法的第1说明图W及第2说明图。
[0076] 此处,设为对通过标准化所生成的标准化图像附加1像素量的白边(即标准化图 像的最外周的所有像素的像素值是0)。另外,将像素点(i、j)的标准化图像的像素值取为 f(i、j)。此时,CPU 206在标准化图像的各像素点(i、j)中,如W下那样计算梯度向量g = (gx、gy)。该相当于附加图8所示的滤波器。
[0077] gx(i. j) = {f(i + U j + l)+2f(i. j + l)+f(i-U j + l)-f(i + U
[0078] gy(i、j) = (f (i + 1、j + l)+2f (i + 1、j)+f (i + 1、(i-1、j + l)-2f (i-1、
[0079] 但是,在上述的式中,当像素点(i、j)位于图像的边缘时,其周围的像素点有时成 为图像的区域外。此时,将图像外的区域中的f的值考虑为0,而计算上述式。由此,在各像 素点(i、j)中,得到像素值的梯度向量g = (gx、gy)。
[0080] 接下来,CPU 206将向量g(i、j)分解为图9的参照编号2001所示的45度间隔的 8个方向3〇(1〇)、31(1〇)、,"、37(1〇)中的、接近3(1〇)的方向的两个方向。但是,在 g(i、j)的方向与8个方向中的某一个完全一致的情况下,不需要分解,在假设与方向0-致 的情况下,设为g〇(i、j)=向量g(i、j)的长度,关于其它方向,取为gl(i、j)=…=g7(i、 j) = 0。
[0081] 通过图9的参照编号2002的图,说明分解的方法。CPU 206在如参照编号2002的 图所示,g(i、j)存在于方向0与方向1之间的情况下,将向量g(i、j)分解为方向0和方向 1的分量。此时,如果将方向0的分量的长度设为PO、将方向1的分量的长度设为Pl,则取 为 g〇(i、j) =p〇、gl(i、j) =pl、p2(i、j) =...= p7(i、j) =0。
[00間如W上那样,生成8个方向图像g0(i0)、…、g7(i0)。为了提高针对字符的变 形的健壮性,有时还对该图像施加基于高斯滤波器的模糊。在该情况下,修改施加了模糊的 方向图像,设为g0(i、j)、…、g7(i、j)。接下来,CPU 206将各方向图像gi(x、y)分割为小 区域,生成W各小区域的像素值的合计值为要素的向量。当前,如果将各方向图像分割为了 64个小区域,则从各方向图像得到64个值。由于该是关于各方向而得到的,所W在8个方 向上得到合计64X8 = 51两个值。将它们作为向量的分量,生成512维的向量。
[0083] W上是梯度特征提取方法的说明。
[0084] 如W上那样,CPU 206将字符图像变换为向量值。W下,将通过特征提取而生成的 向量值的维数设为N。由此,一个个的字符图像被表现为N维空间上的点,同一字符类型分 布于接近的区域。在接下来的图10中示意地示出其情形。
[0085] 图10是由本发明的实施例的字符辨识装置201实施的字符识别用的方式的说明 图。
[0086] 在图10的曲线上所描绘的圈、S角W及四边的图形分别表示从与字符类型A、字 符类型B W及字符类型C对应的各字符图像所提取出的N维向量点。例如,一个个的圈形 的图形都是从字符类型A的图像所提取的向量点,但分别表示从不同的图像(例如不同的 字体的印刷字或者由不同的人写的手写字符等)所提取的向量点。
[0087] 接下来,CPU 206参照预先创建的字符识别用辞典214,根据从字符图像所提取的 向量值,识别在字符图像中所描绘的字符。
[008引此处,首先,对字符识别用辞典214进行说明。在字符识别用辞典214中,例如, 保存了针对各识别对象字符类型k,将N维向量作为自变量,将实数值作为值的识别函数 fk(x)。W针对根据描绘了字符类型k的字符图像生成的N维向量X取大的值、针对根据描 绘了其它字符类型的字符图像生成的N维向量X取小的值的方式,预先通过学习生成识别 函数fk(x)。将识别函数fk(x)的值称为针对向量X的字符类型k的相似度、或者似然度 等。例如,在W数字为对象的辨识的情况下,与0~9该10个字符类型对应地,存在10个 识别函数f0(x)、n(x)、…、f9(x)。
[0089] 在图10的例子中,将所输入的字符图像的N维向量901作为自变量,计算字符类 型A、B W及C各自的识别函数的值,其值最大的字符类型成为1位候选字符类型,第2大的 字符类型成为2位候选字符类型。
[0090] CPU 206能够使用例如由字符图像和字符标签构成的学习用字符图像数据库来创 建该识别函数。
[0091] 图11是示出本发明的实施例的字符辨识装置201所保持的学习用字符图像数据 库213的例子的说明图。
[0092] 在图11中,作为例子,示出分别在正方形的框内所显示的字符图像、和在各个框 的右上所显示的字符标签。字符标签是表示在字符图像中所描绘的字符的代码化了的正确 标签。例如,字符图像1501 W及与其对应的字符标签1502表示字符图像1501是字符类型 "D"的图像。
[0093] 能够通过例如使人在指定的框内写入指定的字符等那样收集字符图像,来创建学 习用字符图像数据库213。CPU 206将在该学习用字符图像数据库213中包含的各图像,通 过与上述类似的方法,变换为N维向量。此处,CPU
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1