模式分段装置和模式识别装置的制作方法

文档序号:6472110阅读:196来源:国知局
专利名称:模式分段装置和模式识别装置的制作方法
技术领域
本发明涉及一种模式分段装置和模式识别装置,具体涉及一种从一个字符串图象中分段一个单字符区域的应用程序。
在常规的字符识别处理中,必须从字符串图象分段与一个字符对应的模式。在这种分段处理中,存在三个主要处理,即,标记处理,重叠积分处理,垂直积分处理(用于水平书写),或水平积分处理(用于垂直书写)。然而,当两个或多个字符相互连接,或当两个或多个字符被写为相互合并在一起时,就不能正确地分段这些字符。因此,在常规的分段处理中,已经采用下面的方法来正确地分段上述连接的字符。
(1)产生沿字符串方向的黑像素投影直方图(相邻分布),并且将最小值的点定义为一个段点。
(2)记录字符串的上、下外形,并且将最小值的点定义为一个段点。
然而,某些字符形状或字符之间的连接部分不指示相邻分布最小值或连接点的外形。因此,在常规方法中,已经出现这样的问题,即,在连接点处的字符不能被正确地分段。
当图象状态不太理想,并且当图象在模式内具有多个不均匀部分时,产生多个段点。因此,整个系统不能免于基于假定检验的过分分隔的不利影响。
本发明目的在于提供一种能够提高字符连接模式的分段准确度的模式分段装置和模式识别装置。
为解决上述问题,本发明将类别的特征量与图象的特征量进行比较,以便从图象分段与类别特征量对应的部分。
这样,有可能分段与模式位置处的类别特征量对应的模式。甚至当模式之间的连接位置不对应黑像素投影直方图的最小点时,在模式之间的位置也能分段模式。另外,有可能从图象共同分段与类别特征量对应的部分。因此,尽管一个图象在要分段的模式内具有多个不均匀的部分,也可以防止在模式的最小点将一个模式分段为多个区域,从而提高分段准确度。
根据本发明的一个方面,沿字符串阵列方向独立移动沿阵列方向设定为一个类别的成分序列的特征量的第一和最后成分,以允许类别的特征量对应于字符串图象的特征量。
这样,甚至当字符串图象出现失真和变形,在类别特征量和字符串图象的字符模式的特征量之间可以保持比较准确度,从而,当输入各种字符串图象时防止类别特征量不匹配的情况。
根据本发明的另一个方面,输入与沿阵列方向的字符串图象的成分对应的类别的第一点,并且从对应于该类别的第一点的字符串图象成分获得下一个分段位置。
这样,有可能从一个字符串图象提取另一个字符区域,以便使得对应于该类别的其他区域在字符串图象内连续,从而可以从字符串图象有效提取多个字符区域。
根据本发明进一步的方面,当存在来自图象的多个分段区域时,分段区域可以相互组合,以便在图象中不存在不对应于所识别的任何类别的区域。
这样,有可能允许要分段图象内的所有区域对应于要识别的任何类别。当存在一个未对应于任何类别的剩余模式时,可放弃该分段位置,并且甚至当从一个图象获得多个分段位置时,也能得到最佳的分段位置。例如,仅包含字符串的图象不包括除字符之外的任何模式。因此,当从仅包含字符串的图象分段不对应于任何字符的一个模式时,确定该分段位置是错误的。因此,通过确定一个分段位置可以避免一个错误的分段位置,以便来自要分段的字符串的所有分段结果对应于任何字符类别,从而提高分段准确度。
另外,根据本发明进一步的方面,分开设定类别分段的特征量和类别识别的特征量,并且使用用于类别识别的特征量,识别使用类别分段的特征量分段的模式。
这样,有可能检查一个分段为对应于一个类别的区域的一个模式是否匹配该类别,从而提高字符分段准确度。
另外,根据本发明进一步的方面,当使用类别分段的特征量分段一个模式时,输出该类别作为该模式的识别结果。
这样,仅通过执行来自图象的分段处理就可以获得一个模式的识别结果,并且不必执行与字符识别处理分开的模式识别处理,从而缩短了获得模式识别结果所需的时间。


图1是根据本发明一个实施例的模式分段装置的配置方框图;图2A和2B示出根据本发明一个实施例的模式分段方法;图3是根据本发明第一实施例的模式识别方法流程图;图4是根据本发明第二实施例的模式识别方法流程图;图5示出根据本发明实施例计算类别的外围特征的方法;图6示出根据本发明实施例计算类别的外围特征的方法;图7示出根据本发明实施例使用连续DP计算级别差(differencelevel)的方法;图8示出根据本发明实施例在连续DP内达到当前点所通过的路径;图9是根据本发明实施例使用连续DP计算级别差的方法流程图;图10示出根据本发明实施例查找开始点的方法;图11示出根据本发明实施例计算开始点以及级别差的结果的一部分;图12示出从图11所示的计算结果查找分段位置的路径的方法;图13是根据本发明实施例计算分段位置的方法流程图;图14是根据本发明实施例产生一个路径的处理流程图;图15是根据本发明实施例查找基点的处理流程图;图16示出根据本发明实施例产生一个路径的实例;图17是根据本发明实施例实现模式分段处理和模式识别处理的配置方框图;以及图18示出根据本发明实施例提供用于执行模式分段处理和模式识别处理的软件程序等的方法。
下面参照附图描述根据本发明实施例的模式分段装置和模式识别方法。
图1是根据本发明实施例的模式分段装置的配置方框图。在图1,特征量提取单元1提取图象的特征量。特征量设定单元2设定一个类别的特征量。特征量比较单元3比较类别特征量与要处理的整个图象的图象特征量。分段单元4根据特征量比较单元3的比较结果分段对应于来自图象的类别特征量的部分。类别特征量和图象特征量涉及可以从中复制原始模式的特征量或特征量部分。例如,多至第n个外围特征的外围特征可用作类别的特征量和图象的特征量。
这样,只可以从图象中共同分段对应于类别特征量的模式。因此,有可能防止分段除字符之外的模式或在多个点的分离状态下分段字符,从而提高字符分段准确度。另外,当图象中存在对应于一个字符特征量的部分时,甚至当字符相互连接时,也能指定与字符对应部分的位置。尽管字符的连接位置不对应于黑像素投影直方图的最小点,也可以在字符的边界分段一个字符。
沿字符串阵列方向设定类别特征量和图象特征量。沿阵列方向独立扫描类别特征量阵列的最后和第一部分,并且在扫描时获得的类别特征量和图象特征量之间的对应获得最佳位置对应。例如,根据类别特征量阵列的最后部分的对应,得到类别特征量阵列的第一部分的对应,以便可以得到类别特征量和图象特征量之间的最佳对应。
这样,当从输入图象提取对应于类别特征量的部分时,通过扩大和减少类别可以扫描输入图象内的类别,从而即使输入图象中包含手写字符时,也能从输入图象中高准确度地提取对应于类别特征量的部分。
图2A和2B示出根据本发明实施例的模式分段方法。在下述的实施例,将类别5的特征量与输入图象的特征量进行比较。对于其他类别也是如此。在图2A,沿y轴方向设定类别5的特征量,类别5的最左侧点Lk的特征量对应于y=0,并且类别5的最右侧点Rk的特征量对应于y=y1。另一方面,假定输入图2B所示的连接字符257作为要分段的图象。当输入连接字符257时,将x轴设定为字符串方向,最左侧点L1的特征量对应于x=0,并且连接字符257的最右侧点R1的特征量对应于x=x1。接着,在x轴的0到x1的范围内分开查找类别5的最右侧点Rk和最左侧点Lk,并且在扫描操作所获得的类别5的特征量和连接字符257的特征量之间的对应获得最佳位置对应。因此,假定当类别5的最右侧点Rk对应于x轴的xR,以及类别5的最左侧点Lk对应于x轴的xL时,在类别5的特征量和连接字符257的特征量之间获得最佳对应,坐标xL和xR为连接字符257的分段位置的候选项。假定沿类别5的水平方向的像素数为dy,并且对应于连接字符257的类别5部分的像素数为dy’,则,甚至当类别5水平方向上的像素数dy与对应于连接字符257的类别5部分的像素数dy’不同时,通过在x轴的0到x1范围内分开扫描类别5的最右侧点Rk和最左侧点Lk,也可以高准确度地从连接字符257提取对应于类别5的部分。
可以通过称为连续DP(动态规划)的非线性扩大/缩小匹配方法比较特征量。例如,在Seiichi Nakagawa,Maruzen Kabushiki Kaisha的‘模式信息处理’,pp.163—166,1999中描述了连续DP。
这样,考虑到对应于图象内的类别部分(被分段为类别字符的部分)的特征量与类别特征量类似。即,定义用于一个图象的特征量,并且在整个输入图象内查找与每个类别的特征量类似的部分。首先,将每个类别的特征量输入到一个字典。接着,获得整个输入图象的特征量,并且与每个类别的特征量进行比较。因此,得到关于每个类别与输入图象的匹配程度,输入图象的哪个部分匹配每个类别等的信息。实际上,对于每个类别,可以获得每个坐标的级别差以及超越级别差的坐标之间的对应。特别是,当每个坐标定义为一个结束点时所得到的级别差,并且得到相应的开始点。假定级别差等于从开始点到结束点分段图象部分的成本,并且该部分为该类别,则可以相互比较每个分段操作的有效性。通过查找具有最高有效性的分段操作的组合,可以确认分段位置和识别结果。
图3是根据本发明第一实施例的模式识别方法流程图。在第一实施例,当通过比较类别的特征量获得图象内的分段位置时,将该类别定义为分段位置处的模式识别结果。在图3,首先,在输入图象(步骤S1)执行一个正规化处理(步骤S2)。在正规化处理中,图象被放大或缩小,以使垂直长度等于预定值,并且接着对所产生的模式执行平滑处理。然后,计算正规化处理之后的输入图象的特征量(步骤S3)。将该特征量表示为一个整数序列(或向量)。整数的数目等于正规化图象的水平像素数。每个整数可以是从0到100的任何值。
使用输入字典的每个类别的特征量,对整个图象执行经连续DP的比较处理(步骤S4)。因此,得到关于每个类别和每个坐标的最佳对应的级别差,以及关于最佳对应的开始点的坐标信息。接着,根据信息,计算段点(步骤S5)。实际上,假定每个最佳对应由通过连接开始点和结束点所得到的路径,并将级别差定义为一个权来表示。在路径序列,查找需要最低成本的路径。所得到的路径序列作为查找结果,即,输出路径的开始点和结束点序列作为一个段点。在这种情况下,提供路径的类别为识别结果。
图4是根据本发明第二实施例的模式识别方法流程图。根据第二实施例,将用于识别的类别特征量与用于分段的类别特征量分开地存储在字典内。当通过比较用于识别的类别特征量与用于分段的类别特征量得到图象内的分段位置时,使用用于识别的类别特征量对分段位置执行模式识别处理。在图4,通过执行与如图3所示的步骤S1到S5相同的处理计算段点(步骤S11到S15)。接着,在段点分段图象(步骤S16),并根据识别分段模式内的一个字符的结果(步骤S17)确定该类别(步骤S18)。进一步,以最小成本的顺序输出路径的多个组合。接着,如上所示识别一个字符,并且将最佳识别结果定义为识别结果。
在上述实施例,在水平书写中不但可以使用来自上部而且可以使用来自底部的多至第n个外围特征的外围特征。也可以使用多至第n个外围特征的外围特征的一部分。在下面的实例,不但使用来自上部而且使用来自底部的主要和次要外围特征。
图5示出根据本发明实施例计算类别的外围特征的方法。在图5所示的实例,描述类别5,但是也可以类似地处理其他类别。在图5,类别5的封闭矩形的较下一侧称为较下Dk。将y轴设定为对应于较下Dk,并且将z轴设定为与y轴垂直。另外,允许构成类别5部分的沿水平方向的每个像素与y坐标对应,并且允许构成类别5部分的沿垂直方向的每个像素与z坐标对应。当扫描线从较下Dk的坐标y垂直延伸时,将到类别5的第一黑像素的距离定义为z1。假定类别5的封闭矩形的高度为dz,则通过下面公式integer of(z1/dz × 100)可得到类别5坐标y处的较下Dk的主要外围特征。
类似地,假定到一个白像素改变为一个黑像素的点处的距离为z2,则通过下面公式integer of(z2/dz × 100)可得到类别5坐标y处的较下Dk的次要外围特征。
如果类别5的封闭矩形的较上面一侧称为上限,则可以类似地获得来自类别5坐标y处的上限的主要和次要外围特征。
当获得类别5的坐标y处的较上和较下主要和次要外围特征时,允许4个值的集合对应于y轴上的每个点。此时,类别5的最左侧像素对应于y=0,而类别5的最右侧像素对应于y=y1。接着,对于y=0到y1,可以将通过排列y轴上的较上和较下主要和次要外围特征的四个值的集合得到的成分序列,定义为类别5的外围特征。
图6示出根据本发明实施例的类别5的外围特征计算结果。图6A示出来自较上Uk的主要外围特征。图6B示出来自较上Uk的次要外围特征。图6C示出来自较下Dk的主要外围特征。图6D示出来自较下Dk的次要外围特征。
当使用学习样本得到类别的特征量时,预定每个类别的水平像素数。下面,对于每个学习样本,按上述方法计算特征量。接着,放大或缩小图象,并且使整数值相同,以便特征量的四个整数集合的数目与每个类别的预定水平像素数匹配。
对于输入图象,设定输入图象的上限和下限,并且获得来自上限和下限的主要和次要外围特征,从而获得输入图象的外围特征。
在垂直书写中,多至第n个外围特征的外围特征不但沿右侧方向而且沿左侧方向。例如,可以使用来自图象右端和左端的主要和次要外围特征将一个类别与输入图象进行比较。
图7示出根据本发明实施例通过连续DP计算级别差的方法。在图7,假定输入包括连接字符257的模式作为输入图象,将存储在字典内的每个类别的特征量,与包括连接字符257的整个模式的特征量进行比较。
下面描述将输入字典的类别特征量内的类别5的特征量,与包括连接字符257的整个模式的特征量进行比较的情况。首先,假定沿类别5的水平方向的像素数dy为30,并且将类别5的外围特征Fk输入字典作为30个四整数集合的序列,允许这30个四整数集合(k0,k0’,k0”,k0”’),(k1,k1’,k1”,k1”’),…,(k29,k29’,k29”,k29”’)与从y=0到y=y1=29的坐标对应。在该实例,k0,k1,…,k29为来自类别5的上限的主要外围特征(对应于图6A),k0’,k1’,…,k29’为来自类别5的上限的次要外围特征(对应于图6B),k0”,k1”,…,k29”为来自类别5的下限的主要外围特征(对应于图6C),k0”’,k1”’,…,k29”’为来自类别5的下限的次要外围特征(对应于图6D)。
另外,假定沿包括连接字符257的模式的水平方向的像素数dx为86,则允许包括连接字符257的模式的左端LI与x=0对应,并且允许包括连接字符257的模式的右端RI与x=85对应。接着,提取包括连接字符257的模式的外围特征FI作为86个四整数集合的序列。允许这86个四整数集合(I0,I0’,I0”,I0”’),(I1,I1’,I1”,I1”’),…,(I85,I85’,I85”,I85”’)与从x=0到x=x1=85的坐标对应。在该实例,I0,I1,…,I85为来自包括连接字符257的模式的上限的主要外围特征。I0’,I1’,…,I85’为来自包括连接字符257的模式的上限的次要外围特征。I0”,I1”,…,I85”为来自包括连接字符257的模式的下限的主要外围特征。I0”’,I1”’,…,I85”’为来自包括连接字符257的模式的下限的次要外围特征。
下面,当获得x轴上的包括类别5的模式的外围特征FI,以及y轴上的类别5的外围特征Fk时,允许类别5的外围特征Fk的30个元素对应于连接字符257的外围特征FI的成分。在该对应中,获得最佳对应,并且可以将最佳对应内的x轴上的成分位置定义为连接字符257的分段位置的候选项。就这点而言,获得成分之间距离的累积值,并利用权正规化。接着,可以将正规化值的最小对应定义为最佳对应。
假定输入模式的成分和类别成分之间的对应称为一个路由,则通过选择表示过去路由内达到当前点(x,y)的最小级别差的路由,可获得达到当前点(x,y)的最佳路由。在类别和输入模式的对应中,假定未颠倒成分序列内的顺序,并且在采用形成序列部分的成分时未跳跃,则将达到当前点(x,y)的路由限定到图8所示的三个路径。
因此,当获得达到当前点(x,y)的最佳路由时,通过首先得到达到过去点的最佳路由,接着选择表示三个路由中从过去点达到当前点(x,y)的最小级别差的路由,获得达到当前点(x,y)的最佳路由。
实际上,在0≤x≤1和0≤y≤1的范围内,利用累积值的渐变公式(1)到(8),可得到达到当前点(x,y)的最佳路由的级别差的累积值q(x,y)。
渐变公式0≤x≤x1,0≤y≤y1q(—1,y)=q(0,y)=M …(1)其中M表示一个足够大的值q(x,0)=2d(x,0) …(2)q(x,1)=min{q(x—2,0)+2d(x—1,0)+d(x,1)…(3)q(x—1,0)+2d(x,0) …(4)q(x,0)+d(x,1)}…(5)q(x,y)=min{q(x—2,y—1)+2d(x—1,y)+d(x,y)…(6)q(x—1,y—1)+2d(x,y) …(7)q(x—1,y—2)+2d(x,y—1)+d(x,y)}…(8)其中,例如,可以通过下面的市街区距定义距离d(x,y)。d(x,y)=Σn=1,2|IPn,up(x)-kn,up(y)|+|IPn,down(x)-kn,down(y)...(17)]]>其中IPn,up(x)表示来自点x处的输入图象的上限的第n个外围特征,IPn,down(x)表示来自点x处的输入图象的下限的第n个外围特征,Kn,up(y)表示来自点y处的类别的上限的第n个外围特征,Kn,down(y)表示来自点y处的类别的下限的第n个外围特征。
可以利用欧几里德距离等定义距离d(x,y)。
在图8,假定到点P1的级别差的累积值为q(x—2,y—1),则到点P2的级别差的累积值为q(x—1,y—2),到点P3的级别差的累积值为q(x—1,y—1),到点P4的级别差的累积值为d(x—1,y),到点P5的级别差的累积值为d(x,y—1),以及到点P6的级别差的累积值为d(x,y),公式(6)对应于通过图8所示的路由P1→P4→P6得到到点P6的级别差的累积值q(x,y),公式(7)对应于通过图8所示的路由P3→P6得到到点P6的级别差的累积值q(x,y),公式(8)对应于通过图8所示的路由P2→P5→P6得到到点P6的级别差的累积值q(x,y)。
通过权的渐变公式(9)到(16)可以得到对应于累积值q(x,y)的权g(x,y)。
权的逐变公式g(—1,y)=g(0,y)=0 …(9)g(x,0)=2…(10)g(x,1)={g(x—2,0)+3 …(11)g(x—1,0)+2…(12)g(x,9)+1} …(13)g(x,y)={g(x—2,y—2)+3…(14)g(x—1,y—1)+2 …(15)g(x—1,y—2)+3}…(16)
其中权的渐变公式(9)到(16)分别对应于累积值的渐变公式(1)到(8)。
通过公式(1)到(16)获得级别差的累积值q(x,y)和权g(x,y),可以通过公式(17)获得到点(x,y)的最佳路由的输入图象与类别之间的级别差D(x,y)。
D(x,y)=q(x,y)/g(x,y)…(18)使用上述公式,对于图7所示的每个点(x,y),获得到点(x,y)的最佳路由的输入图象和类别之间的级别差D(x,y)。为获得当前点(x,y)的级别差D(x,y),必须得到过去点的级别差。因此,通过公式(1)将M的值设定为对应于x=—1和x=0的点的级别差。接着,以D1→D2→…→D6→…→D7→D8→…→D12→…→D37→D38…→D42的顺序获得级别差d(x,y)。
另外,例如,当得到当前点(x,y)的级别差D28时,到当前点(x,y)的路由可以是R1到R3的三条路由中的任何一条。通过替换用于公式(18)的公式(6)内的累积值q(x,y)和公式(14)内的权g(x,y),可以获得通过路由R1到当前点(x,y)的级别差D(x,y)。类似地,通过替换用于公式(18)的公式(7)内的累积值q(x,y)和公式(15)内的权g(x,y),可以获得通过路由R2到当前点(x,y)的级别差D(x,y)。进一步,通过替换用于公式(18)的公式(8)内的累积值q(x,y)和公式(16)内的权g(x,y),可以获得通过路由R3到当前点(x,y)的级别差D(x,y)。因此,在三条路由R1到R3,通过选择指示最小级别差的路由可以获得当前点(x,y)的级别差D28。当选择到当前点(x,y)的三条路由R1到R3中的一条时,输入所选择的路由。
图9是根据本发明实施例使用连续DP计算级别差的方法流程图。在图9,首先执行初始化过程(步骤21)。在初始化过程,在0≤y≤y1的范围内,设定q(—1,y)=q(0,y)=M,并且设定g(—1,y)=g(0,y)=0。接着,设定x=1(步骤s22),以及设定q(x,0)=2d(x,0),和g(x,0)=2(步骤S23)。然后,对于y=1,通过公式(3)到公式(5)获得累积值q(x,y),以及通过公式(11)到(13)获得对应于累积值q(x,y)的权g(x,y)。另外,在2≤y≤y1的范围内,通过公式(6)到公式(8)获得累积值q(x,y),以及通过公式(14)到(16)获得对应于累积值q(x,y)的权g(x,y)(步骤S24)。X值每增加1上述过程重复一次(步骤S25)直到x等于x1为止(步骤S26)。
在上述过程中,在0≤x≤1,以及0≤y≤y1的范围内可以获得到点(x,y)的最佳路由以及对应的级别差。当获得到点(x,y)的最佳路由时,通过逆向跟踪该路由可获得对应于点(x,y)的开始点(x0,y0)。该对应可以表示如下。
X0=Stc(x,y)Y0=Sty(x,y)如图10所示,通过逆向跟踪到对应于类别5的最右侧点Rk的点(x,y1)的最佳路由,可以查找对应于类别5的最左侧点Lk的点(st,0)。当点(st,0)对应于最左侧点Lk时,将x轴上的值st定义为坐标x处的类别5的开始点。
如上所述,通过将级别差定义为Sc(x,K)以及将开始点定义为St(x,K),可以如下获得类别K和坐标x的比较结果。
Sc(x,K)=D(x,dy—1)St(x,K)=Stx(x,dy—1)在上述过程中,当通过对应于连接字符257的水平方向上的点x的类别5的最右侧点Rk将级别差定义为最小时,可以获得对应于类别5的最左侧点Lk的连接字符257的水平方向上的点st,以及相应的级别差。
对包括连接字符257的模式执行上述过程以用于所有要识别的类别K。例如,假定要识别的类别K为0到9,执行上述过程用于所有类别0到9。接着,在0≤x≤x1的范围内,获得用于每个类别K的开始点St(x,K)和相应的级别差Sc(x,K)。
图11示出根据本发明实施例计算用于每个类别的开始点和相应的级别差的结果部分。在图11示出的实例,仅示出47≤x≤72的范围,省略了x的其他范围。另外,当级别差sc等于或大于一个预定的阈值时,其由xx表示。在图11,例如,当x=60时,尽管将开始点st设定为x轴上的任何点,对于类别0,1,和4,级别差sc也不小于一个预定的阈值。对于类别2,当通过设定开始点st=40将类别2的最右侧点设定为点x=60,以及相应的级别差sc=67时,级别差sc最小(在这种情况下,该操作对应于将类别2的最左侧点设定在点x=40)。例如,对于类别5,当通过设定开始点st为33将类别5的最右侧点设定为点x=60,以及相应的级别差sc=30时,级别差sc最小。
图12示出从图11所示的计算结果查找分段位置的路由的方法。在图12,假定要识别的类别K为0到9,则要分段的连接字符257的模式的水平方向像素数w1为86,则获得开始点st和相应的级别差sc以用于0≤x≤x1=85范围内的所有类别0到9。在这种情况下,例如,考虑连接字符257模式的最右侧点处的点x=85(下文将该点称为初始基点)。接着,检查是否可以在对应于点x=85的级别差sc检测到等于或小于阈值TH的级别差sc。在该实例,如果将阈值TH设定为,例如,35,则类别7的级别差sc为25,从而检测级别7具有等于或小于阈值TH 35的级别差sc。当在点x=85处检测到类别7,则检查对应于点d=85处的类别7的开始点。因此,由于点x=85处的类别7的开始点st为62,则从开始点st=62获得连接字符257模式的分段位置。当对应于类别7的模式的最右侧点的分段位置设定为x=85,并且对应于类别7的模式的最左侧点的分段位置设定为x=62时,开始点st=62指示最小级别差sc。另外,相应的级别差sc为25。因此,假定连接字符257模式的下一个分段位置处于从x=st=62向后预定值th的范围。例如,如果预定值th=2,则下一个分段位置的查找范围设定为x=60到62,并且检查等于或小于阈值TH的级别差sc是否存在于对应于点x=60到62的级别差sc中。由于点x=60处的类别5的级别差sc为30,所以检测等于或小于阈值TH=35的级别差sc的类别5。当在点x=60检测到类别5时,将坐标x=60定义为连接字符257模式的下一个分段位置(下文将该点称为一个基点)。产生连接x=85的初始分段位置处的点与x=60的下一个分段位置处的点的路径P1。
当产生路径P1时,检查对应于点x=60处的类别5的开始点st。因此,表明点x=60处的类别5的开始点st为33,从开始点st=33得到连接字符257的下一个分段位置。因此,下一个分段位置的查找范围为x=31到33,并且检查等于或小于阈值TH的级别差sc是否存在于对应于点x=31到33的级别差sc中。由于点x=31的类别2的级别差sc为35,所以检测等于或小于阈值TH=35的级别差sc的类别2。当检测点x=31处的类别2时,将坐标x=31定义为连接字符257的下一个分段位置。另外,产生连接x=60的分段位置处的点与x=31的下一个分段位置处的点的路径P2。
当产生路径P2时,检查对应于点x=31处的类别2的开始点st。结果是,由于表明点x=31处的类别2的开始点st为7,从开始点st=7得到连接字符257模式的下一个分段位置。假定在x=7之前的范围内不存在对应于类别0到9的模式,则将连接字符257模式的分段位置定义为点x=7(下文将该点称为源点)。接着,产生连接x=31的分段位置处的点与x=7的下一个分段位置处的点的路径P3,从而结束分段过程。
在上述过程,可以在2和5,以及5和7之间的边界分段连接字符257的模式。当获得用于连接字符257模式的路径P1到P3时,通过考虑路径P1到P3的权可以评价通过执行经路径P1→P2→P3的分段处理所得到的分段位置。作为路径P1到P3的权,可以使用对应于路径P1到P3的分段的每个模式和对应于每个模式的类别之间的级别差sc。例如,路径P1的权为从x=85的点的类别7的级别差sc所得到的25,路径P2的权为从x=60的点的类别5的级别差sc所得到的30,以及路径P3的权为从x=31的点的类别2的级别差sc所得到的35。当得到路径P1到P3的权时,将路径P1到P3的全部权q=25+30+35=90除以路径P1到P3的数目b=3所得到的值v=90/3=30定义为分段位置评价值。
图13是根据本发明实施例计算分段位置的方法流程图。在图13,首先执行初始基点选择过程(步骤S31)。在该初始基点选择过程,考虑对应于输入模式的最右侧点的坐标x=dx—1输入的级别差Sc(dx—1,K)。以从级别差Sc(dx—1,K)中最小到最大的顺序排列类别K,并且从类别K的集合选择级别差Sc(dx—1,K)内的m个最小类别。假定m个最小类别为K1,K2,…,Km,则将初始基点定义为(dx—1,K1),(dx—1,K2),…,(dx—1,Km)。字符dx表示沿输入模式的水平方向的像素数。
接着,执行路径产生过程(步骤S32)。对于该路径产生过程内的每个初始基点,输入图象和每个类别之间的对应被认为是连接开始点和结束点的路径,并且将该对应的级别差定义为路径的权。另外,将一个类别的值增加到该路径。
图14是根据本发明实施例的路径产生过程的流程图。在图14,对于坐标x和对应于类别K的初始基点(x,K)(步骤S41),检查级别差sc=Sc(x,K)和开始点sc=St(x,K)(步骤S42)。接着,对于x=st,查找基点(步骤S43)。对于(x,Ki),基点指其Sc(x,Ki)表示Sc(x,Ki)<TH点内的最小值的点,并且在st—th≤x≤st范围内St(x,Ki)的值在所有类别Ki内恒定。如果基点数目为0(步骤S44),则进入具有开始点st,结束点x,权sc,以及类别K的路径(步骤S45),从而结束(返回)该过程。另一方面,如果基点数目为a,则基点为(xi,ki)(i=1,…,a)(步骤S44),接着进入具有开始点xi,结束点x,权sc,以及类别K的路径(步骤S46)。然后,回到步骤S41,对于每个基点执行类似的过程。
图15是根据本发明实施例的基点查找过程的流程图。在图15,初始化BPcheck, BPscore,BPend,以及a(步骤S51)。BPcheck,BPscore,和BPend中的每一个为一个dx阵列。BPcheck表示是否已检查坐标x,并且初始值全部为0。BPscore包含级别差sc的值,并且初始值全部为—1。BPend包含一个坐标,并且初始值全部为st。整数a表示检测基点的数目,并且初始值为0。
下面,将K设定为0(步骤S52),并且当K<max(步骤S53)时将x设定为st(步骤S54),其中max表示要识别类别K的数目。当不满足x≥st—th以及x≥0(步骤S55)的条件时,将K值增加1(步骤S62),并且控制返回到步骤S53。当x≥st—th以及x≥0(步骤S55)时,检查是否sc(x)=Sc(x,K),st(x)=st(x,K),以及sc(x)<TH(步骤S56)。如果不满足条件sc(x)<TH,则将x减少1(步骤S61),并且控制返回步骤S55。另一方面,如果sc(x)<TH,则确定是否BPcheck(st(x))>0(步骤S57)。如果不满足条件BPcheck(st(x))>0,则BPcheck(st(x))=1,并且将a的值增加1(步骤S58),并且控制进入到步骤S60。另一方面,如果BPcheck(st(x))>0,则确定是否满足条件sc(x)<BPscore(st(x))或sc(x)=Bpscore(st(x))以及x<BPend(st(x))(步骤S59)。如果不满足步骤S59中的条件,则控制进入到步骤S61。另一方面,如果满足步骤S59中的条件,则BPscore(st(x))=sc(x),BPend(st(x))=x(步骤S60)。对于满足条件x≥st—th,以及x≥0的坐标x处所识别的所有类别K执行上述过程。
图16示出根据本发明实施例产生一个路径的实例。在图16,例如,假定在x1=dx—1点处选择四个初始基点B1到B4。作为检测初始基点B1的基点B5和B11的结果,得到两个路径P19→P20的路由。作为检测初始基点B2的基点B6,B9和B13的结果,得到三个路径P17→P18→P13的路由。作为检测初始基点B3的基点B7,B9,和B13的结果,得到三个路径P11→P12→P13的路由。作为检测初始基点B4的基点B8,B10,和B12的结果,得到三个路径P14→P15→P16的路由。
对路径P11到P20中的每一个指定一个包括开始点,结束点,权,以及类别的属性。例如,将开始点xf,结束点x1,对应于初始基点B1的类别的级别差sc,以及对应于初始基点B1的类别指定为路径P11的属性。另外,将开始点xd,结束点xf,对应于初始基点B7的类别的级别差sc,以及对应于初始基点B7的类别指定为路径P12的属性。
接着,查找最佳路由(步骤S33)。在查找最佳路径时,在上述处理产生的路径集合内查找最佳路由。首先,对于每个坐标x,列出具有坐标x的开始点的路径Pi。这时,对于这些路径Pi,开始点,结束点,权,以及类别之间的对应函数为st(Pi),ed(Pi),sc(Pi),以及ca(Pi)。另外,假定坐标t(>x)处的权的累积值为q(t),并且表示所通过的路径数的值为b(t),则设定下式。
(q(ed(Pi))+sc(Pi))/(b(ed(Pi)+1) …(19)选择指示最小值的路径Pi,并且将路径Pi设定为Pi=arg(x)。
接着,设定下面的等式。
q(x)=q(ed(Pi=arg(x))+sc(Pi=arg(x))…(20)b(x)=b(ed(Pi=arg(x))+1…(21)在对于所有坐标执行上述计算之后对于每个坐标内的源点计算下面的等式v(x)。
V(x)=q(x)/b(x)…(22)这里一个源点指这样一个点,在该点处存在具有坐标x作为开始点的一个或多个路径,以及在该点处的路径不具有作为结束点的坐标x。以使用评价值v(x)的顺序排列源点,并且将表示最小评价值v(x)的坐标定义为x=Origin。当得到Origin时,通过从Origin逆向跟踪各路径得到最短路由的路径序列。然后,可以提供指定为路径的结束点和类别来分别作为一个段点和字符识别结果。
例如,在图16,可以通过两个路由P11→P12和P17→P18到达基点B9。在这种情况下,通过等式(19)执行计算直到t=xd为止,并且选择最小结果值。假定选择路由P11→P12,得到路由P19→P20作为到源点B11的路由,得到路由P14→P15→P16作为到源点B12的路由,以及得到路由P11→P12→P13作为到源点B13的路由。当得到源点B11到B13时,选择由等式(22)得到最小评价值v(x)。如果选择源点B12,则将对应于源点B12的坐标xa定义为Origin。通过从Origin经P16逆向跟踪路径P14,可以确定段点xc和xe。另外,指定给路径P14到P16的类别可以为相应分段位置的识别结果。
如上所述,根据本发明,整个图象可以与其中根据图象特征不能相互清楚地分段每个字符的字符连接模式的每个类别进行比较。因此,类别和分段位置在所得到的比较结果中恒定,并且可以得到匹配类别和分段位置的组合,从而正确地分段和识别一个字符。另外,通过组合经比较类别的分段处理和字符识别处理,可以以较高准确度执行字符识别处理。
图17是根据本发明实施例由软件实现模式分段处理和模式识别处理的信息处理装置的配置方框图。在图17,11是用于执行整个处理的中央处理单元(CPU),12是只读存储器(ROM),13是随机存取存储器(RAM),14是一个通信接口,15是一个通信网络,16是一个输入/输出接口,17是一个显示文档数据等的显示器,18是一个打印文档数据的打印机,19是一个暂存从读取输入图象的扫描仪读取的文档数据等的存储器,21是一个键盘,22是一个诸如鼠标之类的指向设备,23是一个驱动存储介质的驱动器,24是一个硬盘,25是一个IC存储器卡,26是一个磁带,27是一个软盘,28是一个诸如CD—ROM,DVD—ROM等之类的光盘,以及29是一个路径。
可以将用于分段和识别一个模式的程序,类别特征量等存储在一个诸如硬盘24,IC存储器卡25,磁带26,软盘27,光盘28等的存储介质上。通过将用于分段和识别一个模式的程序以及类别特征量从存储介质读取到RAM13,可以分段并识别一个模式。另外,用于分段和识别一个模式的程序可以存储在ROM12中。
进一步,可以经通信接口14从通信网络15检索用于分段和识别一个模式的程序,类别特征量,输入图象特征量等。作为连接到通信接口14的通信网络15,可以使用例如,一个无线通信网络,LAN(局域网),WAN(广域网),因特网,模拟电话网,数字电话网(ISDN综合业务数字网),PHS(个人手持系统),卫星通信等。
当启动用于分段或识别一个模式的程序时,CPU11从诸如硬盘24之类的存储介质,或通信网络15等获得类别特征量。另外,经从扫描仪20读取的输入图象,或从经通信网络15传输的输入图象,提取一个输入图象的特征量。同时相对于类别特征量改变相应的输入图象的特征量部分,也可以将类别特征量与输入图象特征量进行比较。作为比较结果,当从输入图象获得对应于类别特征量的部分时,将对应于类别特征量的部分定义为输入图象的分段位置。当得到输入图象的分段位置时,将比较中所用的类别定义为从输入图象分段的模式的识别结果。进一步,为获得识别结果,可以识别从输入图象分段的模式。当得到一个识别结果时,该识别结果可以输出到显示器17和打印机18,或经通信网络15传输。
图18示出根据本发明实施例提供用于分段和识别一个模式的软件程序等的方法。通过在下面三种方法中选择的一种提供一个程序,等。
(a)如图17所示,将一个程序提供为安装在一个计算机的信息处理装置30内。在这种情况下,程序可以是,例如,在交付之前预安装。
(b)将程序提供为存储在便携式存储介质31。在这种情况下,将存储在便携式存储介质31的程序等安装在计算机的信息处理单元30的外部存储设备中。
(c)从网络32内的服务器33提供程序。在这种情况下,计算机的信息处理装置30通过下载存储在服务器33内的程序等,可以基本得到程序。
如上所述,根据本发明,可以通过根据类别特征量和图象特征量之间的比较结果,考虑类别的整个形式和结构以及模式的外形或不均匀性分段一个模式,来分段图象的模式的处理,从而提高模式分段准确性。进一步,可以从图象共同分段对应于类别特征量的模式,从而防止在多个点分段对应于一个类别的模式。
进一步,根据本发明的一个方面,在未将类别的两端固定到字符串图象的两端的情况下,通过比较类别与其类别的两端点对应于字符串图象的各个点的字符串图象,即使字符串图象出现失真和变形,也可以保持类别特征量和字符串图象的字符模式特征量之间的比较准确性。
另外,根据本发明的另一个方面,通过允许类别的一端对应于字符串图象的成分的坐标,以及通过将对应于类别一端的字符串图象的成分的坐标输入表中,可以确定字符串图象的分段位置,并且可以从表中轻易获得字符串图象的下一个分段位置,从而可以从字符串图象有效提取另一个字符区域。
根据本发明的进一步的方面,可以通过检查一个区域是否对应于要识别的任何类别,确定一个分段位置是否已被准确分段。因此,甚至当从一个图象获得多个分段位置时,也可以从多个区域获得最佳分段位置。
根据本发明进一步的方面,通过分开设定用于类别分段的特征量以及用于类别识别的特征量,可以使用类别分段的特征量分段一个模式,并且使用类别识别的特征量识别分段模式。因此,可以确定使用不同的特征量是否可以正确地识别模式。另外,当执行一个分段处理时,可以使用适合于分段的特征量,并且当执行识别处理时,可以使用适合于识别的特征量,从而提高分段准确性和识别准确性。
根据本发明进一步的方面,当使用类别分段的特征量分段模式时,将该类别定义为该模式的识别结果,从而仅通过分段来自图象的模式可获得模式的识别结果,并缩短获得模式识别结果的时间。
权利要求
1.一种模式分段装置,包括一个提取图象特征量的特征量提取单元;一个设定类别特征量的特征量设定单元;一个比较类别特征量与图象特征量特征量比较单元;和一个分段对应于图象类别特征量的部分的分段单元。
2.如权利要求1所述的装置,其中所述特征量比较单元包括产生类别特征量和图象特征量之间的对应的对应产生单元,并比较类别特征量和图象特征量。
3.如权利要求2所述的装置,其中所述特征量比较单元包括一个比较类别特征量和对应于该对应的图象特征量之间的级别差的级别差计算单元;和一个从该对应提取表示最低级别差的最佳对应的最佳对应提取单元,其中所述分段单元分段表示对应于等于或小于预定值的最佳对应的级别差的部分。
4.如权利要求3所述的装置,进一步包括一个利用所述分段装置产生分段区域的组合以便所述分段单元分段的每个模式可以对应于要识别的任何类别的组合单元;和一个通过使组合中表示较小级别差累积值的组合具有高优先级来确定图象的分段区域的分段区域确定单元。
5.一种模式分段装置,包括特征量提取单元,提取字符串图象的特征量作为沿字符串阵列方向的成分序列;特征量设定单元,沿类别阵列方向设定类别的特征量;对应单元,使类别成分序列内的最后成分与字符串图象的每个成分相对应;查找单元,通过使具有字符串图象成分的类别剩余成分序列对应该类别的成分序列的最后成分,来查找对应于该类别成分序列的第一个成分的字符串图象的一个成分;级别差计算单元,计算字符串图象和在成分序列内相互对应的类别之间的级别差;和鉴别单元,根据级别差鉴别字符串图象内的一个字符的分段位置。
6.如权利要求5所述的装置,其中所述级别差是从类别成分序列内的第一成分到最后成分的成分之间的距离的累积结果得到的。
7.如权利要求6所述的装置,其中所述查找单元根据表示成分之间的距离的最小累积值的对应,在过去成分的对应中进行当前成分的对应。
8.如权利要求5所述的装置,进一步包括输入单元,输入一组对应于类别成分序列的第一成分的字符串图象的成分和沿字符串图象阵列方向的所有成分的对应级别差;查找单元,检测一个表示等于或小于由对应于字符串图象的分段位置的每个成分规定的级别差内的一个预定值的级别差;获取单元,从所述输入单元得到对应于所述查找单元检索的级别差的字符串图象的成分;和计算单元,根据从所述输入单元得到的字符串图象的成分,计算该字符串图象的下一个分段位置。
9.如权利要求8所述的装置,进一步包括路径生成单元,生成连接字符串图象的分段位置与所述计算单元计算的字符串图象的下一个分段位置的路径;属性指定单元,指定分段位置的属性,所述查找单元检索的级别差,以及作为该路径属性的对应于该级别差的类别;组合生成单元,通过经由该路径交换字符串图象生成该路径的组合;评价单元,根据指定给该路径的级别差的累积结果评价该路径的组合;选择单元,根据评价结果选择路径的组合;和段点确定单元,确定指定给所述选择单元选择的路径的坐标作为字符串图象的段点。
10.如权利要求9所述的装置,进一步包括识别结果输出单元,定义指定给所述选择单元选择的路径的类别作为该段点处分段的模式的识别结果。
11.一种模式识别方法,包括设定类别的特征量;查找对应于图象内的类别的特征量的区域;和分段通过查找处理从图象得到的区域。
12.如权利要求11所述的方法,其中使用连续DP方法将所述类别特征量与图象的整个特征量进行比较。
13.如权利要求11所述的方法,其中所述特征量是多至第n(n≥1)个外围特征的外围特征。
14.如权利要求11所述的方法,其中从图象分段的每个模式与要识别的任何一个类别相关;选择要识别的类别与表示最小总级别差的对应模式的组合。
15.一种对模式进行分段的方法,包括从图象分段对应于类别特征量的第一分段区域;和当不能从图象的剩余区域分段对应于类别特征量的第二分段区域时改变第一分段区域。
16.一种字符分段方法,包括提取字符串图象的特征量作为沿字符串阵列方向的成分序列;设定类别特征量作为沿类别阵列方向的成分序列;相对于字符串图象成分序列独立扫描类别成分序列内的第一成分和最后成分;获取类别成分序列和字符串图象成分序列之间的对应;计算对应于该对应的字符串图象和类别之间的级别差;和根据级别差鉴别字符串图象中是否存在对应于该类别的模式。
17.一种模式识别方法,包括设定类别特征量;查找图象内一个对应于该类别特征量的区域;分段通过查找处理从图象获得的区域;和设定分段处理中所用的类别作为从图象分段区域的识别结果。
18.一种模式识别方法,包括设定用于分段一个类别的特征量;设定用于类别识别的特征量;根据分段特征量分段一个图象的模式;和根据识别特征量识别从图象分段的模式。
19.一种存储程序的计算机可读存储介质,该程序用于实现设定一个类别的特征量;从图象查找对应于类别特征量的模式;和分段通过查找处理从图象得到的模式。
20.一种模式识别装置,包括特征量提取装置,用于提取图象特征量;特征量设定装置,用于设定类别特征量;特征量比较装置,用于比较类别特征量与图象特征量;和分段装置,用于从图象分段对应于类别特征量的部分。
21.一种模式分段装置,包括特征量提取装置,用于提取字符串图象的特征量作为沿字符串阵列方向的成分序列;特征量设定装置,用于沿类别阵列方向设定一个类别特征量;对应装置,使类别成分序列内的最后成分与字符串图象的每个成分相对应;查找装置,通过使具有字符串图象成分的类别剩余成分序列对应该类别的成分序列的最后成分,来查找对应于该类别成分序列的第一个成分的字符串图象的一个成分;级别差计算装置,计算字符串图象和在成分序列内相互对应的类别之间的级别差;和鉴别装置,根据级别差鉴别字符串图象内的一个字符的分段位置。
全文摘要
一种模式分段装置和模式识别装置可以提高字符连接模式的分段准确性。该模式分段装置包括提取图象特征量的特征量提取单元,设定一个类别特征量的特征量设定单元,比较类别特征量与图象特征量的特征量比较单元,和根据比较结果从图象分段对应于类别特征量部分的分段单元。
文档编号G06K9/34GK1279449SQ0012040
公开日2001年1月10日 申请日期2000年7月6日 优先权日1999年7月6日
发明者武部浩明, 堀田悦伸, 直井聪 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1