邮政编码数字串识别方法

文档序号:6520621阅读:198来源:国知局
专利名称:邮政编码数字串识别方法
技术领域
本发明涉及邮政编码数字串识别方法。
背景技术
光学字符识别技术经过几十年的发展,逐步走向实用,然而人们还是希望识别系统能够达到更好的识别性能。为了提高识别率和置信度,人们越来越倾向于采用多信息源、多特征提取和多种识别方法的组合来实现高性能的识别系统。
现有的邮政编码数字串多分类器进行组合的一种简单易行方法就是投票表决,如多数票规则和完全一致规则等。但这些表决规则并没有考虑到各分类器本身的特性,实行的是“一人一票”的原则。而实际上由于各个分类器使用的特征不同,基于的原理和方法不一样,或者训练过程使用的样本不尽相同,每个分类器的识别性能有所差别,有一定的互补性,即各个分类器对每个类别的识别能力有一定的差别。
一般的多分类器组合关注的是对单个字符识别结果的组合,其目的是达到对单字识别效果的最优化,其原理如

图1所示,输入待识样本Xn经过K个识别分类器识别后,得到K个识别结果Sn(k)(k=1,2,..,K),经过多分类器识结果组合决策后,获得最终识别结果Cn。对多分类器的组合时不考虑字符串的前后关系,其将字符串中每个字符的组合识别序列(C1…Cn…CN)送到一个字典库,由字典库检验字符串的识别结果是否有效,如图2所示。
在某些实际应用场合,希望获得字符串的整体识别效果最优,而不仅仅是单个字符串的识别效果最优,因为单个字符串的识别效果最优不一定表示字符串的整体识别效果最优。比如说,在邮政编码的识别中,六个数字同时识别正确方可供自动信函分拣机使用,要求对整个邮政编码数字串的识别效果达到最佳。

发明内容
本发明的目的在于提供一种基于知识库的多分类器组合的邮政编码数字串识别方法。为达上述目的本发明采用如下技术方案,一种邮政编码数字串识别方法,包括如下步骤(1)将N个邮政编码字符序列的图象X=(x1…xn…xN)分别输入到K个独立的单字识别分类器ek,其中N和K为大于1的正整数;对于中国邮政编码数字字符串而言,N=6。
(2)每个所述单字识别分类器ek将输入的字符图象xn识别为邮政编码{c1…cm…cM}中的一个,或者拒识,表示为c(M+1),其中M为大于1的正整数;邮政编码{c1…cm…cM}为数字0至9中的任意一个,即有M=10。
(3)计算当识别结果为m’时输入模式为cm的概率P(x∈Cm/ek(x)=m’);(4)根据P(x∈Cm/ek(x)=m’)计算X的识别结果为D=(d1,d2,…,dN)的概率p(D|X);其中D=(d1,d2,…,dN)是邮政编码字典库Ω中的一个有效邮政编码;(5)根据概率p(D|X)决定输入模式的识别结果。
作为本发明的一种优选方式,所述步骤(3)中,识别结果为m’时输入模式为cm的概率P(x∈Cm/ek(x)=m’)的计算方法可以是如下方法根据所述单字识别分类器ek识别结果进行样本统计,形成所述单字识别分类器ek识别情况的混乱矩阵CMk=n11(k)···n1M(K)n1(M+1)(k)···············nij(k)··················nM1(k)···nMM(k)nM(M+1)(k)k=1,2,···,k]]>其中nmm’(k)表示所述单字识别分类器ek将Cm类中的样本识别为Cm’类的数量,其表示的含义为(a)当m=m’,ek正确识别Cm类中样本的数量;(b)当m’=M+1,ek拒识Cm类中样本的数量;(c)当m≠m’且m’≠M+1,ek将Cm类中的样本错误识别为Cm’类的数量,所述单字识别分类器ek识别结果为m’=ek(x)的样本总数为nm′(k)=Σi=1Mnim′(k),m′=1,2,···,M+1]]>在所述单字识别分类器ek的识别结果为m’的条件下,样本来自Cm类的概率为P(x∈Cm/ek(x)=m′)=nmm′(k)nm′(k)=nmm′(k)Σm=1Mnmm′(k),m,=1,2,···,M]]>作为本发明的另一优选方式,所述步骤(4)中,根据P(x∈Cm/ek(x)=m’)计算X的识别结果为D=(d1,d2,…,dN)的概率p(D|X)的方法为假设生成混乱矩阵CMk的样本足够多并且反映了识别结果的空间分布,将CMk作为分类器组合时的的先验知识,即以P(x∈Cm/ek(x)=m’)作为投票表决时的得分,x∈Cm的概率表示为
s(k)(x∈Cm)=P(x∈Cm/ek(x)=m’)i=1,2,...,M假设邮政编码D出现的频度表示为f(D),则X来自D的得分按下式计算s(dn|xn)=1kΣk=1ks(k)(xn∈Cdn)]]>S(D|X)=Πn=1Ns(dn|xn)=Πn=1NΣk=1Ks(k)(xn∈Cdn)]]>最后X属于D的概率为p(D|X)=ef(D)·S(D|X)。
作为本发明的再一优选方式,所述步骤(5)中,根据概率p(D|X)决定输入模式的识别结果的方法为,如果存在D属于Ω,并且p(D|X)为识别结果中的最大值,并且p(D|X)>α,则X=D,即识别结果为D;其中α是在拒识与错识之间取得折中的一个阈值(α=0.5);如果存在D属于Ω,并且p(D|X)为识别结果中的最大值,存在D’属于Ω,并且p(D’|X)的值仅次于最大值p(D|X),如果p(D|X)-p(D’|X)>β,这里β是常数(β=0.2),则X=D,即识别结果为D。
本发明邮政编码数字串识别方法,其识别表决规则根据各分类器本身的特性,发挥了各个分类器的优点。通过对大量样本的统计获得每个分类器识别性能的先验知识,将其作为投票表决的依据,使识别组合结果达到高识别率和高置信度。提高了邮政编码数字串识别的准确率。
以下结合附图及实施例进一步说明本发明。
图1为现有技术中多分类器组合单字识别方框2为现有技术中字典库对识别结果进行校验的方框3为本发明方法原理方框图具体实施方式
如图3所示,待识别序列X=(x1...xn...xN)经过单字识别分类器ek识别后,结合字典库及出现的概率进行决策,最后获得识别结果序列(d1,d2,…,dN)。
一种邮政编码数字串识别方法,包括如下步骤
(1)将N个邮政编码字符序列的图象X=(x1...xn...xN)同时输入到K个独立的单字识别分类器。对中国邮政编码数字字符串而言,N=6。
(2)每个单字识别分类器ek对输入的字符图象xn进行识别,获得识别结果,假设分类器将输入模式识别为{c1...cm...cM}类中的一个,或者拒识。对于邮政编码数字而言,M=10,即其识别结果可能是{0,1,…,9}中的任意一个。
(3)当识别结果为m’时,输入模式可能为cm的概率用如下方式表示首先利用大量样本统计分类器ek的识别情况,从而形成有关该分类器识别情况的混乱矩阵CMk=n11(k)···n1M(k)n1(M+1)(k)···············nij(k)··················nM1(k)···nMM(k)nM(M+1)(k)k=1,2,···,k]]>其中nmm’(k)表示分类器ek将Cm类中的样本识别为Cm’类的数量,表示的含义为(a)如果m=m’,ek正确识别Cm类中样本的数量;(b)如果m’=M+1,ek拒识Cm类中样本的数量;(c)如果m≠m’且m’≠M+1,ek将Cm类中的样本错误识别为Cm’类的数量。对分类器ek而言,识别结果为m’=ek(x)的样本总数为nm′(k)=Σi=1Mnim′(k),m′=1,2,···,M+1]]>在分类器ek的识别结果为m’的条件下,样本来自Cm类的概率可以用条件概率来表示P(x∈Cm/ek(x)=m′)=nmm′(k)nm′(k)=nmm′(k)Σm=1Mnmm′(k),m,=1,2,···,M]]>如果生成混乱矩阵CMk的样本足够多并且反映了模式空间的分布,该混乱矩阵反映了分类器ek的识别情况,将CMk作为分类器组合时的的先验知识,即以P(x∈Cm/ek(x)=m’)作为投票表决时的得分,x∈Cm的概率表示为s(k)(x∈Cm)=P(x∈Cm/ek(x)=m’) i=1,2,...,M(4)计算X属于某一邮政编码字符串D=(d1,d2,…,dN)的概率假设D=(d1,d2,…,dN)是邮政编码字典库Ω中的一个有效邮政编码,并且假设对某个特定的应用场合而言,邮政编码D出现的频度表示为f(D)。
X来自D的得分按下式计算s(dn|xn)=1kΣk=1ks(k)(xn∈Cdn)]]>S(D|X)=Πn=1Ns(dn|xn)=Πn=1NΣk=1Ks(k)(xn∈Cdn)]]>最后X属于D的可能性表示为p(D|X)=ef(D)·S(D|X)(5)采用如下规则决定输入模式的最优识别结果规则1如果存在D属于Ω,并且p(D|X)=maxD∈Ωp(D|X)]]>and p(D|X)>α则X=D其中α是一个阈值,用于在拒识与错识之间取得折中(α=0.5),规则2如果存在D属于Ω,并且p(D|X)=maxD∈Ωp(D|X)]]>存在D’属于Ω,并且p(D,|X)=maxD′∈Ω-Dp(D′|X)]]>以及p(D|X)-p(D’|X)>β则X=D这里β是常数(β=0.2)。
权利要求
1.一种邮政编码数字串识别方法,包括如下步骤(1)将N个邮政编码字符序列的图象X=(x1…xn…xN)分别输入到K个独立的单字识别分类器ek,其中N和K为大于1的正整数;(2)每个所述单字识别分类器ek将输入的字符图象xn识别为邮政编码{c1…cm…cM}中的一个,或者拒识,表示为c(M+1),其中M为大于1的正整数;(3)计算当识别结果为m’时输入模式为cm的概率P(x∈Cm/ek(x)=m’);(4)根据P(x∈Cm/ek(x)=m’)计算X的识别结果为D=(d1,d2,…,dN)的概率p(D|X);其中D=(d1,d2,…,dN)是邮政编码字典库Ω中的一个有效邮政编码;(5)根据概率p(D|X)决定输入模式的识别结果。
2.根据权利要求1所述的邮政编码数字串识别方法,其特征在于所述步骤(1)中,邮政编码字符序列的个数N为6;所述步骤(2)中,邮政编码{c1…cm…cM}为数字0至9中的任意一个。
3.根据权利要求1或2所述的邮政编码数字串识别方法,其特征在于所述步骤(3)中,识别结果为m’时输入模式为cm的概率P(x∈Cm/ek(x)=m’)的计算方法为,根据所述单字识别分类器ek识别结果进行样本统计,形成所述单字识别分类器ek识别情况的混乱矩阵CMk=n11(k)···n1M(k)n1(M+1)(k)···············nij(k)··················nM1(k)···nMM(k)nM(M+1)(k)k=1,2,···,K]]>其中nmm’(k),表示所述单字识别分类器ek将Cm类中的样本识别为Cm’类的数量,其表示的含义为(a)当m=m’,ek正确识别Cm类中样本的数量;(b)当m’=M+1,ek拒识Cm类中样本的数量;(c)当m≠m’且m’≠M+1,ek将Cm类中的样本错误识别为Cm’类的数量,所述单字识别分类器ek识别结果为m’=ek(x)的样本总数为nm′(k)=Σi=1Mnim′(k)m′=1,2,...,M+1]]>在所述单字识别分类器ek的识别结果为m’的条件下,样本来自Cm类的概率为P(x∈Cm/ek(x)=m′)=nmm′(k)nm′(k)=nmm′(k)Σm=1Mnmm′(k)m′=1,2,···,M]]>
4.根据权利要求1或2所述的邮政编码数字串识别方法,其特征在于所述步骤(4)中,根据P(x∈Cm/ek(x)=m’)计算X的识别结果为D=(d1,d2,…,dN)的概率p(D|X)的方法为假设生成混乱矩阵CMk的样本足够多并且反映了识别结果的空间分布,将CMk作为分类器组合时的的先验知识,即以P(x∈Cm/ek(x)=m’)作为投票表决时的得分,x∈Cm的概率表示为s(k)(x∈Cm)=P(x∈Cm/ek(x)=m’)i=1,2,...,M假设邮政编码D出现的频度表示为f(D),则X来自D的得分按下式计算s(dn|xn)=1KΣk=1Ks(k)(xn∈Cdn)]]>S(D|X)=Πn=1Ns(dn|xn)=Πn=1NΣk=1Ks(k)(xn∈Cdn)]]>最后X属于D的概率为p(D|X)=ef(D)·S(D|X)。
5.根据权利要求1或2所述的邮政编码数字串识别方法,其特征在于所述步骤(5)中,根据概率p(D|X)决定输入模式的识别结果的方法为,如果存在D属于Ω,并且p(D|X)为识别结果中的最大值,并且p(D|X)>α,则X=D,即识别结果为D;其中α是在拒识与错识之间取得折中的一个阈值;如果存在D属于Ω,并且p(D|X)为识别结果中的最大值,存在D’属于Ω,并且p(D’|X)的值仅次于最大值p(D|X),如果p(D|X)-p(D’|X)>β,这里β是常数,则X=D,即识别结果为D。
6.根据权利要求5所述的邮政编码数字串识别方法,其特征在于所述α和β的取值分别为0.5和0.2。
全文摘要
一种邮政编码数字串识别方法,包括如下步骤将N个邮政编码字符序列的图象X=(x
文档编号G06K9/00GK1645408SQ200510023550
公开日2005年7月27日 申请日期2005年1月25日 优先权日2005年1月25日
发明者吕岳, 邬建中, 文颖, 原晓梅 申请人:邮政科学上海研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1