基于多分类器融合的笔迹鉴别方法

文档序号:6341739阅读:183来源:国知局

专利名称::基于多分类器融合的笔迹鉴别方法
技术领域
:本发明涉及一种基于多分类器融合的笔迹鉴别方法,属于基于笔迹的计算机身份认证
技术领域
。背景内容笔迹鉴别(HandwritingIdentification)是根据不同人的书写笔迹来判断书写人身份的一种技术。一对多的笔迹鉴别是从对应不同书写人的多份参考样本笔迹中找出与待检验笔迹的书写风格最接近的样本。计算机笔迹鉴别方法根据所考察的对象可分为两大类文本独立(Textind印endent)方法和文本依存(Textd印endent)方法。己有的文本独立方法主要是提取整幅笔迹的布局特征或字符大致形态,一般需要几页写满字迹的笔迹样本以提取稳定的特征。文本依存方法则从检验笔迹和参考笔迹中选择相同字(在笔迹鉴别领域称为特征字)进行比较。文本依存方法相对文本独立方法而言,可以提取更多的字符特征进行分析,只需要少量字符就可以有较高的准确度,因此在中文笔迹鉴别中属常用方法。作一对一笔迹鉴别时,文本依存方法较为有效,但作一对多笔迹鉴别时,则会遇到很大的问题在实际的笔迹鉴别中收集到的笔迹大多书写内容不相同,检材笔迹与不同样本笔迹的特征字内容都不相同,文本依存方法的分类器与字符有关,不同的字符产生的分类器有时无法相互比较。
发明内容本发明目的就是为了克服上述现有技术的不足而提供一种笔迹鉴别分类器,该分类器是基于多个文本依存的分类器融合而成,消除了文本依存分类器中的字符因子,具有近似的文本独立性。本笔迹鉴别分类器解决了由于检材笔迹与不同样本笔迹的特征字不同、分类器不同而无法准确分类鉴别的问题。本发明提供一种基于多分类器融合的笔迹鉴别方法,包括以下步骤(1)以单个字符为图像单元分别提取检材笔迹和样本笔迹的笔迹特征向量;(2)将检材笔迹和样本笔迹中的相同字符进行特征匹配,设检材笔迹特征向量为f,样本笔迹特征向量为f,则特征匹配距离为"i/(Z力(1.1)(3)建立文本依存分类器的两因子分解模型检材笔迹和样本笔迹中有多个相同字符匹配,所以文本依存的笔迹鉴别过程产生多个分类器,有多个分类鉴别结果。在一对一的笔迹鉴别中,必须将多个分类结果综合成一个结果,得出最终的鉴别结论。一对多的笔迹识别检索中,也须将多个分类器综合成一个分类器,以便于分类排序。影响特征匹配距离d-d(X,f)的因素有两个笔迹书写因子和字符因子。笔迹书写因子包括书写者、书写风格、书写速度、书写工具和书写环境等。字符因子包括字符结构(与字符的文本内容有关)和字体等。检材笔迹与样本笔迹书写因子的差异大小,直接决定分类器d=的分类输出值大小。由于书写习惯,书写水平的差异,不同人书写的字符,在笔画的紧凑程度,字符的倾斜方向,笔画起、收笔的位置,方向和形态等书写风格上存在差异。同时,书写速度、书写工具和书写环境等因素也对字符的书写造成影响。书写因子的差异造成书写的相同字符在形状上的差异,这是笔迹鉴别的基础。一般来说,笔迹间书写因子的差异性越大,笔迹特征向量的距离匹配值^-"(W)就越大。书写因子通过字符反映出来,但字符自身的结构对分类器J=C/(U)也有显著的影响。实验表明,字符结构形态的复杂度与匹配距离cZ-d(i,f)的大小成反比关系字符笔划少、结构简单,则数学期望£(力较大;字符笔划多、结构复杂,则数学期望£(力较小。通过实验研究,分类器d-d(x,:P)可按如下模型进行分解:lnc/"+a+y5+s(1.2)其中//为常数,a为书写因子效应(简称书写因子),/为字符因子效应(简称为字符因子),f为随机误差。(4)//、a、p的求解设笔迹鉴别中,检材笔迹一份,样本笔迹有N份,样本笔迹编号为hl,2,…iV,设检材笔迹与每份样本笔迹具有M个相同的匹配字符,编号为j、l,2,…M,如果N=l,即为一对一的笔迹鉴别。用《表示第/份样本笔迹中编号为j'的字符与检材笔迹中编号为/的字符进行特征向量距离匹配的结果,模型(1.2)可具体表示为ln《=A+a,+A+~(/=1,2,...仏y-l,2,…M)(1.3)其中,;/为常数,a,是检材书写因子与第/号样本书写因子的差异效应,^为检材笔迹与样本笔迹中编号为/的字符因子的差异效应,为均值为0的随机误//、a,、^的估计表达为《=—"n《—^(,、1,2,…AO(1.3.2)'M台yA;丄f]in^-//(/=1,2,...M)(1.3.3)式(1.3)——(1.3.3)的理论依据是无重复的两因子方差分析法。采用方差分析法,模型(1.3)可用矩法、高阶相关法、城市街区距离匹配法、方向指数法、简化的Wigner法等文本依存笔迹鉴别法进行验证。在笔迹鉴别实际应用中,要求检材笔迹与所有样本笔迹匹配的相同字符都一致是很难满足的。如检材笔迹与1号样本的相同汉字可能是"你、我、他",而与2号样本的相同汉字可能是"的、地、得",两组字符不一致。在这种情况下,无法用公式(1.3.1)——(1.3.3)来估计书写因子和字符因子。针对中文笔迹鉴别的实际应用,可以只考虑常用汉字的笔迹鉴别。对常用汉字字符进行统一编号。设检材笔迹与第Z份样本笔迹的有^f,个相同汉字,其相同汉字对应的统一编号集为"4^-l,2,…M,j,则模型(1.2)具体表示为ln《=//+"〖+;^+、(/:l,2,…AO(1.4)采用信息挖掘技术可解决字符因子/^与常数y"的求解问题。为便于信息挖掘,将式(1.4)中的常数项A与字符因子々^合并,则ln《=",+/么"=l,2,,.,AO(1.5)厶为Q个常用汉字中的任意一个,用如下信息挖掘方法求解所有的々1:第一步,收集常用手写汉字P份,即P个人每人书写Q个常用汉字1份;第二步,选出所有编号为j'(j'=1,2,3……Q)的汉字,共P个;第三步,计算检材笔迹中编号为y的汉字与第二步所提到的p个汉字笔迹特征匹配距离,共有P个距离;第四步,对第三步得到的每个距离值取对数,并求这P个距离对数的平均值,用此平均值作为"二的估计值^二。在模型(1.5)中,用信息挖掘值^二代替P二,令《=ln《-(1.6)于是有(/",2,…AO(1.7)书写因子"/的用下式估计《=;2X"、l,2,…iV)(1.8)气't=i(5)基于多个文依存分类器融合的新分类器将式(1.8)的《作为一对多笔迹鉴别新分类器,对于此分类器,有如下结论此分类器是基于多个文本依存分类器融合而成,它消除了多个文本依存分类器中的字符因子,具有近似文本独立性。此分类器能大幅提高笔迹分类鉴别准确率。式(1.8)中,当N充分大时,也能得到非常理想的笔迹鉴别准确率,这表明此分类器满足实战应用的需求。此分类器也可以作为一对一笔迹鉴别分类器。模型U.3)中,N=l时,便是一对一笔迹鉴别模型。该分类器对于一对一的笔迹鉴别可得到非常高的鉴别准确率。本发明方法提高了面向大样本笔迹数据库的一对多笔迹鉴别检索的准确率,同时也提高一对一笔迹鉴别精度。利用计算机笔迹鉴别进行身份认证,在公共安全,金融,考古等需要确定书写笔迹作者的领域有广泛的应用前景。具体实施例方式下面结合具体实施例对本发明作进一步的说明。一种基于多分类器融合的笔迹鉴别方法包括以下步骤(1)以单个字符为图像单元分别提取检材笔迹和样本笔迹的笔迹特征向量;(2)将检材笔迹和样本笔迹中的相同字符进行特征向量匹配,设检材笔迹特征向量为X,样本笔迹特征向量为f,则特征向量匹配距离为(1.1)(3)建立文依存分类器分解模型对常用汉字字符进行统一编号,设检材笔迹与第z'份样本笔迹的有M,个相同汉字,其相同汉字对应的统一编号集为(厶^-l,2,…Mj,分类器分解模型为ln《"+^+y厶+、(/",2,…AO(1.4)其中,//为常数,^为书写因子,^4为字符因子,s.为均值为o的随机误差。(4)字符因子挖掘与书写因子估计针对中文笔迹鉴别的实际应用,可以只考虑常用汉字的笔迹鉴别。对常用汉字字符进行统一编号记为_/=1,2,—3755,即统一编号集合为[/|_/=1,2,一3755}。设检材与第/份样本的有M,个相同汉字(可重复),其相同汉字对应的统一编号集为kl"l,2,…M,j,它是集合{市=1,2,—3755}的子集。将式(1.4)中的常数项;U与字符因子"A合并,则ln《("l,2,…AO(1.5)义是3755个汉字中的任意一个,为满足厶的任意性,对所有的《(_/=1,2,3755)进行求解。用如下信息挖掘方法求解所有的:第一步,收集常用手写汉字100份,即100个人,每人书写3755个常用汉字1份。第二步,选出所有编号为/(y-l,2,…3755)的汉字,共100个,这是IOO相同的字符,由100个人所书写。第三步,计算检材笔迹中编号为y'的汉字与第二步所提到的ioo个汉字笔迹特征匹配距离,共有100个距离。第四步,对第三步得到的每个距离值取对数,并求这100个距离对数的平均值,用此平均值作为y^的估计值^。在式(1.4)中,用信息挖掘值》;代替々^,令《=ln《-A(1.6)于是有-《=+《)*(-l,2,...iV)(1.7)则"/的用下式估计《=ig《(/=l,2,..AO(1.8)(5)以《作为笔迹鉴别分类器进行笔迹鉴别。为了验证汉字字符结构因素对文本依存特征匹配距离的影响,以矩特征为例进行实验与统计。收集多份不同人书写的笔迹,经过预处理后提取出3755个常见汉字的归一化字符图像进行特征匹配。若某汉字有n幅字符图像,计算特征后两两进行特征匹配,可生成n(n+l)/2个距离值。由于数量n(n+l)/2(〉3000)足够大,可以用这n(n+l)/2个距离值来精确的估计汉字特征匹配距离值的概率分布、数学期望、方差等值。通过大量观查,可以得到字符结构形态的复杂度与匹配距离^-^(X,。的大小成反比关系字符笔划少、结构简单,则数学期望£(司较大;字符笔划多、结构复杂,则数学期望五(力较小。其中,汉字复杂度可以用笔画总长度来表示。表1给出了部分汉字捉距离均值表。表1.部分汉字矩特征匹配距离均值表<table>tableseeoriginaldocumentpage9</column></row><table>文本依存分类器输出的两因子分解模型验证为了验证特征字内容和书写人风格两因子对汉字矩特征匹配距离的影响,采用统计检验中的无交互作用双因子无重复试验的方差分析理论,对公式(1.2)中的两因子模型进行双因子影响的显著性检验。IO个人,每人各书写笔迹一份,取其中1个人的笔迹作为检材笔迹,其他9人的笔迹作为样本笔迹,提取相同字符进行矩特征匹配,得到距离值Jy和In《.。取方差分析的模型为<formula>formulaseeoriginaldocumentpage10</formula>)设因素A5分别为书写因子和字符因子,si,r=^。通过计算,可得如下表2方差分析表表2.矩特征匹配距离的双因子方差分析表<table>tableseeoriginaldocumentpage10</column></row><table>检验结果由于F。.。5(20,160)=1.52<13.564,尸。.。5(8,160)=1.94<5.207,所以在水平0.05下,认为字符结构因素和书写风格因素对ln^;的影响都是显著的。从而验证了模型(1.2)lnc^+A+~(/=l,2,"-9,_/=l,2,".20)是成立的。模型(1.2)还可用高阶相关法、城市街区距离匹配法、方向指数法、简化的Wigner法等文本依存笔迹鉴别法进行验证。新分类器输出的文本独立性验证用上述完全相同的书写笔迹,令与7.2相同,A用数据挖掘方法得到。取方差分析模型为《++A.+s〃.(/=1,2,L9,y=1'2,L20)设因素j,5分别为书写风格因素和字符结构因素,s=9,r=20。通过计算,可得如下表3新的方差分析表表3.分离字符结构因素后矩特征匹配距离的双因素方差分析表方差来源平方和自由度均方F比因素A8.542876(s-1)85=^/^A-l1.067865.2078因素B&1.561E-12(r-1)1917.804E-13fis£3.805E-13误差&32儒43(r-l)(s-1)152E一(卜l)(")0.2050综合41.35031rs-l179由于F0.w(20,160)=1.52>3.805E-13,F0.05(8,160)=1.94<5.207,所以在水平0.05下,认为书写风格因素对《对的影响是显著的,字符结构因素对《的影响不显著,即《是与字符因素无关的量,是文本独立的。式(1.8)中,《.由《信息融合而得,所以《是文本独立的。一对多笔迹鉴别检索准确率实验验证样本笔迹库随意选择样本笔迹3000,建立样本笔迹库。每份样本约有IOO个汉字字符,其文本内容不限定。检材笔迹之一随意选择检材笔迹100份,作笔迹鉴别检索之用,每份样本约有IOO个汉字字符,其文本内容不限定。对于每一份检材笔11迹,样本笔迹库中有一份对应的笔迹,相对应的两份笔迹是同一人书写。采用笔迹鉴别分类器(1.8),检材笔迹之一的鉴别准确率见表4。表4检材之一笔迹鉴别准确率方法1候选准确率5候选准确率20候选准确率矩特征法92%95%99%为检验笔迹鉴别分类器(1.8)的实战应用能力,对检材笔迹作适当的改变。检材笔迹之二随意选择检材笔迹100份,作笔迹鉴别检索之用,每份样本约有ioo个汉字字符,其文本内容不限定。对于每一份检材笔迹,样本笔迹库中有一份对应的笔迹,相对应的两份笔迹是同一人书写,但相对应的两份笔迹在书写速度、书写工具、书写环境等有适当的差异,部分检材笔迹作适度的伪装。采用笔迹鉴别新的分类器(1.8),检材笔迹之二的鉴别准确率见表5。表5检材之二笔迹鉴别准确率方法1候选准确率5候选准确率20候选准确率矩特征法70%88%95%若同时采用矩法、高阶相关法、城市街区距离匹配法、方向指数法、简化的Wigner法,采用笔迹检材之一,笔迹鉴别新的分类器(1.8)得到一对多综合分类鉴别结果见表6。表6检材之一笔迹综合鉴别准确率方法1候选准确率5候选准确率20候选准确率多种方法综合98%99%100%若同时采用矩法、高阶相关法、城市街区距离匹配法、方向指数法、简化的Wigner法,采用笔迹检材之二,笔迹鉴别新的分类器(1.8)得到一对多综合分类鉴别结果见表7。表7检材之二笔迹综合鉴别准确率12方法1候选准确率5候选准确率20候选准确率多种方法综合76%92%98%一对一笔迹鉴别准确率实验验证选取样本笔迹与检材笔迹对270对,其中IOO对属同一人书写的笔迹。170对属不同人书写的笔迹,每份笔迹约100个汉字,内容不限定,属正常书写笔迹(正常的书写速度、正常的书写环境、常用的书写工具)。采用笔迹鉴别新的分类器(1.8),一对一笔迹鉴别准确率见表8。表8—对一笔迹鉴别准确率方法第一类错误率第二类错误率准确率矩特征法3%3%97%若同时采用矩法、高阶相关法、城市街区距离匹配法、方向指数法、简化的Wigner法,笔迹鉴别新的分类器(1.8)得到一对一笔迹综合鉴别准确率见表9。表9一对一笔迹综合鉴别准确率方法第一类错误率第二类错误率准确率综合方法1%1%99%以上实验结果证明笔迹鉴别新分类器(1.8)的笔迹鉴别效果良好。当测试笔迹与样本笔迹的特征字越多,综合多特征字鉴别的准确率越高。新分类器适用于多种文本依存笔迹鉴别方法,如距离变换方法,方向指数直方图方法,高阶相关方法等。1权利要求1.一种基于多分类器融合的笔迹鉴别方法,其特征在于包括以下步骤(1)以单个字符为图像单元分别提取检材笔迹和样本笔迹的笔迹特征向量;(2)将检材笔迹和样本笔迹中的相同字符进行特征向量匹配,设检材笔迹特征向量为样本笔迹特征向量为则特征向量匹配距离为(3)建立文依存分类器分解模型分类器按如下模型进行分解lnd=μ+α+β+ε(1.2)设笔迹鉴别中,检材笔迹一份,样本笔迹有N份,样本笔迹编号为i=1,2,…N,检材笔迹与每份样本笔迹具有M个相同的匹配字符,编号为j=1,2,…M,用dij表示第i份样本笔迹中编号为j的字符与检材笔迹中编号为j的字符进行特征向量距离匹配的结果,lndij=μ+αi+βj+εij(i=1,2,…N,j=1,2,…M)(1.3)其中,μ为常数,αi是检材书写因子与第i号样本书写因子的差异效应,βj为检材笔迹与样本笔迹中编号为j的字符因子的差异效应,εij为均值为0的随机误差;对常用汉字字符进行统一编号,设检材笔迹与第i份样本笔迹的有Mi个相同汉字,其相同汉字对应的统一编号集为{jk|k=1,2,…M},分类器分解模型为(4)字符因子挖掘与书写因子估计将式(1.4)中的常数项μ与字符因子βjk合并,则jk为Q个常用汉字中的任意一个,用如下信息挖掘方法求解所有的第一步,收集常用手写汉字P份,即P个人每人书写Q个常用汉字1份;第二步,选出所有编号为j′(j′=1,2,3……Q)的汉字,共P个;第三步,计算检材笔迹中编号为j的汉字与第二步所提到的P个汉字笔迹特征匹配距离,共有P个距离;第四步,对第三步得到的每个距离值取对数,并求这P个距离对数的平均值,用此平均值作为的估计值在模型(1.5)中,用信息挖掘值代替令于是有书写因子αi的用下式估计(5)以作为笔迹鉴别分类器进行笔迹鉴别。全文摘要本发明公开了一种基于多分类器融合的笔迹鉴别方法。首先,将影响笔迹鉴别分类输出的因子分为两类书写因子与字符因子。建立分类输出的两因子分解模型,采用数据挖掘方法,得到两因子分解模型中的常用汉字的字符因子。然后,对两因子分解模型中的书写因子给出了估计方法。最后,把书写因子作为最终的笔迹鉴别分类器进行笔迹鉴别。本发明方法解决了文本依存笔迹鉴别的理论方法无法满足实际应用需求的问题。面向大型样本笔迹库时,本鉴别方法能得到十分理想的一对多笔迹鉴别分类结果。作一对一笔迹鉴别,其鉴别准确率高达98%。文档编号G06K9/62GK101499133SQ200910061099公开日2009年8月5日申请日期2009年3月12日优先权日2009年3月12日发明者凤袁,伟邓,鄢煜尘,陈庆虎申请人:武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1