一种使手写汉字识别引擎能动态适应用户书写风格的方法

文档序号:6553850阅读:450来源:国知局
专利名称:一种使手写汉字识别引擎能动态适应用户书写风格的方法
一种使手写汉字识别引擎能动态适应用户书写风格的方法
背景技术
手写汉字识别一般是指用户通过手写输入设备(比如手写板、触摸屏、鼠标等)书写汉字,同时计算机将手写输入设备采集到的汉字书写轨迹转换为相应的汉字机器内码的识别技术。传统的手写识别技术通常所采用的输入方式为单字符识别,即书写一个汉字识别一个汉字。使用的识别引擎与用户无关,即识别引擎事先通过大量的训练样本训练出来, 对于不同用户,识别引擎使用的模型及参数都是一样的,事先由开发人员训练并设置好。由于采用了大数据量的训练样本,所以识别引擎能满足书写规范的用户的识别准确率要求。 但是不同用户的书写风格差异很大,每个用户书写风格除了存在共性外,往往还包括自己个性化的地方,与用户无关的识别引擎针对这类用户时书写汉字时,识别准确率往往不尽人意,有待改进。

发明内容
本发明的目的在于克服传统的识别引擎无法适应特定用户的书写风格的不足,提供一种让识别引擎能动态适应用户书写风格从而提高识别率的方法。本发明采用的技术方案为
一种使手写汉字识别引擎能动态适应用户书写风格的方法,其步骤如下
(1)、选取用户少量的增量书写样本;
(2)、对增量书写样本提取特征,并根据原始线性判决分析(LDA)模型对增量书写样本特征进行线性判决分析(LDA)变换;
(3)、采用增量书写样本动态更新每个类别的均值向量;
(4)、采用增量书写样本动态更新每个类别的协方差矩阵;
(5)、根据新的均值向量和协方差矩阵,更新改进的二次判决函数(MQDF)分类器。所述步骤(1)为选择用户少量的样本,用于更新模板及识别引擎。用户样本的选择应能充分体现用户的书写风格。设原始样本为I 二 (i=i,…,对,#为样本数,并设其类别数是I;设增量书写样本为/ 二 {yj …,W,Z为增量样本数,并设其类别数是 P。则合并后的总的样本可表示为Z=IU 7二 {zj …,Z^V入样本总数为Ζ+Λ/,类别总数为G且C夕K夕凡不失一般性,我们假设对于合并后的总样本中的第i (i=l,…,C) 类,分别在原始样本#和增量书写样本Z中有/和人.个样本。因此,对于合并后新的样本, 属于第i (i=l,…,C)类的样本数为尸/^人.。所述步骤(2)对增量书写样本提取特征并进行线性判决分析(LDA)变换,其步骤包括
(Α)、增量书写样本特征提取,对于每一个增量书写样本,都采用八方向特征提取方法提取其方向特征,
(B)、对增量书写样本特征进行线性判决分析(LDA)变换,线性判决分析变换的目的是使各个汉字类别能最大程度的分开,从而提高识别率设经过八方向特征提取后,类别 i(i=l,…,C)的原始特征向量为九,令原始线性判决分析变换矩阵为WL ,设经过线性判决分析变换后的特征向量为 、则通过以下公式求得ι
权利要求
1.一种使手写汉字识别引擎能动态适应用户书写风格的方法,其特征在于包括如下步骤(1)、选取用于更新模板及识别引擎的用户增量书写样本;(2)、提取增量书写样本的汉字特征,并根据原始线性判决分析模型对该汉字特征进行线性判决分析变换;(3)、采用增量书写样本动态更新每个类别的均值向量;(4)、采用增量书写样本动态更新每个类别的协方差矩阵;(5)、采用增量书写样本更新改进的二次判决函数分类器。
2.根据权利要求1所述的使手写汉字识别引擎能动态适应用户书写风格的方法,其特征在于所述步骤(1)选取用户的增量书写样本的具体步骤如下设定原始样本为I 二 (i=l,…,对,#为样本数,并设其类别数是#;设增量书写样本为7 二 {yj 二人…,Z入Z为增量样本数,并设其类别数是Λ则合并后的总的样本可表示为Zi U 7 二 {zj (k=l,…,L+N),样本总数为L+N,类别总数为C’且C彡IX彡Λ 再设定合并后的总样本中的第i (i=l,…,C)类,分别在原始样本#和增量书写样本Z中有巧和厶个样本,因此,对于合并后新的样本,属于第i (i=l,C)类的样本数为尸/^人.。
3.根据权利要求2所述的使手写汉字识别引擎能动态适应用户书写风格的方法,其特征在于所述步骤(2)具体更新步骤如下(21)、增量书写样本特征提取,对于每一个增量书写样本,都采用八方向特征提取方法提取其方向特征,(22)、对增量书写样本特征进行线性判决分析变换,设经过八方向特征提取后,类别 i (i=l,…,C)的原始特征向量为九,令原始线性判决分析变换矩阵为Wm ,设经过线性判决分析变换后的特征向量为Λ ,则通过以下公式求得、yi = wM^yi,。
4.根据权利要求3所述的使手写汉字识别引擎能动态适应用户书写风格的方法,其特征在于所述步骤(3)具体更新步骤如下(31)、设类别.“,C)经过线性判决分析变换后的原始均值向量为&,原始样本个数为%,则通过以下公式求得^ 其0巧=0(32)、设类别i「i二人...,C)经过线性判决分析变换后的增量书写样本均值向量为Λ, 原始样本个数为纟,则通过以下公式求得力
5.根据权利要求4所述的使手写汉字识别引擎能动态适应用户书写风格的方法,其特征在于所述步骤(4)具体更新步骤如下(41)、求原始样本中类别i「i二人...,C)的协方差矩阵,原始样本中类别i经过线性判决分析变换后的均值向量为&,样本个数为%,则其协方差矩阵由以下公式求得
6.根据权利要求5所述的使手写汉字识别引擎能动态适应用户书写风格的方法,其特征在于所述步骤(5)具体更新步骤如下(51)、设 代表第i个类别(i=l,…,以,。和4分别表示根据步骤4和5得到的更新后的均值向量和协方差矩阵,并设每个类别的先验概率相等,则原始的二次判决函数由以下公式求得goCi) = (ζ — zOrSa1^ — + loS 1 I,i = ι,…,C'(52)、根据K-L变换,对协方差矩阵&进行对角化,求得Ssj = ^AiCf其中,Ai = diagU u,…,U,Λ ip j=l,…是协方差矩阵、的特征值,"是特征的维数,Φ, = Φη,…,Φ^,Φ Ρ」=1,…是对应的特征向量,Oi是标准正交的, ΦΤ Φ 二 /;(53)、根据上述公式,将原始的二次判决函数写成特征向量和特征值的形式 ^0(SjQ)= [ΦΓ (S— h)]TA.^(z-Zi)+ IoglAiIJ-I %J-I64)、用常量4替代较小的特征值,设^为主导特征向量的个数,就得到了最终的修正的二次判决函数分类器,由以下公式求得
全文摘要
本发明提供一种使手写汉字识别引擎能动态适应用户书写风格的方法,包括如下步骤(1)选取用于更新模板及识别引擎的用户增量书写样本;(2)提取增量书写样本的汉字特征,并根据原始LDA模型对该汉字特征进行LDA变换;(3)采用增量书写样本动态更新每个类别的均值向量;(4)采用增量书写样本动态更新每个类别的协方差矩阵;(5)采用增量书写样本更新改进的二次判决函数分类器。利用本发明提供的方法,手写汉字识别引擎能自适应用户的手写风格,提高识别准确度。
文档编号G06K9/68GK102184426SQ20111010878
公开日2011年9月14日 申请日期2011年4月28日 优先权日2011年4月28日
发明者丁凯, 刘岗, 金连文 申请人:华南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1