一种基于耦合空间学习的场景文字识别方法与流程

文档序号:12064339阅读:199来源:国知局

本发明属于模式识别技术领域,具体涉及一种基于耦合空间学习的场景文字识别方法。



背景技术:

场景文字识别在模式识别领域扮演着重要的角色,它可以直接应用到图像检索、智能交通、人机交互等领域。在实际应用中,场景文字识别是一个很有挑战性的研究方向,因为场景文字会受到不均匀的光照、失真、复杂的背景等外界因素的影响。

近几十年场景文字识别被广泛研究,一些早期的方法利用光学字符识别技术进行场景文字识别。但是,光学字符识别技术有很大的局限性,比如场景文字图像二值化操作。近年来,大量场景文字识别的方法被提出,并取得了较大的进步。其中,最有代表性的工作是基于目标识别的场景文字识别方法。基于目标识别的方法跳过了场景文字图像二值化的过程并且把每个场景文字看作是一个特殊的目标,并且在模式识别领域取得了一定的成功。如:Newell等人利用多尺度的HOG(Histogram of Oriented Gradients,梯度直方图)进行特征表示。Zhang等人提取稀疏编码直方图(histograms of sparse codes,HSC)特征进行特征表示。Shi等人综合考虑局部特征信息和全局结构信息。虽然这些方法取得了一定的成效,但是他们在很大程度上忽视了空间上下文信息。由于不同文字在不同的位置可能包含相同的特征信息,这会造成重构误差,因此为了解决这个问题,Gao等人在特征表示阶段提出笔画库来考虑空间上下文信息。Shi等人提出的方法是Gao等人方法的延伸,他们使用判别性的多尺度的笔画库表示特征。Tian等人提出考虑HOG特征之间的共生关系来添加空间上下文信息。另外,Gao等人还提出基于位置嵌入词典来考虑空间上下文信息。虽然以上方法取得了较大的成功,但是只在单一方面考虑了空间上下文信息,即词典学习阶段或者编码阶段,所以不能够充分的保留有效的空间上下文信息。



技术实现要素:

本发明的目的是要解决空间上下文信息对场景文字识别结果影响较大的技术问题,为此,本发明提供一种基于耦合空间学习的场景文字识别方法。

为了实现所述目的,本发明基于耦合空间学习的场景文字识别方法包括以下步骤:

步骤S1,对N幅输入场景文字图像分别进行预处理操作,得到N幅训练场景文字图像;

步骤S2,对于N幅训练场景文字图像分别进行识别特征提取,得到N个空间词典;

步骤S3,利用每幅训练场景文字图像的空间词典对该图像的识别特征进行空间编码,得到相应的空间编码向量;

步骤S4,对于每幅训练场景文字图像的空间编码向量进行最大化抽取,得到所述训练场景文字图像对应的特征向量;

步骤S5,基于所述训练场景文字图像的特征向量,利用线性支持向量机进行训练,得到场景文字识别分类模型;

步骤S6,按照所述步骤S1-S4获取测试场景文字图像的特征向量,输入至所述场景文字识别分类模型得到场景文字识别结果。

可选地,所述步骤S1包括以下步骤:

步骤S11,将所述输入场景文字图像转换为灰度场景文字图像;

步骤S12,将所述灰度场景文字图像的大小归一化为H×W,归一化后的灰度场景文字图像作为所述训练场景文字图像,其中,H和W分别表示灰度场景文字图像的高度和宽度。

可选地,所述步骤S2包括以下步骤:

步骤S21,在每幅训练场景文字图像的Pi(i=1,2,…,m)位置处分别提取一个识别特征,其中,m为每幅训练场景文字图像的识别特征提取位置数量;

步骤S22,对于N幅训练场景文字图像,对从Pi位置处提取得到的所有识别特征进行聚类,得到子词典Ci(i=1,2,…,m),并将所述子词典Ci的位置记为Pi

步骤S23,将携带有位置信息的m个子词典串联得到空间词典。

可选地,所述识别特征为HOG特征。

可选地,所述步骤S22中,利用k-means聚类算法对识别特征进行聚类。

可选地,所述空间词典表示为:

D={C,P}={(C1,P1),(C2,P2),...,(Cm,Pm)},

其中,D表示空间词典,C=(C1,C2,…,Cm)为m个子词典的集合,P=(P1,P2,…,Pm)表示子词典集合C的位置信息集合。

可选地,所述步骤S3中,通过下式所示的目标函数对训练场景文字图像的识别特征进行空间编码:

其中,||·||2表示l2范数,⊙表示两个矩阵中对应元素的点乘运算,fj表示识别特征,aj表示fj对应的空间编码向量,A=[a1,a2,…,aj,…]表示所有空间编码向量的集合,||fj-Caj||2表示利用空间词典对识别特征进行重构产生的误差;||djF⊙aj||2为局部正则项,表示特征空间中识别特征和子词典中的码字之间的距离约束关系;||djE⊙aj||2为空间正则项,表示在欧式空间里约束特征和子词典中的码字之间的位置关系;α和β为正则化参数,表示空间编码向量aj中的所有元素之和等于1;djF表示特征空间中识别特征和子词典中的码字之间的距离,djE表示欧式空间中识别特征fj对应的位置和子词典中码字对应的位置之间的距离。

可选地,特征空间中识别特征和子词典中的码字之间的距离djF表示为:

其中,σF是一个用来调节djF权重下降速度的参数,dist(fj,C)定义为:

dist(fj,C)=[dist(fj,C1),dist(fj,C2),...,dist(fj,Cm)]T

其中,dist(fj,Ci)(i=1,2,…,m)表示特征fj和子词典Ci中所有码字之间的欧式距离。

可选地,欧式空间中识别特征fj对应的位置和子词典中码字对应的位置之间的距离djE表示为:

其中,σE是一个用来调节djE权重下降速度的参数,dist(lj,P)定义为:

dist(lj,P)=[dist(lj,P1),…,dist(lj,P1),dist(lj,P2),…,dist(lj,P2),…,dist(lj,Pm),…,dist(lj,Pm)]T其中,dist(lj,Pi)(i=1,2,…,m)表示识别特征fj的位置lj和子词典Ci位置Pi之间的欧式距离。

可选地,所述步骤S4中,利用下式对于每幅训练场景文字图像的空间编码向量进行最大化抽取:

a=max{a1,a2,...,aj,...,am},

其中,a表示训练场景文字图像的特征向量,aj(j=1,2,...,m)表示空间编码向量。

本发明的有益效果为:本发明通过创建空间词典和利用创建的空间词典进行空间编码,能够将空间上下文信息有效的结合在特征向量中,达到有效挖掘空间信息的目的,从而提高场景文字识别的正确率。

需要说明的是,本发明得到了国家自然科学基金项目No.61401309、No.61501327、天津市应用基础与前沿技术研究计划青年基金项目No.15JCQNJC01700、天津师范大学博士基金项目No.5RL134、No.52XB1405的资助。

附图说明

图1是根据本发明一实施例提出的基于耦合空间学习的场景文字识别方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

图1是根据本发明一实施例提出的基于耦合空间学习的场景文字识别方法的流程图,下面以图1为例来说明本发明的一些具体实现流程。本发明的方法是一种基于耦合空间学习的场景文字识别方法,其具体步骤包括:

步骤S1,对N幅输入场景文字图像分别进行预处理操作,得到N幅训练场景文字图像;

其中,所述预处理操作包括以下步骤:

步骤S11,将所述输入场景文字图像转换为灰度场景文字图像;

步骤S12,将所述灰度场景文字图像的大小归一化为H×W,归一化后的灰度场景文字图像作为所述训练场景文字图像,其中,H和W分别表示灰度场景文字图像的高度和宽度。

步骤S2,对于N幅训练场景文字图像分别进行识别特征提取,得到N个空间词典;

进一步地,所述步骤S2包括以下步骤:

步骤S21,在每幅训练场景文字图像的Pi(i=1,2,…,m)位置处分别提取一个识别特征,其中,m为每幅训练场景文字图像的特征提取位置数量,这样每幅训练场景文字图像均能够得到m个识别特征;

其中,所述识别特征可以为HOG特征,也可以为别的识别特征。

步骤S22,对于N幅训练场景文字图像,对从Pi位置处提取得到的所有识别特征进行聚类,得到子词典Ci(i=1,2,…,m),并将所述子词典Ci的位置记为Pi,这样,对于m个特征提取位置得到m个子词典;

其中,可利用k-means等聚类算法进行聚类操作。

步骤S23,将携带有位置信息的m个子词典串联得到空间词典。

其中,所述空间词典可以表示为:

D={C,P}={(C1,P1),(C2,P2),...,(Cm,Pm)},

其中,D表示空间词典,C=(C1,C2,…,Cm)为m个子词典的集合,相应的P=(P1,P2,…,Pm)表示子词典集合C的位置信息集合。

步骤S3,利用每幅训练场景文字图像的空间词典对该图像的m个识别特征进行空间编码,得到相应的m个空间编码向量;

所述步骤S3中,通过如下目标函数利用所述空间词典对每幅训练场景文字图像的m个识别特征进行空间编码:

其中,||·||2表示l2范数,⊙表示两个矩阵中对应元素的点乘运算,fj表示识别特征,aj表示fj对应的空间编码向量,相应的A=[a1,a2,…,aj,…]表示所有空间编码向量的集合,||fj-Caj||2表示利用空间词典对识别特征进行重构产生的误差;||djF⊙aj||2为局部正则项,表示特征空间中识别特征和子词典中的码字之间的距离约束关系;||djE⊙aj||2为空间正则项,表示在欧式空间里约束特征和子词典中的码字之间的位置关系;α和β为正则化参数,表示空间编码向量aj中的所有元素之和等于1;djF表示特征空间中识别特征和子词典中的码字之间的距离,具体表达形式如下所示:

其中,σF是一个用来调节djF权重下降速度的参数,dist(fj,C)定义如下:

dist(fj,C)=[dist(fj,C1),dist(fj,C2),...,dist(fj,Cm)]T

其中,dist(fj,Ci)(i=1,2,…,m)表示特征fj和子词典Ci中所有码字之间的欧式距离。

djE表示欧式空间中识别特征fj对应的位置lj和P之间的距离,具体表达形式如下所示:

其中,σE是一个用来调节djE权重下降速度的参数。dist(lj,P)定义如下:dist(lj,P)=[dist(lj,P1),…,dist(lj,P1),dist(lj,P2),…,dist(lj,P2),…,dist(lj,Pm),…,dist(lj,Pm)]T其中,dist(lj,Pi)(i=1,2,…,m)表示识别特征fj的位置lj和子词典Ci位置Pi之间的欧式距离。

上述目标函数在特征空间内利用局部正则项来选取一组码字对识别特征进行重构,同时在欧式空间内利用空间正则项来约束识别特征和子词典中的码字之间的位置关系。

对上述目标函数求导,可以得到一个解析解,如下所示:

其中,Aj=(CT-1fjT)(CT-1fjT)T表示协方差矩阵,利用公式可对求解的进行归一化操作。

通过上述解析解可以避免复杂的优化过程直接求解出识别特征对应的空间编码向量。

步骤S4,对于每幅训练场景文字图像的空间编码向量进行最大化抽取,得到所述训练场景文字图像对应的特征向量;

所述步骤S4中,利用如下公式对于每幅训练场景文字图像的空间编码向量进行最大化抽取:

a=max{a1,a2,...,aj,...,am},

其中,aj(j=1,2,...,m)表示空间编码向量,a表示训练场景文字图像的特征向量。

通过上述公式对一幅训练场景文字图像的m个空间编码向量的每一维取最大值来得到所述训练场景文字图像的特征向量a。

步骤S5,基于所述训练场景文字图像的特征向量,利用线性支持向量机进行训练,得到场景文字识别分类模型;

步骤S6,按照所述步骤S1-S4获取测试场景文字图像的特征向量,输入至所述场景文字识别分类模型得到场景文字识别结果。

以网上公开的场景文字图像数据库作为测试对象,比如在ICDAR2003数据库上,当H×W=64×32,位置m为128时,场景文字识别的正确率为83.2%,由此可见本发明方法的有效性。

应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1