一种基于域自适应的英文场景文字识别方法

文档序号：8223881阅读：359来源：国知局

一种基于域自适应的英文场景文字识别方法
【技术领域】
[0001] 本发明设及模式识别与机器视觉领域中的场景文字识别领域，具体地是一种基于域自适应的英文场景文字识别方法。
【背景技术】
[0002] 自然场景图像中包含的文本信息往往包含着关于图像内容的直接指示，近些年，场景文字识别领域越来越引起国际上研究者的重视。现有的方法包括两类，分别是基于光学字符识别的方法和基于目标识别的方法。传统的光学字符识别方法需要先进行二值化，主要针对扫描文档的识别，而基于目标识别的方法因为可W跳过传统的二值化环节而备受青睐。然而由于场景类别的多样性、背景的复杂性、不同光照的影响W及不可预测的字体，场景文字识别的训练集和测试集常常拥有不同的分布，使得在训练集上训练得到的文字分类器较难在测试集上取得理想的结果。

【发明内容】

[0003] 为了进一步优化英文场景文字识别效果，本发明提出了一种基于域自适应的英文场景文字识别方法，达到了优良的英文场景文字识别效果。
[0004] 本发明的一种基于域自适应的英文场景文字识别方法，包括如下步骤：
[0005] 步骤1，建立位置嵌入词典：
[0006] 对每一类英文场景文字的训练样本，抽取全图的梯度直方图特征，在每一个类内聚类，从聚类中屯、上稠密地采集梯度直方图特征块作为位置嵌入词典的码本，记录每一个码本的采集位置，将码本采集位置的附近区域作为码本的响应区域，基于全部码本建立位置嵌入词典；
[0007] 步骤2,基于位置嵌入词典的编码和抽取：
[000引给定一幅图像，在对该图像的描述子进行编码时，判断描述子与码本的位置关系，如果某码本覆盖了该描述子的位置，则对应的维度要进行编码，反之，对应的维度则不进行编码；编码之后，在全图范围内进行最大抽取，得到最终的编码向量U ;
[0009] 步骤3，中间域词典的学习：
[0010] 基于位置嵌入词典对所有的单字训练图像进行编码，在训练集的编码向量上使用 K-SVD算法求解重建词典，根据测试集编码向量在该重建词典上的重构误差求解中间域词典；
[0011] 步骤4,文字分类器的训练和测试：
[0012] 在文字分类器的训练阶段，先求解训练集的位置嵌入词典编码向量在首个中间域词典的重建系数，使用该系数与所有中间域词典的乘积作为特征训练多类别线性支持向量机；在测试阶段，先求解测试集的位置嵌入词典向量在最后一个中间域词典的重建系数，使用该系数与所有中间域词典的乘积作为特征测试多类别线性支持向量机。
[001引步骤1中，每一幅训练样本都被归一化到相同的高度和宽度，高度记为H，宽度记为W，之后每一幅图像被划分为rihXn,个块，n h是垂直方向划分的块数，n ,是水平方向划分的块数。
[0014] 步骤1中，抽取全图的梯度直方图特征的方法为对于每一张训练图像，在每一个划分块中抽取维度为rih。,的梯度直方图特征，之后连接起来形成一维特征作为该训练图像的整体表示，此一维特征的维度数为rih。, X rih。, X nh。,。
[00巧]步骤1中，所述聚类的方法为：类别Ci的训练图像数量记作n仇节".r:，在整体一维特征表示的基础上，使用K均值聚类得到"rm。:,。/%;个中心其中告是用来控制聚类数目的参数；对于每一个聚类中屯、，把整体表示的一维特征再还原回最初的=维特征，=个维度的维数分别为％，n,，rihcg。
[0016] 步骤1中，所述码本的抽取方法为；从=维聚类中屯、上按照=个维度分别为也d， n，, d，rih。,稠密地采集码本，其中n h, d是垂直方向的划分块的数目，nd是水平方向的划分块的数目，rih。,是梯度直方图特征的维数；码本抽取时按照从左到右、从上向下的顺序，=维矩阵之后被伸展为一维向量即得到码本dj.。
[0017] 步骤1中，所述的位置嵌入词典为：
[001 引
【主权项】
1. 一种基于域自适应的英文场景文字识别方法，其特征在于，包括如下步骤：步骤1，建立位置嵌入词典：对每一类英文场景文字的训练样本，抽取全图的梯度直方图特征，在每一个类内聚类，从聚类中心上稠密地采集梯度直方图特征块作为位置嵌入词典的码本，记录每一个码本的采集位置，将码本采集位置的附近区域作为码本的响应区域，基于全部码本建立位置嵌入词典；步骤2,基于位置嵌入词典的编码和抽取：给定一幅图像，在对该图像的描述子进行编码时，判断描述子与码本的位置关系，如果某码本覆盖了该描述子的位置，则对应的维度要进行编码，反之，对应的维度则不进行编码；编码之后，在全图范围内进行最大抽取，得到最终的编码向量U ; 步骤3,中间域词典的学习：基于位置嵌入词典对所有的单字训练图像进行编码，在训练集的编码向量上使用 K-SVD算法求解重建词典，根据测试集编码向量在该重建词典上的重构误差求解中间域词血. ，、1 步骤4,文字分类器的训练和测试：在文字分类器的训练阶段，先求解训练集的位置嵌入词典编码向量在首个中间域词典的重建系数，使用该系数与所有中间域词典的乘积作为特征训练多类别线性支持向量机；在测试阶段，先求解测试集的位置嵌入词典向量在最后一个中间域词典的重建系数，使用该系数与所有中间域词典的乘积作为特征测试多类别线性支持向量机。
2. 根据权利要求1所述的方法，其特征在于，步骤1中，每一幅训练样本都被归一化到相同的高度和宽度，高度记为H，宽度记为W，之后每一幅图像被划分为n hXnw个块，n h是垂直方向划分的块数，nw是水平方向划分的块数。
3. 根据权利要求2所述的方法，其特征在于，步骤1中，抽取全图的梯度直方图特征的方法为：对于每一张训练图像，在每一个划分块中抽取维度为％。 8的梯度直方图特征，之后连接起来形成一维特征作为该训练图像的整体表示，此一维特征的维度数为 nhog X nhog X nhog。
4. 根据权利要求3的方法，其特征在于，步骤1中，所述聚类的方法为：类别c ^勺训练图像数量记作在整体一维特征表示的基础上，使用K均值聚类得到 bmq/h个中心，其中&是用来控制聚类数目的参数；对于每一个聚类中心，把整体表示的一维特征再还原回最初的三维特征，三个维度的维数分别为nh，nw，nh()g。
5. 根据权利要求4的方法，其特征在于，步骤1中，所述码本的抽取方法为：从三维聚类中心上按照三个维度分别为nh, d，nw,d，％。8稠密地采集码本，其中n h,d是垂直方向的划分块的数目，!!^是水平方向的划分块的数目，ntog是梯度直方图特征的维数；码本抽取时按照从左到右、从上向下的顺序，三维矩阵之后被伸展为一维向量即得到码本4。
6. 根据权利要求4的方法，其特征在于，步骤1中，所述的位置嵌入词典为！
其中是位置嵌入词典的码本数目，h是与码本屯对应的响应区域。
7. 根据权利要求6所述的方法，其特征在于，步骤3中，所述中间域词典的获取方法为：训练集和测试集的图像数目分别记作Ntrain和N test，位置嵌入词典Dsed共包含的码本数目记作~D￡￡￡?，则训练集和测试集的位置嵌入词典编码向量集合分别记为
先使用K-SVD算法求解训练向量集合 9 的重建词典ε ，其中Nd是重建词典D ^的元素个数；D ^将作为中间域词典集合（Dtl, D1, ...，DJ的第一个元素，K+1为中间域词典的个数；根据Dk计算Dk+1，首先计算测试集编码向量在Dk上的最小重建误差J k，然后根据重建误差Jk计算从D k计算D k+1的增量Λ D k，根据Λ Dk和D k计算得到D k+1 = D k+Λ Dk;根据上面的迭代过程，最终得到中间域词典的集合（Dtl, D1, ...，DJ中的每一个元素。
8. 根据权利要求7所述的方法，其特征在于，步骤4中，用于文字分类器训练和测试的特征向量获取方法为：给定一幅训练图像和位置嵌入词典编码向量，求解编码向量在D tl上的重建系数α，给定一幅测试图像和位置嵌入词典编码向量，求解的则为编码向量在Dk上的重建系数α，那么使用的特征向量为： f = [(D〇a )T, (D1Q )τ, . . . , (DKa )τ]τ"
【专利摘要】本发明是一种基于域自适应的英文场景文字识别方法，其包括步骤：1、建立位置嵌入词典；2)基于位置嵌入词典的编码和抽取；3)中间域词典的学习；4)文字分类器的训练和测试。本发明方法先通过建立位置嵌入词典解决传统图像金字塔无法应用于场景文字识别的问题，之后通过非监督词典学习方法对训练域和目标域的分布差异进行内插，从而实现域自适应的英文场景文字识别。
【IPC分类】G06K9-00, G06K9-66
【公开号】CN104537362
【申请号】CN201510022065
【发明人】王春恒, 高嵩, 肖柏华, 史存召
【申请人】中国科学院自动化研究所
【公开日】2015年4月22日
【申请日】2015年1月16日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王春恒;高嵩;肖柏华;史存召;
技术所有人：中国科学院自动化研究所;
我是此专利的发明人

上一篇：基于视觉检测系统的橱柜调节脚全自动装配控制方法
上一篇：基于视频的测谎方法及其测谎系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。