字符识别方法和设备的制造方法_2

文档序号:9751307阅读:来源:国知局
明的实施例,可以采用回 归方法来估计字符的位置。回归方法可以包括训练阶段,其目的是通过标注好的样本训练 回归模型。
[0030] 图5示出根据本发明一个实施例的回归模型的训练方法500的流程图。如图5所示, 回归模型的训练包括以下步骤。在步骤S510,将第一样本图像的字符区域的绝对顶点坐标 归一化。
[0031] 下面以第一样本图像为银行卡图像为例描述回归模型的训练方法。根据本发明实 施例的字符识别方法是一种自学习的方法,因此可以事先准备训练数据,即上文所述的第 一样本图像。第一样本图像的数目越大、包含的银行卡种类越多并且干扰因素(例如银行卡 的放置角度倾斜、银行卡图像中存在噪声或阴影等)越多样化,则获得的回归模型考虑到的 银行卡状况越丰富,最终获得的银行卡卡号识别结果可以越准确。具体而言,可以收集一大 批现实场景中出现的银行卡的图片(参见图la至Id和图3)。由于需要识别的对象是银行卡 上面的卡号,因此可以通过人工标注的方式,指明第一样本图像中银行卡卡号所在的位置, 即指明卡号区域(参见图3中的301)。其中,卡号区域上包括四个顶点,如图3所示的302。卡 号区域的绝对顶点坐标是指卡号区域的四个顶点302的绝对坐标,即这四个顶点302在原始 的第一样本图像中的坐标。在训练阶段,可以指明这四个顶点302的绝对坐标。这样,可以用 四个顶点302的绝对坐标来表征卡号区域301。当然,可以理解的是,卡号区域还可以用卡号 区域内的其他点处的坐标或用其他位置标注方式来表示,本发明不对此进行限制。
[0032]例如,可以给定训练集S={(Ii,Pi)},i = l,2,. . .,N。其中,I表示第一样本图像。i 为图像的下标,表示第i幅图像,N为训练集S中的第一样本图像的数目。P为卡号区域在第一 样本图像中的位置,其由卡号区域的四个顶点的绝对坐标组成,即 (X3,y3),(X4,y4)}〇
[0033] 对于所有的第一样本图像,对卡号区域的位置P执行坐标归一化操作,将绝对坐标 转换为相对坐标。归一化操作过程如下:假设第一样本图像的宽度和高度分别为W和H,分别 针对该第一样本图像的卡号区域的四个顶点的绝对坐标(Xj,yj),j = 1,2,3,4,计算:
[0034]
[0035]
[0036] 其中,Y」和y'」分别为xjPn经过坐标归一化之后的坐标值。由此可以获得卡号区 域的归一化的顶点坐标P' = Kx'i,y'i),(x'2,y'2),(x'3,y'3), (x'4,y'4)}。对于所有的归一 化的顶点坐标(X' j,y ' j),j = 1,2,3,4来说,X ' j和y ' j都位于区间[0,1 ]内。
[0037] 接下来,在步骤S520,将第一样本图像缩放,以获得具有标准尺寸的第一样本图 像。
[0038] 由于训练集S中的各第一样本图像可能大小不一致,因此为了进一步的分析,可以 将训练集S中的所有第一样本图像缩放到标准尺寸。该标准尺寸可以是任何合适的标准尺 寸,例如,标准宽度为100像素,标准高度为64像素。应当理解,上述标准尺寸的示例仅是示 意性的而非限制性的。假设Γ为第一样本图像I经过缩放后的结果,即具有标准尺寸的第一 样本图像,则训练集S可以表达为S= {0-i,Pi ')},i = 1,2,· · ·,N。
[0039] 在步骤S530,根据预设的特征计算方法计算具有标准尺寸的第一样本图像的特 征。
[0040] 对于训练集S中的每一幅第一样本图像,计算其特征。可选地,第一样本图像的特 征可以包括梯度特征和/或纹理特征。相应地,预设的特征计算方法可以包括梯度特征计算 方法和/或纹理特征计算方法。
[0041 ] 梯度特征可以采用方向梯度直方图(HOG,Histogram of Oriented Gradients)特 征表示。HOG特征是图像梯度分布的统计值。HOG特征的参数可以设定为:横向(x坐标轴方 向)划分为10个单元,纵向(y坐标轴方向)划分为8个单元,梯度方向取值为0-180度,且梯度 方向划分为9个通道。由于梯度特征是在图像的局部方格单元上操作,而图像的几何形变和 光学形变主要出现在更大的空间领域上,所以梯度特征可以对图像的几何形变和光学形变 保持很好的不变性。
[0042] 纹理特征可以采用词袋模型(Bag of Words)表示。词袋模型是纹理特征的一种统 计表达,可以有效描述图像的整体和局部特性。利用词袋模型计算纹理特征包括两个主要 步骤:(1)建立码本:从训练集S中随机提取大量的图像描述符,例如尺度不变特征变换 (SIFT)等,每个图像描述符都是一个向量,采用K均值(K-means)聚类算法对这些图像描述 符进行聚类,得到K个类别(K为可以调节的参数,典型值为1024,2048,10000等)。聚类中心 被称为"词",聚类得到的所有类别组成一个"码本";(2)图像描述:对于一幅第一样本图像, 以稠密的方式提取特征描述符(如SIFT,H0G等);对于每一个描述符,在码本中搜索最相似 的聚类中心(也即词)。统计不同词在该图像中出现的频度,形成一个直方图。对该直方图作 L1归一化,得到最后的基于词袋模型的纹理特征。纹理特征通常具有旋转不变性,并且对于 图像噪声有较强的抵抗能力。
[0043]可以理解,上述梯度特征和纹理特征既可以独立使用,也可以结合起来作为组合 特征使用。例如,可以将用于表达梯度特征和纹理特征的数组串联在一起形成组合特征。
[0044] 在步骤S540,利用回归算法,根据第一样本图像的字符区域的、归一化的顶点坐标 以及具有标准尺寸的第一样本图像的特征计算回归模型。
[0045] 假设具有标准尺寸的第一样本图像Γ对应的特征为f',则训练集S可进一步表示 为S={(fi',Pi')},i = l,2,...,N。对于训练集S,可以利用脊回归(ridge regression)算法 求取回归模型。该回归模型由一个系数矩阵Π 表示。
[0046] 求取回归模型的过程如下:
[0047]将所有归一化的顶点坐标Pi',i = l,2, ...,N中的数值按顺序纵向层叠成矩阵的 形式,得到矩阵Ψ<=Ψ为NX 8的矩阵。
[0048]将所有特征fV,i = l,2, . . .,N中的数值按顺序纵向层叠成矩阵的形式,得到矩阵 X。X为L X N的矩阵,其中L为特征f '的长度(维数)。
[0049] 计算系数矩阵Π ^χΤχ+λΗΓΥΨ,其中Η为单位矩阵,Χτ为矩阵X的转置,λ为参数 (典型值为〇.〇1)。系数矩阵Π 即为回归模型,Π 为LX8的矩阵。
[0050] 下面以银行卡卡号识别系统为例说明已有的字符识别系统。已有的银行卡卡号识 别系统大多假设银行卡正对智能手机、平板电脑等设备上的摄像头,且光照条件比较理想。 因此,当银行卡的放置角度出现倾斜(参见图lc)或图像中存在阴影(参见图Id)等干扰因素 时,这些系统可能产生错误的识别结果,甚至可能完全无法识别银行卡卡号。通过上述训练 方法500获得的回归模型Π 综合考虑了若干已知的第一样本图像中的字符区域的位置与第 一样本图像的特征之间的相关性,因此回归模型Π 可以较好地抵抗干扰因素对字符识别的 影响,从而可以减小字符识别误差。
[0051] 可选地,可以利用训练好的回归模型对待识别图像进行字符区域识别,即在待识 别图像中估计字符所在的位置。图6示出根据本发明一个实施例的步骤S210的流程图。如图 6所示,步骤S210可以包括以下步骤。
[0052]在步骤S211,将待识别图像J缩放,以获得具有标准尺寸的待识别图像J'。对于待 识别图像J,将其缩放到标准尺寸。该标准尺寸与上文所述的第一样本图像缩放后的标准尺 寸相同。例如,标准尺寸可以是宽度为100像素,高度为64像素。
[0053] 在步骤S212,根据预设的特征计算方法计算具有标准尺寸的待识别图像J'的特征 f(J')。可以理解,计算特征f(J')所使用的特征计算方法与上文所述的计算具有标准尺寸 的第一样本图像的特征f'所使用的特征计算方法相同。例如,如果计算特征f'所使用的是 梯度特征计算方法,则也使用梯度特征计算方法来计算特征f(J')。在这种情况下,特征f' 和特征f(J')都是梯度特征。本领域技术人员通过阅读以上对特征f'的计算方法的描述可 以理解特征f(J')的计算方法,在此不再赘述。
[0054] 在步骤S213,将特征f (J')输入回归模型Π ,以获得待识别字符区域的、归一化的 顶
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1