使用GABOR函数的模式识别系统及方法与流程

文档序号:12288120阅读:353来源:国知局
使用GABOR函数的模式识别系统及方法与流程

本发明涉及一种模式识别系统。更具体地,本发明涉及一种使用Gabor函数的模式识别系统。



背景技术:

模式识别系统可以是光学字符识别(OCR)系统。公知各种OCR系统。这些OCR系统使用字符识别过程将文本的图像转化成机器可读代码。在OCR识别系统中,将可能是字符的图像分离并且使用字符识别过程来对字符进行识别。

公知的光学字符识别过程通常包括:

·归一化步骤,其用于根据输入图像生成归一化矩阵;

·特征提取步骤;以及

·归类步骤,其用于识别字符。

特征提取步骤生成用于表征输入图像的特征向量,以及归类步骤根据该特征向量来识别字符。在一些OCR过程中,特征提取步骤涉及使用Gabor滤波器进行滤波。Gabor滤波器的选择对于OCR处理非常关键,因为Gabor滤波器决定了用以识别字符的特征向量。特征向量必须包含用以高度准确地识别字符的必要信息。太大的特征向量会造成计算缓慢,而太小的特征向量则会降低特征识别的准确度。公知的使用Gabor滤波器的OCR过程太慢或者准确度太低。这对亚洲字符的识别来说尤其如此,因为亚洲字符的数量非常多。公知的Gabor滤波器的另一缺点在于:这些Gabor滤波器在后续的归类步骤中并不能很好地起作用。

US7174044B2公开了一种公知的基于Gabor滤波器进行字符识别的方法,该方法提取了字符的特定方向的信息。该方法使用Gabor滤波器的区域的平均值(average)并且涉及大量的计算和大的特征向量。这使得使用该方法执行OCR过程会非常慢。

Qiang Huo、Yong Ge以及Zhi-Dan Feng在2001年IEEE International Conference on Acoustics,Speech,and Signal Processing(IEEE声学、语音学以及信号处理国际会议)第3卷上发表的论文“High performance Chinese OCR based on Gabor features,discriminative feature extraction and model training(基于Gabor特征、区别特征提取以及模型训练的高性能中文OCR)”描述了一种公知的关于中文字符的OCR过程。该方法较快但是识别准确性并不是特别高。

来自上海交通大学的DaiWei(戴维)的题目为“Chinese OCR System Based on Gabor Features and SVM(基于Gabor特征与SVM的汉字识别系统)”的学位论文描述了另一种OCR过程。SVM表示“支持向量机”,是一种使用了用于数据分析的相关学习算法和识别算法的监督学习模型。这种SVM系统需要超大型学习集,而这种超大型学习集使得该系统要么不切实际要么不准确。



技术实现要素:

本发明的目的在于提供一种模式识别方法,该模式识别方法提供了快速且准确的模式识别。

本发明的另一目的在于提供一种用于执行模式识别系统的计算机程序产品。

根据本发明的实施例,这些目的均得以实现。

在一个实施例中,一种用于识别输入图像的模式的方法包括如下步骤:

a)将输入图像归一化为表示归一化图像的归一化矩阵;

b)根据所述归一化矩阵生成图像向量;

c)使用矩阵向量乘法来将所述图像向量与稀疏矩阵相乘以生成特征向量,其中,所述稀疏矩阵是根据Gabor函数生成的,所述Gabor函数是被乘以高斯函数的正弦波,以及,其中,所述Gabor函数是用于指示归一化矩阵中的位置的至少一个变量以及参数集的函数,所述参数集包括:与正弦波的方向相关的参数、与Gabor函数的中心相关的参数以及与所述正弦波的波长相关的参数;

d)使用特征向量为预定模型列表创建概率密度;

e)将具有最大概率密度的模型选为最佳模型;以及

f)将最佳模型归类为所述输入图像的模式,

其中,Gabor函数具有至少两个中心,以及,其中,波长取至少两个值,第一波长值小于或大体上等于Gabor函数的两个相邻中心之间的距离,并且第一波长值小于第二波长值且大于或大体上等于第二波长值的二分之一。

已经发现通过这些步骤的组合可以实现一种快速且准确的模式识别方法。具体地,原因在于:步骤c)中所生成的特征向量大到足以使识别更为准确,而同时步骤c)中所生成的特征向量又小到足以使模式识别方法的计算较快。此外,按照较短的波长大于或等于较长的波长的二分之一,并且小于或等于Gabor函数的两个中心之间的距离来选取两个波长是一种有利的权衡:既保证了波长的数量(从而特征向量的大小)较小,同时仍然使得特征向量略微冗余。特征向量的这种冗余使得即使特征向量的所给定的元素的值被损坏也仍能够使字符被识别出。

在本发明的一个实施例中,模型通过协方差矩阵和均值向量来表征,概率密度通过如下公式来计算:

其中,符号r表示特征向量,符号∑表示协方差矩阵,符号μ表示均值向量以及k等于特征向量的元素个数。

在另一实施例中,协方差矩阵是近似的。在一个实施例中,所有模型的协方差矩阵的迹(trace)相等。在一个实施例中,可以将协方差矩阵的所有非对角元素设置为零。已经发现,结合上述方法,通过这样的协方差矩阵和均值向量来表征模型以及通过上述公式来计算概率密度会使得识别更为准确且尤其快。

在根据本发明的一个实施例中,与正弦波的方向相关的参数使得正弦波的可能的方向间的角度大体上相等。

在本发明的一个实施例中,与正弦波的方向相关的参数是角度。在另一实施例中,角度的最大值与角度的最小值之和等于π弧度。在一个实施例中,角度取6个值。

这种关于与正弦波的方向相关的参数的值的选择给出了良好的权衡(trade-off):既实现了归一化图像的足够角采样,又保证了特征向量的大小小到足以使所述方法得到快速计算。

在根据本发明的另一实施例,Gabor函数是与Gabor函数的中心相关的至少两个参数的函数。在一个实施例中,与Gabor函数的中心相关的参数使得Gabor函数的中心被均匀地间隔。

在本发明的一个实施例中,与Gabor函数的中心相关的一个参数可以对应于归一化矩阵中的竖直方向,而与Gabor函数的中心相关的另一个参数可以对应于归一化矩阵中的水平方向。在一个实施例中,Gabor函数的第一中心与归一化矩阵的边的距离可以大体上等于Gabor函数的两个相邻中心之间的距离的二分之一。

这种关于Gabor函数的中心的选择给出了归一化图像的良好角采样,并且保证了特征向量的大小小到足以使所述方法得到快速计算。在根据本发明的另一实施例中,Gabor函数包括与高斯函数的宽度相关的参数,该参数可以是高斯函数的标准差。在一个实施例中,高斯函数的标准差小于Gabor函数的两个相邻的中心之间的距离且大于Gabor函数的两个相邻中心之间的距离的二分之一。这种关于高斯函数的宽度的选择给出了归一化图像的良好角采样,并且保证了特征向量的大小小到足以使所述方法得到快速计算。

在根据本发明的一个实施例,模式是两种颜色模式、字符、亚洲字符、字符组、标志、图片、设计、声音序列、影片片段或三维模式。

在根据本发明的另一实施例中,归一化矩阵表示归一化图像,归一化矩阵的每个元素对应于归一化图像上的位置。归一化图像包括待识别的模式,并且归一化矩阵是表示归一化图像的数学对象。可以通过数学方法对归一化矩阵进行处理以便于提取归一化图像的特征,这些特征使得能够识别出模式。

在根据本发明的一个实施例中,将输入图像归一化为归一化矩阵的步骤包括缩放处理(scaling)、阈值处理thresholding)、平滑处理(smoothing)、插值处理(interpolation)以及滤波处理(filtering),并且与该归一化矩阵相对应的归一化图像具有预定格式。将输入图像归一化为归一化矩阵的步骤将具有待识别的模式的输入图像转化为可行格式(workable format)。该可行格式是具有多个特定特征的矩阵。这些特定特征可以是:归一化矩阵是二进制,以及在归一化图像中,距中心的距离的标准差是恒定的,该中心的值表示给定颜色的像素。

根据本发明的实施例中,图像向量的元素等于归一化矩阵的元素。在将归一化矩阵变换为图像向量的步骤中,图像向量的元素通常等于归一化矩阵的元素。由于在本发明的一个实施例中归一化矩阵的元素为二进制数,因此图像向量的元素可以是二进制数。

在根据本发明的实施例中,在特征向量中,关于归一化矩阵的元素的信息是冗余的。这种冗余提高了模式识别的准确度并且可以通过参数的选择来实现,尤其是通过如下事实来实现:在本发明的一个实施例中,较短的波长小于两个相邻中心之间的距离,并且较长的波长大于两个相邻中心之间的距离。

在根据本发明的一个实施例中,特征向量是近似的。这会增大模式识别方法的计算速度。重点是模式识别的准确度,而特征向量的准确度较为不重要。

在根据本发明的一个实施例中,归一化矩阵是64×64矩阵,图像向量具有4096个元素,稀疏矩阵是300×4096矩阵,协方差矩阵是300×300矩阵,均值向量具有300个元素,特征向量具有300个元素,与正弦波的方向相关的角度取值为0、0.523598、1.0472、1.5708、2.09439以及2.61799弧度,Gabor函数的中心位于如下位置处:(6,6)、(6,18)、(6,30)、(6,42)、(6,54)、(18,6)、(18,18)、(18,30)、(18,42)、(18,54)、(30,6)、(30,18)、(30,30)、(30,42)、(30,54)、(42,6)、(42,18)、(42,30)、(42,42)、(42,54)、(54,6)、(54,18)、(54,30)、(54,42)、(54,54),第一波长值等于11,第二波长值等于22,以及高斯函数的标准差等于8。已经发现该实施例给出了非常良好的准确度并且相应的计算较快。

在本发明的另一实施例中,计算机程序产品包括计算机可用介质,所述计算机可用介质中存储有控制逻辑,所述控制逻辑用于使得计算装置对输入图像中的模式进行识别。所述控制逻辑包括:

a)第一计算机可读程序代码模块,用于将输入图像归一化为表示归一化图像的归一化矩阵;

b)第二计算机可读程序代码模块,用于根据所述归一化矩阵生成图像向量;

c)第三计算机可读程序代码模块,用于使用矩阵向量乘法来将所述图像向量与稀疏矩阵相乘以生成特征向量,其中,所述稀疏矩阵是根据Gabor函数生成的,所述Gabor函数是被乘以高斯函数的正弦波,以及,其中,所述Gabor函数是用于指示归一化矩阵中的位置的至少一个变量以及参数集的函数,所述参数集包括:与正弦波的方向相关的参数、与Gabor函数的中心相关的参数以及与所述正弦波的波长相关的参数;

d)第四计算机可读程序代码模块,用于使用特征向量来为预定模型列表创建概率密度;

e)第五计算机可读程序代码模块,用于将具有最大概率密度的模型选为最佳模型;以及

f)第六计算机可读程序代码模块,用于将最佳模型归类为所述输入图像的模式,

其中,Gabor函数具有至少两个中心,以及,其中,波长取至少两个值,第一波长值小于或大体上等于Gabor函数的两个相邻中心之间的距离,并且第一波长值小于第二波长值且大于或大体上等于第二波长值的二分之一。

在本发明的一个实施例中,一种用于识别输入图像中的模式的方法包括如下步骤:

a)将输入图像归一化为表示归一化图像的归一化矩阵;

b)使用Gabor函数来根据归一化矩阵创建特征向量,其中,Gabor函数是被乘以高斯函数的正弦波,并且取决于与归一化图像上的位置相关的至少一个变量以及包括如下项的参数集:与正弦波的方向相关的参数、与Gabor函数的中心相关的至少一个参数以及与正弦波的波长相关的参数;

c)根据特定向量和预定模型108的列表生成每个模型的概率密度;

d)将具有最大概率密度的模型识别为输入图像中的模式,

其中,所述Gabor函数具有至少两个中心,并且所述波长从具有至少一个值的第一组值以及具有至少一个值的第二组值中进行取值,其中:

a.具有至少一个值的第一组值小于或大体上等于Gabor函数的两个相邻中心之间的距离,以及

b.具有至少一个值的第一组值大于或大体上等于具有至少一个值的第二组值中的数值的二分之一。

已经发现通过这些步骤的组合可以实现一种快速且准确的模式识别方法。具体地,首先步骤c)中所生成的特征向量大到足以使识别更为准确,其次步骤c)中所生成的特征向量又小到足以使模式识别方法的计算较快。此外,按照较短的波长大于或等于较长的波长的二分之一,并且小于或等于Gabor函数的两个中心之间的距离来选取两个波长是一种良好的权衡:既保证了波长的数量(从而特征向量的大小)较小,同时仍然使得特征向量略微冗余。

在本发明的一个实施例中,模型通过由协方差矩阵和矩阵向量来表征。概率密度可以通过如下公式进行计算:

其中,符号r表示特征向量,符号∑表示协方差矩阵,符号μ表示均值向量以及k等于特征向量的元素个数。在本发明的实施例中,可以将协方差矩阵的所有非对角元素设置为零,协方差矩阵可以是近似的,所有模型的协方差的迹可以相等。已经发现,结合上述方法,通过这样的协方差矩阵和均值向量来表征模型以及通过上述公式来计算概率密度会使得识别更为准确且尤其快。

在根据本发明的实施例中,与正弦波的方向相关的参数使得正弦波的可能的方向间的角度大体上相等。

在根据本发明的实施例中,与正弦波的方向相关的参数是角度并且该角度的最大值与该角度的最小值之和等于π弧度。该角度可以取6个值。这种关于与正弦波的方向相关的参数的值的选择给出了良好的权衡:既实现了归一化图像的足够角采样,又保证了特征向量的大小小到足以使所述方法得到快速计算。

在根据本发明的实施例中,至少两个参数与Gabor函数的中心相关并且可以使得Gabor函数的中心被均匀地间隔。与Gabor函数的中心相关的一个参数可以对应于归一化矩阵中的竖直方向,而与Gabor函数的中心相关的另一个参数可以对应于归一化矩阵中的水平方向。Gabor函数的第一中心与归一化矩阵的边的距离可以大体上等于Gabor函数的两个相邻中心之间的距离的二分之一。这种关于Gabor函数的中心的选择给出了归一化图像的良好角采样,并且保证了特征向量的大小小到足以使所述方法得到快速计算。

在根据本发明的实施例中,参数与高斯函数的宽度相关,该参数可以是高斯函数的标准差。高斯函数的标准差可以小于Gabor函数的两个相邻的中心之间的距离且大于Gabor函数的两个相邻中心之间的距离的二分之一。这种关于高斯函数的宽度的选择给出了归一化图像的良好角采样,使得特征向量略微冗余并且保证了特征向量的大小小到足以使所述方法得到快速计算。

在根据本发明的实施例中,模式是两种颜色模式、字符、亚洲字符、字符组、标志、图片、设计、声音序列、影片片段或三维模式。

在根据本发明的实施例中,归一化矩阵表示归一化图像,归一化矩阵的每个元素对应于归一化图像上的位置。归一化图像包括用于识别的模式,并且归一化矩阵是表示归一化图像的数学对象。可以通过数学方法对归一化矩阵进行处理以便于提取归一化图像的特征,这些特征使得能够识别出模式。

在根据本发明的一个实施例中,将输入图像归一化为归一化矩阵的步骤包括缩放处理、阈值处理、平滑处理、插值处理以及滤波处理,并且与该归一化矩阵相对应的归一化图像具有预定格式。将输入图像归一化为归一化矩阵的步骤将具有待识别的模式的输入图像转化为可行格式。该可行格式是具有多个特定特征的矩阵。这些特定特征可以是:归一化矩阵是二进制,以及在归一化图像中,距中心的距离的标准差是恒定的,该中心的值表示给定颜色的像素。

根据本发明的实施例中,图像向量的元素等于归一化矩阵的元素。在将归一化矩阵转换为图像向量的步骤中,图像向量的元素通常等于归一化矩阵的元素。由于在本发明的一个实施例中归一化矩阵的元素为二进制数,因此图像向量的元素可以是二进制数。

在根据本发明的实施例中,特征向量中的归一化矩阵的元素的信息是冗余的。这种冗余提高了模式识别的准确度并且可以通过参数的选择来实现,尤其是通过如下事实来实现:在本发明的一个实施例中,Gabor函数的高斯函数的标准差小于两个相邻中心之间的距离而大于两个相邻中心之间的距离的二分之一。

在本发明的实施例中,特征向量是近似的。这将增大模式识别方法的计算速度。重点是模式的识别的准确度,而特征向量的准确度较为不重要。

在根据本发明的一个实施例中,归一化矩阵是64×64矩阵,图像向量具有4096个元素,稀疏矩阵是300×4096矩阵,协方差矩阵是300×300矩阵,均值向量具有300个元素,特征向量具有300个元素,与正弦波的方向相关的角度取值为0、0.523598、1.0472、1.5708、2.09439以及2.61799弧度,Gabor函数的中心位于如下位置处:(6,6)、(6,18)、(6,30)、(6,42)、(6,54)、(18,6)、(18,18)、(18,30)、(18,42)、(18,54)、(30,6)、(30,18)、(30,30)、(30,42)、(30,54)、(42,6)、(42,18)、(42,30)、(42,42)、(42,54)、(54,6)、(54,18)、(54,30)、(54,42)、(54,54),第一波长值等于11,第二波长值等于22,以及高斯函数的标准差等于8。已经发现该实施例给出了非常良好的准确度并且相应的计算较快。

在本发明的另一实施例中,计算机程序产品包括计算机可用介质,所述计算机可用介质中存储有控制逻辑,所述控制逻辑用于使得计算装置对输入图像中的模式进行识别。所述控制逻辑包括:

a)第一计算机可读程序代码模块,其用于将输入图像归一化为表示归一化图像的归一化矩阵;

b)第二计算机可读程序代码模块,用于使用Gabor函数来根据归一化矩阵创建特征向量,其中,Gabor函数是被乘以高斯函数的正弦波,并且取决于与归一化图像上的位置相关的至少一个变量以及包括如下项的参数集:与正弦波的方向相关的参数、与Gabor函数的中心相关的至少一个参数以及与正弦波的波长相关的参数;

c)第三计算机可读程序代码模块,用于根据特定向量和预定模型列表生成每个模型的概率密度以将最佳模型识别为输入图像中的模式;

d)第四计算机可读程序代码模块,用于将具有最大概率密度的模型识别为输入图像中的模式,

其中,所述Gabor函数具有至少两个中心,并且所述波长从具有至少一个值的第一组值以及具有至少一个值的第二组值中进行取值,其中:

a.具有至少一个值的第一组值小于或大体上等于Gabor函数的两个相邻中心之间的距离,以及

b.具有至少一个值的第一组值大于或大体上等于具有至少一个值的第二组值中的数值的二分之一。

附图说明

为了更好地理解本发明,现在将通过示例来参考附图,在附图中:

图1示出了根据本发明的光学字符识别过程的流程图。

图2示出了根据本发明的光学字符识别过程中的归一化步骤的示意图。

图3示出了根据本发明的光学字符识别过程中的特征提取步骤的流程图。

图4示出了根据本发明的光学字符识别过程中用于描绘如何生成稀疏矩阵的元素的流程图。

图5a示出了根据本发明的光学字符识别过程中所使用的稀疏矩阵与图像向量之间的矩阵乘法的图示。

图5b示出了根据本发明的光学字符识别过程中所使用的阈值矩阵的图示。

图6示出了根据本发明的光学字符识别过程中的归类步骤的流程图。

具体实施方式

将针对特定实施例并参考某些附图对本发明进行描述,但本发明并非限定于此。所描述的附图仅为示意性的而非限制性的。在附图中,出于示意性目的,一些要素的尺寸可能被扩大而没有按比例绘制。

此外,说明书和权利要求书中的术语“第一”、“第二”、“第三”等是用于区分相似元件,而不一定用于描述连续的或时间上的顺序。这些术语在适当情况下可以互换,本文所描述的本发明的实施例可在不同于这里所述或所示的其它位置操作。

另外,尽管这些被称之为“优选的”的各个实施例被理解为示例性方式,但是本发明可以通过这些示例性方式来实现而并非这些示例性方式用于限定本发明的范围。权利要求书中所使用的术语“包括”将不被解释为对在其后列出的元件或步骤的限制;它并不排除其他元件或步骤。该术语应被解释为是强调所说明的特征、整体、步骤或部件的存在,而并未排除存在或添加一个或多个其它特征、整体、步骤或部件或其组群的可能性。因此,表达式“包括A和B的设备”的范围不应该限于仅包括部件A和B的设备。而是,就本发明而言,所枚举的设备的部件仅仅是A和B,此外,权利要求书应当解释为包括这些部件的等同物。

这里假定将二进制数、向量以及矩阵写成0或1,但是对于本领域技术人员而言明显的是上述项还可以写成正确或错误、黑色或白色或者用于称述二进制状态的任意其他方式。

在本发明的一个实施例中,对二进制图像进行处理。二进制图像是数字图像,对于每个像素而言仅具有两种可能的颜色。通常为黑色和白色的两种颜色可以表示为真值和假值,或者1和0。使用1和0进行表示对于执行数学图像处理尤其有用。二进制图像的处理通常涉及多个滤波步骤,这些滤波步骤是为了例如增强图像的某些特征,或者为了对图像执行某些形态学操作。在数学上通常通过矩阵来描述滤波器,而滤波器在二进制图像上的应用是通过滤波器矩阵与二进制图像矩阵的矩阵相乘来描述的。例如,这类操作可以用于光学字符识别,作为考虑到对光学字符进行识别而在图像处理过程中的用于提取图像特征的一个步骤。

光学字符识别系统使用字符识别过程将文本的图形转化成机器可读代码。在OCR识别系统中,可能是字符的图像被分离并且字符识别过程用于对字符进行识别。

本发明的实施例涉及开始于表示字符或其他模式的输入图像的光学字符识别。在本发明的一个优选实施例中,光学字符识别开始于表示亚洲字符的输入图像。在本发明的一个实施例中,输入图像是两种颜色的图像。在本发明的一个优选实施例中,输入图像是白色和黑色图像。在本发明的一个实施例中,输入图像是二维图像。在本发明的一个实施例中,输入图像表示包括要被识别系统识别的字符、标识、图片或设计的模式。在本发明的另一实施例中,模式是要被识别系统识别的声音序列、影片片段或者三维模式。

图1示出了根据本发明的一个实施例的光学字符识别过程101,其包括:

·归一化步骤103,其根据输入图像102生成归一化矩阵104;

·特征提取步骤105,其根据归一化矩阵104生成特征向量106;

·归类步骤107,其为输入图像102计算出一系列可能模式108中的最佳模式109。归类步骤107还返回每个模式的概率密度110,该概率密度110提供了归类步骤107的准确度的测量。

在归一化步骤103中,输入图像102被细分为多个像素201。如图2所示,输入图像102的每个像素201表示为中间矩阵203的元素202。在本发明的一个实施例中,中间矩阵203是二进制矩阵。中间矩阵203经历了多个步骤的组合,这些步骤可以包括:缩放处理、阈值处理、平滑处理、差值处理、滤波处理等等。这些步骤的组合的输出是与归一化图像206相对应的归一化矩阵104。在本发明的一个实施例中,归一化图像206具有预定格式并且被居中。

归一化矩阵104的每个元素207对应于归一化图像206中的具有所述预定格式的像素208。

在本发明的一个实施例中,归一化矩阵104是二进制矩阵,这个二进制矩阵对应于两种颜色的归一化图像106。归一化矩阵104的每个元素由该矩阵的行x 204和该矩阵的列y 205来表征,其与归一化图像206上的位置相对应。在本发明的一个实施例中,归一化矩阵104是64×64矩阵。在本发明的一个实施例中,在归一化图像206中,距中心的距离的标准差是恒定的,该中心的值表示给定颜色的像素。在本发明的一个优选实施例中,在归一化图像206中,距中心的距离的标准差为16个像素,该中心的值表示给定颜色的像素。在本发明的一个实施例中,归一化步骤103期间保持了模式或字符的纵横比(height width aspect ratio)。

根据归一化矩阵104生成特征向量106的特征提取步骤105涉及矩阵向量乘法304。这可以借助于图3来进行详细地说明。维度为A×B的归一化矩阵104被变换为长度为A*B的图像向量301。在该变换期间,图像向量301的每个元素被设置成等于归一化矩阵104的元素从而使得只需一次就能将归一化矩阵104的所有元素复制到图像向量301中。在本发明的一个实施例中,图像向量301是二进制矩阵。该图像向量301包括归一化图像206的信息。归一化矩阵104中行x 204和列y 205的元素的位置,即,与归一化图像206中的位置相对应的位置,还对应于索引j 302的特定值,该索引j 302指示图像向量301的第j个元素。在本发明的一个实施例中,图像向量301具有4096个元素并且索引j可以取值为介于1与4096之间的所有整数。这对应于64×64归一化矩阵104(64*64=4096)。

在本发明的一个实施例中,矩阵向量乘法304是近似的,并且特征向量106是稀疏矩阵303与图像向量301之间的矩阵相乘的精确数学结果的近似值。索引i 401用于指定特征向量106中的第i个元素。在本发明的实施例中,形容词“稀疏的”指示该矩阵主要是由零填充的。

图4示出了使用Gabor函数404生成稀疏矩阵303的位于行i 401和列j 302处的元素。稀疏矩阵303的所有元素406是通过同样的方式生成的。Gabor函数404是正弦平面波与高斯函数的乘积。Gabor函数404具有参数402以及变量x 204和变量y 205来作为输入,其中,参数402对应于索引i,变量x 204和变量y 205对应于索引j。

要计算的稀疏矩阵的元素406的行索引i 401指定了Gabor函数404中所使用的参数402所采用的值。在本发明的一个实施例中,参数402由符号αi、σi、λi、Cxi以及Cyi来表示:

·αi是与Gabor函数404的正弦平面波的方向相关的角度;

·σi是Gabor函数404的高斯函数的标准差;

·λi是Gabor函数404的正弦平面波的波长;

·Cxi是Gabor函数404在归一化图像206上沿着竖直方向的中心;以及

·Cyi是Gabor函数404在归一化图像206上沿着水平方向的中心。

在本发明的一个实施例中,可以按照如下方式来选择参数:

·Cxi值是均匀间隔的。

·如果两个Cxi值之间的距离被称之为dCx,则第一Cxi,Cx1等于dCx/2。

·Cyi值是均匀间隔的。

·如果两个Cyi值之间的距离被称之为dCy,则第一Cyi,Cy1等于dCy/2。

·角度αi是均匀间隔的。

·αi的最大值与αi的最小值之和等于π弧度。

·σi的值小于dCx。

·σi的值大于dCx/2。

·σi的值小于dCy。

·σi的值大于dCy/2。

·在具有至少一个值的第一组值中,λi的值小于dCx且小于dCy。

·在具有至少一个值的第二组值中,λi的值使得第一组值中的值大于或大体上等于第二组值中的值的二分之一。

在本发明的其他实施例中,参数满足下列一个或几个条件:

·dCx与dCy相等。

·Cxi取5个值。

·Cyi取5个值。

·αi取6个值。

·αi取值为0、0.523598、1.0472、1.5708、2.09439以及2.61799弧度。

·σi取1个值。

·λi取2个值:λ1和λ2

·λ1小于dCx。

·λ1小于dCy。

·λ2大于λ1且小于或等于2*λ1

在64×64归一化矩阵104的一个优选实施例中,位置Cxi为6、18、30、42以及54,位置Cyi为6、18、30、42以及54,标准差σi为8,波长λi为11和22。表1给出了本发明的一个实施例的参数的值。

参数402的数值的集合的数量等于(Cxi的数值个数*Cyi的数值个数*αi的数值个数*σi的数值个数*λi的数值个数)。在一个优选实施例中,参数集的数量等于300=5*5*6*1*2并且行索引i 401取值为介于1值300之间的整数值。

要计算的稀疏矩阵的元素406的列索引j 302指定了Gabor函数404所使用的变量x 204和变量y 205的值。

Gabor函数404可以表示为:

Gabor函数的下列输出是稀疏矩阵303中行i 401和列j 302的元素406:

·根据参数402的、与索引i 401相对应的给定的一组值所计算出的Gabor函数的输出,

·在归一化图像206中与索引j 302相对应的行x 204和列y 205的位置处所计算出的Gabor函数的输出。

稀疏矩阵303的列数等于图像向量301的元素个数。在本发明的一个实施例中,稀疏矩阵303是300×4096矩阵。

在本发明的一个实施例中,稀疏矩阵的元素(i,j)406由下列公式给出。

符号“%”表示模运算并且优先于“*”和“/”运算,并且符号“//”给出了整数之间进行除法的结果的整个部分并且优先于“*”和“/”运算。参数采用如下值:

nbα=6

nbλ=2

波长最大值=22

步长=12

nb步骤=5

nb特征=300

σ=8。

nb步骤使得Cxi和Cyi小于或等于64。

矩阵向量乘法304被执行来将稀疏矩阵303与图像向量301相乘,如图5所示,稀疏矩阵303为所述乘法的第一个因子,而图像向量301为所述乘法的第二个因子。稀疏矩阵303与图像向量301的乘积的向量结果是特征向量106。特征向量106的元素个数等于稀疏矩阵303的行数。在本发明的一个优选实施例中,特征向量106的元素个数等于300。

在本发明的一个实施例中,特征向量106包括关于输入图像102的特定信息,该特定信息与考虑到模式识别的图像特征重要性有关。参数的选择,以及尤其是本发明的一个实施例中Gabor函数中的高斯函数的标准差小于两个相邻的中心之间的距离而大于两个相邻的中心之间的距离的二分之一的事实使得特征向量106中所包括的信息略微冗余。这种特征向量106中的信息的冗余提高了归类步骤107的准确度。

图5a示出了稀疏矩阵303与图像向量301之间的矩阵乘法产生了特征向量106。稀疏矩阵303的元素被称之为Mij。i为给出了行数的索引并且取值为介于1与m之间的所有整数值。j为给出了列数的索引并且取值为介于1与n之间的所有整数值。图像向量301具有一列称之为vj的n个元素。特征向量106具有一列称之为ri的m个元素。矩阵乘法使得特征向量106的元素ri按照如下等式被计算:

可以将等式1中的一些项忽略不计。例如,vj等于零的情况下,项Mij vj同样等于零。此外,当vj等于1并且稀疏矩阵303的元素Mij较小时,则也可以将项Mij vj忽略不计。为了对“小”进行控制,如图5b所示,本发明的一个实施例使用了具有元素Tij的阈值矩阵501。在本发明的一个实施例中,如果Mij小于Tij,则可以将项Mij vj忽略不计。在本发明的另一实施例中,阈值矩阵501的所有参数Tij均具有相同值。因为Gabor函数404是正弦平面波与高斯函数的乘积,因此稀疏矩阵303的一些元素非常小。

可以借助于图6来描述OCR过程101的归类步骤107。在本发明的一个实施例中,归类步骤107是最邻近归类方法的变体,所述最邻近归类方法使用了使用加权欧氏距离,其中,对于每一类而言权重是不同的。归类步骤107使用了特征向量106和模型108作为输入。在本发明的一个实施例中,模型108对应于字符、字符组或给定字体族中的字符。在本发明的一个实施例中,模型108对应于亚洲字符、亚洲字符组或给定字体族中的亚洲字符。在本发明的一个实施例中,所述模型108对应于声音序列、影片片段或者三维模式。

在本发明的一个实施例中,模型108是由协方差矩阵∑和矩阵向量μ进行限定的。在本发明的一个实施例中,∑的所有非对角元素被设置为零。在本发明的一个实施例中,将协方差矩阵∑与常数(对于每个模型而言常数不同)相乘从而使得所有模型的协方差矩阵∑的迹相同。在本发明的一个实施例中,协方差矩阵是近似的。在本发明的一个实施例中,∑为300×300矩阵并且μ是具有300个元素的向量。

为了选出对应于特征向量106的与输入图像102最佳对应的模型,针对每个模型108按照如下公式计算概率密度110:

其中,符号r表示特征向量106。符号|∑|表示矩阵Σ的行列式并且(r-μ)t指示向量(r-μ)的转置。k等于特征向量的106的元素个数。在本发明的实施例中,k等于300。(r-μ)t∑(r-μ)的乘积等于遵循常规数学约定的矩阵乘法。

一旦在计算步骤601中计算出每个模型108的概率密度601,那么就可以在选择步骤602中选取最佳模型109。最佳模型109是具有最大概率密度110的模型。在本发明的一个实施例中,归类步骤107返回最佳模型109和每个模型的概率密度110,以提供归类步骤的准确度的测量值。在一个可替代实施例中,归类步骤107仅返回最佳模型109。在另一可替代实施例中,归类步骤107仅返回每个模型的概率密度110。

本发明的一个实施例包括下述两项的组合:

-如上所述的使用参数402的特征提取步骤105与组合,以及

-基于加权欧氏距离的归类步骤107,其中,协方差矩阵∑的所有非对角元素被设置为零并且所有的模型的协方差矩阵∑的迹相等。

这种OCR系统使得图像重构能够被高效地计算并且使得OCR准确度非常高。

表1

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1