语种识别方法及装置与流程

文档序号:11515305阅读:174来源:国知局
本发明涉及机器学习技术,尤其涉及一种语种识别方法及装置。
背景技术
::随着人和计算机进行交互的需求的增多,为了使人机交互更加高效,希望能有一个系统可以处理多种诸如印刷体和手写体文档形式的输入。尽管计算机被广泛应用于几乎所有领域,但是纸质文档仍然在接下来的很长时间内拥有重要的地位。此外,物理形式的商业文档广泛存在以满足现实中的多种需求。例如,传真文件,出示在法庭上的文件等等。因此,我们迫切需要能够自动提取、分析和存储来自现有的纸质表单的信息,以及,在需要时进行维护和访问的方法和系统。所有这些问题归结于文本图像分析。语种识别是文本图像处理领域中的一个重要组成部分,其应用场景有文本图像排序、搜索包含特定语言的在线文本文档、设计出多语种光学字符识别(opticalcharacterrecognition,ocr)系统以及基于基础文档的语种自动文本检索系统等等。目前,可以基于图像的纹理特征进行语种识别。现有的基于纹理特征的语种识别方法主要有:基于灰度级共生矩阵法、基于分形维数法以及基于gabor滤波器法等几种。这些方法首先均需要提取图像的纹理特征。基于灰度级共生矩阵法是根据共生矩阵来提取图像的特征值从而进行语种识别的方法。实际应用中,因为灰度共生矩阵的计算比较复杂,一般会通过图像二值化的预处理来降低运算的复杂度。这样处理后的图像的灰度级共生矩阵会产生三个值,将这三个值作为纹理特征能够用于语种识别。基于分形维数的方法的基本理念是将图像理解为一个多重的分形集,图像的纹理特征通过对相应的广义维数谱的计算得。基于分形维数的方法将文本图像当做一个分形模型来进行处理,图像的纹理特征通过差分计盒维数计算出的分形维数来表达,从而完成语种识别的任务。基于gabor滤波器方法构造基于gabor滤波器的多通道模型,从而对文本图像进行纹理特征提取,可以实现语种识别的目的。但是,上述这些方法中均存在计算量大、纹理特征提取的时间长的缺陷,因此,目前的语种识别方法效率较低。技术实现要素:为解决现有技术中存在的问题,本发明提供一种语种识别方法及装置,以提高语种识别的效率。第一方面,本发明实施例提供一种语种识别方法,包括:采用多小波变换方法获取待识别图像的纹理特征矢量;将所述待识别图像的纹理特征矢量输入预先确定的svm中,获取所述待识别图像中文本的语种。如上所示的方法中,所述采用多小波变换方法获取待识别图像的纹理特征矢量,包括:采用插值滤波法对所述待识别图像进行处理,获取所述待识别图像的系数矩阵;将所述系数矩阵中所有行的前半行元素作为二阶多小波的第一尺度函数的参数,将所述系数矩阵中所有行的后半行元素作为二阶多小波的第二尺度函数的参数;根据所述第一尺度函数的参数与所述第二尺度函数的参数确定所述二阶多小波;根据所述二阶多小波对所述系数矩阵进行分解,获取所述待识别图像的第一预设数量的细节子图和第二预设数量的逼近子图;分别确定每个所述细节子图的能量均值和能量方差;将每个所述细节子图的能量均值和能量方差作为所述待识别图像的纹理特征矢量。如上所示的方法中,所述采用插值滤波法对所述待识别图像进行预处理之前,所述方法还包括:对所述待识别图像的每个像素点的能量进行归一化处理,获取归一化后的待识别图像;所述采用插值滤波法对所述待识别图像进行处理,包括:采用插值滤波法对所述归一化后的待识别图像进行处理。如上所示的方法中,所述对所述待识别图像的每个像素点的能量进行归一化处理,获取归一化后的待识别图像,包括:根据公式获取所述待识别图像中每个像素点归一化后的能量;其中,m表示所述待识别图像中像素点的行序号,n表示所述待识别图像中像素点的列序号,w(m,n)表示像素点(m,n)的能量,q表示所述待识别图像中每一行像素点的总个数和每一列像素点的总个数;根据所有像素点归一化后的能量确定所述归一化后的待识别图像。如上所示的方法中,所述分别确定每个所述细节子图的能量均值和能量方差,包括:根据公式确定每个细节子图的能量值;其中:a表示所述细节子图中像素点的行序号,b表示所述细节子图中像素点的列序号,l=(1,2,3,4),表示每级分解同一个方向上的四个细节子图;j=(1,2),表示分解级数;k=(1,2,3),表示水平、垂直和对角三个方向;n表示所述细节子图的每一行像素点的总个数和每一列像素点的总个数,w(a,b)表示像素点(a,b)的能量;根据公式确定每个细节子图的平均能量值;根据公式确定每个细节子图的能量方差。如上所示的方法中,在将所述待识别图像的纹理特征矢量输入预先确定的支持向量机svm中,获取所述待识别图像中文本的语种之前,所述方法还包括:采用多小波变换方法获取训练图像集中每个训练图像的纹理特征矢量;根据每个所述训练图像的纹理特征矢量以及所述每个训练图像的语种标定结果,确定所述svm的分类面;所述将所述待识别图像的纹理特征矢量输入预先确定的svm中,获取所述待识别图像中文本的语种,包括:根据所述待识别图像的纹理特征矢量以及所述svm的分类面,确定所述待识别图像中文本的语种。第二方面,本发明实施例提供一种语种识别装置,包括:第一获取模块,用于采用多小波变换方法获取待识别图像的纹理特征矢量;第二获取模块,用于将所述待识别图像的纹理特征矢量输入预先确定的支持向量机svm中,获取所述待识别图像中文本的语种。如上所示的装置中,所述第一获取模块具体用于:采用插值滤波法对所述待识别图像进行处理,获取所述待识别图像的系数矩阵;将所述系数矩阵中所有行的前半行元素作为二阶多小波的第一尺度函数的参数,将所述系数矩阵中所有行的后半行元素作为二阶多小波的第二尺度函数的参数;根据所述第一尺度函数的参数与所述第二尺度函数的参数确定所述二阶多小波;根据所述二阶多小波对所述系数矩阵进行分解,获取所述待识别图像的第一预设数量的细节子图和第二预设数量的逼近子图;分别确定每个所述细节子图的能量均值和能量方差;将每个所述细节子图的能量均值和能量方差作为所述待识别图像的纹理特征矢量。如上所示的装置中,所述装置还包括:归一化处理模块,用于对所述待识别图像的每个像素点的能量进行归一化处理,获取归一化后的待识别图像;所述第一获取模块采用插值滤波法对所述待识别图像进行处理,具体包括:采用插值滤波法对所述归一化后的待识别图像进行处理。如上所示的装置中,所述归一化处理模块用于:根据公式获取所述待识别图像中每个像素点归一化后的能量;其中,m表示所述待识别图像中像素点的行序号,n表示所述待识别图像中像素点的列序号,w(m,n)表示像素点(m,n)的能量,q表示所述待识别图像中每一行像素点的总个数和每一列像素点的总个数;根据所有像素点归一化后的能量确定所述归一化后的待识别图像。本发明实施例提供的语种识别方法及装置,通过采用多小波变换方法获取待识别图像的纹理特征矢量,将待识别图像的纹理特征矢量输入预先确定的svm中,获取待识别图像中文本的语种,实现了采用多小波变换方法获取纹理特征矢量,由于多小波变换方法获取纹理特征矢量的过程较快,因此,本发明实施例提供的语种识别方法的识别效率较高。同时,由于多小波变换方法的特性,本发明实施例的语种识别方法的识别准确率也较高。因此,采用本发明实施例提供的语种识别方法提高了语种识别的效率和准确率。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的语种识别方法实施例的流程示意图;图2为图1所示实施例中s101的一种具体的实现方式的流程示意图;图3为图2中进行多小波变换的示意图;图4为图3中的实验结果示意图;图5为本发明实施例提供的语种识别方法实施例的一种具体实现方法的流程示意图;图6a为验证本发明实施例提供的语种识别方法实施例的第一图像库的示意图;图6b为验证本发明实施例提供的语种识别方法实施例的第二图像库的示意图;图7为本发明实施例提供的语种识别装置实施例的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。图1为本发明实施例提供的语种识别方法实施例的流程示意图。如图1所示,本发明实施例提供的语种识别方法包括如下步骤:s101:采用多小波变换方法获取待识别图像的纹理特征矢量。具体地,本发明实施例提供的语种识别方法可以由计算机执行。确定图像中文本的语种可以应用于对文本图像的排序或者搜索包含特定语言的在线文本文档等。基于语种识别不同的应用场景,本发明实施例中的计算机可以是搜索引擎的服务器,或者,文献数据库中的服务器。图像的纹理是一种反映图像中同质现象的视觉特征,指的是空间变化的像素强度的函数。因此,待识别图像的纹理特征矢量可以反映待识别图像的随空间变化的像素强度。本发明实施例中的待识别图像可以是由纸质材料扫描得到的文本图像,或者,是由文字编辑软件生成的文档转换而成的文本图像。待识别图像中的文字的内容可以是各种语言的小说以及文献等。图2为图1所示实施例中s101的一种具体的实现方式的流程示意图。如图2所示,在一种可能的实现方式中,采用多小波变化方法获取待识别图像的纹理特征矢量的具体过程如下:s1011:采用插值滤波法对待识别图像进行处理,获取待识别图像的系数矩阵。由于多小波变换只适用于向量信号,因此,要对图像信号进行多小波变换,必须要先对图像的行和列进行预滤波,然后将经过预滤波的图像的行和列,按照一定的规则组成向量信号,再进行多小波变换。表示一幅n×n的待识别图像。其中,n表示这个图像的每一行和每一列的像素点的总个数,可以看出,这个图像是一个正方形的图像,ai,j表示像素点(i,j)的像素值,1≤i≤n,0≤j≤n,像素点(i,j)表示的是第i行第j列的像素点。插值滤波法的具体过程如下所示:首先将待识别图像a的每一行按照下面的方式组成行向量信号:然后对airow(n)进行前置预滤波:其中,其表示预滤波器的冲激响应,则iirow(n)组成的i1为2n行,n/2列的矩阵。再进行列前置预滤波:将i1的每一列按照下面的方式组成列向量信号:然后对bicol(n)进行前置预滤波:最终得到的iicol(n)组成的i2就是该待识别图像的系数矩阵。s1012:将系数矩阵中所有行的前半行元素作为二阶多小波的第一尺度函数的参数,将系数矩阵中所有行的后半行元素作为二阶多小波的第二尺度函数的参数。具体地,可选的,本发明实施例中选取双正交多小波“ghmap2”对系数矩阵进行分解。ghmap2是双正交的多重小波函数,由两个尺度函数构造。该二阶多小波有两个参数:第一尺度函数和第二尺度函数。确定了第一尺度函数的参数和第二尺度函数的参数就确定了二阶多小波。第一尺度函数和第二尺度函数的参数指的是第一尺度函数和第二尺度函数的尺度因子。根据系数矩阵可以确定第一尺度函数的参数和第二尺度函数的参数。s1013:根据第一尺度函数的参数与第二尺度函数的参数确定二阶多小波。s1014:根据二阶多小波对系数矩阵进行分解,获取待识别图像的第一预设数量的细节子图和第二预设数量的逼近子图。具体地,本发明实施例中,对系数矩阵进行了两级分解,最终可以获得4个逼近子图和24个细节子图。图3为图2中进行多小波变换的示意图。如图3所示,先对待识别图像进行预滤波处理,获取待识别图像的系数矩阵。再对系数矩阵进行一级分解和二级分解。一级分解后有四类图:ll、hl、lh和hh。该四类图是根据多分辨分析理论将二维离散小波变换等效成通过两组镜像滤波器分解,重建信号的过程得到的参数。ll对应行、列分别卷积分解滤波器中的低通滤波器,hl对应行卷积分解高通滤波器、列卷积分解低通滤波器,以次类推lh和hh。其中hh、lh和hl保持了原始图像的边缘细节信息,刻画了图像的细节特征,称为细节子图。ll保留了原图的较多能量信息,称为逼近子图。二级分解中,对ll图再进行分解,得到16个子图。这16个子图中,有4个ll图,该4个ll图31为逼近子图,二级分解后的其他图为细节子图,因此,细节子图的数量的12+12=24个。图4为图3中的实验结果示意图,图4中图41为逼近子图,其他图为细节子图。本发明实施例中的细节子图和逼近子图指的是二级分解后的图。s1015:分别确定每个细节子图的能量均值和能量方差。具体地,可以根据细节子图中每个像素点的能量确定每个细节子图的能量均值和能量方差。细节子图以矩阵的形式存储,矩阵中每个元素的值表示的即是这个元素代表的像素点的能量。根据公式确定每个细节子图的能量值。其中:a表示细节子图中像素点的行序号,b表示细节子图中像素点的列序号,l=(1,2,3,4),表示每级分解同一个方向上的四个细节子图;j=(1,2),表示分解级数;k=(1,2,3),表示水平、垂直和对角三个方向;n表示细节子图的每一行像素点的总个数和每一列像素点的总个数。可以看到,细节子图为正方形。根据公式确定每个细节子图的平均能量值。根据公式确定每个细节子图的能量方差。s1016:将每个细节子图的能量均值和能量方差作为待识别图像的纹理特征矢量。考虑到针对文本图像,不同的方向和频率上的信息分布是不同的,而细节子图针对边缘信息的表达能力强,因此,本发明实施例中采用全部细节子图的能量均值和能量方差来构造待识别图像的纹理特征。在确定出了每个细节子图的能量均值和能量方差之后,将这些能量均值和能量方差作为待识别图像的纹理特征矢量。由于细节子图的数量为24个,每个细节子图有能量均值和能量方差两个维度的度量,因此,纹理特征矢量是48维的。纹理特征矢量表示如下:s102:将待识别图像的纹理特征矢量输入预先确定的svm中,获取待识别图像中文本的语种。具体地,支持向量机(supportvectormachine,svm)是根据训练图像集确定的。在s102之前,需要确定svm中的分类面,该过程为:采用多小波变换方法获取训练图像集中每个训练图像的纹理特征矢量;根据每个训练图像的纹理特征矢量以及每个训练图像的语种标定结果,确定svm的分类面。每个训练图像的语种标定结果指的是根据人工或者其他方式确定的该训练图像中文本的正确的语种结果。可选的,在将待识别图像的纹理特征矢量输入预先确定的svm中,获取待识别图像中文本的语种可以为:根据待识别图像的纹理特征矢量以及svm的分类面,确定待识别图像中文本的语种。本发明实施例中可以采用libsvm工具包确定svm。这是一个简单有效的关于svm的工具包,提供了多种接口,方便我们针对具体应用进行调节。同时,提供了很多的默认参数,简化了调节参数,同时提供了交互检验的功能。分类步骤如下:1)根据如下格式准备数据集:<label><index1>:<value1><index2>:<value2>...其中<label>用来标志一个类别。<index>是以1开始的整数,可以是不连续的;<value>为实数。2)使用scale方法缩放数据来提高运行效率;3)选择径向基核函数作为核函数;4)训练调节参数c与g;5)根据参数c和g完成模型的训练;6)利用训练好的svm分类器在测试集上进行测试。可选的,可以对待识别图像进行能量归一化。对于不同的待识别图像,会有不同的能量,从而影响子图能量的计算,因此,在进行多小波变换前,对待识别图像的每个像素点的能量进行归一化处理,获取归一化后的待识别图像。则在采用插值滤波法对待识别图像进行处理时,为采用插值滤波法对归一化后的待识别图像进行处理。可以根据公式获取待识别图像中每个像素点归一化后的能量。其中,m表示待识别图像中像素点的行序号,n表示待识别图像中像素点的列序号,w(m,n)表示像素点(m,n)的能量,q表示待识别图像中每一行像素点的总个数和每一列像素点的总个数。在确定所有像素点归一化后的能量后,将这些像素点的能量以矩阵的形式进行排列,则该矩阵表示的即是归一化后的待识别图像。即,根据所有像素点归一化后的能量确定归一化后的待识别图像。图5为本发明实施例提供的语种识别方法实施例的一种具体实现方法的流程示意图。如图5所示,有一待识别图像51,对该待识别图像51进行能量归一化。对归一化后的待识别图像进行多小波分解,获取分解图,从这些分解图中可以获取该待识别图像的纹理特征矢量。将纹理特征矢量输入svm中,即可以获取该待识别图像的文本的语种。这里的语种可以是英文、中文、俄文、日文或者阿拉伯文等。需要说明的是,一个svm为一个二分类的分类器。在本发明实施例中,可以预先确定多个svm,以实现多语种的识别。例如,svm1为中文与英文的分类器,svm2为俄文与日文的分类器,则svm1与svm2组成的svm系统可以实现4个语种的识别。以下描述验证本发明实施例提供的语种识别方法的过程。图6a为验证本发明实施例提供的语种识别方法实施例的第一图像库的示意图。图6b为验证本发明实施例提供的语种识别方法实施例的第二图像库的示意图。由于语种识别问题的研究领域并没有权威的可以获得的文本图像库,因此,本发明采集并建立了两个文本图像库来检验提出的方法。为了测试多小波变换提取纹理特征方法对于图像质量的鲁棒性,专门建立了第二图像库。第一图像库:将文字编辑软件形成的文档转换成静止图像,文字内容主要来自于中英文小说和民族语文翻译中心的多民族语言材料,大小为128x128,存储为8位灰度图像,包含中、英、藏、维四种文字的文本图像各300幅,几乎无质量退化现象。每一幅图像含有8个文本行。如图6a所示。第二图像库:由纸质材料扫描得到文本图像,图像来源为互联网上采集以及低质量的便携式文档格式(portabledocumentformat,pdf)的转换。大小为128x128,存储为8位灰度图像,包含英、中两种文字的文本图像各200幅。此类图像来源比较复杂,普遍具有质量退化的现象,比如断裂、噪点、倾斜等。如图6b所示。该验证过程所使用的硬件和软件配置如下:1、硬件环境:中央处理器(centralprocessingunit,cpu):intel(r)core(tm)quadcpu@2.40ghz,内存:4g;2、软件环境:操作系统:64位windows8操作系统。实验平台:matlabr2014a在该验证过程中,算法性能的评价指标分为两个部分:语种识别的效率和语种识别的效果。效率主要参考纹理特征矢量的提取时间,效果主要参考交叉验证的准确率和召回率。准确率的定义为:1.准确率=分类正确样本数/分为该类别的总样本数;召回率的定义为:2.召回率=分类正确样本数/样本集中该类样本数。分别在第一图像库和第二图像库上进行了实验,并采用十次十折交叉验证的方法对算法进行验证,得到准确率和召回率,并统计平均的特征分析时间。通过计算,本发明单幅图像的提取时间在0.4639s左右。表1为针对第一图像库的实验结果。表2为针对第二图像库的实验结果。表1针对第一图像库的实验结果表2针对第二图像库的实验结果从表1和表2可以看出,采用本发明实施例提供的语种识别方法英文图像分类的准确率在90%左右,识别的准确率较高。本发明实施例提供的语种识别方法,通过采用多小波变换方法获取待识别图像的纹理特征矢量,将待识别图像的纹理特征矢量输入预先确定的svm中,获取待识别图像中文本的语种,实现了采用多小波变换方法获取纹理特征矢量,由于多小波变换方法获取纹理特征矢量的过程较快,因此,本发明实施例提供的语种识别方法的识别效率较高。同时,由于多小波变换方法的特性,本发明实施例的语种识别方法的识别准确率也较高。因此,采用本发明实施例提供的语种识别方法提高了语种识别的效率和准确率。图7为本发明实施例提供的语种识别装置实施例的结构示意图。如图7所示,本发明实施例提供的语种识别装置包括如下模块:第一获取模块71,用于采用多小波变换方法获取待识别图像的纹理特征矢量。可选的,第一获取模块71具体用于:采用插值滤波法对待识别图像进行处理,获取待识别图像的系数矩阵;将系数矩阵中所有行的前半行元素作为二阶多小波的第一尺度函数的参数,将系数矩阵中所有行的后半行元素作为二阶多小波的第二尺度函数的参数;根据第一尺度函数的参数与第二尺度函数的参数确定二阶多小波;根据二阶多小波对系数矩阵进行分解,获取待识别图像的第一预设数量的细节子图和第二预设数量的逼近子图;分别确定每个细节子图的能量均值和能量方差;将每个细节子图的能量均值和能量方差作为待识别图像的纹理特征矢量。第二获取模块72,用于将待识别图像的纹理特征矢量输入预先确定的svm中,获取待识别图像中文本的语种。可选的,该装置还包括:归一化处理模块,用于对待识别图像的每个像素点的能量进行归一化处理,获取归一化后的待识别图像。则第一获取模块71采用插值滤波法对待识别图像进行处理,具体包括:采用插值滤波法对归一化后的待识别图像进行处理。归一化处理模块具体用于:根据公式获取待识别图像中每个像素点归一化后的能量;其中,m表示待识别图像中像素点的行序号,n表示待识别图像中像素点的列序号,w(m,n)表示像素点(m,n)的能量,q表示待识别图像中每一行像素点的总个数和每一列像素点的总个数;根据所有像素点归一化后的能量确定归一化后的待识别图像。该装置还包括:第三获取模块,用于采用多小波变换方法获取训练图像集中每个训练图像的纹理特征矢量;确定模块,用于根据每个训练图像的纹理特征矢量以及每个训练图像的语种标定结果,确定svm的分类面。则第二获取模块72具体用于根据待识别图像的纹理特征矢量以及svm的分类面,确定待识别图像中文本的语种。本发明实施例提供的语种识别装置具体可用于执行图1所示实施例的语种识别方法,其实现过程和技术原理类似,此处不再赘述。本发明实施例提供的语种识别装置,通过设置第一获取模块,用于采用多小波变换方法获取待识别图像的纹理特征矢量,第二获取模块,用于将待识别图像的纹理特征矢量输入预先确定的svm中,获取待识别图像中文本的语种,实现了采用多小波变换方法获取纹理特征矢量,由于多小波变换方法获取纹理特征矢量的过程较快,因此,本发明实施例提供的语种识别装置的识别效率较高。同时,由于多小波变换方法的特性,本发明实施例的语种识别装置的识别准确率也较高。因此,本发明实施例提供的语种识别装置提高了语种识别的效率和准确率。本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1