一种图像维吾尔文单词识别方法及装置与流程

文档序号：12365631阅读：309来源：国知局

本发明涉及光学字符识别领域，具体而言，涉及一种图像维吾尔文单词识别方法及装置。

背景技术：

印刷体维吾尔文识别的研究对维吾尔文化的研究及维吾尔文纸质材料的保存和数字化有着重要意义。现有的印刷体维吾尔文识别方法都是基于“先切分、再识别”的思路。将扫描图像中的维吾尔文单词分割成字母，再提取字母的特征信息作为待识别特征向量，将待识别特征向量与先前样本训练得到字母特征向量库中的特征向量进行对比，从而对所切分出的字母进行识别。其中，字母特征向量库中包括维吾尔32个字母的各种字形的特征向量。然而，无论是印刷体还是手写体维吾尔文都有连写和不等宽的特点，使得字母的边界难以确定，导致字母切分不准确，为字母识别带来困难。此外，维吾尔文的连体段之间空隙和单词间的空格不易分辨，使识别率受到限制并影响到后处理效果。

技术实现要素：

鉴于此，本发明的目的在于提供一种图像维吾尔文单词识别方法及装置，将维吾尔文单词图像分割为多个部件，通过获取每一个部件的特征信息构建所述维吾尔文单词图像的特征向量，通过识别所述特征向量获得维吾尔文单词图像对应的文本单词。

为了实现上述目的，本发明采用的技术方案如下：

第一方面，本发明实施例提供了一种图像维吾尔文单词识别方法，所述方法包括：获取维吾尔文单词图像，所述维吾尔文单词图像包括一个或多个连体段；根据所述维吾尔文单词图像对应的基线域将所述维吾尔文单词图像的每一个连体段分割为一个或多个部件；获取所述维吾尔文单词图像的每个所述部件的特征信息得到所述维吾尔文单词图像的特征向量；将所述维吾尔文单词图像的特征向量与预设的特征词典进行对比，以获得所获取的所述维吾尔文单词图像的特征向量对应的文本单词，其中，所述特征词典包括根据文本单词获得的所述特征向量与所述文本单词的对应关系。

第二方面，本发明实施例还提供了一种图像维吾尔文单词识别装置，包括：单词图像获取模块、部件分割模块、特征向量获取模块及识别模块。单词图像获取模块用于获取维吾尔文单词图像，所述维吾尔文单词图像包括一个或多个连体段。部件分割模块用于根据所述维吾尔文单词图像对应的基线域将所述维吾尔文单词图像的每一个连体段分割为一个或多个部件。特征向量获取模块用于获取所述维吾尔文单词图像的每个所述部件的特征信息得到所述维吾尔文单词图像的特征向量。识别模块用于将所述维吾尔文单词图像的特征向量与预设的特征词典进行对比，以获得所获取的所述维吾尔文单词图像的特征向量对应的文本单词，其中，所述特征词典包括根据文本单词获得的所述特征向量与所述文本单词的对应关系。

相比于现有的识别方法，本发明实施例提供的图像维吾尔文单词识别方法及装置是将维吾尔文单词图像切分为一个或多个部件，无需准确地切分出维吾尔文单词图像中的每个字母，降低了维吾尔文单词图像的切分难度。进一步，利用所获取到的维吾尔文单词图像中的部件的特征信息构建该维吾尔文单词图像的特征向量作为待识别对象，有效地提高了维吾尔文单词图像的可识别率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的计算机的方框示意图；

图2示出了本发明实施例提供的一种图像维吾尔文单词识别方法的流程图；

图3示出了本发明实施例提供的另一种图像维吾尔文单词识别方法的流程图；

图4示出了本发明实施例提供的一个示例性文本图像；

图5示出了本发明实施例提供的对图4所示的文本图像进行分割得到的一个维吾尔文单词图像；

图6示出了图5所示的维吾尔文单词图像的连体段和基线域的示意图；

图7示出了步骤S204中获取每一个文本行图像的基线域的方法流程图；

图8示出了本发明实施例提供的一种图像维吾尔文单词识别方法的一种具体实施方式的流程图；

图9示出了图5所示的维吾尔文单词图像的部件分割示意图；

图10示出了沿纵向方向将图5所示的维吾尔文单词图像划分为三个区域的示意图；

图11示出了本发明实施例提供的一种图像维吾尔文单词识别装置的结构框图；

图12示出了本发明实施例提供的另一种图像维吾尔文单词识别装置的结构框图；

图13示出了本发明实施例提供的一种图像维吾尔文单词识别装置一种具体实施方式的结构框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

如图1所示，是本发明较佳的实施例提供的计算机100的方框示意图。所述计算机100包括图像维吾尔文单词识别装置200、存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105。

所述存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述图像维吾尔文单词识别装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块，例如，所述图像维吾尔文单词识别装置200包括的软件功能模块或计算机100程序。

其中，存储器101可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器101用于存储程序，所述处理器103在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器103中，或者由处理器103实现。

处理器103可能是一种集成电路芯片，具有信号的处理能力。上述的处理器103可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。

所述外设接口104将各种输入/输出装置耦合至处理器103以及存储器101。在一些实施例中，外设接口104，处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

输入输出单元105用于提供给用户输入数据实现用户与所述计算机的交互。所述输入输出单元105可以是，但不限于，鼠标和键盘等。

图2示出了本发明实施例提供的图像维吾尔文单词识别方法的流程图。请参照图2，该方法至少包括步骤S210至步骤S240。

步骤S210：获取维吾尔文单词图像。

本实施例中，获取维吾尔文单词图像的具体方式可以为：将获取到的文本图像分割为多个文本行图像，将每一个文本行图像分割为多个维吾尔文单词图像，从而获取到维吾尔文单词图像。其中，文本图像中有多个文本行，每一个文本行包括多个维吾尔文单词。所述文本图像为印刷体维吾尔文文本资料的图像。例如，可以利用光学电子仪器，如扫描仪、相机等，将印刷体维吾尔文文本资料转换成对应的图像后导入计算机100中进行处理。

因此，如图3所示，获取维吾尔文单词图像之前，本发明实施例提供的图像维吾尔文单词识别方法还包括步骤S201、步骤S202、步骤S203及步骤S204。

步骤S201：获取文本图像。

其中，所获取的文本图像可以是预先存储在计算机中的印刷体维吾尔文文本资料的图像，也可以是通过输入输出单元105实时输入。例如，输入输出单元105可以为扫描仪。文本图像包括多个文本行图像，每一个文本行图像包括多个维吾尔文单词图像。

需要说明的是，获取到的文本图像后，还需要先对获取到的文本图像进行预处理。预处理过程可以包括文本图像的二值化处理、去噪处理、图像的倾斜矫正等。

具体的，文本图像的二值化处理过程为：通过预先设定的灰度阈值将文本图像的灰度图像转化为灰度值为0或255的二值图像。其中，灰度阈值可以是一个固定值，所述固定值可以根据多次试验的经验值设置。当然，也可以根据二值化算法自适应地获取图像的灰度阈值。例如，所述二值化算法可以为大律法、双峰法、迭代法等。

对文本图像进行二值化处理后，可以进一步对文本图像进行去噪处理，以剔除图像的获取或传输过程中产生的噪点，有利于后续对文本图像的处理。通常采用的去噪方法，即滤波方法有中值滤波、均值滤波、数学形态学滤波等。

另外，获取文本图像的过程中，可能由于文本资料的放置原因或扫描仪等输入设备的原因导致获取到的文本图像存在一定的倾斜，进而影响后续的图像分割。因此，还可以对二值化、去噪处理后的文本图像进行倾斜矫正。本实施例中，可以利用常用的倾斜矫正算法获取文本图像的倾斜方向及倾斜角度，从而进一步对文本图像进行倾斜矫正。目前，常用的文本倾斜矫正算法包括：投影特征法、霍夫变换法、交叉相关法、傅里叶变换法、近邻法等。

步骤S202：将文本图像分割为多个文本行图像。

维吾尔文是从右向左按行书写。本实施例中，文本图像中相邻文本行之间有较明显的空白。因此，可以通过二维图像的水平投影直方图实现文本图像的行切分。

具体的，可以对完成预处理后的文本图像进行水平投影，根据相邻文本行之间的空白及所有文本行的水平投影值获取文本图像中每一个文本行的上、下边界，根据所获取到的每一个文本行的上、下边界即可以将文本图像分割为多个文本行图像。其中，水平投影是根据图像的像素点分布分别对每一行像素值求和形成水平投影直方图。

步骤S203：将每一个文本行图像分割为多个维吾尔文单词图像。

每一个文本行图像中的相邻维吾尔文单词之间也具有较明显的空白。因此，可以通过二维图像的垂直投影直方图实现文本行图像中维吾尔文单词图像的切分。

具体的，在实现文本图像中的文本行切分的基础上，可以进一步对每一个文本行图像进行单词切分。例如，可以分别对每个文本行图像进行垂直投影。根据当前文本行图像中相邻维吾尔文单词之间的空白及当前文本行的垂直投影值可以获取当前文本行图像中的每一个维吾尔文单词的左、右边界。根据所获取到的每一个文本行图像中每一个维吾尔文单词的左、右边界即可以将每一个文本行图像分割为多个维吾尔文单词图像。其中，垂直投影是根据图像的像素点分布分别对每一列像素值求和形成垂直投影直方图。

例如，根据上述方法对图4所示的文本图像进行分割可以得到如图5所示的维吾尔文单词图像。

步骤S204：获取每一个文本行图像的基线域，将当前文本行图像的基线域作为当前文本行图像所包括的多个维吾尔文单词图像的基线域。

无论是印刷体维吾尔文还是手写体维吾尔文中，字母是沿着某一轴线相连的，该轴线被称为基线。通常情况下，受图像分辨率的影响，维吾尔文单词图像中连体段的基线的宽度大于一个像素，此时，基线也称为基线域。例如，如图6所示，图中的直线a表示该维吾尔文单词图像中的维吾尔文单词的基线域的上边界，直线b表示该维吾尔文单词的基线域的下边界，直线a与直线b之间的区域即为基线域。

由于维吾尔文单词图像是由对应的文本行图像分割形成，可以理解的是，每一个维吾尔文单词图像对应的基线域即为该维吾尔文单词图像所属的文本行图像的基线域。

本实施例中，如图7所示，步骤S204中，获取每一个文本行图像的基线域的方法可以包括步骤S301、步骤S302、步骤S303及S304。

步骤S301：获取当前文本行图像的轮廓。

具体的，可以利用边缘检测算法对当前文本行图像进行边缘检测提取当前文本行图像的轮廓。例如，常用的边缘检测算子有Sobel算子、Canny算子、Roberts算子、Prewitt算子等。

步骤S302：按照第一预设规则对当前文本行图像的轮廓进行直线检测获得多条直线。

本实施例中，第一预设规则可以为霍夫直线检测算法，当然，也可以采用其他可以用于检测图像轮廓中直线的算法。

步骤S303：查找所述多条直线中长度大于或等于预设长度阈值的直线，根据所查找到的所有直线的坐标位置获得基准线。

其中，预设长度阈值可以根据多次试验确定，可以预先存储在计算机中，也可以实时通过输入输出单元，例如键盘输入。具体的，可以将步骤S302所获得的每一条直线的长度与预设长度阈值比较，得到长度大于或等于预设长度阈值的直线，构建第一直线集。根据第一直线集中每一条直线所包括的像素坐标可以得到位于纵向方向上最上方的第一直线和最下方的第二直线。根据第一直线所包括的像素坐标和第二直线所包括的像素坐标可以获得第一直线和第二直线的中心线，即基准线。

步骤S304：按照第二预设规则获取所查找到的直线中位于基准线上方的最长的一条直线作为基线域的上边界，获取所查找到的直线中位于基准线下方的最长的一条直线作为基线域的下边界。

查找第一直线集中位于基准线上方的所有直线构建第二直线集，比较第二直线集中所有直线的长度获得长度最长的直线作为基线域的上边界。查找第二直线集中位于基准线下方的所有直线构建第三直线集，比较第三直线集中所有直线的长度获得长度最长的直线作为基线域的下边界。所得到的上边界与下边界直接的区域即为基线域。当然，除了上述方式外，也可以采用其他方式得到基线域的上边界和下边界。

另外，根据维吾尔文的书写特点可知，文本行图像中字符区域的像素大部分集中分布于基线域中。因此，获取每一个文本行图像的基线域的方法还可以为：先获取文本行图像的轮廓；然后再对文本行图像的轮廓进行水平投影以获得第一像素行和第二像素行。其中，第一像素行和第二像素行之间的区域即为基线域。

具体的，获取第一像素行和第二像素行的具体方式可以为：

对文本行图像的轮廓进行水平投影，得到图像中每一行像素对应的投影值。根据所有像素行的投影值设置一个第二预设值，使得仅第i行像素至第i+m行像素以及第i+n行像素至第i+p行像素的投影值大于等于该第二预设值。其中，i，m，n，p均为正整数，且m＜n＜p。此后，查找第i行至第i+m行中投影值最大的像素行，作为第一像素行，查找第i+n行至第i+p行中投影值最大的像素行作为第二像素行。第一像素行与第二像素行之间的区域即为该文本行图像的基线域。其中，第一像素行为基线域的上边界，第二像素行为基线域的下边界。

分别将步骤S202所得到的每一个文本行图像最为当前文本行图像，执行步骤S301至步骤S304即可以得到每一个文本行图像的基线域。

步骤S220：根据维吾尔文单词图像对应的基线域将所述维吾尔文单词图像的每一个连体段分割为一个或多个部件。

维吾尔文的单词是由一个或多个字母组成，且维吾尔文具有连写的特点，这些字母可能前后相连形成一个或多个连体字母段，即连体段。每一个维吾尔文单词均由一个或多个连体段构成，相邻连体段之间具有间隙。例如，如图6所示，图6中的维吾尔文单词有三个连体段，每一个虚线矩形框中的字符为一个连体段，由图中可以看出，两个连体段之间具有间隙。具体的，获取维吾尔文单词图像的连体段的方法可以为：

维吾尔单词图像为二值化图像，包括字符区域和背景区域。假设字符区域的像素点为黑色，背景区域像素点为白色，此时，维吾尔文单词图像表现为白底黑字。将字符区域的像素点表示为1，将背景区域的像素点表示为0。对所述维吾尔文单词图像进行垂直投影，根据垂直投影对所述维吾尔文单词图像进行分割获得维吾尔文单词图像中的连体段。

具体的，维吾尔文单词图像中相邻连体段之间的间隙处像素点的垂直投影值小于第一预设值。其中，所述第一预设值的理论值为0，由于维吾尔单词图像中可能存在的噪点，具体的第一预设值可以为多次试验所获得的经验值。将维吾尔文单词图像的垂直投影结果与第一预设值比较，可以获得该维吾尔文单词图像中每一个连体段的左、右边界，根据所获得的左、右边界即可以将该维吾尔文单词图像切分为一个或多个连体段。

具体的，如图8所示，根据维吾尔文单词图像对应的基线域将维吾尔文单词图像的每一个连体段分割为一个或多个部件的方法可以包括步骤S221和步骤S222。

步骤S221：对维吾尔文单词图像的当前连体段中位于基线域以外的像素做垂直投影得到一个或多个分离的投影峰值。

根据维吾尔文单词图像对应的基线域的上边界和下边界，剔除当前连体段中位于基线域中的像素点，即将位于基线域中的像素点的值置0。此后，再对剔除位于基线域的像素点后的当前连体段进行垂直投影，得到一个或多个分离的投影峰值。

步骤S222：根据所述投影峰值对当前连体段进行分割得到一个或多个部件。

当对当前连体段中位于所述基线域以外的像素做垂直投影得到多个分离的投影峰值时，获取相邻两个分离的投影峰值之间的中点作为当前连体段的切点。进一步，根据所获取到的切点将所述当前连体段分割为多个部件。例如，可以将切点所在的像素列作为切分像素列，当得到两个分离的投影峰值时，可以获得一个切分像素列，根据该切分像素列可以将当前连体段分割为两个部件，即当前连体段的右边界至所述切分像素列之间的部分为一个部件，所述切分像素列至当前连体段的左边界之间的部分为另一个部件。同理，当得到三个分离的投影峰值时，可以获得两个切分像素列，此时，可以将当前连体段分割为三个部件。

当对当前连体段中位于所述基线域以外的像素做垂直投影后仅得到一个投影峰值时，表示当前连体段无需切分，即该连体段无切点存在。此时，当前连体段为字母的独立形式。也就是说，当前连体段即为一个部件，且该部件的形式为独立形式。

分别对当前维吾尔文单词图像中的每一个连体段执行步骤S221至步骤S222，将维吾尔文单词图像中的每一个连体段切分为一个或多个部件，也就是将维吾尔文单词图像分割为一个或多个部件。例如，如图9所示，对图6所示的维吾尔文单词图像中的每一个连体段执行步骤S221至步骤S222，可以得到部件v₁、部件v₂、部件v₃、部件v₄、部件v₅和部件v₆，图7中的每一个实线矩形框表示一个部件。

步骤S230：获取维吾尔文单词图像的每个部件的特征信息以得到维吾尔文单词图像的特征向量。

其中，所述特征信息包括全局特征信息和局部特征信息。全局特征信息包括横向位置特征信息和纵向位置特征信息，局部特征信息包括每个部件的轮廓数和孔洞数以及每个部件所包括的附加部件与基线域的纵向位置关系，即附加部件位于基线域的上方还是下方。其中，附加部件为维吾尔文字母中的附属笔画。

具体的，如图8所示，步骤S230包括步骤S231、步骤S232和步骤S233。

步骤S231：按照预设顺序依次获取维吾尔文单词图像所包括的部件。

考虑到维吾尔文具有从右向左按行书写的特点，因此，所述预设顺序优选为从右到左。

步骤S232：获取每个部件的特征信息。

具体的，获取部件的横向位置特征信息的方式为：判断当前部件所属的连体段是否存在切点，当当前部件所属的连体段没有切点存在时，判定当前部件为独立部件。当当前部件所属的连体段存在切点时，根据切点的数量以及当前部件在所述连体段中的横向位置判定当前部件的形式。当当前部件所属的连体段的切点数量1个时，表示当前部件所属的连体段包括两个部件。此时，若当前部件为两个部件中按书写规则相对靠右的部件，则判定当前部件为起始部件，若当前部件为两个部件中按书写规则相对靠左的部件时，则判定当前部件为结尾部件。当当前部件所属的连体段的切点数量大于1时，表示当前部件所属的连体段包括三个或三个以上的部件。此时，若当前部件为三个或三个以上的部件中按书写规则最靠右的部件，则判定当前部件为起始部件，若当前部件为三个或三个以上的部件中按书写规则最靠左的部件，则判定当前部件为结尾部件，当上述两个条件均不满足时，则判定当前部件为中间部件。

例如，如图9所示，图5所示的维吾尔文单词图像中，部件v₁和部件v₃为起始部件，部件v₂和部件v₅为结尾部件，部件v₄为中间部件，部件v₆为独立部件。

部件的横向位置特征信息用于反映部件的形式。例如，可以将独立部件的横向位置特征信息设置为0，将起始部件的横向位置特征信息设置为1，将中间部件的横向位置特征信息设置为2，将结尾部件的横向位置特征信息设置为3。

获取部件的纵向位置特征信息的方式为：

获取当前部件的外接矩形，根据当前部件的外接矩形在维吾尔文单词图像纵向方向上的位置获取当前部件的纵向位置特征信息。

具体的，可以将维吾尔文单词图像沿纵向方向划分为三个区域，从上到下依次为上层区域、中间区域和下层区域。例如，上层区域、中间区域和下层区域的具体划分方法可以为：将维吾尔文单词图像的上边界和下边界之间的区域平均分割为三等分，其中，维吾尔文单词图像的上边界即为该维吾尔文单词图像的第一行像素，维吾尔文单词图像的下边界即为该维吾尔文单词图像的最后一行像素。

此时，当当前部件的外接矩形仅位于中间区域时，可以将当前部件的纵向位置特征信息设置为0；当当前部件的外接矩形仅位于上层区域和中间区域时，可以将当前部件的纵向位置特征信息设置为1；当当前部件的外接矩形仅位于中间区域和下层区域时，可以将当前部件的纵向位置特征信息设置为2；当当前部件的外接矩形位于上层区域、中间区域和下层区域时，可以将当前部件的纵向位置特征信息设置为3。

例如，如图10所示，将图5所示的维吾尔文单词图像的上边界和下边界之间的区域平均分割为三等分，其中虚线c表示该维吾尔文单词图像的上边界，虚线f表示该维吾尔文单词图像的下边界，虚线d和虚线d表示分割线。因此，部件v₁的纵向位置特征信息为2；部件v₂的纵向位置特征信息为3；部件v₃的纵向位置特征信息为1；部件v₄的纵向位置特征信息为1；部件v₅的纵向位置特征信息为3；部件v₆的纵向位置特征信息为2。

进一步的，获取部件的局部特征信息的方式为：获取当前部件的轮廓数量；获取当前部件的孔洞数量；查找当前部件所包括的附加部件，并判定所查找到的附加部件与基线域的纵向位置关系；根据所获取到的当前部件的轮廓数、孔洞数及当前部件所包括的附加部件与基线域的纵向位置关系确定当前部件的局部特征信息。

具体的，获取当前部件的轮廓数量的具体方式可以为：对当前部件所包括的连通区域进行标记，获取当前部件所包括的连通区域的数量。当前部件所包括的连通区域的数量即为当前部件的轮廓数量。而当前部件的孔洞数量的具体可以采用穿透次数方法获取，也可以通过获取当前部件的连通区域个数来获取。由于通常附加部件包括的像素点数量较少，因此，本实施例中查找当前部件所包括的附加部件的实施方式可以为：对当前部件所包括的连通区域进行标记后，将每一个连通区域的像素点个数与第三预设值比较，当存在连通区域的像素点个数小于或等于第三预设值时，则判定该连通区域为附加部件，当所有连通区域的像素点个数均大于第三预设值时，则判定当前部件没有附加部件。例如，如图10所示，部件v₂包括一个附件部件，且该附加部件在基线域的上方。

步骤S233：根据所获取的每个部件的特征信息构建维吾尔文单词图像的特征向量。

基于上述方法，获取到维吾尔文单词图像中的每一个部件的特征信息后，可以根据该维吾尔文单词图像所包括的所有部件的特征信息构建该维吾尔文单词图像的特征向量。

例如，T表示部件的横向位置特征信息，P表示部件的纵向位置特征信息，C表示部件的轮廓数，H表示部件的孔洞数，A表示部件所包括的附加部件在基线域的上方，B表示部件所包括的附加部件在基线域的下方。其中，C、H、A及B共同表现部件的局部特征信息。T的取值可以为0、1、2或3，当部件为独立部件时T＝0，当部件为起始部件时，T＝1，当部件为中间部件时，T＝2，当部件为结尾部件时，T＝3。P的取值可以为0、1、2或3，当部件的外接矩形仅位于中间区域时，P＝0；当部件的外接矩形仅位于上层区域和中间区域时，P＝1；当部件的外接矩形仅位于中间区域和下层区域时，P＝2；当部件的外接矩形位于上层区域、中间区域和下层区域时，P＝3。当部件所包括的附加部件在基线域的上方时，A＝1，B＝0；当部件所包括的附加部件在基线域的下方时，A＝0，B＝1，当部件没有附加部件时，A＝0，B＝0。

因此，当步骤S231中获取到的维吾尔文单词图像V＝{v_k|1≤k≤M，k为正整数}，其中，v_k表示该维吾尔文单词图像中的第k个部件，M为维吾尔文单词图像中所包括的部件数量。任意一个部件v_k的特征信息表示为(TPCHAB)_k，则可以得到该维吾尔文单词图像的特征向量S＝((TPCHAB)₁，(TPCHAB)₂，…，(TPCHAB)_M)。

步骤S240：将维吾尔文单词图像的特征向量与预设的特征词典进行对比，以获得所获取的维吾尔文单词图像的特征向量对应的文本单词。

其中，预设的特征词典的构建方式为：获取文本单词，用文本单词替代维吾尔文单词图像，按照本实施例中步骤S220至步骤S230获取文本单词的特征向量。其中，文本单词为计算机100可直接识别字符信息的维吾尔文单词。可以是通过计算机100的输入输出单元105例如键盘输入的文本单词，也可以是计算机100中预先存储的文本单词。因此，可以根据大量不同的文本单词的特征向量构建特征词典。其中，所述特征词典包括所述特征向量与所述文本单词的对应关系。例如，可以将已整理的2.8万多个不同的维吾尔文单词输入或是通过其他手段存储在计算机中形成文本单词库，根据上述方法获取文本单词库中每一个文本单词的特征向量，进一步根据所得到的文本单词的特征向量构建特征词典，且特征词典中每一个特征向量对应一个文本单词。

本发明实施例直接根据文本单词的特征向量构建特征词典，相比于现有的通过扫描图像样本进行样本训练以获得特征向量与文本单词的对应关系的方法，省去了花费大量人力和物力进行扫描图像样本的采集过程，有效地简化了特征词典的构建过程。

进一步，将步骤S230中所得到的维吾尔文单词图像的特征向量作为待识别对象。将待识别对象与特征词典中的特征向量进行对比，当待识别对象与特征词典中的某一特征向量的对比结果满足预设条件时，维吾尔文单词图像所对应的文本单词即为该特征向量对应的文本单词，即实现了上述维吾尔文单词图像中的维吾尔文单词的识别。

需要说明的是，待识别对象与特征词典中特征向量的对比过程中，将特征向量中所包括的全局特征信息作为稳定特征信息，将特征向量中所包括的局部特征信息作为非稳定特征信息。上述预设条件包括稳定特征信息的匹配程度和非稳定特征信息的匹配程度。例如，上述预设条件可以为：特征向量中每一个部件的全局特征信息的匹配程度为100％，局部特征信息中，轮廓数量的差值小于等于1，孔洞数量的差值小于等于1，附加部件的纵向位置的匹配程度为100％。

优选的，为了简化对比过程的计算量，本实施例中，可以预先根据特征词典中每一个特征向量对应的文本单词所包括的连体段数量将特征词典分为多个子类，并建立对应索引表。对维吾尔文单词图像进行识别时，根据维吾尔文单词图像所包括的连体段数量，通过索引找到相应的子类，将待识别对象与相应子类中的特征向量进行对比。

另外，本发明实施例还提供了一种图像维吾尔文单词识别装置，如图11所示，所述图像维吾尔文单词识别装置200包括单词图像获取模块210、部件分割模块220、特征向量获取模块230及识别模块240。

其中，单词图像获取模块210用于获取维吾尔文单词图像，所述维吾尔文单词图像包括一个或多个连体段。部件分割模块220用于根据所述维吾尔文单词图像对应的基线域将所述维吾尔文单词图像的每一个连体段分割为一个或多个部件。特征向量获取模块230用于获取所述维吾尔文单词图像的每个所述部件的特征信息得到所述维吾尔文单词图像的特征向量。识别模块240用于将所述维吾尔文单词图像的特征向量与预设的特征词典进行对比，以获得所获取的所述维吾尔文单词图像的特征向量对应的文本单词，其中，所述特征词典包括根据文本单词获得的所述特征向量与所述文本单词的对应关系。

具体的，如图12所示，本发明实施例还提供了一种图像维吾尔文单词识别装置还包括：文本图像获取模块201、文本图像分割模块202、文本行图像分割模块203及基线域获取模块204。

文本图像获取模块201用于获取文本图像，所述文本图像包括多个文本行图像，每一个文本行图像包括多个维吾尔文单词图像。文本图像分割模块202用于将所述文本图像分割为多个文本行图像。文本行图像分割模块203用于将每一个文本行图像分割为多个维吾尔文单词图像。基线域获取模块204用于获取每一个文本行图像的基线域，将当前文本行图像的基线域作为所述当前文本行图像所对应的多个维吾尔文单词图像的基线域。

具体的，如图13所示，部件分割模块220包括：投影峰值获取单元221及分割单元222。其中，投影峰值获取单元221用于对所述维吾尔文单词图像的当前连体段中位于所述基线域以外的像素做垂直投影得到一个或多个分离的投影峰值。分割单元222用于根据所述投影峰值对所述当前连体段进行分割得到一个或多个部件。

具体的，如图13示，所述特征向量获取模块230包括部件获取单元231、特征信息获取单元232及特征向量构建单元233。其中，部件获取单元231用于按照预设顺序依次获取所述维吾尔文单词图像所包括的部件。特征信息获取单元232用于获取每个所述部件的特征信息。特征向量构建单元233用于根据所获取的每个所述部件的特征信息构建所述维吾尔文单词图像的特征向量。

综上所述，本发明实施例提供的图像维吾尔文单词识别方法及装置，通过将维吾尔文单词图像中的每个连体段分割为一个或多个部件，并获取每个部件的特征信息，从而根据维吾尔文单词图像中每个部件的特征信息构建上述维吾尔文单词图像的特征向量，进一步将维吾尔文单词图像的特征向量作为待识别对象与预设的特征词典对比，得到上述维吾尔文单词图像对应的文本单词。于现有的识别方法，本发明实施例提供的图像维吾尔文单词识别方法及装置是将维吾尔文单词图像切分为一个或多个部件，无需准确地切分出维吾尔文单词图像中的每个字母，降低了维吾尔文单词图像的切分难度。进一步，利用所获取到的维吾尔文单词图像中的部件的特征信息构建该维吾尔文单词图像的特征向量作为待识别对象，有效地提高了维吾尔文单词图像的可识别率。

另外，本发明实施例提供的图像维吾尔文单词识别方法及装置直接根据单词的特征向量构建特征词典，相比于现有的通过扫描图像样本进行样本训练以获得特征向量与文本单词的对应关系的方法，省去了花费大量人力和物力进行扫描图像样本的采集过程，有效地简化了特征词典的构建过程。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：哈力木拉提·买买提;艾尔肯·赛福丁;吐尔根·伊布拉音;
技术所有人：新疆大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。