一种印刷体维吾尔文图像单词的高精度匹配算法的制作方法

文档序号：17696497发布日期：2019-05-17 21:34阅读：238来源：国知局

本发明涉及一种匹配算法，具体地说，涉及一种印刷体维吾尔文图像单词的高精度匹配算法。

背景技术：

搜索引擎无所不在，印刷体文字图片搜索是搜索引擎技术的一个分支，一般的印刷体文字图片搜索技术会以两种方式进行图片检索，第一种检索方式是通过ocr(光学字符识别技术)来将印刷体文字图片的文字转化为计算机可读的文字，再从计算机可读文字中进行文字检索。另外一种检索方式为关键词识别技术，这种检索方式不需要将印刷体文字图片转化为可读格式，通过模式匹配的方式，直接从图片文档中对关键词进行检索，一般的关键词匹配算法都要遵守一个最基础的算法：关键词匹配算法。对于不同的印刷体图片文档所对应的关键词匹配算法也是不同的。在汉语的印刷体文档图片中，我们可以利用汉字本身的单字优势进行单字特征提取，利用所对应的特征值进行匹配检索。但是由于维吾尔语属于黏着性语言，所上述的单字匹配算法不适用维吾尔语，比如和这两个词就属于黏着词汇，如果利用单字匹配算法进行匹配检索,那么我们只能检索到这一个词汇而无法对这一词汇进行检索。所以我们需要一个新的方法去进行匹配,既可以检索到所到我们索要搜索的原词，同时可以搜索到原词所对应的后缀词。

目前现有技术中，还没有一种印刷体维吾尔语印刷体图片单词的高精度匹配算法，即可以实现上述的匹配算法。

技术实现要素：

本发明的目的在于提供一种印刷体维吾尔文图像单词的高精度匹配算法。该算法利用wordspotting技术对维吾尔语印刷体图像文档进行匹配。

其具体技术方案为：

首先利用sift特征，检索出检索图片和匹配图片的局部特征点，利用基于欧式距离的匹配算法，对局部特征点进行特征匹配，得到特征匹配点后，对匹配的结果数目进行一次预匹配，从而将误匹配的匹配图像进行筛除。经过预匹配后将匹配好的特征对象，用单应性变换来对进行一次映射处理，根据映射结果进行投射变换，再根据透射变换的结果对匹配词进行检索结果的鉴定。这种印刷体维吾尔文图像单词的高精度匹配算法，包括以下步骤：

步骤1、提取印刷体文字图片的sift特征，fa＝{f1^(a),f2^(a),fna^(a)}表示检索图像的sift特征,fb＝{f1^(b),f2^(b),fnb^(b)}表示匹配图像的sift特征。

步骤2、利用欧式距离对fa和fb所包含的特征点进行预匹配将fa的匹配点记录为ma,将fb中的匹配点记录为mb。

步骤3、判断ma/fa>ε,如果大于ε，进行下一步匹配，否则终止匹配。这里ε是我们预先设定的阈值。

步骤4、利用单应性变换来对我们已经获得检索匹配点和匹配匹配点进行一次映射处理。

步骤5、根据得到的映射结果进行透视变换,得到投射变换的四边形r1。计算匹配图像的对应边界得到矩形r2，同时将r1和r2映射到一个新的平面。

步骤6、判断r1和r2关系，如果r1不是一个矩形，判定匹配对象为误匹配，如果r1和r2的起始坐标x在同一起始点，同时r1和r2长度相似，既r1＝θr2那么检索图像和匹配图像的检索结果为同一个原词，如果r1的起始坐标x大于r2,而且r1的长度如果小于r2,那么判定检索结果为后缀词。

与现有技术相比，本发明的有益效果：

本发明和传统的印刷体维吾尔文图像匹配算法有所不同,传统的维吾尔文图像匹配算法只能进行单词匹配，如检索那么匹配结果只能检索到到这一词所对应的匹配图像，无法匹配到这一词汇所对应的匹配图像。而又因为维吾尔语为黏着性语言，上述的情况又会经常遇到，所以我们匹配算法可以完美的解决上述单词匹配算法所遇到的弊端，同时可以对匹配原词和匹配后缀词进行判断。因此我们这里所以提出的一种印刷体维吾尔文图像单词的高精度匹配算法在传统的匹配算法的不足点上进行了一次优化。

附图说明

图1是sift特征提取渲染图；

图2是sift特征匹配渲染图；

图3是误匹配流程图；

图4是原词配流程图；

图5是后缀词配流程图；

图6是原词匹配结果。

具体实施方式

下面结合附图和具体实施方式对本发明的技术方案作进一步详细地说明。

首先提取检索图像和匹配图像的sift特征，该sift特征为图像中文字内容的局部特征

如图1为图像的sift特征提取图像，其中图中文字内的的十字符号为特征点所在的位置的渲染结果。

获取检索图像的sift特征点后，将所得到的sift特征点设置为f＝{f1,f2,....,fn}。其中fa＝{f1^(a),f2^(a),.....fna^(a)}表示检索图像的sift特征集和,fb＝{f1^(b),f2^(b),.....fnb^(b)}表示匹配图像的sift特征集和,根据所获得的这些特征点集合。利用基于欧式距离的匹配算法对所获得特征点进行特征点匹配，经过特征点匹配后我们得到如图2的一个匹配结果。

通过图2可以看到，检索图像和匹配图像中相同的局部特征点通过基于欧式距离的匹配算法进行了匹配，而且根据图像的匹配结果我们可以看到匹配的效果非常好。经过欧式距离匹配后将fa的匹配点记录为ma。然后判断ma/fa>ε,如果大于ε，进行下一步匹配，否则终止匹配。这里ε是我们预先设定的阈值。经过上述匹配判断的筛除错误匹配图像后,利用检索图像的欧式匹配点ma和匹配图像的欧式匹配点mb，利用单应性变换来对我们已经获得检索匹配点ma和匹配匹配点mb进行一次映射处理，其中单应性映射数学原理如公式(1)所示，其中(xi,yi)和(xj,yj)分别为检索图像和匹配图像中所匹配的特征点坐标。

当得出映射结果后，利用映射结果将检索图像的边界位置对匹配图像的边界位置进行透视变换,得到投射变换的四边形r1,其中边界位置所指的是图像的高度和长度。计算匹配图像的对应边界得到矩形r2，将得到r1和r2映射到一个新的平面。判断r1和r2关系，如果r1不是一个矩形，判定匹配对象为误匹配，其匹配流程如图3所示，其中r1为映射的不规则矩形，r2为检索对象的标准边界矩形。

如果r1和r2的起始坐标x在同一起始点，同时r1和r2长度相似，既r1＝θr2那么检索图像和匹配图像的检索结果为同一个原词，其匹配流程如图4所示。

如果r1的起始坐标x大于r2,而且r1的长度如果小于r2,那么判定检索结果为后缀词。其匹配流程如图5所示。

根据上述的简述我们可以从非常简单的判断检索图像和匹配图像的关系，同时我们将传统的根据匹配点数目进行计算的图像检索问题转化为一个根据映射关系进行判断的图像检索问题，这种解决方案不仅可以完美的解决，原词间检索问题，同时可以根据检索原词到检索到维吾尔语文中所对应的后缀词，而且将其分辨出来。

本发明首先利用sift特征，检索出检索图片和匹配图片的局部特征点，利用基于欧式距离的匹配算法，对局部特征点进行特征匹配，得到特征匹配点后，对匹配的结果数目进行一次预匹配，从而将误匹配的匹配图像进行筛除。经过预匹配后将匹配好的特征对象，用单应性变换来对进行一次映射处理，根据映射结果进行投射变换，再根据透射变换的结果对匹配词进行检索结果的鉴定,其中检索到的原词匹配结果如图6所示。

以上所述，仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：艾斯卡尔·艾木都拉;伊克萨尼·普尔凯提;玛依热·依布拉音;米吉提·阿不里米提;阿布都萨拉木·达吾提;帕力旦·吐尔逊
技术所有人：新疆大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。