一种英语单词识别方法和装置与流程

文档序号：11865273阅读：248来源：国知局

本发明涉及文字识别技术领域，更具体地说，涉及一种英语单词识别方法和装置。

背景技术：

文本是计算机视觉的许多应用中的一项重要特征，视频图像中的文本往往包含着丰富的信息，将视频图像里的文本进行提取和识别，对于视频图像内容的分析、理解、信息检索等方面具有重要的意义。

从视频图像中提取文字的轮廓特征是文字识别过程中的重要一环，比如说，在英语单词识别过程中，需要先提取出各英文字母的轮廓特征再加以合并以识别出整个英语单词。但由于视频图像是自然场景，在复杂场景下，其背景噪音过重，会使字母轮廓缺失难以识别从而出现英语单词漏检和识别错误，影响英语单词识别精确度。

技术实现要素：

有鉴于此，本发明提供一种英语单词识别方法和装置，以提高复杂场景下英语单词识别精确度。

一种英语单词识别方法，包括：

对输入的视频图像进行笔画宽度变换；

对经笔画宽度变换后输出的图像进行连通域分析，并从分析结果中筛选出是文本区域的连通域；

对筛选出的连通域进行合并，得到文本行；

利用光学字符识别模型对所述文本行进行识别，其中，所述光学字符识别模型的训练数据为英文字母，每个英文字母都具有多种不同腐蚀度的模板；

对识别出的文本行进行语义分析，选出符合语义的文本行。

其中，所述对输入图像进行笔画宽度变换，包括：

将输入的视频图像解码为RGB图像；

把所述RGB图像转化成灰度图；

把所述灰度图转化成标准窗口小部件工具箱图像；

利用Canny边缘检测算子对所述标准窗口小部件工具箱图像进行边缘检测，得到所有边缘像素点；

利用sobel算子分别计算得到各边缘像素点的梯度方向；

为每一个所述边缘像素点寻找与其梯度方向相反的边缘像素点，形成边缘像素点对；

分别计算由每一个所述边缘像素点对确定的笔画宽度值，其笔画宽度值的大小为本边缘像素对之间的欧式距离。

其中，所述从分析结果中筛选出是文本区域的连通域，包括：

从分析结果中筛选出是文本区域的连通域，筛选条件包括：连通域的笔划宽度一致；而且与要识别的英语单词的颜色相同的像素点在连通域中所占比例不低于第一预设值。

其中，所述从分析结果中筛选出是文本区域的连通域，包括：

从分析结果中筛选出是文本区域的连通域，筛选条件包括：连通域的笔划宽度一致；而且连通域的笔画方差不低于第二预设值、笔画均值不低于第三预设值且连通域宽高比不超过第四预设值。

可选地，所述利用光学字符识别模型对所述文本行进行识别前，还包括：利用最大类间方差二值化过滤所述文本行的背景噪音；

对应的，所述利用光学字符识别模型对所述文本行进行识别，为：利用光学字符识别模型对背景噪音过滤后的文本行进行识别。

一种英语单词识别装置，包括：

笔画宽度变换模块，用于对输入的视频图像进行笔画宽度变换；

连通域分析筛选单元，用于对经笔画宽度变换后输出的图像进行连通域分析，并从分析结果中筛选出是文本区域的连通域；

文本行合并单元，用于对筛选出的连通域进行合并，得到文本行；

OCR识别单元，用于利用光学字符识别模型对所述文本行进行识别，其中，所述光学字符识别模型的训练数据为英文字母，每个英文字母都具有多种不同腐蚀度的模板；

语义分析单元，对识别出的文本行进行语义分析，选出符合语义的文本行。

其中，所述笔画宽度变换模块具体包括：

RGB图像转化单元，用于将输入的视频图像解码为RGB图像；

灰度图转化单元，用于把所述RGB图像转化成灰度图；

SWT图像转化单元，用于把所述灰度图转化成SWT图像；

边缘检测单元，用于利用Canny边缘检测算子对所述SWT图像进行边缘检测，得到所有边缘像素点；

梯度方向计算单元，用于利用sobel算子分别计算得到各边缘像素点的梯度方向；

笔画宽度计算单元，用于为每一个所述边缘像素点寻找与其梯度方向相反的边缘像素点，形成边缘像素点对；分别计算由每一个边缘像素点对确定的笔画宽度值，大小为本边缘像素对之间的欧式距离。

其中，所述连通域分析筛选单元具体用于对经笔画宽度变换后输出的图像进行连通域分析，并从中筛选出笔划宽度一致，而且与要识别的英语单词的颜色相同的像素点在连通域中所占比例不低于第一预设值的连通域。

其中，所述连通域分析筛选单元具体用于对经笔画宽度变换后输出的图像进行连通域分析，并从中筛选出连通域的笔划宽度一致，而且连通域的笔画方差不低于第二预设值、笔画均值不低于第三预设值且连通域宽高比不超过第四预设值的连通域。

可选地，所述装置还包括：背景噪音过滤单元，用于在利用光学字符识别模型对所述文本行进行识别前，先利用最大类间方差二值化过滤所述文本行的背景噪音。

从上述的技术方案可以看出，本发明通过预先对光学字符识别模型识别不同腐蚀度的英文字母进行训练学习，来增加字母轮廓受损情况下的识别率，降低了英语单词漏检率；并且本本发明还对识别出的文本行进行语义分析筛选，以选出符合语义的文本行，降低了英语单词错检率，从而提高了复杂场景下英语单词识别精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种英语单词识别方法流程图；

图2为本发明公开的一种笔画宽度变换方法流程图；

图3为本发明公开的一种英语单词识别装置结构示意图；

图4为本发明公开的又一种英语单词识别装置结构示意图；

图5为本发明公开的又一种英语单词识别装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明实施例公开了一种英语单词识别方法，以提高复杂场景下英语单词识别精确度，包括：

步骤100：对输入的视频图像进行笔画宽度变换；

对输入的视频图像进行笔划宽度变换的目的在于得到连通域信息。笔划宽度变换的思路如下：首先对输入的视频图像进行边缘检测，得到边缘信息；然后从每一个边缘像素点出发，找到与之梯度方向相反的边缘像素点，形成一个边缘像素点对；分别计算每一个边缘像素点对之间的欧式距离，并将该值赋予本边缘像素点对之间所有的像素点。经过笔划宽度变换后输出的图像像素点代表可能的笔划宽度。利用笔划宽度信息可以获取可能的文本信息，因为笔划宽度一致的连通域很有可能是文本区域。

笔划宽度变换的具体过程如图2所示。包括：

步骤101：将输入的视频图像解码为RGB图像；

步骤102：把所述RGB图像转化成灰度图；

步骤103：把所述灰度图转化成SWT(Standard Widget Toolkit，标准窗口小部件工具箱)图像；

步骤104：利用Canny边缘检测算子对所述SWT图像进行边缘检测，得到所有边缘像素点；其中，Canny边缘检测算子是John F.Canny于1986年开发出来的一个多级边缘检测算法；

步骤105：利用sobel算子(Sobel operator，索贝尔算子)分别计算得到各边缘像素点的梯度方向；

步骤106：为每一个所述边缘像素点寻找与其梯度方向相反的边缘像素点，形成边缘像素点对；

步骤107：分别计算由每一个所述边缘像素点对确定的笔画宽度值，其笔画宽度值的大小为本边缘像素对之间的欧式距离。

步骤200：对经笔画宽度变换后输出的图像进行连通域分析，并从分析结果中筛选出是文本区域的连通域；

连通域是指经笔画宽度变换后输出的图像中具有相同像素值且位置相邻的前景像素点组成的图像区域。连通域分析是指将经笔画宽度变换后的输出的图像中的各个连通域找出并标记。现有技术在英语单词识别过程中，在从中筛选出是文本区域的连通域时通常只考虑连通域的笔划宽度是否一致，但背景颜色的干扰容易导致英语单词错检，因此本实施例增加一筛选条件：与英语单词的颜色相同的像素点在连通域中所占比例不低于第一预设值，比如说，要识别的英语单词为黑色，则可要求黑色像素点在连通域中所占比例不低于60％。此外，为避免因英语单词过小出现错检，也可以再增加一筛选条件：笔画方差不低于第二预设值、笔画均值不低于第三预设值、且连通域宽高比不超过第四预设值。

步骤300：对筛选出的连通域进行合并，得到文本行；

例如，筛选出的几个连通域从左到右依次是显示内容为l的连通域、显示内容为u的连通域、显示内容为c的连通域、显示内容为k的连通域、显示内容为y的连通域，则合并之后可得到文本行lucky。

步骤400：利用OCR(Optical Character Recognition，光学字符识别)模型对所述文本行进行识别，其中，所述OCR模型的训练数据为英文字母(所述26个英文字母包括26个大写英文字母A～Z和/或26个小写英文字母a～z)，每个英文字母都具有多种不同腐蚀度的模板；

本实施例预先对所述OCR模型识别不同腐蚀度的英文字母进行训练学习，增加了英文字母轮廓受损情况下的识别率，训练模型可以采用现有的SVM(Support Vector Machine，支持向量机)算法，但并不局限。其中，所述多种不同腐蚀度的模板，可以是：完整无腐蚀的模板、低程度腐蚀的模板、中程度腐蚀的模板和高程度腐蚀的模板。

步骤500：对识别出的文本行进行语义分析，选出符合语义的文本行。

英语单词出现在视频图像中的次数具有一定的时间规律性，因此本实施例对已经识别出的英语单词进行语义统计，统计的数量越多，语义统计结果就越精确，若本次识别出的文本行不符合语义，即与先前得到的语义统计结果不符，则将本次识别出的文本行排除，以降低错检率，这便是对本次识别出的文本行进行语义分析的基本思想。例如，已经识别出的英语单词包括多次出现在视频图像中的happy、happiness、joy、relaxed等，其语义相近，若本次识别出的文本行为pain，则由于其与前者语义相反，可知其不符合语义，为一错检单词，需排除。本实施例可采用HMM(Hidden Markov Model，隐马尔可夫模型)来对文本行进行语义分析统计，但并不局限。

由上可知，对输入的视频图像进行笔画宽度变换，再对经笔画宽度变换后输出的图像进行连通域分析，并从中筛选出是文本区域的连通域，再对筛选出的连通域进行合并，得到文本行，再对所述文本行进行OCR识别，是对视频图像中文字进行识别的常规技术手段。但视频图像中背景噪音过重的干扰会使字母轮廓缺失难以识别从而出现英语单词漏检和识别错误，影响英语单词识别精确度。对此，本实施例预先对OCR模型识别不同腐蚀度的英文字母进行训练学习，来增加字母轮廓受损情况下的识别率，降低了英语单词漏检率；并且本实施例还对识别出的文本行进行语义分析，选出符合语义的文本行，降低了英语单词错检率，从而提高了复杂场景下英语单词识别精确度。

此外，在利用OCR模型对所述文本行进行识别前，还可先利用OSTU(最大类间方差)二值化过滤所述文本行的背景噪音，之后再利用OCR模型对背景噪音过滤后的文本行进行识别。其有益效果在于：通过过滤背景噪音，可以使文本行轮廓清晰，减少背景噪音对待识别英语单词的干扰腐蚀，进一步减少错检情况。

此外，参见图3，本发明实施例还公开了一种英语单词识别装置，以提高复杂场景下英语单词识别精确度，包括：

笔画宽度变换模块100，用于对输入的视频图像进行笔画宽度变换；

连通域分析筛选单元200，用于对经笔画宽度变换后输出的图像进行连通域分析，并从分析结果中筛选出是文本区域的连通域；

文本行合并单元300，用于对筛选出的连通域进行合并，得到文本行；

OCR识别单元400，用于利用光学字符识别模型对所述文本行进行识别，其中，所述光学字符识别模型的训练数据为英文字母，每个英文字母都具有多种不同腐蚀度的模板；

语义分析单元500，对识别出的文本行进行语义分析，选出符合语义的文本行。

其中，参见图4，笔画宽度变换模块100具体包括：

RGB图像转化单元101，用于将输入的视频图像解码为一帧一帧的RGB图像；

灰度图转化单元102，用于把所述RGB图像转化成灰度图；

SWT图像转化单元103，用于把所述灰度图转化成SWT图像；

边缘检测单元104，用于利用Canny边缘检测算子对所述SWT图像进行边缘检测，得到所有边缘像素点；

梯度方向计算单元105，用于利用sobel算子分别计算得到各边缘像素点的梯度方向；

笔画宽度计算单元106，用于为每一个所述边缘像素点寻找与其梯度方向相反的边缘像素点，形成边缘像素点对；分别计算由每一个边缘像素点对确定的笔画宽度值，大小为本边缘像素对之间的欧式距离。

其中，连通域分析筛选单元200具体用于对经笔画宽度变换后输出的图像进行连通域分析，并从中筛选出笔划宽度一致，而且与要识别的英语单词的颜色相同的像素点在连通域中所占比例不低于第一预设值的连通域。

或者，连通域分析筛选单元200具体用于对经笔画宽度变换后输出的图像进行连通域分析，并从中筛选出连通域的笔划宽度一致，而且连通域的笔画方差不低于第二预设值、笔画均值不低于第三预设值且连通域宽高比不超过第四预设值的连通域。

可选地，如图5所示，所述英语单词识别装置还包括：背景噪音过滤单元600，用于在利用光学字符识别模型对所述文本行进行识别前，先利用最大类间方差二值化过滤所述文本行的背景噪音。

综上所述，本发明通过预先对光学字符识别模型识别不同腐蚀度的英文字母进行训练学习，来增加字母轮廓受损情况下的识别率，降低了英语单词漏检率；并且本本发明还对识别出的文本行进行语义分析筛选，以选出符合语义的文本行，降低了英语单词错检率，从而提高了复杂场景下英语单词识别精确度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明实施例的精神或范围的情况下，在其它实施例中实现。因此，本发明实施例将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刁志敏;
技术所有人：珠海迈科智能科技股份有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。