一种用以增强文字与背景差异的边缘响应统计变换方法与流程

文档序号：11156327阅读：461来源：国知局

本发明属于自然场景图像文本检测领域，具体涉及一种用以增强文字与背景差异的边缘响应统计变换方法。

背景技术：

自然场景图像中的文本检测是一种从自然场景中拍摄的图片中定位出文本行的技术。该技术对于基于内容的互联网搜索、视觉辅助、翻译及无人驾驶汽车等领域都有广泛的应用。如果直接对自然场景中的文字进行识别(例如采用光学字符识别技术OCR)，会因为拍摄的图像中可能包含许多复杂背景(例如树叶、砖墙、栅栏等)而导致大量的误检，使得文本的识别效果极差。

因此为了提高文本识别的准确率，领域内通常采用的方法是先使用文本定位技术在原图中将文本行区域提取出来，然后进行OCR等识别处理。但同时自然场景图像中的文本检测也存在一些挑战，主要包括以下难点，首先是图像质量差，受拍摄条件制约会使图像中的文本区域因模糊、遮挡、反光等原因导致普通的文本检测方法失效。另外一个难点是文本本身的形态差异，例如浮雕碑文，低分辨率以及艺术字等问题。

自然场景图像文本检测领域包含两类主流方法：基于多尺度滑动窗扫描的文本检测和基于连通区域提取的文本检测。多尺度滑动窗法采用分类器对图像金字塔上的每个区域进行文字与非文字二分类，虽然检测精度较高但庞大的计算量影响了实时性能。连通区域提取方法是一种轻量、高效的图算法，通过假设属于同一字符的像素具有类似的特征(如灰度、颜色、SWT和MSER等)而将这些像素聚集成文字连通区域，其运算量不取决于文本的尺度范围、方向及字体等属性，因此时间性能优于滑动窗。缺点是对聚合、粘连、抖动模糊、光照变化及极端文字尺寸等改变连通区域结构的场景敏感。

技术实现要素：

本发明针对上述问题，提出了一种用以增强文字与背景差异的边缘响应统计变换方法，该方法在输入图像中计算边缘包围框，进行边缘响应变换，得到了文本区域与背景区域间响应值差异获得明显增强的边缘响应特征图，然后对边缘响应特征图执行简单的求取梯度、非极大值抑制等操作，即能够从输入图像中定位出文本行的位置。相比于多尺度滑动窗扫描类方法和连通区域提取类方法，本方法无需算法复杂的文字检测算子，时间复杂度降低、实时性能好。同时本方法因为在统计层面上对计算得到的边缘包围框执行排序、筛选等操作，故能够对具有复杂背景的图像中的文本行呈现鲁棒的定位结果。

为了达到上述目的，本发明采用如下技术方案：

一种用以增强文字与背景差异的边缘响应统计变换方法，包括以下步骤：

步骤A：对于一副输入的包含文本的自然场景图像，计算该图像中的边缘包围框，其中边缘包围框是指对图像中边缘目标可能存在的位置用矩形包围框标注，而边缘目标既包含文字边缘目标，也可能包含其它物体边缘目标；依据边缘包围框的分数对所有边缘包围框递减排序，其中边缘包围框的分数由包围框内完全包含的轮廓个数来确定；按照文字边缘在所有物体边缘目标中的分布特性对排序后的边缘包围框进行筛选，并对筛选出的边缘包围框集合进行加权求和计算，其中权值由反比例函数确定；得到边缘响应特征图；

步骤B：在边缘响应特征图上按行方向累加响应值，得到行方向上的统计边缘响应图，简称行统计图；对行统计图计算梯度，得到梯度图；对梯度图取正，并使其与行统计图量纲统一；对量纲统一后的梯度图执行非极大值抑制操作，得到文本行粗定位结果。

所述步骤A的具体步骤如下：

步骤A01：对于一副输入的包含文本的自然场景图像，建立一个大小和输入图像一样的边缘响应特征图e，初始赋值均为0；

步骤A02：对于输入原图进行结构化边缘检测得到边缘图像，其中边缘图像由边缘点组成，边缘点的值代表该点是边缘的概率；将近似处于一条直线上的边缘点集中形成边缘段，得到n个边缘段{s₁,s₂,...,s_n}；计算边缘段两两之间的相似度a(s_i,s_j)，根据相似度为边缘段赋权值w_b(s_i),i＝1,2,...,n；依据边缘段权值为边缘包围框评分，得到m个候选边缘包围框{b₁,b₂,...,b_n}及其相应分数{s_b1,s_b2,...,s_bn}；

步骤A03：对于在输入图像上产生的m个候选边缘包围框，按照分数s_b对边缘包围框递减排序；依据文字边缘在所有物体边缘目标中的分布特性来对边缘包围框进行筛选，使得筛选出的k个包围框尽可能完整地覆盖输入图像中的文本区域，并能够使引入的虚警区域最小化；

步骤A04：将k个边缘包围框加权求和，其中权值是由一个反比例函数确定，反比例函数是f(i)＝64/(8+(i-1)),i＝1,2,...,k，并对边缘响应特征图e赋值，赋值公式是以上步骤即为边缘响应统计变换过程。

所述步骤B具体步骤如下：

步骤B01：在边缘响应特征图e上按行依次累加响应值，按行累加响应值的公式是其中l表示边缘响应变换图e的长度，w表示e的宽度；得到行方向上的统计边缘响应图，简称行统计图，其中行统计图的横坐标表示输入图像中第i行所处的位置，纵坐标表示在第i行上出现文本行的概率；

步骤B02：对行统计图求梯度值，梯度计算公式是得到梯度图；其中梯度图的横坐标表示输入图像中第i行所处的位置，纵坐标表示在第i行上边缘响应变换的强度；第i行梯度值越大，则在该行上下的响应值变化越剧烈，那么第i行是文字与背景间隙的概率越大；

步骤B03：对梯度图取正，接着使梯度图与行统计图量纲统一，量纲统一的公式是其中是统一量纲的处理，以便于梯度图与行统计图的观察以及后续的非极大值抑制操作；通过令各梯度值按其幅度值与最大幅度值的比值来加权，使得文字与背景区域更具有区分度；经实验所得常数值κ＝3.5，其作用是避免一些梯度幅度值较小的真值被误删；

步骤B04：对量纲统一后的梯度图，执行非极大值抑制操作；在非极大值抑制过程中，设定滑动窗大小为winSize＝l/20，其中l是输入图像的长度；得到文本行粗定位结果。

本发明技术方案具备以下技术效果：

1.该方法通过对输入图像进行边缘响应变换(本技术方案提出的一种特征空间转换方法)可以得到边缘响应特征图，该过程通过发掘和利用文字的本质特征(边缘响应统计特征)来增强文本区域与背景之间的差异，便于后续处理的文本行定位处理。

2.不同于主流的文本行定位方法，本方法无需算法复杂的文字检测算子，也不必要承担在多尺度图像上进行滑动窗扫描所需的庞大计算量。本方法能够在边缘响应特征图的基础上直接采取简单的求取梯度、非极大值抑制等操作来对图像中的文本行进行定位。这种发掘、利用文字本质特征以及采用简单操作来定位文本行的方式，可以大幅降低时间复杂度，提高实时性能。

3.本方法通过在输入图像中计算边缘包围框及其分数，来对图像中的各类物体边缘目标产生响应。然后按照分数对边缘包围框递减排序，按照文字边缘在所有物体边缘目标中的分布特性筛选出合适的边缘包围框集合，使得该集合在尽可能完整地覆盖图像中文本行区域的同时最小化虚警的引入。因此本方法对复杂背景图像呈现鲁棒的文本检测效果，能够提高在遮挡阴影、反光及噪声等情况下的文本检出率，最终获得较优的文本行粗定位结果。

4.此外文本行的定位为后续的文字识别、多语种翻译、图像内容理解等应用提供数据基础。

附图说明

图1是输入原图(包含文本行的自然场景图像)。

图2是排序、筛选后覆盖住文本行区域的边缘包围框集合。

图3是边缘响应特征图。

图4是在边缘响应特征图上按行来统计响应值后获得的行统计边缘响应图。

图5是在行统计图上求取梯度后得到的梯度图。

图6为取正、与行统计图统一量纲、加权处理后获得的梯度图。

图7为经过非极大值抑制处理后得到的梯度图。

图8在输入原图中由梯度图为文本行区域进行粗略定位。

具体实施方式

下面结合附图详细介绍本发明各步骤中的具体细节。

本发明提出了一种用以增强文字与背景差异的边缘响应统计变换方法，具体包括以下步骤：

步骤A：对于一副输入图像如图1所示，在图像上计算边缘包围框，然后对这些边缘包围框按照分数递减排序，接着按照文字边缘在所有目标边缘中的分布来筛选出若干边缘包围框，使得这些被筛选的包围框在尽可能完整地覆盖住文本行区域的同时，最小化虚警的引入，以上过程如图2所示；初始化大小与输入图像相同、每个像素点灰度值为0的边缘响应特征图，将被筛选出来的边缘响应包围框加权求和后赋予该边缘响应特征图，即为边缘响应统计变换过程，如图3所示，可以发现在边缘响应特征图中文本区域与背景间的灰度值差异得到增强。

步骤A具体步骤如下：

步骤A01：在输入图像上计算边缘包围框及其分数。计算边缘包围框的具体流程为：对于输入原图进行结构化边缘检测得到边缘图像，其中边缘图像由边缘点组成，边缘点的值代表该点是边缘的概率；将近似处于一条直线上的边缘点集中形成边缘段，得到n个边缘段{s₁,s₂,...,s_n}；计算边缘段两两之间的相似度a(s_i,s_j)，根据相似度为边缘段赋权值w_b(s_i),i＝1,2,...,n；依据边缘段权值为边缘包围框评分，得到m个候选边缘包围框{b₁,b₂,...,b_m}及其相应分数{s_b1,s_b2,...,s_bm}；

边缘段的定义是：

将近乎在一条直线上的边缘点，集中起来形成一个边缘段。具体的做法是，不停地寻找8连通的边缘点，直到两两边缘点之间的方向角度差值的和大于pi/2，由此得到n个边缘段S＝{s₁,s₂,...,s_n}。引入边缘段的概念是为了确定边缘包围框内的轮廓个数做准备。

相似度a(s_i,s_j)的计算公式是：

a(s_i,s_j)＝|cos(θ_i-θ_ij)cos(θ_j-θ_ij)|，其中s_i,s_j∈S是一对要计算相似度的边缘段，θ_i,θ_j分别是s_i,s_j的主方向，而θ_ij是边缘段s_i与边缘段s_j组合后的边缘段的方向。由相似度的计算公式可知，两个边缘段s_i,s_j越是在一条直线上，上述公式计算得到的相似度就越高，反之亦然。引入相似度的概念是因为一个轮廓中的所有边缘段是相似度最高的。

利用边缘段及相似度来确定轮廓的数学公式是：

其中T是指从与边缘包围框重合的边缘段开始到达s_i的边缘段序列集合。满足上述条件的边缘段序列集合T有多个，而该数学公式的目标就是从所有满足条件的路径T中，寻找相似度最高的路径即为轮廓。具体做法如公式所示，为每一个边缘段赋予一个权值(也就是打个分数)，然后将权值均为1的边缘段归为边缘包围框内轮廓上的一部分，而把权值为0的边缘段归为边缘包围框外或者与边缘包围框边界重叠的轮廓的一部分。值得注意的是，在某条路径T上一旦出现相似度为0的边缘段对(而这种情况很容易出现)，该路径T即被废弃。因此确定合适的轮廓T的时间性能很可观。

边缘包围框分数的计算公式是：

其中b_w和b_h分别是边缘包围框的宽度和高度，置于分母是为了保证边缘包围框分数计算的尺度不变性。m_i是边缘段s_i包含的所有像素点的灰度值之和。w_b(s_i)用来计算边缘段s_i的权值，以确定该边缘段s_i是否为轮廓。当且仅当s_i属于被边缘包围框全部包含在内部的轮廓时w_b(s_i)＝1，而当s_i属于与边缘包围框重叠，或在包围框的外面时w_b(s_i)＝0。常数项κ＝1.5用以调控分母大小，防止产生以下偏差：更大的边缘包围框通常包含更多的边缘，因此边缘包围框的分数也会更高，这会使得分数高的包围框偏向于覆盖近乎全图，从而不符合目标检测的目的。根据边缘包围框分数的计算公式可知，一个边缘包围框内完全包含的轮廓个数越多，该包围框的分数就越高，则目标有很大可能性就包含在该包围框中。

步骤A02：按照边缘包围框的分数{s_b1,s_b2,...,s_bm}将边缘包围框{b₁,b₂,...,b_m}递减排序。因为排序越靠前的边缘包围框的分数越高，越有可能包含更多的目标但同时可能覆盖近乎整张输入图像，因此需要执行筛选操作。该操作不仅去除掉分数最靠前的若干边缘包围框以及靠后的大量包含背景杂质的包围框，还需要根据实验所得的文字边缘在所有物体边缘中的分布特性来选择出合适的边缘包围框集合，并达成这样的一个目标：筛选后得到的边缘包围框集合一方面能够尽可能完整地覆盖到文本行区域，另一方面要最小化引入的虚警(即非文字的目标或杂质，被误判为文字)。在输入图像上执行排序和筛选操作后得到的边缘包围框集合如图2所示，可以发现该边缘包围框集合在覆盖文本行区域的同时几乎没有对背景中的其它目标进行定位。

步骤A03：初始化大小与输入图像相同、每个像素点的灰度值均为0的边缘响应特征图e。将图2所示的筛选后的边缘包围框集合进行加权求和运算，并赋予边缘响应特征图，这就是边缘响应统计变换的过程，结果如图3所示，可以发现在边缘响应特征图中文本行区域与背景区域间的差异得到增强，以便于后续的求梯度、非极大值抑制等从图像背景中定位出文本行的操作。

对筛选后的边缘包围框集合进行加权求和计算公式是：

其中{b₁,b₂,...,b_k}是排序、筛选后得到的边缘包围框集合。加权求和运算中的权值计算公式是f(i)＝64/(8+(i-1)),i＝1,2,...,k，其中反比例函数f(i)用以产生符合文字边缘在所有物体边缘目标中分布特性的权值系数。

步骤B：在边缘响应特征图(如图3)上按行依次统计响应值得到行方向上的统计边缘响应图(如图4)，简称行统计图。在行统计图上求取梯度(如图5)，取正、统一量纲及加权处理后获得候选梯度图(如图6)。最后执行非极大值抑制操作得到文本行粗略定位的位置图(如图7)，用它在输入图像中对文本行的定位效果如图8所示。

步骤B具体步骤如下：

步骤B01：在边缘响应特征图e上按行依次累加响应值得到行方向上的统计边缘响应图，如图4所示，可见在行统计边缘响应图上文本行与背景间的响应值差异非常明显。

按行依次累加响应值的公式是：

其中l表示边缘响应变换图e的长度，w表示e的宽度；通过该公式得到行方向上的统计边缘响应图，简称行统计图，其中行统计图的横坐标表示输入图像中第i行所处的位置，纵坐标表示在第i行上出现文本行的概率；

步骤B02：对行统计图求梯度值。梯度可以反映响应值变化的剧烈程度，若某行的梯度值越大，说明在该行上下的响应值变化越明显，则该行就越有可能是文本行区域与背景区域的间隙位置(即为文本行的边界位置)，反之亦然。本方法就是通过在行统计图上求取梯度来粗略地定位文本行的位置。

梯度计算公式是：

通过该公式计算得到梯度图，如图5所示；其中梯度图的横坐标表示输入图像中第i行所处的位置，纵坐标表示在第i行上边缘响应变换的强度；第i行梯度值越大，则响应变换越大，那么第i行是文字与背景间隙的可能性越大；

步骤B03：对梯度图取正，接着使梯度图与行统计图量纲统一，量纲统一的公式是其中是统一量纲的处理，以便于梯度图与行统计图的观察以及后续的非极大值抑制操作。通过令各梯度值按其幅度值与最大幅度值的比值来加权，使得文字与背景区域更具有区分度。经实验所得常数值κ＝3.5，其作用是避免一些梯度幅度值较小的真值被误删。经过取正、统一量纲、加权处理后的梯度图如图6所示，可见处理后的梯度图已经可以清晰地将行统计图分成独立的两个部分(对应输入图像中的两个分离的文本行)。但从图6中也可以发现梯度图中还存在若干噪音，这些噪音会干扰文本行定位过程，导致文本行过分割问题。

步骤B04：为了滤除掉上述噪音，应对量纲统一后的梯度图执行非极大值抑制操作。在非极大值抑制过程中，设定滑动窗大小为winSize＝l/20，其中l是输入图像的长度，处理结果如图7所示，可见那些噪音被抑制掉了，而代表文本行边界位置的梯度响应被保留了下来。最后，在输入图像中利用梯度响应来定位文本行的位置，如图8所示，可见梯度响应对应着的是文本行的边界位置，从而在整张图像中只将文本行所在的区域标注了出来。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋永红;贺翔;张元林
技术所有人：西安交通大学
我是此专利的发明人

上一篇：基于图像处理的货架快速清点方法与制造工艺
上一篇：基于ASM算法和Lazy Snapping算法的耳廓检测方法与制造工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。