对图片进行文本检测的方法及装置的制造方法

文档序号:9866150阅读:286来源:国知局
对图片进行文本检测的方法及装置的制造方法
【技术领域】
[0001]本发明属于计算机技术领域,尤其涉及对图片进行文本检测的方法及装置。
【背景技术】
[0002]目前,对图片进行文本检测的算法主要分为两类:基于滑动窗口的方法和基于连通区域的方法。基于滑动窗口的方法是通过一个大小可变的滑动子窗口扫描一张图片所有可能的位置,来检测文本信息,其利用一个训练好的分类器来判别窗口内是否有文本信息;基于连通区域的方法首先通过一个底层的滤波器快速分割文本和非文本像素,然后把具有相似属性的文本像素连通起来构成文本成分,笔画宽度转化(SWT)算法和最稳定极值区域(MSREs)算法是此类方法的代表。然而,上述方法的分类网络采用全连接层,丢失了文本区域的位置信息。

【发明内容】

[0003]有鉴于此,本发明实施例提供了对图片进行文本检测的方法及装置,以解决现有技术会丢失文本区域的位置信息的问题。
[0004]第一方面,提供了一种对图片进行文本检测的方法,包括:
[0005]获取进行文本检测的图片;
[0006]将所述图片输入全卷积网络的第一层,在所述第一层中基于文本区域的序列特征,检测出所述图片中的文本区域;
[0007]将所述文本区域输入到所述全卷积网络的第二层,在所述第二层中基于文本中间线的监督分类器,将所述文本区域分解为独立的文本行区域输出,所述文本中间线的区域由高斯分布的函数定义。
[0008]另一方面,提供了一种对图片进行文本检测的装置,包括:
[0009]获取单元,用于获取进行文本检测的图片;
[0010]第一处理单元,用于将所述图片输入全卷积网络的第一层,在所述第一层中基于文本区域的序列特征,检测出所述图片中的文本区域;
[0011]第二处理单元,用于将所述文本区域输入到所述全卷积网络的第二层,在所述第二层中基于文本中间线的监督分类器,将所述文本区域分解为独立的文本行区域输出,所述文本中间线的区域由高斯分布的函数定义。
[0012]本发明实施例基于两层级联式的全卷积网络,对图片中的文本行进行提取,不仅充分节省了重叠区域之间的计算资源,而且利用了文本更高层的序列特征作为监督信息,提高了文本检测算法的鲁棒性。
【附图说明】
[0013]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0014]图1是本发明实施例提供的对图片进行文本检测的网络结构图;
[0015]图2是本发明实施例提供的对图片进行文本检测的方法的实现流程图;
[0016]图3是本发明实施例提供的文本中间线的检测示意图;
[0017]图4是本发明实施例提供的对图片进行文本检测的检测效果示意图;
[0018]图5是本发明实施例提供的对图片进行文本检测装置的结构框图。
【具体实施方式】
[0019]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透切理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
[0020]本发明实施例基于两层级联式的全卷积网络,对图片中的文本行进行提取,不仅充分节省了重叠区域之间的计算资源,而且利用了文本更高层的序列特征作为监督信息,提高了文本检测算法的鲁棒性。
[0021]图1示出了本发明实施例提供的对图片进行文本检测的网络结构,如图1所示,输入图像首先经过VGG-16网络的特征提取层,到达池化层-4,然后将池化层-4的特征图填充不同大小的边界,同时用三种不同大小的卷积核进行卷积,将郑积得到的三种特征图像进行融合并通过全卷积网络,将得到的特征上采样并与池化层-4得到的特征进行融合。参照该网络结构,接下来通过图2对本发明实施例提供的对图片进行文本检测的方法的实现流程进行详细阐述。在本发明实施例中,采用的卷积网络是以被广泛使用的VGG-16N et图像分类模型为基本框架,结合场景文本的具体特征所改进得到的:
[0022]在S201中,获取进行文本检测的图片。
[0023]在S202中,将所述图片输入全卷积网络的第一层,在所述第一层中基于文本区域的序列特征,检测出所述图片中的文本区域。
[0024]在本实施例中,用1*1的卷积代替全连接层,使得输入的图片可以为任意大小,且能够保留粗糙的空间位置信息。在该级网络的检测中,主要利用了文本区域的监督信息,强调了文本行矩形的序列结构,为了更好地突出这个序列特征,在本发明实施例中,将文本区域和非文本区域的二分类函数softmax作为误差函数,这样将直接输出一个和原图同样大小的热点图,简单地设置一个阈值就可以将粗糙的文本区域从图片中分割开来。
[0025]在网络设计上,本发明实施例设计了一种针对文本特征的卷积和,并进行了特征整合:由于文本在自然场景中的表现形式一般为矩形序列,因此,设计了3*7、7*3以及3*3的卷积核,以分别针对不同方向的文本区域的序列特征,解决了在文本检测中多语言多方向的问题,减少了人为的干预以及启发式参数的设定,省去了复杂的后处理过程。
[0026]同时,为了使不同的卷积和能够以同样大小进行融合,在本发明实施例中,如图1所示,对特征图像进行了不同方式的填补(padding),使得输出的特征图大小相同。
[0027]此外,为了更加精细地定位文本区域,提高特征图像的分辨率,在本发明实施例中,进行了pool-4和pool-5的特征融合,将pool-5特征上采样到的和pool-4同样大小的特征进行逐元素求和,这样不仅保留了pool-4更为细节的特征,同时也保留了pool-5的高层语义信息。
[0028]在S203中,将所述文本区域输入到所述全卷积网络的第二层,在所述第二层中基于文本中间线的监督分类器,将所述文本区域分解为独立的文本行区域输出,所述文本中间线的区域由高斯分布的函数定义。
[0029]在S102中,第一层网络的输出无法精确地分开文本行,得到的文本区域是由很多文本行连接在一起的,而文本检测的最终目的是输出独立的文本行区域,因此,为了实现这一目的,在本发明实施例中,在第二层网络设计了一种基于文本中间线的监督分类器,如图3所示,文本中间线的区域是由一个高斯分布的函数定义的,由区域的中间逐渐向两边递减,函数最大值为I,最小值为O,高斯分布的半径为0.25*H,所述H为文本区域最小面积文本框的高度。在第二级网络中,采用的误差函数为sigmoid交叉熵。
[0030]由第二层网络的设计可知,这样的设计不仅能够让文本区域有重叠的文本行分离,并且可以根据文本行的高度推算出整个文本框的高度,高效地利用了重叠区域的计算资源,利用全卷积网络保留了文本区域的位置信息。
[0031]进一步地,为了更加准确地找到文本框,本发明实施例中,在第二层网络添加了局部的文本区域约束,即,将文本区域的局部区域送入第一层网络重新进行文本区域检测。
[0032]在本发明实施例中,设计了一种两步级联的由粗糙到细致的神经网络,其第一级网络用于在整张图中检测粗糙的文本区域,输出一个像素级别的显著性图,以表征某区域是否为文本区域的概率;第二级网络用于精确的定位文本行的位置,并产生两个显著性图:一张基于文本区域的显著性图,一张基于文本中间线的显著性图。上述设计利用神经网络直接输出文本区域,且无需设计基于字符的分类器,同时解决了多语言多方向的问题。
[0033]图4示出了本发明实施例提供的对图片进行文本检测的方法的实现示例图,其中,第一列为输入图像,第二列为粗检测的结果,第三列为根据粗检测结果得到的精细局部区域图像,第四列为局部中间线的检测结果,第五列为第二步局部区域检测,第六列为得到的文本检测结果。
[0034]对应于上文所述的对图片进行文本检测的方法,图5示出了本发明实施例提供的对图片进行文本检测的装置的结构框图,为了便于说明,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1