本发明涉及文本检测技术领域,具体涉及一种基于深度神经网络的长短文本检测的方法及系统。
背景技术:
目前,市场上有大量将用户提供的带有文字的图片电子化的需求,此类需求需要将图片内文本检测出来,并识别为数字化的文本。这部分工作过去需要大量的人力,而现在则是利用ocr技术将图片转为电子数据的这项技术。目前的ocr技术,分为检测和识别两个模块,本技术主要用来提高文本检测模块的表现,将提升文本的边界回归的准确率。
文本检测技术,主要基于的是目前发展较好的深度卷积神经网络进行检测,其包括fasterrcnn框架和ctpn检测框架;其中:
fasterrcnn框架的基础版本对于较大的物体有比较高的准确率。框架的的流程为:i.对图片提取特征,ii.枚举大量的矩形来试图回归出对应的物体,iii.将枚举出的矩形分成2类:包含目标且交集较大的正样本和其他负样本,iv.将正样本从特征图中裁剪出来,然后根据特征图去回归目标的边界;
针对文本类检测优化的ctpn检测架针对文本总是水平出现,且长度不固定的现象,采用了如下流程:i.对图片提取特征,ii.枚举大量的小矩形,不同于fasterrcnn,美剧的小矩形会固定宽度,而高度会使用不同的尺度,比如:(11像素到273像素,每次乘以固定比例,共10个不同尺度),iii,采用rnn循环网络将检测的小尺度文本进行连接,得到文本行。iv.采用cnn+rnn端到端的训练方式,支持多尺度。
上述两个检测模型存在的缺点为:
fasterrcnn检测模型在检测方面,因为文本存在长短不一差距较大的情况,难以确定枚举anchor的高宽,对长宽比差距极大的文本会存在边界回归较差的问题。
ctpn检测模型在检测方面,对于边界回归较好,但是对于存在文本重叠的情况下,会存在文本框丢失的情况,难以做到找回所有文本。
技术实现要素:
针对上述问题中存在的不足之处,本发明提供一种基于深度神经网络的长短文本检测的方法及系统。
本发明公开了一种基于深度神经网络的长短文本检测的方法,包括:
选择原始图片,对原始图片提取特征图;
基于fasterrcnn从特征图中枚举若干预设长宽比的第一类矩形区域,预测第一类矩形区域的前景或背景、预测第一类矩形区域的真实区域,得到所有的第一类文本框;
基于ctpn从特征图枚举若干预设宽度、不定长度的第二类矩形区域,判断第二类矩形区域为文本或非文本区域;若第二类矩形区域为文本区域,则接入rnn循环网络得到第二类文本框;
基于非极大值抑制合并所述第一类文本框和第二类文本框。
作为本发明的进一步改进,所述基于fasterrcnn从特征图中枚举若干预设长宽比的第一类矩形区域,包括:
基于深度卷积网络提取原始图片抽象特征;
使用区域候选网络推荐原始图片的候选区域;
从候选区域回归文本的精准区域。
作为本发明的进一步改进,所述基于ctpn从特征图枚举若干预设宽度、不定长度的第二类矩形区域,包括:
使用网络生成特征图像;
利用固定宽度与不定长度生成候选枚举的第二类矩形区域;
对第二类矩形区域进行文本非文本预测。
作为本发明的进一步改进,所述基于非极大值抑制合并所述第一类文本框和第二类文本框,包括:
将所有框的得分排序,选中最高分及其对应的框,设置为有效框;
遍历其余的框,如果和当前最高分框的重叠面积大于一定阈值,删除有效框;
从未处理的框中继续选一个得分最高的框,重复上述过程。
本发明还提供一种基于深度神经网络的长短文本检测的系统,包括:
提取模块,用于选择原始图片,对原始图片提取特征图;
fasterrcnn处理模块,用于基于fasterrcnn从特征图中枚举若干预设长宽比的第一类矩形区域,预测第一类矩形区域的前景或背景、预测第一类矩形区域的真实区域,得到所有的第一类文本框;
ctpn处理模块,用于基于ctpn从特征图枚举若干预设宽度、不定长度的第二类矩形区域,判断第二类矩形区域为文本或非文本区域;若第二类矩形区域为文本区域,则接入rnn循环网络得到第二类文本框;
合并模块,用于基于非极大值抑制合并所述第一类文本框和第二类文本框。
作为本发明的进一步改进,所述基于fasterrcnn从特征图中枚举若干预设长宽比的第一类矩形区域,包括:
基于深度卷积网络提取原始图片抽象特征;
使用区域候选网络推荐原始图片的候选区域;
从候选区域回归文本的精准区域。
作为本发明的进一步改进,所述基于ctpn从特征图枚举若干预设宽度、不定长度的第二类矩形区域,包括:
使用网络生成特征图像;
利用固定宽度与不定长度生成候选枚举的第二类矩形区域;
对第二类矩形区域进行文本非文本预测。
作为本发明的进一步改进,所述基于非极大值抑制合并所述第一类文本框和第二类文本框,包括:
将所有框的得分排序,选中最高分及其对应的框,设置为有效框;
遍历其余的框,如果和当前最高分框的重叠面积大于一定阈值,删除有效框;
从未处理的框中继续选一个得分最高的框,重复上述过程。
与现有技术相比,本发明的有益效果为:
本发明采用的fasterrcnn和ctpn都是基于深度学习算法的,是在原始图像的特征图上做的文本检测,可以在各种复杂环境下使用;
本发明结合了fasterrcnn的优点:对于重叠目标仍有较高的检出率。以及ctpn的优点:对于较长的文本依然有较好的边界准确率,同时对于不同尺度的文本有更好的兼容性。通过一定的规则将两者的检测内容基于非极大值抑制逻辑合并,使得文本检测的召回率和准确率都得到了提高。
附图说明
图1为本发明一种实施例公开的基于深度神经网络的长短文本检测的方法的流程图;
图2为本发明一种实施例公开的基于深度神经网络的长短文本检测的系统的框架图;
图3为本发明一种实施例公开的第一类文本框的示意图;
图4为本发明一种实施例公开的rnn循环网络得到第二类文本框的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明公开了一种基于深度神经网络的长短文本检测的方法,包括:
步骤1、选择原始图片,对原始图片进行特征提取,得到特征图;其中原始图片可为票据图片;
步骤2、基于fasterrcnn从特征图中枚举若干预设长宽比的第一类矩形区域,预测第一类矩形区域的前景或背景、预测第一类矩形区域的真实区域,得到所有的第一类文本框,第一类文本框如图3所示;其中:
fasterrcnn的原理为:
基于深度卷积网络提取原始图片抽象特征;
使用区域候选网络推荐原始图片的候选区域;
从候选区域回归文本的精准区域;
步骤3、基于ctpn从特征图枚举若干预设宽度、不定长度的第二类矩形区域,判断第二类矩形区域为文本或非文本区域;若第二类矩形区域为文本区域,则接入rnn循环网络得到第二类文本框,第二类文本框如图4所示;其中:
ctpn的原理为:
使用网络生成特征图像;
利用固定宽度与不定长度生成候选枚举的第二类矩形区域;
对第二类矩形区域进行文本非文本预测。
步骤4、基于非极大值抑制(nms)合并第一类文本框和第二类文本框;其中:
基于非极大值抑制合并第一类文本框和第二类文本框,包括:
将所有框的得分排序,选中最高分及其对应的框,设置为有效框;
遍历其余的框,如果和当前最高分框的重叠面积大于一定阈值,删除有效框;
从未处理的框中继续选一个得分最高的框,重复上述过程。
例如:
假设某物体检测到4个boxes,每个box分别对应一个类别score,根据score从小到大排列依次为,(b1,s1),(b2,s2),(b3,s3),(b4,s4).s4>s3>s2>s1;
step1.根据score大小,从boxb4框开始;
step2.分别计算b1,b2,b3与b4的重叠程度iou,判断是否大于预设定的阈值;如果大于设定阈值,则舍弃该box;同时标记保留的box.假设b3与b4的阈值超过设定阈值,则舍弃b3,标记b4为要保留的box;
step3.从剩余的boxes中b1,b2中选取score最大的b2,然后计算b2与剩余的b1的重叠程度iou;如果大于设定阈值,同样丢弃该box;同时标记保留的box;
重复以上过程,直到找到全部的保留boxes。
如图2所示,本发明提供一种基于深度神经网络的长短文本检测的系统,包括:
提取模块,用于选择原始图片,对原始图片进行特征提取,得到特征图;其中原始图片可为票据图片;
fasterrcnn处理模块,用于基于fasterrcnn从特征图中枚举若干预设长宽比的第一类矩形区域,预测第一类矩形区域的前景或背景、预测第一类矩形区域的真实区域,得到所有的第一类文本框,第一类文本框如图3所示;其中:
fasterrcnn的原理为:
基于深度卷积网络提取原始图片抽象特征;
使用区域候选网络推荐原始图片的候选区域;
从候选区域回归文本的精准区域;
ctpn处理模块,用于基于ctpn从特征图枚举若干预设宽度、不定长度的第二类矩形区域,判断第二类矩形区域为文本或非文本区域;若第二类矩形区域为文本区域,则接入rnn循环网络得到第二类文本框,第二类文本框如图4所示;其中:
ctpn的原理为:
使用网络生成特征图像;
利用固定宽度与不定长度生成候选枚举的第二类矩形区域;
对第二类矩形区域进行文本非文本预测;
合并模块,用于基于非极大值抑制(nms)合并第一类文本框和第二类文本框;其中:
基于非极大值抑制合并第一类文本框和第二类文本框,包括:
将所有框的得分排序,选中最高分及其对应的框,设置为有效框;
遍历其余的框,如果和当前最高分框的重叠面积大于一定阈值,删除有效框;
从未处理的框中继续选一个得分最高的框,重复上述过程。
例如:
假设某物体检测到4个boxes,每个box分别对应一个类别score,根据score从小到大排列依次为,(b1,s1),(b2,s2),(b3,s3),(b4,s4).s4>s3>s2>s1;
step1.根据score大小,从boxb4框开始;
step2.分别计算b1,b2,b3与b4的重叠程度iou,判断是否大于预设定的阈值;如果大于设定阈值,则舍弃该box;同时标记保留的box.假设b3与b4的阈值超过设定阈值,则舍弃b3,标记b4为要保留的box;
step3.从剩余的boxes中b1,b2中选取score最大的b2,然后计算b2与剩余的b1的重叠程度iou;如果大于设定阈值,同样丢弃该box;同时标记保留的box;
重复以上过程,直到找到全部的保留boxes。
进一步,文本区域框的合并可以有多种方式,可以是nms(非极大值抑制)方法,也可以是区域完全覆盖合并等。
本发明的有益效果为:
本发明采用的fasterrcnn和ctpn都是基于深度学习算法的,是在原始图像的特征图上做的文本检测,可以在各种复杂环境下使用;本发明结合了fasterrcnn的优点:对于重叠目标仍有较高的检出率。以及ctpn的优点:对于较长的文本依然有较好的边界准确率,同时对于不同尺度的文本有更好的兼容性。通过一定的规则将两者的检测内容基于非极大值抑制逻辑合并,使得文本检测的召回率和准确率都得到了提高。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。