一种基于全卷积网络的场景图像文本建议方法与流程

文档序号：11231195阅读：750来源：国知局

本发明涉及图像文本建议领域，尤其是涉及了一种基于全卷积网络的场景图像文本建议方法。

背景技术：

自然场景图像中文字的检测和识别，对于基于文字内容的图像分析具有重要的作用，对人工智能的发展也有重要的理论意义。图像文本的检测和识别与人们的日常生活、工作息息相关，它可以应用到身份证件的信息读取和查询，多媒体信息服务，车辆车牌的跟踪与定位，基于视觉的汽车导航、智能机器人等众多场合，给人们的生活带来了方便。对象提案技术已经成为通过生成候选类独立对象位置和范围，减少图像中对象位置的搜索空间的有效方法。这种通用对象提案方法通常用于检测单体对象，并且不适用于旨在检测不相交的部分对象(字符或文本笔画)的文本检测。先前的方法在分割图像时不太理想，文本提案算法的性能低下，因此，如何提高性能和效率，是研究人员关注的重点。

本发明提出了一种基于全卷积网络的场景图像文本建议方法，先文本建议阶段将图像分解为区域，输入图像的初始分割，从中获得一组连接分量，接着通过几个自下而上的聚集过程创建文本假设，再利用全卷积网络(fcn)预测和估计图像，最后使用fcn结果对获得的文本提案进行重新排序，得出最佳文本提案。本发明结合全卷积网络，提高了文本提案算法的性能；整合全卷积网络提供的像素点文本概率，重新分配文本区域提案，加速了文本检测，该方法还可以扩展到端到端文本识别系统。

技术实现要素：

针对分割图像不太理想的问题，本发明的目的在于提供一种基于全卷积网络的场景图像文本建议方法，先文本建议阶段将图像分解为区域，输入图像的初始分割，从中获得一组连接分量，接着通过几个自下而上的聚集过程创建文本假设，再利用全卷积网络(fcn)预测和估计图像，最后使用fcn结果对获得的文本提案进行重新排序，得出最佳文本提案。

为解决上述问题，本发明提供一种基于全卷积网络的场景图像文本建议方法，其主要内容包括：

(一)图像区域分解；

(二)创建文本分组假设；

(三)全卷积网络(fcn)预测和估计图像；

(四)文本假设排名和优化。

其中，所述的图像区域分解，文本建议阶段将图像分解为区域，输入图像的初始分割，从中获得一组连接分量；fcn对图像进行像素级的分类，从而解决了语义级别的图像分割。

进一步地，所述的区域分解，基于最稳定极值区域算法，目的在于检测组成部分，这将影响后续的文本分类；接着，根据相似的线索，如强度、颜色和笔画宽度，分组过程建立最稳定极值区域初始设定分组的层次。

其中，所述的创建文本分组假设，通过几个自下而上的聚集过程创建文本假设；首先，基于沿着层次结构，以增量方式计算出特征，各组分类为文本或非文本。

进一步地，所述的文本提案，一旦非文本分组被过滤出来，剩下的分组基于来自感知组织原理的文本结构质量得分和特定分组的感知意义的概念得分，形成文本提案。

其中，所述的全卷积网络(fcn)预测和估计图像，fcn的目的在于提供像素级预测；fcn中的每个层计算相对空间坐标的本地操作；由于没有完全连接的层，可以在可变尺寸图像上使用fcn，并产生相应输入尺寸的输出，保留对于文本检测任务至关重要的图像的粗略空间信息；因此使用fcn执行每个像素预测，并估计输入图像的文本热点图。

进一步地，所述的全卷积网络(fcn)，首先，将预训练的视觉几何组(vgg)网络转换为完全卷积形式；将网络运用到执行文本或者非文本分割；对fcn输出应用softmax归一化，以便将其用作后续假设排序步骤的文本概率。

其中，所述的文本假设和优化排名，均文本概率策略使用平均文本概率对区域进行排序，该平均文本概率是从fcn热点图平均得到的；fcn热点图仅提供有关文本本地化的粗略信息，不能直接使用这种信息对边界框进行排序；实际上，使用平均fcn评分超过文本假设作为排名机制会产生不利影响，即文本区域内排名优于对应于词或行的全部区域；另一方面，分组质量分数将具有高概率的区域优先为词或文本行。

进一步地，所述的优化，引入抑制策略，最优化地结合了这两种互补行为，抑制具有低平均文本概率的文本提案；随后，根据分组质量分数确定其余区域的排名，优先排序结构化文本块；对应于文本块内部较小的区域不会被fcn概率所抑制，然而，由于它们仅覆盖一小部分，因此它们通常基于它们的分组质量得分低排名；抑制策略允许丢弃大量的误报信息，从而在保留较高的召回率的同时提供较少数量的提案的优异检测。

进一步地，所述的排名策略，能够检测不同类型的文本，包括不同的字体、手写文本、各种方向或变形、不同的文本长度以及不同的语言。

附图说明

图1是本发明一种基于全卷积网络的场景图像文本建议方法的系统流程图。

图2是本发明一种基于全卷积网络的场景图像文本建议方法的全卷积网络构架。

图3是本发明一种基于全卷积网络的场景图像文本建议方法的fcn输出的地面实况文本注释和文本散点图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于全卷积网络的场景图像文本建议方法的系统流程图。主要包括图像区域分解，创建文本分组假设，全卷积网络(fcn)预测和估计图像，文本假设排名和优化。

图像区域分解，文本建议阶段将图像分解为区域，输入图像的初始分割，从中获得一组连接分量；fcn对图像进行像素级的分类，从而解决了语义级别的图像分割。

其中的区域分解，基于最稳定极值区域算法，目的在于检测组成部分，这将影响后续的文本分类；接着，根据相似的线索，如强度、颜色和笔画宽度，分组过程建立最稳定极值区域初始设定分组的层次。

创建文本分组假设，通过几个自下而上的聚集过程创建文本假设；首先，基于沿着层次结构，以增量方式计算出特征，各组分类为文本或非文本。

其中的文本提案，一旦非文本分组被过滤出来，剩下的分组基于来自感知组织原理的文本结构质量得分和特定分组的感知意义的概念得分，形成文本提案。

文本假设和优化排名，均文本概率策略使用平均文本概率对区域进行排序，该平均文本概率是从fcn热点图平均得到的；fcn热点图仅提供有关文本本地化的粗略信息，不能直接使用这种信息对边界框进行排序；实际上，使用平均fcn评分超过文本假设作为排名机制会产生不利影响，即文本区域内排名优于对应于词或行的全部区域；另一方面，分组质量分数将具有高概率的区域优先为词或文本行。

优化，引入抑制策略，最优化地结合了这两种互补行为，抑制具有低平均文本概率的文本提案；随后，根据分组质量分数确定其余区域的排名，优先排序结构化文本块；对应于文本块内部较小的区域不会被fcn概率所抑制，然而，由于它们仅覆盖一小部分，因此它们通常基于它们的分组质量得分低排名；抑制策略允许丢弃大量的误报信息，从而在保留较高的召回率的同时提供较少数量的提案的优异检测。

排名策略，能够检测不同类型的文本，包括不同的字体、手写文本、各种方向或变形、不同的文本长度以及不同的语言。

图2是本发明一种基于全卷积网络的场景图像文本建议方法的全卷积网络构架。利用全卷积网络(fcn)预测和估计图像，fcn的目的在于提供像素级预测；fcn中的每个层计算相对空间坐标的本地操作；由于没有完全连接的层，可以在可变尺寸图像上使用fcn，并产生相应输入尺寸的输出，保留对于文本检测任务至关重要的图像的粗略空间信息；因此使用fcn执行每个像素预测，并估计输入图像的文本热点图。

图3是本发明一种基于全卷积网络的场景图像文本建议方法的fcn输出的地面实况文本注释和文本散点图。全卷积网络(fcn)首先将预训练的视觉几何组(vgg)网络转换为完全卷积形式；将网络运用到执行文本或者非文本分割；对fcn输出应用softmax归一化，以便将其用作后续假设排序步骤的文本概率。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：夏春秋
技术所有人：深圳市唯特视科技有限公司
我是此专利的发明人

上一篇：抽油杆端部的制造方法与工艺
上一篇：一种多向可调便携式钻机支架的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。