基于分割候选区提取的多方向文本检测算法的制作方法

文档序号：17664877发布日期：2019-05-15 22:38阅读：498来源：国知局

本发明属于计算机视觉、图形处理
技术领域：
，具体涉及一种基于分割的多方向文本检测方法。
背景技术：
：文献“shaoqingren,kaiminghe,rossgirshick,andjiansun.fasterr-cnn:towardsreal-timeobjectdetectionwithregionproposalnetworks.advancesinneuralinformationprocessingsystems.pp.91-99,2015.中采用anchor生成机制生成对应的目标物体候选区域。这种生成机制对于通用物体检测任务是十分有效的。然而，对于自然场景下的文本检测任务，这种候选区生成方式无法有效的生成多方向的文本候选区域。自然场景下文本排列方式不像通用的物体比如人，车等那么规则和有序。因此，仅通过水平方向的外接矩形框生成候选区域，无法满足多方向的文本检测需求。技术实现要素：要解决的技术问题为了解决了现有的算法对多方向的文本定位不够精准的问题，本发明提出一种基于分割候选区提取的多方向文本检测算法。技术方案一种基于分割候选区提取的多方向文本检测算法，其特征在于步骤如下：步骤1：对训练数据集进行随机截取采样，将groundtruth矩形框包含的区域向内缩放一半；步骤2：利用步骤1中生成的训练数据训练层级的全卷积网络，得到分割模型；步骤3：利用步骤2中训练的分割模型对输入图片进行分割，通过连通域分析的方法，获取连通域的外接矩形框作为候选区域；步骤4：通过分析连通区域的主轴方向，获取旋转角度；将获取的候选区域映射到原图四分之一大小的特征图上；步骤5：根据步骤4中获取的旋转角度，构建旋转矩阵，引入到roipooling层中，得到可处理多方向候选区域的旋转roipooling层；利用旋转roipooling层获取候选区域的特征向量；旋转后的特征图宽高可由下式求得：hr＝w*sinβ+h*cosβ(13)wr＝w*cosβ+h*sinβ(14)w、h为旋转前的宽和高，β为旋转角度；旋转变换矩阵如下式所示：其中，步骤6：将特征向量输入到两层全连接层中，进行回归和分类，实现对多方向文本的检测。步骤1中的训练数据训练神经网络采用的损失函数如下式所示：loss＝lseg+lgeo+lcls+lreg(1)其中，lseg为分割的损失函数，lgeo为几何分割损失函数，lcls为分类损失函数，lreg为回归损失函数；表达式如下所示：lseg＝balancedxent(ypred,ygt)(2)＝-β*ygtlogypred-(1-β)(1-ygt)log(1-ypred)(3)lgeo＝-logiou(rgt,rpred)+λ(1-cos(θgt-θpred))(4)lcls＝-log(pgtppred+(1-pgt)(1-ppred))(6)其中，smoothl1的函数表达式为其中，ygt，rgt分别为对应的真实标签和真实区域，ypred，rpred分别为对应预测的标签和区域；x*，y*，w*，h*分别为对应真实矩形框的坐标和宽高；x，y，w，h分别对应预测矩形框的坐标和宽高。有益效果本发明提出的一种基于分割候选区提取的多方向文本检测算法，首先，对于倾斜的文本，能够显著提高定位准确度。本发明在国际文档识别竞赛icdar2015数据集上取得了78.4％的召回率，80.4％的准确率和79.4％的f指标。在icdar2013数据集上取得了80％的召回率，90％的准确率和85％的f指标。在多语言数据集msra-td500上取得了63％的召回率，84％的准确率和72％的f指标。附图说明图1为本发明中多方向文本的检测系统的流程图；图2旋转示意图；图3icdar2015数据集上的部分检测结果图；图4msra-td500数据集上的部分检测结果图。具体实施方式现结合实施例、附图对本发明作进一步描述：本发明解决其技术问题所采用的技术方案包括以下步骤：1.首先对训练集进行随机采样，采样比例从原图的0.5倍到2倍不等。同时在生成分割训练集的过程中，考虑到文本之间的距离太近，生成的分割结果会融合到一起。因此，每个分割结果根据标注数据向内缩放一半，以避免相邻连通区域的融合。2.利用步骤1中生成的训练数据训练层级的全卷积网络，得到分割模型。3.对于步骤2中分割得到的结果，通过连通域分析的方法，获取连通域的外接矩形框作为候选区域。4.通过分析连通区域的主轴方向，获取旋转角度。将获取的候选区域映射到原图四分之一大小的特征图上。5.根据步骤4中获取的旋转角度，构建旋转矩阵，引入到roipooling层中，得到可处理多方向候选区域的旋转roipooling层。利用旋转roipooling层获取候选区域的特征向量。6.将特征向量输入到两层全连接层中，进行回归和分类，实现对多方向文本的检测。参照图1，本发明的实现步骤如下：步骤1，首先，对训练数据集进行随机截取采样，将groundtruth矩形框包含的区域向内缩放一半。步骤2，用步骤1中的训练数据训练神经网络。采用的损失函数如下式所示：loss＝lseg+lgeo+lcls+lreg(1)其中，lseg为分割的损失函数，lgeo为几何分割损失函数，lcls为分类损失函数，lreg为回归损失函数。他们的表达式如下所示：lseg＝balancedxent(ypred,ygt)(2)＝-β*ygtlogypred-(1-β)(1-ygt)log(1-ypred)(3)lgeo＝-logiou(rgt,rpred)+λ(1-cos(θgt-θpred))(4)lcls＝-log(pgtppred+(1-pgt)(1-ppred))(6)其中，smoothl1的函数表达式为其中，ygt，rgt分别为对应的真实标签和真实区域，ypred，rpred分别为对应预测的标签和区域。x*，y*，w*，h*分别为对应真实矩形框的坐标和宽高。x，y，w，h分别对应预测矩形框的坐标和宽高。步骤3，利用步骤2中训练的模型对输入图片进行分割。步骤4，通过连通域分析得到分割所得到的区域的外接矩形框并将矩形区域映射到卷积特征图上。步骤5，通过旋转矩阵将矩形区域进行旋转并进行roipooling操作来提取旋转的区域特征。具体过程如图2所示。旋转后的特征图宽高可由下式求得：hr＝w*sinβ+h*cosβ(13)wr＝w*cosβ+h*sinβ(14)旋转变换矩阵如下式所示：其中，步骤6，步骤5中提取的特征通过两层全连接层输出预测的文本区域坐标。本发明的效果可以通过以下仿真实验做进一步的说明。1.仿真条件本发明是在gpugtx1080的linux操作系统上，运用tensorflow进行的仿真。仿真中使用的数据均为公开数据集。2.仿真内容首先，在icdar2015公开数据集上做测试。icdar2015共有1000张训练图片和500张测试图片。考虑到icdar2015数据集里有许多倾斜的文本，而检测倾斜的文本区域是本发明的优势。在icdar2015数据集上各项指标如下表所示表1准确率召回率f指标80.478.479.4本发明在icdar2015数据集上取得了很好的效果，这证明了本发明在检测倾斜文本区域方面具有一定的优势。icdar2015数据集上的部分检测结果如图3所示。其次，为了验证本发明也适用于多语言文本区域的检测，在msra-td500数据集上也做了测试。msra-td500数据集包含中文和英文两种语言。测试结果图如图4所示。表2准确率召回率f指标846372当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁媛;王琦;杨馥魁
技术所有人：西北工业大学
我是此专利的发明人

上一篇：图像显著性检测方法、装置、存储介质及电子设备与流程
上一篇：一种基于风扇的新型雾化降温装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。