一种非商品图文本检测方法、系统及计算机存储介质与流程

文档序号：31331781发布日期：2022-08-31 07:16阅读：39来源：国知局

1.本发明涉及计算机视觉技术领域，具体而言，涉及一种非商品图文本检测方法、系统及计算机存储介质。

背景技术：

2.随着互联网的发展，网络购物成为人们生活方式、电商之间的比拼日趋激烈——数字消费在促进我国消费市场蓬勃发展、扩大内需方面发挥了积极作用。
3.如今，打开淘宝、京东、苏宁、亚马逊等网上商城，选中满意的商品后进行在线支付，等上两三天，快递员就把心仪的商品送上门。这种网上购物的体验，已成为相当一部分人的生活日常。近些年，手机网民的增多、移动支付的发展，更让网购成为了随时随地、想买就买的一件事。在网购时代，一大批企业和个人更是搭上了网购的“快车”，分享着网购这块“蛋糕”。
4.然而各个电商都会招募各种各样商品的卖家，商品卖家通过上传所售的商品图片在各个电商平台进行展示，这样买家就通过商品的实体图片来决定自己是否购买。然而在上传的图片中残次不齐，有的随意拍照，有的肆意添加大量的描述性商品的描述性文字，严重影响了用户的购物体验，有的描述性文字也会对平台的统一节日的促销产生矛盾，因此电商平台会对商家上传的图片有一定的要求，诸如需要上传四通道的图片且只展示商品的主体部分，不添加和商品无关的描述性文字，这样平台可以统一合成节日氛围商品图。为了避免此类情况的发生，通常采用人工审核的方式对卖家上传的图片进行审核。图片审核团队采用人工审核的方式进行检测，耗费了大量的人力和时间成本，并且人工审核的效率难以满足不断增长的图片审核需求。
5.针对现有技术中采用人工审核的方式检测卖家上传的图片是否有描述性文字所造成的浪费大量人力和时间成本，且效率低下的问题，目前尚未提出有效的解决方案。

技术实现要素：

6.本发明实施例中提供一种非商品图文本检测方法、系统及计算机存储介质，以解决现有技术中采用人工审核的方式检测卖家上传的图片是否有描述性文字所造成的浪费大量人力和时间成本，且效率低下的问题。
7.为达到上述目的，一方面，本发明提供了一种非商品图文本检测方法，该方法包括：步骤100，获取原始图片并对所述原始图片进行通道提取；步骤200，将提取的r通道、g通道、b通道合成白底图，以及将提取的alpha通道合成灰度图；步骤300，对所述灰度图进行基于像素分割的文本检测，当没有检测到文字时，进入步骤400；反之，则进入步骤800；步骤400，对所述灰度图进行轮廓检测，得到所述灰度图上的轮廓区域并计算得到所述轮廓区域的外接矩形框；步骤500，对所述白底图进行基于像素分割的文本检测，得到所述白底图上文字的文字矩形框；将所述外接矩形框映射到所述白底图上，并计算所述白底图上的文字矩形框和外接矩形框的面积交并比；当所述面积交并比小于第一预设阈值时，进入步骤
600；反之，则进入步骤800；步骤600，将当前外接矩形框内的所有文字矩形框的面积求和并计算所述求和的面积在所述当前外接矩形框的面积占比；步骤700，判断所述面积占比是否大于第二预设阈值，若是，则进入步骤800；步骤800，判定所述原始图片是不合格图片。
8.可选的，当判定所述面积占比不大于第二预设阈值时，进入步骤900；步骤900，计算所述白底图的宽高以及计算每个所述文字矩形框的宽高；根据所述文字矩形框的宽高和所述白底图的宽高判断是否有文字矩形框在所述白底图的占比大于第三预设阈值，若是，则进入步骤800。
9.可选的，所述获取原始图片并对所述原始图片进行通道提取包括：获取原始图片；判断所述原始图片是否为四通道透明图；若是，对所述原始图片进行通道提取。
10.可选的，所述计算得到所述轮廓区域的外接矩形框包括：计算所述轮廓区域的面积并过滤掉面积小于第三预设阈值的所述轮廓区域；计算得到过滤后的所述轮廓区域的外接矩形框。
11.可选的，所述白底图上的文字矩形框和外接矩形框的面积交并比的计算公式为：
12.x1＝max(x
a1
,x
b1
)；
13.y1＝max(y
a1
,y
b1
)；
14.x2＝max(x
a2
,x
b2
)；
15.y2＝max(y
a2
,y
b2
)；
16.intersection＝max(x
2-x1+1.0,0)*max(y
2-y1+1.0,0)；
17.sa＝(x
a2-x
a1
+1.0)*(y
a2-y
a1
+1.0)；
18.sb＝(x
b2-x
b1
+1.0)*(y
b2-y
b1
+1.0)；
19.union＝sa+sb-intersection；
20.iou＝intersection/union；
21.其中，所述文字矩形框的坐标为[x
a1
,y
a1
,x
a2
,y
a2
]，所述外接矩形框的坐标的为[x
b1
,y
b1
,x
b2
,y
b2
]，x1，y1为所述文字矩形框和外接矩形框相交部分的左上角坐标；x2，y2为所述文字矩形框和外接矩形框相交部分的右下角坐标；intersection为所述文字矩形框和外接矩形框相交部分的面积；sa为所述文字矩形框的面积；sb为所述外接矩形框的面积；union为所述文字矩形框和所述外接矩形框的总面积；iou为所述文字矩形框和外接矩形框的面积交并比。
[0022]
可选的，所述将所述灰度图进行基于像素分割的文本检测包括：将所述灰度图进行图像缩放；将缩放后的所述灰度图输入到预先训练好的文本检测模型中进行基于像素分割的文本检测。
[0023]
另一方面，本发明提供了一种非商品图文本检测系统，该系统包括：获取单元，用于获取原始图片并对所述原始图片进行通道提取；合成单元，用于将提取的r通道、g通道、b通道合成白底图，以及将提取的alpha通道合成灰度图；第一判断单元，用于对所述灰度图进行基于像素分割的文本检测，当没有检测到文字时，进入轮廓检测单元；反之，则进入判定单元；轮廓检测单元，用于对所述灰度图进行轮廓检测，得到所述灰度图上的轮廓区域并计算得到所述轮廓区域的外接矩形框；第二判断单元，用于对所述白底图进行基于像素分割的文本检测，得到所述白底图上文字的文字矩形框；将所述外接矩形框映射到所述白底图上，并计算所述白底图上的文字矩形框和外接矩形框的面积交并比；当所述面积交并比
小于第一预设阈值时，进入面积占比计算单元；反之，则进入判定单元；面积占比计算单元，用于将当前外接矩形框内的所有文字矩形框的面积求和并计算所述求和的面积在所述当前外接矩形框的面积占比；第三判断单元，用于判断所述面积占比是否大于第二预设阈值，若是，则进入判定单元；判定单元，用于判定所述原始图片是不合格图片。
[0024]
可选的，当判定所述面积占比不大于第二预设阈值时，进入第四判断单元；第四判断单元，用于计算所述白底图的宽高以及计算每个所述文字矩形框的宽高；根据所述文字矩形框的宽高和所述白底图的宽高判断是否有文字矩形框在所述白底图的占比大于第三预设阈值，若是，则进入判定单元。
[0025]
可选的，所述获取单元包括：获取子单元，用于获取原始图片；判断子单元，用于判断所述原始图片是否为四通道透明图；若是，对所述原始图片进行通道提取。
[0026]
另一方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的非商品图文本检测方法。
[0027]
本发明的有益效果：
[0028]
本发明提供了一种非商品图文本检测方法、系统及计算机存储介质，其中，该方法通过灰度图进行轮廓检测，得到所述灰度图上的轮廓区域并计算得到所述轮廓区域的外接矩形框；通过白底图进行基于像素分割的文本检测，得到所述白底图上文字的文字矩形框；将所述外接矩形框映射到所述白底图上。通过上述方法来对原始图片上的文字进行定位，有效解决了直接使用文本检测算法检测商品图带来的检测到商品图本身文字而误判定为不合格图片，极大的提高了人工审核的效率，节约了人力和财力。
附图说明
[0029]
图1是本发明实施例提供的一种非商品图文本检测方法的流程图；
[0030]
图2是本发明实施例提供的一种非商品图文本检测系统的结构示意图。
具体实施方式
[0031]
为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
[0032]
在淘宝、京东、苏宁、亚马逊等网上商城中，各个电商都会招募各种各样商品的卖家，商品卖家通过上传所售的商品图片在各个电商平台进行展示，这样买家就通过商品的实体图片来决定自己是否购买。然而在上传的图片中残次不齐，有的随意拍照，有的肆意添加大量的描述性商品的描述性文字，严重影响了用户的购物体验，有的描述性文字也会对平台的统一节日的促销产生矛盾，因此电商平台会对商家上传的图片有一定的要求，诸如需要上传四通道的图片且只展示商品的主体部分，不添加和商品无关的描述性文字，这样平台可以统一合成节日氛围商品图。为了避免此类情况的发生，通常采用人工审核的方式对卖家上传的图片进行审核。图片审核团队采用人工审核的方式进行检测，耗费了大量的人力和时间成本，并且人工审核的效率难以满足不断增长的图片审核需求。
[0033]
因而，本发明提供了一种非商品图文本检测方法，图1是本发明实施例提供的一种
非商品图文本检测方法的流程图，如图1所示，该方法包括：
[0034]
步骤100，获取原始图片并对所述原始图片进行通道提取；
[0035]
在一个可选的实施方式中，所述步骤100包括：
[0036]
步骤1001，获取原始图片；
[0037]
步骤1002，判断所述原始图片是否为四通道透明图；若是，对所述原始图片进行通道提取。
[0038]
具体的，在非压缩的32位rgb图像中，每个像素是由四个部分组成：一个alpha通道和三个r通过、g通过、b通道。当alpha值为0时，该像素是完全透明的，而当alpha值为255时，则该像素是完全不透明的。当商家向电商平台上传图片时，电商平台为了统一管理各类节日活动展示效果，一般要求商家上传四通道32位且alpha值为0的透明图。因此首先会对商家上传的图片(原始图片)进行通道判断，如果不是四通道的图片，直接驳回让商家重新上传；如果是四通道的透明图，则进一步对通道分离提取。即提取r通道、g通道、b通道、alpha通道。
[0039]
步骤200，将提取的r通道、g通道、b通道合成白底图，以及将提取的alpha通道合成灰度图；
[0040]
步骤300，对所述灰度图进行基于像素分割的文本检测，当没有检测到文字时，进入步骤400；反之，则进入步骤800；
[0041]
在一个可选的实施方式中，传统的文本检测方法一般采用手工特征提取的方式进行检测文本，比如swt、mser等方法，然后采用模板匹配或模型训练的方法对检测到的文本进行识别。传统方法实现起来有诸多局限性，然而本专利采用是一个基于像素分割的文本检测方法，它不仅能够检测到水平文本、竖直文本，也能够精确地定位任意形状的文本以及不规则形状文本实例。极大的提高了文本检测的鲁棒性和检测的性能。
[0042]
所述对所述灰度图进行基于像素分割的文本检测包括：
[0043]
将所述灰度图进行图像缩放；
[0044]
具体的，为了防止个别图像像素过大，将图像输入网络过程会造成显卡内存占满的情况，需要对灰度图进行图像缩放(resize)，即将图像宽高大于1080像素的灰度图进行缩放操作，最大边缩放到1080像素，小边等比例缩放相同的倍数，宽高小于1080像素的灰度图则不做处理。
[0045]
将缩放后的所述灰度图输入到预先训练好的文本检测模型中进行基于像素分割的文本检测。
[0046]
具体的，首先读入预先训练好的文本检测模型，将缩放后的灰度图输入到文本检测模型中，通过主干网络对灰度图进行特征提取，输出四个维度的特征，之后将高层特征和低层特征融合得到(p2,p3,p4,p5)四个特征层，其中每个特征层的channel(通道)数量为256。之后将四个特征层concat(合并)得到f，将f送入conv(3,3)-bn-relu层，并将特征层的channel(通道)数量变为256。之后再将f送入多个conv(1,1)-up-sigmod层来得到n个分割结果s1,s2,
…
sn(实际上是通过1*1*n1*1*n1*1*n卷积得到的)。
[0047]
上述中f＝c(p2,p3,p4,p5)＝p2||upx2(p3)||upx4(p4)||upx8(p5)；其中，||就代表concat(合并)；up代表上采样；upx2、upx4、upx8分别代表2倍、4倍和8倍的上采样。
[0048]
现在网络输出了s1,s2,
…
sn，假设n＝3，现在又s1,s2,s3，其中s1代表最小kernel
(卷积)的分割结果，它内部有四个连通域c＝{c1,c2,c3,c4}，cc操作得到s1中的四个连通域(小尺度，不同文本行之间的空白很大，很容易区分开)，且我们已知s2中的kernel(卷积)是比s1中的kernel(卷积)大的，也就是可以说s2中的kernel是包含s1中的kernel的。之后将属于s2中的kernel但不属于s1中的kernel的像素点进行分配。将所找到的连通域的每个像素以bfs的方式，逐个向上下左右扩展，即相当于把s1中预测的文本行的区域逐渐变宽(或者换种说法：对于s2中kernel的每个像素点，把它们都分别分配给s1中的某个连通域)。后面的s3同理，最终我们抽取经过s3后的连通区域作为最后的文本行检测结果(即结果为是否检测到文字)。
[0049]
当没有检测到文字时，进入步骤400，反之，则判定原始图片是不合格图片(即商家上传的图片有描述性文字)。
[0050]
步骤400，对所述灰度图进行轮廓检测，得到所述灰度图上的轮廓区域并计算得到所述轮廓区域的外接矩形框；
[0051]
在一个可选的实施方式中，所述计算得到所述轮廓区域的外接矩形框包括：
[0052]
计算所述轮廓区域的面积并过滤掉面积小于第三预设阈值的所述轮廓区域；
[0053]
计算得到过滤后的所述轮廓区域的外接矩形框。
[0054]
例如：有的文字不是单独写在商品图外面的，而是在商品图外侧且在一个小圆形区域内只写入一行文字(3000w)，此时直接对灰度图进行基于像素分割的文本检测是检测不到文字的。因此需要进一步检测，即对所述灰度图进行轮廓检测，得到所述灰度图上的轮廓区域；计算所述轮廓区域的面积并过滤掉面积小于第三预设阈值的所述轮廓区域；此时保留了商品图的轮廓区域，以及小圆形区域；求该两个轮廓区域的外接矩形框。
[0055]
步骤500，对所述白底图进行基于像素分割的文本检测，得到所述白底图上文字的文字矩形框；将所述外接矩形框映射到所述白底图上，并计算所述白底图上的文字矩形框和外接矩形框的面积交并比；当所述面积交并比小于第一预设阈值时，进入步骤600；反之，则进入步骤800；
[0056]
在一个可选的实施方式中，将所述白底图进行图像缩放；
[0057]
具体的，为了防止个别图像像素过大，将图像输入网络过程会造成显卡内存占满的情况，需要对白底图进行图像缩放(resize)，即将图像宽高大于1080像素的灰度图进行缩放操作，最大边缩放到1080像素，小边等比例缩放相同的倍数，宽高小于1080像素的白底图则不做处理。
[0058]
将缩放后的所述白底图输入到预先训练好的文本检测模型(psenet)中进行基于像素分割的文本检测，得到白底图上文字的文字矩形框；将所述外接矩形框映射到所述白底图上，并计算所述白底图上的文字矩形框和外接矩形框的面积交并比；
[0059]
所述白底图上的文字矩形框和外接矩形框的面积交并比的计算公式为：
[0060]
x1＝max(x
a1
,x
b1
)；
[0061]
y1＝max(y
a1
,y
b1
)；
[0062]
x2＝max(x
a2
,x
b2
)；
[0063]
y2＝max(y
a2
,y
b2
)；
[0064]
intersection＝max(x
2-x1+1.0,0)*max(y
2-y1+1.0,0)；
[0065]
sa＝(x
a2-x
a1
+1.0)*(y
a2-y
a1
+1.0)；
[0066]
sb＝(x
b2-x
b1
+1.0)*(y
b2-y
b1
+1.0)；
[0067]
union＝sa+sb-intersection；
[0068]
iou＝intersection/union；
[0069]
其中，所述文字矩形框的坐标为[x
a1
,y
a1
,x
a2
,y
a2
]，所述外接矩形框的坐标的为[x
b1
,y
b1
,x
b2
,y
b2
]，x1，y1为所述文字矩形框和外接矩形框相交部分的左上角坐标；x2，y2为所述文字矩形框和外接矩形框相交部分的右下角坐标；intersection为所述文字矩形框和外接矩形框相交部分的面积；sa为所述文字矩形框的面积；sb为所述外接矩形框的面积；union为所述文字矩形框和所述外接矩形框的总面积；iou为所述文字矩形框和外接矩形框的面积交并比。
[0070]
当所述面积交并比小于第一预设阈值时，进入步骤600，反之，则判定原始图片是不合格图片(即商家上传的图片有描述性文字)。
[0071]
步骤600，将当前外接矩形框内的所有文字矩形框的面积求和并计算所述求和的面积在所述当前外接矩形框的面积占比；
[0072]
在一个可选的实施方式中，一个小圆形区域内可能有两行、三行
……
文字矩形框；通过上述方法可能会漏掉一部分文字矩形框，因此，在上述方法的基础上，需要将小圆形区域内的所有行的文字矩形框的面积求和得到sc，计算sc在小圆形区域的外接矩形框的面积占比a；
[0073]
步骤700，判断所述面积占比是否大于第二预设阈值，若是，则进入步骤800；
[0074]
判断所述面积占比a是否大于第二预设阈值，若是，则认为在白底图上检测到的文字区域是商家p上去的文字，是不规范的文字区域，就会进行驳回该张图片，请商家重新上传。反之，进入步骤900。
[0075]
步骤800，判定所述原始图片是不合格图片。
[0076]
步骤900，计算所述白底图的宽高以及计算每个所述文字矩形框的宽高；根据所述文字矩形框的宽高和所述白底图的宽高判断是否有文字矩形框在所述白底图的占比大于第三预设阈值，若是，则进入步骤800。
[0077]
在一个可选的实施方式中，例如：一张图片，商品图占原始图片的2/3，文字区域占原始图片的1/3，且文字区域与商品图是相连的，文字区域是在小长方形框内，此时，通过上述方法是过滤不掉该图片的。即直接通过灰度图进行基于像素分割的文本检测，检测到的是全白区域，检测不到文字；若通过灰度图进行轮廓检测，得到的外接矩形框是商品图和文字区域合并的总框(因两个是相连的，所以检测到的是一个区域，进而外接矩形框也是一个)。此时对白底图进行基于像素分割的文本检测，得到白底图上文字的文字矩形框，但该文字矩形框和外接矩形框的面积交并比小于第一预设阈值；并且该外接矩形框内的所有文字矩形框的面积和占该外接矩形框的面积之比也仍然小于第二预设阈值，通过上述方法是过滤不掉该图片的。
[0078]
因此，本发明还涉及了一种判断规则，即计算所述白底图的宽高以及计算每个所述文字矩形框的宽高；根据所述文字矩形框的宽高和所述白底图的宽高判断是否有文字矩形框在所述白底图的占比大于第三预设阈值，若是，则认为是商家上传的图片上有自己p上去的描述性文字，就会进行驳回该张图片，请商家重新上传。反之，则认为原始图片是符合平台要求的透明图图片(合格图片)。
[0079]
本发明中，通过上述方法一方面能够有效的对商家上传的商品图片进行文本检测，能够对任意形状的文字区域(包括弯曲、倾斜、水平、竖直)进行定位检测。另一方面，该方法也能够有效的区分商品本身的文字和非商品本身文字(商家p上去的描述性文字)，从而有效避免了直接使用文字检测带来的误检，也能够在该场景下取得电商图片99％的准确率和98％的召回率。
[0080]
图2是本发明实施例提供的一种非商品图文本检测系统的结构示意图，如图2所示，该系统包括：
[0081]
获取单元201，用于获取原始图片并对所述原始图片进行通道提取；
[0082]
在一个可选的实施方式中，所述获取单元201包括：
[0083]
获取子单元2011，用于获取原始图片；
[0084]
判断子单元2012，用于判断所述原始图片是否为四通道透明图；若是，对所述原始图片进行通道提取。
[0085]
具体的，在非压缩的32位rgb图像中，每个像素是由四个部分组成：一个alpha通道和三个r通过、g通过、b通道。当alpha值为0时，该像素是完全透明的，而当alpha值为255时，则该像素是完全不透明的。当商家向电商平台上传图片时，电商平台为了统一管理各类节日活动展示效果，一般要求商家上传四通道32位且alpha值为0的透明图。因此首先会对商家上传的图片(原始图片)进行通道判断，如果不是四通道的图片，直接驳回让商家重新上传；如果是四通道的透明图，则进一步对通道分离提取。即提取r通道、g通道、b通道、alpha通道。
[0086]
合成单元202，用于将提取的r通道、g通道、b通道合成白底图，以及将提取的alpha通道合成灰度图；
[0087]
第一判断单元203，用于对所述灰度图进行基于像素分割的文本检测，当没有检测到文字时，进入轮廓检测单元；反之，则进入判定单元；
[0088]
在一个可选的实施方式中，传统的文本检测方法一般采用手工特征提取的方式进行检测文本，比如swt、mser等方法，然后采用模板匹配或模型训练的方法对检测到的文本进行识别。传统方法实现起来有诸多局限性，然而本专利采用是一个基于像素分割的文本检测方法，它不仅能够检测到水平文本、竖直文本，也能够精确地定位任意形状的文本以及不规则形状文本实例。极大的提高了文本检测的鲁棒性和检测的性能。
[0089]
所述对所述灰度图进行基于像素分割的文本检测包括：
[0090]
将所述灰度图进行图像缩放；
[0091]
具体的，为了防止个别图像像素过大，将图像输入网络过程会造成显卡内存占满的情况，需要对灰度图进行图像缩放(resize)，即将图像宽高大于1080像素的灰度图进行缩放操作，最大边缩放到1080像素，小边等比例缩放相同的倍数，宽高小于1080像素的灰度图则不做处理。
[0092]
将缩放后的所述灰度图输入到预先训练好的文本检测模型中进行基于像素分割的文本检测。
[0093]
具体的，首先读入预先训练好的文本检测模型，将缩放后的灰度图输入到文本检测模型中，通过主干网络对灰度图进行特征提取，输出四个维度的特征，之后将高层特征和低层特征融合得到(p2,p3,p4,p5)四个特征层，其中每个特征层的channel(通道)数量为
256。之后将四个特征层concat(合并)得到f，将f送入conv(3,3)-bn-relu层，并将特征层的channel(通道)数量变为256。之后再将f送入多个conv(1,1)-up-sigmod层来得到n个分割结果s1,s2,
…
sn(实际上是通过1*1*n 1*1*n1*1*n卷积得到的)。
[0094]
上述中f＝c(p2,p3,p4,p5)＝p2||upx2(p3)||upx4(p4)||upx8(p5)；其中，||就代表concat(合并)；up代表上采样；upx2、upx4、upx8分别代表2倍、4倍和8倍的上采样。
[0095]
现在网络输出了s1,s2,
…
sn，假设n＝3，现在又s1,s2,s3，其中s1代表最小kernel(卷积)的分割结果，它内部有四个连通域c＝{c1,c2,c3,c4}，cc操作得到s1中的四个连通域(小尺度，不同文本行之间的空白很大，很容易区分开)，且我们已知s2中的kernel(卷积)是比s1中的kernel(卷积)大的，也就是可以说s2中的kernel是包含s1中的kernel的。之后将属于s2中的kernel但不属于s1中的kernel的像素点进行分配。将所找到的连通域的每个像素以bfs的方式，逐个向上下左右扩展，即相当于把s1中预测的文本行的区域逐渐变宽(或者换种说法：对于s2中kernel的每个像素点，把它们都分别分配给s1中的某个连通域)。后面的s3同理，最终我们抽取经过s3后的连通区域作为最后的文本行检测结果(即结果为是否检测到文字)。
[0096]
当没有检测到文字时，进入轮廓检测单元204，反之，则判定原始图片是不合格图片(即商家上传的图片有描述性文字)。
[0097]
轮廓检测单元204，用于对所述灰度图进行轮廓检测，得到所述灰度图上的轮廓区域并计算得到所述轮廓区域的外接矩形框；
[0098]
在一个可选的实施方式中，所述计算得到所述轮廓区域的外接矩形框包括：
[0099]
计算所述轮廓区域的面积并过滤掉面积小于第三预设阈值的所述轮廓区域；
[0100]
计算得到过滤后的所述轮廓区域的外接矩形框。
[0101]
例如：有的文字不是单独写在商品图外面的，而是在商品图外侧且在一个小圆形区域内只写入一行文字(3000w)，此时直接对灰度图进行基于像素分割的文本检测是检测不到文字的。因此需要进一步检测，即对所述灰度图进行轮廓检测，得到所述灰度图上的轮廓区域；计算所述轮廓区域的面积并过滤掉面积小于第三预设阈值的所述轮廓区域；此时保留了商品图的轮廓区域，以及小圆形区域；求该两个轮廓区域的外接矩形框。
[0102]
第二判断单元205，用于对所述白底图进行基于像素分割的文本检测，得到所述白底图上文字的文字矩形框；将所述外接矩形框映射到所述白底图上，并计算所述白底图上的文字矩形框和外接矩形框的面积交并比；当所述面积交并比小于第一预设阈值时，进入面积占比计算单元；反之，则进入判定单元；
[0103]
在一个可选的实施方式中，将所述白底图进行图像缩放；
[0104]
具体的，为了防止个别图像像素过大，将图像输入网络过程会造成显卡内存占满的情况，需要对白底图进行图像缩放(resize)，即将图像宽高大于1080像素的灰度图进行缩放操作，最大边缩放到1080像素，小边等比例缩放相同的倍数，宽高小于1080像素的白底图则不做处理。
[0105]
将缩放后的所述白底图输入到预先训练好的文本检测模型(psenet)中进行基于像素分割的文本检测，得到白底图上文字的文字矩形框；将所述外接矩形框映射到所述白底图上，并计算所述白底图上的文字矩形框和外接矩形框的面积交并比；
[0106]
所述白底图上的文字矩形框和外接矩形框的面积交并比的计算公式为：
[0107]
x1＝max(x
a1
,x
b1
)；
[0108]
y1＝max(y
a1
,y
b1
)；
[0109]
x2＝max(x
a2
,x
b2
)；
[0110]
y2＝max(y
a2
,y
b2
)；
[0111]
intersection＝max(x
2-x1+1.0,0)*max(y
2-y1+1.0,0)；
[0112]
sa＝(x
a2-x
a1
+1.0)*(y
a2-y
a1
+1.0)；
[0113]
sb＝(x
b2-x
b1
+1.0)*(y
b2-y
b1
+1.0)；
[0114]
union＝sa+sb-intersection；
[0115]
iou＝intersection/union；
[0116]
其中，所述文字矩形框的坐标为[x
a1
,y
a1
,x
a2
,y
a2
]，所述外接矩形框的坐标的为[x
b1
,y
b1
,x
b2
,y
b2
]，x1，y1为所述文字矩形框和外接矩形框相交部分的左上角坐标；x2，y2为所述文字矩形框和外接矩形框相交部分的右下角坐标；intersection为所述文字矩形框和外接矩形框相交部分的面积；sa为所述文字矩形框的面积；sb为所述外接矩形框的面积；union为所述文字矩形框和所述外接矩形框的总面积；iou为所述文字矩形框和外接矩形框的面积交并比。
[0117]
当所述面积交并比小于第一预设阈值时，进入面积占比计算单元206，反之，则判定原始图片是不合格图片(即商家上传的图片有描述性文字)。
[0118]
面积占比计算单元206，用于将当前外接矩形框内的所有文字矩形框的面积求和并计算所述求和的面积在所述当前外接矩形框的面积占比；
[0119]
在一个可选的实施方式中，一个小圆形区域内可能有两行、三行
……
文字矩形框；通过上述方法可能会漏掉一部分文字矩形框，因此，在上述方法的基础上，需要将小圆形区域内的所有行的文字矩形框的面积求和得到sc，计算sc在小圆形区域的外接矩形框的面积占比a；
[0120]
第三判断单元207，用于判断所述面积占比是否大于第二预设阈值，若是，则进入判定单元；当判定所述面积占比不大于第二预设阈值时，进入第四判断单元；
[0121]
判断所述面积占比a是否大于第二预设阈值，若是，则认为在白底图上检测到的文字区域是商家p上去的文字，是不规范的文字区域，就会进行驳回该张图片，请商家重新上传。反之，进入第四判断单元209。
[0122]
判定单元208，用于判定所述原始图片是不合格图片。
[0123]
第四判断单元209，用于计算所述白底图的宽高以及计算每个所述文字矩形框的宽高；根据所述文字矩形框的宽高和所述白底图的宽高判断是否有文字矩形框在所述白底图的占比大于第三预设阈值，若是，则进入判定单元。
[0124]
在一个可选的实施方式中，例如：一张图片，商品图占原始图片的2/3，文字区域占原始图片的1/3，且文字区域与商品图是相连的，文字区域是在小长方形框内，此时，通过上述方法是过滤不掉该图片的。即直接通过灰度图进行基于像素分割的文本检测，检测到的是全白区域，检测不到文字；若通过灰度图进行轮廓检测，得到的外接矩形框是商品图和文字区域合并的总框(因两个是相连的，所以检测到的是一个区域，进而外接矩形框也是一个)。此时对白底图进行基于像素分割的文本检测，得到白底图上文字的文字矩形框，但该文字矩形框和外接矩形框的面积交并比小于第一预设阈值；并且该外接矩形框内的所有文
字矩形框的面积和占该外接矩形框的面积之比也仍然小于第二预设阈值，通过上述方法是过滤不掉该图片的。
[0125]
因此，本发明还涉及了一种判断规则，即计算所述白底图的宽高以及计算每个所述文字矩形框的宽高；根据所述文字矩形框的宽高和所述白底图的宽高判断是否有文字矩形框在所述白底图的占比大于第三预设阈值，若是，则认为是商家上传的图片上有自己p上去的描述性文字，就会进行驳回该张图片，请商家重新上传。反之，则认为原始图片是符合平台要求的透明图图片(合格图片)。
[0126]
本发明中，通过上述方法一方面能够有效的对商家上传的商品图片进行文本检测，能够对任意形状的文字区域(包括弯曲、倾斜、水平、竖直)进行定位检测。另一方面，该方法也能够有效的区分商品本身的文字和非商品本身文字(商家p上去的描述性文字)，从而有效避免了直接使用文字检测带来的误检，也能够在该场景下取得电商图片99％的准确率和98％的召回率。
[0127]
本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的非商品图文本检测方法。
[0128]
上述存储介质中存储有上述软件，该存储介质包括但不限于：光盘、软盘、硬盘、可擦写存储器等。
[0129]
本发明的有益效果：
[0130]
本发明提供了一种非商品图文本检测方法、系统及计算机存储介质，其中，该方法通过灰度图进行轮廓检测，得到所述灰度图上的轮廓区域并计算得到所述轮廓区域的外接矩形框；通过白底图进行基于像素分割的文本检测，得到所述白底图上文字的文字矩形框；将所述外接矩形框映射到所述白底图上。通过上述方法来对原始图片上的文字进行定位，有效解决了直接使用文本检测算法检测商品图带来的检测到商品图本身文字而误判定为不合格图片，极大的提高了人工审核的效率，节约了人力和财力。
[0131]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周昌世
技术所有人：成都人人互娱科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。