一种易于快速迭代更新的Logo检测方法与流程

文档序号：16919388发布日期：2019-02-19 19:13阅读：564来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及计算机视觉领域，特别是涉及一种易于快速迭代更新的logo检测方法。

背景技术：

日常生活中涉及的事物场景都有自己的品牌(麦当劳，可口可乐，乐高，迪士尼)，新品牌产生必然伴随新logo，而老品牌也会对自己已有logo推陈出新，综上，品牌迭代更新非常迅速。

logo数量较少时，目标检测模型可以胜任logo识别任务，解决方案如下(以识别20个类别(即品牌)logo为例)：

收集指定20个类别logo样本，每类150张左右，标注logo位置及类别(即总计收集标注20*150＝3000张图片)；将样本送入模型训练至收敛，可预测1张未知图片中logo位置及类别。

但随着logo类别逐渐增多，每新增一批logo，就要重新收集图片，标注，非常耗费人力，而且部分类别样本很难收集。随着logo更新换代，先前已收集样本中被废弃的旧版logo，对模型预测能力没有任何贡献，且预测种类增多时，准确性必然下降。

另外，目标检测模型实现方式繁多，如何选择最优方案值得探讨。

技术实现要素：

本发明所要解决的技术问题是克服现有技术的不足，提供一种易于快速迭代更新的logo检测方法。

为解决上述技术问题，本发明提供一种易于快速迭代更新的logo检测方法，包括构建并训练logo检测模型至收敛，得到特征点landmark1，用于预测未知图片里的logo位置；构建并训练图片分类网络模型至收敛，得到特征点landmark2，用于预测logo类别，具体步骤如下：

步骤1，根据给定的关键字抓取搜索引擎的图片源，将图片的抓取结果分成4类:第1类，含logo图片样本；第2类，没有多余背景的纯logo；第3类，完全不相关的图片；第4类，不属于前3类的所有抓取结果；

步骤2，生成xml文件，记录矩形框位置及标注类别；

步骤2-1对步骤1中含logo图片样本(第1类)，使用开源工具labelimg对图片中logo所在位置用矩形框进行标注，标注类别统一设为general_logo，将矩形框位置及标注类别保存为xml文件；

步骤2-2对步骤1中纯logo(第2类)做旋转操作；然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界，合成新的有效图片，合成时记录纯logo(第2类)所在位置以及标注类别，写入xml文件；在步骤2-1获取的图片量不足1.5w张时，将合成的新的有效图片作为补充；

步骤3，确定landmark1最优模型；

步骤3-1，以tensorflow为统一框架，实现fasterrcnn，r-fcn，ssd以及附带的特征提取器，所述特征提取器包括inceptionresnetv2、inceptionv2、inceptionv3、mobilenet、resnet101、vgg；步骤3-2，使用步骤1获取的图片以及步骤2生成的xml文件进行训练，获得landmark1最终模型；

步骤4，利用步骤3的landmark1批量抠取logo，生成纯logo图片，训练图片分类网络至收敛，得到landmark2，并预测logo类别；

步骤5，当新增1类logo时，收集至少100张的新logo样本，重复步骤4，重新训练landmark2，并使用重新训练的landmark2预测新增logo的类别。

所述步骤1中，图片样本包括至少100个类别；还对抓取结果进行筛选，具体方法为：对于含logo图片样本，保留分辨率在300x300以上的抓取结果，对于没有多余背景的纯logo，保留分辨率在150x150以上的抓取结果，对于完全不相关的图片，保留分辨率在300x300以上的抓取结果，数量为1千张，对于不属于前3类的所有抓取结果直接删除；筛选样本后的保留的有效样本数量为1万5千张。

所述步骤2-2中，对抓取的纯logo做旋转操作，所述旋转操作为随机旋转，旋转角度可以是60°、120°、180°、240°或300°。

所述步骤6中，收集的新logo样本量为150张。

本发明益处如下：

1.解决某些logo样本过少，难以收集的情形；

2.确定logo检测任务的最优目标检测模型；

3.新增logo时模型快速迭代更新，免去新logo标注过程并保证准确率。

附图说明

图1为本发明的示例性实施例的logo检测方法流程图；

图2为各目标检测算法结构在coco2016数据集的表现示意图。

具体实施方式

本发明技术方案是，将模型划分为2部分：

landmark1：整理好1.5w张包含logo的图片样本，使用开源工具labelimg对图片中logo所在位置用矩形框进行标注，标注类别统一设为general_logo，矩形框位置及标注类别保存为xml文件，供模型训练，收敛后，可预测未知图片中logo位置；

landmark2：抠出landmark1位置框中的logo，送入图片分类模型，训练至收敛，此时可预测抠出的logo是哪个类别(品牌)。

一种易于快速迭代更新的logo检测方案，包括构建并训练logo检测模型至收敛，得到特征点landmark1，用于预测未知图片里的logo位置；构建并训练图片分类网络模型至收敛，得到特征点landmark2，用于预测logo类别，具体步骤如下：

步骤2，生成xml文件，记录矩形框位置及标注类别；

步骤2-2对步骤1中纯logo(第2类)做旋转操作；然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界，合成新的有效图片，合成时记录纯logo(第2类)所在位置以及标注类别，写入xml文件；在步骤2-1获取的图片量不足1.5w张时，将合成的新的有效图片作为补充，保证样本总量达到1.5w张，这样训练出的模型预测准确率达到应用门槛；

步骤3，确定landmark1最优模型；

步骤4，利用步骤3的landmark1批量抠取logo，生成纯logo图片，训练图片分类网络至收敛，得到landmark2，并预测logo类别；

步骤5，当新增1类logo时，收集至少100张的新logo样本，重复步骤4，重新训练landmark2，并使用重新训练的landmark2预测新增logo的类别。

所述步骤2-2中，对抓取的纯logo做旋转操作，所述旋转操作为随机旋转，旋转角度可以是60°、120°、180°、240°或300°。

所述步骤6中，收集的新logo样本量为150张。

以下结合图1，具体阐述本发明实施方案。所描述的实施例仅为示例，基于本发明技术实质所做的等同变化，仍落入本发明保护范围。

步骤1，收集40k张包含logo的图片样本，安排人工筛选分为以下4类,最终保留15k张有效图片样本：

第1类，质量最好，抓取到含logo图片样本，分辨率在300x300以上；

第2类，质量次之，抓取到没有多余背景的纯logo，分辨率在150x150以上；

第3类，质量再次，抓取到完全不相关的图片，分辨率在300x300以上；

第4类，质量最差，不属于前3类的所有情形，这类图片直接删除。

步骤2，生成xml文件，记录矩形框位置及标注类别；

步骤2-1，对步骤1中第1类含logo图片样本，使用开源工具labelimg对图片中logo所在位置用矩形框进行标注，标注类别统一设为general_logo，矩形框位置及标注类别保存为xml文件；第1类含logo图片样本质量最好，直接体现logo所处的真实情况。

步骤2-2，对步骤1中第2类纯logo做旋转操作(从0°、60°、120°、180°、240°、300°中随机选择1个角度进行旋转)；然后将其嵌入第3类背景图的随机位置(不超出图片边界)，合成包含logo的有效图片(合成时直接记录第2类纯logo所在位置以及标注类别，写入xml文件，后续无需手动标注)；在步骤2-1获取的图片量不足1.5w张时，第2类纯logo作为补充，与第3类背景图一起合成含logo图片样本，质量次之，作为一种样本补充手段，保证样本总量达到1.5w张，这样训练出的模型预测准确率达到应用门槛。

步骤3，确定landmark1最优模型；

步骤3-1，以tensorflow为统一框架，实现fasterrcnn，r-fcn，ssd以及附带的各种特征提取器(inceptionresnetv2，inceptionv2，inceptionv3，mobilenet，resnet101，vgg)；

步骤3-2，如图2，纵轴map为位置，类别均预测正确的平均准确率，横轴为gpu上执行1次预测的平均耗时。在时延可接受的情形下，fasterrcnn-inceptionresnetv2性能最优，离线场景无需实时反馈预测结果；但上述结果只是针对coco2016数据集调至最优，对于logo检测，需要重新评定最优特征提取器和目标检测模型；本发明使用步骤1获取的图片以及步骤2生成的xml文件，训练步骤3-1所有框架组合，landmark1最终模型确定为fasterrcnn-resnet101，map达到0.81，效果更佳；对于1张未知图片，landmark1可以准确预测logo所在位置；

步骤4，利用landmark1批量抠取logo，约100类，每类150张图，以此训练pre-trainedinceptionv3至收敛，得到landmark2；

步骤5，当新增logo种类时，landmark1无需更新依然可以预测图中logo位置，只需收集150张新logo样本，无需标注，重新训练landmark2，即可完成迭代更新，代价很低。

本发明主要用于提供一种易于快速迭代更新的logo检测方法，其有益效果如下：

1.解决某些logo样本过少，难以收集的情形；

2.确定logo检测任务的最优目标检测模型；

3.新增logo时模型快速迭代更新，免去新logo标注过程并保证准确率。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王旻毅;房鹏展
技术所有人：焦点科技股份有限公司
我是此专利的发明人

上一篇：一种碳化硅单晶生长装置的制作方法
上一篇：一种螺旋卷曲式可调变径输液针的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。