一种易于快速迭代更新的Logo检测方法与流程

文档序号:16919388发布日期:2019-02-19 19:13阅读:564来源:国知局
一种易于快速迭代更新的Logo检测方法与流程

本发明涉及计算机视觉领域,特别是涉及一种易于快速迭代更新的logo检测方法。



背景技术:

日常生活中涉及的事物场景都有自己的品牌(麦当劳,可口可乐,乐高,迪士尼),新品牌产生必然伴随新logo,而老品牌也会对自己已有logo推陈出新,综上,品牌迭代更新非常迅速。

logo数量较少时,目标检测模型可以胜任logo识别任务,解决方案如下(以识别20个类别(即品牌)logo为例):

收集指定20个类别logo样本,每类150张左右,标注logo位置及类别(即总计收集标注20*150=3000张图片);将样本送入模型训练至收敛,可预测1张未知图片中logo位置及类别。

但随着logo类别逐渐增多,每新增一批logo,就要重新收集图片,标注,非常耗费人力,而且部分类别样本很难收集。随着logo更新换代,先前已收集样本中被废弃的旧版logo,对模型预测能力没有任何贡献,且预测种类增多时,准确性必然下降。

另外,目标检测模型实现方式繁多,如何选择最优方案值得探讨。



技术实现要素:

本发明所要解决的技术问题是克服现有技术的不足,提供一种易于快速迭代更新的logo检测方法。

为解决上述技术问题,本发明提供一种易于快速迭代更新的logo检测方法,包括构建并训练logo检测模型至收敛,得到特征点landmark1,用于预测未知图片里的logo位置;构建并训练图片分类网络模型至收敛,得到特征点landmark2,用于预测logo类别,具体步骤如下:

步骤1,根据给定的关键字抓取搜索引擎的图片源,将图片的抓取结果分成4类:第1类,含logo图片样本;第2类,没有多余背景的纯logo;第3类,完全不相关的图片;第4类,不属于前3类的所有抓取结果;

步骤2,生成xml文件,记录矩形框位置及标注类别;

步骤2-1对步骤1中含logo图片样本(第1类),使用开源工具labelimg对图片中logo所在位置用矩形框进行标注,标注类别统一设为general_logo,将矩形框位置及标注类别保存为xml文件;

步骤2-2对步骤1中纯logo(第2类)做旋转操作;然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界,合成新的有效图片,合成时记录纯logo(第2类)所在位置以及标注类别,写入xml文件;在步骤2-1获取的图片量不足1.5w张时,将合成的新的有效图片作为补充;

步骤3,确定landmark1最优模型;

步骤3-1,以tensorflow为统一框架,实现fasterrcnn,r-fcn,ssd以及附带的特征提取器,所述特征提取器包括inceptionresnetv2、inceptionv2、inceptionv3、mobilenet、resnet101、vgg;步骤3-2,使用步骤1获取的图片以及步骤2生成的xml文件进行训练,获得landmark1最终模型;

步骤4,利用步骤3的landmark1批量抠取logo,生成纯logo图片,训练图片分类网络至收敛,得到landmark2,并预测logo类别;

步骤5,当新增1类logo时,收集至少100张的新logo样本,重复步骤4,重新训练landmark2,并使用重新训练的landmark2预测新增logo的类别。

所述步骤1中,图片样本包括至少100个类别;还对抓取结果进行筛选,具体方法为:对于含logo图片样本,保留分辨率在300x300以上的抓取结果,对于没有多余背景的纯logo,保留分辨率在150x150以上的抓取结果,对于完全不相关的图片,保留分辨率在300x300以上的抓取结果,数量为1千张,对于不属于前3类的所有抓取结果直接删除;筛选样本后的保留的有效样本数量为1万5千张。

所述步骤2-2中,对抓取的纯logo做旋转操作,所述旋转操作为随机旋转,旋转角度可以是60°、120°、180°、240°或300°。

所述步骤6中,收集的新logo样本量为150张。

本发明益处如下:

1.解决某些logo样本过少,难以收集的情形;

2.确定logo检测任务的最优目标检测模型;

3.新增logo时模型快速迭代更新,免去新logo标注过程并保证准确率。

附图说明

图1为本发明的示例性实施例的logo检测方法流程图;

图2为各目标检测算法结构在coco2016数据集的表现示意图。

具体实施方式

本发明技术方案是,将模型划分为2部分:

landmark1:整理好1.5w张包含logo的图片样本,使用开源工具labelimg对图片中logo所在位置用矩形框进行标注,标注类别统一设为general_logo,矩形框位置及标注类别保存为xml文件,供模型训练,收敛后,可预测未知图片中logo位置;

landmark2:抠出landmark1位置框中的logo,送入图片分类模型,训练至收敛,此时可预测抠出的logo是哪个类别(品牌)。

一种易于快速迭代更新的logo检测方案,包括构建并训练logo检测模型至收敛,得到特征点landmark1,用于预测未知图片里的logo位置;构建并训练图片分类网络模型至收敛,得到特征点landmark2,用于预测logo类别,具体步骤如下:

步骤1,根据给定的关键字抓取搜索引擎的图片源,将图片的抓取结果分成4类:第1类,含logo图片样本;第2类,没有多余背景的纯logo;第3类,完全不相关的图片;第4类,不属于前3类的所有抓取结果;

步骤2,生成xml文件,记录矩形框位置及标注类别;

步骤2-1对步骤1中含logo图片样本(第1类),使用开源工具labelimg对图片中logo所在位置用矩形框进行标注,标注类别统一设为general_logo,将矩形框位置及标注类别保存为xml文件;

步骤2-2对步骤1中纯logo(第2类)做旋转操作;然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界,合成新的有效图片,合成时记录纯logo(第2类)所在位置以及标注类别,写入xml文件;在步骤2-1获取的图片量不足1.5w张时,将合成的新的有效图片作为补充,保证样本总量达到1.5w张,这样训练出的模型预测准确率达到应用门槛;

步骤3,确定landmark1最优模型;

步骤3-1,以tensorflow为统一框架,实现fasterrcnn,r-fcn,ssd以及附带的特征提取器,所述特征提取器包括inceptionresnetv2、inceptionv2、inceptionv3、mobilenet、resnet101、vgg;步骤3-2,使用步骤1获取的图片以及步骤2生成的xml文件进行训练,获得landmark1最终模型;

步骤4,利用步骤3的landmark1批量抠取logo,生成纯logo图片,训练图片分类网络至收敛,得到landmark2,并预测logo类别;

步骤5,当新增1类logo时,收集至少100张的新logo样本,重复步骤4,重新训练landmark2,并使用重新训练的landmark2预测新增logo的类别。

所述步骤1中,图片样本包括至少100个类别;还对抓取结果进行筛选,具体方法为:对于含logo图片样本,保留分辨率在300x300以上的抓取结果,对于没有多余背景的纯logo,保留分辨率在150x150以上的抓取结果,对于完全不相关的图片,保留分辨率在300x300以上的抓取结果,数量为1千张,对于不属于前3类的所有抓取结果直接删除;筛选样本后的保留的有效样本数量为1万5千张。

所述步骤2-2中,对抓取的纯logo做旋转操作,所述旋转操作为随机旋转,旋转角度可以是60°、120°、180°、240°或300°。

所述步骤6中,收集的新logo样本量为150张。

以下结合图1,具体阐述本发明实施方案。所描述的实施例仅为示例,基于本发明技术实质所做的等同变化,仍落入本发明保护范围。

步骤1,收集40k张包含logo的图片样本,安排人工筛选分为以下4类,最终保留15k张有效图片样本:

第1类,质量最好,抓取到含logo图片样本,分辨率在300x300以上;

第2类,质量次之,抓取到没有多余背景的纯logo,分辨率在150x150以上;

第3类,质量再次,抓取到完全不相关的图片,分辨率在300x300以上;

第4类,质量最差,不属于前3类的所有情形,这类图片直接删除。

步骤2,生成xml文件,记录矩形框位置及标注类别;

步骤2-1,对步骤1中第1类含logo图片样本,使用开源工具labelimg对图片中logo所在位置用矩形框进行标注,标注类别统一设为general_logo,矩形框位置及标注类别保存为xml文件;第1类含logo图片样本质量最好,直接体现logo所处的真实情况。

步骤2-2,对步骤1中第2类纯logo做旋转操作(从0°、60°、120°、180°、240°、300°中随机选择1个角度进行旋转);然后将其嵌入第3类背景图的随机位置(不超出图片边界),合成包含logo的有效图片(合成时直接记录第2类纯logo所在位置以及标注类别,写入xml文件,后续无需手动标注);在步骤2-1获取的图片量不足1.5w张时,第2类纯logo作为补充,与第3类背景图一起合成含logo图片样本,质量次之,作为一种样本补充手段,保证样本总量达到1.5w张,这样训练出的模型预测准确率达到应用门槛。

步骤3,确定landmark1最优模型;

步骤3-1,以tensorflow为统一框架,实现fasterrcnn,r-fcn,ssd以及附带的各种特征提取器(inceptionresnetv2,inceptionv2,inceptionv3,mobilenet,resnet101,vgg);

步骤3-2,如图2,纵轴map为位置,类别均预测正确的平均准确率,横轴为gpu上执行1次预测的平均耗时。在时延可接受的情形下,fasterrcnn-inceptionresnetv2性能最优,离线场景无需实时反馈预测结果;但上述结果只是针对coco2016数据集调至最优,对于logo检测,需要重新评定最优特征提取器和目标检测模型;本发明使用步骤1获取的图片以及步骤2生成的xml文件,训练步骤3-1所有框架组合,landmark1最终模型确定为fasterrcnn-resnet101,map达到0.81,效果更佳;对于1张未知图片,landmark1可以准确预测logo所在位置;

步骤4,利用landmark1批量抠取logo,约100类,每类150张图,以此训练pre-trainedinceptionv3至收敛,得到landmark2;

步骤5,当新增logo种类时,landmark1无需更新依然可以预测图中logo位置,只需收集150张新logo样本,无需标注,重新训练landmark2,即可完成迭代更新,代价很低。

本发明主要用于提供一种易于快速迭代更新的logo检测方法,其有益效果如下:

1.解决某些logo样本过少,难以收集的情形;

2.确定logo检测任务的最优目标检测模型;

3.新增logo时模型快速迭代更新,免去新logo标注过程并保证准确率。

以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1