应用于视频品牌识别系统的检测识别模块的制作方法

文档序号：12803659阅读：146来源：国知局

本发明涉及一种在一段视频中自动地检测品牌logo空间位置的品牌识别技术，具体地说是一种应用于视频品牌识别系统的检测识别模块。

背景技术：

视频内品牌识别技术是在一段视频中自动地检测品牌logo的空间位置，并且在接下来的时间里，自动地跟踪该logo的运动轨迹，并且识别出该logo所属品牌的一种技术，涉及到图像处理、计算机视觉、模式识别、人工智能等前沿技术。本发明提供了一种检测识别模块，本检测识别模块应用在视频品牌识别系统中。

技术实现要素：

本发明为解决上述技术问题而采用的技术方案是提供一种应用于视频品牌识别系统的检测识别模块，其中，具体技术方案为：

检测识别模块包括2个核心模块：rpn网络、分类网络，检测识别模块进行两个步骤，第一个步骤为离线的训练出模型，第二个步骤是根据训练得到的模型，进行输入图片的inference，即检测识别logo。

上述的用于视频品牌识别系统的检测识别模块，其中：检测识别模块是基于深度神经网络的解决方案，使用基于deeplearning的logo检测/识别算法，并且，基于pvanet深度学习网络来满足视频内logo检测的独特需求，训练方法为end2end。

上述的用于视频品牌识别系统的检测识别模块，其中：end2end训练共229类logo，使用ap/map来度量准确率与召回率，目前的229类的map＝97.31％，单帧检测速度150ms/frame，视频处理时间比0.5，每10帧进行一次logo检测/识别。

上述的用于视频品牌识别系统的检测识别模块，其中：pvanet是基于faster-rcnn的一种新的detection方法，目的在提高精度的同时进行加速，根据需求对于pvanet进行了以下改进：

1)将pvanet整合进faster-rcnn中进行end2end训练，backbone使用的是pvanet；pvanet是用于分类的一个网络，所以必须将其整合进faster-rcnn的框架后才能支持检测+识别；

2)在消除误检方面，同时采取了两种措施：第一种是将在线地全图取负样本(ohem)整合进框架中，第二种是采取自举的方式，离线地通过多次迭代，定点清除误检；

3)利用pvanet+ohem的特点调整了数据集，使得数据集中除了标注的logo外，不存在其他干扰的logo类别，使得map从0.953提高至0.970；

4)通过减小pooling层的stride来增加featuremap的大小来满足对小物体的检测需求；经过这个措施后，map达到了新高0.9731；

5)在4)的基础上，对视频进行分割区块，再结合原图的检测。

本发明相对于现有技术具有如下有益效果：

在视频经由前处理处理过后输入到检测识别模块中，实现对品牌logo的检测和识别同时进行，如果在某一帧中检测和识别到了logo，即得到了其位置信息，结合后续程序，在接下来的视频序列中可对这个检测到的logo进行跟踪。

附图说明

图1为本发明提供的用于视频品牌识别系统的检测识别模块的系统示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

本发明提供了一种用于视频品牌识别系统的检测识别模块；检测识别模块包括2个核心模块：rpn网络、分类网络，检测识别模块进行两个步骤，第一个步骤为离线的训练出模型，第二个步骤是根据训练得到的模型，进行输入图片的inference，即检测识别logo。

检测识别模块是基于深度神经网络的解决方案，使用基于deeplearning的logo检测/识别算法，并且，基于pvanet深度学习网络来满足视频内logo检测的独特需求，训练方法为end2end。

end2end训练共229类logo，使用ap/map来度量准确率与召回率，目前的229类的map＝97.31％，单帧检测速度150ms/frame，视频处理时间比0.5，每10帧进行一次logo检测/识别。

pvanet是基于faster-rcnn的一种新的detection方法，目的在提高精度的同时进行加速，根据需求对于pvanet进行了以下改进：

3)利用pvanet+ohem的特点调整了数据集，使得数据集中除了标注的logo外，不存在其他干扰的logo类别，使得map从0.953提高至0.970；

4)通过减小pooling层的stride来增加featuremap的大小来满足对小物体的检测需求；经过这个措施后，map达到了新高0.9731；

5)在4)的基础上，对视频进行分割区块，再结合原图的检测。

本发明提供的用于视频品牌识别系统的检测识别模块在视频品牌识别系统中应用如下所述：

当视频输入进来时，首先进行了视频前处理，进行视频解码、视频图像处理、包括resize、直方图均衡化、去噪操作，目的是为了将解码出来的视频帧以一种合适的方式送入检测识别模块和实时跟踪模块；

其次，经由前处理处理过后的帧输入到检测识别模块中，对品牌logo的检测和识别是同时进行，如果在某一帧中检测和识别到了logo，即得到了其位置信息，那么在这一帧就初始化跟踪器，并且在接下来的视频序列中对这个检测到的logo进行跟踪，直到发生跟踪丢失的情况或者发生了镜头切换，至此一个跟踪序列结束；

同一帧的画面中同时跟踪多个目标，每检测识别一次却需要150ms，并采用了加速方法，每隔十帧才检测识别一次；

接下来，在每十帧的时候有可能既有检测结果又有跟踪结果，那么就牵扯到融合，在融合之后，便得到了一个个logo序列，每一个序列都包含如下信息：序列开始帧号、序列结束帧号、帧数、位置、识别的类别号、识别的置信度或者说分数；于是，为了得到最终的识别结果，需要一个投票操作；经过了这个投票操作后，对于每一个序列均会得到一个统一的label、一个统一的分数；至此经过对整个视频的扫描后，对这个视频内的品牌信息已经分析完毕；

最后，将结构化的视频数据写入到json文件中或者数据库中，输入一个视频，经过系统，输出一个结构化的识别结果。

虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。

技术特征：

技术总结
本发明公开了一种用于视频品牌识别系统的检测识别模块，检测识别模块包括2个核心模块：RPN网络、分类网络，检测识别模块进行两个步骤，第一个步骤为离线的训练出模型，第二个步骤是根据训练得到的模型，进行输入图片的inference，即检测识别LOGO。本发明提供的一种用于视频品牌识别系统的检测识别模块，在视频经由前处理处理过后输入到检测识别模块中，实现对品牌LOGO的检测和识别同时进行，如果在某一帧中检测和识别到了LOGO，即得到了其位置信息，结合后续程序，在接下来的视频序列中可对这个检测到的LOGO进行跟踪。

技术研发人员：李少雄
受保护的技术使用者：上海极链网络科技有限公司
技术研发日：2017.03.08
技术公布日：2017.07.04

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李少雄
技术所有人：上海极链网络科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。