一种宣传信息添加方法及装置与流程

文档序号:15297112发布日期:2018-08-31 19:33阅读:152来源:国知局

本发明涉及视频识别技术领域,具体涉及一种宣传信息添加方法及装置。



背景技术:

图像识别技术是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。随着图像识别技术的日趋成熟,应用范围也越来越广,目前基于图像识别技术能够准确识别图片中的物体类别、位置、置信度等综合信息,但是在视频领域尚未有规模化的应用,由于无法规模化识别视频图像,导致视频除了被观看之外无法用于其他方面,导致视频应用效率较低。



技术实现要素:

有鉴于此,本发明实施例提供一种宣传信息添加方法及装置,能够提高视频的应用效率。

为实现上述目的,本发明实施例提供如下技术方案:

一种宣传信息添加方法,包括:

对视频文件进行图像识别生成图像识别结果,所述图像识别结果包括所述视频文件中包含的产品以及各个产品在所述视频文件中的出现时间点;

根据所述各个产品在所述视频文件中的出现时间点,确定所述各个产品的宣传信息的最优展示时间,并按主流行业产品品类在所述各个产品的宣传信息的最优展示时间对应的场景对所述各个产品进行分品类标注。

获取用户从所述视频文件中包含的产品中选择的宣传产品,在所述视频文件播放到所述宣传产品的标注所在的场景时,将所述宣传产品的宣传信息添加至所述宣传产品的标注所在的场景中进行展示。

可选的,所述对视频文件进行图像识别生成图像识别结果,包括:

识别视频文件中的图像包含的产品。

可选的,在所述识别视频文件中的图像包含的产品之前,还包括:

采用googleinceptionv3算法对于图片数据集进行深度学习,得到图像分类模型。

可选的,所述采用googleinceptionv3算法对于图片数据集进行深度学习的过程中,还包括:

基于annotatoropenimages图片数据集完善深度学习模型。

可选的,所述识别视频文件中的图像包含的产品,具体包括:

基于开源计算机视觉库opencv的边缘检测算法,提取并保存所述视频文件中的视频关键帧;

使用randomforest算法对所述视频关键帧进行筛选;

根据图像分类模型,采用detectorssd算法对筛选后的所述视频关键帧进行识别,确定筛选后的所述视频关键帧中包含的产品。

一种宣传信息添加装置,包括:

图像识别模块,用于对视频文件进行图像识别生成图像识别结果,所述图像识别结果包括所述视频文件中包含的产品以及各个产品在所述视频文件中的出现时间点;

筛选分类模块,用于根据所述各个产品在所述视频文件中的出现时间点,确定所述各个产品的宣传信息的最优展示时间,并按主流行业产品品类在所述各个产品的宣传信息的最优展示时间对应的场景对所述各个产品进行分品类标注。

宣传信息投放模块,用于获取用户从所述视频文件中包含的产品中选择的宣传产品,在所述视频文件播放到所述宣传产品的标注所在的场景时,将所述宣传产品的宣传信息添加至所述宣传产品的标注所在的场景中进行展示。

可选的,所述图像识别模块具体用于:

识别所述视频文件中的图像包含的产品。

可选的,所述装置还包括:

图像分类模型获取模块,用于在所述识别视频文件中的图像包含的产品之前,采用googleinceptionv3算法对于图片数据集进行深度学习,得到图像分类模型。

可选的,所述图像分类模型获取模块,具体用于:

在所述采用googleinceptionv3算法对于图片数据集进行深度学习的过程中,基于annotatoropenimages图片数据集完善深度学习模型。

可选的,所述图像识别模块具体用于:

基于开源计算机视觉库opencv的边缘检测算法,提取并保存所述视频文件中的视频关键帧;

使用randomforest算法对所述视频关键帧进行筛选;

根据图像分类模型,采用detectorssd算法对筛选后的所述视频关键帧进行识别,确定筛选后的所述视频关键帧中包含的产品。

基于上述技术方案,本发明实施例中公开了一种宣传信息添加方法及装置,对视频文件进行图像识别生成图像识别结果,所述图像识别结果包括所述视频文件中包含的产品以及各个产品在所述视频文件中的出现时间点;根据所述各个产品在所述视频文件中的出现时间点,确定所述各个产品的宣传信息的最优展示时间,并按主流行业产品品类在所述各个产品的宣传信息的最优展示时间对应的场景对所述各个产品进行分品类标注;获取用户从所述视频文件中包含的产品中选择的宣传产品,在所述视频文件播放到所述宣传产品的标注所在的场景时,将所述宣传产品的宣传信息添加至所述宣传产品的标注所在的场景中进行展示。基于上述方法及装置,能够提高视频的应用效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种宣传信息添加方法的流程示意图;

图2为本发明实施例提供的inceptionv3模块示意图;

图3为本发明实施例提供的inceptionv3的网格结构示意图;

图4为本发明实施例提供的一种识别视频文件中的图像包含的产品的方法流程示意图;

图5为本发明实施例提供的opencv主体的基本结构示意图;

图6为本发明实施例提供的基于opencv的运动物体的视频检测原理示意图;

图7为本发明实施例提供的ssd物体检测方法的示意图;

图8为本发明实施例公开的一种宣传信息添加装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅附图1,图1为本发明实施例提供的一种宣传信息添加方法的流程示意图,该方法具体包括如下步骤:

步骤s100,对视频文件进行图像识别生成图像识别结果,所述图像识别结果包括所述视频文件中包含的产品以及各个产品在所述视频文件中的出现时间点;

该步骤中,包括识别视频文件中的图像包含的产品。在所述识别视频文件中的图像包含的产品之前,还包括:采用googleinceptionv3算法对于图片数据集进行深度学习,得到图像分类模型。在所述采用googleinceptionv3算法对于图片数据集进行深度学习的过程中,还包括:基于annotatoropenimages图片数据集完善深度学习模型。

inception为google开源的cnn模型,至今已经公开四个版本,每一个版本都是基于大型图像数据库imagenet中的数据训练而成。因此我们可以直接利用google的inception模型来实现图像分类。以inceptionv3模型为基础。inceptionv3模型大约有2500万个参数,分类一张图像就用了50亿的乘加指令,分类一张图像转眼就能完成。inceptionv3模块示意图具体由图2所示。inceptionv3的网格结构具体由图3所示。

步骤s110,根据所述各个产品在所述视频文件中的出现时间点,确定所述各个产品的宣传信息的最优展示时间,并按主流行业产品品类在所述各个产品的宣传信息的最优展示时间对应的场景对所述各个产品进行分品类标注;

主流行业产品品类包括11个行业共28个产品类别,具体如下:

汽车:【suv】、【mpv】、【轿车】、【跑车】、【其他车型】

电子家电:【手机及其配件】、【家用电器】、【摄影器材】

it业:【电脑】、【软件】

化妆品:【个人洗护用品】、【化妆用品】

日用品:【洗涤用品】、【其他日用品】

酒类:【啤酒】、【红酒】、【白酒】、【果酒】、【其他酒类】

食品饮料:【食品】、【饮品】

药业:【感冒药】、【皮肤药】

房产:【中介】

餐饮:【便利店】、【餐饮店】

服装饰品:【服装】、【饰品】

步骤s120,获取用户从所述视频文件中包含的产品中选择的宣传产品,在所述视频文件播放到所述宣传产品的标注所在的场景时,将所述宣传产品的宣传信息添加至所述宣传产品的标注所在的场景中进行展示。

将所述宣传产品的宣传信息添加至所述宣传产品的标注所在的场景中之后,即可引导观看所述视频的用户点击查看所述宣传产品的宣传信息。

所述宣传信息具体可以为创意压屏条广告。

本实施例中公开了一种宣传信息添加方法,对视频文件进行图像识别生成图像识别结果,所述图像识别结果包括所述视频文件中包含的产品以及各个产品在所述视频文件中的出现时间点;根据所述各个产品在所述视频文件中的出现时间点,确定所述各个产品的宣传信息的最优展示时间,并按主流行业产品品类在所述各个产品的宣传信息的最优展示时间对应的场景对所述各个产品进行分品类标注;获取用户从所述视频文件中包含的产品中选择的宣传产品,在所述视频文件播放到所述宣传产品的标注所在的场景时,将所述宣传产品的宣传信息添加至所述宣传产品的标注所在的场景中进行展示。基于上述方法,能够提高视频的应用效率。

请参阅附图4,图4为本发明实施例中公开的一种识别视频文件中的图像包含的产品的方法流程示意图,该方法具体包括:

步骤s200,基于开源计算机视觉库opencv的边缘检测算法,提取并保存所述视频文件中的视频关键帧;

帧,就是动画中最小单位的单幅影像画面,相当于电影胶片上的每一格镜头。在动画软件的时间轴上帧表现为一格或一个标记。关键帧,相当于二维动画中的原画,指角色或者物体运动或变化中的关键动作所处的那一帧。

opencv的全称是:opensourcecomputervisionlibrary,是一个基于bsd许可(开源)发行的跨平台计算机视觉库,其移植性和通用性高,可以运行于linux、windows和macos等多个操作系统。它由许多的函数和少量的类组成其开发的编程语言,并且为了提高其通用性,提供了python、ruby、matlab等编程软件语言的接口,实现了图像处理和计算机视觉方面的很多通用算法,从而较为完美的分析处理图像以及完成许多的通用算法用于计算机智能视觉方面。opencv主体的基本结构如图5所示。

在opencv中,主要使用的图像格式为iplimage,其结构的定义如下:

运动目标检测是视频运动目标检测与跟踪的第一部分,它就是实时的在被监视的场景中检测运动目标,并将其提取出来。运动目标检测常用的有四种常用方法:连续帧间差分法、背景差分法、光流法和运动能量法。其中基于opencv的运动物体的视频检测原理主要是根据目标物体的某些特征信息,比如轮廓、颜色或者形状等,在复杂的背景图中利用这些信息将目标移动物体进行分离出背景图像。图6为本发明实施例示出的基于opencv的运动物体的视频检测原理。

对于从图像中提取目标物体,其实质就是对于某个物体轮廓的检测,接着分割的过程。整个提取过程其实就是将每帧图像的差异所表现出来。

步骤s210,使用randomforest算法对所述视频关键帧进行筛选;

randomforest算法对关键帧进行筛选和清洗。randomforest又叫随机森林算法,在机器学习中,是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。

随机森林算法实现大致流程如下:

1)从样本集中有放回随机采样选出n个样本;

2)从所有特征中随机选择k个特征,对选出的样本利用这些特征建立决策树(一般是cart,也可是别的或混合);

3)重复以上两步m次,即生成m棵决策树,形成随机森林;

4)对于新数据,经过每棵树决策,最后投票确认分到哪一类。

步骤s220,根据图像分类模型,采用detectorssd算法对筛选后的所述视频关键帧进行识别,确定筛选后的所述视频关键帧中包含的产品。

detectorssd对关键帧图片进行识别处理和分类。ssd是一种基于回归算法的深度卷积神经网络物体检测方法,图7为本发明实施例示出的ssd物体检测方法的示意图,如图7所示,ssd网络对输入图像卷积处理时,针对尺寸为8x8或4x4特征图上的每个位置评估出不同长宽比的小集合默认框。对于每个默认框,预测对所有对象类别的形状偏移和置信度。在训练时,首先将这些默认框匹配到真实标签区域框。例如,两个默认框匹配到猫和狗,这些框为正,其余视为负。模型损失是位置损失和置信损失之间的加权和。

ssd方法基于前馈卷积神经网络,其产生固定大小的区域框集合和区域框中物体类别的分数,然后利用非极大值抑制步骤w产生最终检测。

ssd将fasterr-cnn中的rpn得分机制与yolo中的回归思想相结合,使用整幅图像各个位置的多尺度区域特征进行回归,不仅具有检测速度快的特性,而且能够大幅度提高区域框预测的精度。

请参阅附图8,图8为本发明实施例公开的一种宣传信息添加装置的结构示意图,该装置包括:

图像识别模块10,用于对视频文件进行图像识别生成图像识别结果,所述图像识别结果包括所述视频文件中包含的产品以及各个产品在所述视频文件中的出现时间点;

筛选分类模块11,用于根据所述各个产品在所述视频文件中的出现时间点,确定所述各个产品的宣传信息的最优展示时间,并按主流行业产品品类在所述各个产品的宣传信息的最优展示时间对应的场景对所述各个产品进行分品类标注。

宣传信息投放模块12,用于获取用户从所述视频文件中包含的产品中选择的宣传产品,在所述视频文件播放到所述宣传产品的标注所在的场景时,将所述宣传产品的宣传信息添加至所述宣传产品的标注所在的场景中进行展示。

可选的,所述图像识别模块具体用于:

识别所述视频文件中的图像包含的产品。

可选的,所述装置还包括:

图像分类模型获取模块,用于在所述识别视频文件中的图像包含的产品之前,采用googleinceptionv3算法对于图片数据集进行深度学习,得到图像分类模型。

可选的,所述图像分类模型获取模块,具体用于:

在所述采用googleinceptionv3算法对于图片数据集进行深度学习的过程中,基于annotatoropenimages图片数据集完善深度学习模型。

可选的,所述图像识别模块具体用于:

基于开源计算机视觉库opencv的边缘检测算法,提取并保存所述视频文件中的视频关键帧;

使用randomforest算法对所述视频关键帧进行筛选;

根据图像分类模型,采用detectorssd算法对筛选后的所述视频关键帧进行识别,确定筛选后的所述视频关键帧中包含的产品。

综上所述:

本发明实施例中公开了一种宣传信息添加方法及装置,对视频文件进行图像识别生成图像识别结果,所述图像识别结果包括所述视频文件中包含的产品以及各个产品在所述视频文件中的出现时间点;根据所述各个产品在所述视频文件中的出现时间点,确定所述各个产品的宣传信息的最优展示时间,并按主流行业产品品类在所述各个产品的宣传信息的最优展示时间对应的场景对所述各个产品进行分品类标注;获取用户从所述视频文件中包含的产品中选择的宣传产品,在所述视频文件播放到所述宣传产品的标注所在的场景时,将所述宣传产品的宣传信息添加至所述宣传产品的标注所在的场景中进行展示。基于上述方法及装置,能够提高视频的应用效率。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1