检测模型训练方法、装置、存储介质和计算机设备与流程

文档序号:21187898发布日期:2020-06-20 18:15阅读:160来源:国知局
检测模型训练方法、装置、存储介质和计算机设备与流程

本申请涉及机器学习技术领域,特别是涉及一种检测模型训练方法、装置、计算机可读存储介质和计算机设备。



背景技术:

随着计算机技术的发展,出现了机器学习技术,通过机器学习技术可训练计算机模拟或实现人类的学习行为,从而给人们的生活和工作带来便利。比如,在图像处理领域,可通过训练数据训练模型,以使得模型学习到分类或定位的能力,这样可以让机器代替人力来实现对图像的处理。

而在实际应用中,比如当需要训练可以识别出目标对象(比如水印或商标)的检测模型时,常常需要大量的标注数据然后进行模型训练。但传统的方式,通常是耗费人力来标注目标对象所属类别以及目标对象在图像的位置,标注速度较慢,导致模型训练效率低。



技术实现要素:

基于此,有必要针对人力标注数据所造成的模型训练效率低的技术问题,提供一种检测模型训练方法、装置、计算机可读存储介质和计算机设备。

一种检测模型训练方法,包括:

获取待处理的原始图像和多于一类的标记图像;

对于每类标记图像,分别从所述原始图像的目标区域中随机选取目标位置作为所述标记图像的嵌入位置;

对于每类标记图像,分别根据相应的嵌入位置,将所述标记图像中的至少一部分嵌入至所述原始图像得到对应的样本图像;

将所述样本图像作为训练样本,并将所述样本图像中所嵌入的标记图像的标记类别作为相应的训练标签;

通过所述训练样本和相应的训练标签,对待训练的检测模型进行训练。

一种检测模型训练装置,所述装置包括:

获取模块,用于获取待处理的原始图像和多于一类的标记图像;

选取模块,用于对于每类标记图像,分别从所述原始图像的目标区域中随机选取目标位置作为所述标记图像的嵌入位置;

嵌入模块,用于对于每类标记图像,分别根据相应的嵌入位置,将所述标记图像中的至少一部分嵌入至所述原始图像得到对应的样本图像;

确定模块,将所述样本图像作为训练样本,并将所述样本图像中所嵌入的标记图像的标记类别作为相应的训练标签;

训练模块,用于通过所述训练样本和相应的训练标签,对待训练的检测模型进行训练。

在其中一个实施例中,所述获取模块还用于获取待处理的原始图像和多于一类的标记模板;从预设尺寸比例范围内随机选取目标尺寸比例;根据所述原始图像的尺寸,按所述目标尺寸比例对各类标记模板分别进行缩放处理,得到相应的标记图像。

在其中一个实施例中,所述目标位置包括核心位置和非核心位置;所述选取模块还用于确定所述原始图像的目标区域中的核心位置;获取将所述核心位置作为嵌入位置时的概率值;所述核心位置所对应的概率值为所述目标区域中各目标位置所对应的概率值中的最大值;根据所述目标区域中各非核心位置分别与所述核心位置的距离,确定将各非核心位置分别作为嵌入位置时的概率值;所述非核心位置所对应的概率值与所述非核心位置至所述核心位置的距离呈负相关;对于每类标记图像,分别按照所述原始图像的目标区域中各目标位置各自对应的概率值,选取相应的目标位置作为所述标记图像的嵌入位置。

在其中一个实施例中,所述选取模块还用于获取预设数量的平台专有图像;各所述平台专有图像分别包括相应平台所对应的标记图像;根据各标记图像的目标顶点分别在所述平台专有图像中的坐标,确定与所述目标顶点对应的平均坐标;将所述平均坐标作为所述原始图像的目标区域中的核心位置。

在其中一个实施例中,所述目标区域包括左上角区域和右下角区域;所述选取模块还用于当所述目标区域为左上角区域时,对于每类标记模板,分别按照所述原始图像的左上角区域中各目标位置各自对应的概率值,选取相应的目标位置作为所述标记图像的左上顶点所对应的嵌入位置;当所述目标区域为右下角区域时,对于每类标记模板,分别按照所述原始图像的右下角区域中各目标位置各自对应的概率值,选取相应的目标位置作为所述标记图像的右下顶点所对应的嵌入位置。

在其中一个实施例中,所述样本图像包括第一样本图像和第二样本图像;所述嵌入模块还用于对于每类标记图像,确定所述标记图像中待完整嵌入的第一标记图像和待遮挡嵌入的第二标记图像;将所述第一标记图像按照相应的嵌入位置完整嵌入至所述原始图像中,得到对应的第一样本图像;将所述第二标记图像按照相应的嵌入位置完整嵌入至所述原始图像中,并从预设遮挡比例范围内随机选取目标遮挡比例,按照所述目标遮挡比例将所述第二标记图像中的一部分移出至所述原始图像的边界,得到对应的第二样本图像。

在其中一个实施例中,所述确定模块还用于确定各所述样本图像中嵌入的标记图像的标记类别、以及所述标记图像在所述原始图像中的位置信息;将所述样本图像作为训练样本,并将所述样本图像中所嵌入标记图像的标记类别和对应的位置信息共同作为所述训练样本的训练标签。

在其中一个实施例中,所述训练模块还用于按照所述目标区域对所述样本图像进行裁剪,得到对应的样本图像块;通过待训练的检测模型对各所述样本图像块分别进行特征提取得到相应的特征图,并基于所述特征图进行检测输出预测结果;根据所述样本图像块所对应的预测结果和相应训练标签间的差异,调整所述检测模型的模型参数,直到满足训练停止条件时停止训练。

在其中一个实施例中,所述装置还包括标记检测模块,用于获取待检测视频和训练好的检测模型;从所述待检测视频中提取出预设数量的视频帧,并按照所述目标区域对各所述视频帧进行裁剪,得到对应的目标图像块;将各所述目标图像块分别输入至所述训练好的检测模型中,输出各所述目标图像块各自对应的检测结果;融合各目标图像块的检测结果得到与所述待检测视频对应的检测结果。

在其中一个实施例中,所述标记检测模块还用于将各所述目标图像块分别输入至所述训练好的检测模型;通过训练好的检测模型中至少三组的卷积组依次对输入的目标图像块进行处理;其中,最后一组卷积组中的下采样层为步长为预设值的空洞卷积,以保持所述最后一组卷积组输出的特征图的大小为预设大小;将中间组的卷积组所输出的特征图进行卷积处理,得到第一待检测特征图;将所述最后一组卷积组所输出的特征图作为第二待检测特征图;将所述第二待检测特征图进行卷积处理,得到至少一个第三待检测特征图;对所述第一待检测特征图、第二待检测特征图和第三待检测特征图分别进行检测处理,得到各自对应的候选检测结果和所述候选结果对应的置信度;从各个待检测特征图所对应的候选检测结果中,筛选出相应置信度满足高置信度条件的候选检测结果作为输入的所述目标图像块所对应的检测结果。

在其中一个实施例中,所述检测结果包括所述待检测视频中标记图像所属的标记类别;所述装置还包括视频推送模块,用于获取视频过滤指令;所述视频过滤指令包括第一目标类别;通过所述训练好的检测模型确定视频库中各视频分别对应的标记类别;从所述视频库中搜索标记类别为第一目标类别的待过滤视频;响应于所述视频过滤指令,将所述视频库中除所述待过滤视频外的视频推送至发起所述视频过滤指令的用户终端。

在其中一个实施例中,所述视频推送模块还用于获取视频搜索指令;所述视频搜索指令包括第二目标类别;通过所述训练好的检测模型确定视频库中各视频分别对应的标记类别;从所述视频库中搜索标记类别为第二目标类别的目标视频;响应于所述视频搜索指令,将所述目标视频推送至发起所述视频所述指令的用户终端。

一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:

获取待处理的原始图像和多于一类的标记图像;

对于每类标记图像,分别从所述原始图像的目标区域中随机选取目标位置作为所述标记图像的嵌入位置;

对于每类标记图像,分别根据相应的嵌入位置,将所述标记图像中的至少一部分嵌入至所述原始图像得到对应的样本图像;

将所述样本图像作为训练样本,并将所述样本图像中所嵌入的标记图像的标记类别作为相应的训练标签;

通过所述训练样本和相应的训练标签,对待训练的检测模型进行训练。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:

获取待处理的原始图像和多于一类的标记图像;

对于每类标记图像,分别从所述原始图像的目标区域中随机选取目标位置作为所述标记图像的嵌入位置;

对于每类标记图像,分别根据相应的嵌入位置,将所述标记图像中的至少一部分嵌入至所述原始图像得到对应的样本图像;

将所述样本图像作为训练样本,并将所述样本图像中所嵌入的标记图像的标记类别作为相应的训练标签;

通过所述训练样本和相应的训练标签,对待训练的检测模型进行训练。

上述检测模型训练方法、装置、计算机可读存储介质和计算机设备,将每类标记图像随机地嵌入至原始图像中,且在嵌入时模拟真实场景中标记图像可能被编辑或压缩的情况,有全部嵌入也有部分被遮挡嵌入,从而可自动生成带标注的训练数据,用以训练检测模型。其中,训练数据中的训练标签就是嵌入的标记图像所属的标记类别。这样,无需人为标注训练数据,采用多种随机策略模拟真实的标记图像在原始图像中出现的情况,极大地减少了标注训练数据的人力成本和标注效率,进而大大提高了模型训练效率。

附图说明

图1为一个实施例中检测模型训练方法的应用环境图;

图2为一个实施例中检测模型训练方法的流程示意图;

图3为一个实施例中一个实施例中各标记模板的示意图;

图4为一个实施例中对于每类标记图像,分别从原始图像的目标区域中随机选取目标位置作为标记图像的嵌入位置的步骤的流程示意图;

图5为一个实施例中通过训练好的检测模型对待检测视频进行标记检测的步骤的流程示意图;

图6为一个实施例中基于ssd算法的检测网络的网络结构示意图;

图7为一个实施例中retinanet网络的网络结构示意图;

图8为一个具体实施例中通过训练好的检测模型对待检测视频进行标记检测,并得到检测结果的步骤的流程示意图;

图9为一个实施例中检测模型训练装置的结构框图;

图10为另一个实施例中检测模型训练装置的结构框图;

图11为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

图1为一个实施例中检测模型训练方法的应用环境图。参照图1,该检测模型训练方法应用于检测模型训练系统。该检测模型训练系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110和服务器120均可单独用于执行本申请实施例中提供的检测模型训练方法。终端110和服务器120也可协同用于执行本申请实施例中提供的检测模型训练方法。

需要说明的是,该检测模型训练方法涉及到机器学习(machinelearning,ml),机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

如图2所示,在一个实施例中,提供了一种检测模型训练方法。本实施例主要以该方法应用于计算机设备来举例说明,该计算机设备具体可以是上述图1中的终端110或服务器120。参照图2,该检测模型训练方法具体包括如下步骤:

s202,获取待处理的原始图像和多于一类的标记图像。

其中,原始图像是待处理的没有标记信息的图像。原始图像具体可以是通过摄像机采集的真实图像,或视频文件中分割出的某一帧或多帧的视频帧,还可以是由计算机设备合成的图像等。标记信息是用于进行专有标记的信息,具体可以是特定的文字、图标,记号或音频等具有一定识别度的信息。标记图像是包括有标记信息的图像,具体可以是水印图像或商标图像。

具体地,计算机设备可从本地或其他计算机设备处获取一张或多张的原始图像,其中,多张是多于一张,在本申请实施例中所提及的量词“多个”、“多张”、或“多类”等,无特殊说明的情况下,均表示“多于一个”、“多于一张”、或“多于一类”等。计算机设备可预先获取属于不同标记类别的标记信息,并根据相应的标记信息生成对应的标记图像。其中,标记类别具体可以是用于标记不同平台的类别,也就是标记图像所属平台的类别。不同的平台具体可以是不同的媒体平台,比如“抖音”平台、“微视”平台、“西瓜视频”平台、“快手”平台、“火山小视频”平台、或“皮皮虾”平台等。不同平台所对应的标记图像具有各自平台的特点,互不相同。

在一个实施例中,为保障对检测模型的训练效果,计算机设备可对获取的原始图像的格式进行调整,得到统一格式和大小的原始图像。

在一个实施例中,计算机设备还可以获取具有rgba(redgreenbluealpha)4个通道信息的标记模板,并根据原始图像的尺寸,按照预设的尺寸比例对标记模板的大小进行调整得到对应的标记图像。

s204,对于每类标记图像,分别从原始图像的目标区域中随机选取目标位置作为标记图像的嵌入位置。

其中,目标区域是用于嵌入标记图像的区域,具体可以是原始图像的整个区域,也可以是原始图像中的部分区域,比如原始图像中具有预设大小的左上角区域、右下角区域、左下角区域或右上角区域等。嵌入位置是用于定位标记图像在原始图像中的具体位置的位置点。

具体地,计算机设备可从各类标记图像中随机选取某一类标记图像,并从原始图像的目标区域中随机选取目标位置作为该标记图像的嵌入位置。可以理解,为了使检测模型得到很好的检测效果,能准确的分别出不同的标记类别,在构造训练数据时,对于每一类的标记图像,都构造均等数量的样本图像,也就是,计算机设备在选取标记图像时,每类标记图像被选中的概率是均等的。其中,训练数据具体包括训练样本和训练标签。

在一个实施例中,计算机设备可预先设置固定区域作为原始图像的目标区域。或者,计算机设备可基于实际情况中包括标记图像的真实图像中该标记图像所在区域来确定目标区域。比如计算机设备可统计大量的真实图像中标记图像出现的位置,将真实图像中标记图像出现的概率大于预设概率阈值的区域或更大的区域作为目标区域。其中,此处的真实图像是真实场景中不同平台各自对应的具有平台的标记信息的图像,也可称作平台专有图像。

在一个实施例中,计算机设备从目标区域中选取目标位置时,该目标区域中各个位置被选中的概率值可以设置为相同的概率值,也可以设置为不同的概率值。在一个实施例中,计算机设备可确定目标区域中的某个位置作为核心位置,该核心位置对应最大的选中概率值,其他的非核心位置对应的选中概率值以该核心位置为中心向四周递减。

在一个实施例中,计算机设备可将目标区域中选中的目标位置作为该标记图像的嵌入位置,具体可以作为该标记图像的左上顶点所对应的嵌入位置、作为标记图像的右下顶点所对应的嵌入位置、或者标记图像的中心点所对应的嵌入位置等,本申请实施例对此不作限定。

s206,对于每类标记图像,分别根据相应的嵌入位置,将标记图像中的至少一部分嵌入至原始图像得到对应的样本图像。

具体地,计算机设备在确定某个标记图像所对应的嵌入位置后,可按照该嵌入位置,将标记图像中的至少一部分的图像内容嵌入至原始图像中得到对应的样本图像。

在一个实施例中,计算机设备可按照该嵌入位置,将完整的标记图像整个粘贴至原始图像上得到对应的样本图像。

在一个实施例中,计算机设备可按照该嵌入位置,将完整的标记图像整个粘贴至原始图像后,再将标记图像朝原始图像的边缘移动,使得标记图像中的一部分移出至原始图像的边缘,保留部分的图像内容在原始图像上得到对应的样本图像。这样可以更好的模拟实际情况中标记图像的边缘可能被剪裁。

在一个实施例中,计算机设备可从标记图像中裁剪出部分的图像内容,按照该嵌入位置,将部分的标记图像粘贴至原始图像中得到对应的样本图像。

举例说明,计算机设备可预先设置遮挡概率值,比如0.25,也就是训练样本中有25%的训练样本中的标记图像是被遮挡的,75%的训练样本中的标记图像是完整的。而对于标记图像被遮挡的训练样本,计算机设备可从预设遮挡比例范围中随机选取目标遮挡比例,以根据目标遮挡比例来调整标记图像在原始图像中出现的高度、宽度或面积的大小。比如,计算机设备可设置预设遮挡比例范围为0.3~0.7,那么计算机设备可从0.3~0.7间均匀选取目标遮挡比例。

s208,将样本图像作为训练样本,并将样本图像中所嵌入标记图像的标记类别作为相应的训练标签。

具体地,计算机设备可基于上述步骤中所提及的随机方式,随机生成大量的包括有不同标记类别的标记图像的样本图像。这些生成的样本图像中标记图像的嵌入位置是随机分布的,标记图像在样本图像中的覆盖面积也是随机分布的。进而计算机设备可将这些样本图像作为训练样本,并将各样本图像中所嵌入标记图像的标记类别作为相应训练样本所对应的训练标签。

在一个实施例中,步骤s208,也就是将样本图像作为训练样本,并将样本图像中所嵌入标记图像的标记类别作为相应的训练标签的步骤具体包括:确定各样本图像中嵌入的标记图像的标记类别、以及标记图像在原始图像中的位置信息;将样本图像作为训练样本,并将样本图像中所嵌入标记图像的标记类别和对应的位置信息共同作为训练样本的训练标签。

在一个实施例中,计算机设备可确定各样本图像中嵌入的标记图像的标记类别、以及标记图像在原始图像中的位置信息。其中,标记图像在原始图像中的位置信息用于定位标记图像,具体可以是嵌入的标记图像的左上顶点和右下顶点的坐标,或者是左下顶点和右上顶点的坐标等。进而,计算机设备可将样本图像作为训练样本,并将样本图像中所嵌入标记图像的标记类别和对应的位置信息共同作为训练样本的训练标签。这样,通过相应训练样本和训练标签所训练得到的检测模型除了可以预测待检测图像的标记类别,还可以定位待检测图像中标记图像。

s210,通过训练样本和相应的训练标签,对待训练的检测模型进行训练。

其中,检测模型是一种卷积神经网络模型,用于对待检测图像或待检测视频进行标记检测。当训练标签仅为标记类别时,训练得到的检测模型可用于对输入的待检测图像所包括的标记图像进行分类。当训练标签包括标记类别和标记图像的位置信息时,训练得到的检测模型可用于对输入的待检测图像所包括的标记图像进行分类和定位。

具体地,检测模型的训练是有监督的训练过程。计算机设备将训练样本输入检测模型,以该训练样本相应的训练标签为目标输出,通过调整检测模型的模型参数使得检测模型的实际输出不断趋近目标输出。

在一个实施例中,计算机设备可将训练样本输入检测模型中进行训练,得到预测结果。根据预测结果和训练标签的差异构造损失函数。将损失函数最小化时的模型参数作为检测模型的模型参数,返回将训练样本输入检测模型中进行训练,得到检测结果的步骤,直至满足训练停止条件时停止训练。

其中,训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数,或者是调整模型参数后的检测模型的性能指标达到预设指标。

在一个实施例中,对该检测模型的模型结构和所使用的检测算法,本申请实施例并不做限定。该检测模型具体可以是由基于神经网络的的两阶段检测算法实现,也可以是由基于神经网络的一阶段检测算法实现。比如,计算机设备可通过卷积神经网络,构造基于ssd算法(singleshotmultiboxdetector,单发多盒检测,一种目标检测算法)或基于retinanet算法(一种单阶段目标检测算法)的检测模型等。

在一个实施例中,步骤s210,也就是通过训练样本和相应的训练标签,对待训练的检测模型进行训练的步骤具体包括:按照目标区域对样本图像进行裁剪,得到对应的样本图像块;通过待训练的检测模型对各样本图像块分别进行特征提取得到相应的特征图,并基于特征图进行检测输出预测结果;根据样本图像块所对应的预测结果和相应训练标签间的差异,调整检测模型的模型参数,直到满足训练停止条件时停止训练。

在一个实施例中,计算机设备可按照目标区域对样本图像进行裁剪,得到对应的样本图像块。进而计算机设备可将各个样本图像块分别输入至待训练的检测模型中,通过检测模型中所包括的卷积层对各样本图像块分别进行特征提取得到相应的特征图,并基于各个特征图进行标记检测输出预测结果。当训练标签为标记类别时,相应的预测结果为预测的标记类别。当训练标签为标记类别和标记图像在目标图像块中的位置信息时,相应的预测结果为预测的标记类别和回归框。计算机设备可根据样本图像块所对应的预测结果和相应训练标签间的差异,朝减小差异的方向调整检测模型的模型参数,直到满足训练停止条件时停止训练。

上述实施例中,按照目标区域对样本图像进行裁剪,得到对应的样本图像块,再通过样本图像块对待训练的检测模型进行训练,可大大减少在训练过程中与标记图像无关的背景信息所带来的干扰和额外的处理量,提高了模型训练效率和准确性。

可以理解,在实际应用中,为避免标记图像对原始图像的有效内容的遮挡,通常该标记图像会出现在原始图像的左上角区域或右下角区域,既能起到标记的效果,又不会对原始图像的有效内容进行遮挡。基于此,在设计训练数据时,如果仅将标记图像嵌入在原始图像的左上角区域和右下角区域的固定位置,检测模型可能误以为该固定位置极大可能存在标记图像,而并非真正具备判断不同位置含有标记图像的能力,仅学习到了分辨位置的能力。所以在步骤s204中,在确定标记图像的嵌入位置时加入了一些随机因素,以模拟真实情况。而在步骤s206中,将标记图像的至少一部分嵌入至原始图像中,主要是考虑到真实场景中标记图像可能被编辑或者压缩,使得标记图像只出现了一部分,加入随机遮挡因素使得检测模型可处理标记图像仅部分可见的情况。这样,通过多种随机策略模拟真实的标记图像生成情况,自动生成可靠且有效的带标注信息的训练数据,极大地减少了获得训练数据的人力成本。并且通过上述生成的贴合真实情况的训练数据来训练检测模型,使得训练得到的检测模型具有较高的检测精度。

上述检测模型训练方法,将每类标记图像随机地嵌入至原始图像中,且在嵌入时模拟真实场景中标记图像可能被编辑或压缩的情况,有全部嵌入也有部分被遮挡嵌入,从而可自动生成带标注的训练数据,用以训练检测模型。其中,训练数据中的训练标签就是嵌入的标记图像所属的标记类别。这样,无需人为标注训练数据,采用多种随机策略模拟真实的标记图像在原始图像中出现的情况,极大地减少了标注训练数据的人力成本和标注效率,进而大大提高了模型训练效率。

在一个实施例中,步骤s202,也就是获取待处理的原始图像和多于一类的标记图像的步骤具体包括:获取待处理的原始图像和多于一类的标记模板;从预设尺寸比例范围内随机选取目标尺寸比例;根据原始图像的尺寸,按目标尺寸比例对各类标记模板分别进行缩放处理,得到相应的标记图像。

其中,标记模板是各个平台各自对应的标记样例,可作为模板使用。尺寸比例是两个对象的尺寸之间的大小比例,在本申请实施例中具体指标记图像与原始图像的尺寸比例。预设尺寸比例范围是预先设置的由一系列的尺寸比例所构成的范围,比如高度比范围、宽度比范围、或面积比范围等。

具体地,计算机设备可获取不同平台各自对应的标记模板,也就是属于不同标记类别的标记模板。计算机设备具体可获取具有rgba4通道数据的标记模板。进而计算机设备可从预设尺寸比例范围中选取目标尺寸比例,并根据原始图像的尺寸,按目标尺寸比例对各类标记模板分别进行缩放处理,得到相应的标记图像。

在一个实施例中,计算机设备可从候选的标记模板中随机选取一个标记模板,其中各个标记模板选取的概率相同。计算机设备可预先设置标记图像与原始图像的高度比范围,比如高度比范围为0.04至0.14。计算机设备可从该高度比范围中随机选取一个目标高度比例,进而按相应的目标高度比例缩放该标记模板得到标记图像。可以理解,该预设尺寸比例范围具体还可以是预先设置的宽度比范围或面积比范围等,相应选取的目标尺寸比例也可以是目标宽度比例或目标面积比例等,本申请实施例对此不作限定。

在一个实施例中,对于预设尺寸比例范围中不同的尺寸比例,计算机设备可设置与之对应的选取概率。进而按照相应的选取概率从预设尺寸比例范围内随机选取目标尺寸比例。在一个实施例中,该选取概率的设置可依据真实的含有标记图像的真实图像而确定,对于经常出现的尺寸比例,设置较大的选取概率,对于鲜少出现的尺寸比例,设置较小的选取概率。这样,对于标记图像相对于原始图像的大小情况,可以更真实的模拟真实情况,从而可提高检测模型的训练效果。

参考图3,图3为一个实施例中各标记模板的示意图。比如标记模板具体可以是“微视”、“时光小视频”或“下饭视频”等平台所对应的标记模板。可以理解,图3中仅为部分示例,本申请实施例所提及的标记模板和标记图像包括但不限定于上述的几种。比如,标记模板还可以是“抖音”平台、“西瓜视频”平台、“快手”平台、“火山小视频”平台、或“皮皮虾”平台等各自对应的模板。

在一个实施例中,对于每一类的标记模板,计算机设备在构造相应的训练数据时,各类标记模板被使用的频率可以是相同的,也可以不同,本申请实施例在此不做限定。而随着市面上不同平台的出现,相应的标记模板也会越来越多,对于新出现的标记模板,无需通过人力额外进行训练数据的标注,均可采用本申请实施例所提及的方式构造该标记模板所对应的训练数据来重新训练检测模型,以提高检测模型的检测范围和能力。

上述实施例中,从预设尺寸比例范围内随机选取目标尺寸比例,进而根据原始图像的尺寸,按目标尺寸比例来对各类标记模板分别进行缩放处理,可得到具有不同尺寸大小的标记图像,更贴合真实的情况,使得构造的训练样本更准确,能够大大提高对检测模型的训练效果。

在一个实施例中,目标位置包括核心位置和非核心位置;步骤s202,也就是对于每类标记图像,分别从原始图像的目标区域中随机选取目标位置作为标记图像的嵌入位置的步骤具体包括以下步骤:

s402,确定原始图像的目标区域中的核心位置。

其中,核心位置是目标区域中被选中为嵌入位置的概率值最大的位置。计算机设备可根据预设数量的真实场景的图像数据,从中选出作为嵌入位置次数最多的位置作为核心位置。或者,计算机设备还可根据多张真实场景的图像数据,将各个标记图像所对应的嵌入位置的平均位置作为核心位置。

在一个实施例中,步骤s402,也就是确定原始图像的目标区域中的核心位置的步骤具体包括:获取预设数量的平台专有图像;各平台专有图像分别包括相应平台所对应的标记图像;根据各标记图像的目标顶点分别在平台专有图像中的坐标,确定与目标顶点对应的平均坐标;将平均坐标作为原始图像的目标区域中的核心位置。

其中,标记图像的目标顶点具体可以是左上顶点、左下顶点、右上顶点或右下顶点。当目标区域为原始图像的左上角区域时,标记图像的目标顶点具体可以是左上顶点;当目标区域为原始图像的右下角区域时,标记图像的目标顶点具体可以是右下顶点。

在一个实施例中,计算机设备可获取预设数量的平台专有图像,各平台专有图像就是真实场景中的图像。计算机设备可确定各标记图像的目标顶点分别在平台专有图像中的顶点坐标,计算各个顶点坐标的平均坐标,进而将平均坐标作为原始图像的目标区域中的核心位置。可以理解,这样根据目标顶点所确定的核心位置,当在构造训练数据将该核心位置选中为嵌入位置时,相应的,可将原始图像中该核心位置作为标记图像相应目标顶点的位置,从而将标记图像转帖至原始图像中。

举例说明,计算机设备可获取50张真实场景的图像,也就是平台专有图像。计算这50张平台专有图像中相应标记图像(比如水印图像)在左上角区域的平均坐标,将该平均坐标所对应的位置作为左上角区域中的核心位置。设原始图像的高度为h,宽度为w,以原始图像的左上顶点为坐标原点向下建立直角坐标系。该核心位置的坐标示例性的可以是(w*0.03,h*0.015)。当目标区域为右下角区域时,右下角区域的核心位置的坐标示例性的可以是(w-w*0.03,h-h*0.035)。

上述实施例中,将真实场景下预设数量的平台专有图像中标记图像的目标顶点所对应的平均位置作为核心位置,以分配最大的概率值,更贴合真实情况。

s404,获取将核心位置作为嵌入位置时的概率值;核心位置所对应的概率值为目标区域中各目标位置所对应的概率值中的最大值。

具体地,计算机设备可预先设置核心位置作为嵌入位置时的概率值,该核心位置所对应的概率值为目标区域中各目标位置所对应的概率值中的最大值。

s406,根据目标区域中各非核心位置分别与核心位置的距离,确定将各非核心位置分别作为嵌入位置时的概率值;非核心位置所对应的概率值与非核心位置至核心位置的距离呈负相关。

具体地,目标区域中除核心位置外的其他位置可称作非核心位置。计算机设备可计算目标区域中各非核心位置分别与核心位置的距离,该距离具体可用一范式距离表示。根据目标区域中各非核心位置分别与核心位置的距离,确定将各非核心位置分别作为嵌入位置时的概率值,其中,概率值的大小与离核心点的一范式距离成反比。也就是说,各个位置的概率分布以核心位置为中心向四周递减。可以理解,目标区域中各个目标位置对应的概率值的总和为1。

s408,对于每类标记图像,分别按照原始图像的目标区域中各目标位置各自对应的概率值,选取相应的目标位置作为标记图像的嵌入位置。

具体地,对于从各类标记图像中选取的标记图像,计算机设备可分别按照原始图像的目标区域中各目标位置各自对应的概率值,选取相应的目标位置作为标记图像的嵌入位置。

在一个实施例中,目标区域包括左上角区域和右下角区域;对于每类标记图像,分别按照原始图像的目标区域中各目标位置各自对应的概率值,选取相应的目标位置作为标记图像的嵌入位置,包括:当目标区域为左上角区域时,对于每类标记模板,分别按照原始图像的左上角区域中各目标位置各自对应的概率值,选取相应的目标位置作为标记图像的左上顶点所对应的嵌入位置;当目标区域为右下角区域时,对于每类标记模板,分别按照原始图像的右下角区域中各目标位置各自对应的概率值,选取相应的目标位置作为标记图像的右下顶点所对应的嵌入位置。

在一个实施例中,当目标区域为左上角区域时,计算机设备可按照原始图像的左上角区域中各目标位置各自对应的概率值,选取相应的目标位置作为标记图像的左上顶点所对应的嵌入位置,进而在嵌入标记图像时,将标记图像的左上角嵌入至该位置处。当目标区域为右下角区域时,计算机设备可按照原始图像的右下角区域中各目标位置各自对应的概率值,选取相应的目标位置作为标记图像的右下顶点所对应的嵌入位置,进而在嵌入标记图像时,将标记图像的右下角嵌入至该位置处。这样,对于左上角区域和右下角区域,分别以标记图像的左上顶点和右下顶点作为基准点进行嵌入,可更为方便准确。

上述实施例中,设置目标区域中的核心位置对应最大的概率值,非核心位置的概率分布以核心位置为中心向四周递减,从而按各个位置各自对应的概率值选取目标位置作为标记图像的嵌入位置,更加贴合实际情况,且满足随机分配,使得样本图像的构造更加迅速和准确。

在一个实施例中,样本图像包括第一样本图像和第二样本图像;步骤s208,也就是对于每类标记图像,分别根据相应的嵌入位置,将标记图像中的至少一部分嵌入至原始图像中得到对应的样本图像的步骤具体包括:对于每类标记图像,确定标记图像中待完整嵌入的第一标记图像和待遮挡嵌入的第二标记图像;将第一标记图像按照相应的嵌入位置完整嵌入至原始图像中,得到对应的第一样本图像;将第二标记图像按照相应的嵌入位置完整嵌入至原始图像中,并从预设遮挡比例范围内随机选取目标遮挡比例,按照目标遮挡比例将第二标记图像中的一部分移出至原始图像的边界,得到对应的第二样本图像。

其中,第一标记图像是被选中为完整嵌入至原始图像中的标记图像,第二标记图像是被选中为遮挡嵌入至原始图像中的标记图像。而相应的,第一样本图像是与第一标记图像对应的样本图像,第二样本图像是与第二标记图像对应的样本图像。可以理解,这里的原始图像可以是同一张原始图像,也可以是不同的原始图像,本申请实施例对此不作限定。

在一个实施例中,计算机设备可预先设置待完整嵌入和待遮挡嵌入的标记图像的比例,比如待完整嵌入的第一标记图像的数量与待遮挡嵌入的第二标记图像的数量的比值为1:3,也就是以概率0.25确定标记图像是否被遮挡。也就是说,对于每一类的标记图像,在一定数量的标记图像中,有25%的标记图像是被遮挡嵌入至原始图像中的,有75%的标记图像是完整嵌入至原始图像中的。当然,该比例也可以是其他的数值,本申请实施例对此不作限定。

进而,计算机设备可从所有的标记图像中确定待完整嵌入的第一标记图像和待遮挡嵌入的第二标记图像。计算机设备可将第一标记图像按照相应的嵌入位置完整嵌入至原始图像中,得到对应的第一样本图像。当目标区域为左上角区域时,计算机设备可将第一标记图像的左上顶点嵌入至该嵌入位置,以将完整的第一标记图像粘贴至原始图像中,得到对应的第一样本图像。当目标区域为右下角区域时,计算机设备可将第一标记图像的右下顶点嵌入至该嵌入位置,以将完整的第一标记图像粘贴至原始图像中,得到对应的第一样本图像。

而对于第二标记图像,计算机设备可从预设遮挡比例范围内随机选取目标遮挡比例,将第二标记图像按照相应的嵌入位置完整嵌入至原始图像中后,按照选取的目标遮挡比例将第二标记图像中的一部分移出至原始图像的边界,得到对应的第二样本图像。第二样本图像中所嵌入标记图像的位置信息会根据移动后的位置重新更新。

其中,遮挡比例是第二标记图像处于原始图像之外部分的高度、宽度或面积与原始图像之间的比例,比如高度遮挡比例,宽度遮挡比例或面积遮挡比例等。预设遮挡比例范围是预先设置的由一系列的遮挡比例所构成的范围,比如高度遮挡比范围、宽度遮挡比范围、或面积遮挡比范围等。也就是说,计算机设备可从该范围中随机选取目标遮挡比例,进而按照该目标遮挡比例,将第二标记图像向上、向下、向左或向右朝原始图像的边界移动,以使得第二标记图像处于原始图像之外的部分标记图像的高度、宽度或面积与第二标记图像的高度、宽度或面积之比为该目标遮挡比例。

举例说明,当预设遮挡比例范围为高度遮挡比例范围时,比如0.3至0.7,计算机设备可从相应的范围中随机选取目标高度遮挡比例,比如0.4,进而在移动第二标记图像时,将第二标记图像向上或向下平移,以使得第二标记图像的部分区域处于原始图像外,而处于原始图像外的部分标记图像的高度为该标记图像高度的0.4倍。当预设遮挡比例范围为宽度遮挡比例范围时,比如0.3至0.7,计算机设备可从相应的范围中随机选取目标宽度遮挡比例,比如0.4,进而在移动第二标记图像时,将第二标记图像向左或向右平移,以使得第二标记图像的部分区域处于原始图像外,而处于原始图像外的部分标记图像的宽度为该标记图像宽度的0.4倍。当预设遮挡比例范围为面积遮挡比例范围时,比如0.3至0.7,计算机设备可从相应的范围中随机选取目标面积遮挡比例,比如0.4,进而在移动第二标记图像时,将第二标记图像原始图像的边界移动,以使得第二标记图像的部分区域处于原始图像外,而处于原始图像外的部分标记图像的面积为该标记图像面积的0.4倍。可以理解,上述的遮挡比例范围和目标遮挡比例仅为示例性数值,不用于限定本申请。

在一个实施例中,对于预设遮挡比例范围中不同的遮挡比例,计算机设备可设置与之对应的选取概率。不同的遮挡比例被选取的概率值可以相同也可以不同,本申请实施例对此不作限定。

上述实施例中,在将标记图像嵌入至原始图像中时,有些标记图像被完整嵌入至原始图像中,有些标记图像被遮挡嵌入至原始图像中,可以很好的模拟出真实场景中标记图像可能被编辑或者压缩的情况,大大提高了训练数据构造的准确性。

在一个实施例中,该检测模型训练方法还包括通过训练好的检测模型对待检测视频进行标记检测的步骤,该步骤具体包括:

s502,获取待检测视频和训练好的检测模型。

具体地,计算机设备可获取视频库中的待检测视频和已经训练好的检测模型。在一个具体应用场景中,该待检测视频为待检测小视频。其中,待检测小视频是视频时长小于预设时长或视频大小小于预设大小的视频。

s504,从待检测视频中提取出预设数量的视频帧,并按照目标区域对各视频帧进行裁剪,得到对应的目标图像块。

具体地,计算机设备可按预设频率将待检测视频转换成一帧一帧的视频帧,比如,计算机设备可每隔一秒提取一帧图像作为视频帧。进而计算机设备可从多帧视频帧中筛选出预设数量的视频帧,比如筛选出第一帧和中间帧的视频帧作为待检测的视频帧。其中,基于实际经验可知,对于小视频而言,第一帧中的左上角区域很大概率会出现水印图像(也就是标记图像),中间帧的右下角区域很大概率会出现水印图像,因而选择第一帧和中间帧作为待检测的视频帧,可以提高标记检测的准确性。

进而,计算机设备可将提取出的各帧视频帧中的目标区域的图像数据裁剪出来,得到对应的目标图像块。具体可以是将各帧视频帧中的左上角区域和右下角区域裁剪出来,得到对应的目标图像块。

s506,将各目标图像块分别输入至训练好的检测模型中,输出各目标图像块各自对应的检测结果。

具体地,计算机设备可将各个目标图像块分别作为输入数据输入至训练好的检测模型中,通过检测模型的模型结构和模型参数对输入数据进行处理,输出各个目标图像块各自对应的检测结果。

可以理解,当该检测模型在训练过程中的训练标签仅为标记图像的标记类别时,通过该训练好的检测模型处理后输出的检测结果是各个目标图像块各自对应的标记类别。当该检测模型在训练过程中的训练标签为标记图像的标记类别和位置信息时,通过该训练好的检测模型处理后输出的检测结果是各个目标图像块各自对应的标记类别和位置信息。

在一个实施例中,步骤s506,也就是将各目标图像块分别输入至训练好的检测模型中,输出各目标图像块各自对应的检测结果的步骤具体包括:将各目标图像块分别输入至训练好的检测模型;通过训练好的检测模型中至少三组的卷积组依次对输入的目标图像块进行处理;其中,最后一组卷积组中的下采样层为步长为预设值的空洞卷积,以保持最后一组卷积组输出的特征图的大小为预设大小;将中间组的卷积组所输出的特征图进行卷积处理,得到第一待检测特征图;将最后一组卷积组所输出的特征图作为第二待检测特征图;将第二待检测特征图进行卷积处理,得到至少一个第三待检测特征图;对第一待检测特征图、第二待检测特征图和第三待检测特征图分别进行检测处理,得到各自对应的候选检测结果和候选结果对应的置信度;从各个待检测特征图所对应的候选检测结果中,筛选出相应置信度满足高置信度条件的候选检测结果作为输入的目标图像块所对应的检测结果。

其中,卷积组(block)是包括有多层卷积层的网络结构。具体地,训练好的检测模型包括有至少三组的卷积组,计算机设备将目标图像块输入至训练好的卷积网络中,通过训练好的卷积网络中各组卷积组对目标图像块进行处理。目标图像每经过一个卷积组后,相应的特征图的宽和高就会缩小一半。计算机设备可设置最后一组卷积组中的下采样层采用步长为预设值(比如2)的空洞卷积,使得最后一组卷积组的大小为预设大小。进而计算机设备可将中间组(比如第二组)的卷积组所输出的特征图进行卷积处理,得到第一待检测特征图,将最后一组卷积组所输出的特征图作为第二待检测特征图。此外,计算机设备还可将第二待检测特征图进行不同的卷积处理,得到至少一个第三待检测特征图,各个第三待检测特征图的大小各不相同。

进而计算机设备可在多层待检测特征图上分别进行检测,其中,各层均有各自的检测器(这些检测器不共享模型参数),每个检测器都输出相应待检测特征图每个位置的候选检测结果(具体可以是回归框和分类结果)。对于每层待检测特征图,计算机设备可将该待检测特征图中各个位置的候选检测结果中置信度最大的候选检测结果作为该待检测特征图对应的候选检测结果。进而计算机设备可从各个待检测特征图所对应的候选检测结果中,筛选出相应置信度满足高置信度条件的候选检测结果作为输入的目标图像块所对应的检测结果。其中,置信度满足高置信度条件具体可以是最大置信度或将置信度从高至低排序后的前n(n为大于1的正整数)名等。

在一个具体的实施例中,计算机设备可采用基于神经网络的检测算法。基于神经网络的检测算法大致可以分为一阶段和两阶段的检测算法,考虑到一阶段的检测算法速度更快,本申请中的检测模型具体可采用一阶段的检测算法中的ssd检测算法。参考图6,图6为一个实施例中基于ssd算法的检测网络的网络结构示意图。该检测网络的主干网络可采用resnet-34层网络,输入大小为300x300的目标图像块,然后在网络的多层待检测特征图上进行检测,每层都有各自的检测器(这些检测器不共享参数),每个检测器都输出待检测特征图每个位置的回归框和分类结果。

本申请实施例所提及的检测网络依次含有一个卷积层和4个block层,经每个block后特征图的宽和高都会缩小一倍。目标图像块经过第二个block层输出的特征图大小为38x38,经过第三个block层后特征图大小为19x19,为了使得第四个block层输出的特征图比较大,计算机设备将第四个block的下采样层采用了步长为2的空洞卷积实现,保持了输出的特征图的大小仍然为19x19,但特征的表达能力更强。第二个block层输出的38x38特征图经过两层卷积层后输出第一待检测特征图(大小为38x38),第四个block层所对应的19x19特征图为第二待检测特征图,该第二待检测特征图经过3个两层的卷积结构后(第二个卷积步长为2),依次输出10x10、5x5、3x3的第三待检测特征图。第一待检测特征图、第二待检测特征图和第三待检测特征图共计有5个待检测的特征图,每个特征图上有对应的检测器(detectorheader)。对于待检测特征图的每个位置,设计了预设数量个锚框,检测器将预测这预设数量个锚框分别属于每个标记类别的概率以及标记图像的矩形边界框。其中,每个锚框分别属于每个标记类别的概率以及标记图像的矩形边界框就是每个位置对应的候选检测结果。计算机设备可将这5个待检测特征图中各个位置的候选检测结果中置信度最大的候选检测结果作为该目标图像块对应的候选检测结果。

上述实施例中,通过对目标图像块所对应的多个待检测图分别进行标记检测,从而从各个待检测特征图所对应的候选检测结果中,筛选出置信度较高的候选检测结果作为目标图像块所对应的检测结果,可以保障检测结果的准确性。

在一个实施例中,该检测模型还可通过retinanet网络实现,其中,retinanet网络采用了金字塔型的网络结构,金字塔的网络结构增添了一个自顶向下的侧分枝,该侧分枝将高层特征进行放大并与低层特征进行按位相加,增强了低层特征的表达能力。参考图7,图7为一个实施例中retinanet网络的网络结构示意图。如图7所示,retinanet网络的网络结构主要由(a)resnet、(b)fpn和2个fcn子网络构成。其中,resnet,英文全称residualnetwork,也称残差网络。fpn,英文全称featurepyramidnetwork,也称特征金字塔网络。fcn,英文全称fullyconvolutionalnetworks,也称全卷积网络。在本申请实施例中的2个全卷积网络具体可以是(c)分类子网络(classsubnet)和(d)检测框位置回归子网络(boxsubnet),用于预测标记图像所属的标记类别和标记图像的位置信息。retinanet网络网络的主干网络(backbone)可由resnet+fpn构成,输入图像经过backbone的特征提取后,可以得到特征金字塔。在得到特征金字塔后,继续参考图7,对每层特征金字塔分别使用两个子网络,也就是分类子网络(classsubnet)和检测框位置回归子网络(boxsubnet),进行处理输出最后的检测结果。

在一个具体实施例中,retinanet主干网络采用了resnet50的网络,输入目标图像块的大小为600x600。在实际应用中,对于图像数据,常常存在前景物体远远小于背景,而检测器是在特征图的每个位置预测类别概率,这将导致背景类别的数目远远多于前景类别的数目。为了解决这个前背景极大不平衡的问题,可通过retinanet网络的focalloss(一种损失函数算法)对损失函数进行加权。focalloss的好处在于可根据损失函数的大小,自动挖掘出难样本,并将简单的样本过滤掉,使得网络可以高效地从难样本中进行学习,也就是可以更多地学习到对标记图像的分类。

可以理解,该检测模型还可以采用其他的神经网络算法实现,上述实施例所提及的ssd算法和retinanet仅用于进行示例性说明,不用于限定本申请实施例中检测网络的结构和算法。

s508,融合各目标图像块的检测结果得到与待检测视频对应的检测结果。

具体地,计算机设备可确定各个目标图像块各自对应的检测结果的置信度,将最大置信度所对应的目标图像块的检测结果,作为该待检测视频所对应的检测结果。其中,检测结果对应的置信度表示该检测结果的可信程度。

上述实施例中,从待检测视频中的视频帧中裁剪出目标区域的图像数据,得到对应的目标图像块,进而通过训练好的检测模型对各个目标图像块进行标记检测,融合各个目标图像块对应的检测结果得到该待检测视频对应的检测结果,使得对待检测视频进行标记检测时检测速度快且检测精度高。

在一个具体地实施例中,参考图8,图8为一个具体实施例中通过训练好的检测模型对待检测视频进行标记检测,并得到检测结果的步骤的流程示意图。如图图8所示,计算机设备获取待检测视频,比如手机小视频,从手机小视频中提取出视频帧,从提取出的视频帧中截取出左上角区域和右下角区域分别对应的目标图像块。进而计算机设备可对各个目标图像块进行标记检测。在这个具体实施方式中,该标记图像具体为水印图像,因而也可称作水印检测。计算机设备可对各个图像块各自对应的水印检测的检测结果进行融合,得到该待检测视频对应的检测结果。

在实际应用中,当标记图像为水印图像时,通过本申请实施例所提及的检测模型训练方法训练得到的检测模型,在实际使用中,可以很好的对带有各个平台水印的小视频进行精准的水印识别和定位,检测精度高。并且,在各种新平台层出不穷,其衍生的小视频相关的水印也可能越来越多的情况下,通过本申请实施例所提及的检测模型训练方法自动生成新的训练数据,并重训练检测模型,即可很好的对新的水印进行识别,大大减少了人力资源的浪费且大大提高了训练效率和准确性。

在一个具体应用场景中,检测结果包括待检测视频中标记图像所属的标记类别;该检测模型训练方法还包括对特定视频过滤的步骤,该步骤具体包括:获取视频过滤指令;视频过滤指令包括第一目标类别;通过训练好的检测模型确定视频库中各视频分别对应的标记类别;从视频库中搜索标记类别为第一目标类别的待过滤视频;响应于视频过滤指令,将视频库中除待过滤视频外的视频推送至发起视频过滤指令的用户终端。

在一个具体应用场景中,当用户通过用户终端向计算机设备发起视频过滤指令时,计算机设备可提取出该视频过滤指令中携带的第一目标类别。计算机设备可通过训练好的检测模型对视频库中的各个视频进行标记检测,以得到各个视频分别对应的检测结果,该检测结果包括各个视频各自对应的标记类别。进而计算机设备可从视频库中搜索标记类别为第一目标类别的待过滤视频,并将视频库中过滤掉待过滤视频后的视频推送给相应的用户终端。

在一个实施例中,该标记图像为水印图像,计算机设备可根据视频过滤指令对含特定水印图像的视频进行过滤,这样用户可以根据自己的喜恶过滤掉来自于特定视频应用的视频。

上述实施例中,可通过训练好的检测模型可确定视频库中各视频所对应的标记类别,进而过滤掉用户不喜欢的某个特定标记类别的视频,可以方便智能地给用户提供视频服务。

在一个具体的应用场景中,检测结果包括待检测视频中标记图像所属的标记类别;该检测模型训练方法还包括搜索特定视频的步骤,该步骤具体包括:获取视频搜索指令;视频搜索指令包括第二目标类别;通过训练好的检测模型确定视频库中各视频分别对应的标记类别;从视频库中搜索标记类别为第二目标类别的目标视频;响应于视频搜索指令,将目标视频推送至发起视频指令的用户终端。

在一个实施例中,当用户通过用户终端向计算机设备发起视频搜索指令时,计算机设备可提取出该视频搜索指令中携带的第二目标类别。计算机设备可通过训练好的检测模型对视频库中的各个视频进行标记检测,以得到各个视频分别对应的检测结果,该检测结果包括各个视频各自对应的标记类别。进而计算机设备可从视频库中搜索标记类别为第二目标类别的目标视频,并将目标视频推送至发起视频指令的用户终端。

在一个实施例中,该标记图像为水印图像,用户可输入与视频应用相关的水印类别,从而计算机设备可快速检索出对应的视频,这样用户可以根据自己的喜好搜索来自于特定视频应用的视频。

上述实施例中,可通过训练好的检测模型可确定视频库中各视频所对应的标记类别,进而搜索用户喜欢的某个特定标记类别的视频,可以方便智能地给用户提供视频服务。

在一个实施例中,检测结果包括待检测视频中标记图像所属的标记类别和位置信息;该检测模型训练方法还包括对视频中的标记图像进行编辑的步骤,该步骤具体包括:计算机设备可通过训练好的检测模型确定视频库中各视频分别对应的标记类别和所包括标记图像的位置信息,进而定位到该标记图像,以实现对标记图像的编辑处理。

图2为一个实施例中检测模型训练方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图9所示,提供了一种检测模型训练装置900,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分。该装置包括获取模块901、选取模块902、嵌入模块903、确定模块904和训练模块905,其中:

获取模块901,用于获取待处理的原始图像和多于一类的标记图像。

选取模块902,用于对于每类标记图像,分别从原始图像的目标区域中随机选取目标位置作为标记图像的嵌入位置。

嵌入模块903,用于对于每类标记图像,分别根据相应的嵌入位置,将标记图像中的至少一部分嵌入至原始图像得到对应的样本图像。

确定模块904,将样本图像作为训练样本,并将样本图像中所嵌入标记图像的标记类别作为相应的训练标签。

训练模块905,用于通过训练样本和相应的训练标签,对待训练的检测模型进行训练。

在一个实施例中,获取模块901还用于获取待处理的原始图像和多于一类的标记模板;从预设尺寸比例范围内随机选取目标尺寸比例;根据原始图像的尺寸,按目标尺寸比例对各类标记模板分别进行缩放处理,得到相应的标记图像。

在一个实施例中,目标位置包括核心位置和非核心位置;选取模块902还用于确定原始图像的目标区域中的核心位置;获取将核心位置作为嵌入位置时的概率值;核心位置所对应的概率值为目标区域中各目标位置所对应的概率值中的最大值;根据目标区域中各非核心位置分别与核心位置的距离,确定将各非核心位置分别作为嵌入位置时的概率值;非核心位置所对应的概率值与非核心位置至核心位置的距离呈负相关;对于每类标记图像,分别按照原始图像的目标区域中各目标位置各自对应的概率值,选取相应的目标位置作为标记图像的嵌入位置。

在一个实施例中,选取模块902还用于获取预设数量的平台专有图像;各平台专有图像分别包括相应平台所对应的标记图像;根据各标记图像的目标顶点分别在平台专有图像中的坐标,确定与目标顶点对应的平均坐标;将平均坐标作为原始图像的目标区域中的核心位置。

在一个实施例中,目标区域包括左上角区域和右下角区域;选取模块902还用于当目标区域为左上角区域时,对于每类标记模板,分别按照原始图像的左上角区域中各目标位置各自对应的概率值,选取相应的目标位置作为标记图像的左上顶点所对应的嵌入位置;当目标区域为右下角区域时,对于每类标记模板,分别按照原始图像的右下角区域中各目标位置各自对应的概率值,选取相应的目标位置作为标记图像的右下顶点所对应的嵌入位置。

在一个实施例中,样本图像包括第一样本图像和第二样本图像;嵌入模块903还用于对于每类标记图像,确定标记图像中待完整嵌入的第一标记图像和待遮挡嵌入的第二标记图像;将第一标记图像按照相应的嵌入位置完整嵌入至原始图像中,得到对应的第一样本图像;将第二标记图像按照相应的嵌入位置嵌入至原始图像中,并从预设遮挡比例范围内随机选取目标遮挡比例,按照目标遮挡比例将第二标记图像中的一部分移出至原始图像的边界,得到对应的第二样本图像。

在一个实施例中,确定模块904还用于确定各样本图像中嵌入的标记图像的标记类别、以及标记图像在原始图像中的位置信息;将样本图像作为训练样本,并将样本图像中所嵌入标记图像的标记类别和对应的位置信息共同作为训练样本的训练标签。

在一个实施例中,训练模块905还用于按照目标区域对样本图像进行裁剪,得到对应的样本图像块;通过待训练的检测模型对各样本图像块分别进行特征提取得到相应的特征图,并基于特征图进行检测输出预测结果;根据样本图像块所对应的预测结果和相应训练标签间的差异,调整检测模型的模型参数,直到满足训练停止条件时停止训练。

在一个实施例中,检测模型训练装置900还包括标记检测模块906,用于获取待检测视频和训练好的检测模型;从待检测视频中提取出预设数量的视频帧,并按照目标区域对各视频帧进行裁剪,得到对应的目标图像块;将各目标图像块分别输入至训练好的检测模型中,输出各目标图像块各自对应的检测结果;融合各目标图像块的检测结果得到与待检测视频对应的检测结果。

在一个实施例中,标记检测模块906还用于将各目标图像块分别输入至训练好的检测模型;通过训练好的检测模型中至少三组的卷积组依次对输入的目标图像块进行处理;其中,最后一组卷积组中的下采样层为步长为预设值的空洞卷积,以保持最后一组卷积组输出的特征图的大小为预设大小;将中间组的卷积组所输出的特征图进行卷积处理,得到第一待检测特征图;将最后一组卷积组所输出的特征图作为第二待检测特征图;将第二待检测特征图进行卷积处理,得到至少一个第三待检测特征图;对第一待检测特征图、第二待检测特征图和第三待检测特征图分别进行检测处理,得到各自对应的候选检测结果和候选结果对应的置信度;从各个待检测特征图所对应的候选检测结果中,筛选出相应置信度满足高置信度条件的候选检测结果作为输入的目标图像块所对应的检测结果。

参考图10,在一个实施例中,检测结果包括待检测视频中标记图像所属的标记类别;检测模型训练装置900还包括视频推送模块907,用于获取视频过滤指令;视频过滤指令包括第一目标类别;通过训练好的检测模型确定视频库中各视频分别对应的标记类别;从视频库中搜索标记类别为第一目标类别的待过滤视频;响应于视频过滤指令,将视频库中除待过滤视频外的视频推送至发起视频过滤指令的用户终端。

在一个实施例中,该视频推送模块907还用于获取视频搜索指令;视频搜索指令包括第二目标类别;通过训练好的检测模型确定视频库中各视频分别对应的标记类别;从视频库中搜索标记类别为第二目标类别的目标视频;响应于视频搜索指令,将目标视频推送至发起视频指令的用户终端。

上述检测模型训练装置,将每类标记图像随机地嵌入至原始图像中,且在嵌入时模拟真实场景中标记图像可能被编辑或压缩的情况,有全部嵌入也有部分被遮挡嵌入,从而可自动生成带标注的训练数据,用以训练检测模型。其中,训练数据中的训练标签就是嵌入的标记图像所属的标记类别。这样,无需人为标注训练数据,采用多种随机策略模拟真实的标记图像在原始图像中出现的情况,极大地减少了标注训练数据的人力成本和标注效率,进而大大提高了模型训练效率。

关于检测模型训练装置的具体限定可以参见上文中对于检测模型训练方法的限定,在此不再赘述。上述检测模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

图11示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图11所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现检测模型训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行检测模型训练方法。

本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccessmemory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(staticrandomaccessmemory,sram)或动态随机存取存储器(dynamicrandomaccessmemory,dram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1