从视频中获取候选片段的方法、装置及处理设备与流程

文档序号:18103982发布日期:2019-07-06 11:31阅读:239来源:国知局
从视频中获取候选片段的方法、装置及处理设备与流程

本发明涉及动作检测技术领域,尤其是涉及一种从视频中获取候选片段的方法、装置及处理设备。



背景技术:

视频动作检测是指检测目标视频中是否存在特定的目标动作,如果视频中存在特定的目标动作,还需要确定出目标动作发生的起始时间和终止时间。随着视频数量的爆发式增长,视频动作检测被应用在越来越广泛的领域,包括行人监督、自动驾驶、短视频分割等。

由于不同动作的持续时间差别较大且动作的种类繁多,视频动作检测的效果并不理想。现有主流视频动作检测方法均是先产出可能包含动作的片段,然后训练一个分类网络对上述片段进行分类,然而存在以下问题:如果视频的背景和前景相似度较高,导致提取特征的区别能力不强,因此动作边界的定位不准确;分类网络通用能力差,一般是在某个数据集上强行拟合,对其他数据集的分类精度差,需要重新调整参数。

针对现有技术中视频动作检测的上述问题,目前尚未提出有效的解决方案。



技术实现要素:

有鉴于此,本发明的目的在于提供一种从视频中获取候选片段的方法、装置及处理设备,可以产出更精确的候选片段,具有很好的鲁棒性,适用于各种视频动作检测模型。

第一方面,本发明实施例提供了一种从视频中获取候选片段的方法,包括:获取待检测视频;通过预设的相似度算法分别计算所述待检测视频相邻视频帧之间的图像相似度,得到相似度序列;其中,所述相似度序列中的图像相似度的排序与所述视频帧的排序相同;将所述相似度序列中大于第一分割阈值的所述图像相似度作为目标图像相似度;如果多个目标图像相似度在所述相似度序列中的排列顺序连续,将所述多个目标图像相似度对应的视频帧作为所述待检测视频的候选片段。

进一步,所述将所述多个目标图像相似度对应的视频帧作为所述待检测视频的候选片段的步骤,包括:将所述多个目标图像相似度对应的第一张视频帧作为候选片段的起始帧,将所述多个目标图像相似度对应的最后一张视频帧作为候选片段的结束帧;从所述待检测视频中分割出所述起始帧至所述结束帧间的片段,得到候选片段。

进一步,所述相似度序列中的所述图像相似度带有索引标识;所述如果多个目标图像相似度在所述相似度序列中的排列顺序连续,将所述多个目标图像相似度对应的视频帧作为所述待检测视频的候选片段的步骤,包括:判断相邻所述图像相似度的所述索引标识是否连续;如果是,判断连续的所述索引标识是否大于预设数量阈值;

如果大于所述预设数量阈值,将连续的所述索引标识对应的视频帧作为所述待检测视频的候选片段。

进一步,在得到所述候选片段之后,所述方法还包括:将所述候选片段对应的相似度序列中大于第二分割阈值的图像相似度作为细分图像相似度;所述第二分割阈值大于所述第一分割阈值;如果多个细分图像相似度在所述相似度序列中的排列顺序连续,将所述多个细分图像相似度对应的视频帧作为所述候选片段的第一类细分的候选片段;将所述候选片段中被所述细分候选片段分割出的其他片段作为第二类细分的候选片段。

进一步,所述将所述多个细分图像相似度对应的视频帧作为所述候选片段的第一类细分的候选片段的步骤,包括:将所述多个细分图像相似度对应的第一张视频帧作为细分候选片段的起始帧,将所述多个细分图像相似度对应的最后一张视频帧作为细分候选片段的结束帧,分割所述候选片段得到所述细分候选片段。

进一步,在得到所述细分候选片段之后,所述方法还包括:在相邻所述候选片段中分别选择一个所述细分的候选片段;将在前的所述细分候选片段的第一张视频帧作为加长的候选片段的起始帧,将在后的所述细分候选片段的最后一张视频帧作为加长的候选片段的结束帧,分割所述待检测视频得到加长的候选片段。

进一步,所述方法还包括:基于两个所述候选片段与正确标注片段的重叠度,设置排序损失函数;两个所述候选片段与所述正确标注片段的重叠度不同;将所述排序损失函数作为视频动作检测模型的损失函数,并通过所述候选片段对所述视频动作检测模型进行训练。

进一步,所述方法还包括:通过预先配置的视频动作检测模型对所述候选片段进行动作检测。

第二方面,本发明实施例提供了一种从视频中获取候选片段的装置,包括:获取模块,用于获取待检测视频;计算模块,用于通过预设的相似度算法分别计算所述待检测视频相邻视频帧之间的图像相似度,得到相似度序列;其中,所述相似度序列中的图像相似度的排序与所述视频帧的排序相同;查找模块,用于将所述相似度序列中大于第一分割阈值的所述图像相似度作为目标图像相似度;分割模块,用于如果多个目标图像相似度在所述相似度序列中的排列顺序连续,将所述多个目标图像相似度对应的视频帧作为所述待检测视频的候选片段。

第三方面,本发明实施例提供了一种处理设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述方法的步骤。

第四方面,本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述第一方面任一项所述方法的步骤。

本发明实施例提供的从视频中获取候选片段的方法、装置及处理设备,通过预设的相似度算法分别计算待检测视频相邻视频帧之间的图像相似度,得到相似度序列,该相似度序列中的图像相似度的排序与视频帧的排序相同,再将相似度序列中大于第一分割阈值且连续的图像相似度对应的视频帧作为待检测视频的候选片段,上述方法通过相邻视频帧之间的图像相似度及分割策略,可以产出更精确的候选片段,该候选片段具有很好的鲁棒性且适用于各种视频动作检测模型。

本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种处理设备的结构示意图;

图2为本发明实施例提供的一种从视频中获取候选片段的方法的流程图;

图3为本发明实施例提供的使用rankingloss训练模型的过程示意图;

图4为本发明实施例提供的使用ssim序列产生候选片段的过程示意图;

图5为本发明实施例提供的视频动作检测模型的验证结果;

图6为本发明实施例提供的一种从视频中获取候选片段的装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

现有视频动作检测方法中,产出可能包含动作的片段的过程存在以下问题:1.片段的动作边界定位不准确;2.泛化能力差,强行拟合得到的片段无法适用于其他数据集。基于此,本发明实施例提供了一种从视频中获取候选片段的方法、装置及处理设备,以下通过本发明实施例进行详细介绍。

实施例一:

首先,参照图1来描述用于实现本发明实施例的处理设备100,该处理设备可以用于运行本发明各实施例的方法。

如图1所示,处理设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及数据采集器110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的处理设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述处理设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编程逻辑阵列(pla)和asic(applicationspecificintegratedcircuit)中的至少一种硬件形式来实现,所述处理器102可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述处理设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。

所述数据采集器110用于进行数据采集,其中,数据采集器所采集的数据为当前目标的原始数据或目标数据,然后,数据采集器还可以将该原始数据或目标数据存储在所述存储器104中以供其它组件使用。

示例性地,用于实现根据本发明实施例的从视频中获取候选片段的方法的处理设备可以被实现为诸如服务器、智能手机、平板电脑、计算机等智能终端。

实施例二:

本发明实施例提供了一种图像处理方法从视频中获取候选片段的方法,参见图2所示的一种从视频中获取候选片段的方法的流程图,该方法可由前述实施例提供的处理设备执行,该方法可以包括如下步骤:

步骤s202,获取待检测视频。

本实施例提供的从视频中获取候选片段的方法,目的是对待检测视频提取得到多个候选片段(proposals),基于上述候选片段可以对视频进行进一步地动作检测。

步骤s204,通过预设的相似度算法分别计算待检测视频相邻视频帧之间的图像相似度,得到相似度序列。其中,相似度序列中的图像相似度的排序与视频帧的排序相同。

该预设的相似度算法可以用于衡量两张图像的相似程度,在本实施例中即用于衡量视频中相邻两帧图像的图像相似度,通过该图像相似度可以确定相邻两帧图像中是否包含连续动作,从而据此进行后续的视频分割。上述相似度算法例如可以采用均方误差mse(mean-squareerror),结构相似性ssim(structuralsimilarityindex)或者峰值信噪比psnr(peaksignaltonoiseratio)等算法。在计算得到待检测视频所有的相邻两帧图像之间的图像相似度后,将所有相似度按照其对应的图像在视频中出现的顺序排列,可以得到相似度序列。最终得到的相似度序列中的图像相似度的排序与其对应的视频帧的排序相同。

步骤s206,将相似度序列中大于第一分割阈值的图像相似度作为目标图像相似度。

其中,大于第一分割阈值的相似度表示相邻两帧图像中包括连续的动作,小于该第一分割阈值的相似度则表示相邻两帧图像中不包括连续的动作,因此根据上述相似度与第一分割阈值的比较结果即可找出某个动作在视频中的起始图像与结束图像。

步骤s208,如果多个目标图像相似度在相似度序列中的排列顺序连续,将多个目标图像相似度对应的视频帧作为待检测视频的候选片段。

由于上述图像相似度是表示相邻视频帧之间的图像相似程度,多个目标图像相似度在相似度序列中的排列顺序连续,即可确定该多个目标图像相似度对应的视频帧中包含有连续的动作,需要将其对应的视频帧分割出来,从而得到待检测视频的候选片段。

本发明实施例提供的从视频中获取候选片段的方法,通过预设的相似度算法分别计算待检测视频相邻视频帧之间的图像相似度,得到相似度序列,该相似度序列中的图像相似度的排序与视频帧的排序相同,再将相似度序列中大于第一分割阈值且连续的图像相似度对应的视频帧作为待检测视频的候选片段,上述方法通过相邻视频帧之间的图像相似度及分割策略,可以产出更精确的候选片段,该候选片段具有很好的鲁棒性且适用于各种视频动作检测模型。

在得到相似度序列后,可以从中挑选连续的多个图像相似度,并将其对应的视频片段分割出来,即上述候选片段,其中将多个目标图像相似度对应的视频帧作为待检测视频的候选片段,可以按照以下方式执行:将多个目标图像相似度对应的第一张视频帧作为候选片段的起始帧,将多个目标图像相似度对应的最后一张视频帧作为候选片段的结束帧,从待检测视频中分割出起始帧至结束帧间的片段,得到候选片段。由于上述图像相似度是指相邻帧图像之间的相似度,因此每个图像相似度对应于两张图像,因此前述起始帧指目标图像相似度对应的两张图像中的前一张图像,前述结束帧指目标图像相似度对应两张图像中的后一张图像。

为了便于从相似度序列中筛选得到连续的图像相似度,可以为相似度序列中的图像相似度设置索引标识,该索引标识的排序也与视频帧的排序相同,例如可以是帧图像的序号。在确定待检测视频的候选片段时,可以判断相邻图像相似度的索引标识是否连续,以序号为例,则可以判断相邻图像相似度的序号的差值是否为1。如果索引标识是连续,则继续判断连续的索引标识是否大于预设数量阈值,目的是排除连续数量过少的片段对动作检测的不利影响。如果大于预设数量阈值,将连续的索引标识对应的视频帧作为待检测视频的候选片段。

为了得到定位边界更精确的候选片段,还可以对前述得到的每个候选片段继续进行分割,产出更细节的分割片段。因此上述方法还可以包括:

(1)将候选片段对应的相似度序列中大于第二分割阈值的图像相似度作为细分图像相似度,其中第二分割阈值大于第一分割阈值;

(2)如果多个细分图像相似度在相似度序列中的排列顺序连续,将多个细分图像相似度对应的视频帧作为候选片段的第一类细分的候选片段。与前述分割过程类似,可以将多个细分图像相似度对应的第一张视频帧作为细分候选片段的起始帧,将多个细分图像相似度对应的最后一张视频帧作为细分候选片段的结束帧,分割候选片段得到细分候选片段。通过提高分割阈值,从而可以在原有的候选片段中分割出更精细的候选片段,最终提高动作检测的精度。

(3)将候选片段中被细分候选片段分割出的其他片段作为第二类细分的候选片段。在前述步骤(2)中,原有的候选片段中被分割出部分作为了更精细的候选片段,在原有的候选片段中还包括至少一个剩余的其他片段,将该其他片段也分别作为更精细的候选片段。

为了产出不同长度的候选片段,还可以对前述得到的每个候选片段继续进行重新组合,产出长度不同的分割片段。上述方法还可以包括:

(1)在相邻候选片段中分别选择一个细分的候选片段。相邻的两个候选片段中,各自选择一个细分的候选片段,该细分的候选片段在各自对应的候选片段中的位置不限。

(2)将在前的细分的候选片段的第一张视频帧作为加长的候选片段的起始帧,将在后的细分的候选片段的最后一张视频帧作为加长的候选片段的结束帧,分割待检测视频得到加长的候选片段。在将两个细分的候选片段连接到一起时,两者中间的视频帧也被包括仅加长的候选片段。基于细分的候选片段在各自对应的候选片段中的位置不同,可以得到多种长度的候选片段,从而丰富了进行训练或者检测的样本数量。

在得到上述候选片段,可以对视频动作检测模型进行训练或者通过预先配置的视频动作检测模型对候选片段进行动作检测。在训练过程中,为了提高模型的精度,计入了候选片段在待检测视频中的顺序信息,从而区别于真实动作片段重叠度不同的候选片段。基于上述思想,上述方法还包括以下步骤:

(1)基于两个候选片段与正确标注片段的重叠度,设置排序损失函数;两个候选片段与正确标注片段的重叠度不同。(2)将排序损失函数作为视频动作检测模型的损失函数,并通过候选片段对视频动作检测模型进行训练。

现有方法大多数都是使用交叉熵损失训练深度学习模型得到视频动作检测模型,然后对候选片段进行分类,其忽略了候选片段之间的关系信息。对于两个候选片段,由于深度学习模型的精度原因,导致它们的得分都比较高。如果在训练的时候加入候选片段在视频中的顺序信息,使得好的候选片段的得分真的能够比差的候选片段要高很多,这样就可以使得模型的精度大大地提升。在训练模型的时候可以在交叉熵损失的基础上加入排序损失函数(rankingloss)。假设两个候选片段与正确标记的动作片段(ground-truth)的重叠度分别为cp,cq,不失一般性,假设cp>cq,那么在训练的时候可以设置排序损失函数如下:

lrank=max(0,cq-cp+ε)

参见图3所示的使用rankingloss训练模型的过程示意图,其中ψ1、ψ2、ψ3分别是3个不同的候选片段,c1、c2、c3分别表示ψ1、ψ2、ψ3与正确标注片段的重叠度,即模型训练过程中候选片段ψ1、ψ2、ψ3分别对应的得分。,模型训练的目标为如果c1、c2、c3两两进行排序,对应的顺序为c1>c2>c3。

以下实施例以ssim对视频进行分割为例进行说明。在相邻图片之间有很强的关联性,公式如下:

其中x和y表示两张图像,μx和μy是其平均值,σx和σy是其标准差,σxy是两张图片的协方差,c1和c2为常数。ssim比较了两张图片的亮度、对比度和结构相似度。使用ssim相似度序列,可以通过分割策略和融合策略产出丰富的候选片段,具体如下:

(1)分割策略:对ssim序列s使用分割阈值θ产出二值向量。将小于等于分割阈值的相似度设置为向量1,将大于分割阈值的相似度设置为向量0,其中向量1表示候选片段的边界,0表示候选片段的内部。

对相似度的二值向量收集所有为向量1的索引,得到b={i,xi≠0},其中xi来自于b(s,θ)。

(2)融合策略:连接上述向量为1的索引,得到视频的候选片段其中xi来自于b,δ是连通度,t是b的长度。

使用上述分割策略和融合策略可以得到视频的初始候选片段φini。为了更精确的定位边界,对φini中的每个片段继续做分割策略和融合策略,可以得到更细节的候选片段φdet。为了产出不同长度的候选片段,可以根据两个相邻候选片段中的所有边界索引,产出更长的片段φcom,最后可以收集所有的候选片段作为一个视频的最终的候选片段,如下:

φv=φini∪φdet∪φcom

参见图4所示的使用ssim序列产生候选片段的过程示意图,其中初始候选片段例如x10-x20、x30-x40,得到的细分候选片段例如x30-x11、x11-x40,得到的加长候选片段例如x20-x30-x11、x30-x11-x40

结合ssim序列和前述的rankingloss,训练得到的视频动作检测模型,验证结果如图5所示,其产出的结果要远远好于现有方法,在图5的a图及b图中第一行是正确标记的候选片段,第二行是较好的候选片段,第三行是较差的候选片段,从图5中可以看出两者的得分有极大差距,rankingloss成功抑制了较差的候选片段。

实施例三:

对于实施例二中所提供的图像处理方法,本发明实施例提供了一种从视频中获取候选片段的装置,参见图6所示的一种从视频中获取候选片段的装置的结构框图,包括:

获取模块602,用于获取待检测视频;

计算模块604,用于通过预设的相似度算法分别计算待检测视频相邻视频帧之间的图像相似度,得到相似度序列;其中,相似度序列中的图像相似度的排序与视频帧的排序相同;

查找模块606,用于将相似度序列中大于第一分割阈值的图像相似度作为目标图像相似度;

分割模块608,用于如果多个目标图像相似度在相似度序列中的排列顺序连续,将多个目标图像相似度对应的视频帧作为待检测视频的候选片段。

本发明实施例提供的从视频中获取候选片段的装置,通过相邻视频帧之间的图像相似度及分割策略,可以产出更精确的候选片段,该候选片段具有很好的鲁棒性且适用于各种视频动作检测模型。

在一种实施方式中,分割模块还用于:将多个目标图像相似度对应的第一张视频帧作为候选片段的起始帧,将多个目标图像相似度对应的最后一张视频帧作为候选片段的结束帧;从待检测视频中分割出起始帧至结束帧间的片段,得到候选片段。

在另一种实施方式中,相似度序列中的图像相似度带有索引标识;分割模块还用于:判断相邻图像相似度的索引标识是否连续;如果是,判断连续的索引标识是否大于预设数量阈值;如果大于预设数量阈值,将连续的索引标识对应的视频帧作为待检测视频的候选片段。

在一种实施方式中,上述装置还包括细分模块,用于:将候选片段对应的相似度序列中大于第二分割阈值的图像相似度作为细分图像相似度;第二分割阈值大于第一分割阈值;如果多个细分图像相似度在相似度序列中的排列顺序连续,将多个细分图像相似度对应的视频帧作为候选片段的第一类细分的候选片段;将候选片段中被细分候选片段分割出的其他片段作为第二类细分的候选片段。

在另一种实施方式中,上述细分模块还用于:将多个细分图像相似度对应的第一张视频帧作为细分候选片段的起始帧,将多个细分图像相似度对应的最后一张视频帧作为细分候选片段的结束帧,分割候选片段得到细分候选片段。

在一种实施方式中,上述装置还包括加长模块,用于:在相邻候选片段中分别选择一个细分的候选片段;将在前的细分候选片段的第一张视频帧作为加长的候选片段的起始帧,将在后的细分候选片段的最后一张视频帧作为加长的候选片段的结束帧,分割待检测视频得到加长的候选片段。

在一种实施方式中,上述装置还包括训练模块,用于:基于两个候选片段与正确标注片段的重叠度,设置排序损失函数;两个候选片段与正确标注片段的重叠度不同;将排序损失函数作为视频动作检测模型的损失函数,并通过候选片段对视频动作检测模型进行训练。

在一种实施方式中,上述装置还包括检测模块,用于:通过预先配置的视频动作检测模型对候选片段进行动作检测。

本实施例所提供的装置,其实现原理及产生的技术效果和前述实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。

此外,本实施例提供了一种处理设备,该设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的姿势识别方法。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统具体工作过程,可以参考前述实施例中的对应过程,在此不再赘述。

进一步,本实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例提供的方法的步骤。

本发明实施例所提供的一种从视频中获取候选片段的方法、装置及处理设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1