视频处理方法和装置与流程

文档序号:27484691发布日期:2021-11-20 03:02阅读:107来源:国知局
视频处理方法和装置与流程

1.本发明涉及视频处理领域,更具体地,涉及一种端到端边界敏感(end-to-end boundary sensitive(ebs))的视频处理方法和装置。


背景技术:

2.随着科技的进步和社会的发展,智能便携式装置越来越普及,人们使用智能便携式装置拍摄视频也越来越多,每天都有大量的视频被分享到网络上。因此,自动地理解视频内容从而处理这些视频变得非常重要。由于这些视频通常是未经裁剪的,而用户通常只需要视频中的某些片段,因此对视频时域动作定位进行了越来越多的研究,其目标是找出视频中每个动作实例(action instance)的起始时间、终止时间和动作的类别。
3.现有的时域动作定位的方法通常可以分为两类:自上而下(top-down)的方法和自下而上(bottom-up)的方法。自上而下的方法通常利用预定义的视频片段,例如锚点(anchor),来产生动作提名(action proposal),然后给出这些动作提名的类别,其中,动作提名是指可能是动作的视频片段,包括该片段的起始时间和终止时间,动作实例是视频中的动作片段,只有判断对的动作提名才是动作实例。然而,自上而下的方法通常难以得到准确的敏感的动作边界导致定位性能较差。自下而上的方法通常密集地预测每一帧属于动作起始时间和终止时间的可能性,基于不同起始时间和终止时间的组合得到动作提名,对这些动作提名进行验证得到动作实例;接着,利用额外的动作分类器得到这些动作实例的类别。


技术实现要素:

4.根据本发明的示例性实施例,提供了一种视频处理方法,包括:基于视频的时域特征和空域特征,获取视频的第一特征;基于第一特征,获取视频帧属于动作起始时间的概率和属于动作终止时间的概率以及动作提名的置信度;基于视频帧属于动作起始时间的概率和属于动作终止时间的概率、以及动作提名的置信度,获取动作提名。
5.获取第一特征的步骤可包括:基于非线性变换的时域特征和非线性变换的空域特征,获取第一特征。
6.基于非线性变换的时域特征和非线性变换的空域特征,获取第一特征的步骤可包括:a)对空域特征进行不同的非线性变换并将非线性变换结果相加以获取第一空域特征;b)对时域特征进行不同的非线性变换并将非线性变换结果相加以获取第一时域特征;c)将第一空域特征和第一时域特征连接以获取第一特征。
7.可将每次获取的第一特征作为空域特征并将每次获取的第一时域特征作为时域特征,重复执行步骤a)、b)和c)预定数量次。
8.获取视频帧属于动作起始时间的概率和属于动作终止时间的概率的步骤可包括:基于第一特征以及所述视频帧与所述视频的其他所有视频帧之间的相似度,获取所述视频帧属于动作起始时间的概率和属于动作终止时间的概率。
9.获取视频帧属于动作起始时间的概率和属于动作终止时间的概率的步骤可包括:第一特征通过前向转换器和后向转换器,获取所述视频帧属于动作起始时间的概率和属于动作终止时间的概率。
10.所述视频处理方法还可包括:基于第一特征,获取动作提名的特征;基于动作提名的特征,获取动作提名的类别。
11.所述的视频处理方法还可包括:基于动作提名的类别和动作提名,获取动作实例。
12.根据本发明的另一示例性实施例,提供了一种视频处理装置,包括:特征获取单元,基于视频的时域特征和空域特征,获取视频的第一特征;概率和置信度单元,基于第一特征,获取视频帧属于动作起始时间的概率和属于动作终止时间的概率、以及动作提名的置信度;动作提名单元,基于视频帧属于动作起始时间的概率和属于动作终止时间的概率、以及动作提名的置信度,获取动作提名。
13.根据本发明的示例性实施例,提供了一种电子设备,包括存储器和处理器,存储器上存储有计算机可执行指令,当所述指令由处理器执行时,执行前述的方法。
14.根据本发明的示例性实施例,提供了一种计算机可读介质,其上存储有计算机可执行指令,当执行所述指令时,执行前述的方法。
15.将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。
附图说明
16.通过下面结合附图进行的详细描述,本发明的上述和其它目的和特点将会变得更加清楚,其中:
17.图1是示出根据本发明示例性实施例的视频处理方法的流程图;
18.图2是示出根据本发明示例性实施例的视频处理方法的示意图;
19.图3是示出根据本发明示例性实施例的获取第一特征的流程图;
20.图4是示出根据本发明示例性实施例的获取第一特征的示意图;
21.图5是示出根据本发明示例性实施例的获取概率的流程图;
22.图6是示出根据本发明示例性实施例的获取概率的示意图;
23.图7示出了采用卷积原型层进行分类的示意图;
24.图8是示出根据本发明示例性实施例的视频处理装置的框图;
25.图9是示出根据本发明示例性实施例的时域动作定位的用户场景的示意图。
具体实施方式
26.现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
27.提出了根据本发明的示例性实施例的端到端边界敏感的时域动作定位。该端到端边界敏感的时域动作定位同样为自下而上的时域动作定位,其中,使用它们的起始时间和终止时间产生了许多动作提名。为了整合时域上下文信息,添加将时域和空域特征融合模块和双向转换器以分别对动作提名的起始时间和终止时间进行预测。同时,添加基于原型学习的动作分类分支,使根据本发明的示例性实施例的方法可被端到端地训练并排除未知
动作。随着越来越多的人使用智能电话来拍摄照片,根据本发明的示例性实施例的方法在帮助用户智能地拍摄和编辑视频方面(诸如,自动地选择不同模式以单拍来拍摄视频、在较长的未经整理的视频中选择用户期望的视频片段用于分享,等等)具有极大的商业价值。
28.图1是示出根据本发明示例性实施例的视频处理方法的流程图,图2是示出根据本发明示例性实施例的视频处理方法的示意图,下面将参照图1和图2对根据本发明示例性实施例的视频处理方法进行描述。在端到端边界敏感时域动作定位方法中,同时产生局部的动作起始时间和终止时间的概率、全局的动作提名的置信度以及动作的类别。如图2所示,端到端边界敏感时域动作定位方法可包括特征提取、时空特征融合、带双向转换器的时域评价、边界匹配、提名评价进而动作分类。
29.参照图1,在步骤s110,可基于视频的时域特征和空域特征来获取视频的第一特征。这里,仅作为示例而非限制,可采用与边界匹配网络相同的特征提取方法来获取视频的时域特征和空域特征,即,分别提取时域(诸如,光流)和空域(诸如,rgb)两个分支的特征。更具体地,可基于非线性变换的时域特征和非线性变换的空域特征来获取第一特征。也就是说,可基于对时域特征和空域特征的非线性变换来获取第一特征。这里,仅作为示例而非限制,可通过卷积来对时域特征和空域特征进行非线性变换。下面将参照图3和图4对其进行更详细地描述。
30.图3是示出根据本发明示例性实施例的获取第一特征的流程图,图4是示出根据本发明示例性实施例的获取第一特征的示意图。
31.为了捕捉视频中的微小动作变化,可使用针对基本模型的宽窄模型(wide-narrow model)以对原始特征进行处理,这里,宽窄模型可表示对空域特征进行小卷积核的操作,对时域特征进行大卷积核的操作。参照图3,在步骤s310,可对空域特征进行不同的非线性变换并将非线性变换结果相加以获取第一空域特征。更具体地,在特征提取后可获取视频的时域特征和空域特征,它们的大小均为c*t,其中,c是特征通道数量,t是视频帧数;可对空域特征分别进行大小为1*1和1*3的两种卷积得到两个c*t的卷积结果,然后将这两个卷积结果相加以获取c*t的第一相加空域特征。这里,应了解上述进行两种卷积仅为示例而非限制,进行的卷积不限于两种并且大小也不限于1*1和1*3。
32.在步骤s320,可对时域特征进行不同的非线性变换并将非线性变换结果相加以获取第一时域特征。更具体地,可对时域特征分别进行大小为1*5、1*7和1*9的三种卷积得到三个b*c*t的卷积结果,然后将这三个卷积结果相加以获取b*c*t的第一相加时域特征,其中,b为小于1的预定常数,仅作为示例而非限制,这里可以取0.25。这里,应了解上述进行三种卷积仅为示例而非限制,进行的卷积不限于三种并且大小也不限于1*5、1*7和1*9。
33.在步骤s330,可将第一空域特征和第一时域特征连接以获取(1+b)c*t的第一特征。
34.另外,可将每次获取的第一特征作为空域特征并将每次获取的第一时域特征作为时域特征,重复执行步骤s310、s320和s330预定数量次以获取最终特征,这里,仅作为示例而非限制,可重复执行步骤s310、s320和s330一次,如图4所示。由于采用不同大小的卷积核进行处理,故可覆盖不同长度的动作实例。
35.在特征提取之后,获得了视频的时域特征和空域特征,这两种特征的大小均为c*t。取代于直接将它们连接作为后面步骤的输入,这里使用了宽窄方式将它们融合,以更好
地捕捉视频中不同持续时间的动作。
36.返回图1,在步骤s120,可基于第一特征来获取视频帧属于动作起始时间的概率和属于动作终止时间的概率、以及动作提名的置信度。更具体地,可基于第一特征以及所述视频帧与所述视频的其他所有视频帧之间的相似度,获取所述视频帧属于动作起始时间的概率和属于动作终止时间的概率。这里,第一特征可通过前向转换器和后向转换器来获取所述视频帧属于动作起始时间的概率和属于动作终止时间的概率。下面将参照图5和图6对获取视频帧属于动作起始时间的概率和属于动作终止时间的概率的步骤进行更详细地描述。
37.图5是示出根据本发明示例性实施例的获取概率的流程图,图6是示出根据本发明示例性实施例的获取概率的示意图。
38.考虑到动作是时域连续的,时域上下文信息对于预测动作的起始时间和终止时间非常重要,为了融合时域上下文信息以准确地对视频中的动作的起始时间和终止时间进行预测,因此,本发明实施例可采用转换器。同时,考虑到一个动作的起始时间只跟后面的时间可能属于同一动作,而一个动作的终止时间只可能跟前面的时间可能属于同一动作,在加入转换器时采用双向转换器,即,前向转换器和后向转换器。考虑到动作与起始时间/终止时间之间的时域关系,前向转换器只考虑当前时间和后续时间的关系,用来预测动作的起始时间,后向转换器只考虑当前时间和前面时间的关系,用来预测动作的终止时间。
39.换句话说,考虑到动作是时域连续的,时域上下文信息对于预测动作的起始时间和终止时间非常重要。因此,根据起始时间和终止时间的特征,增加了双向转换器。其中,前向转换器可学习起始时间与随后的时间之间的关系信息,后向转换器可学习终止时间与先前的时间之间的关系信息。
40.参照图5,在步骤s510,可将第一特征x(诸如,在步骤s330获取的(1+b)c*t的第一特征)输入前向转换器和后向转换器以获取第一转换特征和第二转换特征。更具体地,参照图6,可将第一特征x经过三种不同的线性变换分别得到q、k、v(应注意,这里三种线性变换仅为示例而非限制,可采用更多或更少数量的线性变换),其中,以q为例线性变换的公式为q=xw,w为权重,对于这三种变换权重w是不同的,可通过训练获得。可通过q、k、v的上述变换获得时域上下文信息。此外,图6中的d表示上三角单位矩阵和下三角单位矩阵。随后,可以通过以下公式获得前向转换器和后向转换器的输出。
[0041][0042][0043]
其中,d
f
表示上三角单位矩阵,d
b
表示下三角单位矩阵,d
k
是k的特征通道数量,q
t
表示q的转置。
[0044]
在步骤s520,可将第一特征x分别与第一转换特征和第二转换特征相加,将两个相加结果进行预定数量次卷积以获取视频帧属于动作起始时间的概率和属于动作终止时间的概率。更具体地,仅作为示例而非限制,可将两个相加结果进行3*3卷积和1*1卷积,得到1*t和1*t的两个分支,以分别预测帧属于动作起始时间的概率和属于动作终止时间的概率。
[0045]
这里,基于双向转换器,可利用动作的起始时间、终止时间和其他时间的关系,通过时域上下文信息提高边界定位准确率。
[0046]
返回图1,在步骤s130,可基于视频帧属于动作起始时间的概率和属于动作终止时间的概率、以及动作提名的置信度来获取动作提名。
[0047]
此外,作为可选步骤,在步骤s140,可基于第一特征来获取动作提名的特征,并基于动作提名的特征来获取动作提名的类别。这里,可将第一特征输入边界匹配网络的边界匹配层来获取与动作提名的特征,并且基于动作提名的特征来获取动作提名的类别的步骤可包括将动作提名的特征输入预定数量的卷积层、全连接层和卷积原型层。此外,步骤s120中基于第一特征来获取动作提名的置信度的步骤可进一步包括:基于第一特征来获取动作提名的特征,并基于动作提名的特征来获取动作提名的置信度。这里,可将动作提名的特征输入与边界匹配网络相同的提名评价模块。
[0048]
更具体地,本发明的实施例通过动作分类来预测动作提名的类别,使得可以得到端到端的时域动作定位的结果。步骤s140中的动作提名的特征c
′×
m
×
t
×
t(其中,c’表示特征通道的数量,m为常数,仅作为示例而非限制,这里可取32)表示起始时间为0~t并且终止时间为0~t的动作提名的特征为c
′×
m,可将动作提名的特征输入两个3*3卷积层、一个全连接层和一个卷积原型层以输出动作提名的类别。
[0049]
换句话说,本发明的实施例添加用于动作提名的类别的动作分类分支,边界匹配网络的输出尺寸是c
′×
m
×
t
×
t,即具有起始时间为0~t并且终止时间为0~t的所有动作提名以大小为c
′×
m的特征矢量表示。这些特征可通过数个卷积层和全连接层处理,来输出动作类别。同时,由于在日常生活中动作的类别是多种多样的,很难用一个数字来代表所有的类别,为了解决未知类别问题并提高动作分类的鲁棒性,采用卷积原型层(convolutionalprototype layer)来代替softmax层,卷积原型层示出了针对排除和增加类别学习任务的显著优点。
[0050]
如图7所示,图7示出了采用卷积原型层进行分类的示意图。假设输入x的特征为f(x,θ),θ表示获取时域特征和空域特征时所使用的参数,m
ij
,i∈[1,2,...,h],j∈[1,2,...,p],代表有h个动作类别,每个类别有p个原型,那么可通过以下等式获得分类结果(即,gi(x)与原型之间的相似性),如果一个输入对于所有类别的相似性都小于预定阈值,则可将该输入确定为未知类别。
[0051][0052][0053]
其中,m
ij
表示通过训练获得的每个类别的原型。
[0054]
在步骤s150,可基于动作提名的类别和动作提名来获取动作实例。
[0055]
图8是示出根据本发明示例性实施例的视频处理装置的框图。
[0056]
如图8所示,根据本发明示例性实施例的视频处理装置可包括特征获取单元810、概率和置信度获取单元820和动作提名单元830。
[0057]
特征获取单元810可基于视频的时域特征和空域特征,获取视频的第一特征。
[0058]
概率和置信度获取单元820可基于第一特征,获取视频帧属于动作起始时间的概率和属于动作终止时间的概率、以及动作提名的置信度。
[0059]
动作提名单元830可基于视频帧属于动作起始时间的概率和属于动作终止时间的概率、以及动作提名的置信度来获取动作提名。
[0060]
此外,根据本发明示例性实施例的视频处理装置还可包括其它单元来分别实现与上述根据本发明示例性实施例的视频处理方法的其它步骤相应的功能,在此不再赘述。
[0061]
此外,根据本发明的示例性实施例,还可提供一种电子设备,包括存储器和处理器,存储器上存储有计算机可执行指令,当所述指令由处理器执行时,执行前述的方法。根据本发明的示例性实施例,还可提供一种计算机可读介质,其上存储有计算机可执行指令,当执行所述指令时,执行前述的方法。
[0062]
根据本发明的示例性实施例,可提供一种端到端的边界敏感的视频时域动作定位的方法。利用该方法,可对未经修剪的视频中的动作进行定位,这可用于singletake或视频编辑,从而实现商用化。图9是示出根据本发明示例性实施例的时域动作定位的用户场景的示意图。例如,如图9所示,如果检测到“跳跃”动作,则自动开启相机的慢动作模式来捕捉图像。
[0063]
根据本发明,在电子设备的视频处理方法中,用于视频处理的方法可以通过将图像数据作为人工智能模型的输入数据来获得视频处理的输出数据。
[0064]
人工智能模型可以通过训练获得。这里,“通过训练获得”是指通过训练算法训练具有多个训练数据的基本人工智能模型,从而获得预定义的操作规则或人工智能模型,所述操作规则或人工智能模型配置为执行所需的特征(或目的)。
[0065]
人工智能模型可以包括多个神经网络层。所述多个神经网络层中的每一个包括多个权重值,并且通过在前一层的计算结果和所述多个权重值之间的计算来执行神经网络计算。
[0066]
视觉理解与人类视觉一样,是一种识别和处理事物的技术,包括例如物体识别、物体跟踪、图像检索、人类识别、场景识别、三维重建/定位或图像增强。
[0067]
根据本发明的示例性实施例的多个单元或模块中的至少一个可以通过ai模型实现。与ai相关联的功能可以通过非易失性存储器、易失性存储器和处理器来执行。
[0068]
处理器可以包括一个或多个处理器。此时,一个或多个处理器可以是通用处理器,例如中央处理器(cpu)、应用处理器(ap)等,仅用于图形的处理器(例如图形处理器(gpu)、视觉处理器(vpu)和/或ai专用处理器(例如神经处理单元(npu))。
[0069]
一个或多个处理器根据存储在非易失性存储器和易失性存储器中的预定义操作规则或人工智能(ai)模型来控制输入数据的处理。预定义的操作规则或人工智能模型是通过训练或学习提供的。
[0070]
这里,通过学习提供意味着,通过将学习算法应用于多个学习数据,形成具有期望特性的预定义操作规则或ai模型。学习可以在根据实施例的执行ai的设备本身中执行,和/或可以通过单独的服务器/系统来实现。
[0071]
人工智能模型可以由多个神经网络层组成。每一层具有多个权重值,并且通过前一层的计算和多个权重的操作来执行层操作。神经网络的例子包括但不限于卷积神经网络(cnn)、深神经网络(dnn)、递归神经网络(rnn)、受限玻尔兹曼机(rbm)、深信念网络(dbn)、双向递归深神经网络(brdnn)、生成性对抗网络(gan)和深q网络。
[0072]
学习算法是使用多个学习数据来训练预定目标设备(例如,机器人)以使得、允许
或控制目标设备做出确定或预测的方法。学习算法的例子包括但不限于有监督学习、无监督学习、半监督学习或强化学习。
[0073]
根据本发明的示例性实施例,能够同时得到局部的动作起始时间和终止时间的概率、全局的动作提名的置信度以及动作的类别;通过在时空特征融合处理中将视频的时域特征和空域特征融合为第一特征并采用不同的非线性变换进行处理,可覆盖不同长度的动作实例;通过在时域评价处理中利用动作的起始时间、终止时间和其他时间的关系,加入双向转换器,通过时域上下文信息提高了边界定位准确率;通过在边界匹配处理后进行动作分类处理,使得可得到动作的类别,成为一个端到端的时域动作定位方法;此外,由于在日常生活中动作的类别是多种多样的,很难用一个数字来代表所有的类别,因此,通过采用卷积原型层还可识别出未知类别,即自动将未知类别判断为其他类。
[0074]
虽然已经参照特定示例性实施例示出和描述了本发明,但是本领域的技术人员将理解,在不脱离范围由权利要求及其等同物限定的本发明的精神和范围的情况下可作出形式和细节上的各种改变。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1