基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法与流程

文档序号:31343794发布日期:2022-08-31 11:14阅读:82来源:国知局
基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法与流程

1.本发明属于计算机视觉技术领域,具体涉及一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法、系统、电子设备及存储介质。


背景技术:

2.近来,基于深度学习的视频表示学习方法取得了较快的发展,并涌现了较多经典的方法,如two-stream(双流卷积神经网络),通过对视频序列中相邻两帧计算密集光流,得到密集光流的序列(提取时间信息),然后对视频rgb图像(空间信息)和密集光流(时间信息)分别训练卷积网络模型,两个分支的网络分别对动作进行建模,最后,直接将两个网络的分类得分进行融合,得到最终的分类结果。如c3d(convolutional 3d),通过3d卷积层对输入的连续的16帧彩图图像进行时空维度上的卷积操作,去提取视频数据的时间和空间特征;如伪三维残差神经网络(pseudo-3d residual networks,p3d),通过将3d卷积拆分为一个3*1*1的1d时间卷积核和一个1*3*3的2d空间卷积,来降低纯3d卷积的计算量和复杂度;有效地解决了c3d-net随着网络深度增加参数和计算量激增的问题。
3.但是,现有的视频表示学习方法仍然存在以下弊端:因为训练数据集和测试数据集是相同分布的,即所有样本来自同一数据集;而对于跨域任务,即在训练和测试样来自不同的数据集的场景中,则不能很好的消除样本的数据分布差异,从而导致模型的分类效果下降。
4.跨域任务在图像领域已经有了较成熟的应用,但是,因为图像识别缺少动作识别中必须要考虑的时序信息,因此,图像领域的跨域方法无法直接应用于在动作识别领域中。
5.因此,亟需一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法。


技术实现要素:

6.本发明提供一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法、系统、电子设备及存储介质,用以克服现有技术中存在的至少一个技术问题。
7.为实现上述目的,本发明提供一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,方法包括:
8.将源域数据集和目标域数据集的样本输入特征提取器网络;特征提取器网络包括权值弱共享的双链2d卷积网络和权值完全共享的双链3d卷积网络;其中,通过权值弱共享的双链2d卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3d卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取;
9.将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特
征;
10.将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别;其中,双域鉴别器网络和分类器网络利用损失函数进行训练。
11.进一步,优选的,权值弱共享的双链2d卷积网络包括源域2d卷积网络和目标域2d卷积网络;源域2d卷积网络和目标域2d卷积网络均包括多个由卷积层、域条件归一化层和卷积层组成的三层结构;源域2d卷积网络的域条件归一化层由两个批归一化层并列组成,所述两个批归一化层分别为对源域样本进行归一化的源域批归一化层和对目标域样本进行归一化的目标域批归一化层;
12.其中,通过域条件归一化层对输入的样本进行判断;
13.若所输入的样本为源域样本,则将样本数据输入至源域批归一化层;
14.若所输入的样本为目标域样本,则将样本数据输入至目标域批归一化层。
15.进一步,优选的,域条件归一化层通过以下公式实现:
[0016][0017][0018]
其中,γd和βd表示特定于每个域d∈{s,t}的仿射参数,表示特定于每个域d∈{s,t}的仿射参数,表示属于域标签d的每个通道上的激活值;μd表示激活值的均值,表示激活值的方差。
[0019]
进一步,优选的,在将源域数据集和目标域数据集的样本输入特征提取器网络之前,还包括利用two-stream的下采样方法对源域数据集和目标域数据集中的动作视频进行下采样,方法包括:
[0020]
将源域数据集和目标域数据集中的每个动作样本的视频按照设定数值进行分段;
[0021]
在每段动作视频中随机抽取一帧的帧图像;将设定数值的帧图像作为动作样本的表示。
[0022]
进一步,优选的,利用损失函数对双域鉴别器网络进行训练的方法,包括:
[0023]
对双域鉴别器网络的每个域鉴别器的权值进行随机初始化,且两个域鉴别器之间不共享权值;
[0024]
对每个域鉴别器对源域样本和目标域样本的域鉴别损失进行不同的加权,以使两个域鉴别器对源域样本和目标域样本的鉴别产生不同的权重。
[0025]
进一步,优选的,单个域鉴别器对单个域样本的域鉴别损失通过以下公式实现:
[0026][0027]
其中,yi表示第i个样本的域标签,为域鉴别器对域d∈{s,t}第个i特征的预测值;是对预测值取对数操作。
[0028]
进一步,优选的,双域鉴别器网络和分类器网络利用损失函数进行训练中,损失函数通过以下公式实现:
[0029]
l=β(l
dis1
+l
dis2
)+γl
cls
[0030]
其中,l
dis1
和l
dis2
分别为双域鉴别器网络中每个鉴别器对所有域样本的鉴别损失;l
cls
表示分类器网络的损失;β,γ表示损失函数超参数。
[0031]
为了解决上述问题,本发明还提供一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统,包括:
[0032]
特征提取单元,用于将源域数据集和目标域数据集的样本输入特征提取器网络;特征提取器网络包括权值弱共享的双链2d卷积网络和权值完全共享的双链3d卷积网络;其中,通过权值弱共享的双链2d卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3d卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取;
[0033]
域适应优化单元,用于将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征;
[0034]
分类单元,用于将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别;其中,双域鉴别器网络和分类器网络利用损失函数进行训练。
[0035]
为了解决上述问题,本发明还提供一种电子设备,电子设备包括:
[0036]
存储器,存储至少一个指令;及
[0037]
处理器,执行存储器中存储的指令以实现上述的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法中的步骤。
[0038]
本发明还保护一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法。
[0039]
本发明的一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法、系统、电子设备以及存储介质,具有有益效果如下:
[0040]
1)通过弱共享的双链结构,更高效地提取每个域的有效特征,有助于提高基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别模型的泛化能力;
[0041]
2)样本经过差异化的双域鉴别器与特征提取器形成对抗训练,可以得到更具有判别性的,域不变性的特征;
[0042]
3)本发明的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法在不使用目标域标签信息进行训练的情况下,在多个目标域数据集上都能取得高效的动作识别性能。
附图说明
[0043]
图1为根据本发明实施例的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法的流程示意图;
[0044]
图2为根据本发明实施例的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法的原理示意图;
[0045]
图3为根据本发明实施例的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统的逻辑结构框图;
[0046]
图4为根据本发明实施例的实现基于多鉴别器协同和强弱共享机制的无监督跨域
视频动作识别方法的电子设备的内部结构示意图。
[0047]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0048]
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0049]
本技术实施例可以基于人工智能技术和计算机视觉技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0050]
计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
[0051]
具体的,作为示例,图1为本发明一实施例提供的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法的流程示意图。参照图1所示,本发明提供一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,包括步骤s110~s130。
[0052]
具体地说,s110、将源域数据集和目标域数据集的样本输入特征提取器网络;特征提取器网络包括权值弱共享的双链2d卷积网络和权值完全共享的双链3d卷积网络;其中,通过权值弱共享的双链2d卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3d卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取;s120、将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征;s130、将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别;其中,双域鉴别器网络和分类器网络利用损失函数进行训练。
[0053]
图2为根据本发明实施例的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法的原理示意图;如图2所示,针对在现有技术的跨域任务场景中,对于训练和
测试样来自不同的数据集时无法有效地解决跨域任务,以及使用无标签目标数据集时,模型容易过度拟合到源域数据集的问题。本发明的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,将源域数据集和目标域数据集分别输入到本发明的模型的两条链中。
[0054]
因为动作识别任务需要同时建模时间信息和空间信息,因此本模型的两条链采用2d+3d的网络结构;其中,在对动作样本的视频帧分别进行2d卷积的空间信息提取后,再将所有帧的特征整合作为一个视频样本输入到3d卷积中提取时空信息。为了2d卷积块和3d卷积块的双链网络结构有所区别,在2d卷积部分,卷积层的权值是相同的,归一化层的权值是不同的,实现弱共享的结构;是为了考虑属于每个数据集的之间的差异性,完全共享权值的特征提取层难以同时捕获两个域的有效信息,因此将2d卷积部分通过归一化层的权值不同,实现弱共享结构;另外,考虑到动作样本在时序信息上的域差异性相对于空间信息的域差异来说很小,并不需要分别去进行适应,在3d卷积块的部分,源域的3d卷积模块与目标域的3d卷积模块是完全共享权值的。
[0055]
最后,使用域鉴别器对数据样本进行自监督的对抗学习是跨域任务的一个经典方法。但考虑到常规方法所采用的单个域鉴别器在对抗优化的过程中可能不能全面的鉴别出特定于域的信息,即在每次的对抗过程中,单个域鉴别器可能会忽略掉部分特定于域的信息。因此,本发明考虑使用两个差异化的域鉴别器分别进行域鉴别;同时对双域鉴别器对源域和目标域样本的鉴别损失应用不同的超参数。让两个域鉴别器对源域和目标域的鉴别能力产生不同的偏重;使其在对抗的过程中更全面的优化特征提取网络提取更多的具有域不变性的特征。
[0056]
本发明的网络模型要实现的功能有两个,第一个功能是在双链网络中实现源域和目标域的域适应,混淆不同域的数据分布,使模型提取更多具有域不变性的特征;因此,在经过2d和3d卷积提取特征的基础上,使用域鉴别器对特征的来源进行鉴别(即鉴别该特征来自源域还是目标域),通过域鉴别器和卷积特征提取层形成对抗,域鉴别器要尽量鉴别出特征来自源域还是目标域,特征提取层尽量提取出能够混淆域鉴别器的特征,以达到提取具有域不变性的特征的目的。第二个功能是动作识别分类,虽然通过对抗的方法能够使得所学特征具有一定的泛化性,但是特征的鲁棒性和区分性有待加强,并且特征提取层也需要优化学习提取更有用的动作特征;因此,使用交叉熵损失函数(celoss)对源域特征进行分类,这样可以使网络特征具有更好的区分性。
[0057]
在具体的实施过程中,基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法包括步骤s110~s130。
[0058]
s110、将源域数据集和目标域数据集的样本输入特征提取器网络;特征提取器网络包括权值弱共享的双链2d卷积网络和权值完全共享的双链3d卷积网络;其中,通过权值弱共享的双链2d卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3d卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取。
[0059]
需要说明的是,源域中的数据实例通常被标记(以为源模型提供标记训练数据),而目标域中的数据实例被部分标记(半监督域适配)或根本不标记(无监督域适配)。域适配的目的是寻求利用源模型的各方面来训练目标模型。也就是说,将有动作分类标签的动作
样本集作为源域数据集,将无动作分类标签的动作样本集作为目标域数据集。
[0060]
常用动作识别方法的训练集和测试集都是从同一数据集划分的,无法有效地解决跨域问题;本发明解决了不同动作数据集之间数据分布不一致的问题,并且解决了目标数据集训练数据集无标签的情况下的跨域动作识别问题,通过使用源域数据集的信息和目标域无标签训练集的信息,实现了对目标域测试集的准确识别。在具体的实施过程中,可以但不限制于采用的数据集包括ucf

olympic和ucf

hmdb full。ucf

olympic:有6个来自ucf50和olympic数据集的共享类,总共包含来自ucf50数据集的601个训练视频和240个测试视频,以及来自olympic-sport的250个训练样本和54个测试样本。ucf

hmdb full:分别有来自ucf101和hmdb51的12个共享类别,总共包含来自ucf101数据集的1552个训练视频和620个测试视频,以及来自hmdb51的840个训练视频和360个测试视频。
[0061]
由于视频动作样本的帧图像较多,因此可以采用抽帧的方式代表整个视频样本,可以但不限制与采用two-stream经典论文的下采样方法。
[0062]
具体地说,在将源域数据集和目标域数据集的样本输入特征提取器网络之前,还包括利用two-stream的下采样方法对源域数据集和目标域数据集中的动作视频进行下采样,方法包括:将源域数据集和目标域数据集中的每个动作样本的视频按照设定数值进行分段;在每段动作视频中随机抽取一帧的帧图像;将设定数值的帧图像作为动作样本的表示。需要说明的是,设定数值是根据实际的应用场景中的需求设定的,可以是4~15份。在本实施例中,设定数值为8。具体地说,将每个动作样本的视频分成八份,每份随机抽一帧,将这八帧图像作为一个动作样本的表示。这样做的优点是可以避免输入大量的帧来表示长时间动作,减少了模型训练参数的同时也能获得很好的识别结果。同时,对帧图像进行常规的数据增强,即将视频帧进行中心裁剪,随机水平翻转和归一化处理。在测试时,仅对帧图像进行裁剪区域为(224 224)的中心裁剪;网络的输入尺寸为8*224*224*3,8是视频抽取的帧数,3是rgb图片通道数,224是帧的宽和高。
[0063]
需要说明的是,two-stream(双流卷积神经网络)基本原理为,对视频序列中每两帧计算密集光流,得到密集光流的序列(即时间信息),然后对视频图像(空间信息)和密集光流(时间信息)分别训练卷积网络模型,两个分支的网络分别对动作的类别进行判断,最后直接将两个网络的分类得分进行融合,得到最终的分类结果。
[0064]
将上述处理获得的每个动作样本的8个帧图像样本作为本发明的网络模型的输入。特征提取器网络包括权值弱共享的双链2d卷积网络和权值完全共享的双链3d卷积网络。需要说明的是,因为双链网络的输入是数据对,非常适合处理数据相似性问题、数据分布问题和迁移学习问题,能够将任何神经网络当作双链网络的基础网络。但是,对于常规的双链网络来说,双链一般是权值完全共享的,即两条链是完全相同的,目的是让双链提取的特征更相似,然而这样的结构没有考虑属于每个数据集的之间的差异性,完全共享权值的特征提取层难以同时捕获两个域的有效信息。另外,由于目标域没有标签,如果完全共享权值,特征提取器在优化的过程中很可能偏向于提取更多的源域特征,而忽略目标域的有用特征;而使用双链弱共享结构就是通过双链的权值不完全共享,使两条链能够适应不同数据集,分别提取各个域的有用特征,且让目标域特征提取链尽量少的受到源域样本分类损失的影响。
[0065]
通过权值弱共享的双链2d卷积网络分别对源域数据集以及目标域数据集进行源
域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3d卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取。在具体的实施过程中,resnet-50深度神经网络作为双链网络的空间特征提取器。由于resnt-50的残差网络结构能够解决在网络层数加深的过程中出现的梯度消失问题,除此之外,残差网络不仅能够取得很好的效果,并且参数量较小,易于训练,能够抽取出鲁棒的空间信息;因为空间信息已经由resnet网络提取出来,3d时空特征提取层的重点是进一步提取出时间信息,因此,时空特征提取器采用两个卷积核为3*1*3和3*3*1的3d卷积层叠加,对一个视频样本所抽取的8帧图像提取出的8份空间特征在时间通道上进行融合,并提取时空特征。
[0066]
权值弱共享的双链2d卷积网络包括源域2d卷积网络和目标域2d卷积网络;源域2d卷积网络和目标域2d卷积网络均包括多个由卷积层、域条件归一化层和卷积层组成的三层结构。需要说明的是,这里的多个是两个以上,具体的数量根据应用场景进行设置,并不做具体的限制。源域2d卷积网络的域条件归一化层由两个批归一化层并列组成,两个批归一化层分别为对源域样本进行归一化的源域批归一化层和对目标域样本进行归一化的目标域批归一化层;其中,通过域条件归一化层对输入的样本进行判断;若所输入的样本为源域样本,则将样本数据输入至源域批归一化层;若所输入的样本为目标域样本,则将样本数据输入至目标域批归一化层。
[0067]
具体地说,resnet-50深度神经网络主要是由卷积层和批归一化层叠加而成。本发明的双链弱共享结构主要是通过对resnet-50深度神经网络的批归一化层进行修改实现的。主要是将resnet-50深度神经网络的所有批归一化层替换为域条件归一化层,域条件归一化层是包含了两个常规批归一化层的结构,分别是源域批归一化层和目标域批归一化层;域条件归一化层会对输入的样本进行判断,若样本为源域样本,则将样本数据输入到源域批归一化层,若样本为目标域样本,则将样本数据输入到目标域批归一化层;之后在将源域和目标域样本输入到相同权值的卷积层中进行卷积;通过这样的修改,就得到了权值弱共享的双链结构。
[0068]
域条件归一化层通过以下公式实现:
[0069][0070][0071]
其中,γd和βd表示特定于每个域d∈{s,t}的仿射参数,表示特定于每个域d∈{s,t}的仿射参数,表示属于域标签d的每个通道上的激活值;μd表示激活值的均值,表示激活值的方差。
[0072]
μd表示激活值的均值通过以下公式获取:
[0073][0074]
表示激活值的方差通过以下公式获取:
[0075][0076]
总之,选择弱共享的结构而不是完全共享的双链结构,主要是由于源域和目标域
有一定的差异,完全共享的双链结构很难将两个域的有用信息同时提取出来,同时由于目标域训练样本没有标签信息对双链进行优化,因此网络很可能会因为源域样本的分类损失优化而偏向于提取更多的源域有用信息,而忽略目标域的有用信息,而采用弱共享的结构,就能分别提取每个域的有用信息,且让目标域特征提取链尽量少的受到源域样本分类损失的影响。
[0077]
s120、将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征。
[0078]
需要说明的是,鉴别器用于生成对抗网络(gan),并且包括用于根据所接收的特征表示z来训练指示特定数据项是否与源域或某个其他域(例如,目标域)相关联的数据的计算模型。鉴别器的目的是通过上述对抗性学习将源特征与目标特征分离。作为计算模型,鉴别器可以包括一组参数或权重,该参数或权重可以根据作为例如梯度下降算法的一部分的对抗性损失函数来被迭代地适配(训练)以减小或最小化对抗性损失函数。随着训练迭代地进行,通过对预测值的了解,鉴别器可以被迭代地更新以改进源特征和目标特征的分离。此外,通过乘以负1来反转梯度,可以获取表示特征损失的反向梯度。
[0079]
具体地说,在本实施例中,使用域鉴别器对数据样本进行自监督的对抗学习是跨域任务的一个经典方法。通过域鉴别器对特征提取器提取的时空特征进行鉴别,通过特征里包含的特定域的信息判断特征来自源域还是目标域,同时特征提取器提取出更具有域不变性的特征用以混淆域鉴别器,就形成了对抗过程。但考虑到常规方法所采用的单个域鉴别器在对抗优化的过程中可能不能全面的鉴别出特定于域的信息,即在每次的对抗过程中,单个域鉴别器可能会忽略掉部分特定于域的信息,本发明通过使用两个差异化的域鉴别器同时对样本特征进行域鉴别,以求在对抗训练过程中,更全面的发现和剔除特定于域的信息,达到更全面的优化网络,使网络提取更多的具有域不变性的特征的目的。
[0080]
利用损失函数对双域鉴别器网络进行训练的方法,包括:对双域鉴别器网络的每个域鉴别器的权值进行随机初始化,且两个域鉴别器之间不共享权值;对每个域鉴别器对源域样本和目标域样本的域鉴别损失进行不同的加权,以使两个域鉴别器对源域样本和目标域样本的鉴别产生不同的权重。
[0081]
也就是说,双域鉴别器的差异化主要有两方面组成,一是对双域鉴别器权值进行随机初始化,且不共享权值;二是对每个域鉴别器对源域和目标域样本的域鉴别损失进行不同的加权,使两个域鉴别器对源域和目标域样本的鉴别产生不同的偏重,即让一个域鉴别器偏重于对源域样本进行域鉴别,另一个域鉴别器偏重于对目标域样本进行域鉴别。
[0082]
在双链网络中实现源域和目标域的域适应,混淆不同域的数据分布,使模型产生具有域不变性的特征;这部分功能主要由双域鉴别器模块完成。双域鉴别器模块的损失函数为二分类交叉熵损失(bceloss)。单个域鉴别器对单个域样本的域鉴别损失通过以下公式实现:
[0083][0084]
其中,yi表示第i个样本的域标签,为域鉴别器对域d∈{s,t}第个i特征的预测
值;是对预测值取对数操作。
[0085]
每个域鉴别器对所有域样本的鉴别损失定义为:
[0086][0087][0088]
其中,l
dis1
和l
dis2
分别为双域鉴别器网络中每个鉴别器对所有域样本的鉴别损失;α为超参数,用以对每个域鉴别器对源域和目标域样本的域鉴别损失进行不同的加权,使两个域鉴别器对源域和目标域样本的鉴别产生不同的偏重。
[0089]
s130、将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别。
[0090]
本发明的网络模型要实现的第二个功能就是动作的分类识别。使用交叉熵损失函数对源域时空特征进行分类,分类器网络对应的交叉熵损失函数的定义为:
[0091][0092]
其中,p代表当前网络训练批次中样本数量,yi表示第i个样本的标签,表示对第i个样本的预测值;是对预测值取对数操作。
[0093]
双域鉴别器网络和分类器网络组成的整个双链弱共享网络模型利用损失函数进行训练中,整个网络模型的损失函数通过以下公式实现:
[0094]
l=β(l
dis1
+l
dis2
)+γl
cls
[0095]
其中,l
dis1
和l
dis2
分别为双域鉴别器网络中每个鉴别器对所有域样本的鉴别损失;l
cls
表示分类器网络的损失;β,γ表示损失函数超参数。总之,在本发明的网络模型的目标函数中,首先,域鉴别损失函数使得源域特征和目标特征具有更好的域不变性,其次,交叉熵损失函数(celoss)使得所学特征具有更好的区分性,这两个损失函数同时嵌入到双链弱共享网络上,共同指导该网络参数的学习和优化,并通过最小化这两个损失函数,从而确定最优的网络参数。
[0096]
综上,经过在源域数据集和目标域数据集随机选择样本,并对视频样本均分成八段,每一段随机采样一帧,将每一帧rgb图像输入到双链的resnet-50深度神经网络中提取样本的空间特征,两者的双链网络结构是相同的,但权重参数在部分层是共享的,部分层不共享;再将提取出每个样本的八帧的空间特征一同输入到3d卷积层,提取时空特征;将提取出的时序动作特征输入到双域鉴别器模块,进行差异化的对抗学习,用以优化特征提取网络生成更能混淆域鉴别器的特征(具有域不变性的特征);同时将源域的动作特征输入到分类器模块,使用源域标签,对源域特征进行分类,并计算交叉熵损失函数,用以对特征提取层优化,使其提取的特征更具类别可分性,实现分类。
[0097]
经过上述训练过程,然后利用目标域数据集对基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别模型进行测试,最终获得训练好的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别模型(即双链弱共享网络模型)。
[0098]
利用训练好的模型的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作
识别模型进行视频交互动作识别的流程包括:将待测试的单个动作视频进行下采样后的rgb样本帧输入到双链网络的目标域链中;通过2d卷积和3d卷积操作相继提取空间特征和时空特征;最后将所有时空特征输入到全连接层中,得到类别特征,进而实现动作识别。
[0099]
在一个具体的实施例中,在动作数据集ucf-hmdbfull和ucf-olympic上进行了评测,设置500个epoch,采用优化方法adam,默认学习率是0.0001,50个epoch衰减到0.00001,100个epoch衰减到0.000001后保持不变;损失函数超参数设置为α=0.1,β=0.5,γ=1.0,使用kinetics-400上预训练的模型参数初始化resnet-50网络。
[0100]
在测试过程中,测试样本的采样方式与训练阶段相同,测试样本在双链网络部分只输入到属于目标域的链中提取特征。
[0101]
表1示出了本发明与其他方法在ucf-hmdbfull和ucf-olympic数据集的实验效果。
[0102]
表1
[0103][0104]
通过观察表1发现,在ucf-hmdbfull数据集和ucf-olympic数据集上,本发明提出的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法在无监督跨域动作识别数据集上具有较好的识别性能。
[0105]
综上,本发明的一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,通过使样本经过差异化的双域鉴别器与特征提取器形成对抗训练,可以得到更具有判别性的,域不变性的特征;在不使用目标域标签信息进行训练的情况下,达到了在多个目标域数据集上都能取得高效的动作识别性能的技术效果。
[0106]
与上述基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法相对应,本发明还提供一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统。图3示出了根据本发明实施例的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统的功能模块。
[0107]
如图3所示,本发明提供的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统300可以安装于电子设备中。根据实现的功能,所述基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统300可以包括特征提取单元310、域适应优化单元320和分类单元330。本发明所述单元也可以称之为模块,指的是一种能够被电子设备的处理器所执行,并且能够完成某一固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0108]
在本实施例中,关于各模块/单元的功能如下:
[0109]
特征提取单元310,用于将源域数据集和目标域数据集的样本输入特征提取器网络;特征提取器网络包括权值弱共享的双链2d卷积网络和权值完全共享的双链3d卷积网络;其中,通过权值弱共享的双链2d卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3d卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取;
[0110]
域适应优化单元320,用于将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征;
[0111]
分类单元330,用于将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别;其中,双域鉴别器网络和分类器网络利用损失函数进行训练。
[0112]
本发明所提供的上述基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统的更为具体的实现方式,均可以参照上述对基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法的实施例表述,在此不再一一列举。
[0113]
本发明所提供的上述基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统,通过使样本经过差异化的双域鉴别器与特征提取器形成对抗训练,可以得到更具有判别性的,域不变性的特征;在不使用目标域标签信息进行训练的情况下,达到了在多个目标域数据集上都能取得高效的动作识别性能的技术效果。
[0114]
如图4所示,本发明提供一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法的电子设备4。
[0115]
该电子设备4可以包括处理器40、存储器41和总线,还可以包括存储在存储器41中并可在所述处理器40上运行的计算机程序,如基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别程序42。
[0116]
其中,所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器41在一些实施例中可以是电子设备4的内部存储单元,例如该电子设备4的移动硬盘。所述存储器41在另一些实施例中也可以是电子设备4的外部存储设备,例如电子设备4上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器41还可以既包括电子设备4的内部存储单元也包括外部存储设备。所述存储器41不仅可以用于存储安装于电子设备4的应用软件及各类数据,例如基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0117]
所述处理器40在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器40是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器41内的程序或者模块(例如基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别程序等),以及调用存储在所述存储器41内的数据,以执行电子设备4的各种功能和处理数据。
[0118]
所述总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器41以及至少一个处理器40等之间的连接通信。
[0119]
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备4的限定,可以包括比图示更少或者更多的部件,或者组合某些
部件,或者不同的部件布置。
[0120]
例如,尽管未示出,所述电子设备4还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器40逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备4还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
[0121]
进一步地,所述电子设备4还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备4与其他电子设备之间建立通信连接。
[0122]
可选地,该电子设备4还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备4中处理的信息以及用于显示可视化的用户界面。
[0123]
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0124]
所述电子设备4中的所述存储器41存储的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别程序42是多个指令的组合,在所述处理器40中运行时,可以实现:s110、将源域数据集和目标域数据集的样本输入特征提取器网络;特征提取器网络包括权值弱共享的双链2d卷积网络和权值完全共享的双链3d卷积网络;其中,通过权值弱共享的双链2d卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3d卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取;s120、将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征;s130、将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别;其中,双域鉴别器网络和分类器网络利用损失函数进行训练。
[0125]
具体地,所述处理器40对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。需要强调的是,为进一步保证上述基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别程序的私密和安全性,上述基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别程序存储于本服务器集群所处区块链的节点中。
[0126]
进一步地,所述电子设备4集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0127]
本发明实施例还提供一种计算机可读存储介质,所述存储介质可以是非易失性的,也可以是易失性的,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现:s110、将源域数据集和目标域数据集的样本输入特征提取器网络;特征提取器网络包
括权值弱共享的双链2d卷积网络和权值完全共享的双链3d卷积网络;其中,通过权值弱共享的双链2d卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3d卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取;s120、将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征;s130、将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别;其中,双域鉴别器网络和分类器网络利用损失函数进行训练。
[0128]
具体地,所述计算机程序被处理器执行时具体实现方法可参考实施例基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法中相关步骤的描述,在此不赘述。
[0129]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0130]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0131]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0132]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
[0133]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0134]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等,区块链可以存储医疗数据,如个人健康档案、厨房、检查报告等。
[0135]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
[0136]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1