动作识别模型训练方法和装置、动作识别方法和装置与流程

文档序号：33036183发布日期：2023-01-24 19:58阅读：31来源：国知局

1.本公开涉及计算机技术领域，具体涉及计算机视觉、深度学习等技术领域，尤其涉及一种动作识别模型训练方法和装置、动作识别方法和装置、电子设备、计算机可读介质以及计算机程序产品。

背景技术：

2.近年来，在动作识别的深度学习(deep learning，dl)方法中，一种较为普遍的做法是利用卷积神经网络(convolutional neural network，cnn)提取视频中图像帧的特征，再将提取的特征输入循环神经网络(recurrent neural network，rnn)中提取多个连续图像帧特征中的时间序列关系，但是这种结构较为繁琐，卷积神经网络和循环神经网络较难形成一个统一整体，因此难以形成很好的针对目标的特征提取能力。

技术实现要素：

3.提供了一种动作识别模型训练方法和装置、动作识别方法和装置、电子设备、计算机可读介质以及计算机程序产品。
4.根据第一方面，提供了一种动作识别模型训练方法，该方法包括：获取预置的样本集，其中，样本集包括：属性标注样本和动作标注样本；获取预先建立的动作识别网络，动作识别网络包括卷积神经网络、循环神经网络，以及与卷积神经网络相连接、用于对图像属性进行分类的全连接层；执行以下训练步骤：基于从样本集中选取的属性标注样本，采用卷积神经网络和全连接层，计算属性损失值；基于从样本集中选取的动作标注样本，采用卷积神经网络和循环神经网络，计算动作损失值；由属性损失值和动作损失值，得到动作识别网络损失值；响应于动作识别网络满足训练完成条件，则将动作识别网络作为动作识别模型。
5.根据第二方面，提供了一种动作识别方法，该方法包括：获取待进行动作识别的视频序列；将视频序列输入采用如第一方面任一实现方式描述的方法生成的动作识别模型中，输出视频序列的动作分类结果。
6.根据第三方面，提供了一种动作识别模型训练装置，该装置包括：样本获取单元，被配置成获取预置的样本集，其中，样本集包括：属性标注样本和动作标注样本；网络获取单元，被配置成获取预先建立的动作识别网络，动作识别网络包括卷积神经网络、循环神经网络，以及与卷积神经网络相连接、用于对图像属性进行分类的全连接层；属性计算单元，被配置成基于从样本集中选取的属性标注样本，采用卷积神经网络和全连接层，计算属性损失值；动作计算单元，被配置成基于从样本集中选取的动作标注样本，采用卷积神经网络和循环神经网络，计算动作损失值；得到单元，被配置成由属性损失值和动作损失值，得到动作识别网络损失值；输出单元，被配置成响应于动作识别网络满足训练完成条件，则将动作识别网络作为动作识别模型。
7.根据第四方面，又提供了一种动作识别装置，该装置包括：获取单元，被配置成获取待进行动作识别的视频序列；分类单元，被配置成将视频序列输入采用如第一方面任一
实现方式描述的方法生成的动作识别模型中，输出视频序列的动作分类结果。
8.根据第五方面，提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面或第二方面任一实现方式描述的方法。
9.根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面或第二方面任一实现方式描述的方法。
10.根据第七方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面或第二方面任一实现方式描述的方法。
11.本公开的实施例提供的动作识别模型训练方法和装置，首先，获取预置的样本集，其中，样本集包括：属性标注样本和动作标注样本；其次，获取预先建立的动作识别网络，动作识别网络包括卷积神经网络、循环神经网络，以及与卷积神经网络相连接、用于对图像属性进行分类的全连接层；再次，基于从样本集中选取的属性标注样本，采用卷积神经网络和全连接层，计算属性损失值；从次，基于从样本集中选取的动作标注样本，采用卷积神经网络和循环神经网络，计算动作损失值；再者，由属性损失值和动作损失值，得到动作识别网络损失值；最后，响应于动作识别网络满足训练完成条件，则将动作识别网络作为动作识别模型。由此，在对动作识别任务训练时，同时进行卷积神经网络的样本属性分类训练，提高了动作识别网络的特征提取能力，提高了动作识别的准确性。
12.本公开的实施例提供的动作识别方法和装置，获取待进行动作识别的视频序列；将待进行动作识别的视频序列输入采用本实施例的动作识别模型训练方法生成的动作识别模型，得到动作识别模型输出的对待进行动作识别的视频序列的动作分类结果。由此，采用增加了属性分类的动作识别模型对待进行动作识别的视频序列的处理可以提升动作识别的准确性，保障了动作识别结果连续性的效果。
13.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
14.附图用于更好地理解本方案，不构成对本公开的限定。其中：
15.图1是根据本公开动作识别模型训练方法的一个实施例的流程图；
16.图2是本公开实施例中动作识别网络进行训练的一种结构示意图；
17.图3是根据本公开动作识别方法的一个实施例的流程图；
18.图4是根据本公开动作识别模型训练装置的一个实施例的结构示意图；
19.图5是根据本公开动作识别装置的一个实施例的结构示意图；
20.图6是用来实现本公开实施例的动作识别模型训练方法或动作识别方法的电子设备的框图。
具体实施方式
21.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识
到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
22.现有的由卷积神经网络和循环神经网络组成的动作识别模型中大部分都是端到端的训练方式，即向卷积神经网络输入动作帧图像序列，得到循环神经网络输出的动作帧图像序列中对象的动作类别，并没有着重于提高卷积神经网络部分的特征提取能力，无法将卷积神经网络和循环神经网络形成为一个统一整体。
23.图1示出了根据本公开动作识别模型训练方法的一个实施例的流程100，上述动作识别模型训练方法包括以下步骤：
24.步骤101，获取预置的样本集。
25.本实施例中，动作识别模型训练方法运行于其上的执行主体可以通过多种方式获取样本集，例如，执行主体可以通过有线连接方式或无线连接方式，从数据库服务器中获取存储于其中的样本集。再例如，用户可以通过终端来收集样本，这样，执行主体可以接收终端所收集的样本，并将这样样本存储在本地，从而生成样本集。
26.在这里，样本集可以包括至少一个样本。其中，样本可以包括：属性标注样本或/和动作标注样本，属性标注样本和动作标注样本是两类不同的样本，属性标注样本是对视频数据集中待识别对象的进行属性标注得到样本，属性标注样本中各个待识别对象具有属性标签，属性是指待识别对象的外部特征，属性具体可以包括：性别、身份信息、衣着、动作等特征。这些属性是除目标动作之外的语义信息，通过采用属性标注样本对卷积神经网络进行训练，可以用于提升卷积神经网络的特征提取能力。
27.本实施例中，对属性标注样本进行属性标注，得到属性标签的过程如下：
28.1)选定属性集a＝{a1,a2,
…
,an}。其中ai(i＝1,2,
…
,n)表示某一属性，如目标身份、衣着、性别等。
29.2)基于选定属性集，提取视频数据的图像帧，从而根据选定的属性集完成样本集划分d＝{d1,d2,
…
,dn}，其中di(i＝1,2,
…
,n)是对应于ai的属性标注样本。
30.本实施例中，动作标注样本是对视频数据集中待识别对象的目标动作进行标签标注的样本，动作标注样本中各个待识别对象具有动作标签，具体地，在视频数据集选取待识别对象完成同一动作的所有图像帧(即首帧图像至尾帧图像之间的所有图像帧)，并根据动作的不同对得到图像帧进行排序，得到的图像帧序列即为动作标注样本。本实施例中，图像帧是指一帧图像。
31.步骤102，获取预先建立的动作识别网络。
32.其中，动作识别网络包括卷积神经网络、循环神经网络，以及与卷积神经网络相连接、用于对图像属性进行分类的全连接层。
33.本实施例中，动作识别网络包括卷积神经网络、循环神经网络，卷积神经网络的输出端与循环神经网络的输入端连接，且卷积神经网络和循环神经网络均属于神经网络；卷积神经网络由具有可学习的权重和偏置常量的神经元组成。每个神经元都接收一些输入，并做点积计算，输出是每个分类的分数。
34.循环神经网络是一类用于处理序列数据的神经网络。与其他神经网络的不同是，循环神经网络可以更好的去处理序列的信息，即确认前后的输入之间存在关系。例如，在nlp(natural language process,自然语言处理)中，去理解一整句话，孤立的理解组成这
句话的词是不够的，需要整体处理由这些词连接起来的整个序列。
35.本实施例中，在动作识别网络中引入全连接层，该全连接层与卷积神经网络的输出端相连接，且用于对卷积神经网络输出的特征图像进行属性分类。全连接层f可以包括多层全连接子层fi(i＝1,2,
…
,n)，每层全连接子层对应一个属性标注样本的分类，f＝{f1,f2,
…
,fn}，全连接层f的输入是卷积神经网络提取的输入数据集d中图像的特征向量，根据di的数据与属性标签对fi和卷积神经网络进行训练。
36.步骤103，基于从样本集中选取的属性标注样本，采用卷积神经网络和全连接层，计算属性损失值。
37.本实施例中，将卷积神经网络与全连接层作为一个属性分类网络，通过从样本集中选取的属性标注样本，对该属性分类网络进行训练，属性损失值由该属性分类网络的损失函数计算得到，通过调整属性分类网络的参数可以使属性损失值变小。
38.如图2所示，在选取了样本集中的属性标注样本之后，属性标注样本经过cnn，生成特征向量，该特征向量输入进全连接层进行图像属性分类，得到属性分类结果，基于该属性分类结果与属性标注样本上属性标签，可以计算得到属性损失值。
39.步骤104，基于从样本集中选取的动作标注样本，采用卷积神经网络和循环神经网络，计算动作损失值。
40.本实施例中，将卷积神经网络与循环神经网络作为一个动作分类网络，通过从样本集中选取的动作标注样本，对该动作分类网络进行训练，动作损失值由该动作分类网络的损失函数计算得到，通过调整动作分类网络的参数可以使动作损失值变小。
41.如图2所示，在选取了样本集中的动作标注样本之后，动作标注样本经过cnn，生成特征向量，该特征向量输入进rnn进行图像动作分类，得到动作分类结果，基于该动作分类结果与动作标注样本上动作标签，可以计算得到动作损失值。
42.本实施例中，可以将动作识别网络的每次迭代训练划分为两个同时进行的不同阶段，即在当前迭代过程中，第一阶段为属性分类网络的训练阶段，得到属性损失值；第二阶段为动作分类网络的训练阶段，得到动作损失值，在第一阶段和第二阶段完成之后，基于属性损失值和动作损失值得到动作识别网络损失值。
43.步骤105，由属性损失值和动作损失值，得到动作识别网络损失值。
44.本实施例中，动作识别网络损失值为整个动作识别网络的损失值，动作识别网络损失值等于属性损失值和动作损失值之和，如图2所示，在得到动作识别网络损失值之后，可以通过梯度反向传播，调整cnn或rnn或全连接层的参数，使动作识别网络损失值收敛，最终达到动作识别网络损失值的最小收敛值。
45.可选地，动作识别网络损失值还可以等于第一值与第二值之和，其中，第一值等于第一权重值与属性损失值的乘积；第二值等于第二权重值与动作损失值的乘积，第一权重值和第二权重值可以根据需求而设置，例如，第一权重值大于第二权重值。
46.步骤106，响应于动作识别网络满足训练完成条件，则将动作识别网络作为动作识别模型。
47.在本实施例中，训练完成条件包括以下至少一项：动作识别网络的训练迭代次数达到预定迭代阈值，动作识别网络损失值小于预定损失值阈值。例如，动作识别网络的训练迭代达到5千次。动作识别网络损失值小于0.05。
48.在本实施例的一些可选实现方式中，响应于动作识别网络不满足训练完成条件，则调整动作识别网络中的相关参数使得动作识别网络损失值收敛，基于调整后的动作识别网络，继续执行上述训练步骤103-105。
49.在本实施例中，若训练未完成，则调整属性分类网络或动作分类网络的参数来使得动作识别网络损失值收敛。具体地，可先保持卷积神经网络的参数不变，反复执行步骤103至步骤105，调整循环神经网络的参数，使得动作识别网络损失值逐渐变小直至收敛。具体地，还可以先保持循环神经网络的参数不变，反复执行步骤103至步骤105，调整卷积神经网络的参数，使得动作识别网络损失值逐渐变小直至收敛，保证了动作识别网络收敛效果。
50.本公开的实施例提供的动作识别模型训练方法，首先，获取预置的样本集，其中，样本集包括：属性标注样本和动作标注样本；其次，获取预先建立的动作识别网络，动作识别网络包括卷积神经网络、循环神经网络，以及与卷积神经网络相连接、用于对图像属性进行分类的全连接层；再次，基于从样本集中选取的属性标注样本，采用卷积神经网络和全连接层，计算属性损失值；从次，基于从样本集中选取的动作标注样本，采用卷积神经网络和循环神经网络，计算动作损失值；再者，由属性损失值和动作损失值，得到动作识别网络损失值；最后，响应于动作识别网络满足训练完成条件，则将动作识别网络作为动作识别模型。由此，在对动作识别任务训练时，同时进行卷积神经网络的样本属性分类训练，提高了动作识别网络的特征提取能力，提高了动作识别的准确性。
51.在本实施例的一些可选实现方式中，基于从样本集中选取的属性标注样本，采用卷积神经网络和全连接层，计算属性损失值，包括：将属性标注样本输入卷积神经网络，得到卷积神经网络输出的特征向量；将特征向量输入全连接层，得到全连接层输出的属性标注样本的属性分类结果；基于属性分类结果，计算属性损失值。
52.本实施例中，可以采用不同结构的卷积神经网络对属性标注样本进行处理，得到特征向量。例如，卷积神经网络包括：输入层、卷积层、池化层。再如，卷积神经网络包括：卷积神经网络包括输入层、第一卷积层、第二卷积层、池化层。
53.本可选实现方式中，基于卷积神经网络和全连接层，得到全连接层输出的对属性标注样本的属性分类结果，基于属性分类结果，计算属性损失值，保证了属性损失值的准确性。
54.可选地，在将属性标注样本输入卷积神经网络之前，还可以通过预先设置的属性标签确定样本集中具有属性标签的属性标注样本，从而保证输入卷积神经网络的属性标注样本为真正的属性标注样本。
55.在本实施例的一些可选实现方式中，上述卷积神经网络包括：输入层、卷积层和全局池化层；将属性标注样本输入卷积神经网络，得到卷积神经网络输出的特征向量，包括：将属性标注样本输入输入层进行图像预处理，得到预处理图像；将预处理图像输入卷积层进行卷积运算，得到特征图；将特征图输入全局池化层进行全局平均池化，得到特征向量。
56.本实施例中，图像预处理可以包括：去均值、归一化、降维度处理，其中，去均值是指把输入数据各个维度都中心化到0，所有样本求和求平均，然后用所有的样本减去这个均值样本就是去均值。归一化是指将数据幅度归一化到同样的范围，例如，对于每个特征归一到[-1,1]。降维度处理是指，对属性标注样本进行去相关处理，取消每个维度的相关度，使特征和特征之间相互独立。
[0057]
池化层用于特征降维，压缩数据和参数的数量，减小过拟合，本实施例中，全局池化层用于定义一个空间邻域，并从窗口内的修正特征图中算出平均值。
[0058]
本可选实现方式中，在卷积神经网络包括：输入层、卷积层和全局池化层时，采用全局池化层对卷积层输出的特征图进行全局平均池化，达到了对特征图进行平均池化的效果，为得到特征向量提供了一种可选实现方式，保证了特征向量得到的可靠性。
[0059]
在本实施例的一些可选实现方式中，卷积神经网络包括：输入层、卷积层和区域池化层；将属性标注样本输入卷积神经网络，得到卷积神经网络输出的特征向量，包括：将属性标注样本输入输入层进行图像预处理，得到预处理图像；将预处理图像输入卷积层进行卷积运算，得到特征图；划分特征图为多个不同区域；将各个区域中的特征图输入区域池化层进行区域平均池化，得到特征向量。
[0060]
针对传统的全局平均池化丢弃了原本特征图中元素的位置信息的问题，本实施例提供的区域平均池化在对原特征图做了区域划分，针对各个区域中元素进行平均池化处理，计算方式如下：
[0061][0062]
式(1)中，是区域池化图对应于cnn输出特征图第k通道(i,j)位置处的值；sm，sn是在x,y维度上做平均池化的步长；mk是特征图的第k通道。由式(1)可知，区域池化层进行的区域平均池化可以部分还原特征图中的位置信息，最终将生成的区域平均池化图展开为特征向量，用于cnn后全连接层的属性分类与rnn的输入。
[0063]
本可选实现方式中，在得到卷积层输出的特征图之后，对特征图进行区域划分，分别对各个区域进行区域平均池化，最后得到特征向量，将原本的全局平均池化操作改进为区域平均池化，从而可以部分保留原本丢弃的位置信息，使特征向量包含的信息更加丰富。
[0064]
在本实施例的一些可选实现方式中，上述动作标注样本为多帧标注图像，基于样本集中选取的动作标注样本，采用卷积神经网络和循环神经网络，计算动作损失值，包括：将多帧标注图像中每帧图像依次输入卷积神经网络，得到多帧标注图像中每帧图像对应的特征向量；将多帧标注图像中每帧图像对应的特征向量打包后，输入循环神经网络，得到循环神经网络输出的多帧标注图像的动作分类结果；基于动作分类结果，计算动作损失值。
[0065]
本可选实现方式中，多帧标注图像为对待识别对象的动作进行标签标注后的首帧图像至尾帧图像之间的所有图像，该多帧标注图像可以是对一个动作(例如，抖肩、抬腿)进行动作标注后的图像，该多帧标注图像还可以是对多个连续动作(例如，拿杯子喝水)进行动作标注后的图像。
[0066]
本可选实现方式中，在将多帧标注图像中所有图像帧输入卷积神经网络，得到所有图像帧的特征向量之后，对所有图像帧的特征向量进行打包，输入循环神经网络，可以保证循环神经网络对动作标注样本识别的可靠性。
[0067]
可选地，上述动作标注样本为多帧标注图像，基于样本集中选取的动作标注样本，采用卷积神经网络和循环神经网络，计算动作损失值，包括：将多帧标注图像中每帧图像依次输入卷积神经网络，得到多帧标注图像中每帧图像对应的特征向量；去除特征向量中具有相同值的特征向量，将多帧标注图像中剩余的图像对应的特征向量打包后，输入循环神经网络，得到循环神经网络输出的多帧标注图像的动作分类结果；基于动作分类结果，计算
动作损失值。
[0068]
进一步地，基于上述实施例提供的动作识别模型训练方法，本公开还提供了一种动作识别方法的一个实施例，本公开的动作识别方法结合了计算机视觉、深度学习等人工智能领域。
[0069]
参见图3，示出了根据本公开动作识别方法的一个实施例的流程300，本实施例提供的动作识别方法包括以下步骤：
[0070]
步骤301，获取待进行动作识别的视频序列。
[0071]
在本实施例中，视频序列是有时空联系的多个视频图像按照一定顺序的排列，上述多个视频图像中可以包括待识别对象，也可以不包括待识别对象，本实施例中，待识别对象为待进行动作识别的对象；当多个视频图像中包括待识别对象时，可以通过动作识别模型识别待识别对象的动作的类型，还可以识别多个图像中多个连续动作。
[0072]
在本实施例中，获取的多个视频图像可以是彩色图像和/或灰度图像等等，且该获取的多个视频图像的格式在本公开中也不做限制。
[0073]
动作识别方法的执行主体可以通过多种方式来获取待进行动作识别的视频序列。例如，执行主体可以通过有线连接方式或无线连接方式，从数据库服务器中获取存储于其中的待进行动作识别的视频序列。再例如，执行主体也可以接收终端或其他设备采集的待进行动作识别的视频序列。
[0074]
步骤302，将视频序列输入动作识别模型中，输出视频序列的动作分类结果。
[0075]
本实施例中，执行主体可以将步骤301中获取的视频序列输入动作识别模型中，从而得到对视频序列中待识别对象的动作分类结果。
[0076]
本实施例中，动作识别模型可以是采用如上述图1实施例所描述的方法而训练得到的，具体训练过程可以参见图1实施例的相关描述，在此不再赘述。
[0077]
本实施例中，动作识别模型可用于对视频序列中的待识别对象的动作进行识别，并对动作进行分类。动作识别模型可用于对视频序列中的不同人物的不同动作进行识别，并对识别到的不同动作进行分类，得到不同动作的分类结果，例如，向动作识别模型输入一系列人物打球的视频序列，动作识别模型输出为各个人物的所有打球的动作，以及各个打球动作的类型。
[0078]
需要说明的是，本实施例的动作识别方法可以用于测试上述各实施例所生成的动作识别模型。进而根据动作分类结果可以不断地优化动作识别模型。该方法也可以是上述各实施例所生成的动作识别模型的实际应用方法。采用上述各实施例所生成的动作识别模型，来进行视频序列中对象动作识别，有助于提高动作识别的准确性。
[0079]
本实施例提供的动作识别方法，获取待进行动作识别的视频序列；将待进行动作识别的视频序列输入采用本实施例的动作识别模型训练方法生成的动作识别模型，得到动作识别模型输出的对待进行动作识别的视频序列的动作分类结果。由此，采用增加了属性分类的动作识别模型对待进行动作识别的视频序列的处理可以提升动作识别的准确性，保障了动作识别结果连续性的效果。
[0080]
进一步参考图4，作为对上述各图所示方法的实现，本公开提供了动作识别模型训练装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可应用于各种电子设备中。
[0081]
如图4所示，本实施例提供的动作识别模型训练装置400包括：样本获取单元401，网络获取单元402，属性计算单元403，动作计算单元404，得到单元405，输出单元406。其中，上述样本获取单元401，可以被配置成获取预置的样本集，其中，样本集包括：属性标注样本和动作标注样本。上述网络获取单元402，可以被配置成获取预先建立的动作识别网络，动作识别网络包括卷积神经网络、循环神经网络，以及与卷积神经网络相连接、用于对图像属性进行分类的全连接层。上述属性计算单元403，可以被配置成基于从样本集中选取的属性标注样本，采用卷积神经网络和全连接层，计算属性损失值。上述动作计算单元404，可以被配置成基于从样本集中选取的动作标注样本，采用卷积神经网络和循环神经网络，计算动作损失值。上述得到单元405，可以被配置成由属性损失值和动作损失值，得到动作识别网络损失值。上述输出单元406，可以被配置成响应于动作识别网络满足训练完成条件，则将动作识别网络作为动作识别模型。
[0082]
在本实施例中，动作识别模型训练装置400中：样本获取单元401，网络获取单元402，属性计算单元403，动作计算单元404，得到单元405，输出单元406的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104、步骤105、步骤106的相关说明，在此不再赘述。
[0083]
在本实施例的一些可选的实现方式中，上述装置400还包括：调整单元(图中未示出)。上述调整单元，可以被配置成响应于动作识别网络不满足训练完成条件，则调整动作识别网络中的相关参数使得动作识别网络损失值收敛，属性计算单元403、动作计算单元404、得到单元405、输出单元406基于调整后的动作识别网络，继续执行训练步骤。
[0084]
在本实施例的一些可选的实现方式中，上述属性计算单元403包括：向量得到模块(图中未示出)，结果得到模块(图中未示出)，属性计算模块(图中未示出)。其中，上述向量得到模块，可以被配置成将属性标注样本输入卷积神经网络，得到卷积神经网络输出的特征向量。上述结果得到模块，可以被配置成将特征向量输入全连接层，得到全连接层输出的属性标注样本的属性分类结果。上述属性计算模块，可以被配置成基于属性分类结果，计算属性损失值。
[0085]
在本实施例的一些可选的实现方式中，上述卷积神经网络包括：输入层、卷积层和全局池化层；上述向量得到模块包括：处理子模块(图中未示出)，运算子模块(图中未示出)，全局池化子模块(图中未示出)。其中，上述处理子模块，可以被配置成将属性标注样本输入输入层进行图像预处理，得到预处理图像。上述运算子模块，可以被配置成将预处理图像输入卷积层进行卷积运算，得到特征图。上述全局池化子模块，可以被配置成将特征图输入全局池化层进行全局平均池化，得到特征向量。
[0086]
在本实施例的一些可选实现方式中，上述卷积神经网络包括：输入层、卷积层和区域池化层；上述向量得到模块包括：处理子模块(图中未示出)，运算子模块(图中未示出)，划分子模块(图中未示出)，区域池化子模块(图中未示出)。其中，上述处理子模块，可以被配置成将属性标注样本输入输入层进行图像预处理，得到预处理图像。上述运算子模块，可以被配置成将预处理图像输入卷积层进行卷积运算，得到特征图。上述划分子模块，可以被配置成划分特征图为多个不同区域。上述区域池化子模块，可以被配置成将各个区域中的特征图输入区域池化层进行区域平均池化，得到特征向量。
[0087]
在本实施例的一些可选实现方式中，上述动作标注样本为多帧标注图像，上述动
作计算单元404包括：特征得到模块(图中未示出)，分类得到模块(图中未示出)，动作计算模块(图中未示出)。其中，上述特征得到模块，可以被配置成将多帧标注图像中每帧图像依次输入卷积神经网络，得到多帧标注图像中每帧图像对应的特征向量。上述分类得到模块，可以被配置成将多帧标注图像中每帧图像对应的特征向量打包后，输入循环神经网络，得到循环神经网络输出的多帧标注图像的动作分类结果。上述动作计算模块，可以被配置成基于动作分类结果，计算动作损失值。
[0088]
本公开的实施例提供的动作识别模型训练装置，首先，样本获取单元401获取预置的样本集，其中，样本集包括：属性标注样本和动作标注样本；其次，网络获取单元402获取预先建立的动作识别网络，动作识别网络包括卷积神经网络、循环神经网络，以及与卷积神经网络相连接、用于对图像属性进行分类的全连接层；再次，属性计算单元403基于从样本集中选取的属性标注样本，采用卷积神经网络和全连接层，计算属性损失值；从次，动作计算单元404基于从样本集中选取的动作标注样本，采用卷积神经网络和循环神经网络，计算动作损失值；再者，得到单元405由属性损失值和动作损失值，得到动作识别网络损失值；最后，输出单元406响应于动作识别网络满足训练完成条件，将动作识别网络作为动作识别模型。由此，在对动作识别任务训练时，同时进行卷积神经网络的样本属性分类训练，提高了动作识别网络的特征提取能力，提高了动作识别的准确性。
[0089]
进一步参考图5，作为对上述各图所示方法的实现，本公开提供了动作识别装置的一个实施例，该装置实施例与图3所示的方法实施例相对应，该装置具体可应用于各种电子设备中。
[0090]
如图5所示，本实施例提供的动作识别装置500包括：获取单元501，分类单元502。其中，上述获取单元501，可以被配置成获取待进行动作识别的视频序列。上述分类单元502，可以被配置成将视频序列输入如上述图1实施例所描述的方法生成的动作识别模型中，输出视频序列的动作分类结果。
[0091]
在本实施例中，动作识别装置500中：获取单元501，分类单元502的具体处理及其所带来的技术效果可分别参考图3对应实施例中的步骤301、步骤302的相关说明，在此不再赘述。
[0092]
本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
[0093]
根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0094]
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0095]
如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序，来执行各种适当的动作和处理。在ram603中，还可存储设备600操作所需的各种程序和数据。计
算单元601、rom 602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0096]
设备600中的多个部件连接至i/o接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0097]
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如动作识别模型训练方法或动作识别方法。例如，在一些实施例中，动作识别模型训练方法或动作识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到ram 603并由计算单元601执行时，可以执行上文描述的动作识别模型训练方法或动作识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行动作识别模型训练方法或动作识别方法。
[0098]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0099]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程动作识别模型训练装置、动作识别装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0100]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0101]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0102]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0103]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
[0104]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
[0105]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕以豪卢飞翔刘宗岱
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种遇水易崩解岩石的取芯装置和方法
上一篇：一种双歧杆菌发酵产物溶胞产物及其制备方法和应用与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。