动作边界检测模型、模型训练方法、设备及存储介质与流程

文档序号：31127988发布日期：2022-08-13 04:21阅读：94来源：国知局

1.本发明涉及视频处理技术领域，尤其涉及一种动作边界检测模型、模型训练方法、设备及存储介质。

背景技术：

2.当今社会中视频社交越来越热门，视频内容分析逐渐的变成人工智能(artificial intelligence，简称ai)领域的一大重点，目前较多的视频分析还是在研究已裁剪视频的内容理解上，对于从未裁剪视频中识别出相关场景的研究还起步不久。例如，从未裁剪视频中进行动作片段检测，动作片段检测是指在一段视频里，检测出人的动作以及发生的时间和地点。
3.目前现有的动作片段检测方法为：通过对视频片段进行不同时间尺度的采样，在得到的多尺度采样片段中，利用单尺度的滑窗片段采样，然后使用深度残差网络进行二分类，利用网络输出结果和投票方式判断多尺度片段是否包含动作，进而采用帧级别的动作识别方法输出每一个视频帧的动作类别，并根据每一帧的结果采用统计融合策略得到动作类别和动作边界。该方法采用滑窗的方式得到检测结果是比较粗糙的，滑窗越多计算量就越大，计算速度就越慢，之后对每一帧识别，没有很好的利用整个视频中的帧间信息，导致动作边界识别存在不准确的问题。

技术实现要素：

4.本发明实施例通过提供一种动作边界检测模型、模型训练方法、设备及存储介质，旨在解决通过现有的动作片段检测方法进行视频中动作边界识别，存在动作边界识别不准确的技术问题。
5.本发明实施例提供了一种动作边界检测模型，所述动作边界检测模型包括：
6.时序动作提名网络，用于根据视频特征预测动作候选区域，其中，所述动作候选区域为所述时序动作提名网络预测的起始时刻和结束时刻之间的视频片段；
7.时序单向特征处理模块，用于根据所述视频特征提取所述动作候选区域对应的时序单向特征；
8.线性插值采样模块，用于基于所述动作候选区域，截取所述时序单向特征中的待识别特征；
9.动作检测网络，用于根据所述动作候选区域以及所述待识别特征确定动作片段对应的动作类别、实际起始时刻以及实际结束时刻。
10.在一实施例中，所述时序动作提名网络包括：
11.边界敏感网络；
12.提名选择模块，所述边界敏感网络与所述提名选择模块连接，所述提名选择模块包括矩阵乘法和排序过滤。
13.在一实施例中，所述时序单向特征处理模块包括依次连接的n个时序单向卷积，每
个所述时序单向卷积具有空洞系数，且任意相邻的两个所述时序单向卷积的空洞系数之间的比值相同。
14.此外本发明还提供了一种模型训练方法，应用于所述的动作边界检测模型，所述模型训练方法包括：
15.获取样本视频的视频特征和标注信息；
16.将所述视频特征输入时序动作提名网络，得到动作候选区域，所述动作候选区域为所述时序动作提名网络预测的起始时刻和结束时刻之间的视频片段；
17.将所述视频特征输入时序单向特征处理模块，输出所述动作候选区域对应的时序单向特征；
18.将所述起始时刻、所述结束时刻和所述时序单向特征输入线性插值采样模块，输出待识别特征，所述待识别特征为所述线性插值采样模块根据所述起始时刻和所述结束时刻从所述时序单向特征中截取的局部特征；
19.将所述起始时刻、所述结束时刻和所述待识别特征输入动作检测网络，输出所述动作候选区域对应的动作类别、实际起始时刻以及实际结束时刻；
20.根据所述视频特征、所述标注信息和所述动作类别、所述实际起始时刻以及所述实际结束时刻对所述动作边界检测模型进行联合训练，得到训练后的所述动作边界检测模型。
21.在一实施例中，所述将所述视频特征输入时序单向特征处理模块，输出所述动作候选区域对应的时序单向特征的步骤包括：
22.通过所述时序单向特征处理模块从所述视频特征中提取所述动作候选区域对应的每一视频帧的第一图像特征，以及所述视频帧之前的视频帧的第二图像特征；
23.将所述第二图像特征与所述第一图像特征进行单向融合，得到所述时序单向特征。
24.在一实施例中，所述将所述起始时刻、所述结束时刻和所述待识别特征输入动作检测网络，输出所述动作候选区域对应的动作类别、实际起始时刻以及实际结束时刻的步骤包括：
25.通过所述动作检测网络识别所述待识别特征，得到所述动作候选区域的动作类别、所述起始时刻的第一变化量以及所述结束时刻的第二变化量；
26.根据所述起始时刻和所述第一变化量确定所述实际起始时刻；以及，
27.根据所述结束时刻和所述第二变化量确定所述实际结束时刻。
28.在一实施例中，所述根据所述视频特征、所述标注信息和所述动作类别、所述实际起始时刻以及所述实际结束时刻对所述动作边界检测模型进行联合训练，得到训练后的所述动作边界检测模型的步骤包括：
29.根据所述标注信息和所述动作类别、所述实际起始时刻以及所述实际结束时刻，确定动作类别损失值、起始时刻损失值以及结束时刻损失值；
30.在所述动作类别损失值小于第一阈值、所述起始时刻损失值小于第二阈值以及所述结束时刻损失值小于第三阈值时，停止所述动作边界检测模型的训练，得到训练后的所述动作边界检测模型。
31.在一实施例中，所述获取样本视频的视频特征和标注信息的步骤之前，还包括：
32.基于预先训练的分类网络提取所述样本视频中每一视频帧的图像特征向量；
33.根据所述每一视频帧的图像特征向量生成所述视频特征。
34.此外，为实现上述目的，本发明还提供了一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型训练程序，所述模型训练程序被所述处理器执行时实现上述的模型训练方法的步骤。
35.此外，为实现上述目的，本发明还提供了一种存储介质，其上存储有模型训练程序，所述模型训练程序被处理器执行时实现上述的模型训练方法的步骤。
36.本发明实施例中提供的一种动作边界检测模型、模型训练方法、设备及存储介质的技术方案，至少具有如下技术效果或优点：
37.本发明的动作边界检测模型包括时序动作提名网络用于根据视频特征预测动作候选区域；时序单向特征处理模块用于根据视频特征提取动作候选区域对应的时序单向特征；线性插值采样模块用于基于动作候选区域截取时序单向特征中的待识别特征；动作检测网络用于根据动作候选区域以及待识别特征确定动作片段对应的动作类别、实际起始时刻以及实际结束时刻。本发明通过动作边界检测模型检测视频中动作类别和动作边界，提高了检测视频中动作类别和动作边界的检测效率和准确性。
附图说明
38.图1为本发明模型训练装置的结构示意图；
39.图2为时序动作提名网络的结构示意图；
40.图3为时序单向特征处理模块的结构示意图；
41.图4为本发明模型训练方法实施例的流程示意图；
42.图5为本发明实施例方案涉及的硬件运行环境的结构示意图。
具体实施方式
43.为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。
44.如图1所示，在本发明提出了一种动作边界检测模型的一实施例，所述动作边界检测模型具体是eptal网络(efficient and precise temporal action localization网络)，其包括：时序动作提名网络110、时序单向特征处理模块120、线性插值采样模块130和动作检测网络140；时序动作提名网络110和时序单向特征处理网络120与线性插值采样模块130连接，时序动作提名网络110和线性插值采样模块130与动作检测网络140连接。
45.时序动作提名网络110，用于根据视频特征预测动作候选区域。其中，视频特征是时序动作提名网络110的输入，视频特征为视频中各视频帧的图像特征的特征向量组成的序列。动作候选区域为时序动作提名网络110预测的起始时刻和结束时刻之间的视频片段，例如，时序动作提名网络110根据视频特征从视频中预测的运动员跑步片段的起始时刻为1分20秒，结束时刻为1分30秒，1分20秒-1分30秒的运动员跑步片段即为预测的所述动作候选区域，1分20秒和1分30秒分别为动作候选区域的起始时刻和结束时刻，那么，时序动作提
名网络110的输出为动作候选区域的起始时刻和结束时刻。其中，动作候选区域为多个。
46.时序单向特征处理模块120，用于根据视频特征提取动作候选区域对应的时序单向特征。其中，时序单向特征是由动作候选区域中每一视频帧的图像特征和每一视频帧之前的视频帧的图像特征单向融合得到的。由于人类视觉感知系统的特殊性，人类观测时序信息是通过之前的时序序列信息以及当前看到的信息来推断当前发生的事件。例如当人类看电视时，看到当前帧和之前记忆里的帧信息就可以推断出当前帧正在发生的事件。同样在时序检测这一时序领域的任务，如动作或者某个场景的发生，例如通过足球运动员的射门动作来说明，射门动作会存在先有跑步带球，然后抬腿，最后踢球这种顺序关联。如果倒过来播放就不是射门动作了，有可能是舞蹈等动作。因此利用这种时序性的顺序关系，就能更好的确定出动作的边界。基于此，时序单向特征可以理解为对局部的单视频帧的图像特征进行全局融合得到的感受野更大且更符合人类视觉观测的特征，那么，时序单向特征处理模块120的得到动作候选区域对应的时序单向特征。
47.线性插值采样模块130，用于基于动作候选区域截取时序单向特征中的待识别特征。应理解的是，动作候选区域的起始时刻和结束时刻以及动作候选区域对应的时序单向特征作为输入数据输入到线性插值采样模块130，线性插值采样模块130根据起始时刻和结束时刻从时序单向特征中选出起始时刻和结束时刻对应的特征。
48.由于时序动作提名网络110输出的动作候选区域的起始时刻和结束时刻所形成的时间段的长短是不一致的，且不同时间段对应的视频帧序列中视频帧的帧数是不相同的，如果通过系统的gpu的batch(批处理)操作来实现视频中动作边界的检测，则基于帧数不相同的视频帧序列是无法对时间段的长短不一致的动作候选区域进行并行处理，如此则会降低动作边界的检测效率。基于此，线性插值采样模块130从时序单向特征中等比例采样出起始时刻和结束时刻对应的n帧视频帧的特征，即截取得到待识别特征，所述待识别特征为时序单向特征中的局部特征。例如，动作候选区域a的起始时刻和结束时刻对应为第1s、第3s，从时序单向特征中选出起始时刻和结束时刻对应的特征a的起始时刻和结束时刻也对应为第1s、第3s，进而等比例采样出起始时刻和结束时刻对应的n帧视频帧，再从时序单向特征中截取出n帧视频帧的特征；动作候选区域b的起始时刻和结束时刻对应为第4s、第9s，从时序单向特征中选出起始时刻和结束时刻对应的特征b的起始时刻和结束时刻也对应为第4s、第9s，进而等比例采样出起始时刻和结束时刻对应的n帧视频帧，再从时序单向特征中截取出n帧视频帧的特征。进而，为了通过系统的gpu的batch(批处理)操作来实现视频中动作边界的检测，即按照同一的格式从特征a和特征b中均需截取格式相同的待识别特征，如0-1s的待识别特征，分别是待识别特征a和待识别特征b，待识别特征a和待识别特征b均包括了n帧视频帧的特征。此时待识别特征a和待识别特征b的起始时刻和结束时刻与上述动作候选区域a和动作候选区域b的起始时刻和结束时刻没有任何关系。可以理解为，待识别特征a和待识别特征b分别为新的视频片段对应的时序单向特征，二者的起始时刻为第0s，结束时刻为第1s。也就是，线性插值采样模块130输出的待识别特征的格式是一致的，即均是n帧视频帧的特征，也就是输入到待识别特征140的待识别特征的格式是一致的。如此可以通过gpu的batch操作实现视频中动作边界的检测，提高检测效率。
49.动作检测网络140，用于根据动作候选区域以及待识别特征确定动作片段对应的动作类别、实际起始时刻以及实际结束时刻。具体的，动作检测网络140包括两个全连接层，
记为第一全连接层和第二全连接层，第一全连接层用于根据待识别特征得到动作候选区域的动作类别，第二全连接层根据待识别特征输出起始时刻的变化量和结束时间的变化量。可以理解的是，由于输入到待识别特征140的待识别特征的时间段长度是一致的，假设其中一个待识别特征为待识别特征a，待识别特征a对应的动作候选区域a的起始时刻为第1s，结束时刻对应为第3s，待识别特征a的起始时刻为0，结束时刻为第1s，通过第二全连接层对待识别特征处理后，输出的新的起始时刻为第0.3s，新的结束时刻为第0.8s，那么起始时刻的变化量为第0.3s，结束时刻为1-0.8＝0.2s，即第0.2s，则动作候选区域a的实际起始时刻为第1.2s，实际结束时刻为第2.8s。如果通过第一全连接层输出的动作候选区域a的动作类别为跑步，则动作检测网络140的输出包括：动作候选区域a的动作类别为跑步、动作候选区域a的实际起始时刻为第1.2s以及实际结束时刻为第2.8s，实现了视频中动作片段边界的准确检测和识别。
50.可选的，如图2所示，所述时序动作提名网络包括边界敏感网络111和提名选择模块112，边界敏感网络111与提名选择模块112连接。可以理解的是，时序动作提名网络110也称为proposal网络，提名选择模块112也称为proposal选择模块，边界敏感网络111可以是bmn(boundary-matching network)网络或其他边界敏感网络。由于类似于bmn网络等一些边界敏感网络，在提名时采用峰值筛选动作起止点，导致提名数量大量减少且每个视频数生成的proposal个数不一致，进而导致网络无法进行batch处理。本发明在边界敏感网络111的基础上新增了改进的提名选择模块112，即提名选择模块112包括矩阵乘法和排序过滤，通过改进的提名选择模块112不仅能快速计算出所有的提名，还可以使得网络可以进行batch处理，提高网络的准确率。
51.可选的，如图3所示，时序单向特征处理模块120包括依次连接的n个时序单向卷积，每个时序单向卷积具有空洞系数，且任意相邻的两个时序单向卷积的空洞系数之间的比值相同。其中，时序单向卷积表示为suconv，空洞系数的英文为dilation，表示为d。为每个时序单向卷积设置空洞系数后，时序单向特征包括每一视频帧的图像特征以及每一视频帧之前每间隔d帧前的视频帧的图像特征。例如，d＝2，1s-3s中包括10帧视频帧，其中当前视频帧是第7帧，可以理解为时序单向特征包括第1帧的图像特征、第4帧的图像特征和第7帧的图像特征。
52.现有的卷积算子的实现是在空间域发展起来的，目前不管是二维卷积还是一维卷积都是以特征在空域或者时序的中心为采样点，中心两边或者四周为卷积计算区域。对于一维卷积来说，这样会导致在进行一维卷积计算时当前视频帧的感受野包含的前后信息，特别是在感受野越来越大的深层特征里面包含的后面信息越来越多，容易导致在增加感受野的同时融入过多不必要的信息，使得最终的预测结果边界不准确。
53.基于上述的不足，本发明在为了增加感受野的同时，不引入过多不必要的信息，并且不引入巨大的计算量，本发明提出了一种包括n个时序单向卷积的时序单向特征处理模块120，时序单向卷积的具体计算方式为在进行卷积计算时，以卷积最右点作为锚点，卷积的最终结果为该锚点的结果值。
54.例如，视频特征为f，f＝{f1,f2,...,fj},f∈rd，如果使用一个1x3的时序单向卷积对f进行卷积操作，假设卷积参数s为{w
j-2
,w
j-1
,wj},wj∈r
dx1
，那么对于当前特征fj，卷积操
作后的结果为为了不引入巨大的计算量，在新提出的卷积算子s的基础上增加空洞系数，即对于1x3的卷积来讲d＝1时计算方式如上述例子所示。如果d＝2时对于当前特征fj来说，卷积操作后的结果为通过为时序单向卷积设置空洞系数可以降低计算量。
55.基于上述的动作边界检测模型，本发明提供了一种模型训练方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。如图4所示，本发明的模型训练方法，包括以下步骤：
56.步骤s210：获取样本视频的视频特征和标注信息。
57.本实施例中，样本视频是用于模型训练的素材视频，获取到样本视频之后，提取样本视频的视频特征，以及对样本视频中的不同视频片段进行标注，得到标注信息。标注信息和视频特征用于后续动作边界检测模型的训练。其中，标注信息包括样本视频中动作片段对应的标注类别、标注起始时刻和标注结束时刻，例如1s-3s为跳舞，则动作片段对应的标注类别是跳舞，标注起始时刻为第1s，标注起始时刻为第3s。
58.具体的，步骤s210之前还包括：
59.基于预先训练的分类网络提取所述样本视频中每一视频帧的图像特征向量；
60.根据所述每一视频帧的图像特征向量生成所述视频特征。
61.应理解的是，分类网络是预先训练好的，分类网络例如是双流网络(tsn，temporal segment networks)，其用于视频特征的提取。将样本视频输入分类网络，分类网络提取样本视频中每一视频帧的图像特征向量，然后将每一视频帧的图像特征向量组成特征向量序列并输出，从而得到视频特征。
62.步骤s220：将所述视频特征输入时序动作提名网络，得到动作候选区域。
63.时序动作提名网络，即proposal网络是事先选取的。由于proposal网络不进行处理或者处理不当会有两个影响效果的点，一是proposal网络太多，会导致抽取的特征数量太多，使得计算效率减慢，二是有效的proposal网络不多，不利于动作检测网络的学习。因此，需要事先准备多个proposal网络，然后根据各个proposal网络的输出结果为每个proposal网络进行打分，得到每个proposal网络的置信率，然后选择置信率靠前的proposal网络作为最终所需的proposal网络；例如，选择置信率靠最大的proposal网络作为最终所需的proposal网络。
64.具体的，将视频特征输入时序动作提名网络，得到动作候选区域，动作候选区域为时序动作提名网络预测的起始时刻和结束时刻之间的视频片段，也就是动作候选区域包括了预测的动作的起始时刻和结束时刻。其中，起始时刻和结束时刻是基于样本视频的整个时长时间的，例如，样本视频的时长是20s,预测的舞蹈动作的起始时刻是第1s，结束时刻是第3s。
65.步骤s230：将所述视频特征输入时序单向特征处理模块，输出所述动作候选区域对应的时序单向特征。
66.视频特征输入时序动作提名网络的同时，还将视频特征输入时序单向特征处理模
块。由于人类视觉感知系统的特殊性，人类观测时序信息是通过之前的时序序列信息以及当前看到的信息来推断当前发生的事件。基于此，时序单向特征处理模块对视频特征进行处理，得到动作候选区域对应的时序单向特征，时序单向特征包括动作结束时以及动作结束之前的特征，不包括动作结束之后还没有发生的信息，即时序单向特征是融合了动作结束时以及动作结束之前的特征，且时序单向特征中的特征信息是单向性的。
67.步骤s240：将所述起始时刻、所述结束时刻和所述时序单向特征输入线性插值采样模块，输出待识别特征。
68.所述待识别特征为所述线性插值采样模块根据所述起始时刻和所述结束时刻从所述时序单向特征中截取的局部特征，也就是时序单向特征包括了待识别特征，且待识别特征也是单向性的。
69.由于时序动作提名网络输出的动作候选区域的起始时刻和结束时刻所形成的时间段的长短是不一致的，如果通过系统的gpu的batch操作来实现模型训练，则是无法对时间段的长短不一致的动作候选区域进行并行处理，如此则会降低模型训练的效率。
70.具体的，将起始时刻、结束时刻和时序单向特征输入线性插值采样模块之后，线性插值采样模块从时序单向特征中选出起始时刻和结束时刻对应的特征之后，再从选出的起始时刻和结束时刻对应的特征中截取待识别特征。
71.例如，动作候选区域a的起始时刻和结束时刻对应为第1s、第3s，从时序单向特征中选出起始时刻和结束时刻对应的特征a的起始时刻和结束时刻也对应为第1s、第3s；动作候选区域b的起始时刻和结束时刻对应为第4s、第6s，从时序单向特征中选出起始时刻和结束时刻对应的特征b的起始时刻和结束时刻也对应为第4s、第6s；进而，为了通过系统的gpu的batch(批处理)操作来实现模型训练，即按照同一的格式从特征a和特征b中均需截取格式相同的待识别特征，如0-1s的待识别特征，分别是待识别特征a和待识别特征b，此时待识别特征a和待识别特征b的起始时刻和结束时刻与上述动作候选区域a和动作候选区域b的起始时刻和结束时刻没有任何关系。可以理解为，时待识别特征a和待识别特征b分别为新的视频片段对应的时序单向特征，二者的起始时刻均为第0s，结束时刻均为第1s。也就是，线性插值采样模块输出的不同的待识别特征的时间段长度是一致的，即输入到动作检测网络的待识别特征的时间段长度是一致的。如此可以通过gpu的batch操作实现模型训练，有利于提高模型训练的效率。
72.步骤s250：将所述起始时刻、所述结束时刻和所述待识别特征输入动作检测网络，输出所述动作候选区域对应的动作类别、实际起始时刻以及实际结束时刻。
73.分别得到起始时刻、结束时刻和待识别特征之后，将起始时刻、结束时刻和待识别特征输入动作检测网络，动作检测网络输出动作候选区域对应的动作类别、实际起始时刻以及实际结束时刻。其中，动作类别为最终识别的类别，实际起始时刻为最终识别的起始时刻，实际结束时刻为最终识别的结束时刻，实际起始时刻与时序动作提名网络输出的起始时刻具有差异，以及实际结束时刻与时序动作提名网络输出的结束时刻具有差异。
74.步骤s260：根据所述视频特征、所述标注信息和所述动作类别、所述实际起始时刻以及所述实际结束时刻对所述动作边界检测模型进行联合训练，得到训练后的所述动作边界检测模型。
75.得到动作候选区域对应的动作类别、实际起始时刻以及实际结束时刻之后，将标
注信息、动作候选区域对应的动作类别、实际起始时刻以及实际结束时刻输出到相应的损失函数中，分别计算动作类别对应的损失值、实际起始时刻对应的损失值以及实际结束时刻对应的损失值。如果动作类别对应的损失值、实际起始时刻对应的损失值以及实际结束时刻对应的损失值均大于或者等于对应的阈值，则继续通过视频特征对动作边界检测模型进行训练；如果动作类别对应的损失值、实际起始时刻对应的损失值以及实际结束时刻对应的损失值均小于对应的阈值，则停止动作边界检测模型的训练，得到训练后的动作边界检测模型。其中，损失函数包括两种，一种用于计算动作类别的损失，另一种计算起止时刻的损失。例如，通过cross entropy loss计算动作类别的损失，通过smoothl1 loss计算起止时刻的损失。
76.或者是，按照预先设定的训练次数对动作边界检测模型进行迭代训练，如果迭代训练达到了预先设定的训练次数，则认为动作边界检测模型的误差在允许的范围内，即误差很小，则停止动作边界检测模型的训练，得到训练后的动作边界检测模型。
77.本实施例根据上述技术方案，不仅提高了动作边界检测模型的训练速度，还提高了检测视频中动作类别和动作边界的检测效率和准确性。
78.可选的，步骤s230包括以下步骤：
79.通过所述时序单向特征处理模块从所述视频特征中提取所述动作候选区域对应的每一视频帧的第一图像特征，以及所述视频帧之前的视频帧的第二图像特征；
80.将所述第二图像特征与所述第一图像特征进行单向融合，得到所述时序单向特征。
81.具体的，将视频特征输入时序单向特征处理模块之后，时序单向特征处理模块从视频特征中提取动作候选区域对应的每一视频帧的第一图像特征，以及视频帧之前的视频帧的第二图像特征，然后按照视频帧的顺序将第二图像特征与第一图像特征进行单向融合，得到时序单向特征。例如，空洞系数d＝1，1s-3s中包括10帧视频帧，其中当前视频帧是第7帧，按照视频帧的顺序将第1帧-第6帧的第二图像特征与第7帧的第一图像特征进行单向融合，得到时序单向特征；又例如，空洞系数d＝2，1s-3s中包括10帧视频帧，其中当前视频帧是第7帧，按照视频帧的顺序将第1帧的第二图像特征、第4帧的第二图像特征和第7帧的第一图像特征进行单向融合，得到时序单向特征。其中，时序单向特征中的特性信息具有顺序。得到时序单向特征之后，有利于降低模型训练时的计算量，提高训练效率。
82.可选的，步骤s250包括以下步骤：
83.通过所述动作检测网络识别所述待识别特征，得到所述动作候选区域的动作类别、所述起始时刻的第一变化量以及所述结束时刻的第二变化量；
84.根据所述起始时刻和所述第一变化量确定所述实际起始时刻；以及，
85.根据所述结束时刻和所述第二变化量确定所述实际结束时刻。
86.具体的，得到待识别特征之后，待识别特征也对应有起始时刻和结束时刻，同时将待识别特征以及动作候选区域对应的起始时刻和结束时刻输入到动作检测网络，动作检测网络通过第一全连接层识别待识别特征，得到动作候选区域对应的动作类别。动作检测网络通过第二全连接层识别待识别特征，输出待识别特征对应的新的起始时刻和新的结束时刻，然后通过待识别特征对应的新的起始时刻与待识别特征对应的起始时刻作差，得到第一变化量；待识别特征对应的新的结束时刻与待识别特征对应的结束时刻作差到的，得到
volatilexexory)，例如磁盘存储器。如图5所示，作为一种存储介质的存储器1002中可以包括模型训练程序；而处理器1001可以用于调用存储器1002中存储的模型训练程序，并执行以下操作：
98.获取样本视频的视频特征和标注信息；
99.将所述视频特征输入时序动作提名网络，得到动作候选区域，所述动作候选区域为所述时序动作提名网络预测的起始时刻和结束时刻之间的视频片段；
100.将所述视频特征输入时序单向特征处理模块，输出所述动作候选区域对应的时序单向特征；
101.将所述起始时刻、所述结束时刻和所述时序单向特征输入线性插值采样模块，输出待识别特征，所述待识别特征为所述线性插值采样模块根据所述起始时刻和所述结束时刻从所述时序单向特征中截取的局部特征；
102.将所述起始时刻、所述结束时刻和所述待识别特征输入动作检测网络，输出所述动作候选区域对应的动作类别、实际起始时刻以及实际结束时刻；
103.根据所述视频特征、所述标注信息和所述动作类别、所述实际起始时刻以及所述实际结束时刻对所述动作边界检测模型进行联合训练，得到训练后的所述动作边界检测模型。
104.进一步的，处理器1001可以用于调用存储器1002中存储的模型训练程序，并执行以下操作：
105.通过所述时序单向特征处理模块从所述视频特征中提取所述动作候选区域对应的每一视频帧的第一图像特征，以及所述视频帧之前的视频帧的第二图像特征；
106.将所述第二图像特征与所述第一图像特征进行单向融合，得到所述时序单向特征。
107.进一步的，处理器1001可以用于调用存储器1002中存储的模型训练程序，并执行以下操作：
108.通过所述动作检测网络识别所述待识别特征，得到所述动作候选区域的动作类别、所述起始时刻的第一变化量以及所述结束时刻的第二变化量；
109.根据所述起始时刻和所述第一变化量确定所述实际起始时刻；以及，
110.根据所述结束时刻和所述第二变化量确定所述实际结束时刻。
111.进一步的，处理器1001可以用于调用存储器1002中存储的模型训练程序，并执行以下操作：
112.根据所述标注信息和所述动作类别、所述实际起始时刻以及所述实际结束时刻，确定动作类别损失值、起始时刻损失值以及结束时刻损失值；
113.在所述动作类别损失值小于第一阈值、所述起始时刻损失值小于第二阈值以及所述结束时刻损失值小于第三阈值时，停止所述动作边界检测模型的训练，得到训练后的所述动作边界检测模型。
114.进一步的，处理器1001可以用于调用存储器1002中存储的模型训练程序，并执行以下操作：
115.基于预先训练的分类网络提取所述样本视频中每一视频帧的图像特征向量；
116.根据所述每一视频帧的图像特征向量生成所述视频特征。
117.本实施例根据上述技术方案，提高了动作边界检测模型的训练速度和准确度。
118.本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
119.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
120.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
121.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
122.应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
123.尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
124.显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢中流刘恒利啟东江利勤钟凯宇
技术所有人：中国移动通信集团有限公司
我是此专利的发明人

上一篇：一种聚氨酯抛光垫的抛光层及其应用的制作方法
上一篇：垂直领域数据空间系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。