动作边界检测模型、模型训练方法、设备及存储介质与流程

文档序号：31127988发布日期：2022-08-13 04:21阅读：来源：国知局

技术特征：
1.一种动作边界检测模型，其特征在于，所述动作边界检测模型包括：时序动作提名网络，用于根据视频特征预测动作候选区域，其中，所述动作候选区域为所述时序动作提名网络预测的起始时刻和结束时刻之间的视频片段；时序单向特征处理模块，用于根据所述视频特征提取所述动作候选区域对应的时序单向特征；线性插值采样模块，用于基于所述动作候选区域，截取所述时序单向特征中的待识别特征；动作检测网络，用于根据所述动作候选区域以及所述待识别特征确定动作片段对应的动作类别、实际起始时刻以及实际结束时刻。2.如权利要求1所述的动作边界检测模型，其特征在于，所述时序动作提名网络包括：边界敏感网络；提名选择模块，所述边界敏感网络与所述提名选择模块连接，所述提名选择模块包括矩阵乘法和排序过滤。3.如权利要求1所述的动作边界检测模型，其特征在于，所述时序单向特征处理模块包括依次连接的n个时序单向卷积，每个所述时序单向卷积具有空洞系数，且任意相邻的两个所述时序单向卷积的空洞系数之间的比值相同。4.一种模型训练方法，其特征在于，应用于如权利要求1-3中任一项所述的动作边界检测模型，所述模型训练方法包括：获取样本视频的视频特征和标注信息；将所述视频特征输入时序动作提名网络，得到动作候选区域，所述动作候选区域为所述时序动作提名网络预测的起始时刻和结束时刻之间的视频片段；将所述视频特征输入时序单向特征处理模块，输出所述动作候选区域对应的时序单向特征；将所述起始时刻、所述结束时刻和所述时序单向特征输入线性插值采样模块，输出待识别特征，所述待识别特征为所述线性插值采样模块根据所述起始时刻和所述结束时刻从所述时序单向特征中截取的局部特征；将所述起始时刻、所述结束时刻和所述待识别特征输入动作检测网络，输出所述动作候选区域对应的动作类别、实际起始时刻以及实际结束时刻；根据所述视频特征、所述标注信息和所述动作类别、所述实际起始时刻以及所述实际结束时刻对所述动作边界检测模型进行联合训练，得到训练后的所述动作边界检测模型。5.如权利要求4所述的模型训练方法，其特征在于，所述将所述视频特征输入时序单向特征处理模块，输出所述动作候选区域对应的时序单向特征的步骤包括：通过所述时序单向特征处理模块从所述视频特征中提取所述动作候选区域对应的每一视频帧的第一图像特征，以及所述视频帧之前的视频帧的第二图像特征；将所述第二图像特征与所述第一图像特征进行单向融合，得到所述时序单向特征。6.如权利要求4所述的模型训练方法，其特征在于，所述将所述起始时刻、所述结束时刻和所述待识别特征输入动作检测网络，输出所述动作候选区域对应的动作类别、实际起始时刻以及实际结束时刻的步骤包括：通过所述动作检测网络识别所述待识别特征，得到所述动作候选区域的动作类别、所
述起始时刻的第一变化量以及所述结束时刻的第二变化量；根据所述起始时刻和所述第一变化量确定所述实际起始时刻；以及，根据所述结束时刻和所述第二变化量确定所述实际结束时刻。7.如权利要求4所述的模型训练方法，其特征在于，所述根据所述视频特征、所述标注信息和所述动作类别、所述实际起始时刻以及所述实际结束时刻对所述动作边界检测模型进行联合训练，得到训练后的所述动作边界检测模型的步骤包括：根据所述标注信息和所述动作类别、所述实际起始时刻以及所述实际结束时刻，确定动作类别损失值、起始时刻损失值以及结束时刻损失值；在所述动作类别损失值小于第一阈值、所述起始时刻损失值小于第二阈值以及所述结束时刻损失值小于第三阈值时，停止所述动作边界检测模型的训练，得到训练后的所述动作边界检测模型。8.如权利要求4所述的模型训练方法，其特征在于，所述获取样本视频的视频特征和标注信息的步骤之前，还包括：基于预先训练的分类网络提取所述样本视频中每一视频帧的图像特征向量；根据所述每一视频帧的图像特征向量生成所述视频特征。9.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型训练程序，所述模型训练程序被所述处理器执行时实现如权利要求4-8中任一项所述的模型训练方法的步骤。10.一种存储介质，其特征在于，其上存储有模型训练程序，所述模型训练程序被处理器执行时实现权利要求4-8中任一项所述的模型训练方法的步骤。

技术总结
本发明公开了动作边界检测模型、模型训练方法、设备及存储介质，该动作边界检测模型包括：时序动作提名网络用于根据视频特征预测动作候选区域；时序单向特征处理模块，用于根据视频特征提取动作候选区域对应的时序单向特征；线性插值采样模块，用于基于动作候选区域，截取时序单向特征中的待识别特征；动作检测网络，用于根据动作候选区域以及待识别特征确定动作片段对应的动作类别、实际起始时刻以及实际结束时刻。本发明提高了检测视频中动作类别和动作边界的检测效率和准确性。和动作边界的检测效率和准确性。和动作边界的检测效率和准确性。

技术研发人员：谢中流刘恒利啟东江利勤钟凯宇
受保护的技术使用者：中国移动通信集团有限公司
技术研发日：2022.05.11
技术公布日：2022/8/12

完整全部详细技术资料下载

当前第2页1 2