视频动作自动评分方法、系统、可读存储介质及计算机与流程

文档序号：30433063发布日期：2022-06-15 17:59阅读：200来源：国知局

视频动作自动评分方法、系统、可读存储介质及计算机
1.技术领域
2.本发明涉及图像识别技术领域，特别涉及一种视频动作自动评分方法、系统、可读存储介质及计算机。
3.

背景技术：

4.视频动作自动评分是图像处理和视频分析处理的一个非常重要领域，主要任务就是利用机器学习和人工智能的方法分析和评价视频文件中所包含的人类动作的规范性。目前，以运作识别、动作评分为主的视频智能处理技术在操作性教育培训、医生规范化培养、运动体操、安全健身等领域具有重要的应用价值。
5.对于视频和图像中特征表示，目前主流使用深度学习模型进行空间特征或时空三维特征的提取。如何有效地提取到能支持区分规范性的操作和错误操作，并对规范性进行客观评价的视频级特征，仍然是目前需要解决的问题。这种视频级特征包含操作的时间和空间维度的信息和特征，如何有效地设计计算模型从视频文件中抽取出来，是需要研究的技术问题。
6.

技术实现要素：

7.基于此，本发明的目的是提供一种视频动作自动评分方法、系统、可读存储介质及计算机，以至少解决上述相关技术中的不足。
8.第一方面，本技术实施例提出一种视频动作自动评分方法，包括：步骤一：获取操作视频，并根据所述操作视频生成对应的输出图像序列；步骤二：将所述输出图像序列输入至预设的深度卷积神经模型中进行图像特征提取，得到对应的图像级特征序列；步骤三：利用预设的学习模型对所述图像级特征序列进行时序特征叠加，以生成单帧图像特征序列；步骤四：计算出所述单帧图像特征序列的评分权重，并对所述评分权重进行加权平均处理得到对应的视频级特征；步骤五：根据所述视频级特征判断所述视频数据中的动作规范等级。
9.在其中一些实施例中，所述步骤一包括：以第一预设帧率获取所述操作视频，并将所述操作视频按第二预设帧率提取生成对应的帧率图像序列；计算出所述帧率图像序列中每帧图像的运动中心的坐标，并以所述运动中心为中心生成对应的感兴趣区域；根据所述感兴趣区域对所述图像序列中各图像进行裁剪、缩放以及归一化处理，
以生成对应的输出图像序列。
10.在其中一些实施例中，所述步骤二包括：将所述输出图像序列以单帧图像的形式输入至预训练的深度卷积神经网络模型中进行图像特征提取，得到图像级特征序列以及每帧图像的动作分类标签。
11.在其中一些实施例中，所述步骤三包括：将所述图像级特征序列输入至预设的学习模型中，并根据前后帧图像特征进行组合及优化所述动作分类标签，以得到包含时序特征的单帧图像特征序列；其中，所述图像级特征序列和所述单帧图像特征序列的特征维度不同。
12.在其中一些实施例中，所述步骤四包括：根据所述单帧图像特征序列计算出每帧图像中针对动作评分的注意力权重值，并通过注意力权重加权及均匀划分为预设的多个区段；在所述区段内进行特征平均化，得到对应的视频级特征。
13.第二方面，本技术实施例提供了一种视频动作自动评分系统，包括：获取模块，用于获取操作视频，并根据所述操作视频生成对应的输出图像序列；特征提取模块，用于将所述输出图像序列输入至预设的深度卷积神经模型中进行图像特征提取，得到对应的图像级特征序列；处理模块，用于利用预设的学习模型对所述图像级特征序列进行时序特征叠加，以生成单帧图像特征序列；计算模块，用于计算出所述单帧图像特征序列的评分权重，并对所述评分权重进行加权平均处理得到对应的视频级特征；评分模块，用于根据所述视频级特征判断所述视频数据中的动作规范等级。
14.在其中一些实施例中，所述获取模块包括：获取单元，用于以第一预设帧率获取所述操作视频，并将所述操作视频按第二预设帧率提取生成对应的帧率图像序列；第一计算单元，用于计算出所述帧率图像序列中每帧图像的运动中心的坐标，并以所述运动中心为中心生成对应的感兴趣区域；第一处理单元，用于根据所述感兴趣区域对所述图像序列中各图像进行裁剪、缩放以及归一化处理，以生成对应的输出图像序列。
15.在其中一些实施例中，所述特征提取模块包括：特征提取单元，用于将所述输出图像序列以单帧图像的形式输入至预训练的深度卷积神经网络模型中进行图像特征提取，得到图像级特征序列以及每帧图像的动作分类标签。
16.在其中一些实施例中，所述处理模块包括：第二处理单元，用于将所述图像级特征序列输入至预设的学习模型中，并根据前后帧图像特征进行组合及优化所述动作分类标签，以得到包含时序特征的单帧图像特征序列；其中，所述图像级特征序列和所述单帧图像特征序列的特征维度不同。
17.在其中一些实施例中，所述计算单元包括：第二计算单元，用于根据所述单帧图像特征序列计算出每帧图像中针对动作评分的注意力权重值，并通过注意力权重加权及均匀划分为预设的多个区段；
第三处理单元，用于在所述区段内进行特征平均化，得到对应的视频级特征。
18.第三方面，本技术实施例提供了一种可读存储介质，其上存储有计算机设备程序，该程序被处理器执行时实现如上述第一方面所述的视频动作自动评分方法。
19.第四方面，本技术实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机设备程序，所述处理器执行所述计算机设备程序时实现如上述第一方面所述的视频动作自动评分方法。
20.相比于相关技术，本技术实施例提供的视频动作自动评分方法、系统、可读存储介质及计算机，通过将操作视频转换成对应的输出图像序列，并对输出图像序列进行图像特征提取，以得到对应的图像级特征序列，通过学习模型和图像级特征序列实现对该输出图像序列中单帧图像的时序特征叠加，得到单帧图像特征序列，进而通过单帧图像特征序列实现对该操作视频的动作规范等级评分，只需要获取操作视频，即可实现自动评价该操作视频的动作规范性。
21.本技术的一个或多个实施例的细节在以下附图和描述中提出，以使本技术的其他特征、目的和优点更加简明易懂。
22.附图说明
23.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：图1为本发明第一实施例中视频动作自动评分方法的流程图；图2为图1中步骤s101的详细流程图；图3为图1中步骤s102的详细流程图；图4为图1中步骤s103的详细流程图；图5为图1中步骤s104的详细流程图；图6是本发明第二实施例中视频动作自动评分系统的结构框图；图7是本发明第三实施例中计算机的结构框图。
24.主要元件符号说明：存储器10特征提取模块12处理器20处理模块13计算机程序30计算模块14获取模块11评分模块15如下具体实施方式将结合上述附图进一步说明本发明。
25.具体实施方式
26.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。基于本技术提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
27.显而易见地，下面描述中的附图仅仅是本技术的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本技术应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本技术公开的内容相关的本领域的普通技术人员而言，在本技术揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本技术公开的内容不充分。
28.在本技术中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本技术所描述的实施例在不冲突的情况下，可以与其它实施例相结合。
29.除非另作定义，本技术所涉及的技术术语或者科学术语应当为本技术所属技术领域内具有一般技能的人士所理解的通常意义。本技术所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块（单元）的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本技术所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本技术所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。
30.本技术中所提出的视频动作自动评分方法可以应用于由终端和服务器所构成的硬件环境中。服务器通过网络与终端进行连接，可用于为终端或终端上安装的客户端提供服务(如数据更新服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器提供数据存储服务。
31.上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：wifi(wireless fidelity，无线保真)，蓝牙。终端可以并不限定于为pc、手机、平板电脑等。
32.本技术实施例的动作识别方法可以由服务器来执行，也可以由终端来执行，还可以是由服务器和终端共同执行。其中，终端执行本技术实施例的动作评分方法也可以是由安装在其上的客户端来执行。
33.实施例一请参阅图1，所示为本发明第一实施例中的视频动作自动评分方法，所述方法具体包括步骤s101至s105：s101，获取操作视频，并根据所述操作视频生成对应的输出图像序列；其中，请参阅图2，步骤s101具体包括步骤s1011 ~s1013。
34.s1011，以第一预设帧率获取所述操作视频，并将所述操作视频按第二预设帧率提取生成对应的帧率图像序列；s1012，计算出所述帧率图像序列中每帧图像的运动中心的坐标，并以所述运动中心为中心生成对应的感兴趣区域；s1013，根据所述感兴趣区域对所述图像序列中各图像进行裁剪、缩放以及归一化处理，以生成对应的输出图像序列。
35.在具体实施时，在通过摄像头获取操作视频时，以较高的帧率（30fps及以上）进行录制，再将视频按高帧率提取成为图像序列。
36.在高帧率图像序列上，在相邻的两帧图像上计算shi-tomasi角点，采用lucas
–
kanade光流算法计算稀疏角点的坐标和位移距离；统计上述角点的平均位移距离，而小于平均距离的角点位移判定为视频抖动现象；只有较长的角点位移才判定为操作者的动作所造成的光流轨迹；将整个图像序列按每秒一个区间划分成若干区间，在同一秒内的多张图像为一组，进行局部时间范围内的光流轨迹的生成，并将本组内的光流轨迹进行累加求和，计算积分图像的质心为运动的中心估算值；在得到每帧图像的运行中心并经过中值滤波和均值滤波处理后，再以它为中心按设定的矩形框生成roi，按roi对图像进行裁剪以及缩放，归一化为设定大小的正方形图像；最后在生成基于roi的图像序列时，对图像序列进行均匀抽样得到归一化后的、较低帧率的输出图像序列。
37.s102，将所述输出图像序列输入至预设的深度卷积神经模型中进行图像特征提取，得到对应的图像级特征序列；其中，请参阅图3，步骤s102具体包括步骤s1021。
38.s1021，将所述输出图像序列以单帧图像的形式输入至预训练的深度卷积神经网络模型中进行图像特征提取，得到图像级特征序列以及每帧图像的动作分类标签。
39.在具体实施时，将前面生成的图像序列，以单帧图像的形式送入预训练过的深度卷积神经网络模型进行图像特征的提取，得到图像级特征序列f1，并且得到每帧图像的动作分类标签l1。
40.需要说明的是，在本技术中，深度卷积神经网络模型，是以分类器为主体的图像编码模型，可分解为：主干网络和顶端两个部件，顶端又与所用训练集相关。因此所有模型编码包括三个组成部分：训练所用的数据集+主干+顶端所确定的。
41.其中，顶端是带自注意力层和全连接层的组合形式。
42.该模型能够区别需要检测的操作所包含的各种子动作，比如七步洗手法中内、外、夹、弓、大、立、腕七个洗手子操作。
43.s103，利用预设的学习模型对所述图像级特征序列进行时序特征叠加，以生成单帧图像特征序列；其中，请参阅图4，步骤s103具体包括步骤s1031。
44.s1031，将所述图像级特征序列输入至预设的学习模型中，并根据前后帧图像特征进行组合及优化所述动作分类标签，以得到包含时序特征的单帧图像特征序列；其中，所述图像级特征序列和所述单帧图像特征序列的特征维度不同。
45.在具体实施时，将高维特征序列f1送入基于seq2seq或者transformer模型，在rnn
或transformer模型中将前后帧图像的特征进行组合后重新计算每帧图像的动作分类标签l2，并得到微调后的、包含时空特征的新序列f2。
46.需要说明的是，在本技术中，f1和f2的特征维度是不同的，但是长度是相同的。
47.s104，计算出所述单帧图像特征序列的评分权重，并对所述评分权重进行加权平均处理得到对应的视频级特征；其中，请参阅图5，步骤s104具体包括步骤s1041 ~s1042。
48.s1041，根据所述单帧图像特征序列计算出每帧图像中针对动作评分的注意力权重值，并通过注意力权重加权及均匀划分为预设的多个区段；s1042，在所述区段内进行特征平均化，得到对应的视频级特征。
49.在具体实施时，根据f2或者使用计算f2时生成的中间层特征f2
‘
，（比如，bilstm的输出特征或transformer编码器的输出特征）计算针对动作评分的每帧图像的注意力权重值。
50.通过注意力权重加权各帧图像特征后，将f2序列在时序维度上均匀地划分为预定的若干个区段。
51.在区段内进行特征的平均池化，并且展平后得到固定长度的特征向量，即得到表达整个操作视频的特征向量。
52.s105，根据所述视频级特征判断所述视频数据中的动作规范等级。
53.在具体实施时，在得到视频级的特征后，使用分类器预测操作视频的动作规范性的等级。
54.综上，本发明上述实施例当中的视频动作自动评分方法，通过将操作视频转换成对应的输出图像序列，并对输出图像序列进行图像特征提取，以得到对应的图像级特征序列，通过学习模型和图像级特征序列实现对该输出图像序列中单帧图像的时序特征叠加，得到单帧图像特征序列，进而通过单帧图像特征序列实现对该操作视频的动作规范等级评分，只需要获取操作视频，即可实现自动评价该操作视频的动作规范性。
55.实施例二本发明另一方面还提出一种视频动作自动评分系统，请查阅图6，所示为本发明第二实施例中的视频动作自动评分系统，所述系统包括：获取模块11，用于获取操作视频，并根据所述操作视频生成对应的输出图像序列；进一步的，所述获取模块11包括：获取单元，用于以第一预设帧率获取所述操作视频，并将所述操作视频按第二预设帧率提取生成对应的帧率图像序列；第一计算单元，用于计算出所述帧率图像序列中每帧图像的运动中心的坐标，并以所述运动中心为中心生成对应的感兴趣区域；第一处理单元，用于根据所述感兴趣区域对所述图像序列中各图像进行裁剪、缩放以及归一化处理，以生成对应的输出图像序列。
56.特征提取模块12，用于将所述输出图像序列输入至预设的深度卷积神经模型中进行图像特征提取，得到对应的图像级特征序列；进一步的，所述特征提取模块12包括：特征提取单元，用于将所述输出图像序列以单帧图像的形式输入至预训练的深度
卷积神经网络模型中进行图像特征提取，得到图像级特征序列以及每帧图像的动作分类标签。
57.处理模块13，用于利用预设的学习模型对所述图像级特征序列进行时序特征叠加，以生成单帧图像特征序列；进一步的，所述处理模块13包括：第二处理单元，用于将所述图像级特征序列输入至预设的学习模型中，并根据前后帧图像特征进行组合及优化所述动作分类标签，以得到包含时序特征的单帧图像特征序列；其中，所述图像级特征序列和所述单帧图像特征序列的特征维度不同。
58.计算模块14，用于计算出所述单帧图像特征序列的评分权重，并对所述评分权重进行加权平均处理得到对应的视频级特征；进一步的，所述计算单元14包括：第二计算单元，用于根据所述单帧图像特征序列计算出每帧图像中针对动作评分的注意力权重值，并通过注意力权重加权及均匀划分为预设的多个区段；第三处理单元，用于在所述区段内进行特征平均化，得到对应的视频级特征。
59.评分模块15，用于根据所述视频级特征判断所述视频数据中的动作规范等级。
60.上述各模块被执行时所实现的功能或操作步骤与上述方法实施例大体相同，在此不再赘述。
61.本发明实施例所提供的视频动作自动评分系统，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，系统实施例部分未提及之处，可参考前述方法实施例中相应内容。
62.实施例三本发明还提出一种计算机设备，请参阅图7，所示为本发明第三实施例中的计算机设备，包括存储器10、处理器20以及存储在所述存储器10上并可在所述处理器20上运行的计算机程序30，所述处理器20执行所述计算机程序30时实现上述的视频动作自动评分方法。
63.其中，存储器10至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，sd或dx存储器等）、磁性存储器、磁盘、光盘等。存储器10在一些实施例中可以是计算机设备的内部存储单元，例如该计算机设备的硬盘。存储器10在另一些实施例中也可以是外部存储装置，例如插接式硬盘，智能存储卡（smart media card, smc），安全数字（secure digital, sd）卡，闪存卡（flash card）等。进一步地，存储器10还可以既包括计算机设备的内部存储单元也包括外部存储装置。存储器10不仅可以用于存储安装于计算机设备的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。
64.其中，处理器20在一些实施例中可以是电子控制单元 (electronic control unit，简称ecu，又称行车电脑)、中央处理器（central processing unit, cpu）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器10中存储的程序代码或处理数据，例如执行访问限制程序等。
65.需要指出的是，图7示出的结构并不构成对计算机设备的限定，在其它实施例当中，该计算机设备可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部
件布置。
66.本发明实施例还提出一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的视频动作自动评分方法。
67.本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
68.计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（ram），只读存储器（rom），可擦除可编辑只读存储器（eprom或闪速存储器），光纤装置，以及便携式光盘只读存储器（cdrom）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
69.应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（pga），现场可编程门阵列（fpga）等。
70.以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
71.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：段卫阮军
技术所有人：武汉三际通数字技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。