动作识别方法、装置、计算机设备及存储介质与流程

文档序号:33129587发布日期:2023-02-01 07:24阅读:79来源:国知局
动作识别方法、装置、计算机设备及存储介质与流程

1.本技术涉及计算机视觉技术领域,尤其涉及一种动作识别方法、装置、计算机设备及存储介质。


背景技术:

2.在车辆行驶过程中,很多车辆驾驶员都或多或少有过影响行驶安全的动作行为,疲劳驾驶、看手机或抽烟等情况。
3.在相关技术中,往往是通过一个固定在车内的摄像头,采集车辆驾驶过程中驾驶员的驾驶操作视频,并结合计算机视觉技术对采集到的驾驶操作视频进行分析识别,以识别出驾驶员影响行驶安全的动作行为。但是,由于车内狭窄空间的遮挡问题,导致无法准确识别出一些影响行驶安全的危险动作。


技术实现要素:

4.本技术提出了一种动作识别方法、装置、计算机设备及存储介质,以提高动作识别的准确性。
5.第一方面,本技术实施例提供了一种动作识别方法,所述方法包括:获取目标时间段的多个目标视频,每个所述目标视频中均包含有目标用户,所述多个目标视频是通过多种预设拍摄视角拍摄得到的,所述多个目标视频与所述多种预设拍摄视角一一对应;针对每个所述目标视频,通过多种预设特征提取方式提取特征信息,得到每个所述目标视频对应的多种第一特征信息;针对每个所述目标视频,融合每个所述目标视频对应的所述多种第一特征信息,得到每个所述目标视频对应的第二特征信息;将每个所述目标视频对应的第二特征信息输入至预先训练的第一识别模型,得到第一识别结果;基于所述第一识别结果,确定所述目标用户是否在所述目标时间段内做出目标动作,所述目标动作为多种预设动作中的任一预设动作。
6.第二方面,本技术实施例提供了一种动作识别装置,所述装置包括:视频获取模块、特征提取模块、特征融合模块、识别模块和动作确定模块。视频获取模块,用于获取目标时间段的多个目标视频,每个所述目标视频中均包含有目标用户,所述多个目标视频是通过多种预设拍摄视角拍摄得到的,所述多个目标视频与所述多种预设拍摄视角一一对应;特征提取模块,用于针对每个所述目标视频,通过多种预设特征提取方式提取特征信息,得到每个所述目标视频对应的多种第一特征信息;特征融合模块,用于针对每个所述目标视频,融合每个所述目标视频对应的所述多种第一特征信息,得到每个所述目标视频对应的第二特征信息;识别模块,用于将每个所述目标视频对应的第二特征信息输入至预先训练的第一识别模型,得到第一识别结果;动作确定模块,用于基于所述第一识别结果,确定所述目标用户是否在所述目标时间段内做出目标动作,所述目标动作为多种预设动作中的任一预设动作。
7.第三方面,本技术实施例提供了一种计算机设备,包括:一个或多个处理器;存储
器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
8.第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述的方法。
9.本技术提供的方案中,获取目标时间段的多个目标视频,每个目标视频中均包含有目标用户,其中,多个目标视频是通过多种预设拍摄视角拍摄得到的,多个目标视频与所述多种预设拍摄视角一一对应;针对每个目标视频,通过多种预设特征提取方式提取特征信息,得到每个目标视频对应的多种第一特征信息;针对每个目标视频,融合每个目标视频对应的多种第一特征信息,得到每个目标视频对应的第二特征信息;将每个目标视频对应的第二特征信息输入至预先训练的第一识别模型,得到第一识别结果;基于第一识别结果,确定目标用户是否在目标时间段内做出目标动作,其中,目标动作为多种预设动作中的任一预设动作。也就是说,通过提取每种预设拍摄视角下的目标视频的多种第一特征信息,并对每种预设拍摄视角下的多种第一特征信息进行融合,得到每种预设拍摄视角下的第二特征信息;然后,在基于多种预设拍摄拍摄视角下的第二特征信息,识别用户是否在目标时间段内做出目标动作。如此,结合多视角的特征进行动作识别,增加了目标视频在不同角度的表征,进而提高了动作识别的准确性。
附图说明
10.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
11.图1示出了本技术一实施例提供的动作识别方法的流程示意图。
12.图2示出了本技术一实施例提供的第一识别模型的网络架构图。
13.图3示出了本技术另一实施例提供的动作识别方法的流程示意图。
14.图4示出了图3中步骤s260在一种实施方式中的子步骤的流程示意图。
15.图5示出了本技术又一实施例提供的动作识别方法的流程示意图。
16.图6示出了本技术实施例提供的一种拍摄视角的画面示意图。
17.图7示出了本技术实施例提供的另一种拍摄视角的画面示意图。
18.图8示出了本技术实施例提供的又一种拍摄视角的画面示意图。
19.图9示出了本技术实施例提供的再一种拍摄视角的画面示意图。
20.图10是根据本技术一实施例提供的一种动作识别装置的框图。
21.图11是本技术实施例的用于执行根据本技术实施例的动作识别方法的计算机设备的框图。
22.图12是本技术实施例的用于保存或者携带实现根据本技术实施例的动作识别方法的程序代码的存储单元。
具体实施方式
23.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的
附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
24.需要说明的是,在本技术的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如s110、s120等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。以及,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或子模块的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或子模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或子模块。
25.发明人提出一种动作识别方法、装置、计算机设备及存储介质,结合目标视频在多视角下的特征,增加了动作片段在不同角度的表征,以此提高动作识别精度。下面对本技术实施例提供的动作识别方法进行详细描述。
26.请参照图1,图1为本技术一实施例提供的一种动作识别方法的流程示意图。下面将结合图1对本技术实施例提供的动作识别方法进行详细阐述。该动作识别方法可以包括以下步骤:
27.步骤s110:获取目标时间段的多个目标视频,每个所述目标视频中均包含有目标用户,所述多个目标视频是通过多种预设拍摄视角拍摄得到的,所述多个目标视频与所述多种预设拍摄视角一一对应。
28.在本实施例中,针对车辆驾驶安全领域,对驾驶员动作识别有着强大的需求,基于此,可以对驾驶员在驾驶过程中的驾驶操作视频进行动作识别,以识别驾驶员是否在驾驶过程中存在影响行驶安全的危险驾驶操作。基于此,上述目标用户可以是驾驶员,目标视频则是该驾驶员在目标时间段内的驾驶操作视频,目标时间段可以是实时时间段,此时,通过实时检测驾驶员是否存在影响行驶安全的危险驾驶操作,进而对驾驶员进行实时提醒,避免因危险驾驶操作导致的交通安全事故。当然,目标时间段也可以是历史时间段,此时,可以是交通管理局、客运中心、大型车队或公交集团等根据实际需求选择的某驾驶员的历史时间段的驾驶操作视频,以便对驾驶员的历史驾驶行为进行规范化分析,进而基于分析结果对驾驶员进行定期提醒、处罚、管理和约束。
29.当然,本实施例中的动作识别也可以应用到其他领域,例如,工业操作领域,在该领域下可以检测工人的操作是否规范;又例如,教育领域,在该领域下可以检测考试过程中,是否存在学生出现交头接耳或其他作弊的操作,本实施例对此不作限制。
30.其中,多种预设拍摄视角可以是根据实际需求预先设置的多种拍摄视角,进而可以预先根据多种预设拍摄视角,在车辆中部署多个摄像头,多个摄像头的拍摄视角与多种预设拍摄视角一一对应。进而则可以通过多个摄像头采集到上述目标时间段的多种预设拍摄视角下的多个目标视频,多个目标视频与多种预设拍摄视角一一对应。
31.步骤s120:针对每个所述目标视频,通过多种预设特征提取方式提取特征信息,得到每个所述目标视频对应的多种第一特征信息。
32.可以理解地,不同的预设特征提取方式所提取出的特征信息之间存在差异,为了更加全面地获知到目标视频中所包含视频内容的特征信息,可以针对每个目标视频,通过多种预设特征提取方式提取特征信息,得到每个目标视频对应的多种第一特征信息,该多种第一特征信息即为针对每个目标视频的更为多样化且更加全面的特征信息。
33.步骤s130:针对每个所述目标视频,融合每个所述目标视频对应的所述多种第一特征信息,得到每个所述目标视频对应的第二特征信息。
34.进一步地,在提取到每个目标视频对应的多种第一特征信息之后,按照预设融合方式,针对每个目标视频,融合每个目标视频对应的多种第一特征信息,得到每个目标视频对应的第二特征信息。其中,预设融合方式包括但不限于简单相加、级联或注意力机制等方式,也就是说,第二特征信息是对多种第一特征信息进行单相加、级联或注意力机制等方式进行融合得到的融合特征信息。
35.步骤s140:将每个所述目标视频对应的第二特征信息输入至预先训练的第一识别模型,得到第一识别结果。
36.在本实施例中,将融合得到的每个目标视频对应的第二特征信息输入至预先训练的第一识别模型中进行识别,得到第一识别结果。其中,第一识别结果包括所述多种预设动作对应的多个第一置信度,所述多种预设动作与所述多个第一置信度一一对应。
37.步骤s150:基于所述第一识别结果,确定所述目标用户是否在所述目标时间段内做出目标动作,所述目标动作为多种预设动作中的任一预设动作。
38.基于此,可以基于前述多个第一置信度,确定目标用户是否在目标时间段内做出目标动作。其中,目标动作为多种预设动作中的任一预设动作,示例性地,在车辆驾驶安全领域,多种预设动作可以包括看手机、打电话、吸烟以及疲劳驾驶、弯腰捡东西等影响驾驶安全的行为动作。
39.具体地,判断每个第一置信度是否大于预设置信度,其中,第一置信度以及预设置信度均是小于1的正数,第一置信度用于表征目标用户在目标时间段内做出预设动作的概率值;若所述多种预设动作中目标动作对应的第一置信度大于预设置信度,表征目标用户在目标时间段中做出目标动作的概率值非常大,因此,可以确定目标用户在目标时间段内做出目标动作。
40.可选地,若多种预设动作中不存在目标动作对应的第一置信度大于预设置信度,表征目标用户在目标时间段做出目标动作的概率值非常小,因此,可以确定目标用户在目标时间段内未做出目标动作。此时,在车辆驾驶安全领域,则可以确定出驾驶员在目标时间段内未做出影响驾驶安全的行为动作。
41.除此之外,在确定出目标用户在目标时间段内做出目标动作的情况下,还可以确定所述目标用户在所述目标时间段内做出所述目标动作的开始时间以及结束时间,即在目标时间段内定位到目标用户做出目标动作的具体时间段。
42.在一些实施方式中,前述第一识别模型的模型网络架构可以是如图2所示的网络架构图,该网络架构是端到端的faster-tad模型的相似框架mv-tal(mulit-view temporal action localization)。其中,第一识别模型的输入为视角1、视角2以及视角3分别对应的
第二特征信息,即前述提到的每个目标视频对应的第二特征信息,分别通过三个基类模块对三个视角的第二特征信息进行卷积以及对卷积后的第二特征信息进行级联,时间评估模块通过级联后特征信息确定出动作的开始时间和结束时间,以及候选评估模块可以评估出该动作为不同预设动作的第一置信度,进而得到预设动作的候选簇。以及,还可以通过三个局部-全局编码器对三个视角经过卷积后的特征信息进行进一步的局部-全局特征的提取,并对提取的局部-全局特征进行级联,然后结合级联的局部-全局特征以及前述级联后的特征信息,并基于前述候选簇,进一步确定出目标时间段中目标用户做出了哪一种预设动作。
43.也就是说,本实施例中可以通过第一预设模型确定出目标用户在目标时间段内是否做出目标动作,并且,同时能够确定出在目标时间段中具体哪一段时间段做出了该目标动作。可选地,可以在目标视频上添加上目标动作对应的动作类型标签以及目标动作的开始标签和结束标签,以指示目标动作的开始时间和结束时间。
44.在本实施例中,结合多视角的特征进行动作识别,增加了目标视频在不同角度的表征,进而提高了动作识别的准确性;并且,能够通过从视频中定位到目标用户做出目标动作的具体时间段,以增加对目标用户的目标动作段的监测。
45.请参照图3,图3为本技术另一实施例提供的一种动作识别方法的流程示意图。下面将结合图3对本技术实施例提供的动作识别方法进行详细阐述。该动作识别方法可以包括以下步骤:
46.步骤s210:获取目标时间段的多个目标视频,每个所述目标视频中均包含有目标用户,所述多个目标视频是通过多种预设拍摄视角拍摄得到的,所述多个目标视频与所述多种预设拍摄视角一一对应。
47.在本实施例中,步骤s210的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
48.步骤s220:针对每个所述目标视频,通过多个预先训练的第二识别模型中的特征提取模块提取特征信息,得到每个所述目标视频对应的多种第一特征信息。
49.在本实施例中,可以以video swin transformer模型为初始模型,使用不同的训练样本集,预先训练得到多个第二识别模型。进而可以针对每个目标视频,通过多个第二识别模型中的特征提取模块提取特征信息,其中,特征提取模块即为编码器模块。当然,第二识别模型还可以是基于其他可以用于对视频进行特征提取及动作识别的模型训练得到,本实施例对此不作限制。
50.在一些实施方式中,多个预先训练的第二识别模型可以包括:基于第一步长的特征提取方式以及第一类型标签训练初始模型得到的、基于第二步长的特征提取方式以及第一类型标签训练初始模型得到的、基于第一步长的特征提取方式以及第二类型标签训练初始模型得到的、以及基于第二步长的特征提取方式以及第二类型标签训练初始模型得到的。其中,第一步长可以是6秒、第二步长可以是3秒,第一类型标签可以是原始标签,即针对提取的样本视频的部分视频片段的整段特征的原始标签,第二类型标签可以是针对提取的样本视频的部分视频片段的开始片段特征的开始标签、中间片段特征的中间标签以及结束片段特征的结束标签。其中,提取出携带有第二类型标签的特征信息相较于携带有第一类型标签的特征信息,具备有部分视频片段中开始、中间以及结束片段的区别额特征,可以理解地一个动作的开始、中间和结束的表意有明显的分别,因此,通过标注开始、中间和结束
三个部分的标签,增加了不同颗粒度动作的表征。
51.具体地,针对每个目标视频,可以分别预先训练多个第二识别模型,将携带有动作类型标签的样本视频集输入至前述初始模型,由初始模型提取样本视频集中样本视频的特征信息,并基于该特征信息进行识别,得到初始识别结果;基于初始识别结果以及每条样本视频携带的动作类型标签,对初始模型进行迭代训练,直至满足第二预设条件,得到训练后的初始模型,作为上述第二识别模型。
52.其中,第二预设条件可以为:第二损失值小于预设值、检测第二损失值不再变化、或者训练次数达到预设次数等。其中,第二损失值可以是基于第二识别结果确定的动作类型与动作类型标签对应的动作类型之间的差异计算得到。可以理解的,在根据样本视频对初始模型进行多个训练周期的迭代训练后,其中,每个训练周期包括多次的迭代训练,不断对初始模型中的参数以及初始特征进行优化,使得上述检测第二损失值越来越小,最后变小为一个固定值,或者小于以上预设值,此时,则表示初始模型已收敛;当然也可以是在训练次数达到预设次数后,确定初始模型已经收敛,此时,则可以将初始模型作为上述第二识别模型。其中,预设值以及预设次数均为预先设置的,也可以根据不同的应用场景对其数值进行调整,本实施例对此不作限制。
53.如此,可以针对每个所述目标视频,可以通过多个预先训练的第二识别模型中的特征提取模块提取特征信息,得到每个目标视频对应的多种第一特征信息。
54.步骤s230:将每个所述目标视频对应的每种所述第一特征信息输入至每种所述第一特征信息对应的所述第二识别模型中的识别模块,得到每个所述第二识别模型对应的第二识别结果,所述第二识别结果包括多种预设动作对应的多个第二置信度,所述多种预设动作与所述多个第二置信度一一对应。
55.进一步地,第二识别模型在通过特征提取模块提取出第一特征信息之后,即可通过第二识别模型中的识别模块,对目标视频进行动作识别,得到每个第二识别模型对应的第二识别结果。其中,第二识别结果包括多种预设动作对应的多个第二置信度,多种预设动作与多个第二置信度一一对应。
56.步骤s240:针对每个所述目标视频,融合每个所述目标视频对应的所述多种第一特征信息,得到每个所述目标视频对应的第二特征信息。
57.步骤s250:将每个所述目标视频对应的第二特征信息输入至预先训练的第一识别模型,得到第一识别结果。
58.在本实施例中,步骤s240至步骤s250的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
59.步骤s260:基于所述第一识别结果以及目标识别模型对应的第二识别结果,确定所述目标用户是否在所述目标时间段内做出所述目标动作,所述目标分类模型为多个所述第二识别模型中的任一模型。
60.在一些实施方式中,请参阅图4,步骤s260可以包括以下步骤s261至步骤s264中的内容:
61.步骤s261:若所述多种预设动作中目标动作对应的第一置信度大于预设置信度,确定所述目标用户做出所述目标动作对应的动作时间段,所述目标动作为多种预设动作中的任一预设动作。
62.步骤s262:获取所述第二识别结果中在所述动作时间段中每种所述预设动作对应的第二置信度中的最大置信度。
63.步骤s263:若所述最大置信度大于或等于所述目标动作对应的第一置信度,确定所述目标用户在所述目标时间段内做出所述最大置信度对应的预设动作。
64.可以理解地,第一识别模型可以根据多种预设拍摄视角下的多种第一特征信息,识别出目标用户是否在目标时间段内做出目标动作,为提高识别准确性,可以结合前述用于多种第二识别模型的识别结果,来最终确定目标用户是否在目标时间段内做出目标动作。换句话说,就是融合第一识别模型的第一识别结果以及第二识别模型的第二识别结果,得到最终的识别结果。具体地,可以融合第一识别模型和多个第二识别模型中的任一模型的识别结果,得到最终识别结果。可选地,也可以融合的第一识别模型和多个第二识别模型中基于第一步长(6秒)的特征提取方式以及第二类型标签(开始、中间和结束)训练初始模型得到的第二识别模型,由于该第二识别模型提取的第一特征信息的颗粒度更细,进而使得自身的识别结果更为准确。
65.具体地,基于第一识别结果,若多种预设动作中目标动作对应的第一置信度大于预设置信度,确定目标用户做出目标动作对应的动作时间段,其中,目标动作为多种预设动作中的任一预设动作。也就是说,此时第一识别模型识别出在目标时间段内目标用户做了目标动作。为避免第一识别模型存在识别错误,则可以进一步确定目标用户做出目标动作对应的动作时间段,然后,再基于第二识别结果,获取第二识别结果中在动作时间段中每种预设动作对应的第二置信度中的最大置信度;此时,最大置信度对应的预设动作,即为目标识别模型所识别出的在目标时间段内目标用户所做的预设动作。
66.具体地,比较最大置信度与目标动作对应的第一置信度的大小,若最大置信度大于或等于目标动作对应的第一置信度,表征目标用户在做出最大置信度对应的预设动作的概率大于做出目标动作的概率,因此,可以确定目标用户在目标时间段内做出的是最大置信度对应的预设动作,而并非第一识别模型识别出的目标动作。
67.步骤s264:若所述最大置信度小于所述目标动作对应的第一置信度,确定所述目标用户在所述目标时间段内做出所述目标动作。
68.可选的,若最大置信度小于目标动作对应的第一置信度,表征目标用户在做出最大置信度对应的预设动作的概率小于做出目标动作的概率,因此,可以确定目标用户在目标时间段内做出的是目标动作,并非是第二识别模型识别出的最大置信度对应的预设动作。
69.在本实施例中,通过融合第一识别模型的第一识别结果和多个第二识别模型中的目标识别模型的第二识别结果,来最终确定目标用户在目标时间段内做出的是哪个预设动作。即通过两个识别模型的识别结果相互制衡纠正,进而提高最终的动作识别的准确性。
70.请参照图5,图5为本技术又一实施例提供的一种动作识别方法的流程示意图。下面将结合图5对本技术实施例提供的动作识别方法进行详细阐述。该动作识别方法可以包括以下步骤:
71.步骤s310:获取样本视频集,所述样本视频集包括每种所述预设拍摄视角拍摄得到的多种所述预设动作的样本视频,每条所述样本视频均携带有其对应的预设动作的动作类型标签。
72.在本实施例中,训练第一识别模型的基础,是前述用于对每个目标视频进行多种第一特征信息进行提取的多个第二识别模型已训练完成,即在可以使用多个第二识别模型中的特征提取模块对每个目标视频进行多种第一特征信息的基础上,再去训练第一识别模型。
73.具体地,首先获取样本视频集,其中,样本视频集包括每种预设拍摄视角拍摄得到的多种预设动作的样本视频,每条样本视频均携带有其对应的预设动作的动作类型标签,例如,打电话标签、看手机标签、抽烟标签、。样本视频集中的多种预设拍摄视角与前述用于第二识别模型进行训练的样本视频集的多种预设拍摄视角是相同的。
74.其中,可以通过掩码模块,对存在遮挡问题的拍摄视角的样本数据进行过滤,例如,请参阅图6,在拍摄视角1下拍摄的样本视频,驾驶员的动作可能是在操作汽车的档位遥杆,也可能是在看手机,即在拍摄视角1下拍摄的样本视频中,对驾驶员的部分动作进行了遮挡,导致无法识别出驾驶员实际在做什么行为动作;此时,拍摄视角1的样本视频即会被掩码模块过滤掉,具体地可以根据样本视频携带的视角标识进行过滤。请参阅图7中的拍摄视角2下的画面、图8中拍摄视角3下的画面以及图9中拍摄视角4中的画面,均能完整地拍摄到用户的手部,即在拍摄视角2、拍摄视角3以及拍摄视角4下拍摄的样本视频,不存在对驾驶员的手部动作的遮挡,有助于模型可以更好地学习到驾驶员在做不同动作时的特征信息。此时,拍摄视角2、拍摄视角3以及拍摄视角4下的样本视频则不会被掩码模块过滤掉。
75.步骤s320:获取所述样本视频集中每条样本视频对应的所述第二特征信息。
76.其中,第二特征信息与前述实施例中目标视频的第二特征信息的提取方式以及融合方式类似,具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
77.步骤s330:将每条所述样本视频对应的所述第二特征信息输入至初始模型,得到第三识别结果。
78.在本实施例中,步骤s330的具体实施方式与前述实施例中将目标视频的每个第二特征信息输入至第一识别模型中的内容相似,可以参阅前述实施例中的内容,在此不再赘述。
79.步骤s340:基于所述第三识别结果以及每条所述样本视频携带的动作类型标签,对所述初始模型进行迭代训练,直至满足第一预设条件,得到训练后的所述初始模型,作为第一识别模型。
80.在本实施例中,可以基于预设损失函数,计算第三识别结果与动作类型标签之间的差异,得到第一损失值,并根据第一损失值对初始模型进行迭代训练,直至所述第一损失值满足第一预设条件,得到训练后的初始模型,作为第一识别模型。
81.其中,第一预设条件为:第一损失值小于预设值、检测第一损失值不再变化、或者训练次数达到预设次数等。可以理解的,在根据样本视频对初始模型进行多个训练周期的迭代训练后,其中,每个训练周期包括多次的迭代训练,不断对初始模型中的参数以及初始特征进行优化,使得上述检测第二损失值越来越小,最后变小为一个固定值,或者小于以上预设值,此时,则表示初始模型已收敛;当然也可以是在训练次数达到预设次数后,确定初始模型已经收敛,此时,则可以将收敛的初始模型作为上述第一识别模型。其中,预设值以及预设次数均为预先设置的,也可以根据不同的应用场景对其数值进行调整,本实施例对此不作限制
82.步骤s350:获取目标时间段的多个目标视频,每个所述目标视频中均包含有目标用户,所述多个目标视频是通过多种预设拍摄视角拍摄得到的,所述多个目标视频与所述多种预设拍摄视角一一对应。
83.步骤s360:针对每个所述目标视频,通过多种预设特征提取方式提取特征信息,得到每个所述目标视频对应的多种第一特征信息。
84.步骤s370:针对每个所述目标视频,融合每个所述目标视频对应的所述多种第一特征信息,得到每个所述目标视频对应的第二特征信息。
85.步骤s380:将每个所述目标视频对应的第二特征信息输入至预先训练的第一识别模型,得到第一识别结果。
86.步骤s390:基于所述第一识别结果,确定所述目标用户是否在所述目标时间段内做出目标动作,所述目标动作为多种预设动作中的任一预设动作。
87.在本实施例中,步骤s350至步骤s390的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
88.在本实施例中,预先利用合适的多种预设拍摄视角的样本视频集训练第一识别模型,其中,合适的多种预设拍摄视角即为能够完整拍摄到用户手部动作的拍摄视角,避免因存在部分遮挡,导致模型无法学习到一些预设动作的动作特征;即使得第一识别模型可以更好地学习到预设动作的动作特征,进而提高了在基于第一识别模型对目标视频进行动作识别的准确性。
89.请参照图10,其中示出了本技术一实施例提供的一种动作识别装置400的结构框图。该装置400可以包括:视频获取模块410、特征提取模块420、特征融合模块430、识别模块440和动作确定模块450。
90.视频获取模块410用于获取目标时间段的多个目标视频,每个所述目标视频中均包含有目标用户,所述多个目标视频是通过多种预设拍摄视角拍摄得到的,所述多个目标视频与所述多种预设拍摄视角一一对应。
91.特征提取模块420用于针对每个所述目标视频,通过多种预设特征提取方式提取特征信息,得到每个所述目标视频对应的多种第一特征信息.
92.特征融合模块430用于针对每个所述目标视频,融合每个所述目标视频对应的所述多种第一特征信息,得到每个所述目标视频对应的第二特征信息。
93.识别模块440用于将每个所述目标视频对应的第二特征信息输入至预先训练的第一识别模型,得到第一识别结果。
94.动作确定模块450用于基于所述第一识别结果,确定所述目标用户是否在所述目标时间段内做出目标动作,所述目标动作为多种预设动作中的任一预设动作。
95.在一些实施方式中,所述第一识别结果包括所述多种预设动作对应的多个第一置信度,所述多种预设动作与所述多个第一置信度一一对应。动作确定模块可以具体用于若所述多种预设动作中目标动作对应的第一置信度大于预设置信度,确定所述目标用户在所述目标时间段内做出所述目标动作,所述目标动作为多种预设动作中的任一预设动作。
96.在该方式下,动作识别装置400还可以包括:时间段确定模块。其中,时间段确定模块可以具体用于在所述若所述多种预设动作中目标动作对应的第一置信度大于预设置信度,确定所述目标用户在所述目标时间段内做出所述目标动作之后,确定所述目标用户在
所述目标时间段内做出所述目标动作的开始时间以及结束时间。
97.在一些实施方式中,特征提取模块420可以具体用于针对每个所述目标视频,通过多个预先训练的第二识别模型中的特征提取模块提取特征信息,得到每个所述目标视频对应的多种第一特征信息。
98.在该方式下,动作识别装置400还可以包括:第二识别模块。其中,第二识别模块可以用于在所述针对每个所述目标视频,通过多个预先训练的第二识别模型中的特征提取模块提取特征信息,得到每个所述目标视频对应的多种第一特征信息之后,将每个所述目标视频对应的每种所述第一特征信息输入至每种所述第一特征信息对应的所述第二识别模型中的识别模块,得到每个所述第二识别模型对应的第二识别结果,所述第二识别结果包括多种预设动作对应的多个第二置信度,所述多种预设动作与所述多个第二置信度一一对应。
99.在该方式下,动作确定模块450可以具体用于基于所述第一识别结果以及目标识别模型对应的第二识别结果,确定所述目标用户是否在所述目标时间段内做出所述目标动作,所述目标分类模型为多个所述第二识别模型中的任一模型。
100.在一些实施方式中,所述第一识别结果包括所述多种预设动作对应的多个第一置信度,所述多种预设动作与所述多个第一置信度一一对应。动作确定模块450可以具体用于:若所述多种预设动作中目标动作对应的第一置信度大于预设置信度,确定所述目标用户做出所述目标动作对应的动作时间段,所述目标动作为多种预设动作中的任一预设动作;获取所述第二识别结果中在所述动作时间段中每种所述预设动作对应的第二置信度中的最大置信度;若所述最大置信度大于或等于所述目标动作对应的第一置信度,确定所述目标用户在所述目标时间段内做出所述最大置信度对应的预设动作;若所述最大置信度小于所述目标动作对应的第一置信度,确定所述目标用户在所述目标时间段内做出所述目标动作。
101.在一些实施方式中,动作识别装置400还可以包括:模型训练模块。其中,模型训练模块可以用于在所述将每个所述目标视频对应的第二特征信息输入至预先训练的第一识别模型,得到第一识别结果之前,获取样本视频集,所述样本视频集包括每种所述预设拍摄视角拍摄得到的多种所述预设动作的样本视频,每条所述样本视频均携带有其对应的预设动作的动作类型标签;获取所述样本视频集中每条样本视频对应的所述第二特征信息;将每条所述样本视频对应的所述第二特征信息输入至初始模型,得到第三识别结果;基于所述第三识别结果以及每条所述样本视频携带的动作类型标签,对所述初始模型进行迭代训练,直至满足第一预设条件,得到训练后的所述初始模型,作为所述第一识别模型。
102.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
103.在本技术所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
104.另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
105.综上所述,获取目标时间段的多个目标视频,每个目标视频中均包含有目标用户,
其中,多个目标视频是通过多种预设拍摄视角拍摄得到的,多个目标视频与所述多种预设拍摄视角一一对应;针对每个目标视频,通过多种预设特征提取方式提取特征信息,得到每个目标视频对应的多种第一特征信息;针对每个目标视频,融合每个目标视频对应的多种第一特征信息,得到每个目标视频对应的第二特征信息;将每个目标视频对应的第二特征信息输入至预先训练的第一识别模型,得到第一识别结果;基于第一识别结果,确定目标用户是否在目标时间段内做出目标动作,其中,目标动作为多种预设动作中的任一预设动作。也就是说,通过提取每种预设拍摄视角下的目标视频的多种第一特征信息,并对每种预设拍摄视角下的多种第一特征信息进行融合,得到每种预设拍摄视角下的第二特征信息;然后,在基于多种预设拍摄拍摄视角下的第二特征信息,识别用户是否在目标时间段内做出目标动作。如此,结合多视角的特征进行动作识别,增加了目标视频在不同角度的表征,进而提高了动作识别的准确性。
106.下面将结合图11对本技术提供的一种计算机设备进行说明。
107.参照图11,图11示出了本技术实施例提供的一种计算机设备500的结构框图,本技术实施例提供的上述方法可以由该计算机设备500执行。该计算机设备包括但不限于笔记本电脑、台式电脑、智能手机、平板电脑以及服务器等设备。
108.本技术实施例中的计算机设备500可以包括一个或多个如下部件:处理器501、存储器502、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器502中并被配置为由一个或多个处理器501执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
109.处理器501可以包括一个或者多个处理核。处理器501利用各种接口和线路连接整个计算机设备500内的各个部分,通过运行或执行存储在存储器502内的指令、程序、代码集或指令集,以及调用存储在存储器502内的数据,执行计算机设备500的各种功能和处理数据。可选地,处理器501可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器501可集成中央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以集成到处理器501中,单独通过一块通信芯片进行实现。
110.存储器502可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。存储器502可用于存储指令、程序、代码、代码集或指令集。存储器502可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储计算机设备500在使用中所创建的数据(比如上述的各种对应关系)等。
111.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
112.在本技术所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械
或其它的形式。
113.另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
114.请参考图12,其示出了本技术实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质600中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
115.计算机可读存储介质600可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质600包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质600具有执行上述方法中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。
116.在一些实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述各方法实施例中的步骤。
117.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1