基于时间一致性对比学习的动作规范性检测方法和装置

文档序号:30497379发布日期:2022-06-22 06:24阅读:142来源:国知局
基于时间一致性对比学习的动作规范性检测方法和装置

1.本发明涉及智能视频监控及深度学习领域,尤其涉及一种基于时间一致性对比学习的动作规范性检测方法和装置。


背景技术:

2.医护人员始终走在抗击疫情的前线,保卫着广大人民群众的生命安全。防护装备是医护人员的重要保护屏障,可减少因暴露导致的高感染率,医护人员规范地穿脱防护服是预防感染的重要措施,若未按规范穿脱防护服存在高感染的风险。因此规范穿脱流程,能有效避免因个别人员感染导致整个团队被隔离的问题产生,从而降低非战斗减员。
3.不仅医护人员需遵守规范流程,在其他高感染风险作业领域人员均需要遵守消毒和个人防护装备规范流程,现有对动作流程规范性的约束多是靠人员培训及个人注意,存在高感染风险,亟需一种智能化监控手段实时监测人体行为,并判断行为动作流程是否符合规范性。
4.现有的行为识别方法分为两大类,基于有监督和无监督的方法,基于有监督的方法需要标注大量样本以提升识别的准确率,标注成本很高;基于无监督的方法不需要标注样本,但识别率低于有监督的方法。基于对比学习的方法属于无监督,该方法使用大量的无标注数据,采用自监督预训练模式,学习数据的先验知识分布,再在下游任务(图像分类/目标检测等)中进行迁移学习,以提升下游任务的性能。
5.对比学习通过假设来自同一个样本经过数据增强后的数据是同类,其他只要不是来自同一个样本的数据就是不同类,利用对比损失函数最大化同类间的相似性,最小化不同类间的相似性来学习特征。在相同标注数据下,对比学习加迁移学习在图像分类中已超越有监督的方法,显著减少了标注成本。但该假设应用于无剪切视频分类任务中,存在较大问题,当视频片段跨越两个或多个动作时,会使得算法难以学习到有区别性的特征,从而影响在下游任务中的识别精度。需改进算法使得具有相似动作但来自于不同样本的数据均应归为同类,具有不同动作的数据归为不同类。


技术实现要素:

6.为了解决现有技术中存在的上述技术问题,本发明提出了一种低成本、高准确率的基于时间一致性对比学习的动作规范性检测方法和装置,其具体技术方案如下:一种基于时间一致性对比学习的动作规范性检测方法,包括以下步骤:步骤一,构建第一数量标注和第二数量未标注的摄像头采集视频的数据集,第一数量小于第二数量;步骤二,对第二数量未标注视频数据进行强、弱增强处理,分别得到强、弱增强数据;步骤三,将强、弱增强数据输入自编码特征提取网络中提取出强、弱增强数据的特征;
步骤四,将强、弱增强数据的特征输入时间一致性行为动作对齐网络,得到强、弱增强图像特征,后在由强、弱增强图像特征构成的图像特征序列对间查找相似动作最近邻帧并对齐,得到图像特征序列对间相似动作起始帧和结束帧集合;步骤五,将强、弱增强图像特征和图像特征序列对间相似动作起始帧和结束帧集合输入时空判别性特征提取网络,结合对比学习网络,完成对第二数量未标注视频数据的自监督预训练;步骤六,利用自监督预训练后的自编码特征提取网络参数,在自编码特征提取网络后加入分类网络,然后采用第一数量标注视频数据完成网络迁移学习,最后通过视频帧间行为类别的变化判断视频图像的动作规范性。
7.进一步的,所述步骤二具体为:设无剪切视频数据为 ,为第i帧视频,为总的视频帧数,从视频x中采样得到的图像序列,其中是高宽为h
×
w的rgb图像,,为采样频率,经过数据增强后,强增强后的图像序列为,即强增强数据,弱增强后的图像序列为,即弱增强数据;其中,其中弱数据增强方式为颜色增强结合尺度变换,强数据增强方式为视频片段置换结合尺度变换;视频片段置换为:将视频分割为不大于m的任意段,且随机打乱分割后的片段。
8.进一步的,所述步骤三具体为:使用3d resnet50作为自编码器即自编码特征提取网络,将和经过3d resnet50自编码器,映射得到高维特征,其中表示或,,为3d resnet50函数,,为输出特征向量维度,即通过自编码器后分别得到强增强数据的特征和弱增强数据的特征。
9.进一步的,所述步骤四包括以下子步骤:步骤4.1,将强增强数据的特征和弱增强数据的特征经过时空全局平均池化层、全连接层和卷积层,输出图像特征序列和,其中为第i帧强增强图像特征,为第i帧弱增强图像特征;步骤4.2,对于步骤4.1输出的图像特征序列和,所述的图像特征序列在彼此间查找相似动作最近邻帧,首先计算第i帧强增强图像特征在中的最近邻帧,得到后再反向计算在中的最近邻帧,若i=k则图像特征序列对间相似动
作对齐成功;为计算损失函数,将中第i帧标记为1,其余帧标记为0,预测值,其中,,表示图像特征序列中的第k帧强增强图像特征,并利用交叉熵损失函数计算预测值与真实标签之间的损失:, ,,其中和分别表示图像特征序列中的第j和k帧弱增强图像特征,表示和间的相似度度量函数,表示真实标签,表示预测值;步骤4.3,将步骤4.2中图像特征序列对中i=k的特征位置进行记录,针对输入图像特征序列对,记录i=k位置组成相似动作起始帧集合和动作结束帧集合,其中n为对齐成功的图像特征序列对数,和分别表示图像特征序列对齐起始位置,和分别表示图像特征序列对齐结束位置。
10.进一步的,所述步骤五包括以下子步骤:步骤5.1,将步骤4.1输出的图像特征序列和,经过多层感知机层,输出感知特征序列和,其中为第i帧强增强图像感知特征图,为第i帧弱增强图像感知特征图;步骤5.2,根据步骤4.3输出相似动作起始帧和结束帧集合和,统一相似动作序列长度,取, ρ为最小序列长度,按最小序列长度采样步骤5.1输出感知特征序列和起始和结束位置,得到子序列特征图对,记为同类正样本,其余未对齐图像序列为不同类负样本,其中正样本个数为n,负样本个数为2ρb-n,b表示输入的视频数量,利用余弦相似度计算,定义对比损失函数:
其中q表示和中所有待计算相似性的片段,是温度超参数,表示q和k之间的余弦相似度,其中k代表和。
11.进一步的,所述步骤六具体为:保留步骤5.1自编码器特征提取网络,锁定网络各层预训练参数,并在自编码特征提取网络后加入分类网络,所述分类网络包括全连接层和softmax层,输出行为类别及其置信度,然后采用第一数量标注视频数据完成网络迁移学习,使用交叉熵损失函数对网络进行反向传播,并通过批量梯度下降法不断更新网络参数,进行迭代训练,最后通过输入测试集数据,输出当前帧图像行为类别及其置信度,判断出动作规范性。
12.一种基于时间一致性对比学习的动作规范性检测装置,包括一个或多个处理器,用于实现所述的基于时间一致性对比学习的动作规范性检测方法。
13.一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的基于时间一致性对比学习的动作规范性检测方法。
14.本发明的有益之处在于:1.本发明实现了一种低成本、高性能和智能化的动作规范性检测方法。
15.2.针对现有对比学习同类和不同类样本划分规则,应用于无剪切视频行为分类时,导致行为识别精度较低问题,提出了一种时间一致性对比学习网络,对齐不同样本间相似动作特征图归为同类,其他非相似动作特征图归为不同类,并改进网络损失函数,有效提升行为识别准确率。
16.3.本发明能有效识别多种动作并判断动作流程是否规范,在采集的消毒人员个人防护装备脱操作数据集中,准确率达95.16%,有效减少人工监察成本,预防动作流程不规范导致的感染风险,适用于规范行为的检测环境,有着广泛的应用价值。
附图说明
17.图1是本发明的基于时间一致性对比学习的动作规范性检测方法流程示意图;图2是本发明实施例的基于时间一致性对比学习的动作规范性检测方法网络架构图;图3是本发明实施例的消毒人员个人防护装备脱操作流程行为标注样例图;图4是本发明的时间一致性行为对齐网络示意图;图5是本发明的网络训练阶段流程示意图;图6是本发明的多类别行为识别混淆矩阵效果图;图7是本发明的基于时间一致性对比学习的动作规范性检测装置结构示意图。
具体实施方式
18.为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
19.如图1和图2所示,本发明的基于时间一致性对比学习的动作规范性检测方法,首先将第一数量标注和第二数量未标注的通过摄像头采集的视频构建数据集;然后将未标注视频经过强弱数据增强后提取特征,再输入时间一致性行为对齐网络,输出特征图和不同样本间相似动作起始与结束帧集合,映射集合在特征图上对应子特征图,构造同类与不同类子特征图样本,送入对比学习网络提取时空判别性特征;再将第一数量标注视频送入预训练后的网络进行迁移学习,输出行为类别;最后通过帧间行为类别变化判断行为规范性,若不规范则发出预警;具体包括以下步骤:步骤一,构建第一数量标注和第二数量未标注的摄像头采集视频的数据集,第一数量小于第二数量。
20.第二数量未标注数据用于对比学习,第一数量标注数据用于迁移学习。在视频行为起始帧标注关键动作类别标签,在两种关键动作起始帧间,标注行为阶段标签。本发明采用自监督方式训练网络进行特征提取,无需耗费人力标注大量即第二数量的训练数据集,但为验证算法有效性及后续在少量即第一数量的标注样本中进行迁移学习,需标注少量即第一数量的训练集和测试集。如图3所示,以消毒人员个人防护装备脱操作流程为例,标注视频中6种行为起始帧关键行为,两种行为间为行为阶段,包括8个行为阶段。本实施例中共采集训练集1240段,验证集480段,其中训练集仅标注300段,验证集中视频全部标注。
21.步骤二,对第二数量未标注视频数据进行强、弱增强处理,分别得到强、弱增强数据。
22.设置强弱两种数据增强方式,其中弱数据增强方式为颜色增强结合尺度变换,强数据增强方式为视频片段置换结合尺度变换;视频片段置换为:将视频分割为不大于m的任意段,且随机打乱分割后的片段。
23.设无剪切视频数据为,为第i帧视频,为总的视频帧数,本发明输入为从视频x中采样得到的图像序列,其中是高宽为h
×
w的rgb图像,,为采样频率,经过数据增强后,强增强后的图像序列为,即强增强数据,弱增强后的图像序列为,即弱增强数据。
24.步骤三,将强、弱增强数据输入自编码特征提取网络中提取出强、弱增强数据的特征。
25.将强增强数据和弱增强数据分别输入自编码特征提取网络中提取图像序列时空特征,具体的,本发明使用3d resnet50作为自编码器即自编码特征提取网络,将和经过3d resnet50自编码器,映射得到高维特征,其中表示或,
,为3d resnet50函数,, =1028为输出特征向量维度,即通过自编码器后分别得到强增强数据的特征和弱增强数据的特征。
26.步骤四:将强、弱增强数据的特征输入时间一致性行为动作对齐网络,得到强、弱增强图像特征,后在由强、弱增强图像特征构成的图像特征序列对间查找相似动作最近邻帧并对齐,得到图像特征序列对间相似动作起始帧和结束帧集合。
27.将强增强数据的特征和弱增强数据的特征输入时间一致性行为动作对齐网络,计算特征图像序列对自监督对齐损失函数,得到特征图像序列对间相似动作起始帧和结束帧集合;然后送入下一个步骤的时空判别性特征学习网络,利用对比学习进一步提取行为动作判别性特征。
28.具体的,所述步骤四通过以下子步骤来实现:步骤4.1,构建时间一致性行为对齐网络头,将强增强数据的特征和弱增强数据的特征经过时空全局平均池化层、全连接层和卷积层,输出图像特征序列和,其中为第i帧强增强图像特征,为第i帧弱增强图像特征;步骤4.2,对于步骤4.1输出的图像特征序列和,所述的图像特征序列在彼此间查找相似动作最近邻帧,流程如图4所示,首先计算第帧强增强图像特征在中的最近邻帧,得到后再反向计算在中的最近邻帧,若i=k则图像特征序列对间相似动作对齐成功;为计算损失函数,将中第i帧标记为1,其余帧标记为0,预测值,其中,,表示图像特征序列中的第k帧强增强图像特征,并利用交叉熵损失函数计算预测值与真实标签之间的损失:,,
,其中和分别表示图像特征序列中的第j和k帧弱增强图像特征,表示和间的相似度度量函数,表示真实标签,表示预测值。
29.步骤4.3,将步骤4.2中图像特征序列对中i=k的特征位置进行记录,针对输入图像特征序列对,记录i=k位置组成相似动作起始帧集合和动作结束帧集合,其中n为对齐成功的图像特征序列对数,和分别表示图像特征序列对齐起始位置,和分别表示图像特征序列对齐结束位置。
30.步骤五,将强、弱增强图像特征和图像特征序列对间相似动作起始帧和结束帧集合输入时空判别性特征提取网络,结合对比学习网络,完成对第二数量未标注视频数据的自监督预训练。
31.将步骤4.1输出的强、弱增强图像特征送入时空判别性特征提取网络,并根据步骤4.3输出的图像特征序列对间相似动作起始帧和结束帧集合,映射集合在强、弱增强图像特征上对应子特征图,构造同类与不同类子特征图样本,集合内子特征图对为同类,其他不在集合内的图像序列特征图对归为不同类,利用对比学习网络,计算对比损失函数,最大化同类间的相似性,最小化不同类间的相似性,有效提取行为动作判别性特征,完成对第二数量未标注视频数据的自监督预训练。
32.具体的,所述步骤五通过以下子步骤来实现:步骤5.1,构建时空判别性特征提取网络头,将步骤4.1输出的图像特征序列和,经过多层感知机层,输出感知特征序列和,其中为第i帧强增强图像感知特征图,为第i帧弱增强图像感知特征图;步骤5.2,设每次输入的视频数量为b,经过强、弱数据增强处理后,得到2b个图像序列;根据步骤4.3输出相似动作起始帧和结束帧集合和,统一相似动作序列长度,取,ρ为最小序列长度,按最小序列长度采样步骤5.1输出感知特征序列和起始和结束位置,得到子序列特征图对,记为同类正样本,其余未对齐图像序列为不同类负样本,其中
正样本个数为n,负样本个数为2ρb-n,利用余弦相似度计算,定义对比损失函数:其中q表示和中所有待计算相似性的片段,是温度超参数,表示q和k之间的余弦相似度,其中k代表和。
33.综上,如图5所示,为减少样本标注成本,先在无标签数据集上进行自监督预训练,再在少量即第一数量的样本数据集上进行迁移学习;预训练阶段,基于两个损失函数对网络进行反向传播,并通过批量梯度下降法不断更新网络参数,直到总损失函数值变化小于设定的阈值,说明训练完成,停止训练,总损失函数计算公式如下:其中,为两个损失函数的权重值。
34.步骤六,利用自监督预训练后的自编码特征提取网络参数,在自编码特征提取网络后加入分类网络,然后采用第一数量标注视频数据完成网络迁移学习,最后通过视频帧间行为类别的变化判断视频图像的动作规范性。
35.保留步骤5.1自编码器特征提取网络,锁定网络各层预训练参数,并在自编码特征提取网络后加入分类网络,所述分类网络包括全连接层和softmax层,输出行为类别及其置信度,将网络在标注300段视频的训练集中进行微调,使用交叉熵损失函数对网络进行反向传播,并通过批量梯度下降法不断更新网络参数,迭代100000次后停止训练。
36.在测试阶段,输入视频首次累计16帧图像,后续每次更新最新一帧图像到16帧图像队列中,经过数据增强,自编码器特征提取网络及分类网络头后,输出当前帧图像行为类别及其置信度,判断出动作规范性。
37.在数据标注阶段已根据行为动作先后顺序标注行为类别标签,以消毒操作人员个人防护装备脱操作为例,如图3所示行为动作流程所对应标注标签顺序为:(0)脱手套-》(1)手消毒-》(2)脱护目镜-》(1)手消毒-》(4)脱防护服-》(5)脱外层鞋套-》(6)扔防护服-》(0)脱手套-》(1)手消毒,记录帧间行为标签值,若输出动作标签变化不符合上述动作流程规范,则发出预警信息。
38.在消毒人员个人防护装备脱操作数据集上,使用300段标注视频作为训练集,在测试集上,slowfast算法识别准确率为85.36%,为验证时间一致性行为对齐网络头的作用,将未加入时间一致性行为对齐网络头的网络进行训练和测试,识别准确率为90.15%,如图6所示为时间一致性行为对比学习网络多类别行为识别混淆矩阵,从图中可知多类别行为识别
平均准确率为95.16%,在同等标注成本下,准确率提升显著。
39.与前述基于时间一致性对比学习的动作规范性检测方法的实施例相对应,本发明还提供了基于时间一致性对比学习的动作规范性检测装置的实施例。
40.参见图7,本发明实施例提供的基于时间一致性对比学习的动作规范性检测装置,包括一个或多个处理器,用于实现上述实施例中的基于时间一致性对比学习的动作规范性检测方法。
41.本发明基于时间一致性对比学习的动作规范性检测装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本发明基于时间一致性对比学习的动作规范性检测装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
42.上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
43.对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
44.本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于时间一致性对比学习的动作规范性检测方法。
45.所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
46.以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1