基于注意力特征优化的行人马路场景人群运动追踪方法与流程

文档序号:29500209发布日期:2022-04-06 16:51阅读:123来源:国知局
基于注意力特征优化的行人马路场景人群运动追踪方法与流程

1.本发明涉及属于计算机视觉领域,特别地,涉及一种用于行人马路场景的基于注意力模块进行特征优化的密集人群运动追踪方法。


背景技术:

2.密集人群运动追踪在计算机视觉领域的是一个重要的挑战,而且在行人马路场景下去追踪行人的运动趋势,能防止公路事故的发生,在工业界具有重要的意义。在密集人群运动追踪的方法中,主要的算法流程是先对包含密集人群场景的视频帧进行特征提取,根据提取到的行人特征,每个目标个体都会被检测出来,通过识别一段连续视频序列中每个目标个体的位置,就可以预测出这些目标个体的运动趋势了。
3.目前,有不少方法用于进行密集人群运动追踪。一方面,通过在视频帧中提取颜色和轮廓等低级特征,一些方法被提出用于识别密集人群中目标个体的位置;另一方面,一些方法通过提取语义信息和时序信息等高级特征,在视频序列中精确地检测出目标个体的位置。
4.然而在现实场景中人群密度不断增加,提取以上传统特征的模型不足以应付高密度人群中检测目标个体位置的挑战。所以,具有强大特征学习能力的深度学习(deep learning)模型就被用于在密集人群场景中提取每个目标个体的特征。但是深度学习模型需要具有很强计算能力的设备去运行,而且深度学习模型处理数据的时间较长,不能对接收的视觉数据进行实时反馈。在实际场景例如行人过马路场景中,是需要检测算法对现场接收的视觉数据进行实时处理和反馈。正因如此,即使深度学习模型在很多检测任务中达到高精度,但它并不适用于行人过马路等实际场景的目标检测。
5.由于注意力机制(attention mechanism)具有强大的特征提取能力而被用于提取视觉数据中目标的特征。为了能在行人马路场景中提取每个目标个体的特征,本发明提出了一个新的基于注意力机制模块去获取行人马路场景中密集人群的目标特征。此外,在特征提取的过程中,原视频帧的一部分细节信息可能会丢失,为了很好地保存这些细节信息,在本发明提出的基于注意力机制模块中还包含了用于特征优化的处理以保存这些重要的细节信息。因此,选取一个包含特征模板、高斯混合模型和运动趋势预测算法的密集人群运动追踪框架作为基本模型,把本发明提出的可以优化特征的注意力机制模块加入到该基本模型中,可以有效地识别目标个体在密集人群中的准确位置,从而准确预测其运动趋势。
6.综上,解决上述问题的意义在于:为行人马路等场景的密集人群运动追踪任务,提供一种基于注意力模块完成特征优化的方法,该方法不仅能提取更可靠的高级特征,还能防止原视频帧中的细节信息丢失。


技术实现要素:

7.本发明提供了一种基于注意力特征优化的行人马路场景人群运动追踪方法,该方法通过基于注意力机制模块对视频帧的特征图进行优化,可以在提取高质量特征的同时,
也有效地保存在特征提取过程中容易丢失的视频帧的重要细节信息;有效提取更可靠的特征,精确地在密集人群运动追踪任务中识别每个目标的位置。
8.本发明的技术方案如下:
9.一种基于注意力特征优化的行人马路场景人群运动追踪方法,包括以下步骤:s1.基本模型选取:基本模型包括特征模板、高斯混合模型和运动趋势预测算法;s2.搭建基于注意力机制模块:将注意力机制模块加入到基本模型的特征提取部分中;s3.通过注意力机制模块改进基本模型。
10.优选的,在上述基于注意力特征优化的行人马路场景人群运动追踪方法中,在步骤s2中,两次注意力机制操作被用于获取高质量特征,而每次完成注意力机制运算后,都会通过有效的特征融合方式帮助注意力机制的输出结果保留原视频帧的细节信息。
11.优选的,在上述基于注意力特征优化的行人马路场景人群运动追踪方法中,在步骤s2中,包括在基本模型的特征提取部分加入能提取高级特征与实现特征优化的基于注意力机制模块。
12.优选的,在上述基于注意力特征优化的行人马路场景人群运动追踪方法中,在步骤s3中,视频帧先被输入至包含基于注意力机制模块的特征提取部分中;然后特征提取部分把能准确识别目标个体位置的高质量特征图传送至人群运动轨迹预测部分中;经算法处理,人群运动轨迹预测部分会输出包含目标个体运动轨迹的结果图。
13.优选的,在上述基于注意力特征优化的行人马路场景人群运动追踪方法中,特征提取部分中,特征模板从被输入的视频帧中提取特征并输出该视频帧的特征图;然后特征图会输入至上述的基于注意力机制模块中提取高质量特征并进行特征优化;已优化的特征图从基于注意力机制模块中输出后,会被输入至高斯混合模型中进行处理,从而输出包含目标个体位置的高斯分布特征图,该高斯分布特征图会作为特征提取部分的结果被输出,然后被输入至人群运动轨迹预测部分。
14.根据本发明的技术方案,产生的有益效果是:
15.与现有的主要提取低级特征或高级特征的传统算法相比,本发明方法因具有基于注意力机制模块,不仅能提取高质量的高级特征,还能通过有效的特征融合方式防止原视频帧中的细节信息丢失。因为基于注意力机制模块能生成高质量的特征图,所以这些特征图能让高斯混合模型更精准地识别出目标个体的位置,从而让运动趋势预测算法更精准地预测目标的运动轨迹。在测试实验中,通过在行人过马路场景的数据集进行测试,包含基于注意力机制模块的模型所达到的精准度高于不包含该模块的模型的精准度。
16.另一方面,与基于深度学习的模型相比较,本发明主要能在获取视频帧数据后,实时进行数据处理并输出结果;而深度学习模型的算法复杂度比较大,所以不能实时处理视频数据。因此,从响应时间的角度考虑,本发明比深度学习模型更适用于行人马路场景中的人群运动追踪任务。
17.为了更好地理解和说明本发明的构思、工作原理和发明效果,下面结合附图,通过具体实施例,对本发明进行详细说明如下:
附图说明
18.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体
实施方式或现有技术描述中所需要使用的附图作简单地介绍。
19.图1是实现本发明的基于注意力模块的密集人群运动追踪方法的流程图;
20.图2是本发明的基于注意力模块的密集人群运动追踪模型所涉及的算法的流程图;
21.图3是本发明的特征提取部分的流程图;以及
22.图4是本发明的基于注意力机制模块的示意图。
具体实施方式
23.为使本发明的目的、技术方法及优点更加清晰,下面结合附图及具体实例,对本发明做进一步的详细说明。这些实例仅仅是说明性的,而并非对本发明的限制。
24.在密集人群运动轨迹预测的模型中,视频帧会先输入至特征提取部分去提取目标个体的特征,然后生成的特征图则被输入至高斯混合模型中进行运算,从而识别出目标个体所在的位置。当一段视频序列的所有目标个体的位置都被识别出来时,则可以通过运动趋势预测算法去把这一段视频序列的目标个体的运动趋势或运动轨迹都预测出来。在此过程中,获取的特征质量影响着目标个体位置识别的准确度。因此,提取高质量的特征图有利于准确识别出目标个体的位置并预测其运动轨迹。为了达到这个目的,本发明提出一个新的基于注意力机制模块进行特征提取与优化,并把该模块加入到包含特征模板、高斯混合模型和运动趋势预测算法的密集人群运动追踪框架中,在获取高级特征的同时,也能防止特征丢失原视频帧的重要细节信息。
25.如图1所示,本发明的基于注意力模块的密集人群运动追踪方法,包括以下步骤:
26.s1.基本模型选取,其中,基本模型包括特征模板、高斯混合模型和运动趋势预测算法。由于需要在行人马路场景中追踪密集人群的运动趋势,因此选取包含特征模板、高斯混合模型和运动趋势预测算法的密集人群运动追踪模型作为基本模型。该基本模型运算量不大,所以能在行人过马路场景中实时处理数据。
27.s2.搭建基于注意力机制模块:在基本模型的特征提取部分加入能提取高级特征与实现特征优化的基于注意力机制模块。在该步骤中,两次注意力机制操作被用于获取高质量特征,而每次完成注意力机制运算后,都会通过有效的特征融合方式帮助注意力机制的输出结果保留原视频帧的细节信息。在该注意力机制模块中,不仅语义信息等高级特征可以被提取出来,还能通过特征融合的办法恢复在特征提取过程中所丢失的目标个体细节信息。因此,该基于注意力机制模块所产生的高质量特征图能有效地帮助模型框架去检测出行人过马路场景中目标个体的位置。
28.s3.通过注意力机制模块改进基本模型。通过把基于注意力机制模块加入到基本模型的包含基于注意力机制模块的特征提取部分中,可以对特征提取部分中所提取的特征图进一步优化并生成高质量特征图。从该注意力机制模块所生成的高质量特征图,能有效地被高斯混合模型用于目标个体位置的识别。
29.在该步骤中,视频帧先被输入至包含基于注意力机制模块的特征提取部分中;然后特征提取部分把能准确识别目标个体位置的高质量特征图传送至人群运动轨迹预测部分中;经算法处理,人群运动轨迹预测部分会输出包含目标个体运动轨迹的结果图。在特征提取部分中,基本模型的特征模板从被输入的视频帧中提取特征并输出该视频帧的特征
图;然后特征图会输入至基于注意力机制模块中提取高质量特征并进行特征优化;已优化的特征图从基于注意力机制模块中输出后,会被输入至高斯混合模型中进行处理,从而输出包含目标个体位置的高斯分布特征图,高斯分布特征图会作为特征提取部分的结果被输出,然后被输入至人群运动轨迹预测部分。
30.本发明模型的实现流程如图2所示。首先,一张包含行人过马路场景的视频帧会被特征提取部分(t1)接收,并生成高质量的特征图;然后,运动趋势预测算法(t2)会接收来自特征提取部分的特征图,进而根据特征图中的目标个体特征去预测目标个体的运动轨迹。最终,一张能显示目标个体运动轨迹的结果图会作为最终结果被输出。
31.为了能准确地预测出目标个体的运动轨迹,用于完成运动追踪任务的框架需要获取高质量的密集人群特征图,从而把每一帧中目标个体的位置准确地检测出来。所以在本发明的基本模型中,一个能提取高质量特征图的基于注意力机制模块被提出并加入到本发明基本模型的特征提取部分中。如图3所示,在改进后的特征提取部分中,预先设置好的特征模板会先从被输入的视频帧中提取相关特征,从而生成特征图。其中,该部分的特征模板是在被输入的视频帧中所获取的一部分区域,而该区域会被当作卷积核与视频帧进行卷积运算,然后生成出特征图。接着,经特征模板所提取的特征图被会被输入到本发明所提出的新的基于注意力机制模块中实现进一步的特征提取与优化。当该模块生成出高质量特征图后,所输出的特征图会被输入到高斯混合模型中,用于识别每个目标个体在视频帧中的位置。最后,从高斯混合模型中输出的包含目标个体位置信息的高斯分布特征图,会被输入运动趋势预测算法(t2)用来追踪运动目标。
32.在本发明的基于注意力机制模块中,其算法流程如图4所示。首先,特征模板所产生的特征图f1以及在f1中选出的特定区域特征(即图4中的选中区域特征)r1会在第一次注意力机制处理中进行卷积运算(即,一层卷积操作,conv),然后卷积运算的结果会进行归一化处理。经归一化处理完后,作为第一次注意力机制运算的结果,特征图f1会被输出。由于特征图f1中包含着很多原视频帧的细节信息,所以为了防止这些细节信息丢失,本发明通过有效的特征融合方式,把这些细节信息加入到f1中。其实现公式如下:
33.f2=(f1*α1+f1*β1)*f134.其中,特征图f2表示经特征融合后得到的特征图;α1与β1表示加权平均运算公式中的系数。在图4中,表示加权平均运算;表示相乘运算。
35.当获取特征图f2后,该特征图会进行第二次注意力机制运算处理。与第一次注意力机制运算类似,在第二次注意力机制运算处理中,特征图f2会跟在f2中选出的特定区域特征(即图4中的选中区域特征)r2进行一层卷积操作,卷积操作的结果会进行归一化处理。经归一化后,特征图f2会从第二次注意力机制运算中输出。
36.最后,为了把原视频帧中目标个体的细节信息用于进一步优化特征图f2,则通过以下公式来实现:
37.f3=f1*α2+f2*β238.其中,f3表示该注意力机制模块的最终输出特征图,其包含高质量的语义特征与目标个体的细节信息,α2与β2表示该加权平均运算公式中的系数,最后,f3会被高斯混合模型接收并用于识别目标个体的位置。
39.本发明使用改进的基于注意力机制模块用于密集人群运动追踪任务,该改进的注
意力机制模块可以在提取语义信息等高级特征的同时,也能有效地对所提取的特征进行优化,从而防止在特征提取的过程中丢失原输入数据中的重要信息。通过把该注意力机制模块加入到用于密集人群运动追踪的基本模型,能产生更高质量的目标个体的特征,从而帮助模型更精准地识别出每个目标个体的位置,进而更好预测目标个体在一段视频序列中的运动趋势。
40.为了验证本发明的性能,本发明在行人马路场景中的数据集进行测试,加入注意力机制模块的模型(本发明模型)得到的结果准确率比没有加入注意力机制模块的模型得到的结果准确率高(如表1所示)。
41.表1:消融实验数据:加入注意力机制模块的模型(本发明模型)与没有加入注意力机制模块的模型进行消融实验得到的数据。
[0042] 准确率(%)没有加入注意力机制模块的模型57.63加入注意力机制模块的模型(本发明模型)59.98
[0043]
以上说明是依据发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制,依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1