场景感知方法、场景感知系统、电子设备和存储介质与流程

文档序号:36631118发布日期:2024-01-06 23:20阅读:24来源:国知局
场景感知方法、场景感知系统、电子设备和存储介质与流程

本技术涉及计算机视觉和图像特征提取领域,尤其涉及一种场景感知方法、场景感知系统、电子设备和非暂存性计算机可读存储介质。


背景技术:

1、智能化交通系统、智能监控系统、军事目标检测及智能医学系统等,通过传感器获取场景中的感知数据,如激光雷达感知周围环境的点云数据,摄像头感知周围环境的图像数据,再利用算法对感知数据中的目标特征进行提取,为感知数据赋予语义信息,实现对系统周围的场景的感知,用于系统决策。随着机器学习技术的发展和计算机视觉技术的广泛应用,利用带有机器学习功能的图像特征提取技术对传感器获得的环境感知数据进行特征的实时提取的研究应用具有越来越广泛的应用价值。作为计算机视觉领域的基本任务之一,图像特征提取一般是指从图像中提取出目标物体的特征,如类别和位置等信息,再对这类信息进行处理以达到对目标物体的跟踪,监控或定位等效果。为了达到上述目的,通常采用卷积神经网络(cnn,即convolutional neural network)对图像进行全局分割和处理,再对分割处理后的结果进行整合,进而提取出目标物体的特征。卷积神经网络通常具有机器学习功能,能够利用来源于外部的或者检测环境自反馈的训练用信息自行进行学习,从而提高自身的包括处理速度和精度在内的性能。

2、然而,由于卷积神经网络的全局处理方式,导致其在图像局部区域中的特征提取能力受到局限,如与不同图像区域之间的相对关系和信息交互能力,以及在整个图像区域内的信息捕捉丰富度等都受到了限制。

3、自注意力神经网络的整个网络结构是由self-attention机制组成,能够抽象地理解整个图像不同区域语义元素之间的关系,提取特征的潜在能力上限高于卷积神经网络。但由于自注意力神经网络需要对全局建模,计算复杂度与图像尺寸成平方倍增长,所以当图像尺寸较大时,会带来计算量相当庞大的问题。

4、在对环境感知数据的处理中,如何提升图像特征提取能力,并且同时兼顾系统计算量,实现更优的场景感知效果,是亟需解决的问题。


技术实现思路

1、本技术提供的场景感知方法、场景感知系统和电子设备,克服了卷积神经网络在图像局部区域提取局限特征的能力受限问题,同时提升了在图像全局区域特征提取和局部区域特征提取的性能。

2、第一方面,本技术提供了一种场景感知方法,包括:获取目标场景的感知数据;以及将所述感知数据输入预设场景感知模型,并输出所述目标场景对应的感知结果;其中,所述预设场景感知模型包括依次连接的柱特征提取模块、主干特征提取模块和检测模块,所述主干特征提取模块包括至少一个卷积神经网络和至少一个自注意力神经网络。

3、根据本技术中的一些实施例,所述将所述感知数据输入预设场景感知模型,并输出所述目标场景对应的感知结果进一步包括:通过所述柱特征提取模块生成所述感知数据对应的伪图像;通过所述主干特征提取模块处理所述伪图像,得到所述目标场景对应的深层特征图,其中处理所述伪图像包括对所述伪图像进行至少一次的卷积神经网络处理和至少一次的自注意力神经网络处理;以及通过所述检测模块对所述深层特征图进行检测,输出所述感知结果。

4、根据本技术中的一些实施例,在所述输出所述感知结果之前、之后或同时:提供训练用信息,所述训练用信息在对所述伪图像进行处理和/或对所述深层特征图进行检测的过程中得到。

5、根据本技术中的一些实施例,所述通过所述柱特征提取模块生成所述感知数据对应的伪图像进一步包括,接收所述训练用信息,并根据所述训练用信息进行机器学习类训练;和/或所述通过所述主干特征提取模块处理所述伪图像,得到所述目标场景对应的深层特征图进一步包括,接收所述训练用信息,并根据所述训练用信息进行机器学习类训练。

6、根据本技术中的一些实施例,所述通过所述主干特征提取模块处理所述伪图像,得到所述目标场景对应的深层特征图包括:通过所述卷积神经网络对所述伪图像进行至少一级的编码操作,生成至少一级的特征图;以及通过所述自注意力神经网络对最后一级所述编码操作输出的特征图进行至少一级的解码操作,并最终输出所述深层特征图。

7、根据本技术中的一些实施例,所述通过所述主干特征提取模块处理所述伪图像,得到所述目标场景对应的深层特征图包括:通过连接网络将各级所述特征图进行处理后输出至对应层级的所述自注意力神经网络。

8、根据本技术中的一些实施例,所述通过所述主干特征提取模块处理所述伪图像,得到所述目标场景对应的深层特征图包括:在所述编码操作中对上一级所述卷积神经网络处理后的特征图进行第一下采样处理;以及在所述解码操作中对同级所述自注意力神经网络处理后的特征图进行第一上采样处理,其中最后一级所述自注意力神经网络直接输出所述深层特征图。

9、根据本技术中的一些实施例,所述通过连接网络将各级所述特征图进行处理后输出至对应层级的自注意力神经网络包括:在所述连接网络中对输入的各级所述特征图进行第二下采样处理。

10、根据本技术中的一些实施例,所述第一下采样处理的方法包括正卷积处理,所述第一上采样处理的方法包括反卷积处理。

11、根据本技术中的一些实施例,所述第二下采样处理的方法包括正卷积处理。

12、根据本技术中的一些实施例,所述通过所述主干特征提取模块处理所述伪图像,得到所述目标场景对应的深层特征图进一步包括:对所述伪图像进行编码,包括对所述伪图像进行至少一级的卷积编码,生成至少一级卷积编码特征图;对最后一级所述卷积编码生成的卷积编码特征图进行至少一级的自注意力编码,生成至少一级自注意力编码特征图;以及整合编码特征图,包括:对所述至少一级所述卷积编码特征图进行第二上采样处理,对所述至少一级所述自注意力编码特征图进行第三上采样处理,以及将上采样处理后的卷积编码特征图和自注意力编码特征图进行整合,得到所述深层特征图。

13、根据本技术中的一些实施例,在进行每一级所述卷积编码前进行第三下采样处理;在进行每一级所述自注意力编码前进行第四下采样处理。

14、根据本技术中的一些实施例,所述第三下采样处理的方法、所述第四下采样处理的方法包括正卷积法,所述第二上采样处理的方法、所述第三上采样处理的方法包括反卷积法。

15、根据本技术中的一些实施例,在所述将上采样处理后的卷积编码特征图和自注意力编码特征图进行整合,得到所述深层特征图之后,对所述深层特征图进行一次或多次卷积操作,得到处理后的深层特征图;并将处理后的深层特征图输出至所述检测模块。

16、另一方面,本技术还提供了一种场景感知系统,包括:获取单元,被配置为获取目标场景的感知数据;以及检测单元,被配置为将所述感知数据输入预设场景感知模型,并输出所述目标场景对应的感知结果;其中,所述预设场景感知模型包括依次连接的柱特征提取模块、主干特征提取模块和检测模块,所述主干特征提取模块包括至少一个卷积神经网络和至少一个自注意力神经网络。

17、根据本技术中的一些实施例,所述柱特征提取模块,配置为接收所述感知数据并将所述感知数据处理为伪图像;所述主干特征提取模块,配置为接收所述伪图像,将所述伪图像处理为深层特征图;以及,所述检测模块,接收所述深层特征图,并从所述深层特征图中提取出所述感知结果;其中,所述主干特征提取模块包括至少一个卷积神经网络和至少一个自注意力神经网络。

18、根据本技术中的一些实施例,所述自注意力神经网络为移动窗口式自注意力神经网络。

19、根据本技术中的一些实施例,所述卷积神经网络处理的特征图的尺寸大于所述自注意力神经网络处理的特征图的尺寸。

20、根据本技术中的一些实施例,所述检测模块被进一步配置为:输出训练用信息,所述训练用信息在所述主干特征提取模块对所述伪图像进行处理和/或所述检测模块对所述深层特征图进行处理的过程中得到。

21、根据本技术中的一些实施例,所述柱特征提取模块进一步配置为,接收所述训练用信息,并根据所述训练用信息进行机器学习类训练;和/或所述主干特征提取模块进一步配置为,接收所述训练用信息,并根据所述训练用信息进行机器学习类训练。

22、根据本技术中的一些实施例,所述主干特征提取模块为u型结构,包括:编码网络,包括所述至少一个卷积神经网络;解码网络,包括所述至少一个自注意力神经网络,所述解码网络与所述编码网络串联连接接收所述编码网络传来的数据。

23、根据本技术中的一些实施例,所述主干特征提取模块进一步包括:连接网络,与所述编码网络串联连接,接收所述编码网络传来的数据并加以适配,然后传输给所述解码网络。

24、根据本技术中的一些实施例,所述第一卷积模块包括第一卷积单元,和/或与所述第一卷积单元串联连接的第一下采样单元;所述连接网络包括第二下采样单元;所述自注意力模块包括第一自注意力模块,和/或与所述第一自注意力单元串联连接的第一上采样单元。

25、根据本技术中的一些实施例,所述第一下采样单元包括正卷积层,所述第二下采样单元包括正卷积层,所述第一上采样单元包括反卷积层。

26、根据本技术中的一些实施例,所述主干特征提取模块为金字塔型结构,包括:编码网络,包括所述至少一个卷积神经网络和所述至少一个自注意力神经网络串联连接;以及整合网络,与所述编码网络连接,并接收所述编码网络的输出。

27、根据本技术中的一些实施例,所述至少一个卷积神经网络包括串联连接的至少一级的第二卷积模块;所述至少一个自注意力神经网络包括串联连接的至少一级的第二自注意力模块。

28、根据本技术中的一些实施例,所述第二卷积模块包括串联连接的至少一个第三下采样单元、至少一个第二卷积单元和至少一个第二上采样单元;以及所述第二自注意力模块包括串联连接的至少一个第四下采样单元、至少一个第二自注意力单元和至少一个第三上采样单元。

29、根据本技术中的一些实施例,所述第三下采样单元和所述第四下采样单元包括正卷积层,所述第二上采样单元和所述第三上采样单元包括反卷积层。

30、根据本技术中的一些实施例,所述整合网络包括一次或多个卷积层。

31、另一方面,本技术还提供了一种电子设备,包括:至少一个处理器;以及存储器,与所述至少一个处理器通信连接;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于场景感知方法。

32、另一方面,本技术还提供了一种非暂存性计算机可读存储介质,存储有计算机指令,所述计算机指令用于指示所述计算机执行上述的场景感知方法。

33、本技术所述的方案,将卷积神经网络和自注意力神经网络融合进行图像特征提取,针对大尺寸特征图采用卷积单元进行特征提取,针对小尺寸特征图采用自注意力单元进行特征提取,能够发挥出了卷积网络提取低层级局部特征的优势和自注意力网络提取高层级全局特征的优势,并且降低计算量,使其控制在可接受的范围内。同时对输入自注意力神经网络的特征图进行尺寸和通道数的调整,以及通过下采样单元连接对应级别的编码网络和解码网络,能够进一步降低输入至自注意力网络的特征图尺寸,避免计算量过大的问题,从而提高了网络的检测性能。因此本技术所述的方案,同时发挥出卷积网络提取低层级局部特征的优势和自注意力网络提取高层级全局特征的优势,使得场景感知方案既能更有效率地提取出全局特征,和更为丰富的特征信息,又可以避免计算量过大的问题,从而提高了网络的检测性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1