一种对象检测方法、装置、电子设备和存储介质与流程

文档序号：29737087发布日期：2022-04-21 17:49阅读：106来源：国知局

1.本技术涉及图像处理技术领域，尤其涉及一种对象检测方法、装置、电子设备和存储介质。

背景技术：

2.随着人工智能的迅速发展，目标的检测与跟踪成为计算机视觉研究领域的热点之一，并得到广泛应用。其中，单目标跟踪是信息融合方法的一个重要组成部分，被广泛应用于视频监控、虚拟现实、人机交互、无人驾驶等诸多领域。具体地，通过在视频初始视频帧中给定待跟踪的目标，基于单目标跟踪算法，可以在视频的后续帧中持续对目标进行准确的定位。
3.具体地，单目标跟踪算法主要基于相关滤波技术或孪生网络结构实现。其中，孪生网络(siamese network)是一种用于度量学习的监督模型。相关技术中，给出了一种以alexnet五层网络作为孪生网络中主干网络的目标跟踪方法，由于网络层数太浅而不足以提取到有效的特征，当目标处于较为复杂的场景中时，如背景杂乱、局部遮挡等，该方法不能准确地判别出目标与背景；另外，该方法仅仅找到了目标位置，并没有考虑目标的尺度问题，而真实场景中目标的尺度、姿态变化是很常见的问题。因而，如何在目标跟踪时，提高对象检测的准确性是亟待解决的。

技术实现要素：

4.本技术实施例提供一种对象检测方法、装置、电子设备和存储介质，用以提高对象检测的准确度。
5.本技术实施例提供的一种对象检测方法，包括：
6.获取待检测视频中初始视频帧对应的目标区域图像，以及待处理视频帧对应的搜索区域图像；
7.提取所述目标区域图像对应的多维度目标特征信息，和所述搜索区域图像对应的多维度目标特征信息；所述多维度目标特征信息包括：基于不同维度的至少两个目标特征信息；
8.基于所述目标区域图像对应的多维度目标特征信息，与所述搜索区域图像对应的多维度目标特征信息中，相同维度的目标特征信息，获得所述搜索区域图像对应的对象检测结果；
9.基于所述对象检测结果，确定所述目标对象在所述待处理视频帧中的目标状态信息。
10.本技术实施例提供的一种对象检测装置，包括：
11.预处理单元，用于获取待检测视频中初始视频帧对应的目标区域图像，以及待处理视频帧对应的搜索区域图像；
12.特征提取单元，用于提取所述目标区域图像对应的多维度目标特征信息，和所述
搜索区域图像对应的多维度目标特征信息；所述多维度目标特征信息包括：基于不同维度的至少两个目标特征信息；
13.特征融合单元，用于基于所述目标区域图像对应的多维度目标特征信息，与所述搜索区域图像对应的多维度目标特征信息中，相同维度的目标特征信息，获得所述搜索区域图像对应的对象检测结果；
14.结果分析单元，用于基于所述对象检测结果，确定所述目标对象在所述待处理视频帧中的目标状态信息。
15.可选的，所述搜索区域图像的尺寸与所述目标区域图像的尺寸为预设比例；
16.若所述待处理视频帧与所述初始视频帧相邻，则所述搜索区域图像的中心位置是：基于所述目标对象在所述初始视频帧中的位置确定的；
17.若所述待处理视频帧与所述初始视频帧不相邻，则所述搜索区域图像的中心位置是：基于所述目标对象在所述待处理视频帧的上一视频帧中的位置确定的。
18.可选的，所述特征提取单元具体用于：
19.基于已训练的区域推荐模型中的模板分支，提取所述目标区域图像对应的多维度目标特征信息，所述目标区域图像对应的各维度目标特征信息相对于所述目标区域图像的步长相同；以及
20.基于所述已训练的区域推荐模型中的搜索分支，提取所述搜索区域图像对应的多维度目标特征信息，所述搜索区域图像对应的各维度目标特征信息相对于所述搜索区域图像的步长相同。
21.可选的，不同维度目标特征信息是基于不同层级的卷积处理获得的；所述特征提取单元具体用于：
22.将所述目标区域图像输入所述模板分支；
23.基于所述模板分支中的第一卷积模块，对所述目标区域图像进行自底向上的多层级卷积处理，获得所述第一卷积模块中最后n个层级输出的第一浅层前馈特征信息，n为大于1的正整数；
24.基于所述模板分支中的第一特征融合模块，对各个第一浅层前馈特征信息进行自顶向下的卷积和同层横向连接处理，获得各个第一浅层前馈特征信息各自对应的第一中间特征信息；
25.分别对所述各个第一中间特征信息进行卷积处理，获得所述各个第一中间特征信息各自对应的目标特征信息。
26.可选的，不同维度目标特征信息是基于不同层级的卷积处理获得的；所述特征提取单元具体用于：
27.将所述搜索区域图像输入所述搜索分支；
28.基于所述搜索分支中的第二卷积模块，对所述目标区域图像进行自底向上的多层级卷积处理，获得所述第二卷积模块中最后n个层级输出的第二浅层前馈特征信息，n为大于1的正整数；
29.基于所述搜索分支中的第二特征融合模块，对各个第二浅层前馈特征信息进行自顶向下的卷积和同层横向连接处理，获得各个第二浅层前馈特征信息各自对应的第二中间特征信息；
30.分别对所述各个第二中间特征信息进行卷积处理，获得所述各个第二中间特征信息各自对应的目标特征信息。
31.可选的，所述特征融合单元具体用于：
32.分别将所述目标区域图像和所述搜索区域图像中，相同层级的目标特征信息，输入已训练的区域推荐模型中的同层级的区域推荐模块；
33.分别基于各个区域推荐模块，对相同层级的目标特征信息进行分组互相关处理，获得各个层级各自对应的交叉特征信息；
34.将所述各个层级对应的交叉特征信息进行逐点加权求和后，获得所述搜索区域图像对应的对象检测结果。
35.可选的，所述对象检测结果包括：基于不同尺寸的参考框确定的分类响应图和回归预测图；所述分类响应图和所述回归预测图中每个位置对应k个不同尺寸的参考框，k为大于1的正整数；
36.其中，所述分类响应图中每个位置的参数值表征：当前位置的参考框存在目标对象或背景的得分，所述回归预测图中每个位置的参数值表征：当前位置的候选框相对于对应的参考框的偏移量，其中，候选框是预测得到的用于标记所述目标对象在待处理视频帧图像中的边界，每个位置也对应k个不同尺寸的候选框。
37.可选的，所述目标状态信息包括：中心位置和尺寸；所述结果分析单元具体用于：
38.基于所述分类响应图中各个位置的得分，筛选出至少一个位置作为候选位置，并分别确定各个候选位置对应的参考框；以及，
39.基于所述回归预测图，确定所述各个候选位置各自对应的偏移量；
40.基于所述各个候选位置对应的参考框，以及相应的偏移量，确定所述各个参考框各自对应的候选框；
41.基于所述分类响应图，从所述各个候选框中筛选出目标候选框，并基于所述目标候选框的表示信息确定所述目标对象的中心位置和尺寸。
42.可选的，所述结果分析单元具体用于：
43.将所述各个候选位置中，位于所述分类响应图的中心子区域内的候选位置作为目标位置，所述中心子区域为：所述分类响应图中，与所述分类响应图具有相同中心的，预设尺寸的区域；
44.基于余弦窗和各个目标位置各自对应的尺度变化惩罚项，对各个目标位置各自对应的得分进行调整后，将得分最高的目标位置对应的候选框作为目标候选框，其中，每个位置对应的尺度变化惩罚项是：基于所述目标对象在所述待处理视频帧的上一视频帧中的目标状态信息，以及当前位置对应的候选框确定的。
45.本技术实施例提供的一种电子设备，包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行上述任意一种对象检测方法的步骤。
46.本技术实施例提供一种计算机可读存储介质，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行上述任意一种对象检测方法步骤。
47.本技术实施例提供一种计算机程序产品，所述计算机程序产品包括计算机程序，
所述计算机程序存储在计算机可读存储介质中；当电子设备的处理器从计算机可读存储介质读取所述计算机程序时，所述处理器执行所述计算机程序，使得所述电子设备执行上述任意一种对象检测方法步骤。
48.本技术有益效果如下：
49.本技术实施例提供的对象检测方法、装置、电子设备和存储介质，由于本技术实施例中，对图像进行多维度特征提取，获得保留着空间细节信息的目标特征信息，和包含丰富语义信息的目标特征信息，充分利用不同维度特征的特性用于跟踪任务，可以提升判别能力；此外，基于目标区域图像和搜索区域图像中相同维度的目标特征信息，对待处理视频帧中的目标对象进行检测，提升了跟踪算法的定位准确度及对象检测的准确度。
50.本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
51.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
52.图1为本技术实施例中的一种应用场景的一个可选的示意图；
53.图2为本技术实施例中的一种对象检测方法的流程示意图；
54.图3为本技术实施例中的一种区域推荐模型的组成结构示意图；
55.图4为本技术实施例中的一种区域推荐网络的内部结构示意图；
56.图5为本技术实施例中的一种两个矩形框的iou的计算方法示意图；
57.图6为本技术实施例中的一种在线跟踪获取分类回归结果的示意图；
58.图7为本技术实施例中的一种模型训练及基于模型进行单目标跟踪的简要概括的流程示意图；
59.图8为本技术实施例中的一种对象检测装置的组成结构示意图；
60.图9为应用本技术实施例的一种电子设备的一个硬件组成结构示意图
61.图10为应用本技术实施例的又一种电子设备的一个硬件组成结构示意图。
具体实施方式
62.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术技术方案的一部分实施例，而不是全部的实施例。基于本技术文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术技术方案保护的范围。
63.下面对本技术实施例中涉及的部分概念进行介绍。
64.孪生网络(siamese network)：是一种用于度量学习的监督模型。通常来说，一个孪生网络有两个输入，将它们分别输入两个共享权值的神经网络，分别称为模板分支与搜索分支(或检测分支)，然后在最后一层对两个特征向量添加一个相似度损失函数，以找到匹配两个输入的相似度。随着深度学习的迅速发展以及可用于训练模型的数据的增加，基
于孪生网络的方法逐渐成为主流。本技术实施例中的区域推荐模型采用了孪生网络的结构，具体包括：搜索分支，模板分支和多维度的区域推荐模块(也称区域推荐网络)，如图3所示。
65.初始视频帧和待处理视频帧：初始视频帧指待检测视频序列中的第一帧，或者是指定的某一起始帧；而待处理视频帧则是指初始视频帧之后的视频帧。在本技术实施例中，进行目标跟踪时，通过在待检测视频序列的初始视频帧中给定待跟踪的目标对象，基于单目标跟踪算法，可以在视频的后续视频帧中持续对该目标对象进行准确的定位。
66.目标区域图像：在初始视频帧中截取的包含目标对象的区域，用以作为孪生网络中模板分支的输入，作为待处理视频帧中的目标对象检测的参考数据。在本技术实施例中，一般以目标对象为中心，将目标对象周围一定区域内的区域的图像作为目标区域图像。
67.搜索区域图像：在待处理视频帧中截取的用于搜索目标对象的区域，用以作为孪生网络中搜索分支的输入，对待处理视频帧中的目标对象进行检测。在本技术实施例中，搜索区域图像同样也应当是在待处理视频帧中目标对象的周围进行裁剪，具体可根据待处理视频帧的上一视频帧中目标对象的位置，来确定裁剪区域。
68.多维度目标特征信息：基于不同维度的至少两个目标特征信息，例如保留着空间细节信息的目标特征信息，和包含丰富语义信息的目标特征信息。在本技术实施例中，不同维度的目标特征信息，可基于不同层级的卷积处理来确定，因而，也可称多维度目标特征信息包括：基于至少两个不同层级卷积处理获得的目标特征信息。在本技术实施例中，是以三个不同层级为例进行举例说明的。
69.另外，文中的术语“第一”、“第二”仅用于描述目的，而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本技术实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。
70.本技术实施例涉及人工智能(artificialintelligence，ai)和机器学习技术，基于人工智能中的机器学习(machinelearning，ml)而设计。
71.人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
72.人工智能是一门综合学科，涉及的领域广泛，既有硬件层面的技术，也有软件层面的技术。人工智能的基础技术一般包括传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作交互系统、机电一体化等技术；人工智能的软件技术一般包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。随着人工智能的发展与进步，人工智能在多个领域中进行研究和应用，如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着未来技术的进一步发展，人工智能将在更多的领域中得到应用，发挥出越来越重要的价值。
73.其中，视觉跟踪技术是计算机视觉技术中的一个重要课题，有着重要的研究意义；且在视频监控、机器人视觉导航、人机交互、以及医疗诊断等许多方面有着广泛的应用前
景。
74.视觉目标跟踪是指对图像序列中的运动目标进行检测、提取、识别和跟踪，获得运动目标的运动参数，如位置、速度、加速度和运动轨迹等，从而进行下一步的处理与分析，实现对运动目标的行为理解，以完成更高一级的检测任务。根据跟踪目标的数量可以将跟踪算法分为单目标跟踪与多目标跟踪。
75.本技术实施例中的对象检测方法，就是一种基于多层级特征与多任务学习的单目标跟踪方法。此外，本技术实施例中所采用区域推荐模型则是基于机器学习训练得到的。
76.机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。
77.机器学习是人工智能的核心，是使计算机具有智能的根本途径，那么深度学习则是机器学习的核心，是实现机器学习的一种技术。机器学习通常包括深度学习、强化学习、迁移学习、归纳学习等技术，深度学习则包括移动视觉神经网络mobilenet、卷积神经网络(convolutional neural networks，cnn)、深度置信网络、递归神经网络、自动编码器、生成对抗网络等技术。
78.以下结合说明书附图对本技术的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本技术，并不用于限定本技术，并且在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
79.如图1所示，其为本技术实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器120。
80.在本技术实施例中，终端设备110包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备；终端设备上可以安装有视频对象检测相关的客户端，该客户端可以是软件，也可以是网页、小程序等，服务器120则是与软件或是网页、小程序等相对应的后台服务器，或者是专门用于进行视频对象检测的服务器，本技术不做具体限定。服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
81.需要说明的是，本技术实施例中的对象检测方法可以由电子设备执行，该电子设备可以为服务器120或者终端设备110，即，该方法可以由服务器120或者终端设备110单独执行，也可以由服务器120和终端设备110共同执行。比如由服务器120执行时，首先对于待检测视频中的初始视频帧和待处理视频帧进行裁剪，获得初始视频帧对应的目标区域图像，以及待处理视频帧对应的搜索区域图像；进而，对目标区域图像和搜索区域图像进行特征提取和互相关处理，得到相应的对象检测结果；基于该对象检测结果，分析得到目标对象在待处理视频帧中的目标状态信息，该状态信息可表征目标对象在待处理视频帧中的中心位置和尺寸等状态，实现目标跟踪。
82.例如，相机的跟踪对焦、无人机的自动目标跟踪等都需要用到目标跟踪技术。另外还有特定物体的跟踪，比如人体跟踪，交通监控系统中的车辆跟踪，人脸跟踪等。
83.在一种可选的实施方式中，终端设备110与服务器120之间可以通过通信网络进行
通信。
84.在一种可选的实施方式中，通信网络是有线网络或无线网络。
85.需要说明的是，图1所示只是举例说明，实际上终端设备和服务器的数量不受限制，在本技术实施例中不做具体限定。
86.本技术实施例中，当服务器的数量为多个时，多个服务器可组成为一区块链，而服务器为区块链上的节点；如本技术实施例所公开的对象检测方法，其中所涉及的视频图像，视频特征信息，目标对象信息等数据可保存于区块链上。
87.下面结合上述描述的应用场景，参考附图来描述本技术示例性实施方式提供的对象检测方法，需要注意的是，上述应用场景仅是为了便于理解本技术的精神和原理而示出，本技术的实施方式在此方面不受任何限制。
88.参阅图2所示，为本技术实施例提供的一种对象检测方法的实施流程图，以服务器为执行主体为例，该方法的具体实施流程如下：
89.s21：服务器获取待检测视频中初始视频帧对应的目标区域图像，以及待处理视频帧对应的搜索区域图像。
90.其中，待检测视频可以是一个包含多帧视频帧的视频序列，目标区域图像表征：在初始视频帧中截取的包含目标对象的区域，搜索区域图像表征：在待处理视频帧中截取的用于搜索目标对象的区域；目标对象是指需要进行(单)目标跟踪的对象，可以是人，动物或其他物体，在此不做具体限定。
91.在进行目标跟踪时，初始视频帧可以是指该待检测视频序列中的第一帧，或者是指定的某一起始帧，而待处理视频帧则是指初始视频帧之后的视频帧。在初始视频帧中截取目标区域图像时，该目标区域图像的中心位置可以是目标对象在初始视频帧中的中心位置。
92.在本技术实施例中，通过在视频初始视频帧中给定待跟踪的目标对象，基于单目标跟踪算法，可以在视频的后续视频帧中持续对该目标对象进行准确的定位。
93.可选的，搜索区域图像的尺寸与目标区域图像的尺寸为预设比例。在本技术实施例中是以2:1为例进行举例说明的，即搜索区域图像的尺寸为目标区域图像的2倍。
94.其中，在待处理视频帧中截取搜索区域图像时，根据待处理视频帧与初始视频帧之间的关系，具体可分为以下两种情况：
95.情况一、若待处理视频帧与初始视频帧相邻，则搜索区域图像的中心位置是：基于目标对象在初始视频帧中的位置确定的。
96.具体地，假设待检测视频中的初始视频帧标记为第1帧，待处理视频帧为第2帧，则第2帧对应的搜索区域图像的中心在第2帧视频图像中的位置，与第1帧对应的目标区域图像的中心在第1帧视频图像中的位置相同。
97.情况二、若待处理视频帧与初始视频帧不相邻，则搜索区域图像的中心位置是：基于目标对象在待处理视频帧的上一视频帧中的位置确定的。
98.例如，待处理视频帧为第3帧，则第3帧对应的搜索区域图像的中心在第3帧视频图像中的位置，与第2帧对应的目标区域图像的中心在第2帧视频图像中的位置相同。
99.另外，搜索区域图像的边长，是目标区域图像边长的2倍。
100.具体地，假设初始视频帧中目标对象的大小为(w，h)，则将该帧中目标对象周围大
小为a
×
a的区域裁剪出来作为目标区域图像，a计算方式为
101.(w+p)
×
(h+p)＝a2ꢀꢀ
(公式1)
102.其中，p＝(w+h)/2。
103.搜索区域图像同样也应当是在待处理视频帧中目标对象的周围裁剪，但裁剪时用于计算区域大小的长和宽，是目标搜索图像长和宽的2倍。在本技术实施例中，是以目标区域图像大小统一放缩为127x127，搜索区域图像大小统一放缩为255x255为例进行举例说明的。
104.s22：服务器提取目标区域图像对应的多维度目标特征信息，和搜索区域图像对应的多维度目标特征信息；
105.其中，多维度目标特征信息包括：基于不同维度的至少两个目标特征信息，例如保留着空间细节信息的目标特征信息，和包含丰富语义信息的目标特征信息。在本技术实施例中，不同维度的目标特征信息，可基于不同层级的卷积处理来确定，因而，也可称多维度目标特征信息包括：基于至少两个不同层级卷积处理获得的目标特征信息。
106.s23：服务器基于目标区域图像对应的多维度目标特征信息，与搜索区域图像对应的多维度目标特征信息中，相同维度的目标特征信息，获得搜索区域图像对应的对象检测结果；
107.s24：服务器基于对象检测结果，确定目标对象在待处理视频帧中的目标状态信息。
108.在上述实施方式中，对图像进行多维度特征提取，获得保留着空间细节信息的目标特征信息，和包含丰富语义信息的目标特征信息，充分利用不同维度特征的特性用于跟踪任务，可以提升判别能力；此外，基于目标区域图像和搜索区域图像中相同维度的目标特征信息，对待处理视频帧中的目标对象进行检测，提升了跟踪算法的定位准确度及对象检测的准确度。
109.需要说明的是，图2所示的步骤s22和步骤23主要是对目标区域图像和搜索区域图像进行特征提取和特征处理的过程，该过程可结合人工智能技术来实现。
110.其中，机器学习方法是人工智能技术中的一个重要部分，本技术实施例提出了一种基于机器学习方法训练得到的区域推荐模型，基于该模型，即可实施步骤s22和步骤s23。
111.可选的，本技术实施例中的区域推荐模型是一种多层级特征的区域推荐模型，采用了孪生网络的结构，如图3所示，其为本技术实施例中的一种区域推荐模型的结构示意图，该模型具体包括三部分：模板分支，搜索分支及多层级区域推荐网络。
112.其中，两个分支的卷积神经网络(也称卷积模块)中的参数完全相同，因此两个图像块经历了相同的变换。一支输入为目标区域图像(记为z)，称为模板分支，另一支称为搜索分支，其输入搜索区域图像(记为x)，为了简便，将孪生网络的输出记为和其中即搜索区域图像对应的多维度目标特征信息，即目标区域图像对应的多维度目标特征信息。
113.其中，基于多层级特征的区域推荐模型主要包含以下三个部分：多维度目标特征信息的提取，区域推荐网络和预测结果聚合。其中，多维度目标特征信息的提取主要对应步骤s22，而区域推荐网络和预测结果聚合主要对应步骤s23。
114.下面主要从以上三个部分，对本技术实施例的对象检测方法中的步骤s22和步骤
s23进行详细介绍：
115.第一部分：多维度目标特征信息的提取。
116.以图3所示的模型结构为例，多维度目标特征信息的提取主要包括自底向上的路径，自顶向下的路径以及同层间的横向连接。对于目标区域图像而言，自底向上的路径是基于第一卷积模块实现的，自顶向下的路径以及同层间的横向连接主要是基于第一特征融合模块实现的；对于搜索区域图像而言，自底向上的路径是基于第二卷积模块实现的，自顶向下的路径以及同层间的横向连接主要是基于第二特征融合模块实现的。
117.一种可选的实施方式为，在步骤s22中，提取目标区域图像对应的多维度目标特征信息时，具体包括以下子步骤：
118.s221：将目标区域图像输入模板分支；
119.在本技术实施例中，输入模型分支的目标区域图像可以为127x127x3，其中127x127表示目标区域图像的尺寸，3表示该图像是三通道rgb图像。
120.s222：基于模板分支中的第一卷积模块，对目标区域图像进行自底向上的多层级卷积处理，获得第一卷积模块中最后n个层级输出的第一浅层前馈特征信息，n为大于1的正整数；
121.其中，自底向上的路径是基于第一卷积模块实现的，该模块本技术用到的特征提取网络为resnet-50，自底向上的路径就是主干卷积网络的前馈计算过程，网络中同一个阶段(stage)的层输出的特征图大小相同，以每个stage中最后一层输出的特征为基础去构建新的特征。
122.如图3所示，是以n＝3为例进行举例说明的，对于原始的resnet来说，选择conv3，conv4，conv5最后的输出，并将其记为{c3，c4，c5}，这几层特征相对于原图的步长分别为{8，16，32}个像素。也就是说，原始的resnet整个网络的步长为32个像素，但是，这种情况下最终输出的低分辨率特征不利于网络预测跟踪结果。
123.因而，本技术实施例中，为了使得提高特征的分辨率，通过将conv4、conv5模块的空间步长调整为1个像素，使得网络最后两个阶段的有效步长从16个像素和32个像素降低至8个像素，同时利用空洞卷积增大其感受野。此时最后3个stage的特征图分辨率相同，跨层融合不需要上采样过程。
124.因而，基于已训练的区域推荐模型中的模板分支，提取目标区域图像对应的多维度目标特征信息时，目标区域图像对应的各维度目标特征信息相对于目标区域图像的步长相同，都是8个像素。
125.其中，虚线框1中的{c3，c4，c5}表示：第一卷积模块中最后3个层级输出的第一浅层前馈特征信息。
126.s223：基于模板分支中的第一特征融合模块，对各个第一浅层前馈特征信息进行自顶向下的卷积和同层横向连接处理，获得各个第一浅层前馈特征信息各自对应的第一中间特征信息；
127.其中，获得各个第一浅层前馈特征信息各自对应的第一中间特征信息时，分为以下两种情况：
128.情况一、对于顶层网络对应的第一浅层前馈特征信息，将该第一浅层前馈特征信息进行卷积处理，即可获得对应的第一中间特征信息。
129.如图3所示，在最高层级的特征c5上添加一层1x1卷积来生成新的特征图p5，并向浅层传递，构成了自顶向下的路径。
130.情况二、对于其他层网络对应的第一浅层前馈特征信息，将该第一浅层前馈特征信息进行卷积处理后，还需与上一层的第一中间特征信息进行求和，获得对应的第一中间特征信息。
131.例如，将前馈特征c4先通过1x1卷积将特征通道数变为与p5一致，此时特征图的分辨率相同，将高层级的特征图p5与其对应的1x1卷积后的前馈特征c4，通过逐元素相加的方式合并起来，得到新特征p4，构成了同层间的横向连接。重复这一过程，利用高层级的特征图p4与浅层前馈特征c3，通过自顶向下的路径和同层间的横向连接获取新特征p3。
132.需要说明的是，此时得到的p3，p4，p5，分别表征第一浅层前馈特征信息c3，c4，c5各自对应的第一中间特征信息。
133.s224：分别对各个第一中间特征信息进行卷积处理，获得各个第一中间特征信息各自对应的目标特征信息。
134.也即，最后在每个特征图上，添加一个3x3卷积来减少跨层融合带来的噪声，从而生成最终的一组特征{p3，p4，p5}，分别对应着原来的{c3，c4，c5}，此时得到的{p3，p4，p5}(虚线框2)，即目标区域图像对应的多维度目标特征信息。
135.在基于图3所示的模型，提取搜索区域图像对应的多维度目标特征信息时的具体过程，同上述所列举的提取目标区域图像对应的多维度目标特征信息的过程类似：
136.一种可选的实施方式为，在步骤s22中，提取搜索区域图像对应的多维度目标特征信息时，具体包括以下子步骤：
137.s225：将搜索区域图像输入搜索分支；
138.本技术实施例中，输入模型分支的搜索区域图像可以为255x255x3，其中255x255表示搜索区域图像的尺寸，3表示该图像是三通道rgb图像。
139.s226：基于搜索分支中的第二卷积模块，对目标区域图像进行自底向上的多层级卷积处理，获得第二卷积模块中最后n个层级输出的第二浅层前馈特征信息；
140.同理，基于已训练的区域推荐模型中的搜索分支，提取搜索区域图像对应的多维度目标特征信息时，搜索区域图像对应的各维度目标特征信息相对于搜索区域图像的步长也都相同，都是8个像素。
141.其中，虚线框3中的{c3，c4，c5}表示：第二卷积模块中最后3个层级输出的第二浅层前馈特征信息。
142.s227：基于搜索分支中的第二特征融合模块，对各个第二浅层前馈特征信息进行自顶向下的卷积和同层横向连接处理，获得各个第二浅层前馈特征信息各自对应的第二中间特征信息；
143.s228：分别对各个第二中间特征信息进行卷积处理，获得各个第二中间特征信息各自对应的目标特征信息。
144.其中，虚线框4中的{p3，p4，p5}，即搜索区域图像对应的多维度目标特征信息。
145.需要说明的是，上述步骤s225-s228的处理过程同步骤s221-s224的处理过程类似，重复之处不再赘述。在本技术实施例中，多层级特征最终输出的所有特征的通道数都被调整为256。
146.上述实施方式相比于相关技术，在特征提取过程中，本技术充分利用单个网络的多层特征，通过建立自顶向下的连接和相同层的横向连接构建出新的多层级的特征，保留了空间信息用于准确定位，也提供了丰富的语义信息用于区分目标与背景。
147.进一步地，本技术为了更好地同时确定目标的位置与尺度，首先在输出特征图的每个位置设置不同的参考框，然后构建两个分支网络(分类分支网络和回归分支网络)，并分别预测每个位置的参考框是否存在目标以及当前位置的目标相对于参考框的偏移量，将目标的定位与尺度估计问题转化为分类与回归两个任务，有效提升了跟踪算法的定位准确度。
148.基于此，对象检测结果包括：用于进行背景和目标对象预测的分类响应图，和用于目标对象边界预测的回归预测图。可选的，该结果是基于k个不同尺寸的参考框确定的，k为大于1的正整数。其中，分类响应图中每个位置的参数值表征：当前位置的参考框存在目标对象或背景的得分，回归预测图中每个位置的参数值表征：当前位置的候选框相对于对应的参考框的偏移量，其中，候选框是预测得到的用于标记目标对象在待处理视频帧图像中的边界，每个位置也对应k个不同尺寸的候选框。
149.结合上述思想，下面对区域推荐网络和预测结果聚合部分进行详细说明。
150.第二部分：区域推荐网络，指区域推荐模型中的区域推荐模块。
151.一种可选的实施方式中，步骤s23又可划分为以下子步骤：
152.s231：分别将目标区域图像和搜索区域图像中，相同层级的目标特征信息，输入已训练的区域推荐模型中的同层级的区域推荐模块；
153.如图3所示，resnet最后三个残差块的输出为{c3，c4，c5}，通过多层级特征提取操作得到新特征为{p3，p4，p5}，这三层特征将被分别输入三个区域推荐网络。
154.s232：分别基于各个区域推荐模块，对相同层级的目标特征信息进行分组互相关处理，获得各个层级各自对应的交叉特征信息；
155.在本技术实施例中，区域推荐网络包含分组相关部分和监督学习部分，如图4所示。监督学习部分包含两个分支，一支称为分类分支，用于目标与背景的判别，一支称为回归分支，用于目标矩形框的回归，由此目标位置的与尺度的预测问题转化为一个多任务(分类任务和回归任务)学习的问题。
156.在本技术实施例中，若输出特征图的每个位置有k个参考框，那么网络的分类分支需要输出2k个通道，网络的回归分支需要输出4k个通道。因此分组相关部分会首先通过两个卷积层，将的通道数增加，并分为两个分支和二者通道数分别是的2k倍和4k倍。也被两个卷积层分解为两个分支和但通道数不变。因而，和的交叉相关操作(也称互相关处理)以分组的方式进行，作为的卷积核，也就是说中的每一组的通道数与的总通道数相同。
157.具体地，分类分支中与回归分支中都要进行相关操作，计算公式如下：
[0158][0159]
[0160]
其中，和下标代表着长、宽、通道数。可以分为2k组，每一组的通道数与的总通道数相同；可以分为4k组，每一组的通道数与的总通道数相同。在上述交叉相关操作过程中，模板分支的特征和被用作卷积核，代表分组交叉相关操作。
[0161]
如图4所示，中的每个点(记为)包含一个通道数为2k的向量，代表着原特征图中对应位置的每个参考框的正类与负类响应，其中，正类响应图中每个位置的参数值表征当前位置的参考框存在目标对象的得分，负类响应图中每个位置的参数值即表征当前位置的参考框存在背景的得分。
[0162]
同样地，中的每个位置包含一个通道数为4k的向量，代表着k个参考框的dx，dy，dw，dh，即原特征图中对应位置的每个参考框的位置、尺度与真实目标框间(也称候选框)的差距。
[0163]
在本技术实施例中，输出特征图中每个位置都有k个不同尺寸的参考框，对于某一位置而言，该位置上的这k个不同尺寸的参考框的中心位置相同，都是该位置。
[0164]
可选的，本技术中采用单个尺度不同纵横比的参考框，以k取5为例，参考框的纵横比分别为[0.33，0.5，1，2，3]。
[0165]
s233：将各个层级对应的交叉特征信息进行逐点加权求和后，获得搜索区域图像对应的对象检测结果。
[0166]
其中，步骤s233主要对应上述预测结果聚合部分，下面对该部分进行详细说明。
[0167]
第三部分：预测结果聚合。
[0168]
如图3所示，由于三个区域推荐网络各自输出的分类响应图与回归预测图(即步骤s232中的交叉特征信息)大小相同，因此可以采用加权求和的方式将多个区域推荐网络的预测结果加以聚合。本技术采用逐点加权的方式得到最终预测结果：
[0169][0170][0171]
其中，和中的下标l＝3，4，5分别对应着{p3，p4，p5}特征输入区域推荐网络得到的结果，即交叉特征信息，
⊙
代表逐点相乘，权值α
l
与分类结果的长、宽和通道数相同，权值β
l
与回归结果的长、宽和通道数相同。分类分支与回归分支用于聚合的权值是不同的，权值通过与整个网络一起离线端对端优化训练得到。
[0172]
其中，和分别表征对象检测结果中的回归预测图和分类结果图，也就是步骤s233所列举的，对各个区域推荐网络输出的交叉特征信息进行聚合得到的。
[0173]
上述实施方式，相比于相关技术，在确定目标位置过程中，没有采用穷举尺度的方式，而是通过在输出特征图的每个位置设置不同的参考框，然后构建两个分支网络并分别预测每个位置的参考框是否存在目标以及当前位置的目标相对于参考框的偏移量，将目标
的定位与尺度估计问题转化为分类与回归两个任务，通过逐点加权的方式实现对多个预测结果的聚合，能够更好地应对目标位置与尺度变化。
[0174]
下面对本技术实施例中的区域推荐模型的训练过程进行简单说明：
[0175]
在训练数据预处理阶段，本技术实施例中具体是从ilsvrc-det、ilsvrc-vid、coco和youtube-bb数据集中以随机的间隔(小于100帧)选取样本对，模板分支与检测分支输入的图像块是从相同视频中选取的包含相同目标的不同两帧进行截取，使得模型从大量数据中学习到如何度量一般物体间的相似度，从而用于目标跟踪任务。
[0176]
若某帧中目标物的大小为(w，h)，则将该帧中目标物周围大小为a
×
a的区域裁剪出来作为模板分支输入，a计算方式参见公式1。搜索分支的输入同样在目标物周围裁剪，但裁剪时用于计算区域大小的长和宽是模板分支裁剪区域长和宽的2倍。在训练和测试阶段，都只采用单个尺度的图像输入，模板分支输入大小统一放缩为127x127，检测分支输入的大小统一放缩为255x255。
[0177]
本技术采用采用iou(intersection over union，交并比)(如图5所示)以及两个阈值thhi和thlo作为指标挑选正类与负类训练样本。当参考框与真实目标矩形框的交并比大于阈值thhi，则其被作为正类样本，当参考框与真实目标矩形框的交并比小于阈值thlo，则其被作为负类样本。thhi设为0.6，thlo设为0.3，并限制每个训练图像对最多有16个正类样本，最多有64个训练样本。
[0178]
对训练数据完成预处理后，即可基于这些训练数据进行模型线下训练：
[0179]
基于多层级特征的区域推荐模型最终会输出分类分支与回归分支的结果，本技术通过预处理好的大量训练数据训练模型，实现对分类与回归两个任务的学习，从而确定目标的位置与尺度。
[0180]
令ax，ay，aw，ah分别代表参考框的中心位置和宽高，令tx，ty，tw，th分别代表目标真实边界框(也称候选框)的中心和宽高，则规范化后的距离为：
[0181][0182][0183]
回归分支中，将坐标规范化后采用平滑l1损失函数：
[0184][0185]
分类分支中采用交叉熵损失函数，因此图3所示的区域推荐模型最终总的损失函数为：
[0186]
loss＝l
cls
+λl
reg
ꢀꢀꢀ
(公式8)
[0187]
其中，σ、λ为超参数，本技术中设λ为1，l
cls
为交叉熵损失，l
reg
参见公式9：
[0188][0189]
在上述实施方式中，通过多任务损失函数相加的方式，实现对多个任务的训练。
[0190]
参阅图6所示，其为本技术实施例中所列举的一种在线跟踪获取分类回归结果的示意图，具体包括：获取模板分支特征，获取搜索分支特征，获取待处理视频帧分类与回归结果这三部分，下面分别进行详细介绍：
[0191]
第一部分：获取模板分支特征。
[0192]
模型推理过程中，首先利用初始视频帧中给定的目标对象，采用上述训练数据预处理部分相同的操作裁剪出目标区域图像，输入模板分支中获取到模板分支特征，这一模板分支特征在整个跟踪过程中保持不变。本技术基于多层级特征，可以获取模板分支的{p3，p4，p5}特征。
[0193]
第二部分：获取搜索分支特征。
[0194]
以前一帧中目标位置为中心，长与宽各为目标尺度2倍大小的区域即为待处理视频帧的搜索区域，采用训练数据预处理部分相同的操作裁剪出搜索区域图像，输入搜索分支中获取到待处理视频帧的搜索分支特征。本技术基于多维度特征，可以获取搜索分支的{p3，p4，p5}特征。
[0195]
第三部分：获取待处理视频帧分类与回归结果。
[0196]
获取模板分支特征与搜索分支特征后，将模板分支的{p3，p4，p5}特征与搜索分支的{p3，p4，p5}对应分别输入三个区域推荐网络中，经过分组交叉相关操作后，可以得到分类响应结果和回归预测结果和回归预测结果通过α
l
、β
l
(l＝3，4，5)加权可以得到最终的分类响应结果和回归预测结果：和
[0197]
其中，图6展示了获取分类与回归结果的过程，为了简洁，图6中只展示了利用单层特征获取结果的过程。
[0198]
在本技术实施例中，通过在线跟踪获取到待处理视频帧对应的分类响应结果和回归预测结果后，即可基于此进行后处理，获得目标状态信息，目标状态信息具体可以表征待处理视频帧中，目标对象的中心位置和尺寸。
[0199]
一种可选的实施方式为，步骤s24具体包括以下子步骤：
[0200]
s241：基于分类响应图中各个位置(各个点)的得分，筛选出至少一个位置作为候选位置，并分别确定各个候选位置对应的参考框；
[0201]
在本技术实施例中，分类响应图分为两类，正类响应图和负类响应图。根据输出的分类与回归的结果，可以从中获得k个得分最高的推荐目标。
[0202]
具体地，与公式4、公式5标记一致，将分类与回归结果分别标记为点集：
[0203][0204][0205]
其中，i∈[0,w),j∈[0,h),l∈[0,2k)，p∈[0,k)。分别表示分类响应图中每个位置的坐标，表示该位置对应的得分(即该位置在分类响应图中的参数值)，分别表示回归预测图中每个位置的坐标，表示该位置对应的得分(也即该
位置在分类响应图中的参数值)，位置在分类响应图中的参数值)，表示当前位置的候选框相对于对应的参考框的偏移量。其中，表示候选框中心位置相对于对应的参考框的中心位置的横纵坐标偏移量，表示当前位置的候选框相对于对应的参考框的偏移量，表示候选框的宽高相对于对应的参考框的宽高的偏移量。
[0206]
在本技术实施例中，由于分类响应图中的奇数通道代表正类的响应(即正类响应图)，则可以从的奇数通道所有点中挑选得分最高的前k个，将这些点的集合记为：
[0207][0208]
其中，i，j，l为索引集合，变量i和j编码了对应参考框的位置，l为参考框索引；cls*中的各个位置即步骤s241中的候选位置。
[0209]
s242：基于回归预测图，确定各个候选位置各自对应的偏移量；
[0210]
s243：基于各个候选位置对应的参考框，以及相应的偏移量，确定各个参考框各自对应的候选框；
[0211]
在本技术实施例，由于每个位置都设置了k个不同尺寸的参考框，这k个的参考框的尺寸是已知的，且这k个参考框的中心位置相同，都是该位置。因而，结合上述公式12中的变量i和j编码了对应参考框的位置，由此可以得到对应的参考框集合：
[0212][0213]
其中，公式13中的分别表示上述所列举的k个候选位置对应的参考框的中心位置及宽高(尺寸)。
[0214]
此外，还可以得到对应的坐标回归值：
[0215][0216]
其中，分别表示上述所列举的k个候选位置对应的候选框相对于公式13中所列举的参考框的偏移量。
[0217]
最终可以通过公式15：
[0218][0219][0220][0221][0222]
可以得到前k个候选目标：
[0223][0224]
其中，公式16中的分别表示公式13中的参考框相对应的候
选框的中心位置及宽高(尺寸)。
[0225]
s244：基于分类响应图，从各个候选框中筛选出目标候选框，并基于目标候选框的表示信息确定目标对象的中心位置和尺寸。
[0226]
在本技术实施例中，在生成前k个候选目标后，采取以下选择策略(具体分为两个选择策略，分别对应步骤s2441和步骤s2442)筛选候选目标，确定目标候选框。
[0227]
其中，s244又可划分为以下子步骤：
[0228]
s2441：将各个候选位置中，位于分类响应图的中心子区域内的候选位置作为目标位置，中心子区域为：分类响应图中，与分类响应图具有相同中心的，预设尺寸的区域；
[0229]
其中，步骤s2441表示第一个选择策略。在本技术实施例中，考虑到相邻的视频帧之间，目标对象不会有过大距离的移动。由于分类响应图汇总各个位置表征对应的参考框的中心位置，因而，通过在分类响应图中筛选候选位置，可以相应进行参考框的筛选。
[0230]
该策略是指：将各个候选位置中，位于分类响应图的中心子区域内的候选位置作为目标位置，基于此，抛弃由距离中心太远的参考框生成的边界框，只保留分类响应图的中心g
×
g子区域(即中心子区域)中的参考框。这一抛弃策略可以有效地去除野点。可选的，本技术实施例中g设为7。
[0231]
s2442：基于余弦窗和各个目标位置各自对应的尺度变化惩罚项，对各个目标位置各自对应的得分进行调整后，将得分最高的目标位置对应的候选框作为目标候选框；其中，每个位置对应的尺度变化惩罚项是：基于目标对象在待处理视频帧的上一视频帧中的目标状态信息(中心位置和尺度)，以及当前位置对应的候选框确定的。如下公式17所示。
[0232]
在本技术实施例中，步骤s2442表示第二个选择策略，该策略是指：利用余弦窗和尺度变化惩罚项，对目标位置的得分进行重新排名，然后得到得分最高的目标位置，该位置对应的候选框即为目标候选框。需要说明的是，该位置对应的候选框是指上述过程步骤s243中确定出的k个候选框中，与该目标位置对应的候选框。
[0233]
具体地，当野点被移除后，在分类响应图上再添加一个余弦窗用于抑制较大的位移，然后添加如下的尺度变化惩罚项来抑制尺度和长宽比的变化：
[0234][0235]
其中，k为超参数，本技术中设为0.04。r代表候选框的高与宽之比，r
′
代表前一帧中目标对象的纵横比(也即边界框的高与宽之比)。s和s
′
分别代表候选框和前一帧中目标对象的总体尺度，其计算方法如下：
[0236][0237]
其中，w和h分别代表目标对象的宽与高。
[0238]
将各个目标位置的分类得分结合余弦窗，乘以惩罚项后，对候选目标进行重新排名，通过非极大值抑制剔除干扰结果后，取最高得分的目标候选框作为待处理视频帧最终的跟踪结果，表征目标对象的中心位置与尺度。进而，得到目标矩形框(目标候选框)后，通过线性插值法更新目标对象的尺度，使目标对象形状平滑地变化。
[0239]
需要说明的是，上述所列举的方法主要指从待处理视频帧中确定目标对象，基于此，还可对目标对象进行迭代跟踪：若待处理视频帧不是视频序列的最后一帧，则到下一视
频帧重复上述过程，确定下一视频帧目标对象的位置，若待处理视频帧为视频序列的最后一帧，则停止迭代。
[0240]
参阅图7所示，其为本技术实施例中的一种模型训练及基于模型进行单目标跟踪的简要概括的流程示意图。该方法的具体实施流程如下：
[0241]
步骤s701：构建基于多层级特征的区域推荐模型；
[0242]
步骤s702：训练数据预处理；
[0243]
步骤s703：对模型进行线下训练；
[0244]
步骤s704：输入待检测视频初始视频帧中的目标区域图像；
[0245]
步骤s705：计算模板分支特征；
[0246]
步骤s706裁剪出下一视频帧中的搜索区域图像；
[0247]
步骤s707：计算搜索分支特征；
[0248]
步骤s708：交叉相关操作得到分类响应结果与回归预测结果；
[0249]
步骤s709：后处理，得到目标位置；
[0250]
步骤s710：判断当前视频帧是否为待检测视频最后一帧，如果是，则执行步骤s711，否则，返回步骤s706；
[0251]
步骤s711：输出跟踪结果。
[0252]
综上，本技术实施例中的对象检测方法，是一种基于多层级特征与多任务学习的单目标跟踪方法。卷积神经网络中浅层特征保留着空间细节信息，而深层特征包含丰富的语义信息，为了更有效地从单个网络获取多层特征，本技术通过建立自顶向下的连接和相同层的横向连接，以极小的额外计算代价基于原有特征构建新的多层级特征金字塔，充分利用不同层特征的特性用于跟踪任务，提升模型判别能力。为了更好地同时确定目标的位置与尺度，本技术首先在输出特征图的每个位置设置不同的参考框，然后构建两个分支网络并分别预测每个位置的参考框是否存在目标以及当前位置的目标相对于参考框的偏移量，将目标的定位与尺度估计问题转化为分类与回归两个任务，有效提升了跟踪算法的定位准确度。
[0253]
基于相同的发明构思，本技术实施例还提供一种对象检测装置。如图8所示，其为对象检测装置800的结构示意图，可以包括：
[0254]
预处理单元801，用于获取待检测视频中初始视频帧对应的目标区域图像，以及待处理视频帧对应的搜索区域图像；
[0255]
特征提取单元802，用于提取目标区域图像对应的多维度目标特征信息，和搜索区域图像对应的多维度目标特征信息；多维度目标特征信息包括：基于不同维度的至少两个目标特征信息；
[0256]
特征融合单元803，用于基于目标区域图像对应的多维度目标特征信息，与搜索区域图像对应的多维度目标特征信息中，相同维度的目标特征信息，获得搜索区域图像对应的对象检测结果；
[0257]
结果分析单元804，用于基于对象检测结果，确定目标对象在待处理视频帧中的目标状态信息。
[0258]
可选的，搜索区域图像的尺寸与目标区域图像的尺寸为预设比例；
[0259]
若待处理视频帧与初始视频帧相邻，则搜索区域图像的中心位置是：基于目标对
象在初始视频帧中的位置确定的；
[0260]
若待处理视频帧与初始视频帧不相邻，则搜索区域图像的中心位置是：基于目标对象在待处理视频帧的上一视频帧中的位置确定的。
[0261]
可选的，特征提取单元802具体用于：
[0262]
基于已训练的区域推荐模型中的模板分支，提取目标区域图像对应的多维度目标特征信息，目标区域图像对应的各维度目标特征信息相对于目标区域图像的步长相同；以及
[0263]
基于已训练的区域推荐模型中的搜索分支，提取搜索区域图像对应的多维度目标特征信息，搜索区域图像对应的各维度目标特征信息相对于搜索区域图像的步长相同。
[0264]
可选的，不同维度目标特征信息是基于不同层级的卷积处理获得的；特征提取单元802具体用于：
[0265]
将目标区域图像输入模板分支；
[0266]
基于模板分支中的第一卷积模块，对目标区域图像进行自底向上的多层级卷积处理，获得第一卷积模块中最后n个层级输出的第一浅层前馈特征信息，n为大于1的正整数；
[0267]
基于模板分支中的第一特征融合模块，对各个第一浅层前馈特征信息进行自顶向下的卷积和同层横向连接处理，获得各个第一浅层前馈特征信息各自对应的第一中间特征信息；
[0268]
分别对各个第一中间特征信息进行卷积处理，获得各个第一中间特征信息各自对应的目标特征信息。
[0269]
可选的，不同维度目标特征信息是基于不同层级的卷积处理获得的；特征提取单元802具体用于：
[0270]
将搜索区域图像输入搜索分支；
[0271]
基于搜索分支中的第二卷积模块，对目标区域图像进行自底向上的多层级卷积处理，获得第二卷积模块中最后n个层级输出的第二浅层前馈特征信息，n为大于1的正整数；
[0272]
基于搜索分支中的第二特征融合模块，对各个第二浅层前馈特征信息进行自顶向下的卷积和同层横向连接处理，获得各个第二浅层前馈特征信息各自对应的第二中间特征信息；
[0273]
分别对各个第二中间特征信息进行卷积处理，获得各个第二中间特征信息各自对应的目标特征信息。
[0274]
可选的，特征融合单元803具体用于：
[0275]
分别将目标区域图像和搜索区域图像中，相同层级的目标特征信息，输入已训练的区域推荐模型中的同层级的区域推荐模块；
[0276]
分别基于各个区域推荐模块，对相同层级的目标特征信息进行分组互相关处理，获得各个层级各自对应的交叉特征信息；
[0277]
将各个层级对应的交叉特征信息进行逐点加权求和后，获得搜索区域图像对应的对象检测结果。
[0278]
可选的，对象检测结果包括：基于不同尺寸的参考框确定的分类响应图和回归预测图；分类响应图和回归预测图中每个位置对应k个不同尺寸的参考框，k为大于1的正整数；
[0279]
其中，分类响应图中每个位置的参数值表征：当前位置的参考框存在目标对象或背景的得分，回归预测图中每个位置的参数值表征：当前位置的候选框相对于对应的参考框的偏移量，其中，候选框是预测得到的用于标记目标对象在待处理视频帧图像中的边界，每个位置也对应k个不同尺寸的候选框。
[0280]
可选的，目标状态信息包括：中心位置和尺寸；结果分析单元804具体用于：
[0281]
基于分类响应图中各个位置的得分，筛选出至少一个位置作为候选位置，并分别确定各个候选位置对应的参考框；以及，
[0282]
基于回归预测图，确定各个候选位置各自对应的偏移量；
[0283]
基于各个候选位置对应的参考框，以及相应的偏移量，确定各个参考框各自对应的候选框；
[0284]
基于分类响应图，从各个候选框中筛选出目标候选框，并基于目标候选框的表示信息确定目标对象的中心位置和尺寸。
[0285]
可选的，结果分析单元804具体用于：
[0286]
将各个候选位置中，位于分类响应图的中心子区域内的候选位置作为目标位置，中心子区域为：分类响应图中，与分类响应图具有相同中心的，预设尺寸的区域；
[0287]
基于余弦窗和各个目标位置各自对应的尺度变化惩罚项，对各个目标位置各自对应的得分进行调整后，将得分最高的目标位置对应的候选框作为目标候选框，其中，每个位置对应的尺度变化惩罚项是：基于目标对象在待处理视频帧的上一视频帧中的目标状态信息，以及当前位置对应的候选框确定的。
[0288]
为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本技术时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
[0289]
在介绍了本技术示例性实施方式的对象检测方法和装置之后，接下来，介绍根据本技术的另一示例性实施方式的用于对象检测装置。
[0290]
所属技术领域的技术人员能够理解，本技术的各个方面可以实现为系统、方法或程序产品。因此，本技术的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。
[0291]
与上述方法实施例基于同一发明构思，本技术实施例中还提供了一种电子设备。在一种实施例中，该电子设备可以是服务器，如图1所示的服务器120。在该实施例中，电子设备的结构可以如图9所示，包括存储器901，通讯模块903以及一个或多个处理器902。
[0292]
存储器901，用于存储处理器902执行的计算机程序。存储器901可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。
[0293]
存储器901可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，ram)；存储器901也可以是非易失性存储器(non-volatile memory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，hdd)或固态硬盘(solid-state drive，ssd)；或者存储器901是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。存储器901可以是上述存储器的组合。
[0294]
处理器902，可以包括一个或多个中央处理单元(central processing unit，cpu)或者为数字处理单元等等。处理器902，用于调用存储器901中存储的计算机程序时实现上述对象检测方法。
[0295]
通讯模块903用于与终端设备和其他服务器进行通信。
[0296]
本技术实施例中不限定上述存储器901、通讯模块903和处理器902之间的具体连接介质。本技术实施例在图9中以存储器901和处理器902之间通过总线904连接，总线904在图9中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线904可以分为地址总线、数据总线、控制总线等。为便于描述，图9中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。
[0297]
存储器901中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本技术实施例的对象检测方法。处理器902用于执行上述的对象检测方法，如图2所示。
[0298]
在另一种实施例中，电子设备也可以是其他电子设备，如图1所示的终端设备110。在该实施例中，电子设备的结构可以如图10所示，包括：通信组件1010、存储器1020、显示单元1030、摄像头1040、传感器1050、音频电路1060、蓝牙模块1070、处理器1080等部件。
[0299]
通信组件1010用于与服务器进行通信。在一些实施例中，可以包括电路无线保真(wireless fidelity，wifi)模块，wifi模块属于短距离无线传输技术，电子设备通过wifi模块可以帮助用户收发信息。
[0300]
存储器1020可用于存储软件程序及数据。处理器1080通过运行存储在存储器1020的软件程序或数据，从而执行终端设备110的各种功能以及数据处理。存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1020存储有使得终端设备110能运行的操作系统。本技术中存储器1020可以存储操作系统及各种应用程序，还可以存储执行本技术实施例对象检测方法的代码。
[0301]
显示单元1030还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface，gui)。具体地，显示单元1030可以包括设置在终端设备110正面的显示屏1032。其中，显示屏1032可以采用液晶显示器、发光二极管等形式来配置。显示单元1030可以用于显示本技术实施例中待检测视频，跟踪结果等。
[0302]
显示单元1030还可用于接收输入的数字或字符信息，产生与终端设备110的用户设置以及功能控制有关的信号输入，具体地，显示单元1030可以包括设置在终端设备110正面的触摸屏1031，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。
[0303]
其中，触摸屏1031可以覆盖在显示屏1032之上，也可以将触摸屏1031与显示屏1032集成而实现终端设备110的输入和输出功能，集成后可以简称触摸显示屏。本技术中显示单元1030可以显示应用程序以及对应的操作步骤。
[0304]
摄像头1040可用于捕获静态图像，用户可以将摄像头1040拍摄的图像通过应用发布评论。摄像头1040可以是一个，也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，ccd)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，cmos)光电晶体管。感光元件把光信号转
换成电信号，之后将电信号传递给处理器1080转换成数字图像信号。
[0305]
终端设备还可以包括至少一种传感器1050，比如加速度传感器1051、距离传感器1052、指纹传感器1053、温度传感器1054。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
[0306]
音频电路1060、扬声器1061、传声器1062可提供用户与终端设备110之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出。终端设备110还可配置音量按钮，用于调节声音信号的音量。另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出至通信组件1010以发送给比如另一终端设备110，或者将音频数据输出至存储器1020以便进一步处理。
[0307]
蓝牙模块1070用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，终端设备可以通过蓝牙模块1070与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接，从而进行数据交互。
[0308]
处理器1080是终端设备的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1020内的软件程序，以及调用存储在存储器1020内的数据，执行终端设备的各种功能和处理数据。在一些实施例中，处理器1080可包括一个或多个处理单元；处理器1080还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1080中。本技术中处理器1080可以运行操作系统、应用程序、用户界面显示及触控响应，以及本技术实施例的对象检测方法。另外，处理器1080与显示单元1030耦接。
[0309]
在一些可能的实施方式中，本技术提供的对象检测方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在电子设备上运行时，计算机程序用于使电子设备执行本说明书上述描述的根据本技术各种示例性实施方式的对象检测方法中的步骤，例如，电子设备可以执行如图2中所示的步骤。
[0310]
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0311]
本技术的实施方式的程序产品可以采用便携式紧凑盘只读存储器(cd-rom)并包括计算机程序，并可以在计算装置上运行。然而，本技术的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
[0312]
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结
合使用的程序。
[0313]
可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
[0314]
可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的计算机程序，程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。计算机程序可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中，远程计算装置可以通过任意种类的网络包括局域网(lan)或广域网(wan)连接到用户计算装置，或者，可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。
[0315]
应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
[0316]
此外，尽管在附图中以特定顺序描述了本技术方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
[0317]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0318]
尽管已描述了本技术的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0319]
显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张杨殷俊朱树磊李平生
技术所有人：浙江大华技术股份有限公司
我是此专利的发明人

上一篇：开关盖设备及方法与流程
上一篇：一种苯二酚产品精馏塔余热回收装置及方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。