对象识别方法、用于对象识别的参考模板的生成方法与流程

文档序号：33346735发布日期：2023-03-04 03:49阅读：29来源：国知局

1.本技术涉及计算机视觉技术领域，尤其涉及一种对象识别方法、用于对象识别的参考模板的生成方法和装置、电子设备及存储介质。

背景技术：

2.对视频中的对象识别是计算机视觉的常见任务，该任务的目的是在确定视频中某一帧的指定对象的位置和大小后，识别所指定的对象在其他视频帧中的位置和大小。对视频中的对象识别在实际生活中有着广泛的应用，例如可以应用在包括智慧城市、交通管理、无人机追踪等应用场景下，准确的对象识别给人们的生活带来很多便利。
3.目前，针对较为复杂的应用场景，对象识别的准确率有待提高，并且随着视频中时间的变化，所要识别的目标对象在视频中的形状、大小、颜色、姿态等外观特征均有可能发生变化，这种变化也会影响对象识别的准确度，甚至会导致对象识别失败。

技术实现要素：

4.本技术实施例提供一种对象识别方法、用于对象识别的参考模板的生成方法，依据参考模板组中的参考模板，识别第一图像中的目标对象，以提高对象识别的准确度，避免由于目标对象的外观发生变化而导致对象识别失败的情况。
5.第一方面，本技术实施例提供了一种对象识别方法，所述方法包括：
6.确定待识别的第一图像；
7.获取用于对第一图像进行对象识别的参考模板组；所述参考模板组中的参考模板根据所述第一图像关联的第二图像对应的对象识别结果构建，其中至少一个参考模板记录有不存在目标对象的非目标图像区域，所述非目标图像区域配置有对应的对象识别置信度；
8.使用所获取的参考模板组对所述第一图像进行对象识别，获得对应于第一图像的对象识别结果。
9.第二方面，本技术实施例提供了一种对象识别方法，所述方法包括：
10.展示视频中至少一个图像帧，获取基于所述至少一个图像帧输入的对象坐标范围；
11.根据所述对象坐标范围获取所述视频中其他图像帧的对象识别结果；所述其他图像帧的对象识别结果依据参考模板组识别获得，所述参考模板组中的参考模板根据所述其他图像帧关联的图像帧对应的对象识别结果构建，其中至少一个参考模板记录有不存在目标对象的非目标图像区域，所述非目标图像区域配置有对应的对象识别置信度，至少一个其他图像帧的参考模板中的非目标图像区域依据所述对象坐标范围确定；
12.展示标记有所述对象识别结果的其他图像帧。
13.第三方面，本技术实施例提供过了一种用于对象识别的参考模板的生成方法，所述方法包括：
14.获取至少一个第二图像对应的对象识别结果；
15.依据所获取的对象识别结果构建参考模板组，所述参考模板组中至少一个参考模板记录有不存在目标对象的非目标图像区域，所述非目标图像区域配置有对应的对象识别置信度，所述参考模板组用于与所述第二图像关联的第一图像的对象识别以获得对应于第一图像的对象识别结果。
16.第四方面，本技术实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器在执行所述计算机程序时实现上述任一项所述的方法。
17.第五方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法。
18.与现有技术相比，本技术具有如下优点：
19.依据本技术实施例，首先确定待识别的第一图像，获取用于对第一图像进行对象识别的参考模板组，并使用参考模板组对第一图像进行对象识别，获得对应于第一图像的对象识别结果。其中，参考模板组中的参考模板根据与第一图像关联的第二图像对应的对象识别结果构建，由于参考模板组中至少一个参考模板记录有非目标图像区域且参考模板中的非目标区域配置有对象识别置信度，可以在对第一图像进行对象识别时，以非目标区域的对象置信度为参考减少将目标对象的区域范围划定到非目标区域的错误识别，提高图像识别和视频识别中对象识别结果的准确度。
20.进一步，参考模板还可以记录存在目标对象的目标图像区域以及对应的对象识别置信度，可以将由多个第二图像对应的对象识别结果构建的多个参考模板加入参考模板组中。以视频识别场景为例，由于不同的第二图像是来自于视频中不同时间点的图像帧，目标对象在视频中不同时间点对应的外观特征(目标对象的形状、大小、颜色、姿态等)也会发生变化，因此，第二图像所对应构建的多个参考模板可以表征目标对象在视频中不同时间点的外观特征，从而可以依据参考模板组从第一图像中识别出外观发生变化的目标对象，提高对应视频进行对象识别的准确性。
21.在获得第一图像的对象识别结果的同时，还可以依据对应于第一图像的对象识别结果，直接构建基于第一图像的新增参考模板，并将新增参考模板加入参考模板组，从而及时更新参考模板组中的参考模板，使得参考模板组可以表征目标对象最新的外观特征，以便后续对象识别可以得到更准确的对象识别结果。在对目标对象进行在线识别的场景下，若在后续加入参考模板后，通过删除参考模板组中在先加入的参考模板的方式更新参考模板组中的参考模板，可以在保证对象识别的准确度的同时，控制实施对象识别方法时的运算次数，进而提高对象识别的效率。
22.上述说明仅是本技术技术方案的概述，为了能够更清楚了解本技术的技术手段，可依照说明书的内容予以实施，并且为了让本技术的上述和其他目的、特征和优点能够更明显易懂，以下特举本技术的具体实施方式。
附图说明
23.在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本技术的一些实施方式，而不应将其视为是对本技术范围的限制。
24.图1是本技术提供的对象识别方案的场景示意图；
25.图2是本技术一实施例的对象识别方法的流程图；
26.图3是本技术另一实施例的对象识别方法的流程图；
27.图4是本技术一实施例的用于对象识别的参考模板的生成方法的流程图；
28.图5是本技术一实施例的对象识别装置的结构框图；
29.图6是本技术另一实施例的对象识别装置的结构框图；
30.图7是本技术一实施例的用于对象识别的参考模板的生成装置的结构框图；以及
31.图8是用来实现本技术实施例的电子设备的框图。
具体实施方式
32.在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本技术的构思或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的，而非限制性的。
33.为便于理解本技术实施例的技术方案，以下对本技术实施例的相关技术进行说明。以下相关技术作为可选方案与本技术实施例的技术方案可以进行任意结合，其均属于本技术实施例的保护范围。
34.在本技术之前的一种相关技术中，仅使用单个参考模板对第一图像中的目标对象进行对象识别。由于单个参考模板仅记录有目标对象在视频中某一时间点的外观特征，从而不能充分描述目标对象在外观上的变化，进而会影响对象识别结果的准确度。
35.有鉴于此，本技术实施例提供了一种新的对象识别方案，以全部或部分解决上述技术问题。
36.本技术实施例所提供的对象识别方案用于对视频或图像中的目标对象的进行识别，该方案可以应用于安防领域(例如车辆追踪场景)、视频监测领域(例如运动轨迹识别场景、宠物监测场景)、以及巡检领域(例如无人机追踪场景、机器人导航场景)等领域。具体而言，在车辆追踪场景下，可以对由部署于道路监测点位的摄像探头所拍摄的监测视频中的某一辆车进行识别；在宠物监测的场景下，可以对由家居监测设备所拍摄的监测视频中的宠物进行识别；在无人机追踪的场景下，可以对无人机拍摄的视频中无人机所要追踪的目标对象(如车辆、人或是动物)进行识别，并识别出的目标对象进行追踪。
37.图1是示例性的用于实现本技术实施例的方法的一个应用场景的示意图。图1示出了在使用球机设备的监测场景下应用本技术实施例进行实时对象识别的示意图。如图1所示，将由球机设备拍摄的最新一帧图像帧确定为第一图像，将第一图像与参考模板组中的多个参考模板输入采用自注意力机制的深度学习模型(transformer)，所输入的参考模板可以包括仅有目标区域的参考模板、仅有非目标区域的参考模板和同时具有目标区域和非目标区域的参考模板，且涉及到的目标区域和非目标区域配置有对应的对象识别置信度。transformer中的自注意力层可以为参考模板组中的各参考模板分配权重，所分配权重更高的参考模板对第一图像的对象识别具有更大的影响。transformer还可以提取第一图像与参考模板组中的多个参考模板的图像特征，并基于图像特征计算第一图像与参考模板组之间的模板相似度，将第一图像中模板相似度对应数值最高的坐标点确定为第一图像中目标对象边界框(bounding box)的中心点，从而确定第一图像的对象识别结果。在获得第一
图像的对象识别结果后，可以依据对象识别结果在第一图像上标记目标对象，例如可以在第一图像上标记目标对象的边界框，并将标记后的第一图像提供至球机设备的管理方或是监测视频的查看方的客户端设备。还可以依据第一图像的对象识别结果构建新增参考模板，并将新增参考模板加入参考模板组。
38.可以理解的是，球机设备的管理方或是监测视频的查看方可以在与球机设备相关联的客户端设备上对视频中的图像帧(例如视频首帧)上的目标对象进行圈定，在对视频进行对象识别前，可以获取具有圈定结果的图像帧，基于圈定结果构建至少两个初始的参考模板，并将所构建的参考模板加入参考模板组。
39.本技术实施例所提供的对象识别方案可以应用于图像识别中，也可以应用于视频识别中。视频识别场景进一步可以包括在线(online)识别场景和离线(offline)识别中。其中，在线识别是指依据视频中第一图像之前的图像帧识别第一图像之中的目标对象。离线识别是指依据视频中除了第一图像之前和/或之后的图像帧识别第一图像中的目标对象。对于在线识别的场景，该方案还可以进一步应用于实时(real-time)识别的情况下，也即是对于监测或是拍摄的视频进行实时地对象识别。
40.本技术实施例提供了一种对象识别方法，如图2所示是本技术一实施例的对象识别方法200的流程图，该方法200可以包括：
41.在步骤s201，确定待识别的第一图像。
42.在图像识别中，将待识别的图像记为第一图像。在视频识别中，将视频中待进行对象识别的图像帧记为第一图像，对应在线识别的场景，可以依据视频进行的时间顺序依次对视频中的图像帧进行对象识别，此时第一图像是指视频中未进行对象识别的图像帧中在时间顺序上最早的一帧。其中，针对实时识别的情况，可以将实时接收到的最新的图像帧确定为第一图像。在离线识别的场景中，第一图像可以是视频中的图像帧中的某一图像帧，在确定第一图像时，可以根据时间顺序将视频中未进行对象识别的图像帧中在时间顺序上最早的一帧确认为第一图像，也可以通过获取由客户端从视频中选定的某一图像帧为第一图像。
43.在步骤s202，获取用于对第一图像进行对象识别的参考模板组；所述参考模板组中的参考模板根据所述第一图像关联的第二图像对应的对象识别结果构建，其中至少一个参考模板记录有不存在目标对象的非目标图像区域，所述非目标图像区域配置有对应的对象识别置信度。
44.在确定第一图像后，获取对第一图像进行目标对象识别的参考模板组。参考模板组包括多个参考模板，参考模板用于对图像进行对象识别，参照模板根据第二图像构建，此处的第二图像是指与第一图像关联的其他一个或多个图像，所谓关联可以是指与第一图像属于同一视频或是具有内容关联(对应同一对象或是对应同一背景)，例如，第二图像是同一视频中时间序列上位于第一图像之前的图像，或是指定的与第一图像具有内容关联的图像。在第二图像完成对象识别后可以得到对象识别结果，所得到的对象识别结果可以指示图像中目标对象在图像中的位置(例如坐标范围)。可以理解的是，以视频识别场景为例，在所识别的目标对象在视频中发生动态变化的情况下，目标对象在视频中各帧图像中的位置可能是不同的，甚至在有的图像中可能不存在目标对象。
45.本技术实施例对图像(或是对应于视频识别场景中的图像帧)中不同的区域进行
了区分，根据对象识别结果，将图像中目标对象所在的区域记为目标图像区域，将不存在目标对象的区域记为非目标图像区域，并为目标图像区域和非目标图像区域配置相应的对象识别置信度。其中，对象识别置信度是指可以图像中某一区域中识别出目标对象的概率数值。由此，可以使用参考模板组对第一图像进行对象识别时，以非目标区域的对象置信度为参考减少将目标对象的区域范围划定到非目标区域的错误识别，提高对象识别结果的准确度。
46.如下将对参考模板组中参考模板的生成过程作具体说明。
47.一种实施方式中，在生成参考模板组中的参考模板时，首先获取第二图像对应的对象识别结果。如下示例性地示出一种可能的对象识别结果：[p b
x b
y b
h bw]。其中，p用于指示第二图像中是否存在目标对象，当p＝0时，即表示该第二图像中不存在目标对象，此时该对象识别结果中的b
x
、by、bh和bw均为无意义项。当p＝1时，即表示该第二图像中存在目标对象。b
x
、by、bh和bw用于指示第二图像中目标对象的坐标范围。该坐标范围可以是目标对象的外接矩形，也即是目标对象的边界框的坐标范围。其中，b
x
和by是目标对象的边界框中心点的坐标，是bh和bw分别是目标对象的边界框的高度和宽度。
[0048]
在获取第二图像对应的对象识别结果后，将对象识别结果指示的存在目标对象的目标图像区域之外的至少部分图像区域，确定为非目标图像区域。在对象识别结果指示为第二图像中不存在目标对象情况下，可以将第二图像的全部图像区域确定为非目标区域。在对象识别结果指示为第二图像中存在目标对象情况下，可以根据对象识别结果所指示的目标对象的坐标范围，将此目标范围之外的至少部分图像区域确定为非目标图像区域。可以理解的是，在第二图像中还可能存在与目标对象相似的其他对象，其他对象也具有对应的坐标范围。此时即可以将其他对象对应的坐标范围划定为非目标图像区域。
[0049]
在确定第二图像中的非目标图像区域后，从对象识别结果中确定与非目标图像区域对应的对象识别置信度，并生成记录非目标图像区域以及与非目标图像区域对应的对象识别置信度的第一参考模板。
[0050]
一种实施方式中，第一参考模板还可以记录目标图像区域及相应的对象识别置信度。也即是说，第一参考模板可以同时记录有目标图像区域和非目标图像区域，以及上述两种区域分别对应的对象识别置信度。相应的，上述参考模板组中参考模板的生成过程也即还包括确定所述目标图像区域对应的对象识别置信度。其中，目标图像区域由第二图像中目标对象的坐标范围确定，可以理解的时候，其所对应的对象识别置信度高于非目标区域对应的对象识别置信度。由此，在使用第一参考模板为依据对第一图像进行对象识别时，在第一图像中，与第一参考模板中目标图像区域相似度较高，或与非目标图像区域相似度较低的图像区域可以作为存在目标对象的图像区域，与第一参考模板中目标图像区域相似度较低，或与非目标图像区域相似度较高的图像区域可以作为不存在目标对象的图像区域。
[0051]
一种实施方式中，还可以生成仅记录目标图像区域以及对应置信度的第二参考模板，用以结合第一参考模板进行对象识别，在第一图像中，与第二参考模板中目标图像区域相似度较高的图像区域可以作为存在目标对象的图像区域，与目标图像区域相似度较低的图像区域可以作为不存在目标对象的图像区域。相应的，上述参考模板组中参考模板的生成过程还可以包括，从对象识别结果中确定目标图像区域，以及与该目标图像区域对应的对象识别置信度。生成记录目标图像区域以及与所述目标图像区域对应的对象识别置信度
的第二参考模板。也即是说，与第一参考模板不同在于，第二参考模板中仅包括存在目标对象的目标图像区域以及相应的对象识别置信度。
[0052]
一种实施方式中，在获取用于对第一图像进行对象识别的参考模板组时，可以将在同一视频中位于第一图像之前的一个或多个图像帧确定为关联的第二图像。对于在线识别的场景，由于第二图像的获取受到时间性的限制，因此用于构建参考模板的第二图像可以是视频中时间序列上位于第一图像之前的图像帧。可以理解的是，在离线识别的场景中，由于第二图像的获取并不受到时间性的限制，因此所确定的第二图像可以是位于第一图像之前和/或之后的一个或多个图像帧。
[0053]
在确定第二图像后，获取根据所述第二图像对应的对象识别结果构建的参考模板，并将所构建的参考模板添加至参考模板组由于不同的第二图像是来自于视频中不同时间点的图像帧，目标对象在视频中不同时间点对应的外观特征(目标对象的形状、大小、颜色、姿态等)也会发生变化，因此，第二图像所对应构建的多个参考模板可以表征目标对象在视频中不同时间点的外观特征，从而可以依据参考模板组从第一图像中识别出外观发生变化的目标对象，提高对应视频进行对象识别的准确性。
[0054]
一种实施方式中，还可以根据对应于第一图像的对象识别结果构建新增参考模板，并将新增参考模板添加至所述参考模板组。也即是说，在完成对第一图像的对象识别后，可以基于第一图像的对象识别结果，构建一个或多个新增参考模板。其中，新增参考模板即是由第一图像的对象识别结果所构建的参考模板。新增参考模板中可以是上述记录有目标图像区域和/或非目标图像区域以及对应对象识别置信度的第一参考模板，也可以是仅记录有目标图像区域以及该区域对应的对象识别置信度的第二参考模板，也可以同时新增第一参考模板和第二参考模板两种类型。
[0055]
一种实施方式中，还可以删除参考模板组中加入参考模板组的时间靠前的参考模板。也即是说，可以对参考模板组中的参考模板进行更新，删除在先加入参考模板组中的参考模板。一方面，通过对加入参考模板组时间靠前的参考模板的删除，可以控制参考模板组中的参考模板数量，从而控制实施对象识别方法时的运算次数，进而提高对象识别的效率。另一方面，对于在线识别场景中的对象识别，由于目标对象的位置、大小以及外观特征随着时间的变化而发生变化，也即是说，目标对象的特征的变化是具有时间性的，相比于加入参考模板组时间靠前的参考模板，在依据加入参考模板组时间靠后的参考模板进行对象识别时，由于用于构建上述参考模板的第二图像与当前的第一图像在时间序列上更接近，因此更具有参考性，从而使第一图像可以得到更为准确的识别结果。在从参考模板组中删除时间靠前的模板时，可以预先设置参考模板组中参考模板数量，例如，将数量设置为200个，在第201个参考模板加入时删除第1个加入的参考模板；也可以设置删除数量，例如，将删除数量设置为1个，在加入最新构建的一个或多个参考模板时，删除参考模板组中最早加入的1个参考模板。
[0056]
一种实施方式中，还可以根据第一图像对应的对象识别结果在第一图像中标记目标对象，用以后续对第一图像进行展示时直观地看到目标对象。具体可以依据对象识别结果所指示的目标对象的坐标范围，在第一图像中圈定的边界框的方式标记目标对象。除此之外，还可以根据同一视频中多个图像帧(或是一组具有时序关系的图像)对应的对象识别结果生成所述目标对象的运动轨迹。例如，可以首先通过多个图像帧对应的对象识别结果
获取目标对象边界框的中心点坐标，然后基于多个图像帧对应的目标对象边界框的中心点坐标，结合上述多个图像帧对应的时间序列生成目标对象的运动轨迹。
[0057]
以下列举一些可能的应用场景。在无人机追踪的场景中，可以根据对象识别结果所生成的目标对象的运动轨迹调整无人机的飞行路线，使无人机始终追踪目标对象。在宠物监测场景中，可以根据对象识别结果所生成的目标对象的运动轨迹调整摄像头的方向，使摄像头方向追随宠物移动的方向，进而保证监测画面中的宠物位于监测画面的中心位置附近。智能视频监测场景下，可以在监测视频中以边界框标记出目标对象，以便客户端用户在查看监测视频时对目标对象的监测与追踪，进一步，所生成的运动轨迹还可以用于运动轨迹分析，基于异常的运动轨迹进行监测风险预警。
[0058]
在步骤s203，使用所获取的参考模板组对所述第一图像进行对象识别，获得对应于第一图像的对象识别结果。
[0059]
一种实施方式中，在使用所获取的参考模板组对第一图像进行对象识别，获得对应于第一图像的对象识别结果时，可以先确定所获取的参考模板组中各参考模板与第一图像之间的模板相似度。模板相似度是指参考模板与第一图像之间各坐标点对应的像素点之间的相似度，可以用于指示第一图像中目标对象的对象识别结果。例如，在所确定的各参考模板与第一图像之间的模板相似度较低时，可以认为第一图像中不存在目标对象。在以向量的形式表达视频中的图像帧时，可以通过计算第一图像的向量与参考模板的向量之间的相似度的方式，确定模板相似度。
[0060]
然后，根据模板相似度以及参考模板的权重生成参考模板组与第一图像之间的模板组相似度。其中，参考模板的权重调用深度学习模型的自注意力层分配获得。也即是说，可以通过采用自注意力机制的深度学习模型为参考模板组中的参考模板分配权重。自注意力机制可以通过学习参考模板组中参考模板之间的相关性，为可以提供更强参考性的参考模板分配更大的权重，从而提高第一图像对象识别的准确度。在一种可能的实施方式中，可以将第一图像中模板组相似度对应数值最高的坐标点确定为第一图像中目标对象边界框的中心点，从而确定第一图像的对象识别结果。
[0061]
一种实施方式中，上述参考模板还记录有目标图像区域以及与目标图像区域对应的对象识别置信度，在确定所获取的参考模板组中各参考模板与第一图像之间的模板相似度时，可以首先按照参考模板中记录的目标图像区域所圈定的坐标范围，确定第一图像和参考模板在圈定的坐标范围内的第一模板相似度。在第一模板相似度已经可用于确定目标对象时，可以直接基于第一模板相似度确定第一图像的对象识别结果。在无法仅基于第一模板相似度确定目标对象时，按照所述参考模板中记录的非目标图像区域所圈定的坐标范围，确定目标第一图像和参考模板在所述圈定的坐标范围内的第二模板相似度。然后，根据所述第一模板相似度和第二模板相似度确定各参考模板与所述第一图像之间的模板相似度，进而根据模板相似度获得对应于第一图像的对象识别结果。由此，在确定第一图像中目标对象的位置时，可以主要依据更具有参考性的目标图像区域，从而提高对象识别的准确性。
[0062]
本技术实施例还提供了另一种对象识别方法，图3是本技术一实施例的一种对象识别方法300的流程图，该方法300可以包括：
[0063]
在步骤s301，展示视频中至少一个图像帧，获取基于所述至少一个图像帧输入的
对象坐标范围。
[0064]
在一种可能的实现方式中，可以首先获取用户在所展示的图像帧上对目标对象所圈定的边界框，进而通过获取边界框的坐标范围的方式，获取基于上述图像帧中目标对象的坐标范围。
[0065]
在步骤s302，根据所述对象坐标范围获取所述视频中其他图像帧的对象识别结果；所述其他图像帧的对象识别结果依据参考模板组识别获得，所述参考模板组中的参考模板根据所述其他图像帧关联的图像帧对应的对象识别结果构建，其中至少一个参考模板记录有不存在目标对象的非目标图像区域，所述非目标图像区域配置有对应的对象识别置信度，至少一个其他图像帧的参考模板中的非目标图像区域依据所述对象坐标范围确定。
[0066]
其中，其他图像帧是指是视频中未获得对象识别结果的图像帧，例如在实时识别的情况下由视频采集设备所采集到的最新的图像帧。其他图像帧的对象识别结果的具体获取方法可以参考由方法200所提供的实施例，此处不再赘述。
[0067]
在步骤s303，展示标记有所述对象识别结果的其他图像帧。
[0068]
在获取视频中其他图像帧的对象识别结果后，可以在客户端设备(如台式电脑、平板电脑、手机等设备)展示标记有对象识别结果的其他图像帧。进一步，在实时识别的情况下，可以在客户端实时展示标记有对象识别结果的视频。
[0069]
本技术实施例还提供了一种用于对象识别的参考模板的生成方法，如图4所示是本技术一实施例的一种用于对象识别的参考模板的生成方法400的流程图，该方法400可以包括：
[0070]
在步骤s401，获取至少一个第二图像对应的对象识别结果。
[0071]
在步骤s402，依据所获取的对象识别结果构建参考模板组，所述参考模板组中至少一个参考模板记录有不存在目标对象的非目标图像区域，所述非目标图像区域配置有对应的对象识别置信度，所述参考模板组用于与所述第二图像关联的第一图像的对象识别以获得对应于第一图像的对象识别结果。
[0072]
本技术实施例所提供的用于对象识别的参考模板的生成方法与上述方法200中所提供的参考模板组中参考模板的生成过程相对应，此处不再赘述。
[0073]
与本技术实施例提供的方法的应用场景以及方法相对应地，本技术实施例还提供一种对象识别装置。如图5是本技术一实施例的对象识别装置500的结构框图，该对象识别装置500可以包括：
[0074]
图像确定模块501，用于确定待识别的第一图像；
[0075]
模板组获取模块502，获取用于对第一图像进行对象识别的参考模板组；所述参考模板组中的参考模板根据所述第一图像关联的第二图像对应的对象识别结果构建，其中至少一个参考模板记录有不存在目标对象的非目标图像区域，所述非目标图像区域配置有对应的对象识别置信度；
[0076]
第一结果获取模块503，用于使用所获取的参考模板组对所述第一图像进行对象识别，获得对应于第一图像的对象识别结果。
[0077]
一种实施方式中，所述装置500还可以包括参考模板生成模块，该参考模板生成模块包括：
[0078]
第二结果获取子模块，用于获取所述第二图像对应的对象识别结果；
[0079]
区域确定子模块，用于将所述对象识别结果指示的存在目标对象的目标图像区域之外的至少部分图像区域，确定为非目标图像区域；
[0080]
第一置信度确定子模块，用于从所述对象识别结果中确定与所述非目标图像区域对应的对象识别置信度；
[0081]
参考模板生成子模块，用于生成记录所述非目标图像区域以及与所述非目标图像区域对应的对象识别置信度的第一参考模板。
[0082]
一种实施方式中，所述参考模板生成模块还包括：
[0083]
第二置信度确定子模块，用于确定所述目标图像区域对应的对象识别置信度，所述第一参考模板还记录所述目标图像区域以及与所述目标图像区域对应的对象识别置信度。
[0084]
一种实施方式中，所述参考模板生成模块还包括：
[0085]
第三置信度确定子模块，从所述对象识别结果中确定目标图像区域，以及与所述目标图像区域对应的对象识别置信度；生成记录所述目标图像区域以及与所述目标图像区域对应的对象识别置信度的第二参考模板。
[0086]
一种实施方式中，所述模板组获取模块502可以包括：
[0087]
第二图像确定子模块，将在同一视频中位于所述第一图像之前的一个或多个图像帧确定为关联的第二图像；
[0088]
模板添加子模块，用于获取根据所述第二图像对应的对象识别结果构建的参考模板，并添加至参考模板组。
[0089]
一种实施方式中，所述装置500还可以包括：
[0090]
参考模板构建模块，用于根据对应于第一图像的对象识别结果构建新增参考模板，并将所述新增参考模板添加至所述参考模板组。
[0091]
一种实施方式中，所述参考模板构建模块可以具体用于删除所述参考模板组中加入参考模板组的时间靠前的参考模板。
[0092]
一种实施方式中，所述装置500还可以包括：
[0093]
目标对象标记模块，用于根据所述第一图像对应的对象识别结果在所述第一图像中标记所述目标对象；和/或，运动根轨迹生成模块，用于根据同一视频中多个图像帧对应的对象识别结果生成所述目标对象的运动轨迹。
[0094]
一种实施方式中，所述使用所获取的参考模板组对所述第一图像进行对象识别，获得对应于第一图像的对象识别结果包括：
[0095]
模板相似度确定子模块，用于确定所获取的参考模板组中各参考模板与所述第一图像之间的模板相似度；
[0096]
模板组相似度确定子模块，用于根据所述模板相似度以及所述参考模板的权重生成所述参考模板组与所述第一图像之间的模板组相似度，其中，所述参考模板的权重调用深度学习模型的自注意力层分配获得。
[0097]
一种实施方式中，所述参考模板还记录所述目标图像区域以及与所述目标图像区域对应的对象识别置信度；
[0098]
所述模板相似度确定子模块可以具体用于：按照所述参考模板中记录的目标图像区域所圈定的坐标范围，确定所述目标第一图像和所述参考模板在所述圈定的坐标范围内
的第一模板相似度；按照所述参考模板中记录的非目标图像区域所圈定的坐标范围，确定所述目标第一图像和所述参考模板在所述圈定的坐标范围内的第二模板相似度；根据所述第一模板相似度和第二模板相似度确定各参考模板与所述第一图像之间的模板相似度。
[0099]
与本技术实施例提供的方法的应用场景以及方法相对应地，本技术实施例还提供另一种对象识别装置。如图6是本技术一实施例的对象识别装置600的结构框图，该对象识别装置600可以包括：
[0100]
坐标范围输入模块601，用于展示视频中至少一个图像帧，获取基于所述至少一个图像帧输入的对象坐标范围；
[0101]
结果获取模块602，用于根据所述对象坐标范围获取所述视频中其他图像帧的对象识别结果；所述其他图像帧的对象识别结果依据参考模板组识别获得，所述参考模板组中的参考模板根据所述其他图像帧关联的图像帧对应的对象识别结果构建，其中至少一个参考模板记录有不存在目标对象的非目标图像区域，所述非目标图像区域配置有对应的对象识别置信度，至少一个其他图像帧的参考模板中的非目标图像区域依据所述对象坐标范围确定；
[0102]
图像帧展示模块603，用于展示标记有所述对象识别结果的其他图像帧。
[0103]
与本技术实施例提供的方法的应用场景以及方法相对应地，本技术实施例还提供一种用于对象识别的参考模板的生成装置。如图7是本技术一实施例的用于对象识别的参考模板的生成装置700的结构框图，该用于对象识别的参考模板的生成装置700可以包括：
[0104]
结果获取模块701，用于获取至少一个第二图像对应的对象识别结果；
[0105]
模板组构建模块702，用于依据所获取的对象识别结果构建参考模板组，所述参考模板组中至少一个参考模板记录有不存在目标对象的非目标图像区域，所述非目标图像区域配置有对应的对象识别置信度，所述参考模板组用于与所述第二图像关联的第一图像的对象识别以获得对应于第一图像的对象识别结果。
[0106]
本技术实施例各装置中的各模块的功能可以参见上述方法中的对应描述，并具备相应的有益效果，在此不再赘述。
[0107]
图8为用来实现本技术实施例的电子设备的框图。如图8所示，该电子设备包括：存储器801和处理器802，存储器801内存储有可在处理器802上运行的计算机程序。处理器802执行该计算机程序时实现上述实施例中的方法。存储器801和处理器802的数量可以为一个或多个。
[0108]
该电子设备还包括：
[0109]
通信接口803，用于与外界设备进行通信，进行数据交互传输。
[0110]
如果存储器801、处理器802和通信接口803独立实现，则存储器801、处理器802和通信接口803可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(industry standard architecture，isa)总线、外部设备互连(peripheral component interconnect，pci)总线或扩展工业标准体系结构(extended industry standard architecture，eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0111]
可选的，在具体实现上，如果存储器801、处理器802及通信接口803集成在一块芯片上，则存储器801、处理器802及通信接口803可以通过内部接口完成相互间的通信。
[0112]
本技术实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本技术实施例中提供的方法。
[0113]
本技术实施例还提供了一种芯片，该芯片包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本技术实施例提供的方法。
[0114]
本技术实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。
[0115]
应理解的是，上述处理器可以是中央处理器(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced risc machines，arm)架构的处理器。
[0116]
进一步地，可选的，上述存储器可以包括只读存储器和随机访问存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以包括随机访问存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram均可用。例如，静态随机访问存储器(static ram，sram)、动态随机访问存储器(dynamic random access memory，dram)、同步动态随机访问存储器(synchronous dram，sdram)、双倍数据速率同步动态随机访问存储器(double data rate sdram，ddr sdram)、增强型同步动态随机访问存储器(enhanced sdram，esdram)、同步链接动态随机访问存储器(sync link dram，sldram)和直接内存总线随机访问存储器(direct rambus ram，dr ram)。
[0117]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生依照本技术的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
[0118]
在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本技术的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0119]
此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐
含地包括至少一个该特征。在本技术的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
[0120]
流程图中描述的或在此以其他方式描述的任何过程或方法可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本技术的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。
[0121]
在流程图中描述的或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。
[0122]
应理解的是，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
[0123]
此外，在本技术各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。
[0124]
以上所述，仅为本技术的示例性实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术记载的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蓝劲鹏何俊彦李晨阳罗斌耿益锋
技术所有人：阿里巴巴（中国）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。