目标识别方法、装置、电子设备和介质与流程

文档序号：31521867发布日期：2022-09-14 12:57阅读：92来源：国知局

1.本公开涉及人工智能技术领域，尤其涉及深度学习、计算机视觉等技术领域，具体涉及一种目标识别方法、装置、电子设备和介质。

背景技术：

2.随着人工智能技术的不断发展，智慧家庭、无人驾驶、智能交通、智能园区监控、安防等领域得到了广泛的研究和应用。其中，目标检测(比如行人检测)是人工智能技术中的热点研究方向。由于目标特征较易受到光照、天气、背景等环境因素的影响，在复杂环境下容易出现目标误检的情况。
3.因此，如何提升目标检测结果的准确性是亟待解决的问题。

技术实现要素：

4.本公开提供了一种目标识别方法、装置、电子设备和介质。
5.根据本公开的一方面，提供了一种目标识别方法，包括：
6.获取待检测视频，并对所述待检测视频中的目标视频帧进行目标对象检测，以得到多个检测框；
7.确定所述多个检测框的图像质量分值；
8.根据所述多个检测框的图像质量分值，从所述多个检测框中确定目标检测框；
9.对所述目标检测框中的图像内容进行特征提取，以得到目标图像特征；
10.根据所述目标图像特征对所述目标检测框中的图像内容进行目标识别。
11.根据本公开的另一方面，提供了一种目标识别装置，包括：
12.获取模块，用于获取待检测视频；
13.检测模块，用于对所述待检测视频中的目标视频帧进行目标对象检测，以得到多个检测框；
14.第一确定模块，用于确定所述多个检测框的图像质量分值；
15.第二确定模块，用于根据所述多个检测框的图像质量分值，从所述多个检测框中确定目标检测框；
16.提取模块，用于对所述目标检测框中的图像内容进行特征提取，以得到目标图像特征；
17.识别模块，用于根据所述目标图像特征对所述目标检测框中的图像内容进行目标识别。
18.根据本公开的又一方面，提供了一种电子设备，包括：
19.至少一个处理器；以及
20.与所述至少一个处理器通信连接的存储器；其中，
21.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述一方面提出的目标识别方
法。
22.根据本公开的再一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开上述一方面提出的目标识别方法。
23.根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述一方面提出的目标识别方法。
24.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
25.附图用于更好地理解本方案，不构成对本公开的限定。其中：
26.图1为本公开实施例一所提供的目标识别方法的流程示意图；
27.图2为本公开实施例二所提供的目标识别方法的流程示意图；
28.图3为本公开实施例三所提供的目标识别方法的流程示意图；
29.图4为本公开实施例四所提供的目标识别方法的流程示意图；
30.图5为本公开实施例五所提供的目标识别方法的流程示意图；
31.图6为本公开实施例六所提供的目标识别方法的流程示意图；
32.图7为本公开实施例所提供的检测框的宽高比示意图；
33.图8为本公开实施例所提供的各检测框的位置示意图；
34.图9为本公开实施例七所提供的目标识别装置的结构示意图；
35.图10示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
36.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
37.在安防、商场超市等场景中，可能需要跨镜头对行人进行跟踪，即对不同摄像头采集的视频帧中的行人进行跟踪。目前，可以使用深度学习方法中的行人重识别(personre-identification，简称reid)技术，提取视频帧中的目标特征，并计算该目标特征与候选特征之间的相似度，如果相似度高于设定的相似度阈值，则确定该目标特征与候选特征属于同一行人。
38.其中，候选特征可以为基于单帧图像所提取的行人特征，或者，候选特征也可以为基于对行人进行连续跟踪得到的视频所提取的多个行人特征。
39.然而，基于reid技术所提取的目标特征对环境较为敏感，较易受到环境干扰而导致行人识别错误。
40.针对上述问题，本公开提出一种目标识别方法、装置、电子设备和介质。
41.下面参考附图描述本公开实施例的目标识别方法、装置、电子设备和介质。
42.图1为本公开实施例一所提供的目标识别方法的流程示意图。
43.本公开实施例以该目标识别方法被配置于目标识别装置中来举例说明，该目标识
别装置可以应用于任一电子设备中，以使该电子设备可以执行目标识别功能。
44.其中，电子设备可以为任一具有计算能力的设备，例如可以为电脑、移动终端、服务器等，移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
45.如图1所示，该目标识别方法可以包括以下步骤：
46.步骤101，获取待检测视频，并对待检测视频中的目标视频帧进行目标对象检测，以得到多个检测框。
47.在本公开实施例中，待检测视频可以为在线采集的视频，比如可以通过网络爬虫技术，在线采集待检测视频，或者，待检测视频也可以为线下采集的视频，或者，待检测视频也可以为实时采集的视频流(比如可为监控区域设置的摄像头所采集的视频流)，或者，待检测视频也可以为人工合成的视频，等等，本公开实施例对此并不做限制。
48.在本公开实施例中，目标视频帧可以为待检测视频中的任意一帧视频帧，或者，目标视频帧可以为待检测视频中的关键帧，等等，本公开对此并不做限制。
49.在本公开实施例中，目标对象与应用场景相关，比如，在行人检测场景中，目标对象可以为行人，或者，在物体搜索场景中，目标对象可以为物体，或者，在宠物丢失场景中，目标对象可以为宠物等等。
50.在本公开实施例中，在获取待检测视频后，可以对待检测视频中的目标视频帧进行目标对象检测，以得到多个检测框。比如，可以基于目标检测技术，对目标视频帧进行目标对象检测，以得到多个检测框。
51.步骤102，确定多个检测框的图像质量分值。
52.在本公开实施例中，可以确定每个检测框的图像质量分值，该图像质量分值用于指示检测框在目标视频帧中的图像内容的图像质量，即检测框中的图像内容的图像质量越高，该检测框的图像质量分值越大，反之，检测框中的图像内容的图像质量越低，该检测框的图像质量分值越小。
53.步骤103，根据多个检测框的图像质量分值，从多个检测框中确定目标检测框。
54.其中，目标检测框的个数可以为一个，或者，也可以为多个，本公开对此并不做限制。
55.在本公开实施例中，可以根据多个检测框的图像质量分值，从多个检测框中确定目标检测框。其中，目标检测框的图像质量分值相对较高。
56.步骤104，对目标检测框中的图像内容进行特征提取，以得到目标图像特征。
57.在本公开实施例中，可以基于图像特征提取算法，对目标检测框中的图像内容进行特征提取，以得到目标图像特征。
58.步骤105，根据目标图像特征对目标检测框中的图像内容进行目标识别。
59.在本公开实施例中，可以根据目标图像特征，对目标检测框中的图像内容进行目标识别。
60.本公开实施例的目标识别方法，通过对待检测视频中的目标视频帧进行目标对象检测，以得到多个检测框，并确定多个检测框的图像质量分值；根据多个检测框的图像质量分值，从多个检测框中确定目标检测框，并对目标检测框中的图像内容进行特征提取，以得到目标图像特征；根据目标图像特征对目标检测框中的图像内容进行目标识别。由此，根据
各检测框的图像质量分值，对各检测框进行筛选，以保留图像质量分值较高的目标检测框，从而仅对图像质量分值较高的目标检测框中的图像内容进行目标识别，可以提升目标识别结果的准确性。
61.需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均在征得用户同意的前提下进行，并且均符合相关法律法规的规定，且不违背公序良俗。
62.为了清楚说明本公开任一实施例中是如何确定各检测框的图像质量分值的，本公开还提出一种目标识别方法。
63.图2为本公开实施例二所提供的目标识别方法的流程示意图。
64.如图2所示，该目标识别方法可以包括以下步骤：
65.步骤201，获取待检测视频，并对待检测视频中的目标视频帧进行目标对象检测，以得到多个检测框。
66.步骤201的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。
67.步骤202，针对多个检测框中的任一检测框，确定任一检测框的第一分值，其中，第一分值用于指示任一检测框中目标对象的完整性。
68.在本公开实施例中，针对多个检测框中的任一检测框，可以确定该任一检测框的第一分值，其中，第一分值用于指示该任一检测框中目标对象的完整性，即该任一检测框中目标对象的完整度越高，该第一检测框的第一分值越大，反之，该任一检测框中目标对象的完整度越低，该第一检测框的第一分值越小。
69.步骤203，确定任一检测框的第二分值，其中，第二分值用于指示任一检测框中图像内容的清晰度。
70.在本公开实施例中，针对多个检测框中的任一检测框，还可以确定该任一检测框的第二分值，其中，第二分值用于指示该任一检测框中的图像内容的清晰度，即该任一检测框中的图像内容的清晰度越高，该第一检测框的第二分值越大，反之，该任一检测框中的图像内容的清晰度越低，该第一检测框的第二分值越小。
71.步骤204，根据第一分值和第二分值，确定任一检测框的图像质量分值。
72.在本公开实施例中，针对多个检测框中的任一检测框，可以根据该任一检测框的第一分值和第二分值，确定该任一检测框的图像质量分值。其中，图像质量分值与第一分值呈正相关关系，且图像质量分值与第二分值呈正相关关系。
73.作为一种可能的实现方式，可以根据第一分值对应的第一权重和第二分值对应的第二权重，对第一分值和第二分值进行加权求和，以得到任一检测框的图像质量分值。
74.可以理解的是，对于行人检测等场景，由于目标对象在目标视频帧中所占的区域较小，图像细节可能不清晰，此时，主要根据目标对象的形体特征、姿态特征、颜色特征等来识别目标对象，而上述特征是通过对较为完整的目标对象进行提取得到的，因此，本公开中，用于指示检测框中目标对象的完整性的第一分值，对目标图像分值的影响更大。即，第一分值对应的第一权重可以大于第二分值对应的第二权重。
75.由此，可以实现通过对检测框的第一分值和第二分值进行加权求和的方式，有效确定检测框的目标质量分值，并且，用于指示检测框中目标对象的完整性的第一分值的权重大于用于指示检测框中图像内容的清晰度的第二分值的权重，可以提升后续目标识别结
果的准确性和可靠性。
76.步骤205，根据多个检测框的图像质量分值，从多个检测框中确定目标检测框。
77.步骤206，对目标检测框中的图像内容进行特征提取，以得到目标图像特征。
78.步骤207，根据目标图像特征对目标检测框中的图像内容进行目标识别。
79.步骤205至207的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。
80.本公开实施例的目标识别方法，通过针对多个检测框中的任一检测框，确定任一检测框的第一分值，其中，第一分值用于指示任一检测框中目标对象的完整性；确定任一检测框的第二分值，其中，第二分值用于指示任一检测框中图像内容的清晰度；根据第一分值和第二分值，确定任一检测框的图像质量分值。由此，可以实现根据用于指示检测框中目标对象的完整性的第一分值以及用于指示检测框中图像内容的清晰度的第二分值，有效计算检测框的图像质量分值。
81.为了清楚说明本公开任一实施例中是如何确定各检测框的图像质量分值的，本公开还提出一种目标识别方法。
82.图3为本公开实施例三所提供的目标识别方法的流程示意图。
83.如图3所示，该目标识别方法可以包括以下步骤：
84.步骤301，获取待检测视频，并对待检测视频中的目标视频帧进行目标对象检测，以得到多个检测框。
85.步骤301的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。
86.步骤302，针对多个检测框中的任一检测框，确定任一检测框的宽度和高度。
87.在本公开实施例中，针对多个检测框中的任一检测框，可以确定该任一检测框的宽度和高度。
88.步骤303，根据宽度和高度的比值与设定比值之间的差异，确定任一检测框的第一子分值，其中，第一子分值与差异呈负相关关系。
89.在本公开实施例中，设定比值为预先根据应用场景设定的，比如，当该方法应用于行人检测场景时，由于正常行人的检测框的宽高比为1:2，则设定比值可以为1:2，再比如，当该方法应用于宠物丢失场景时，设定比值可以为2:1。
90.在本公开实施例中，针对多个检测框中的任一检测框，可以将该任一检测框的宽度除以该任一检测框的高度，以得到宽度和高度的比值，并确定上述比值与设定比值之间的差异，其中，该差异可以为上述比值与设定比值的差值，或者为差值的绝对值，或者为差值的平方，等等，本公开对此并不做限制。
91.在本公开实施例中，在确定上述比值与设定比值之间的差异后，可以根据上述差异，确定该任一检测框的第一子分值，其中，第一子分值与上述差异呈负相关关系，即上述差异越大，第一子分值越低，反之，上述差异越小，第一子分值越大。
92.步骤304，判断任一检测框与多个检测框中除任一检测框之外的其余检测框之间是否存在重叠区域。
93.在本公开实施例中，针对多个检测框中的任一检测框，可以判断该任一检测框与多个检测框中除该任一检测框之外的其余检测框之间是否存在重叠区域，若是，则执行步骤305，若否，则执行步骤307。
94.步骤305，根据重叠区域与任一检测框在目标视频帧中对应区域的占比，确定任一检测框的第二子分值。
95.其中，第二子分值与占比呈负相关关系。
96.在本公开实施例中，在上述任一检测框与其余检测框之间存在重叠区域的情况下，表明该任一检测框中的目标对象被遮挡，此时，可以确定重叠区域与该任一检测框在目标视频帧中对应区域的占比，比如，标记重叠区域的面积为a，该任一检测框在目标视频帧中对应区域的面积为b，则上述占比为a/b。
97.在本公开实施例中，在确定重叠区域与该任一检测框在目标视频帧中对应区域的占比后，可以根据上述占比，确定任一检测框的第二子分值，其中，第二子分值与占比呈负相关关系，即上述占比越大，第二子分值越低，反之，上述占比越小，第二子分值越大。
98.也就是说，任一检测框与其余检测框之间的重叠区域的面积越大，该任一检测框被遮挡的情况越严重，该任一检测框中目标对象越不完整，因此，该任一检测框的第二子分值越低。
99.步骤306，根据第一子分值和第二子分值，确定任一检测框的第一分值。
100.其中，第一分值用于指示任一检测框中目标对象的完整性。
101.在本公开实施例中，针对多个检测框中的任一检测框，可以根据该任一检测框对应的第一子分值和第二子分值，确定该任一检测框的第一分值。其中，第一分值与第一子分值呈正相关关系，且第一分值与第二子分值也呈正相关关系。
102.作为一种可能的实现方式，可以根据第二子分值对应的权重和第一子分值对应的权重，对第二子分值和第一子分值进行加权求和，以得到该任一检测框的第一分值。
103.其中，第二子分值对应的权重和第一子分值对应的权重可以相同，或者也可以不同，比如，第二子分值对应的权重可以大于第一子分值对应的权重，或者，第二子分值对应的权重也可以小于第一子分值对应的权重，本公开对此并不做限制。
104.步骤307，根据设定取值和第一子分值，确定任一检测框的第一分值，其中，第二子分值小于设定取值。
105.其中，设定取值为预先设定的取值。
106.在本公开实施例中，在上述任一检测框与其余检测框之间未存在重叠区域的情况下，表明该任一检测框中的目标对象未被遮挡，此时，可以根据设定取值和该任一检测框对应的第一子分值，确定该任一检测框的第一分值，其中，设定取值大于第二子分值。其中，第一分值与第一子分值呈正相关关系，且第一分值与设定取值也呈正相关关系。
107.作为一种可能的实现方式，可以根据设定取值对应的权重和第一子分值对应的权重，对设定取值和第一子分值进行加权求和，以得到该任一检测框的第一分值。
108.其中，设定取值对应的权重和第一子分值对应的权重可以相同，或者也可以不同，比如，设定取值对应的权重可以大于第一子分值对应的权重，或者，设定取值对应的权重也可以小于第一子分值对应的权重，本公开对此并不做限制。
109.需要说明的是，步骤305-306和步骤307为并列的两种实现方式，实际应用时，仅需择一执行。
110.还需要说明的是，上述仅以根据某个检测框的宽度、高度和该检测框与其他检测框之间的重叠区域，确定该检测框的第一分值进行示例，但本公开并不限于此。
111.作为一种可能的实现方式，针对多个检测框中的任一检测框，还可以对该任一检测框中的图像内容进行关键点提取，根据提取的关键点个数，确定该任一检测框的第一分值，其中，第一分值与关键点个数呈正相关关系。
112.也就是说，提取的关键点个数越多，检测框中的目标对象越完整，从而检测框的第一分值越高。
113.举例而言，当该方法应用于行人检测场景时，如果能够检测到检测框中所有的人脸关键点和人体关键点，则表明该检测框中的目标对象完整。可以理解的是，在行人检测场景中，由于人脸隐私程度较高，检测的关键点可以为人体关键点。
114.作为另一种可能的实现方式，针对多个检测框中的任一检测框，还可以对该任一检测框中的图像内容进行语义分割，以得到语义分割结果，根据语义分割结果确定该任一检测框中目标对象的完整性，从而可以根据该任一检测框中目标对象的完整性，确定该任一检测框的第一分值。
115.由此，可以实现根据不同方式，确定任一检测框的第一分值，可以提升该方法的灵活性和适用性。
116.步骤308，确定任一检测框的第二分值，其中，第二分值用于指示任一检测框中图像内容的清晰度。
117.步骤309，根据第一分值和第二分值，确定任一检测框的图像质量分值。
118.步骤310，根据多个检测框的图像质量分值，从多个检测框中确定目标检测框。
119.步骤311，对目标检测框中的图像内容进行特征提取，以得到目标图像特征。
120.步骤312，根据目标图像特征对目标检测框中的图像内容进行目标识别。
121.步骤308至312的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。
122.本公开实施例的目标识别方法，通过根据任一检测框的宽度和高度的比值与设定比值之间的差异，确定任一检测框的第一子分值，其中第一子分值与差异呈负相关关系；判断任一检测框与多个检测框中除任一检测框之外的其余检测框之间是否存在重叠区域，若是，根据重叠区域与任一检测框在目标视频帧中对应区域的占比，确定任一检测框的第二子分值，并根据第一子分值和第二子分值确定任一检测框的第一分值，若否，根据设定取值和第一子分值确定任一检测框的第一分值，其中第二子分值小于设定取值。由此，可以实现根据检测框的宽度、高度和该检测框与其他检测框之间的重叠区域，有效确定用于指示该检测框中目标对象的完整性的第一分值。
123.为了清楚说明本公开任一实施例中是如何确定各检测框的图像质量分值的，本公开还提出一种目标识别方法。
124.图4为本公开实施例四所提供的目标识别方法的流程示意图。
125.如图4所示，该目标识别方法可以包括以下步骤：
126.步骤401，获取待检测视频，并对待检测视频中的目标视频帧进行目标对象检测，以得到多个检测框。
127.步骤402，针对多个检测框中的任一检测框，确定任一检测框的第一分值。
128.其中，第一分值用于指示任一检测框中目标对象的完整性。
129.步骤401至402的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘
述。
130.步骤403，根据任一检测框中各像素点的像素值，确定各像素点的灰度值。
131.在本公开实施例中，针对多个检测框中的任一检测框，可以根据该任一检测框在目标视频帧中的图像内容中的各像素点的像素值，确定上述各像素点的灰度值。
132.作为一种示例，像素点的像素值可以包括各颜色通道的取值(比如红色通道的取值r、绿色通道的取值g和蓝色通道的取值b)，标记像素点的灰度值为gray，则可以根据以下任一种算法，确定像素点的灰度值gray：
133.第一，浮点算法：gray＝r*0.3+g*0.59+b*0.11；
134.第二，整数算法：gray＝(r*30+g*59+b*11)/100；
135.第三，移位算法：gray＝(r*77+g*151+b*28)》》8；
136.第四，平均值法：gray＝(r+g+b)/3；
137.第五，仅取绿色通道的取值：gray＝g。
138.步骤404，根据各像素点的像素值的均值，确定任一检测框的第三子分值。
139.在本公开实施例中，可以将上述任一检测框中各像素点的像素值的均值，作为该任一检测框的第三子分值，其中，第三子分值用于指示任一检测框中的图像内容的亮度。
140.可以理解的是，如果将检测框中目标对象对应的各像素点的像素值的均值，作为该检测框的第三子分值，可能会存在以下问题：假设目标对象为行人，如果行人的服装为全黑或全白，则会导致第三子分值较低或较高，而上述较低或较高的第三子分值并不能表征拍摄环境亮度。
141.考虑到当拍摄环境亮度较高时，检测框中图像内容的整体亮度会提高，而当拍摄环境亮度较低时，检测框中图像内容的整体亮度会降低，因此，基于上述特征，本公开中，可以将检测框中所有像素点的像素值的均值，作为该检测框的第三子分值，该第三子分值用于指示该检测框中的图像内容的亮度。
142.步骤405，根据各像素点的灰度值之间的差异，确定任一检测框的第四子分值。
143.在本公开实施例中，可以根据任一检测框中各像素点的灰度值之间的差异，确定该任一检测框的第四子分值，其中，第四子分值用于指示任一检测框中的图像内容的模糊度。
144.可以理解的是，当完全聚焦时，视频帧最为清晰，视频帧中的高频分量也最多，突变像素点与相邻像素点之间的差值也会变大，基于上述原理，可以根据以下公式，确定上述任一检测框的第四子分值s4：
145.s4＝∑y∑
x
|f(x+2,y)-f(x,y)2；
146.其中，(x,y)为像素点的坐标，f(x,y)为像素点的灰度值。
147.再比如，还可以根据下述公式，确定上述任一检测框的第四子分值s4：
148.s4＝∑y∑
x
|f(x,y)-f(x+1,y)|*|f(x,y)-f(x,y+1)|；
149.再比如，还可以根据下述公式，确定上述任一检测框的第四子分值s4：
150.s4＝∑y∑
x
|f(x,y)-μ|2；
151.其中，μ表示上述任一检测框中各像素点的灰度值的均值。
152.当然，也可以通过其他算法，根据任一检测框中各像素点的灰度值之间的差异，确定该任一检测框的第四子分值，本公开对此并不做限制。
153.步骤406，根据第三子分值和第四子分值，确定任一检测框的第二分值。
154.其中，第二分值用于指示任一检测框中图像内容的清晰度。
155.在本公开实施例中，针对多个检测框中的任一检测框，可以根据该任一检测框对应的第三子分值和第四子分值，确定该任一检测框的第二分值。其中，第二分值与第三子分值呈正相关关系，且第二分值与第四子分值也呈正相关关系。
156.作为一种可能的实现方式，可以根据第三子分值对应的权重和第四子分值对应的权重，对第三子分值和第四子分值进行加权求和，以得到任一检测框的第二分值。
157.其中，第三子分值对应的权重和第四子分值对应的权重可以相同，或者也可以不同，比如，第三子分值对应的权重可以大于第四子分值对应的权重，或者，第三子分值对应的权重也可以小于第四子分值对应的权重，本公开对此并不做限制。
158.步骤407，根据第一分值和第二分值，确定任一检测框的图像质量分值。
159.步骤408，根据多个检测框的图像质量分值，从多个检测框中确定目标检测框。
160.步骤409，对目标检测框中的图像内容进行特征提取，以得到目标图像特征。
161.步骤410，根据目标图像特征对目标检测框中的图像内容进行目标识别。
162.步骤407至410的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。
163.本公开实施例的目标识别方法，通过根据任一检测框中各像素点的像素值，确定各像素点的灰度值；根据各像素点的像素值的均值，确定任一检测框的第三子分值；其中第三子分值用于指示任一检测框中的图像内容的亮度；根据各像素点的灰度值之间的差异，确定任一检测框的第四子分值；其中第四子分值用于指示任一检测框中的图像内容的模糊度；根据第三子分值和所述第四子分值，确定任一检测框的第二分值。由此，可以实现根据检测框中各像素点对应的像素值和灰度值，有效确定用于指示该检测框中图像内容的清晰度的第二分值。
164.为了清楚说明本公开任一实施例中是如何确定各检测框的图像质量分值的，本公开还提出一种目标识别方法。
165.图5为本公开实施例五所提供的目标识别方法的流程示意图。
166.如图5所示，该目标识别方法可以包括以下步骤：
167.步骤501，获取待检测视频，并对待检测视频中的目标视频帧进行目标对象检测，以得到多个检测框。
168.步骤501的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。
169.步骤502，针对多个检测框中的任一检测框，将任一检测框中的图像内容输入经过训练的识别模型，以得到识别模型输出的图像质量分值。
170.其中，识别模型已学习到图像内容与图像质量分值之间的对应关系。
171.在本公开实施例中，可以预先利用已标注图像质量分值的样本图像，对识别模型进行训练。例如，可以将样本图像输入至初始的识别模型，以得到识别模型输出的预测质量分值，可以根据样本图像上标注的图像质量分值和预测质量分值之间的差异，对识别模型进行训练，以使上述差异最小化，从而可以使得经过训练后的识别模型，学习得到图像内容与图像质量分值之间的对应关系。
172.作为一种示例，可以根据样本图像上标注的图像质量分值和预测质量分值之间的
差异，生成损失函数，其中，损失函数的取值与上述差异呈正相关关系，即差异越小，损失函数的取值越小，反之，差异越大，损失函数的取值越大，从而本公开中，可以根据损失函数的取值，对识别模型进行训练，以使损失函数的取值最小化。
173.需要说明的是，上述仅以模型训练的终止条件为损失函数的取值最小化进行示例，实际应用时，也可以设置其它的终止条件，比如终止条件还可以为训练次数达到设定的次数阈值，或者，终止条件还可以为训练时长达到设定的时长阈值，等等，本公开对此并不做限制
174.在本公开实施例中，针对多个检测框中的任一检测框，将该任一检测框中的图像内容输入经过训练的识别模型，以得到识别模型输出的图像质量分值。
175.步骤503，根据多个检测框的图像质量分值，从多个检测框中确定目标检测框。
176.步骤504，对目标检测框中的图像内容进行特征提取，以得到目标图像特征。
177.步骤505，根据目标图像特征对目标检测框中的图像内容进行目标识别。
178.步骤503至505的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。
179.本公开实施例的目标识别方法，通过针对多个检测框中的任一检测框，将该任一检测框中的图像内容输入经过训练的识别模型，以得到识别模型输出的图像质量分值，其中，识别模型已学习到图像内容与图像质量分值之间的对应关系。由此，基于深度学习技术，确定各检测框的图像质量分值，可以提升确定结果的准确性和可靠性。
180.为了清楚说明本公开任一实施例中是如何根据目标图像特征对目标检测框中的图像内容进行目标识别的，本公开还提出一种目标识别方法。
181.图6为本公开实施例六所提供的目标识别方法的流程示意图。
182.如图6所示，该目标识别方法可以包括以下步骤：
183.步骤601，获取待检测视频，并对待检测视频中的目标视频帧进行目标对象检测，以得到多个检测框。
184.步骤602，确定多个检测框的图像质量分值。
185.步骤603，根据多个检测框的图像质量分值，从多个检测框中确定目标检测框。
186.在本公开实施例的一种可能的实现方式中，可以将多个检测框按照图像质量分值进行降序排列，从而可以选取排序在前的设定个数的检测框，并将选取的检测框，作为目标检测框。
187.在本公开实施例的另一种可能的实现方式中，可以判断各检测框的图像质量分值是否高于设定分值，若某个检测框的图像质量分值高于设定分值，则表明该检测框中的图像内容的图像质量较高，因此，可以将该检测框作为目标检测框。其中，设定分值为预先设定的分值。
188.由此，可以基于不同方式，从多个检测框中确定目标检测框，可以提升该方法的灵活性和适用性。
189.步骤604，对目标检测框中的图像内容进行特征提取，以得到目标图像特征。
190.步骤601至604的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。
191.步骤605，确定目标图像特征与多个参考对象的参考图像特征之间的匹配度。
192.其中，每个参考对象对应的参考图像特征的个数可以为一个，或者，也可以为多个，本公开对此并不做限制。比如，可以对参考对象进行多角度拍摄得到的多帧图像进行特征提取，得到该参考对象对应的多个参考图像特征。
193.比如，以该方法应用于行人检测场景进行示例性说明，该参考对象可以为待跟踪对象，比如张三、李四等。
194.在本公开实施例中，可以基于距离度量算法(比如欧几里得距离、曼哈顿距离、明可夫斯基距离等)和相似度度量算法(比如余弦相似度、皮尔森相关系数等)，计算目标图像特征与多个参考对象的参考图像特征之间的匹配度。
195.需要说明的是，当两个图像特征之间的距离越大时，表明两个图像特征之间的匹配度越小，与之相反的，当两个图像特征之间的距离越小时，表明两个图像特征之间的匹配度越大。
196.还需要说明的是，相似度的取值范围处于-1到1之间，当相似度的取值趋近于1时，表明两个图像特征趋近于相同；而当相似度的取值趋近于-1时，表明两个图像特征趋近于完全相反；当相似度的取值为0时，表明两个图像特征不相关。
197.步骤606，根据目标图像特征与各参考图像特征之间的匹配度，从各参考图像特征中确定匹配度高于设定阈值的匹配图像特征。
198.其中，设定阈值为预先设定的阈值，比如，该设定阈值可以为80％、90％等等。
199.在本公开实施例中，可以根据目标图像特征与各参考图像特征之间的匹配度，从各参考图像特征中确定匹配度高于设定阈值的匹配图像特征。
200.步骤607，将匹配图像特征对应的参考对象，确定为与目标检测框关联的关联对象。
201.在本公开实施例中，可以将匹配图像特征对应的参考对象，确定为与目标检测框关联的关联对象。
202.作为一种应用场景，以该方法应用于跨境头的行人跟踪场景进行示例，可以获取前一个摄像头采集的视频帧中待跟踪对象(该待跟踪对象即为参考对象)的参考图像特征，从而在待跟踪对象移动到下一个摄像头的监控区域时，可以根据下一个摄像头采集的各对象的图像特征与参考图像特征进行匹配，从而可以将匹配的图像特征与待跟踪对象关联。
203.可选地，还可以在各摄像头采集的视频流中对与待跟踪对象关联的图像特征所对应的图像区域或检测框进行标记，以使得相关人员可以直观化地查询待跟踪对象的移动轨迹。
204.作为一种示例，以该方法应用于行人检测场景中进行示例，可以对摄像头采集的视频流中的各视频帧进行目标对象(即行人)检测，以得到各检测框。针对每个检测框，可以执行以下步骤，以确定检测框的图像质量得分：
205.1、判断该检测框中的目标对象是否完整，或者，判断该检测框中的目标对象是否被遮挡。
206.方式1，可以通过检测框的长宽比，判断检测框中的目标对象是否完整。如图7所示，正常行人的检测框的宽高比约为1:2，当行人的上半身或者下半身被遮挡时，宽高比接近1:1，因此，当检测框的宽高比接近1:1时，表明该检测框中的目标不完整。
207.方式2，通过检测框之间的iou(intersection-over-union，交并比)，判断检测框
中的目标对象是否完整。如果视频帧中的目标对象密集，则各目标对象被遮挡的概率较高，本公开中，可以判断多个检测框之间是否存在重叠区域，如图8所示，若检测框之间存在重叠区域，则重叠区域越大说明两个目标对象在视频帧上的位置越近，目标对象被遮挡的面积越大，特征越差。
208.2、判断该检测框中图像内容是否清晰。
209.方式1，通过图像亮度判断检测框中的图像内容是否清晰。如果图像亮度过暗或者过亮，则图像丢失细节信息，特征变差。可以通过像素点的像素值判断。
210.方式2，通过图像模糊度判断检测框中的图像内容是否清晰。如果图像模糊，则会丢失图像细节，特征变差。可以通过图像锐度判断。
211.从而本公开中，可以根据检测框中目标对象的完整性和图像内容的清晰度，确定该检测框的图像质量得分。
212.比如，当检测框中目标对象完整、无遮挡时，用于指示检测框中目标对象完整性的第一分值为1，而当检测框中目标对象被遮挡的面积越大或宽高比越大，则第一分值越低。
213.当检测框中目标对象清晰且亮度合理时，用于指示检测框中目标对象清晰度的第二分值为1，而当检测框中的图像内容越暗或越亮，则第二分值越低。
214.最终，检测框的图像质量分值可以为第一分值和第二分值的加权求和值，一般以第一分值为主，即第一分值的权重大于第二分值的权重。
215.在特征匹配阶段，可以将各检测框按照图像质量分值进行降序排列，舍弃分值过低的检测框，将分值较高的检测框中的图像特征与各参考图像特征进行匹配，以确定各检测框中是否存在与参考图像特征属于同一目标对象的图像特征，若是，则将匹配的图像特征与参考图像特征对应的参考对象关联。
216.需要说明的是，上述图像质量得分也可以通过深度学习技术来计算，本公开对此并不做限制。
217.公开实施例的目标识别方法，通过确定目标图像特征与多个参考对象的参考图像特征之间的匹配度；根据目标图像特征与各参考图像特征之间的匹配度，从各参考图像特征中确定匹配度高于设定阈值的匹配图像特征；将匹配图像特征对应的参考对象，确定为与目标检测框关联的关联对象。由此，可以根据图像特征之间的匹配度，有效识别目标检测框中目标对象的身份信息。
218.与上述图1至图7实施例提供的目标识别方法相对应，本公开还提供一种目标识别装置，由于本公开实施例提供的目标识别装置与上述图1至图7实施例提供的目标识别方法相对应，因此在目标识别方法的实施方式也适用于本公开实施例提供的目标识别装置，在本公开实施例中不再详细描述。
219.图9为本公开实施例七所提供的目标识别装置的结构示意图。
220.如图9所示，该目标识别装置900可以包括：获取模块901、检测模块902、第一确定模块903、第二确定模块904、提取模块905以及识别模块906。
221.其中，获取模块901，用于获取待检测视频。
222.检测模块902，用于对待检测视频中的目标视频帧进行目标对象检测，以得到多个检测框。
223.第一确定模块903，用于确定多个检测框的图像质量分值。
224.第二确定模块904，用于根据多个检测框的图像质量分值，从多个检测框中确定目标检测框。
225.提取模块905，用于对目标检测框中的图像内容进行特征提取，以得到目标图像特征。
226.识别模块906，用于根据目标图像特征对目标检测框中的图像内容进行目标识别。
227.在本公开实施例的一种可能的实现方式中，第一确定模块903，具体用于：针对多个检测框中的任一检测框，确定任一检测框的第一分值，其中，第一分值用于指示任一检测框中目标对象的完整性；确定任一检测框的第二分值，其中，第二分值用于指示任一检测框中图像内容的清晰度；根据第一分值和第二分值，确定任一检测框的图像质量分值。
228.在本公开实施例的一种可能的实现方式中，第一确定模块903，具体用于：确定任一检测框的宽度和高度；根据宽度和高度的比值与设定比值之间的差异，确定任一检测框的第一子分值，其中，第一子分值与差异呈负相关关系；判断任一检测框与多个检测框中除任一检测框之外的其余检测框之间是否存在重叠区域；在任一检测框与其余检测框之间存在重叠区域的情况下，根据重叠区域与任一检测框在目标视频帧中对应区域的占比，确定任一检测框的第二子分值，其中，第二子分值与占比呈负相关关系；根据第一子分值和第二子分值，确定任一检测框的第一分值。
229.在本公开实施例的一种可能的实现方式中，第一确定模块903，具体用于：在任一检测框与其余检测框之间未存在重叠区域的情况下，根据设定取值和第一子分值，确定任一检测框的第一分值；其中，第二子分值小于设定取值。
230.在本公开实施例的一种可能的实现方式中，第一确定模块903，具体用于：对任一检测框中的图像内容进行关键点提取；根据提取的关键点个数，确定任一检测框的第一分值，其中，第一分值与关键点个数呈正相关关系。
231.在本公开实施例的一种可能的实现方式中，第一确定模块903，具体用于：根据任一检测框中各像素点的像素值，确定各像素点的灰度值；根据各像素点的像素值的均值，确定任一检测框的第三子分值；其中，第三子分值用于指示任一检测框中的图像内容的亮度；根据各像素点的灰度值之间的差异，确定任一检测框的第四子分值；其中，第四子分值用于指示任一检测框中的图像内容的模糊度；根据第三子分值和第四子分值，确定任一检测框的第二分值。
232.在本公开实施例的一种可能的实现方式中，第一确定模块903，具体用于：根据第一分值对应的第一权重和第二分值对应的第二权重，对第一分值和第二分值进行加权求和，以得到任一检测框的图像质量分值；其中，第一权重大于第二权重。
233.在本公开实施例的一种可能的实现方式中，第一确定模块903，具体用于：针对多个检测框中的任一检测框，将任一检测框中的图像内容输入经过训练的识别模型，以得到识别模型输出的图像质量分值；其中，识别模型已学习到图像内容与图像质量分值之间的对应关系。
234.在本公开实施例的一种可能的实现方式中，第二确定模块904，具体用于：将多个检测框按照图像质量分值进行降序排列；选取排序在前的设定个数的检测框，并作为目标检测框；或者，将对应图像质量分值高于设定分值的检测框作为目标检测框。
235.在本公开实施例的一种可能的实现方式中，识别模块906，具体用于：确定目标图
像特征与多个参考对象的参考图像特征之间的匹配度；根据目标图像特征与各参考图像特征之间的匹配度，从各参考图像特征中确定匹配度高于设定阈值的匹配图像特征；将匹配图像特征对应的参考对象，确定为与目标检测框关联的关联对象。
236.本公开实施例的目标识别装置，通过对待检测视频中的目标视频帧进行目标对象检测，以得到多个检测框，并确定多个检测框的图像质量分值；根据多个检测框的图像质量分值，从多个检测框中确定目标检测框，并对目标检测框中的图像内容进行特征提取，以得到目标图像特征；根据目标图像特征对目标检测框中的图像内容进行目标识别。由此，根据各检测框的图像质量分值，对各检测框进行筛选，以保留图像质量分值较高的目标检测框，从而仅对图像质量分值较高的目标检测框中的图像内容进行目标识别，可以提升目标识别结果的准确性。
237.为了实现上述实施例，本公开还提供一种电子设备，该电子设备可以包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开上述任一实施例提出的目标识别方法。
238.为了实现上述实施例，本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开上述任一实施例提出的目标识别方法。
239.为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现本公开上述任一实施例提出的目标识别方法。
240.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
241.图10示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
242.如图10所示，电子设备1000包括计算单元1001，其可以根据存储在rom(read-only memory，只读存储器)1002中的计算机程序或者从存储单元1008加载到ram(random access memory，随机访问/存取存储器)1003中的计算机程序，来执行各种适当的动作和处理。在ram 1003中，还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、rom 1002以及ram 1003通过总线1004彼此相连。i/o(input/output，输入/输出)接口1005也连接至总线1004。
243.电子设备1000中的多个部件连接至i/o接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
244.计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算
单元1001的一些示例包括但不限于cpu(central processing unit，中央处理单元)、gpu(graphic processing units，图形处理单元)、各种专用的ai(artificial intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、dsp(digital signal processor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如上述目标识别方法。例如，在一些实施例中，上述目标识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由rom 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到ram 1003并由计算单元1001执行时，可以执行上文描述的目标识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述目标识别方法。
245.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、fpga(field programmable gate array，现场可编程门阵列)、asic(application-specific integrated circuit，专用集成电路)、assp(application specific standard product，专用标准产品)、soc(system on chip，芯片上系统的系统)、cpld(complex programmable logic device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
246.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
247.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、ram、rom、eprom(electrically programmable read-only-memory，可擦除可编程只读存储器)或快闪存储器、光纤、cd-rom(compact disc read-only memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
248.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(cathode-ray tube，阴极射线管)或者lcd(liquid crystal display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，
视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
249.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：lan(local area network，局域网)、wan(wide area network，广域网)、互联网和区块链网络。
250.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务(virtual private server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。
251.其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
252.根据本公开实施例的技术方案，通过对待检测视频中的目标视频帧进行目标对象检测，以得到多个检测框，并确定多个检测框的图像质量分值；根据多个检测框的图像质量分值，从多个检测框中确定目标检测框，并对目标检测框中的图像内容进行特征提取，以得到目标图像特征；根据目标图像特征对目标检测框中的图像内容进行目标识别。由此，根据各检测框的图像质量分值，对各检测框进行筛选，以保留图像质量分值较高的目标检测框，从而仅对图像质量分值较高的目标检测框中的图像内容进行目标识别，可以提升目标识别结果的准确性。
253.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提出的技术方案所期望的结果，本文在此不进行限制。
254.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：牛志博王冠中陈建业邓凯鹏党青青赖宝华刘其文于佃海马艳军
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种可调式多功能理疗枕的制作方法
上一篇：一种桥梁支座压剪机的中间拉板的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。