一种目标人检索方法和装置与流程

文档序号：32883796发布日期：2023-01-12 21:11阅读：44来源：国知局

1.本技术涉及到人员识别领域，具体而言，涉及一种目标人检索方法和装置。

背景技术：

2.在视频监控领域，需要通过行人检索系统特定的人员。描述人的特征的时候，一般会使用人脸特征、人体特征以及运动特征(在下文中将人脸特征、人体特征、运动特征称为不同模式的特征信息)。但是这些特征的获取以及有效场景都有一些限制，例如：人脸特征相对更稳定，不易发生改变，在人脸图像质量较高的情况下能得到超越人的识别能力，但是应用场景仅限于清晰的正脸图片，如果没有拍摄到正脸图片，或者拍摄到正脸图片不够清晰，则不能使用人脸特征进行识别。人体特征能够对非正向目标的身份进行识别，人体特征包括姿态、衣着等，因此，人体特征对成像质量要求不高，但是人体特征中的姿态和衣着容易发生变化，受此影响，人体特征仅能支持短时间内的身份识别和检索。运动特征显示了人走路的姿势，因此，步态识别对目标分辨率要求最低，但是无法解决骑车和下半身遮挡的情况。
3.从三种特征的应用场景分析，它们的擅长场景互补，因此在行人检索时，对这三种特征进行结合使用能够提升在各个场景下的识别效果。
4.公开号为cn107292240a的中国专利申请公开了一种基于人脸与人体识别的找人方法及系统，通过清晰度判断进行识别模式的选择，提供了两种识别模式。即在该专利申请中对所述监控数据进行人脸清晰度判断，若符合设定的第一清晰度阈值，则选择人脸识别模式；若不符合设定的第一清晰度阈值，则进行人体清晰度判断，若符合设定的第二清晰度阈值，则选择人体识别模式。通过该专利申请为识别模式提供了可选项，并有效提高识别性能；通过人体识别模式进行检测，避免了因为人脸看不清导致的无法通过人脸识别实现对目标人物的人脸的检测，在硬件不变的情况下，也能提高平安城市的安全性，节省了改造成本。
5.该专利申请公开的技术方案中是根据清晰度来进行判断的，如果清晰度足够则使用人脸进行识别，如果清晰度不够则使用人体进行识别。该方案其实就是在不同场景下切换了不同的识别模式，其并没有将这两种模式中的特征进行综合利用，识别效果不好。
6.公开号为cn110175587a的中国专利申请公开了一种基于人脸识别和步态识别算法，提供了一种实现在大场景和复杂环境下对特定目标自动进行视频拍摄的新方法，即利用人脸识别算法和步态识别算法的各自优点，先基于人脸识别算法从数据库中识别出现场目标人员，然后基于步态识别算法锁定该现场目标人员，并控制动点摄像头保持对该现场目标人员的持续性视频拍摄，从而可以有效解决单一算法无法满足在大场景和复杂环境中，由于处置人员无法及时到达现场且目标在不断移动的情况下，很难再次发现目标的问题，最终能够大幅提升用户对发现特定目标后的截获率。
7.该专利申请公开的技术方案中，首先通过人脸识别来确定目标人员，然后通过步态识别来锁定目标人员，这种处理方法本质上仍然是一种特征来进行识别的，从而在无法
识别到人的下肢时就无法进行人员的检测和识别。
8.综上分析可知，在现有技术中均是通过使用单模式特征来进行人的识别，这种识别方式会受到环境的限制，降低识别效果。

技术实现要素：

9.本技术实施例提供了一种目标人检索方法和装置，以至少解决现有技术中使用单模式特征来进行人的识别所存在容易受到环境限制、识别效果受限的问题。
10.根据本技术的一个方面，提供了一种目标人检索方法，包括：接收用户输入的待检索信息，并从所述待检索信息中提取目标人的多个模式的特征信息，其中，每个模式的特征信息分别从不同的方面对所述目标人进行识别；将所述多个模式的特征信息进行特征融合生成所述目标人对应的第一融合特征，其中，所述第一特征融合是将所述多个模式中的每个模式的特征信息进行合并后得到的；使用所述第一融合特征在融合特征库中进行检索，其中，所述融合特征库中存储的融合特征是根据不同人的所述多个模式的特征信息生成的，并且，所述融合特征库中的融合特征的生成方式与所述第一融合特征相同；获取检索到的与所述第一融合特征相似度满足要求的第二融合特征，其中，所述第二融合特征为一个或多个。
11.进一步地，所述多个模式的特征信息包括以下至少之一：人脸特征、人体特征、运动特征，其中，所述人脸特征为用于进行人脸识别的特征信息、所述人体特征为用于进行人体识别的特征信息、所述运动特征为用于进行步态识别的特征信息。
12.进一步地，从所述待检索信息中提取所述目标人的多个模式的特征信息包括：在所述待检索信息为图片的情况下，从所述图片中提取人脸特征和/或人体特征；和/或，在所述待检索信息为视频的情况下，从所述视频中获取包括所述目标人的视频帧，并从所述视频帧中提取所述人脸特征和/或人体特征；从所述视频中提取多个视频帧，并将从所述多个视频帧中每个视频帧提取到的所述目标人的图像作为一个以时间为基础的序列，从所述序列中提取所述运动特征。
13.进一步地，在所述待检索信息包括时间范围和/或地理范围的情况下，使用所述第一融合特征在融合特征库中进行检索包括：使用所述第一融合特征在所述融合特征库中符合所述时间范围和/或地理范围的融合特征中进行检索。
14.进一步地，获取检索到的与所述第一融合特征相似度满足要求的第二融合特征包括：获取按照相似度从大到小顺序依次排列的多个第二融合特征；和/或，获取相似度大于阈值的至少一个第二融合特征。
15.进一步地，根据多个模式的特征信息生成所述融合特征包括：为所述多个模式中每个模式的特征信息生成注意力权重，其中，所述注意力权重用于指示该特征信息与其他特征信息之间的相关性；根据所述每个模式的特征信息以及对应的注意力权重进行加权计算得到所述融合特征。
16.进一步地，根据多个模式的特征信息生成所述融合特征包括：在根据所述每个模式的特征信息以及对应的注意力权重进行加权计算得到融合特征之后，将得到的融合特征保存在融合特征库中；对于所述融合特征库中保存的融合特征，计算与该融合特征距离最接近的k个融合特征；将该融合特征和所述k个融合特征进行聚合得到聚合后的特征，将所
述聚合后的特征作为所述融合特征保存在所述融合特征库中。
17.进一步地，所述多个模式的特征信息包括：每个模式的特征本身，所述多个模式的特征信息还包括：对每个模式的特征本身的评分和/或每个模式的特征本身的属性。
18.根据本技术的另一个方面，还提供了一种目标人检索装置，包括：提取模块，用于接收用户输入的待检索信息，并从所述待检索信息中提取目标人的多个模式的特征信息，其中，每个模式的特征信息分别从不同的方面对所述目标人进行识别；融合模块，用于将所述多个模式的特征信息进行特征融合生成所述目标人对应的第一融合特征，其中，所述第一特征融合是将所述多个模式中的每个模式的特征信息进行合并后得到的；检索模块，用于使用所述第一融合特征在融合特征库中进行检索，其中，所述融合特征库中存储的融合特征是根据不同人的所述多个模式的特征信息生成的，并且，所述融合特征库中的融合特征的生成方式与所述第一融合特征相同；获取模块，用于获取检索到的与所述第一融合特征相似度满足要求的第二融合特征，其中，所述第二融合特征为一个或多个。
19.进一步地，所述多个模式的特征信息包括以下至少之一：人脸特征、人体特征、运动特征，其中，所述人脸特征为用于进行人脸识别的特征信息、所述人体特征为用于进行人体识别的特征信息、所述运动特征为用于进行步态识别的特征信息。
20.进一步地，所述提取模块用于：在所述待检索信息为图片的情况下，从所述图片中提取人脸特征和/或人体特征；和/或，在所述待检索信息为视频的情况下，从所述视频中获取包括所述目标人的视频帧，并从所述视频帧中提取所述人脸特征和/或人体特征；从所述视频中提取多个视频帧，并将从所述多个视频帧中每个视频帧提取到的所述目标人的图像作为一个以时间为基础的序列，从所述序列中提取所述运动特征。
21.进一步地，所述检索模块用于：使用所述第一融合特征在所述融合特征库中符合所述时间范围和/或地理范围的融合特征中进行检索。
22.进一步地，所述获取模块用于：获取按照相似度从大到小顺序依次排列的多个第二融合特征；和/或，获取相似度大于阈值的至少一个第二融合特征。
23.进一步地，所述融合模块用于：为所述多个模式中每个模式的特征信息生成注意力权重，其中，所述注意力权重用于指示该特征信息与其他特征信息之间的相关性；根据所述每个模式的特征信息以及对应的注意力权重进行加权计算得到所述融合特征。
24.进一步地，所述融合模块用于：在根据所述每个模式的特征信息以及对应的注意力权重进行加权计算得到融合特征之后，将得到的融合特征保存在融合特征库中；对于所述融合特征库中保存的融合特征，计算与该融合特征距离最接近的k个融合特征；将该融合特征和所述k个融合特征进行聚合得到聚合后的特征，将所述聚合后的特征作为所述融合特征保存在所述融合特征库中。
25.进一步地，所述多个模式的特征信息包括：每个模式的特征本身，所述多个模式的特征信息还包括：对每个模式的特征本身的评分和/或每个模式的特征本身的属性。
26.根据本技术的另一个方面，还提供了一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现上述的方法步骤。
27.根据本技术的另一个方面，还提供了一种可读存储介质，其上存储有计算机指令，其中，该计算机指令被处理器执行时实现上述的方法步骤。
28.在本技术实施例中，采用了接收用户输入的待检索信息，并从所述待检索信息中提取目标人的多个模式的特征信息，其中，每个模式的特征信息分别从不同的方面对所述目标人进行识别；将所述多个模式的特征信息进行特征融合生成所述目标人对应的第一融合特征，其中，所述第一特征融合是将所述多个模式中的每个模式的特征信息进行合并后得到的；使用所述第一融合特征在融合特征库中进行检索，其中，所述融合特征库中存储的融合特征是根据不同人的所述多个模式的特征信息生成的，并且，所述融合特征库中的融合特征的生成方式与所述第一融合特征相同；获取检索到的与所述第一融合特征相似度满足要求的第二融合特征，其中，所述第二融合特征为一个或多个。通过本技术解决了现有技术中使用单模式特征来进行人的识别所存在容易受到环境限制、识别效果受限的问题，从而能够兼顾各个模式的特征信息的优势，提高识别效果，扩大了应用场景。
附图说明
29.构成本技术的一部分的附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
30.图1是根据本技术实施例的目标人检索方法的流程图；
31.图2是根据本技术实施例的多元信息融合检索的流程示意图；
32.图3是根据本技术实施例的图片结构化的流程示意图；
33.图4是根据本技术实施例的视频结构化的流程示意图；
34.图5是根据本技术实施例的多特征融合网络模型示意图；
35.图6是根据本技术实施例的近邻信息融合网络模型示意图；以及，
36.图7是根据本技术实施例的检索流程示意图。
具体实施方式
37.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
38.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
39.考虑到现有技术中存在的问题，也可以采用不同的检索方式来进行融合检索，这些检索方式中可以使用不同的特征信息，通过不同的特征信息进行检索后根据不同的显示策略来对检索结果进行显示。
40.在第一种检索方式中，先用不同的特征信息单独检索，然后用户自行选择不同的检索模式，得到不同特征的检索结果展示。例如，用户使用人脸特征进行检索，此时会在一个页面中显示出与该人脸特征匹配的检索结果，用户再使用人体特征进行检索，会在另一个页面中显示与该人体特征匹配的检索结果。在这种方式中，虽然可以使用多种特征信息进行检索，但是各种特征信息的检索均是单独进行的，因此，这种方式需要较多的人工操作较多，不能够在同一份结果中看到所有特征检索的结果。
41.在第二种检索方式中，可以配置不同的检索条件，例如如果检索夜间的行人，则优先使用人体特征或者运动特征进行检索，如果检索白天的行人，则优先使用人脸特征或人
体特征进行检索。然后在不同的条件下按照特征的优先级进行结果展示。例如，如果目标在多种特征的检索结果中均出现，则优先进行显示，如果目标进在一种特征的检索结果中出现，则可以将该目标排在后面。这种检索方式其实也是进行单一特征信息的检索，只不过可以根据需要对检索出的结果进行排序显示而已。
42.在第三种检索方式中，与第一种检索方式相同，也是先用不同的特征信息来进行单独检索，然后按照人的经验/用户需求设定各种特征相似度权重，得到融合相似度进行展示。例如，根据人脸特征来进行检索时得到多个不同的第一结果，根据人体特征进行检索时得到多个不同的第二结果，根据运动特征进行检索时得到多个不同的第三结果。对于第一结果、第二结果和第三结果设置不同的权重值，这样可以对检索后的结果进行融合处理。这种方式也是在检索到结果之后再进行融合，对于检索结果融合依赖于用户设置的权重，对于不同场景的适应度是不相同的。
43.需要注意的是，上述三种检索方式虽然都进行融合，但是其是对检索结果的融合，在进行检索时，输入的信息仍然是一种特征信息，因此上述三种检索方式仍然没有在检索过程中对利用到多种特征信息，没能够兼顾各个模式的特征信息的优势。
44.为了解决在检索过程中未利用到多种模式的特征信息的问题，在以下实施方式中，提供了一种目标人检索方法，图1是根据本技术实施例的目标人检索方法的流程图，如图1所示，下面对图1示出的方法中涉及到的步骤进行说明。
45.步骤s102，接收用户输入的待检索信息，并从所述待检索信息中提取目标人的多个模式的特征信息，其中，每个模式的特征信息分别从不同的方面对所述目标人进行识别。
46.在该步骤中，直接从用户输入的待检索信息中提取多种模式的特征信息，例如，能够提取的所述多个模式的特征信息包括以下至少之一：人脸特征、人体特征、运动特征，其中，所述人脸特征为用于进行人脸识别的特征信息、所述人体特征为用于进行人体识别的特征信息、所述运动特征为用于进行步态识别的特征信息。当然，随着识别技术的提高，也可能采用其他模式的特征信息来进行识别，例如利用红外摄像头拍谁的图像提取热成像特征等，在本步骤中并不限定提取何种模式的特征信息，作为一种比较优的处理方式，在该步骤中应该尽可能多的提取各种模式的特征信息，提取的模式越多，得到的检索结果也会更优。
47.作为另一个可选的实施方式，所述多个模式的特征信息包括：每个模式的特征本身，所述多个模式的特征信息还包括：对每个模式的特征本身的评分和/或每个模式的特征本身的属性。例如，对于提取人脸特征而言，在提取出人脸特征之后，还可以为该人脸特征的清晰度进行打分，还可以增加人脸的属性，例如该人脸是否带眼镜或者带口罩等。这些特征的属性和/或评分也可以同人脸特征一起进行特征融合(例如可以作为属性和/或评分可以作为特征融合的权重值等)。
48.步骤s104，将所述多个模式的特征信息进行特征融合生成所述目标人对应的第一融合特征，其中，所述第一特征融合是将所述多个模式中的每个模式的特征信息进行合并后得到的。
49.在该步骤中，对多个模式的特征信息进行了融合，这样就可以得到融合特征。该步骤中特征信息是特征向量，在机器学习领域，是将图像、文字、视频、音频等信息转换为数据向量来进行处理的。在步骤s102中可以从用户输入的各种类型的待检索信息中提取不同模
式对应的特征向量，在得到特征向量之后，可以将各个模式对应的特征向量进行计算得到第一融合特征，即第一融合特征也是一种特征向量(需要说明的是，在以下实施方式中所称的特征向量是机器学习概念中的特征向量，而并不是矩阵理论中的特征向量)。
50.步骤s106，使用所述第一融合特征在融合特征库中进行检索，其中，所述融合特征库中存储的融合特征是根据不同人的所述多个模式的特征信息生成的，并且，所述融合特征库中的融合特征的生成方式与所述第一融合特征相同。
51.在该步骤中，使用了融合特征库，该融合特征库中保存的均是使用多个模式的特征信息融合得到的融合特征。因此，使用第一融合特征在融合特征库中进行检索就可以到满足要求的检索结果。
52.步骤s108，获取检索到的与所述第一融合特征相似度满足要求的第二融合特征，其中，所述第二融合特征为一个或多个。
53.在上述步骤中，在进行检索的时候使用的不是单一模式的特征信息(例如仅仅使用人脸特征来进行检索)，而是使用多个模式的特征信息进行融合后得到的第一融合信息来进行检索，即在检索过程中就充分利用了能够提取到的各个模式的特征信息，因此，通过上述步骤，解决了现有技术中使用单模式特征来进行人的识别所存在容易受到环境限制、识别效果受限的问题，从而能够兼顾各个模式的特征信息的优势，提高识别效果，扩大了应用场景。
54.在步骤s102中已经说明了可以提取多个模式的特征信息，在下文中以人脸特征、人体特征、运动特征为例进行说明，其他特征信息的提取方式也是类似的，在此不再一一赘述。在如下实施方式中，将人脸、人体和步态均提取为特征向量，然后对提取到的多个特征向量进行融合得到第一融合特征(也是特征向量)。为了更好的对各个实施方式进行说明，下面首先介绍一下特征向量的概念。在如下实施方式中涉及到的特征向量指机器学习的概念，不同于矩阵理论。
55.机器学习算法都会将数据集作为输入，并从中学习经验。机器学习算法会遍历数据并识别数据中的模式。对于图片中的人脸数据而言，其可以学习到数据包括：脸部的长度和/或宽度。考虑到图片比例会被调整，长度和高度可能并不可靠，但是在放缩图片后，比例是保持不变的，因此可以选择脸部长度和宽度的比例来作为脸部识别的数据。除此之外，还可以选择脸部尺寸(如宽度和/或长度)、嘴、鼻子、眼睛、眉毛的部位的位置和大小等来作为识别数据。这其中用于识别的每一项数据均可以看作是一个维度。即不同的脸有不同的维度，相似的脸有相似的维度。但是，对于机器学习算法而言，其只能理解数值，有挑战性的是需要将特定的脸转为数字，因为机器学习算法只能理解数字，因此，需要将各个维度转换成数字，用于表示一张脸的数字可以称为特征向量。简单而言，一个特征向量包括特定顺序的各种数字。
56.例如，可以将一张脸映射到一个特征向量上，特征向量由不同的特征组成，如：脸的长度(cm)、脸的宽度(cm)、唇部宽度(cm)、鼻子长度(cm)等，当给定一个图片时，可以标注不同的特征并将其转化为如下的特征向量：(23.1,15.8,5.2,4.4)，其中，23.1表示脸的长度是23.1cm，15.8表示脸的宽度是15.8cm，5.2表示唇部的宽度为5.2cm，4.4表示鼻子的长度是4.4cm。当然还可以从图片中衍生出无数的其他特征(例如，头发颜色，胡须，眼镜等)，在此不再一一列举。
57.在将每个图片解码为特征向量之后，就能够进行人脸识别了。即使用同一个人的两张面部图片时，提取的特征向量会非常相似。换言之，两个特征向量的“距离”就变得非常小。此时机器学习可以完成两件事：第一，提取特征向量。由于特征过多，手动列出所有特征是非常困难的。一个机器学习算法可以自动标注很多特征。第二，匹配算法：一旦得到特征向量，机器学习算法需要将新图片和语料库中的特征向量进行匹配。
58.对于人体特征而言，可以获取人体的身高、胖瘦、衣着、体态等信息，然后将获取到的这些信息转换为特征向量即可。
59.对于运动特征而言，其生成特征向量的方法有很多种，在一个例子中，可以通过多个连续的人行走图像，提取一个完整的步态周期所包括的姿势，例如，人的一个完整步态周期含有五个关键姿势，依次为左右脚并拢、左脚前迈并落地、左右脚并拢、右脚前迈并落地、左右脚并拢，将包括这五个姿势的图像作为一个子序列，对每个子序列进行人的轮廓提取，并将提取到的轮廓转换为步态矩阵，然后对步态矩阵进行数学处理，得到步态序列的特征向量。
60.机器学习是获取特征向量的方式之一，例如，可以预先获取训练数据，每一组训练数据均包括人脸图片以及从人脸数据中提取的特征向量，使用这些训练数据对一个机器学习模型进行训练，在该机器学习模型训练结束之后将人脸图像输入到该机器模型中就可以得到该人脸数据对应的特征向量。同理，也可以使用训练好的机器学习模型得到人体对应的特征向量和步态对应的特征向量。当然，还存在很多种其他方式均可以得到人脸、人体和/或步态对应的特征向量，无论是哪种方式得到的人脸特征、人体特征和运动特征只要进行了融合则均可以取得相应的技术效果。在如下实施例中，把从图像或视频得到人脸特征、人体特征和/或运动特征的过程称为特征建模，即特征建模是通过大量的样本对机器学习模型进行训练，获得能够表达目标(人的人脸、人体、步态等)唯一性的数据向量的过程。
61.通过上述说明可知，只要能够将人体特征、人脸特征和运动特征表达为特征向量就可以对这些特征向量进行融合处理得到融合特征。在深度学习中，进行特征融合的方式有很多种，例如可以采取如下两种方式进行特征融合：(1)按点逐位相加(point-wise addition)和(2)进行向量拼接(concatenate)。point-wise addition逐个位相加，即为了融合这两个特征向量，直接进行对应元素的相加，在这种方式中，进行融合的特征向量的维度是相同的，如果是不同维度，则可以通过线性变换转换成同维向量，然后再进行逐个为相加。向量拼接即将不同的特征向量直接拼接成一个新的特征向量。当然，特征融合的方式还有很多种方式，在此不再一一赘述，为了描述方便，在如下实施方式中将执行特征融合步骤的模块称为特征融合模块。
62.作为一个可选的实施例，在进行多个模式的特征信息融合时，可以考虑到不同模式的特征信息之间的关系，在此引入了注意力权重这一概念，所述注意力权重用于指示该特征信息与其他特征信息之间的相关性，这样在进行多个模式的特征信息融合时就可以有所侧重。即根据多个模式的特征信息生成所述融合特征可以包括如下步骤：为所述多个模式中每个模式的特征信息生成注意力权重，根据所述每个模式的特征信息以及对应的注意力权重进行加权计算得到所述融合特征。在该可选实施方式中，各个模式的特征信息的权重值可以由用户进行配置得到，也可以是根据用于提取特征的图像和/或视频的质量生成的，例如图像中提取到人脸的正面图像，则人脸特征的权重值则大一些；如果图像中没有提
取到正面的人脸图像，则人体特征的权重值则大一些。
63.在上述步骤中，将预先得到的数据(例如摄像头拍摄得到的视频、图像等)也进行上述数据建模过程，从而到人脸特征、人体特征和运动特征(为了描述方便，将该过程称为数据结构化，将执行该处理的模块称为数据结构化模块)，然后将这些特征进行融合得到融合特征(将执行融合处理的模块称为特征融合模块或融合模块)，将融合特征作为结构化数据保存在数据库(该数据库被称为融合特征库)中。即在根据所述每个模式的特征信息以及对应的注意力权重进行加权计算得到融合特征之后，将得到的融合特征保存在融合特征库中。在另一个可选的实施方式中，融合特征库中保存了很多融合特征，在这些融合特征中，可能存在多个融合特征指向同一个行人，例如不同位置的摄像头在不同时间段内拍摄到同一行人，该行人在融合特征库中保存的多条融合特征是比较接近的，因此，可以对这些接近的融合特征进行进一步聚合，通过聚合之后可以将同一行人的特征进行最大程度的体现，从而能够提高检索效率。即在该可选实施方式中，对于所述融合特征库中保存的融合特征，计算与该融合特征距离最接近的k个融合特征；将该融合特征和所述k个融合特征进行聚合得到聚合后的特征，将所述聚合后的特征作为所述融合特征保存在所述融合特征库中。
64.通过上述可选实施方式，就可以使用第一融合特征在融合特征库中进行检索，从融合特征库中找到与第一融合特征相匹配的第二融合特征。
65.第一融合特征是从用户输入的待检索信息中提取出来的，用户输入的待检索信息可能包括图片也可能包括视频，下面对此分别进行说明。
66.在所述待检索信息为图片的情况下，从所述图片中提取人脸特征和/或人体特征。需要注意的是，用户输入的图片可能是一张，从一张图片中可能无法获取到人脸特征，此时就将人体特征作为第一融合特征来进行检索。如果能够从一张图片中获取到人脸特征和人体特征，则将人体特征和人脸特征进行融合得到第一融合特征。用户输入的图片为多张的情况下，可以从多张图片上分别提取人脸特征和人体特征，然后使用将提取到的人体特征和人脸特征进行融合得到第一融合特征。
67.在所述待检索信息为视频的情况下，从所述视频中获取包括所述目标人的视频帧，并从所述视频帧中提取所述人脸特征和/或人体特征。在这种情况下，如果从一个视频中无法同时提取到人脸特征和人体特征，则可以获取多个视频帧，然后从多个视频帧中进行人脸特征和人体特征的提取。对于运动特征而言，其是具有时间特性的序列，因此，为了提取运动特征就必须从所述视频中提取多个视频帧，并将从所述多个视频帧中每个视频帧提取到的所述目标人的图像作为一个以时间为基础的序列，从所述序列中提取所述运动特征。
68.在用户输入待检索信息时，为了缩小检索范围，还可以请用户输入时间范围和/或地理范围，其中，时间范围为一个时间段，用于检索在该时间段抓拍到的信息，地理范围可以包括具体的位置名称或经纬度范围，用于检索在该地理范围内抓拍到的信息。在从抓拍到的数据中提取融合特征并保存在融合特征库的过程中，还可以将抓拍数据的时间和地理范围与从数据中提取到的融合特征进行对应保存。通过该方式得到的融合特征库包括了时间范围和/或地理范围，在所述待检索信息包括时间范围和/或地理范围的情况下，使用所述第一融合特征在所述融合特征库中符合所述时间范围和/或地理范围的融合特征中进行检索。通过该可选实施方式可以缩小检索范围，提高检索效率。作为另一个可选实施方式，
在用户输入了时间范围和/或地址范围的情况下，首先在所述时间范围和/或地址范围内进行检索得到与第一融合特征相匹配的融合特征，然后在所述时间范围和/或地址范围外进行检索也得到与第一融合特相匹配的融合特征，如果在范围外检索到的融合特征相比于在范围内检索到的融合特征，与第一融合特征的相似度更高，则除了提供范围内检索到的融合特征之外，还可以提供在范围外检索到的融合特征。需要说明的是，用户在检索的时候希望得到的检索结果是图片和/或视频，因此，在得到融合特征之后，将检索到的融合特征对应的图像和/或视频显示给用户，融合特征就是从这些图像和/或视频中提取出来的。
69.在获取与所述第一融合特征相似度满足要求的第二融合特征时，可以获取按照相似度从大到小顺序依次排列的多个第二融合特征；或者也可以获取相似度大于阈值的至少一个第二融合特征。由于需要将检索到的第二融合特征对应的图像和/或视频提供给用户，因此可以根据用户的配置来确定如何显示检索到的第二融合特征对应的图像和/或视频，例如，如果用户配置了按照时间先后顺序显示相似度大于阈值的第二融合特征对应的图像和/或视频，则将检索到的第二融合特征按照时间顺序进行排序，然后将排序后的第二融合特征对应的图像和/或视频显示给用户。为了描述方便，在以下实施方式中，执行检索步骤的模块称为检索模块或者融合检索模块。
70.下面结合一个可选的实施例对包括了上述数据结构化模块、特征融合模块以及检索模块的融合检索系统来进行说明，该融合检索系统可以用在行人检索匹配上，由于利用了人体特征、人脸特征和运动特征等多种信息，因此也被称作行人多元信息融合检索系统。
71.图2是根据本技术实施例的多元信息融合检索的流程示意图，如图2所示，用户输入的数据以及预先获取到的数据均需要通过数据结构化以及特征融合的步骤，预先获取到的数据经过数据结构化之后得到多个模式的特征信息，然后经过特征融合之后得到融合特征，最终被保存在融合特征库(也称为数据底库中)。用户输入的数据经过数据结构化后得到多个模式的特征信息，经过特征融合后得到待检索的融合特征(即第一融合特征)，然后使用第一融合特征在数据底库中进行融合检索，最终显示检索结果。其中，数据结构化可以通过数据结构化模块来执行，特征融合可以通过特征融合模块来进行，融合检索可以通过检索模块来进行。其中，数据结构化模块：用于实现目标人数据的结构化，得到目标的人脸、人体、步态的特征、属性、评分信息，同时还可以保存抓拍时间和位置信息；特征融合模块：将所需要的特征和评分以及属性信息通过网络模型进行融合，得到融合特征，保存到融合特征库中。检索模块：将用户输入的待查询数据计算得到融合特征，通过时空(时间范围和地理位置范围)和特征索引缩小检索范围，通过融合特征的比对，从融合特征库中检索到相似符合要求的融合特征，然后将相似度降序排序并展示给用户。下面对这三个模块结合附图分别进行说明。
72.数据结构化模块
73.数据结构化模块主要是将用户上传的待查询数据，以及设置在预定区域的设备采集的视频流或者抓拍图进行数据结构化，从而得到多个模式的特征信息(例如，人脸特征、人体特征和/或运动特征)。在该数据结构化流程中，可以包括目标检测、特征建模和属性识别，通过特征建模可以额得到目标的人脸特征、人体特征，通过属性识别可以得到这些特征的属性和/或评分，并且还可以保存抓拍点位的地理位置信息和抓拍时间等。
74.设置在预定区域的设备(例如设置在街道等公共区域的摄像头或相机等)可以用
来采集数据，这些设备一直处于拍摄状态，所以将这些设备采集的数据称为数据流，采集的数据流经过数据结构化模块后，其结构化信息在经过特征融合之后，可以保存在融合特征库中，另外作为一种可选的方式，通过数据结构化模块得到的多个模式的特征信息也可以保存在融合特征库中。而用户上传的待查询数据经过数据结构化模块，得到查询的结构化数据，然后将结构化数据进行特征融合得到融合特征之后就可以到融合检索模块中。
75.在有些场景下，例如，非正向的人无法得到人脸的相关信息，非走路的人无法得到步态信息，所以会有一些信息缺失，所以数据结构化后只能保证有人体特征，人脸特征和运动特征是有概率缺失的。对于用户输入的数据有两种情况，图3是根据本技术实施例的图片结构化的流程示意图，如图3所示，接收到用户输入的图片之后，对图片中进行目标检测，该目标检测主要是检测该图片中的人，从图片中检测人的方法有很多种，采用任一种检测方式即可，在此不再赘述。在检测到目标之后，通过建模提取人脸特征和人体特征，然后从图片中提取属性并且根据图片对提取到的人脸特征和人体特征进行打分，最终得到图片结构化信息。
76.图4是根据本技术实施例的视频结构化的流程示意图，如图4所示，从视频流中进行目标检测，在检测到目标人之后，对出现该目标人的帧均进行保存(这个过程称为目标检测)，从保存的帧中选择出清晰度比较高的帧(称为最优帧)，通过对最优帧进行抓拍或者截取得到图片，然后按照图3中示出的流程就可以得到图片结构化信息。对于通过目标检测保存下来的帧按照时间顺序构成检测序列，然后对检测序列通过运动特征建模得到运动特征，在获取对序列的评分，最终构成视频结构化信息，该视频结构化信息也可以保存在数据底库中。
77.特征融合模块
78.特征融合模块可以由多特征融合网络模型、近邻信息融合网络模型构成。图5是根据本技术实施例的多特征融合网络模型示意图，如图5所示，多特征融合网络模型的输入为人脸特征、人体特征和运动特征，还可以输入人体的评分和属性、人脸的评分和属性以及步态序列评分和属性。其中，人体的评分和属性，例如：清晰度、完整度、运动状态、朝向等；人脸的评分和属性，例如：清晰度、完整度、瞳距、角度、戴眼镜、口罩等。
79.多特征融合网络模型可以采用现有神经网络模型实现，图5示出了使用transformer网络对所有的特征和属性做特征融合的多特征融合网络模型。如图5所示，该多特征融合网络模型包括：multi-head self-attention层、ffn层、flatten层和linear层，下面对各层的作用进行说明。
80.multi-head self-attention层用于:发掘各个信息之间的关系，自适应调整各个特征的权重进行加权融合。
81.ffn层用于：提升模型容量和非线性程度，增强模型的表达能力。
82.flatten层用于：将多种维度的特征拉成一维向量。
83.linear层用于：将特征映射到固定大小的维度，得到表示目标唯一性的向量。
84.各个特征信息和评分属性经过transformer网络，通过自注意力模块和ffn多层神经网络，在最后将所有特征拉成一条特征经过线性层映射到固定维度。
85.在训练时将融合特征通过一个线性层映射到id(id为每个行人的标识信息，每个行人有一个唯一的id)上，可以使用柔性最大值(softmax)激活函数和交叉熵损失进行训
练，同时引入度量损失函数，度量损失函数的实现形式可以为三元组损失(triplet loss)。其中，softmax激活函数和交叉熵损失，以及triplet loss可以如下：
86.softmax激活函数+交叉熵损失：
[0087][0088]
其中n为训练时的行人的id数量(即行人的数量)，y为独热(one-hot)的真值标签，xi为预测结果。
[0089]
triplet loss:
[0090]
l＝max(d(a,p)-d(a,n)+margin,0)
[0091]
三元组损失需要每个中心样本a，构成3元组(a,p,n)，分别表示中心样本、正样本、负样本，d为距离函数，表示中心样本与负样本之间的距离要比与正样本之间的距离大超过margin(margin是一个固定的边界距离，是可以配置的)，否则会使用此损失函数进行惩罚。
[0092]
作为可选的一种方式，若计算资源允许的情况下，融合特征还可以在数据库中计算k近邻，得到近邻样本信息，通过近邻信息融合网络进行特征融合。近邻信息融合网络的一种实现方式为使用图卷积神经网络(gcn)进行融合，融合后的特征具有更加稳定、更具代表性等优点。图6是根据本技术实施例的近邻信息融合网络模型示意图，如图6所示，该网络模型执行的步骤包括：
[0093]
计算knn：在该步骤中，获取每个当前样本的k近邻样本。
[0094]
获取k+1个特征：在该步骤中，每个样本的k个近邻样本与当前样本构成k+1条特征。
[0095]
构图(计算邻接矩阵)：在该步骤中，按照近邻关系和相似度阈值构造k+1个样本的邻接矩阵，后续用于gcn网络的推理。
[0096]
gcn网络：在该步骤中将邻接矩阵输入到gcn网络中得到融合特征。gcn网络是一种基于图的神经网络结构，能够基于邻接矩阵，融合近邻样本的信息，得到融合特征。
[0097]
图卷积神经网络的训练方法与上述特征融合模型的训练方法一致，同样是分类任务结合度量损失，经过图卷积神经网络后，特征进一步增强，并且利用近邻信息稳定融合特征，能够提升系统抗噪声能力。
[0098]
检索模块
[0099]
图7是根据本技术实施例的检索流程示意图，如图7所示，当用户输入待查询数据时，同样通过数据结构化和特征融合，将融合特征与数据底库中的所有数据进行比较，将相似度按照降序排序。如果想加快检索效率，可以根据抓拍的时间和点位位置划分时空圈，仅比对时空圈内的数据。融合特征也可以应用在数据采集端(即摄像头或相机端)，提高检索效率。
[0100]
如果想进一步加速比对过程，可以对特征底库建立索引。在关系数据库中，索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构，它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引提供指向存储在表的指定列中的数据值的指针，然后根据指定的排序顺序对这些指针排序。数据库使用索引以找到特定值，然后顺指针找到包含该值的行。这样可以使对应于表的
查询语句执行得更快，可快速访问数据库表中的特定信息。通过建立索引可以提高检索效率。
[0101]
通过上述实施方式，将一个目标的所有信息通过神经网络模型得到融合特征，融合特征中包含此目标的所有信息，然后直接使用融合特征代替各个单特征去检索。上述实施方式能够在不同场景，自适应地充分利用人脸、人体、运动特征的优势，弥补各自缺点，大幅提升检索效果。
[0102]
在本实施例中，提供一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行以上实施例中的方法。
[0103]
上述程序可以运行在处理器中，或者也可以存储在存储器中(或称为计算机可读介质)，计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0104]
这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤，对应与不同的步骤可以通过不同的模块来实现。
[0105]
该本实施例中就提供了这样的一种装置或系统。该装置被称为目标人检索装置，包括：提取模块，用于接收用户输入的待检索信息，并从所述待检索信息中提取目标人的多个模式的特征信息，其中，每个模式的特征信息分别从不同的方面对所述目标人进行识别；融合模块，用于将所述多个模式的特征信息进行特征融合生成所述目标人对应的第一融合特征，其中，所述第一特征融合是将所述多个模式中的每个模式的特征信息进行合并后得到的；检索模块，用于使用所述第一融合特征在融合特征库中进行检索，其中，所述融合特征库中存储的融合特征是根据不同人的所述多个模式的特征信息生成的，并且，所述融合特征库中的融合特征的生成方式与所述第一融合特征相同；获取模块，用于获取检索到的与所述第一融合特征相似度满足要求的第二融合特征，其中，所述第二融合特征为一个或多个。
[0106]
该系统或者装置用于实现上述的实施例中的方法的功能，该系统或者装置中的每个模块与方法中的每个步骤相对应，已经在方法中进行过说明的，在此不再赘述。
[0107]
可选地，所述多个模式的特征信息包括以下至少之一：人脸特征、人体特征、运动特征，其中，所述人脸特征为用于进行人脸识别的特征信息、所述人体特征为用于进行人体识别的特征信息、所述运动特征为用于进行步态识别的特征信息。
[0108]
可选地，所述提取模块用于：在所述待检索信息为图片的情况下，从所述图片中提取人脸特征和/或人体特征；和/或，在所述待检索信息为视频的情况下，从所述视频中获取包括所述目标人的视频帧，并从所述视频帧中提取所述人脸特征和/或人体特征；从所述视
频中提取多个视频帧，并将从所述多个视频帧中每个视频帧提取到的所述目标人的图像作为一个以时间为基础的序列，从所述序列中提取所述运动特征。
[0109]
可选地，所述检索模块用于：使用所述第一融合特征在所述融合特征库中符合所述时间范围和/或地理范围的融合特征中进行检索。
[0110]
可选地，所述获取模块用于：获取按照相似度从大到小顺序依次排列的多个第二融合特征；和/或，获取相似度大于阈值的至少一个第二融合特征。
[0111]
可选地，所述融合模块用于：为所述多个模式中每个模式的特征信息生成注意力权重，其中，所述注意力权重用于指示该特征信息与其他特征信息之间的相关性；根据所述每个模式的特征信息以及对应的注意力权重进行加权计算得到所述融合特征。
[0112]
可选地，所述融合模块用于：在根据所述每个模式的特征信息以及对应的注意力权重进行加权计算得到融合特征之后，将得到的融合特征保存在融合特征库中；对于所述融合特征库中保存的融合特征，计算与该融合特征距离最接近的k个融合特征；将该融合特征和所述k个融合特征进行聚合得到聚合后的特征，将所述聚合后的特征作为所述融合特征保存在所述融合特征库中。
[0113]
可选地，所述多个模式的特征信息包括：每个模式的特征本身，所述多个模式的特征信息还包括：对每个模式的特征本身的评分和/或每个模式的特征本身的属性。
[0114]
通过上述实施方式解决了现有技术中使用单模式特征来进行人的识别所存在容易受到环境限制、识别效果受限的问题，从而能够兼顾各个模式的特征信息的优势，提高识别效果，扩大了应用场景。
[0115]
以上仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈鑫嘉焦庆磊侯冠群
技术所有人：杭州海康威视数字技术股份有限公司
我是此专利的发明人

上一篇：同步传动机构的制作方法
上一篇：一种治疗乳腺增生症的中药组合物及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。