匹配关系的验证方法、装置、设备及机器可读存储介质与流程

文档序号:31709850发布日期:2022-10-04 17:28阅读:30来源:国知局
匹配关系的验证方法、装置、设备及机器可读存储介质与流程

1.本技术涉及智能管理技术领域,尤其是涉及一种匹配关系的验证方法、装置、设备及机器可读存储介质。


背景技术:

2.目标场景可以部署摄像机,通过摄像机采集目标场景的图像,从图像中识别出对象(如车辆等)。通过采集对象的大量图像,可以确定该对象的移动轨迹。但是,由于摄像机的角度固定、覆盖范围小、覆盖能力有限,导致无法采集对象在目标场景的所有区域的图像,无法得到该对象的完整轨迹。
3.通常对象会携带终端设备,且终端设备具有唯一设备标识(如mac(media access control,介质访问控制)地址、imsi(international mobile subscriber identity,国际移动用户识别码)等),因此,目标场景可以部署采集器,通过采集器采集目标场景的设备标识。通过采集终端设备的大量设备标识,可以确定该终端设备的移动轨迹,该移动轨迹也就是携带该终端设备的对象的移动轨迹。
4.综上所述,为了得到对象的完整轨迹,需要获取该对象的对象标识与该对象持有的终端设备的设备标识的匹配关系,结合该对象标识与该设备标识的匹配关系、该对象标识对应的对象的移动轨迹、以及该设备标识对应的终端设备的移动轨迹,就能够得到该对象的完整轨迹。但是,由于目标场景会出现大量对象,且出现大量终端设备,因此,如何准确的得到对象的对象标识与终端设备的设备标识的匹配关系,目前并没有有效的实现方式。


技术实现要素:

5.本技术提供一种匹配关系的验证方法,所述方法包括:
6.针对多个样本匹配对中每个样本匹配对,获取所述样本匹配对的碰撞特征,确定所述碰撞特征对应的适应度值,并基于所述适应度值确定所述样本匹配对的综合置信度;其中,所述样本匹配对包括样本对象标识和样本设备标识,所述碰撞特征表示所述样本对象标识与所述样本设备标识之间的匹配程度的特征,所述适应度值表示所述匹配程度的特征对应的匹配程度值;
7.基于所述多个样本匹配对中每个样本匹配对的综合置信度,将所述多个样本匹配对划分到至少一个置信度区间;其中,针对被划分到置信度区间的样本匹配对,该样本匹配对的综合置信度处于该置信度区间;
8.针对每个置信度区间,从该置信度区间对应的所有样本匹配对中选取部分样本匹配对,将选取的样本匹配对确定为目标样本匹配对;
9.基于目标样本匹配对的标定信息对初始网络模型进行训练,得到目标网络模型,该目标网络模型用于验证待测试对象标识和待测试设备标识的匹配关系。
10.在一种可能的实施方式中,所述碰撞特征包括以下至少一种:初始置信度,所述初始置信度用于验证所述样本对象标识和所述样本设备标识的匹配关系;碰撞周期数,所述
碰撞周期数表示所述样本对象标识和所述样本设备标识发生碰撞的单位周期数;碰撞平均数,所述碰撞平均数表示所述样本对象标识和所述样本设备标识在单位周期内发生碰撞的次数的平均值;
11.所述确定所述碰撞特征对应的适应度值,包括:
12.若所述碰撞特征包括初始置信度,且所述初始置信度与关联置信度的差值的绝对值大于置信度阈值,则确定所述初始置信度对应的适应度值为第一取值;若所述初始置信度与关联置信度的差值的绝对值不大于置信度阈值,则确定所述初始置信度对应的适应度值为第二取值;其中,所述关联置信度用于验证所述样本对象标识和所述样本设备标识之外的另一个样本设备标识的匹配关系;
13.若所述碰撞特征包括碰撞周期数,且所述碰撞周期数大于周期数阈值,则确定所述碰撞周期数对应的适应度值为第一取值;若所述碰撞周期数不大于周期数阈值,则确定所述碰撞周期数对应的适应度值小于第一取值;
14.若所述碰撞特征包括碰撞平均数,且所述碰撞平均数大于平均数阈值,则确定所述碰撞平均数对应的适应度值为第一取值;若所述碰撞平均数不大于平均数阈值,则确定所述碰撞平均数对应的适应度值小于第一取值。
15.在一种可能的实施方式中,所述从该置信度区间对应的所有样本匹配对中选取部分样本匹配对,包括:确定该置信度区间对应的抽取样例数;
16.对该置信度区间对应的样本匹配对进行排序,得到排序后的样本匹配对;
17.基于该抽取样例数和该置信度区间对应的样本匹配对总数量确定分段间隔;
18.基于该分段间隔从排序后的样本匹配对中选取该抽取样例数个样本匹配对。
19.示例性的,所述确定该置信度区间对应的抽取样例数,包括:基于已配置的抽取样例总数量、所有置信度区间对应的样本匹配对总数量、以及该置信度区间对应的样本匹配对总数量,确定该置信度区间对应的抽取样例数。
20.在一种可能的实施方式中,所述基于该分段间隔从排序后的样本匹配对中选取该抽取样例数个样本匹配对,包括:从排序后的样本匹配对中选取第l个样本匹配对,并基于所述第l个样本匹配对和该分段间隔从排序后的样本匹配对中选取(k-1)个样本匹配对;其中,所述l小于或者等于该分段间隔,所述k为该抽取样例数,且选取的相邻两个样本匹配对之间的间隔为该分段间隔。
21.在一种可能的实施方式中,所述基于目标样本匹配对的标定信息对初始网络模型进行训练,得到目标网络模型,包括:
22.获取所述目标样本匹配对的标定信息,所述标定信息包括所述目标样本匹配对的初始置信度,所述目标样本匹配对的碰撞特征对应的适应度值,所述目标样本匹配对的标签值;其中,所述初始置信度用于验证所述目标样本匹配对中的样本对象标识和样本设备标识的匹配关系;所述标签值用于表示所述目标样本匹配对中的样本对象标识和样本设备标识的匹配关系为真或者为假;
23.将所述目标样本匹配对的标定信息输入给初始网络模型,通过所述目标样本匹配对的标定信息对所述初始网络模型进行训练,得到目标网络模型。
24.在一种可能的实施方式中,所述基于目标样本匹配对的标定信息对初始网络模型进行训练,得到目标网络模型之后,还包括:
25.获取待测试匹配对和所述待测试匹配对的碰撞特征,并确定所述待测试匹配对的碰撞特征对应的适应度值;其中,所述待测试匹配对包括待测试对象标识和待测试设备标识,所述碰撞特征至少包括初始置信度,且所述初始置信度用于验证所述待测试对象标识和所述待测试设备标识的匹配关系;
26.将所述待测试匹配对的初始置信度和所述待测试匹配对的碰撞特征对应的适应度值输入给所述目标网络模型,由所述目标网络模型输出所述待测试匹配对的标签值和所述待测试匹配对的目标置信度;
27.若所述待测试匹配对的标签值用于表示所述待测试对象标识和所述待测试设备标识的匹配关系为真,且所述待测试匹配对的目标置信度大于预设阈值,则确定所述待测试对象标识和所述待测试设备标识的匹配关系为准确。
28.本技术提供一种匹配关系的验证装置,所述装置包括:确定模块,用于针对多个样本匹配对中每个样本匹配对,获取所述样本匹配对的碰撞特征,确定所述碰撞特征对应的适应度值,基于所述适应度值确定所述样本匹配对的综合置信度;所述样本匹配对包括样本对象标识和样本设备标识,所述碰撞特征表示所述样本对象标识与所述样本设备标识之间的匹配程度的特征,所述适应度值表示所述匹配程度的特征对应的匹配程度值;划分模块,用于基于所述多个样本匹配对中每个样本匹配对的综合置信度,将所述多个样本匹配对划分到至少一个置信度区间;其中,针对被划分到置信度区间的样本匹配对,该样本匹配对的综合置信度处于该置信度区间;选取模块,用于针对每个置信度区间,从该置信度区间对应的所有样本匹配对中选取部分样本匹配对,将选取的样本匹配对确定为目标样本匹配对;训练模块,用于基于目标样本匹配对的标定信息对初始网络模型进行训练,得到目标网络模型;其中,所述目标网络模型用于验证待测试对象标识和待测试设备标识的匹配关系。
29.本技术提供一种匹配关系的验证设备,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;
30.所述处理器用于执行机器可执行指令,以实现如下步骤:
31.针对多个样本匹配对中每个样本匹配对,获取所述样本匹配对的碰撞特征,确定所述碰撞特征对应的适应度值,并基于所述适应度值确定所述样本匹配对的综合置信度;其中,所述样本匹配对包括样本对象标识和样本设备标识,所述碰撞特征表示所述样本对象标识与所述样本设备标识之间的匹配程度的特征,所述适应度值表示所述匹配程度的特征对应的匹配程度值;
32.基于所述多个样本匹配对中每个样本匹配对的综合置信度,将所述多个样本匹配对划分到至少一个置信度区间;其中,针对被划分到置信度区间的样本匹配对,该样本匹配对的综合置信度处于该置信度区间;
33.针对每个置信度区间,从该置信度区间对应的所有样本匹配对中选取部分样本匹配对,将选取的样本匹配对确定为目标样本匹配对;
34.基于目标样本匹配对的标定信息对初始网络模型进行训练,得到目标网络模型,该目标网络模型用于验证待测试对象标识和待测试设备标识的匹配关系。
35.本技术提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被处理器执行时,实现上述的方法步骤。
36.由以上技术方案可见,本技术实施例中,通过训练目标网络模型,并通过目标网络
模型验证待测试对象标识和待测试设备标识的匹配关系,即,验证待测试对象标识和待测试设备标识的匹配关系是否准确,从而准确得到待测试对象标识和待测试设备标识的匹配关系,剔除错误的匹配关系。在训练目标网络模型时,是从大量样本匹配对中选取部分样本匹配对,并通过部分样本匹配对训练目标网络模型,从而只需要对部分样本匹配对进行标定,避免大量样本匹配对的标定工作,减轻标定工作量,减轻人工核验的数据量,解决人工核验数据量大和人工核验难度大等问题。在从大量样本匹配对中选取部分样本匹配对时,是基于样本匹配对的综合置信度选取部分样本匹配对,可以从大量样本匹配对中选取具有代表性的部分样本匹配对,在使用这些样本匹配对训练目标网络模型时,目标网络模型的可靠性更高,能够保证目标网络模型的验证质量。
附图说明
37.图1是本技术一种实施方式中的应用场景示意图;
38.图2是本技术一种实施方式中的匹配关系的验证方法的流程示意图;
39.图3是本技术一种实施方式中的匹配关系的验证方法的流程示意图;
40.图4是本技术一种实施方式中的数据处理流程图;
41.图5是本技术一种实施方式中的匹配关系的验证装置的结构示意图;
42.图6是本技术一种实施方式中的匹配关系的验证设备的硬件结构图。
具体实施方式
43.在本技术实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本技术。本技术和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
44.应当理解,尽管在本技术实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
45.参见图1所示,为本技术实施例的应用场景示意图,目标场景(即待管理区域,需要确定对象在待管理区域的信息)可以部署多个摄像机和多个采集器。
46.针对每个摄像机来说,该摄像机可以采集目标场景的图像,从图像中识别出对象(如车辆等)。然后,将该对象的对象标识(可以通过对象特征(比如车牌特征等)表示,也可以是其它类型的对象标识,对此不做限制)、采集时刻(表示该图像在该采集时刻被采集)、物理位置(如经纬度坐标,表示该对象在该采集时刻处于该物理位置)等数据发送给管理设备。管理设备在第一数据库中记录该对象标识、该采集时刻、该物理位置的映射关系,参见表1所示。
47.表1
[0048][0049]
针对每个采集器来说,采集器可以采集目标场景的终端设备的设备标识(如mac地址、imsi等),并将设备标识、采集时刻(表示该设备标识在该采集时刻被采集)、物理位置(如经纬度坐标,表示该终端设备在该采集时刻处于该物理位置)等数据发送给管理设备。管理设备在第二数据库中记录该设备标识、该采集时刻、该物理位置的映射关系,参见表2所示。
[0050]
表2
[0051][0052]
从表1可以看出,基于对象标识a1对应的所有采集时刻和所有物理位置,可以确定出对象的移动轨迹,即由物理位置c11、物理位置c12和物理位置c13组成的轨迹。从表2可以看出,基于设备标识d1对应的所有采集时刻和所有物理位置,可以确定出终端设备的移动轨迹(即持有该终端设备的对象的移动轨迹),即由物理位置e11、物理位置e12和物理位置e12组成的轨迹。
[0053]
示例性的,为了将对象的移动轨迹(基于第一数据库中数据确定)和终端设备的移动轨迹(基于第二数据库中数据确定)进行关联,就需要确定表1中的对象标识与表2中的设备标识的匹配关系,该匹配关系表示该对象标识与该设备标识匹配,即设备标识对应的终端设备由该对象标识对应的对象持有。
[0054]
例如,若采集时刻e11与采集时刻b11相同或者近似(即二者的差值小于时长阈值),且物理位置f11与物理位置c11相同或者近似(即二者的差值小于距离阈值),则确定设备标识d1与对象标识a1具有匹配关系。同理,若采集时刻e21与采集时刻b21相同或者近似,且物理位置f21与物理位置c21相同或者近似,则确定设备标识d2与对象标识a2具有匹配关系,以此类推。
[0055]
在一种可能的实施方式中,为了获知对象标识与设备标识的匹配关系,可以预先训练碰撞模型,并通过碰撞模型确定对象标识与设备标识的匹配关系。
[0056]
比如说,将第一数据库中数据(如对象标识、采集时刻、物理位置等)输入给碰撞模
型,并将第二数据库中数据(如设备标识、采集时刻、物理位置等)输入给碰撞模型,由碰撞模型基于这些输入数据进行处理,得到对象标识与设备标识的匹配关系,及该匹配关系的置信度(为了区分方便,后续将该置信度记为初始置信度),该初始置信度用于验证该对象标识和该设备标识的匹配关系,也就是说,该初始置信度是一个概率值,表示该对象标识和该设备标识具有匹配关系的概率值。例如,若对象标识与设备标识的匹配关系的初始置信度为80%,则表示该对象标识和该设备标识具有匹配关系的概率值是80%。
[0057]
关于碰撞模型的训练过程,本实施例中不做限制,可以利用训练数据对碰撞模型进行训练,得到已训练的碰撞模型,且已训练的碰撞模型具有以下功能:在将第一数据库中数据和第二数据库中数据输入给已训练的碰撞模型后,碰撞模型能够输出对象标识与设备标识的匹配关系,及该匹配关系的初始置信度。
[0058]
关于碰撞模型输出对象标识与设备标识的匹配关系,及该匹配关系的初始置信度的过程,碰撞模型可以基于对象标识对应的采集时刻和物理位置,及设备标识对应的采集时刻和物理位置,确定对象标识与设备标识的匹配关系,并确定该匹配关系的初始置信度,对此实现过程不再详加赘述。
[0059]
碰撞模型是碰撞算法的示例,本实施例中,可以将第一数据库中数据和第二数据库中数据输入给碰撞算法,由碰撞算法基于这些输入数据进行处理,得到对象标识与设备标识的匹配关系,及该匹配关系的初始置信度,对此碰撞算法的实现不做限制。碰撞算法可以是机器学习算法(如深度学习算法),上述碰撞模型是机器学习算法的一种实现方式,本实施例中以碰撞模型为例。
[0060]
在一种可能的实施方式中,将第一数据库中数据和第二数据库中数据输入给碰撞算法后,碰撞算法可以基于这些输入数据进行处理,并输出表3所示的内容,当然,表3只是示例,碰撞算法可以输出这些内容的部分或者全部。
[0061]
表3
[0062]
字段名称字段类型字段描述rowkeystring(字符串)唯一标识accountstring账户标识account_typestring账户类型relation_accountstring关联账户标识relation_account_typestring关联账户类型relation_typestring关联类型relation_countbigint(比特)关联次数relation_daysbigint关联天数relation_devsbigint关联设备数account_countbigint账户采集总次数relation_account_countbigint关联账户采集总次数relation_similarityfloat(浮点)初始置信度calculate_cycleint(整数类型)计算周期calcul_startbigint统计开始时间calcul_endbigint统计结束时间
create_timebigint数据生成时间
[0063]
在表3中,rowkey表示数据的唯一标识,即对象标识与设备标识的匹配关系的唯一标识。account表示对象标识。relation_account表示设备标识,即与对象标识关联的终端设备的设备标识。relation_type表示对象与设备的匹配类型,例如车mac类型(表示对象标识对应的对象是车辆,设备标识是mac地址)。relation_count表示该对象标识与该设备标识的关联次数,即该对象标识与该设备标识一共关联多少次。relation_days表示该对象标识与该设备标识的关联天数,即该对象标识与该设备标识在多少天发生关联。relation_devs表示该对象标识的关联设备数,即该对象标识与多少个设备标识关联。account_count表示该对象标识的采集总次数,即共采集多少次该对象标识。relation_account_count表示该设备标识的采集总次数,即共采集多少次该设备标识。relation_similarity表示该对象标识和该设备标识具有匹配关系的初始置信度。
[0064]
从表3的内容可以看出,碰撞算法能够输出对象标识(account)与设备标识(relation_account)的匹配关系,及匹配关系的初始置信度(relation_similarity),该初始置信度用于验证对象标识和设备标识的匹配关系。比如说,若初始置信度较大,则表示对象标识和设备标识有较大的概率是具有匹配关系,若初始置信度较小,则表示对象标识和设备标识有较小的概率是具有匹配关系。
[0065]
若碰撞算法的可靠性较高,则碰撞算法输出的初始置信度可信,能够基于初始置信度获知对象标识与设备标识的匹配关系是否准确。但是,若碰撞算法的可靠性较低,则碰撞算法输出的初始置信度不可信,无法基于初始置信度获知对象标识与设备标识的匹配关系是否准确。例如,对象标识a1与设备标识d1实际具有匹配关系,但该匹配关系的初始置信度较低,导致最终识别出对象标识a1与设备标识d1不具有匹配关系,得到错误匹配关系。又例如,对象标识a1与设备标识d1实际不具有匹配关系,但该匹配关系的初始置信度较高,导致最终识别出对象标识a1与设备标识d1具有匹配关系,得到错误的匹配关系。
[0066]
综上所述,由于目标场景会出现大量对象,且出现大量终端设备,因此,会得到错误的匹配关系,无法准确的得到对象标识与设备标识的匹配关系。
[0067]
针对上述发现,本技术实施例提出一种匹配关系的验证方法,通过训练目标网络模型,并通过目标网络模型验证待测试对象标识和待测试设备标识的匹配关系,即验证待测试对象标识和待测试设备标识的匹配关系是否准确,从而准确得到待测试对象标识和待测试设备标识的匹配关系,剔除错误的匹配关系。
[0068]
以下结合具体实施例,对本技术实施例的匹配关系的验证方法进行说明。
[0069]
为了实现匹配关系的验证,本技术实施例中,在碰撞模型的基础上,额外训练目标网络模型,这个目标网络模型用于对碰撞模型输出的匹配关系进行验证,因此,本实施例中涉及目标网络模型的训练过程和目标网络模型的测试过程。在目标网络模型的训练过程中,可以训练目标网络模型,在目标网络模型的测试过程中,可以通过目标网络模型对碰撞模型输出的匹配关系进行验证。
[0070]
参见图2所示,为本实施例中的匹配关系的验证方法的流程示意图,该方法可以应用于管理设备,且该方法用于训练目标网络模型,该方法可以包括:
[0071]
步骤201,针对多个样本匹配对中每个样本匹配对,获取该样本匹配对的碰撞特征,确定该碰撞特征对应的适应度值,并基于该适应度值确定该样本匹配对的综合置信度,
该所述样本匹配对可以包括样本对象标识和样本设备标识,该碰撞特征表示样本对象标识与样本设备标识之间的匹配程度的特征,该适应度值表示该匹配程度的特征对应的匹配程度值。
[0072]
示例性的,样本对象标识与样本设备标识之间的匹配程度,表示样本对象标识对应的样本对象与样本设备标识对应的终端设备之间的匹配程度,即样本对象与终端设备的匹配程度,而碰撞特征就是表示该匹配程度的特征。该适应度值表示该匹配程度的特征对应的匹配程度值,比如说,当该适应度值越大时,则表示样本对象与终端设备的匹配程度越大,反之,当该适应度值越小时,表示样本对象与终端设备的匹配程度越小。
[0073]
示例性的,在将第一数据库中数据和第二数据库中数据输入给碰撞算法之后,该碰撞算法可以输出对象标识与设备标识的匹配关系,以及该匹配关系的初始置信度,参见表3所示,为碰撞算法输出的数据的一个示例。
[0074]
本实施例中,为了区分方便,可以将训练过程的对象标识称为样本对象标识,可以将训练过程的设备标识称为样本设备标识,而样本对象标识和样本设备标识就组成一个匹配对,可以将训练过程的匹配对称为样本匹配对,也就是说,样本匹配对用于表示样本对象标识和样本设备标识的匹配关系。
[0075]
综上所述,碰撞算法可以输出多个样本匹配对,以及每个样本匹配对所对应的初始置信度、关联次数、关联天数、关联设备数等内容,参见表3所示。
[0076]
基于碰撞算法输出的内容,管理设备可以得到多个样本匹配对,每个样本匹配对可以包括样本对象标识和样本设备标识,以及,管理设备可以得到每个样本匹配对所对应的初始置信度、关联次数、关联天数、关联设备数等内容。
[0077]
步骤201中,需要确定每个样本匹配对的综合置信度,考虑到每个样本匹配对的实现过程相同,因此,以一个样本匹配对的实现过程为例,针对多个样本匹配对中每个样本匹配对,采用如下步骤确定该样本匹配对的综合置信度:
[0078]
步骤2011、获取该样本匹配对的碰撞特征。
[0079]
在一种可能的实施方式中,该碰撞特征可以包括但不限于以下至少一种:
[0080]
初始置信度:初始置信度用于验证样本对象标识和样本设备标识的匹配关系。参见表3所示,由于碰撞算法可以输出样本匹配对的初始置信度,因此,可以直接从碰撞算法输出的内容中获取该样本匹配对的初始置信度。
[0081]
碰撞周期数:碰撞周期数表示样本对象标识和样本设备标识发生碰撞的单位周期数,以单位周期是“天”为例,则碰撞周期数可以表示样本对象标识和样本设备标识发生碰撞的天数,即碰撞周期数也可以称为碰撞天数。参见表3所示,由于碰撞算法可以输出样本匹配对的关联天数(即碰撞周期数),因此,可以直接从碰撞算法输出的内容中获取该样本匹配对的碰撞周期数。
[0082]
碰撞平均数:碰撞平均数表示样本对象标识和样本设备标识在单位周期内发生碰撞的次数的平均值,以单位周期是“天”为例,则碰撞平均数可以表示样本对象标识和样本设备标识在每天内发生碰撞的次数的平均值,比如说,碰撞平均数可以是碰撞总次数与碰撞总天数的商。参见表3所示,由于碰撞算法可以输出样本匹配对的关联次数(即碰撞总次数)以及关联天数(即碰撞总天数),因此,可以从碰撞算法输出的内容中获取该样本匹配对的碰撞总次数和碰撞总天数,并将碰撞总次数与碰撞总天数的商作为碰撞平均数。
[0083]
当然,上述只是碰撞特征的几个示例,对此碰撞特征不做限制。
[0084]
步骤2012、确定该碰撞特征对应的适应度值。
[0085]
比如说,若该碰撞特征包括初始置信度,则确定初始置信度对应的适应度值,后续可以记为适应度值s1。若该碰撞特征包括碰撞周期数,则确定碰撞周期数对应的适应度值,后续可以记为适应度值s2。若该碰撞特征包括碰撞平均数,则确定碰撞平均数对应的适应度值,后续可以记为适应度值s3。
[0086]
又例如,若该碰撞特征包括初始置信度和碰撞周期数,则可以确定适应度值s1和适应度值s2。若该碰撞特征包括初始置信度和碰撞平均数,则可以确定适应度值s1和适应度值s3。若该碰撞特征包括碰撞周期数和碰撞平均数,则可以确定适应度值s2和适应度值s3。若该碰撞特征包括初始置信度、碰撞周期数和碰撞平均数,则可以确定适应度值s1、适应度值s2和适应度值s3。
[0087]
示例性的,可以采用如下情况确定碰撞特征对应的适应度值:
[0088]
情况一、若碰撞特征包括初始置信度,则基于初始置信度、关联置信度、及置信度阈值确定该初始置信度对应的适应度值s1。例如,若初始置信度与关联置信度的差值的绝对值大于置信度阈值,则确定初始置信度对应的适应度值s1为第一取值(如1)。若初始置信度与关联置信度的差值的绝对值不大于置信度阈值,则确定初始置信度对应的适应度值s1为第二取值(如0)。关联置信度用于验证样本对象标识和样本设备标识之外的另一样本设备标识的匹配关系。
[0089]
比如说,样本匹配对g1包括样本对象标识a1和样本设备标识d1,样本匹配对g2包括样本对象标识a1和样本设备标识d2,显然,样本匹配对g1和样本匹配对g2对应相同的样本对象标识a1,但是对应不同的样本设备标识。
[0090]
若针对样本匹配对g1执行步骤201,则初始置信度是样本匹配对g1对应的置信度,关联置信度是样本匹配对g2对应的置信度,也就是说,初始置信度用于验证样本对象标识a1和样本设备标识d1的匹配关系,而关联置信度用于验证样本对象标识a1和样本设备标识d1之外的另一样本设备标识d2的匹配关系。
[0091]
同理,若针对样本匹配对g2执行步骤201,则初始置信度可以是样本匹配对g2对应的置信度,而关联置信度可以是样本匹配对g1对应的置信度。
[0092]
综上所述,若针对样本匹配对g1执行步骤201,则初始置信度与关联置信度的差值的绝对值大于置信度阈值时,确定适应度值s1为1,在初始置信度与关联置信度的差值的绝对值不大于置信度阈值时,确定适应度值s1为0。
[0093]
在一种可能的实施方式中,样本对象标识a1可能与多个样本设备标识具有匹配关系,但是,一个对象携带的终端设备的数量不会超过k(如5)个,因此,针对样本对象标识a1来说,基于样本对象标识a1与每个样本设备标识的初始置信度,可以保留初始置信度大的k个初始置信度,并对这k个初始置信度进行排序,如排序结果依次为初始置信度h1、初始置信度h2、初始置信度h3、初始置信度h4和初始置信度h5。其中,初始置信度h1是样本匹配对g1的初始置信度,初始置信度h2是样本匹配对g2的匹配关系的初始置信度,以此类推。
[0094]
针对样本对象标识a1对应的每个样本匹配对(如样本匹配对g1、样本匹配对g2等)执行步骤201时,若任意两个初始置信度的差值(如初始置信度h1与初始置信度h2的差值,或初始置信度h2与初始置信度h3的差值等等)的绝对值大于置信度阈值,则确定该样本匹
配对的初始置信度对应的适应度值s1为第一取值。若每两个初始置信度的差值的绝对值均不大于置信度阈值,则确定该样本匹配对的初始置信度对应的适应度值s1为第二取值。
[0095]
比如说,若初始置信度h1为0.9,初始置信度h2为0.6,置信度阈值为0.2,则初始置信度h1与初始置信度h2的差值大于置信度阈值,确定适应度值s1为第一取值。初始置信度h1与初始置信度h2的差值大于置信度阈值,表示置信度结果存在层级差。例如,对象最常使用的终端设备为一个,该终端设备的样本设备标识出现的次数应该大于其它终端设备的样本设备标识出现的次数,因此,置信度结果应该存在层级差,正是由于该原因,在初始置信度h1与初始置信度h2的差值大于置信度阈值时,才确定适应度值s1为第一取值(如1)。
[0096]
情况二、若碰撞特征包括碰撞周期数,则基于碰撞周期数及周期数阈值确定该碰撞周期数对应的适应度值s2。例如,若碰撞周期数大于周期数阈值,则确定该碰撞周期数对应的适应度值s2为第一取值(如1)。若碰撞周期数不大于周期数阈值,则确定该碰撞周期数对应的适应度值s2小于第一取值,比如说,该碰撞周期数对应的适应度值s2可以为该碰撞周期数与周期数阈值的商。
[0097]
由于碰撞算法中,更侧重于个体自身的纵向比较,导致部分个体本身数据质量比较差的情况下,只碰撞一天时的初始置信度偏高,如0.9以上,因此,可以将碰撞周期数作为综合置信度的决策条件之一。比如说,若碰撞周期数大于周期数阈值(根据经验配置,如3、5天等),则确定适应度值s2为1,若碰撞周期数不大于周期数阈值,则确定适应度值s2为碰撞周期数除以周期数阈值。
[0098]
情况三、若碰撞特征包括碰撞平均数,则基于碰撞平均数及平均数阈值确定该碰撞平均数对应的适应度值s3。例如,若碰撞平均数大于平均数阈值,则确定该碰撞平均数对应的适应度值s3为第一取值(如1)。若碰撞平均数不大于平均数阈值,则确定该碰撞平均数对应的适应度值s3小于第一取值,比如说,该碰撞平均数对应的适应度值s3可以为该碰撞平均数与平均数阈值的商。
[0099]
由于碰撞平均数表示匹配关系在空间和时间上都同时发生平移,更能体现出终端设备(如样本设备标识)随对象的移动而移动的动态性特质,因此,可以将碰撞平均数作为综合置信度的决策条件之一。比如说,若碰撞平均数大于平均数阈值(根据经验配置,如5、6、7等),则确定适应度值s3为1,若碰撞平均数不大于平均数阈值,则确定适应度值s3为碰撞平均数除以平均数阈值。
[0100]
步骤2013、基于该适应度值确定该样本匹配对的综合置信度。
[0101]
在一种可能的实施方式中,可以将该样本匹配对的综合置信度记为s
all
,基于此,若碰撞特征包括初始置信度,则s
all
=s1。若碰撞特征包括碰撞周期数,则s
all
=s2。若碰撞特征包括碰撞平均数,则s
all
=s3。若碰撞特征包括初始置信度和碰撞周期数,则s
all
=s1+s2。若碰撞特征包括初始置信度和碰撞平均数,则s
all
=s1+s3。若碰撞特征包括碰撞周期数和碰撞平均数,则s
all
=s2+s3。若碰撞特征包括初始置信度、碰撞周期数和碰撞平均数,则s
all
=s1+s2+s3。
[0102]
至此,针对每个样本匹配对,可以得到该样本匹配对的综合置信度,综合置信度是以碰撞结果数据为目标,通过不同适应度值得到的筛选条件因素值。
[0103]
步骤202,基于多个样本匹配对中每个样本匹配对的综合置信度,将多个样本匹配对划分到至少一个置信度区间;示例性的,针对被划分到置信度区间的样本匹配对,该样本
匹配对的综合置信度处于该置信度区间。
[0104]
比如说,可以将置信度总范围划分为多个置信度区间,如置信度区间i1、置信度区间i2、置信度区间i3等。例如,综合置信度的取值范围是0-3时,置信度总范围可以是[0,3]假设按照0.5来划分置信度区间,则可以将置信度总范围划分为6个置信度区间,分别为[0,0.5)、[0.5,1)、[1,1.5)、[1.5,2)、[2,2.5)、[2.5,3]。
[0105]
示例性的,在得到多个样本匹配对中每个样本匹配对的综合置信度后,针对每个样本匹配对,就可以基于该样本匹配对的综合置信度,确定该样本匹配对所属的置信度区间,并将该样本匹配对划分到该置信度区间。
[0106]
比如说,置信度区间i1对应[0,0.5),置信度区间i2对应[0.5,1),置信度区间i3对应[1,1.5),以此类推。若样本匹配对g1的综合置信度为0.25,0.25处于[0,0.5),则样本匹配对g1被划分到置信度区间i1。若样本匹配对g2的综合置信度为0.8,0.8处于[0.5,1),则样本匹配对g2被划分到置信度区间i2,以此类推。
[0107]
步骤203,针对每个置信度区间,从该置信度区间对应的所有样本匹配对中选取部分样本匹配对,将选取的样本匹配对确定为目标样本匹配对。
[0108]
为了训练目标网络模型,本实施例中,是基于样本匹配对的综合置信度,从大量样本匹配对中选取部分样本匹配对,且能够从大量样本匹配对中选取具有代表性的部分样本匹配对,从而通过这些选取的样本匹配对训练目标网络模型,使目标网络模型的可靠性更高,且能够保证目标网络模型的验证质量。
[0109]
为了从大量样本匹配对中选取具有代表性的部分样本匹配对作为目标样本匹配对,本实施例中,可以采用分层抽样和系统抽样相结合的方式。
[0110]
比如说,由于抽样目的是希望通过少量样本代表总体数据,需要保障样本代表性,即保持样本数据结构和总体数据结构的一致性,而碰撞算法的结果数据中,各区间的数据量相差悬殊,因此,可以采取分层抽样保证抽样结构一致性。分层抽样是从可以分成不同子总体(层)的总体中,按规定比例从不同层中随机抽取个体,具有样本代表性好,采用概率抽样,抽样误差小等优点。
[0111]
系统抽样是依据一定的抽样距离,从总体中抽取样本,将总体分成均衡的若干部分,从每一部分分别抽取一个个体,是纯随机抽样的变种,抽取的样本在总体中是均匀分布的,具有操作简便,耗费时间短,不易出错等优点。
[0112]
在采用分层抽样和系统抽样相结合的方式时,针对每个置信度区间,可以采用如下步骤从该置信度区间对应的所有样本匹配对中选取部分样本匹配对:
[0113]
步骤2031、确定该置信度区间对应的抽取样例数。
[0114]
示例性的,不同置信度区间对应的抽取样例数可以相同,也可以不同。
[0115]
示例性的,针对每个置信度区间,如置信度区间i1、置信度区间i2等,可以确定该置信度区间对应的抽取样例数,即,只需要从该置信度区间对应的所有样本匹配对中选取该抽取样例数个样本匹配对,实现分层抽样的目的。
[0116]
示例性的,可以采用如下步骤确定该置信度区间对应的抽取样例数:
[0117]
步骤20311、获取已配置的抽取样例总数量p1。
[0118]
比如说,可以预先配置一个抽取样例总数量p1,表示需要从所有置信度区间对应的所有样本匹配对中选取p1个样本匹配对,即目标样本匹配对的总数量为p1,基于此,可以
获取预先配置的抽取样例总数量p1。
[0119]
步骤20312、获取所有置信度区间对应的样本匹配对总数量p2。
[0120]
比如说,在步骤201中,可以得到p2个样本匹配对的综合置信度,则所有置信度区间对应的样本匹配对总数量为p2,需要将p2个样本匹配对划分到各置信度区间。基于此,在步骤20312中,可以获取到样本匹配对总数量p2。
[0121]
步骤20313、获取该置信度区间对应的样本匹配对总数量p3。
[0122]
比如说,在步骤202中,已经将p2个样本匹配对划分到各个置信度区间,因此,在步骤20313中,可以获取每个置信度区间对应的样本匹配对总数量p3。
[0123]
例如,在确定置信度区间i1对应的抽取样例数时,可以获取置信度区间i1对应的样本匹配对总数量p3-1,在确定置信度区间i2对应的抽取样例数时,可以获取置信度区间i2对应的样本匹配对总数量p3-2,以此类推。
[0124]
步骤20314、针对每个置信度区间,基于已配置的抽取样例总数量p1、所有置信度区间对应的样本匹配对总数量p2、及该置信度区间对应的样本匹配对总数量p3,确定该置信度区间对应的抽取样例数k。
[0125]
示例性的,可以先确定该置信度区间对应的样本匹配对总数量p3与所有置信度区间对应的样本匹配对总数量p2之间的比例(即商值)。然后,将该比例与抽取样例总数量p1的乘积,作为该置信度区间对应的抽取样例数k。
[0126]
比如说,在确定置信度区间i1对应的抽取样例数k1时,可以采用如下公式实现:k1=(p3-1/p2)*p1,在确定置信度区间i2对应的抽取样例数k2时,可以采用如下公式实现:k2=(p3-2/p2)*p1,以此类推。
[0127]
例如,假设抽取样例总数量p1为50,所有置信度区间对应的样本匹配对总数量p2为1000,置信度区间i1对应的样本匹配对总数量p3-1为100,则置信度区间i1对应的抽取样例数k1为5。假设置信度区间i2对应的样本匹配对总数量p3-2为200,则置信度区间i2对应的抽取样例数k2为10,以此类推。
[0128]
至此,针对每个置信度区间,可以确定该置信度区间对应的抽取样例数。
[0129]
步骤2032、对该置信度区间对应的所有样本匹配对进行排序,得到排序后的样本匹配对。比如说,按照样本匹配对的碰撞时间,对该置信度区间对应的所有样本匹配对进行排序,而排序的序号值作为样本匹配对的编号。
[0130]
例如,可以采用碰撞时间从前到后(即从早到晚)的顺序,对该置信度区间对应的所有样本匹配对进行排序,排序结果依次为样本匹配对g1、样本匹配对g2、样本匹配对g3、

,样本匹配对g1的编号为1,样本匹配对g2的编号为2,以此类推。当然,也可以采用碰撞时间从后到前(即从晚到早)的顺序,对该置信度区间对应的所有样本匹配对进行排序,对此排序过程不再赘述。
[0131]
步骤2033、针对每个置信度区间,基于该置信度区间对应的抽取样例数和该置信度区间对应的样本匹配对总数量确定分段间隔。比如说,对该样本匹配对总数量与该抽取样例数的商进行取整操作,如进行向上取整操作或者向下取整操作,然后,将取整后的数值作为该置信度区间对应的分段间隔。
[0132]
例如,针对置信度区间i1,抽取样例数为k1,样本匹配对总数量为p3-1,因此,对p3-1与k1的商进行取整,取整后的数值作为置信度区间i1的分段间隔。比如说,p3-1为100,
k1为5时,分段间隔为20。针对置信度区间i2,抽取样例数为k2,样本匹配对总数量为p3-2,因此,对p3-2与k2的商进行取整,取整后的数值作为置信度区间i2的分段间隔,以此类推。
[0133]
步骤2034、针对每个置信度区间,基于该置信度区间对应的分段间隔从该置信度区间对应的排序后的样本匹配对中选取该抽取样例数个样本匹配对。
[0134]
例如,针对置信度区间i1,基于置信度区间i1对应的分段间隔从置信度区间i1对应的排序后的样本匹配对中选取k1个样本匹配对,以此类推。
[0135]
在一种可能的实施方式中,可以先从排序后的样本匹配对中选取第l个样本匹配对,并基于第l个样本匹配对和该分段间隔从排序后的样本匹配对中选取(k-1)个样本匹配对;示例性的,l小于或者等于该分段间隔,k为该抽取样例数,且选取的相邻两个样本匹配对之间的间隔为该分段间隔。
[0136]
比如说,将该分段间隔记为m,则先从前m个样本匹配对中选取第l个样本匹配对,如从前m个样本匹配对中随机选择一个样本匹配对,将选取的样本匹配对的编号记为l。然后,从排序后的样本匹配对中依次选取第l+m个样本匹配对、第l+2m个样本匹配对、

、第l+(k-1)m个样本匹配对。
[0137]
综上所述,一共从排序后的样本匹配对中选取k个样本匹配对。
[0138]
针对置信度区间i1来说,分段间隔为m1,抽取样例数为k1,首个样本匹配对的编号为l1,针对置信度区间i2来说,分段间隔为m2,抽取样例数为k2,首个样本匹配对的编号为l2,以此类推。这样,针对每个置信度区间,可以采用上述方式,从该置信度区间对应的所有样本匹配对中选取抽取样例数个样本匹配对,并将选取的样本匹配对作为该置信度区间对应的目标样本匹配对。
[0139]
基于步骤2032-步骤2034,可以确定各置信度区间内的代表性数据,且采用系统抽样方式确定各置信度区间内的代表性数据,实现系统抽样的目的。
[0140]
至此,在步骤203中,针对每个置信度区间,可以从该置信度区间对应的所有样本匹配对中选取部分样本匹配对作为目标样本匹配对。
[0141]
步骤204,基于目标样本匹配对的标定信息对初始网络模型进行训练,得到目标网络模型,该目标网络模型用于验证待测试对象标识和待测试设备标识的匹配关系,关于目标网络模型的验证过程,可以参见后续实施例。
[0142]
在一种可能的实施方式中,可以采用如下步骤对初始网络模型进行训练:
[0143]
步骤2041、获取目标样本匹配对的标定信息,该标定信息包括该目标样本匹配对的初始置信度,该目标样本匹配对的碰撞特征对应的适应度值,该目标样本匹配对的标签值。示例性的,该初始置信度用于验证该目标样本匹配对中的样本对象标识和样本设备标识的匹配关系;该标签值用于表示该目标样本匹配对中的样本对象标识和样本设备标识的匹配关系为真或者为假。
[0144]
在从所有样本匹配对中选取目标样本匹配对后,针对每个目标样本匹配对,可以获取该目标样本匹配对的初始置信度。参见上述实施例,碰撞算法输出的数据包括初始置信度,因此,可以直接获取该目标样本匹配对的初始置信度。
[0145]
针对每个目标样本匹配对,可以获取该目标样本匹配对的碰撞特征对应的适应度值,获取方式参见步骤201,已经能够得到该目标样本匹配对的碰撞特征对应的适应度值,如适应度值s1、适应度值s2和适应度值s3中的至少一个,在后续实施例中,以适应度值s1、
适应度值s2和适应度值s3为例进行说明。
[0146]
针对每个目标样本匹配对,还可以获取该目标样本匹配对的标签值,该标签值可以为第一取值(如1)或者第二取值(如0),该第一取值用于表示样本对象标识和样本设备标识的匹配关系为真,即,样本对象标识和样本设备标识具有匹配关系,该第二取值用于表示样本对象标识和样本设备标识的匹配关系为假,即,样本对象标识和样本设备标识不具有匹配关系。
[0147]
为了获取目标样本匹配对的标签值,可以采用如下方式:管理设备为该目标样本匹配对添加标签值,或者,由用户为该目标样本匹配对添加标签值,对此标签值的获取方式不做限制,以用户为该目标样本匹配对添加标签值为例。
[0148]
显然,本实施例中,由于已经从大量样本匹配对中选取部分样本匹配对作为目标样本匹配对,且目标样本匹配对是通过综合置信度选取的代表性的数据,因此,用户只需要为目标样本匹配对添加标签值,使得用户只需要为少量目标样本匹配对添加标签值,避免大量样本匹配对的标定工作,减轻标定工作量,减轻人工核验的数据量,解决人工核验数据量大和人工核验难度大等问题。
[0149]
在一种可能的实施方式中,为了对目标样本匹配对添加标签值,针对目标样本匹配对中的样本对象标识和样本设备标识,可以将该样本对象标识对应的移动轨迹(后续记为第一移动轨迹)显示在地图,并将该样本设备标识对应的移动轨迹(后续记为第二移动轨迹)显示在地图。显然,通过在地图查看第一移动轨迹和第二移动轨迹是否重合,就可以获知该样本对象标识和该样本设备标识是否具有匹配关系。比如说,若第一移动轨迹和第二移动轨迹重合或者近似重合,则该样本对象标识和该样本设备标识具有匹配关系,为该目标样本匹配对添加标签值,且该标签值为第一取值。若第一移动轨迹和第二移动轨迹不重合(即两条轨迹偏差较大),则该样本对象标识和该样本设备标识不具有匹配关系,为该目标样本匹配对添加标签值,且该标签值为第二取值。
[0150]
在将样本对象标识对应的第一移动轨迹显示在地图时,基于样本对象标识对应的采集时刻和物理位置,确定位于指定时间区间的采集时刻,将这些采集时刻对应的物理位置显示在地图,这些物理位置组成的轨迹是第一移动轨迹。在将样本设备标识对应的第二移动轨迹显示在地图时,基于样本设备标识对应的采集时刻和物理位置,确定位于该指定时间区间的采集时刻,将这些采集时刻对应的物理位置显示在地图,这些物理位置组成的轨迹是第二移动轨迹。
[0151]
显然,通过在地图查看第一移动轨迹和第二移动轨迹是否重合,就可以获知样本对象标识和样本设备标识是否具有匹配关系,从而能够直观核验匹配关系的准确性,依据可视化的界面,直观感受出匹配关系的准确性。
[0152]
步骤2042、将目标样本匹配对的标定信息输入给初始网络模型,以通过目标样本匹配对的标定信息对初始网络模型进行训练,得到目标网络模型。
[0153]
比如说,在得到多个目标样本匹配对的标定信息后,可以将这些目标样本匹配对的标定信息作为训练数据,将这些训练数据输入给初始网络模型,该初始网络模型是预先配置的网络模型。在将这些训练数据输入给初始网络模型后,就可以基于这些训练数据对初始网络模型进行训练,从而得到已训练的目标网络模型。关于初始网络模型的训练过程,本实施例中不做限制。
[0154]
比如说,标定信息中的初始置信度、适应度值s1、适应度值s2和适应度值s3,可以组成4*1维的特征向量,或2*2维的特征向量,或1*4维的特征向量,标定信息中的标签值作为与该特征向量对应的标签值。在将大量特征向量和每个特征向量对应的标签值输入给初始网络模型后,就可以训练出目标网络模型,且目标网络模型能够输出与特征向量对应的标签值、以及与该标签值对应的目标置信度,关于目标网络模型的处理过程,可以参见后续实施例。
[0155]
在一种可能的实施方式中,初始网络模型和目标网络模型可以是任意类型的机器学习模型,例如,初始网络模型和目标网络模型均是决策树模型,即通过多个目标样本匹配对的标定信息对初始决策树模型进行训练,得到已训练的目标决策树模型。当然,决策树模型只是一个示例,对此模型类型不做限制。
[0156]
在通过多个目标样本匹配对的标定信息对初始决策树模型进行训练,得到已训练的目标决策树模型时,可以采用cross-validation(交叉验证)算法,对初始决策树模型进行训练,得到目标决策树模型,对此训练算法不做限制。
[0157]
参见上述实施例,在采用cross-validation算法对初始决策树模型进行训练时,初始决策树模型的输入数据包括特征向量和特征向量对应的标签值,该特征向量由初始置信度、适应度值s1、适应度值s2和适应度值s3组成。
[0158]
初始置信度、适应度值s1、适应度值s2和适应度值s3均作为初始决策树模型的属性值,且属性值a(如初始置信度、或适应度值s1、或适应度值s2、或适应度值s3)均为连续值ai,可以对属性值a的连续值ai进行离散化处理。
[0159]
在进行离散化处理时,离散化策略可以为二分法,二分法的离散化策略的候选划分点集合公式为:也就是说,将所有训练数据的属性a,按区间[ai+ai+1)的中位点作为候选划分点,从而将连续性变量进行离散化,在离散化处理后,根据信息增益的公式确定最优划分点:
[0160][0161]
在上述公式中,d表示整个数据集,ent为计算信息熵函数。
[0162]
综上所述,可以依次计算每个属性的信息增益值,依次选择信息增益值最大的属性作为决策树模型划分的属性,从而用决策树模型进行分类训练。
[0163]
当然,上述只是对初始决策树模型进行训练的示例,对此不做限制。
[0164]
示例性的,上述执行顺序只是为了方便描述给出的示例,在实际应用中,还可以改变步骤之间的执行顺序,对此执行顺序不做限制。而且,在其它实施例中,并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其它实施例中可能被分解为多个步骤进行描述;本说明书中所描述的多个步骤,在其它实施例也可能被合并为单个步骤进行描述。
[0165]
由以上技术方案可见,本技术实施例中,通过训练目标网络模型,并通过目标网络
模型验证待测试对象标识和待测试设备标识的匹配关系,即,验证待测试对象标识和待测试设备标识的匹配关系是否准确,从而准确得到待测试对象标识和待测试设备标识的匹配关系,剔除错误的匹配关系。在训练目标网络模型时,是从大量样本匹配对中选取部分样本匹配对,并通过部分样本匹配对训练目标网络模型,从而只需要对部分样本匹配对进行标定,避免大量样本匹配对的标定工作,减轻标定工作量,减轻人工核验的数据量,解决人工核验数据量大和人工核验难度大等问题。在从大量样本匹配对中选取部分样本匹配对时,是基于样本匹配对的综合置信度选取部分样本匹配对,可以从大量样本匹配对中选取具有代表性的部分样本匹配对,在使用这些样本匹配对训练目标网络模型时,目标网络模型的可靠性更高,能够保证目标网络模型的验证质量。
[0166]
参见图3所示,为本技术实施例中的匹配关系的验证方法的流程示意图,该方法可以应用于管理设备,在目标网络模型的测试过程中,该方法用于通过目标网络模型对碰撞模型输出的匹配关系进行验证,该方法可以包括:
[0167]
步骤301,获取待测试匹配对和该待测试匹配对的碰撞特征,并确定该待测试匹配对的碰撞特征对应的适应度值。示例性的,待测试匹配对可以包括待测试对象标识和待测试设备标识,该碰撞特征至少包括初始置信度,且该初始置信度用于验证该待测试对象标识和该待测试设备标识的匹配关系。
[0168]
本实施例中,为了区分方便,将测试过程的对象标识称为待测试对象标识,将测试过程的设备标识称为待测试设备标识,而待测试对象标识和待测试设备标识就组成一个匹配对,可以将测试过程的匹配对称为待测试匹配对,也就是说,待测试匹配对用于表示待测试对象标识和待测试设备标识的匹配关系。
[0169]
示例性的,可以基于碰撞算法输出的数据,确定待测试匹配对的碰撞特征,该碰撞特征至少包括初始置信度,在此基础上,该碰撞特征还可以包括但不限于以下至少一种:碰撞周期数(表示待测试对象标识和待测试设备标识发生碰撞的单位周期数)、碰撞平均数(表示待测试对象标识和待测试设备标识在单位周期内发生碰撞的次数的平均值),该过程与步骤201类似,在此不再赘述。
[0170]
在得到待测试匹配对的碰撞特征后,可以确定该待测试匹配对的碰撞特征对应的适应度值,如初始置信度对应的适应度值s1、碰撞周期数对应的适应度值s2、碰撞平均数对应的适应度值s3,该过程与步骤201类似,在此不再赘述。
[0171]
步骤302,将该待测试匹配对的初始置信度和该待测试匹配对的碰撞特征对应的适应度值输入给目标网络模型,以使目标网络模型输出该待测试匹配对的标签值(如第一取值或者第二取值)和该待测试匹配对的目标置信度。
[0172]
比如说,可以将该待测试匹配对的初始置信度、适应度值s1、适应度值s2和适应度值s3,组成4*1维的特征向量,或2*2维的特征向量,或1*4维的特征向量,并将该特征向量(后续记为目标特征向量)输入给目标网络模型。
[0173]
参见步骤204,在训练目标网络模型时,该目标网络模型能够输出与特征向量对应的标签值、及与该标签值对应的目标置信度,因此,在将目标特征向量输入给目标网络模型后,目标网络模型能够对目标特征向量进行处理,对此处理过程不做限制,并得到与目标特征向量对应的标签值、及与该标签值对应的目标置信度(为了区分方便,将目标网络模型输出的置信度记为目标置信度)。
[0174]
步骤303,若该待测试匹配对的标签值用于表示待测试对象标识和待测试设备标识的匹配关系为真,且待测试匹配对的目标置信度大于预设阈值(可根据经验配置),则确定该待测试对象标识和该待测试设备标识的匹配关系为准确。
[0175]
比如说,若目标网络模型输出的标签值为第一取值(如1),第一取值用于表示匹配关系为真,且目标网络模型输出的目标置信度大于预设阈值,则确定该待测试对象标识和该待测试设备标识的匹配关系为准确,即二者具有匹配关系。例如,若目标置信度为90%,则表示二者具有匹配关系的概率值是90%。
[0176]
示例性的,若该待测试匹配对的标签值用于表示待测试对象标识和待测试设备标识的匹配关系为假,且待测试匹配对的目标置信度大于预设阈值,则确定该待测试对象标识和该待测试设备标识的匹配关系为错误。
[0177]
比如说,若目标网络模型输出的标签值为第二取值(如0),第二取值用于表示匹配关系为假,且目标网络模型输出的目标置信度大于预设阈值,则确定该待测试对象标识和该待测试设备标识的匹配关系为错误,即二者不具有匹配关系。例如,若目标置信度为90%,则表示二者不具有匹配关系的概率值是90%。
[0178]
示例性的,若该待测试匹配对的标签值用于表示待测试对象标识和待测试设备标识的匹配关系为真,且待测试匹配对的目标置信度不大于预设阈值,则该待测试对象标识和该待测试设备标识的匹配关系可能为正确或错误,即基于目标置信度无法准确获知匹配关系是否为真。若该待测试匹配对的标签值用于表示待测试对象标识和待测试设备标识的匹配关系为假,且待测试匹配对的目标置信度不大于预设阈值,则该待测试对象标识和该待测试设备标识的匹配关系可能为正确或错误,即基于目标置信度无法准确获知匹配关系是否为假。
[0179]
综上所述,可以基于目标网络模型验证待测试对象标识和待测试设备标识的匹配关系,继而获知该匹配关系为准确或者该匹配关系为错误。
[0180]
以下结合图4所示的数据处理流程图,对上述实施例进行说明。
[0181]
在目标网络模型的训练过程中,先获取碰撞算法输出的基础数据(参见表3所示),如车mac碰撞数据、车imsi碰撞数据等。然后,基于上述基础数据进行数据处理,例如,获取样本匹配对的综合置信度,基于每个样本匹配对的综合置信度,从所有样本匹配对中选取部分样本匹配对作为目标样本匹配对,获取目标样本匹配对的标定信息(如特征向量和标签值等)。然后,基于目标样本匹配对的标定信息训练出目标网络模型,该目标网络模型可以包括车mac分类器、车imsi分类器等。至此,完成目标网络模型的训练过程。
[0182]
在基于目标网络模型的测试过程,获取待测试碰撞数据(如待测试匹配对的初始置信度、待测试匹配对的碰撞特征对应的适应度值等)。将待测试碰撞数据输入给目标网络模型,得到分类结果,该分类结果表示匹配关系为准确或错误,该分类结果可以为车mac分类结果、车imsi分类结果等。基于分类结果进行融合轨迹拼接和身份关系关联等物联数据应用,对此过程不再赘述。
[0183]
基于与上述方法同样的申请构思,本技术实施例提出一种匹配关系的验证装置,参见图5所示,为所述装置的结构示意图,所述装置包括:确定模块51,用于针对多个样本匹配对中每个样本匹配对,获取所述样本匹配对的碰撞特征,确定所述碰撞特征对应的适应度值,基于所述适应度值确定所述样本匹配对的综合置信度;其中,所述样本匹配对包括样
本对象标识和样本设备标识,所述碰撞特征表示所述样本对象标识与所述样本设备标识之间的匹配程度的特征,所述适应度值表示所述匹配程度的特征对应的匹配程度值;划分模块52,用于基于所述多个样本匹配对中每个样本匹配对的综合置信度,将所述多个样本匹配对划分到至少一个置信度区间;其中,针对被划分到置信度区间的样本匹配对,该样本匹配对的综合置信度处于该置信度区间;选取模块53,用于针对每个置信度区间,从该置信度区间对应的所有样本匹配对中选取部分样本匹配对,将选取的样本匹配对确定为目标样本匹配对;训练模块54,用于基于目标样本匹配对的标定信息对初始网络模型进行训练,得到目标网络模型;所述目标网络模型用于验证待测试对象标识和待测试设备标识的匹配关系。
[0184]
示例性的,所述碰撞特征包括以下至少一种:初始置信度,碰撞周期数,碰撞平均数,所述确定模块51确定所述碰撞特征对应的适应度值时具体用于:
[0185]
若所述碰撞特征包括初始置信度,且所述初始置信度与关联置信度的差值的绝对值大于置信度阈值,则确定所述初始置信度对应的适应度值为第一取值;若所述初始置信度与关联置信度的差值的绝对值不大于置信度阈值,则确定所述初始置信度对应的适应度值为第二取值;其中,所述关联置信度用于验证所述样本对象标识和所述样本设备标识之外的另一个样本设备标识的匹配关系;
[0186]
若所述碰撞特征包括碰撞周期数,且所述碰撞周期数大于周期数阈值,则确定所述碰撞周期数对应的适应度值为第一取值;若所述碰撞周期数不大于周期数阈值,则确定所述碰撞周期数对应的适应度值小于第一取值;
[0187]
若所述碰撞特征包括碰撞平均数,且所述碰撞平均数大于平均数阈值,则确定所述碰撞平均数对应的适应度值为第一取值;若所述碰撞平均数不大于平均数阈值,则确定所述碰撞平均数对应的适应度值小于第一取值。
[0188]
示例性的,选取模块53从该置信度区间对应的所有样本匹配对中选取部分样本匹配对时具体用于:确定该置信度区间对应的抽取样例数;对该置信度区间对应的样本匹配对进行排序,得到排序后的样本匹配对;基于该抽取样例数和该置信度区间对应的样本匹配对总数量确定分段间隔;基于该分段间隔从排序后的样本匹配对中选取该抽取样例数个样本匹配对。
[0189]
基于与上述方法同样的申请构思,本技术实施例中提出一种匹配关系的验证设备(即管理设备),参见图6所示,所述管理设备包括:处理器61和机器可读存储介质62,所述机器可读存储介质62存储有能够被所述处理器61执行的机器可执行指令;所述处理器61用于执行机器可执行指令,以实现如下步骤:
[0190]
针对多个样本匹配对中每个样本匹配对,获取所述样本匹配对的碰撞特征,确定所述碰撞特征对应的适应度值,并基于所述适应度值确定所述样本匹配对的综合置信度;其中,所述样本匹配对包括样本对象标识和样本设备标识,所述碰撞特征表示所述样本对象标识与所述样本设备标识之间的匹配程度的特征,所述适应度值表示所述匹配程度的特征对应的匹配程度值;
[0191]
基于所述多个样本匹配对中每个样本匹配对的综合置信度,将所述多个样本匹配对划分到至少一个置信度区间;其中,针对被划分到置信度区间的样本匹配对,该样本匹配对的综合置信度处于该置信度区间;
[0192]
针对每个置信度区间,从该置信度区间对应的所有样本匹配对中选取部分样本匹配对,将选取的样本匹配对确定为目标样本匹配对;
[0193]
基于目标样本匹配对的标定信息对初始网络模型进行训练,得到目标网络模型,该目标网络模型用于验证待测试对象标识和待测试设备标识的匹配关系。
[0194]
基于与上述方法同样的申请构思,本技术实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被处理器执行时,能够实现本技术上述示例公开的匹配关系的验证方法。
[0195]
其中,上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:ram(radom access memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
[0196]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
[0197]
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0198]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0199]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0200]
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0201]
以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1