数据处理方法、装置、电子设备和存储介质与流程

文档序号:24414964发布日期:2021-03-26 20:55阅读:91来源:国知局
数据处理方法、装置、电子设备和存储介质与流程

1.本申请涉及计算机技术领域,特别是涉及基于数据处理方法、装置、电子设备和存储介质。


背景技术:

2.在数据查询领域中,会涉及到通过查询系统从多个存储用户证件信息的不同数据系统来查询用户证件信息的情况,涉及多种场景下的数据查询,如对用户的医疗档案或病例档案进行查询的用户医疗信息查询场景,又比如对用户的执行证书或学位证书进行查询的用户个人信息查询场景。由于不同数据系统所存储的用户证件信息会存在信息一致或者信息大致相似的情况,而各个数据系统又很难做到互联互通的,因此在通过查询系统进行用户证件信息查询时,针对不同数据系统都存储同一个用户证件信息的情况无法进行重复识别,从而造成重复显示,因此如何避免用户证件信息的重复显示成为亟待解决的技术问题。


技术实现要素:

3.基于此,本申请提供了一种数据处理方法、装置、电子设备和存储介质,可以在一定程度上避免用户证件信息的重复显示,提高了进行数据查询的精准度。
4.第一方面,本申请提供了一种数据处理方法,包括:获取进行索引合并的两个用户证件数据、用户证件数据所属的证件类型,所述两个用户证件数据来自不同的数据系统;根据所述用户证件数据所属的证件类型,确定所述用户证件数据中需要进行校验的各个目标字段、各个所述目标字段对应的权重以及所述证件类型的用户证件数据对应的第一相似度阈值;比对两个所述用户证件数据包含的各个目标字段中的字段值,确定两个所述用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度;基于两个所述用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度以及各个目标字段对应的权重,确定两个所述用户证件数据之间的数据匹配相似度;若两个所述用户证件数据之间的数据匹配相似度高于第一相似度阈值,则将两个用户证件数据进行索引合并。
5.第二方面,本申请提供了一种数据处理装置,包括:第一获取单元,用于获取进行索引合并的两个用户证件数据、用户证件数据所属的证件类型,所述两个用户证件数据来自不同的数据系统;第一执行单元,用于根据所述用户证件数据所属的证件类型,确定所述用户证件数据中需要进行校验的各个目标字段、各个所述目标字段对应的权重以及所述证件类型的用户证件数据对应的第一相似度阈值;比对单元,用于比对两个所述用户证件数据包含的各个目标字段中的字段值,确定两个所述用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度;第二执行单元,用于基于两个所述用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度以及各个目标字段对应的权重,确定两个所述用户证件数据之间的数据匹配相似度;合并单元,用于若两个所述用户证件数据之间的数据匹配相似度高于第一相似度阈值,则将两个用户证件数据进行索引合并。
6.第三方面,本申请提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述数据处理方法的步骤。
7.第四方面,本申请提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述数据处理方法的步骤。
8.本申请的实施例提供的技术方案可以包括以下有益效果:通过根据用户证件数据对应的证件类型确定用户证件数据包含的需要进行校验的各个目标字段、各个目标字段对应的权重以及证件类型的用户证件数据对应的第一相似度阈值,并通过比对两个用户证件数据包含的各个目标字段中的字段值,确定两个用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度,最后基于字段值匹配相似度与第一相似度阈值之间的对比关系确定来自不同系统的两个同一证件类型的用户证件数据是否为同一用户的用户证件数据,实现了对不同数据系统所存储的同一用户的用户证件数据进行索引合并,避免了对用户某个证件类型的用户证件数据进行查询时而进行重复显示,在一定程度上提高了进行数据查询的精准度。
9.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
10.图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
11.图2为本申请一示例性实施例示出的数据处理方法的流程图。
12.图3为本申请一示例性实施例示出的数据处理方法的步骤s230的具体流程图。
13.图4为本申请一示例性实施例示出的数据处理方法的步骤s250的具体流程图。
14.图5为本申请一示例性实施例示出的数据处理方法的流程图。
15.图6是本申请一示例性实施例示出的一种数据处理装置的框图。
16.图7是本申请一示例性实施例示出的一种用于实现上述数据处理方法的电子设备示例框图。
17.图8是本申请一示例性实施例示出的一种用于实现上述数据处理方法的计算机可读存储介质。
具体实施方式
18.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
19.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
20.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
21.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
22.图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
23.如图1所示,系统架构可以包括客户端101、网络102和服务器103,该服务器103可以为提供数据查询服务的服务器,客户端101为进行数据查询服务的目标电子设备,客户端101可以为智能手机、平板电脑和便携式计算机中的一种或多种,当然也可以是台式计算机等等。网络102用以在客户端101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
24.应该理解,图1中的客户端101、网络102和服务器103的数目仅仅是示意性的。根据实现需要,可以具有任意数目的客户端101、网络102和服务器103,例如服务器103可以是多个服务器组成的服务器集群等。
25.可选的,本申请的服务器103所获取的两个用户证件数据来自不同的数据系统,各数据系统可以是区块链数据服务器系统的任意一个节点服务器104,服务器103还可以将进行索引合并的结果反馈至区块链数据服务器系统的多个节点服务器104中,并由节点服务器104进行存储,基于区块链数据共享的安全性和不可更改特性,有效保证数据处理的安全性和可靠性。
26.本实施例中的服务器103获取进行索引合并的两个用户证件数据、用户证件数据所属的证件类型,两个用户证件数据来自不同的数据系统;根据用户证件数据所属的证件类型,确定用户证件数据中需要进行校验的各个目标字段、各个目标字段对应的权重以及证件类型的用户证件数据对应的第一相似度阈值;比对两个用户证件数据包含的各个目标字段中的字段值,确定两个用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度;基于两个用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度以及各个目标字段对应的权重,确定两个用户证件数据之间的数据匹配相似度;若两个用户证件数据之间的数据匹配相似度高于第一相似度阈值,则将两个用户证件数据进行索引合并。
27.通过根据用户证件数据对应的证件类型确定用户证件数据包含的需要进行校验的各个目标字段、各个目标字段对应的权重以及证件类型的用户证件数据对应的第一相似度阈值,并通过比对两个用户证件数据包含的各个目标字段中的字段值,确定两个用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度,最后基于字段值匹配相似度与第一相似度阈值之间的对比关系确定来自不同系统的两个同一证件类型的用户证件数据是否为同一用户的用户证件数据,实现了对不同数据系统所存储的同一用户的用户证件数据进行索引合并,避免了对用户某个证件类型的用户证件数据进行查询时而进行重复显示,在一定程度上提高了进行数据查询的精准度。
28.需要说明的是,本申请实施例所提供的数据处理方法一般由服务器103执行,相应地,数据处理装置一般设置于服务器103中。以下对本申请实施例的技术方案的实现细节进
行详细阐述。
29.参考图2,图2为本申请一示例性实施例示出的数据处理方法的流程图,本实施例中的数据处理方法的执行主体为服务器103,如图2所示的数据处理方法可包括如下步骤s210至步骤s260,详细说明如下。
30.在步骤s210中,获取进行索引合并的两个用户证件数据、用户证件数据所属的证件类型,两个用户证件数据来自不同的数据系统。
31.在一个实施例中,证件类型为包含有多种类型的用户属性数据的用户证件数据所属的证件类型,在不同的数据查询的应用场景,对应不同类型的用户信息。如在用户医疗信息的数据查询场景,证件类型指的是用户的医疗档案或病例档案,如在用户个人信息的数据查询场景,证件类型指的是用户的身份证、驾驶证以及律师证等。同一证件类型的用户证件数据可以来自不同的数据系统,该数据系统可以为存储某种证件类型的用户证件数据的数据库系统。需要指出的是,同一个数据库系统也可以存储多种证件类型的用户证件数据。本实施例中的两个用户证件数据特指为同一证件类型的用户证件数据。
32.在步骤s220中,根据用户证件数据所属的证件类型,确定用户证件数据中需要进行校验的各个目标字段、各个目标字段对应的权重以及证件类型的用户证件数据对应的第一相似度阈值。
33.在一个实施例中,用户证件数据中包含多个字段,每个字段中的字段值用于存储用户的某种属性数据,这些字段可以为姓名、性别、手机号码、出生日期、民族、联系人、联系人电话、地址等,不同类型的用户证件数据中包含的字段类型和字段的数量一般不同。
34.目标字段为用户证件数据所包含的字段中需要进行校验的字段,可以理解的是,目标字段可以是用户证件数据所包含的部分字段,也可以是用户证件数据所包含的所有字段,用户证件数据中需要进行校验的目标字段与用户证件数据所属的证件类型存在关联关系。服务器可以根据各种不同的证件类型的用户证件数据以及该用户证件数据需要进行校验的目标字段,预先建立用户证件数据所属的证件类型和用户证件数据中需要进行校验的目标字段之间的对应关系,进而便于根据用户证件数据所属的证件类型直接确定用户证件数据中需要进行校验的各个目标字段。
35.可选的,由于不同的目标字段对判定两个用户证件数据是否为同一个用户的用户证件数据的重要程度不一致,因此可以根据需要进行校验的各个目标字段对同一个用户的用户证件数据的重要程度预先为各个目标字段分配对应的权重。可以理解的是,针对某种类型的用户证件数据,服务器可以根据目标字段对判定两个用户证件数据是否为同一个用户的用户证件数据的重要程度,预先建立用户证件数据所属的证件类型和各个目标字段对应的权重之间的对应关系,进而便于根据用户证件数据所属的证件类型直接确定各个目标字段对应的权重。
36.可选的,第一相似度阈值为预设的用于确定两个用户证件数据是否为同一个用户的用户证件数据的相似度阈值。由于数据库系统所存储的用户证件数据所包含的各个目标字段中的字段值在录入时会存在录入错误的情况,因此,为了提高校验两个用户证件数据是否为同一个用户的用户证件数据的准确度,可以预先为各个不同证件类型的用户证件数据分配对应的第一相似度阈值,以便于在用户证件数据中的某一个目标字段中字段值存在录入错误且确定其它目标字段中的字段值均相同的情况下,也能实现确定两个用户证件数
据是否为同一个用户的用户证件数据。
37.服务器可以预先建立用户证件数据所属的证件类型和用户证件数据的相似度阈值之间的对应关系,进而便于根据用户证件数据所属的证件类型直接确定证件类型的用户证件数据对应的相似度阈值。
38.在步骤s230中,比对两个用户证件数据包含的各个目标字段中的字段值,确定两个用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度。
39.在一个实施例中,针对两个用户证件数据中用于进行比对校验的各个目标字段,可以先从用户证件数据对应的目标字段中提取对应的字段值。例如,若需要比对的目标字段为“姓名”、“性别”、“手机号码”、“出生日期”、“民族”等字段,则分别从这些目标字段中提取相应的字段值,并基于提取的两个字段值进行相似度计算,确定两个字段值之间的匹配相似度,作为两个字段值之间的字段值匹配相似度。
40.参考图3,图3为本申请一示例性实施例示出的数据处理方法的步骤s230的具体流程图,在该实施例中,步骤s230具体可以包括步骤s310至步骤s340,详细描述如下。
41.在步骤s310中,对两个用户证件数据包含的各个目标字段中的字段值分别进行字符转换处理,得到转换后的字段值。
42.在一个实施例中,针对某些特定的目标字段,例如姓名字段,当该姓名字段的字段值为中文名字时,可以先对姓名字段中的字段值进行字符转换处理,得到转换后的字段值,转换后的字段值一般为字符串。
43.具体的,针对姓名字段中的字段值,可以将其转换为对应的汉语拼音,进而得到转换后的字段值。通过将用户证件数据包含的各个目标字段中的字段值进行字符转换处理,以便于更为准确地确定用户证件数据包含的各个目标字段中的字段值之间的相似度。
44.例如,对于录入数据为中文数据的目标字段,会存在不同地区因为口语差异导致录入的中文数据差异性较大,而该中文数据对应的汉语拼音较相似的相同,例如不小心将“王”字错误的录入成“黄”字,而“王”字和“黄”字属于不同的中文字符,而通过“wang”和“huang”则属于较为相似的情况,由此通过对用户证件数据包含的各个目标字段中的字段值进行字符转换处理,可以有效识别这种录入错误的情况。
45.在步骤s320中,比对两个用户证件数据包含的各个目标字段所对应的转换后的字段值,确定第一相似度。
46.在一个实施例中,比对两个用户证件数据包含的各个目标字段所对应的转换后的字段值,确定第二相似度。可选的,针对进行字符转换处理所得到的字段值,可以根据相似度算法确定两个转换后的字段值之间的第一相似度。具体的,可以通过计算欧几里得度量的相似度算法确定两个转换后的字段值之间的第一相似度,当然,也可以为其它相似度算法来进行计算,在此不作限定。
47.在步骤s330中,比对两个用户证件数据包含的各个目标字段中的字段值,确定第二相似度。
48.在一个实施例中,当该目标字段中的字段值为中文数据时,则可以直接比对两个字段值中的中文字符是否相同来确定两个字段值之间的相似度。具体的,第二相似度可以通过两个字段值中相同的中文字符数量与两个字段值中的总的中文字符数量之间的比值来确定,当然,该第二相似度也可以先确定两个字段值的总中文字符数量和两个字段值相
同的中文字符数量这两者之和,在根据两个字段值相同的中文字符数量与这两者之和的比值来确定。
49.在步骤s340中,基于第一相似度以及第二相似度,确定两个用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度。
50.图3所示实施例的技术方案中,通过对用户证件数据包含的各个目标字段中的字段值进行字符转换处理,得到转换后的字段值,并通过转换后的字段值和未转换的字段值共同确定用户证件数据包含的各个目标字段中的字段值之间的相似度,可以进一步提高确定两个用户证件数据是否为同一个用户的用户证件数据的准确度。
51.在一个实施例中,在确定得到第一相似度以及第二相似度后,将根据基于第一相似度以及第二相似度来确定两个用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度。具体的,可以直接计算第一相似度以及第二相似度这两者之和,并将这两者之和作为两个用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度。
52.可选的,步骤s340具体可以包括:基于第一相似度以及第二相似度的加权和,确定两个用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度。
53.在本实施例中,基于第一相似度以及第二相似度确定两个用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度时,还可以根据第一相似度以及第二相似度的加权和来计算两个用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度。
54.可选的,可以将第二相似度的权重设置为大于第一相似度的权重。
55.还请继续参考图2,在步骤s240中,基于两个用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度以及各个目标字段对应的权重,确定两个用户证件数据之间的数据匹配相似度。
56.在一个实施例中,在确定两个用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度时,可以先确定两个用户证件数据包含的每个目标字段中的字段值之间的字段匹配相似度与每个目标字段对应的权重之间的乘积,在根据对应的乘积之和计算得到用户证件数据之间的第一匹配相似度。
57.在步骤s250中,若两个用户证件数据之间的数据匹配相似度高于第一相似度阈值,则将两个用户证件数据进行索引合并。
58.在一个实施例中,第一相似度阈值为预设的用于确定两个同一证件类型的用户证件数据是否为同一用户的相似度阈值,若确定用户证件数据之间的第一匹配相似度高于第一相似度阈值,则确定两个同一证件类型的用户证件数据为同一用户的相似度阈值,则可以将这两个用户证件数据进行索引合并,避免在对用户某个证件类型的用户证件数据进行查询时进行重复显示。
59.参考图4,图4为本申请一示例性实施例示出的数据处理方法的步骤s250的具体流程图,在该实施例中,步骤s250具体可以包括步骤s410至步骤s430,详细描述如下。
60.在步骤s410中,若两个用户证件数据之间的数据匹配相似度高于第一相似度阈值,则从任意一个用户证件数据中提取用户标识信息。
61.在一个实施例中,在两个用户证件数据之间的数据匹配相似度高于第一相似度阈值的前提下,需要对两个用户证件数据进行索引合并。在进行索引合并时,可以从任意一个
用户证件数据提取用户标识信息。
62.具体的,可以先确定用户证件数据中存储用户标识信息的特定字段,并提取该特定字段中的字段值,即提取用户证件数据中的用户标识信息。该特定字段可以是“手机号”或“身份证号”等可以对用户进行唯一标识的字段。
63.在步骤s420中,根据用户标识信息、用户证件数据所属的证件类型生成索引信息。
64.在一个实施例中,在获取用户标识信息,可以根据用户标识信息、用户证件数据所属的证件类型这两个信息生成对用户证件数据进行索引的索引信息。
65.在步骤s430中,将生成的索引信息与两个用户证件数据进行关联存储。
66.在一个实施例中,将生成的索引信息与两个用户证件数据进行关联存储,以便于根据生成的索引信息直接查找到进行关联的两个用户证件数据。
67.可选的,步骤s250具体可以包括:若两个用户证件数据之间的数据匹配相似度高于第一相似度阈值,且两个用户证件数据包含的用户标识信息之间的字段值匹配相似度大于标识用户标识信息的字段对应的第二相似度阈值,则从任意一个用户证件数据中提取用户标识信息。
68.在本实施例中,在获取用户证件数据所包含的标识用户标识信息的字段中的用户标识信息作为索引信息时,还需要确定用户证件数据包含的标识用户标识信息的字段中的字段值之间的字段值匹配相似度是否大于标识用户标识信息的字段对应的相似度阈值。
69.若用户证件数据包含的标识用户标识信息的字段中的字段值之间的字段值匹配相似度大于标识用户标识信息的字段对应的相似度阈值,则说明数据数据库系统所存储的用户证件数据的各个目标字段中的字段值在录入时不存在录入错误的情况,可以将用户证件数据包含的用户标识信息作为对用户证件数据进行索引的索引信息。
70.图4所示实施例的技术方案中,避免了根据录入的错误用户标识信息生成索引信息,减小存在用户证件数据但是查询不到用户证件数据的情况,提高了查询用户证件数据的准确度。
71.以上可以看出,通过根据用户证件数据对应的证件类型确定用户证件数据包含的需要进行校验的各个目标字段、各个目标字段对应的权重以及证件类型的用户证件数据对应的第一相似度阈值,并通过比对两个用户证件数据包含的各个目标字段中的字段值,确定两个用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度,最后基于字段值匹配相似度与第一相似度阈值之间的对比关系确定来自不同系统的两个同一证件类型的用户证件数据是否为同一用户的用户证件数据,实现了对不同数据系统所存储的同一用户的用户证件数据进行索引合并,避免了对用户某个证件类型的用户证件数据进行查询时而进行重复显示,在一定程度上提高了进行数据查询的精准度。
72.在一个实施例中,本申请的数据处理方法还可以包括:若两个用户证件数据之间的数据匹配相似度高于第一相似度阈值,且两个用户证件数据包含的用户标识信息之间的字段值匹配相似度小于或者等于标识用户标识信息的字段对应的第二相似度阈值,则生成索引合并失败的警示通知。
73.在本实施例中,在获取用户证件数据所包含的标识用户标识信息的字段中的用户标识信息作为索引信息时,还需要确定用户证件数据包含的标识用户标识信息的字段中的字段值之间的字段值匹配相似度是否高于标识用户标识信息的字段对应的相似度阈值。
74.若用户证件数据包含的标识用户标识信息的字段中的字段值之间的字段值匹配相似度小于或者等于标识用户标识信息的字段对应的相似度阈值,则说明数据数据库系统所存储的用户证件数据的各个目标字段中的字段值在录入时存在录入错误的情况,因此无法对两个用户证件数据进行索引合并。由此需要生成索引合并失败的警示通知,该警示通知具体可以为“用户证件数据中的用户标识信息不符合需求,索引合并失败”,在此不作限定。
75.该警示通知用于提示相关人员对用户证件数据所包含的标识用户标识信息的字段中的字段值进行更新处理,以便于顺利地对两个用户证件数据进行索引合并。
76.参考图5,图5为本申请一示例性实施例示出的数据处理方法的流程图,在该实施例中的数据处理方法还可以包括步骤s510至步骤s530,详细描述如下。
77.在步骤s510中,获取查询请求,查询请求中携带用于进行查询的证件类型以及用于进行查询的用户标识信息。
78.在一个实施例中,在需要对某个用户的用户证件数据进行查询时,可以通过查询请求来实现,该查询请求中携带用于进行查询的证件类型以及用于进行查询的用户标识信息。一般情况下,用户可以通过客户端提供的虚拟按钮或实体按键触发该查询请求,客户端发送该查询请求至服务器,当然,该查询请求也可以直接在服务器生成,在此不作限定。
79.在步骤s520中,若监测到与用于进行查询的证件类型以及用于进行查询的用户标识信息均一致的目标索引信息,则获取与目标索引信息关联的任意一个用户证件数据,作为查询结果。
80.在一个实施例中,服务器获取该查询请求后,将查询请求中携带的用于进行查询的证件类型以及用于进行查询的用户标识信息与目标索引信息中的证件类型和用户标识信息分别进行比对,若监测到与用于进行查询的证件类型以及用于进行查询的用户标识信息均一致的目标索引信息,则获取与目标索引信息关联的任意一个用户证件数据,作为查询结果。
81.在步骤s530中,基于查询结果,生成展示数据。
82.在一个实施例中,在获取与目标索引信息关联的任意一个用户证件数据,可以根据与目标索引信息关联的任意一个用户证件数据来生成用于进行展示的展示数据,以满足用户的查询需求。
83.参考图6,图6示意性示出了根据本申请的一个实施例的数据处理装置的框图,数据处理装置可以集成于电子设备中,根据本申请的一个实施例的数据处理装置600可以包括:第一获取单元610、第一执行单元620、比对单元630、第二执行单元640以及合并单元650;第一获取单元610,用于获取进行索引合并的两个用户证件数据、用户证件数据所属的证件类型,两个用户证件数据来自不同的数据系统;第一执行单元620,用于根据所述用户证件数据所属的证件类型,确定所述用户证件数据中需要进行校验的各个目标字段、各个所述目标字段对应的权重以及所述证件类型的用户证件数据对应的第一相似度阈值;比对单元630,用于比对两个所述用户证件数据包含的各个目标字段中的字段值,确定两个所述用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度;第二执行单元640,用于基于两个所述用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度以及各个所述目标字段对应的权重,确定两个所述用户证件数据之间的数据匹配相
似度;合并单元650,用于若两个所述用户证件数据之间的数据匹配相似度高于第一相似度阈值,则将两个所述用户证件数据进行索引合并。
84.可选的,比对单元630被配置为:对两个所述用户证件数据包含的各个目标字段中的字段值分别进行字符转换处理,得到转换后的字段值;比对两个所述用户证件数据包含的各个目标字段所对应的转换后的字段值,确定第一相似度;比对两个所述用户证件数据包含的各个目标字段中的字段值,确定第二相似度;基于所述第一相似度以及所述第二相似度,确定两个所述用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度。
85.可选的,比对单元630被配置为:基于所述第一相似度以及所述第二相似度的加权和,确定两个所述用户证件数据包含的各个目标字段中的字段值之间的字段值匹配相似度。
86.可选的,合并单元650被配置为:若两个所述用户证件数据之间的数据匹配相似度高于第一相似度阈值,则从任意一个所述用户证件数据中提取用户标识信息;根据所述用户标识信息、所述用户证件数据所属的证件类型生成索引信息;将生成的索引信息与所述两个用户证件数据进行关联存储。
87.可选的,合并单元650被配置为:若两个所述用户证件数据之间的数据匹配相似度高于第一相似度阈值,且两个所述用户证件数据包含的用户标识信息之间的字段值匹配相似度大于标识用户标识信息的字段对应的第二相似度阈值,则从任意一个所述用户证件数据中提取用户标识信息。
88.可选的,数据处理装置,还包括:第一生成单元,用于若两个所述用户证件数据之间的数据匹配相似度高于第一相似度阈值,且两个所述用户证件数据包含的用户标识信息之间的字段值匹配相似度小于或者等于标识用户标识信息的字段对应的第二相似度阈值,则生成索引合并失败的警示通知。
89.可选的,数据处理装置,还包括:第二获取单元,用于获取查询请求,所述查询请求中携带用于进行查询的证件类型以及用于进行查询的用户标识信息;第三获取单元,用于若监测到与所述用于进行查询的证件类型以及用于进行查询的用户标识信息均一致的目标索引信息,则获取与所述目标索引信息关联的任意一个用户证件数据,作为查询结果;第二生成单元,用于基于所述查询结果,生成展示数据。
90.上述装置中各个模块的功能和作用的实现过程具体详见上述基于数据处理方法中对应步骤的实现过程,在此不再赘述。
91.应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
92.此外,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
93.通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施
方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd

rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施方式的方法。
94.在本申请的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
95.所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
96.参考图7,图7为本申请一示例性实施例示出的一种用于实现上述数据处理方法的电子设备示例框图。图7显示的电子设备700仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
97.如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。
98.其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。例如,所述处理单元710可以执行如图2中所示的步骤s210至步骤s250。
99.存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(rom)7203。
100.存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204,这样的程序模块7205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
101.总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
102.电子设备700也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口750进行。电子设备700还包括显示单元740。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器760通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
103.通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请
实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd

rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
104.在本申请的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本申请的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述电子设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。
105.参考图8所示,图8是本申请一示例性实施例示出的一种用于实现上述数据校验方法的计算机可读存储介质。图8描述了根据本申请的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(cd

rom)并包括程序代码,并可以在电子设备,例如个人电脑上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
106.所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
107.计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
108.可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
109.可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
110.此外,上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
111.本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其他实施例。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1