一种人口数据的智能匹配方法

文档序号：9376407阅读：709来源：国知局

一种人口数据的智能匹配方法
【技术领域】
[0001] 本发明涉及信息管理领域，具体而言，涉及一种人口数据的智能匹配方法。
【背景技术】
[0002] 大型企业和政府部门经过多年的信息化建设，拥有许多信息系统，积累了大量业务数据，由于信息系统通常是分阶段、分部门建设的，不同信息系统中的数据呈现出分布性、自治性和异构性等特点。如何对分布式、动态化的数据进行有效管理，以满足更深层次的数据应用需求，是当前信息化应用领域研究的热点之一，也是企业和政府部门在信息化水平发展到一定阶段后普遍面临的问题。
[0003] 随着云计算模式的兴起，这一问题变得更加复杂，要满足用户对海量数据汇聚、校核、匹配、管理等功能的要求，实现对已有数据资源的充分利用，需要有针对性的、更加智能化的数据集成方法来有效整合分散于多个异构数据源中的数据，为跨部门的应用提供完整统一的数据视图，为用户提供无需考虑底层数据模型差异的，更方便、更快捷的数据服务。
[0004] 大数据环境下，信息规模急剧膨胀，信息类型与来源日趋复杂，信息的管理与服务模式也随之发生着深刻的变化。当信息分散存放于各个独立的异构系统中时，描述同一实体的属性信息往往存在差异，主要原因有：1)数据资源之间缺乏统一的标识；2)输入错误或称谓不一致；3)不同机构管理和关注的实体属性不同；4)数据采集时间不同，实体属性发生了变化等等。这些因素使得异构数据源中同一实体的数据记录难以准确辨别。
[0005] 数据质量是决定信息准确性和有效性的关键因素，在数据整合过程中，如果无法有效判断不同数据源中的记录是否代表着现实世界中的同一实体，会出现数据一致性、完整性及准确性等方面的问题，从而影响信息服务质量。在提高数据质量的资源投入方面，性价比最高的策略是数据入库之前的错误数据预防（Prevention)，因此，对多数据源数据进行同一性匹配以减少重复数据与错误数据，是提升数据整合后数据质量的重要措施。
[0006] 通过人工数据分析进行数据匹配与融合，需要耗费大量的人力和时间，在大数据量情况下，单纯靠人工分析无法实现大批量数据中的记录匹配，亟需一种自动化程度较高的智能方法。

【发明内容】

[0007] 本发明提供一种人口数据的智能匹配方法，适用于大数据环境的，基于相似度阈值分析的多源关系型数据智能匹配方法，用以实现自动化程度较高的智能匹配。
[0008] 为达到上述目的，本发明提供了一种人口数据的智能匹配方法，包括以下步骤：
[0009] 根据待匹配对象的匹配类别、匹配范围、匹配分值、匹配方法、权重、匹配阈值配置匹配规则；
[0010] 根据所配置的匹配规则，在目标数据库中执行待匹配对象的匹配操作，具体包括：
[0011] 假定待匹配对象的属性数据集合为E1，目标数据库中匹配范围内的单个实体对象的属性数据集合为E2,计算El和E2的综合相似度，根据综合相似度与匹配阈值的关系确定二者是否匹配。
[0012] 进一步地，根据待匹配对象的匹配类别、匹配范围、匹配分值、匹配方法、权重、匹配阈值配置匹配规则步骤包括：
[0013] 接收用户输入或选择的匹配类别；
[0014] 接收用户输入或选择的一组配置项，包括匹配范围、匹配分值、匹配方法、权重；
[0015] 接收用户输入或选择的完全匹配阈值、相似匹配阈值、未匹配阈值；
[0016] 根据用户输入或选择的上述数据生成匹配规则。
[0017] 进一步地，当所述匹配类型为定位匹配时，输入的匹配参数为公民身份号码和/ 或姓名，通过查询人口历史信息库中的公民身份号码变更信息进行匹配和/或通过查询人口历史信息库中的姓名变更信息或查询生僻字代码对照表进行姓名生僻字匹配，返回结果为人员ID、匹配值、匹配度代码和匹配原因代码。
[0018] 进一步地，当所述匹配类型为基础信息匹配时，输入的匹配参数为公民身份号码、姓名、性别、民族、出生日期、出生地中的至少一项数据项，匹配时根据每一项匹配结果分值落在的阈值范围，判断其匹配值，即为完全匹配、相似匹配或未匹配，返回结果项为匹配值、匹配度代码和匹配原因代码。
[0019] 进一步地，当所述匹配方法为信息项目变更匹配时，输入的匹配参数为公民身份号码、姓名以及性别、民族、出生日期、出生地中的至少一项数据项，匹配时即对公民身份号码、姓名以及性别、出生日期、民族、出生地中的至少一项是否做过变更进行匹配，返回结果为匹配值、匹配度代码和匹配原因代码。
[0020] 进一步地，当所述匹配方法为行政区划代码轨迹匹配时，输入的匹配参数为行政区划代码，匹配时对出生地、户籍地址含有区或县级以上行政区划代码进行匹配，返回结果为匹配值、匹配度代码和匹配原因代码。
[0021] 进一步地，当所述匹配方法为生僻字匹配时，输入的匹配参数为姓名、出生地，匹配时对姓名、出生地中含有生僻字进行匹配，通过"Unicode编码"查询生僻字对照表信息，如果是替代字，则定义为完全匹配，如果是谐音字，则根据匹配分值的定义规则向智能匹配引擎返回相似匹配分值，如果未查询到生僻字信息，则返回无匹配信息，返回结果为匹配值、匹配度代码和匹配原因代码。
[0022] 进一步地，为匹配类别分别配置不同的接口，在执行匹配操作时，根据所要执行的匹配类别进行相应接口的匹配调度，生成智能匹配结果。
【附图说明】
[0023] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0024] 图1为本发明一个实施例的人口数据的智能匹配方法流程图；
[0025] 图2是本发明一个实施例的智能匹配引擎匹配规则配置流程图；
[0026] 图3为对应于图2实施例的新增智能匹配配置的界面图；
[0027] 图4为本发明一个实施例的智能匹配引擎定位匹配流程图；
[0028] 图5为本发明一个实施例的项目信息变更匹配流程图；
[0029] 图6为本发明一个实施例的行政区划代码轨迹匹配流程图；
[0030] 图7为本发明一个实施例的生僻字匹配流程图。
【具体实施方式】
[0031] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0032] 图1为本发明一个实施例的人口数据的智能匹配方法流程图；如图所示，该智能匹配方法包括以下步骤：
[0033] Sl 10,根据待匹配对象的匹配类别、匹配范围、匹配分值、匹配方法、权重、匹配阈值配置匹配规则；
[0034] S120,根据所配置的匹配规则，在目标数据库中执行待匹配对象的匹配操作，具体包括：
[0035] 假定待匹配对象的属性数据集合为E1，目标数据库中匹配范围内的单个实体对象的属性数据集合为E2,计算El和E2的综合相似度，根据综合相似度与匹配阈值的关系确定二者是否匹配。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汤滔;张建光;李银波;王明娟;郭培莹;马文楠;
技术所有人：北京航天金盾科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。