一种信息匹配方法及装置制造方法

文档序号:6538418阅读:169来源:国知局
一种信息匹配方法及装置制造方法
【专利摘要】本申请提供了一种信息匹配方法及装置,预先设定匹配所需的至少两个属性项以及每个属性项的权重,方法包括:获取信息表,信息表包括多个属性项;依据属性项对信息表中的信息记录进行分词,得到信息文本;对于每条信息记录,从信息记录中获取与匹配所需的属性项对应的属性信息作为第一属性信息,基于第一属性信息检索信息文本,确定第一属性信息的相似度,通过第一属性信息的相似度以及对应的属性项的权重确定信息记录的相似度;基于每条信息记录的相似度对信息表中的信息记录进行匹配。本申请提供的信息匹配方法及装置能够对信息表中的信息进行准确的匹配。
【专利说明】—种信息匹配方法及装置
【技术领域】
[0001]本发明涉及信息处理【技术领域】,尤其涉及一种信息匹配方法及装置。
【背景技术】
[0002]随着信息化技术的不断发展,各个行业开始大量依赖信息系统。在每个行业信息化发展的过程中,通常会伴随有业务的不断变化和系统的不断升级,甚至软件开发商的更换,但是,不论信息系统怎样变化,业务发生的相关信息对每个行业来说都具有重要意义,其是决策支持和前景分析的基础。
[0003]信息系统涉及的相关信息通常以信息表的形式存储,例如,人员信息,包括员工信息、客户信息等。当信息表中的信息达到一定规模后,通常会存在大量重复的信息。这是因为,同一个人员发生多次业务后可能产生多条信息记录,例如,同一个人在一家医院就诊了10次,可能会产生10条信息记录。为了便于信息管理,通常会对数据表中的信息记录进行信息匹配。所谓信息匹配,即为对多条信息记录进行相似度计算,合并为一条信息记录的过程。
[0004]现有技术中,由于信息系统的变化,导致信息表中记录的信息不完整,并且信息质量较低,例如,医院在患者登记时,很多患者信息都没有登记身份证号,在“家庭电话”中记录“手机号”,“联系人”记录在“备注”中,“地址”记录“不详”或“未知”等。发明人在实现本发明创造的过程中发现:信息表中信息的完整度和信息质量较低导致信息无法准确匹配。

【发明内容】

[0005]有鉴于此,本发明提供了一种信息匹配方法,用以解决现有技术中信息表中信息的完整度和信息质量较低导致信息无法准确匹配的问题,其技术方案如下:
[0006]一种信息匹配方法,预先设定匹配所需的至少两个属性项以及每个属性项的权重,所述方法包括:
[0007]获取信息表,所述信息表包括多个属性项;
[0008]依据所述属性项对所述信息表中的信息记录进行分词,得到信息文本;
[0009]对于每条信息记录,从所述信息记录中获取与匹配所需的属性项对应的属性信息作为第一属性信息,基于所述第一属性信息检索所述信息文本,确定所述第一属性信息的相似度,通过所述第一属性信息的相似度以及对应的属性项的权重确定所述信息记录的相似度;
[0010]基于每条信息记录的相似度对所述信息表中的信息记录进行匹配。
[0011]其中,所述基于所述第一属性信息检索所述信息文本,确定所述第一属性信息的相似度,包括:
[0012]基于所述第一属性信息检索所述信息文本,确定所述第一属性信息与所述信息文本中其它属性信息的相似度,将计算得到的最大相似度确定为所述第一属性信息的相似度。
[0013]可选的,所述方法还包括:
[0014]预先设置别名数据库,所述别名数据库中包括属性信息的别名;
[0015]则确定所述第一属性信息与所述信息文本中其它属性信息的相似度,具体为:
[0016]结合所述别名数据库确定所述信息文本中的其它属性信息中是否存在所述第一属性信息的别名,当所述信息文本中的其它属性信息中存在所述第一属性信息的别名时,确定所述第一属性信息的相似度为I。
[0017]其中,所述基于每条信息记录的相似度对所述数据表中的信息记录进行匹配包括:
[0018]查找所述数据表中的相似信息记录集合,所述相似记录集合中包括至少两条相似信息记录;
[0019]将所述相似信息记录集合中,相似度大于第一预设值的信息记录进行匹配。
[0020]其中,查找所述数据表中的相似信息记录集合,具体为:
[0021]将与所述信息表中的至少一个属性项对应的属性信息作为第二属性信息,基于所述第二属性信息在所述信息文本中检索,确定与所述第二属性信息有关的信息记录,并将与所述第二属性信息有关的信息记录确定为相似信息记录。
[0022]一种信息匹配装置,预先设定匹配所需的至少两个属性项和与每个属性项对应的权重,所述装置包括:
[0023]获取模块,用于获取信息表,所述信息表包括多个属性项;
[0024]分词模块,用于依据所述属性项对所述信息表中的信息记录进行分词,得到信息文本;
[0025]确定模块,用于对于每条信息记录,从所述信息记录中获取与匹配所需的属性项对应的属性信息作为第一属性信息,基于所述第一属性信息检索所述信息文本,确定所述第一属性信息的相似度,通过所述第一属性信息的相似度以及对应的属性项的权重确定所述信息记录的相似度;
[0026]匹配模块,用于基于每条信息记录的相似度对所述信息表中的信息记录进行匹配。
[0027]其中,所述确定模块包括:
[0028]确定子模块,用于基于所述第一属性信息检索所述信息文本,确定所述第一属性信息与所述信息文本中其它属性信息的相似度,将计算得到的最大相似度确定为所述第一属性信息的相似度。
[0029]预先设置别名数据库,所述别名数据库中包括属性信息的别名;
[0030]则所述确定子模块,具体用于结合所述别名数据库确定所述信息文本中的其它属性信息中是否存在所述第一属性信息的别名,当所述信息文本中的其它属性信息中存在所述第一属性信息的别名时,确定所述第一属性信息的相似度为I。
[0031]其中,所述匹配模块包括:
[0032]查找子模块,用于查找所述数据表中的相似信息记录集合,所述相似记录集合中包括至少两条相似信息记录;
[0033]匹配子模块,用于将所述相似信息记录集合中,相似度大于第一预设值的信息记录进行匹配。
[0034]其中,所述查找子模块,具体用于将与所述信息表中的至少一个属性项对应的属性信息作为第二属性信息,基于所述第二属性信息在所述信息文本中检索,确定与所述第二属性信息有关的信息记录,并将与所述第二属性信息有关的信息记录确定为相似信息记录。
[0035]上述技术方案具有如下有益效果:
[0036]本发明提供的信息匹配方法及装置,将信息表中的信息记录进行分词,可得到信息文本,然后基于与预先设置的属性项对应的属性信息在信息文本中检索,确定与预先设置的属性项对应的属性信息的相似度,通过属性信息的相似度及对应的属性项的权重确定信息记录的相似度,进而基于信息记录的相似度对信息表中的信息记录进行匹配。本发明提供的信息匹配方法及装置,采用分词后的全文检索方法确定属性信息的相似度,而不依赖于属性信息在信息表中的位置,因此,信息能够准确匹配。
【专利附图】

【附图说明】
[0037]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0038]图1为本发明实施例提供的一种信息匹配方法的流程示意图;
[0039]图2为本发明实施例提供的一种信息匹配装置的结构示意图。
【具体实施方式】
[0040]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0041]请参阅图1,为本发明实施例提供的一种信息匹配方法的流程示意图,预先设定匹配规则,其中,匹配规则包括匹配所需的至少两个属性项以及每个属性项的权重,该方法可以包括:
[0042]步骤SlOl:获取信息表。
[0043]其中,信息表包括多个属性项。
[0044]示例性的,获取的信息表如表I所示:
[0045]表I
【权利要求】
1.一种信息匹配方法,其特征在于,预先设定匹配所需的至少两个属性项以及每个属性项的权重,所述方法包括: 获取信息表,所述信息表包括多个属性项; 依据所述属性项对所述信息表中的信息记录进行分词,得到信息文本; 对于每条信息记录,从所述信息记录中获取与匹配所需的属性项对应的属性信息作为第一属性信息,基于所述第一属性信息检索所述信息文本,确定所述第一属性信息的相似度,通过所述第一属性信息的相似度以及对应的属性项的权重确定所述信息记录的相似度; 基于每条信息记录的相似度对所述信息表中的信息记录进行匹配。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一属性信息检索所述信息文本,确定所述第一属性信息的相似度,包括: 基于所述第一属性信息检索所述信息文本,确定所述第一属性信息与所述信息文本中其它属性信息的相似度,将计算得到的最大相似度确定为所述第一属性信息的相似度。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括: 预先设置别名数据库,所述别名数据库中包括属性信息的别名; 则确定所述第一属性信息 与所述信息文本中其它属性信息的相似度,具体为: 结合所述别名数据库确定所述信息文本中的其它属性信息中是否存在所述第一属性信息的别名,当所述信息文本中的其它属性信息中存在所述第一属性信息的别名时,确定所述第一属性信息的相似度为I。
4.根据权利要求1~3所述的方法,其特征在于,所述基于每条信息记录的相似度对所述数据表中的信息记录进行匹配包括: 查找所述数据表中的相似信息记录集合,所述相似记录集合中包括至少两条相似信息记录; 将所述相似信息记录集合中,相似度大于第一预设值的信息记录进行匹配。
5.根据权利要求4所述的方法,其特征在于,查找所述数据表中的相似信息记录集合,具体为: 将与所述信息表中的至少一个属性项对应的属性信息作为第二属性信息,基于所述第二属性信息在所述信息文本中检索,确定与所述第二属性信息有关的信息记录,并将与所述第二属性信息有关的信息记录确定为相似信息记录。
6.一种信息匹配装置,其特征在于,预先设定匹配所需的至少两个属性项和与每个属性项对应的权重,所述装置包括: 获取模块,用于获取信息表,所述信息表包括多个属性项; 分词模块,用于依据所述属性项对所述信息表中的信息记录进行分词,得到信息文本; 确定模块,用于对于每条信息记录,从所述信息记录中获取与匹配所需的属性项对应的属性信息作为第一属性信息,基于所述第一属性信息检索所述信息文本,确定所述第一属性信息的相似度,通过所述第一属性信息的相似度以及对应的属性项的权重确定所述信息记录的相似度; 匹配模块,用于基于每条信息记录的相似度对所述信息表中的信息记录进行匹配。
7.根据权利要求6所述的装置,其特征在于,所述确定模块包括: 确定子模块,用于基于所述第一属性信息检索所述信息文本,确定所述第一属性信息与所述信息文本中其它属性信息的相似度,将计算得到的最大相似度确定为所述第一属性信息的相似度。
8.根据权利要求7所述的装置,其特征在于,预先设置别名数据库,所述别名数据库中包括属性信息的别名; 所述确定子模块,具体用于结合所述别名数据库确定所述信息文本中的其它属性信息中是否存在所述第一属性信息的别名,当所述信息文本中的其它属性信息中存在所述第一属性信息的别名时,确定所述第一属性信息的相似度为I。
9.根据权利要求6~8所述的装置,其特征在于,所述匹配模块包括: 查找子模块,用于查找所述数据表中的相似信息记录集合,所述相似记录集合中包括至少两条相似信息记录; 匹配子模块,用于将所述相似信息记录集合中,相似度大于第一预设值的信息记录进行匹配。
10.根据权利要求9所述的装置,其特征在于,所述查找子模块,具体用于将与所述信息表中的至少一个属性项对应的属性信息作为第二属性信息,基于所述第二属性信息在所述信息文本中检索,确定与所述第二属性信息有关的信息记录,并将与所述第二属性信息有关的信息记录确定为相似信息记`录。
【文档编号】G06F17/30GK103761341SQ201410059965
【公开日】2014年4月30日 申请日期:2014年2月21日 优先权日:2014年2月21日
【发明者】马龙彪 申请人:北京嘉和美康信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1