一种患者身份识别与匹配的方法

文档序号:6559380阅读:1065来源:国知局
专利名称:一种患者身份识别与匹配的方法
技术领域
本发明涉及一种医疗数据库中患者身份信息的识别和匹配的方法。
背景技术
随着互联网技术的不断发展、信息技术的逐渐成熟以及病患就医记录的不断增加,使得各家医疗机构需要对原有的患者信息进行整合,在整合过程中需要将同一患者的不同医疗信息进行合并。目前,医疗健康领域开展患者身份信息整合时,一般都是采用ETL 手段建立一个集中的患者身份库,然后取代原系统中患者身份库。ELT是Extraction-Tra nsformation-Loading的缩写,中文名称为数据提取、转换和加载,ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成, 最后加载到数据仓库或数据集市中。这样做的弊端是对原有系统冲击较大,也容易造成单点故障。

发明内容
本发明的目的是提供一种对原有系统冲击较小的整合患者数据的方法。为了达到上述目的,本发明的技术方案是提供了一种患者身份识别与匹配的方法,其特征在于,步骤为
步骤1、定义用来作为患者身份识别和匹配的信息项,根据信息项的重要程度为每个信息项分配一个权重,所有信息项的权重的和必须等于1 ;
步骤2、 从待匹配的身份信息库中取出第
ι条待匹配的身份信息 ,并从基准库中取出第j条基准信息 ·,若身份信息 或基准信
息^/中的某些信息项缺失,则判断缺失的信息项的权重是否较重,若较重则直接判定为不相似,否则将该信息项的权重按比例分配到其他未缺失的信息项上后进入步骤3 ;
步骤3、计算待匹配的身份信息库中的第i条待匹配的身份信息
与基准库中的第J条基准信息Cj之间的相似度―呢;,
W
Smnk^fy(ChCj) = HSimtlaniy(C^U),其中,吣为信息项的总数、为第个信息项
Jt-ih\k
所对应的权重,Smuhxnfy(P如CA指第纟条待匹配的身份信息C;与基准库中的第J条基准
信息G的第ζ个信息项之间的相似度,该相似度事先通过人工设定;
步骤4、若相似度S^^imiHC^C^)等于1,则直接将第纟条待匹配的身份信息Cs与基准
库中的第J条基准信息合并,若相似度小于0.5,则两条信息具备相关性,不进行匹配, 在其他情况下,在人工干预下将两条信息进行匹配。本发明提供的一种方法不用完全取代原系统中患者身份库,因此对原有系统冲击较小,不易造成单点故障。
具体实施例方式以下结合实施例来具体说明本发明。 实施例本发明提供了一种患者身份识别与匹配的方法,步骤为
步骤1、定义用来作为患者身份识别和匹配的信息项,根据信息项的重要程度为每个信息项分配一个权重,所有信息项的权重的和必须等于1,其中,所述的信息项包括姓名、姓名拼音、性别、出生日期、身份证号、居住地址、电话号码及手机号码,居住地址采用多级停用词进行划分,其步骤为
步骤1. 1、定义地址信息框架,地址信息框架由地址信息项组成,地址信息项包括省、 市、区/县、镇/乡/街道、村/路/街/巷、弄/队、户/号/幢及室;
步骤1. 2、将医院采集的患者地址信息通过至少一级停用词划分为不同的地址信息段, 停用词是指在需要分割的文本中经常出现,可作为词语之间的间隔标识的词;
步骤1. 3、根据地址信息段的停用词和地址信息框架各个地址信息项的对应关系,将地址信息段中的非停用词部分填入相应的地址信息项中;
步骤2、对待匹配的身份信息库及基准库中的身份信息采用关键信息项排序的方法进行分组,其步骤为若相似的身份信息所包含的某个信息项ItemA—定是相等的,则按信息项ItemA对身份信息进行排序,排序完成后具有相同信息项ItemA的身份信息聚集成若干个组,然后在各个组内再进行身份信息的两两比对即可;
步骤3、从待匹配的身份信息库中取出第3条待匹配的身份信息Q ,并从基准库中取出
第j条基准信息c},若身份信息 或基准信息 ·中的某些信息项缺失,则判断缺失的信
息项的权重是否较重,若较重(例如权重超过0.5)则直接判定为不相似,否则将该信息项的权重按比例分配到其他未缺失的信息项上后进入步骤4 ;
步骤4、计算待匹配的身份信息库中的第i条待匹配的身份信息 Ci与基准库中的第j条基准信息Ci之间的相似度
权利要求
1.一种患者身份识别与匹配的方法,其特征在于,步骤为步骤1、定义用来作为患者身份识别和匹配的信息项,根据信息项的重要程度为每个信息项分配一个权重,所有信息项的权重的和必须等于1 ;步骤2、 从待匹配的身份信息库中取出第2条待匹配的身份信息Ci,并从基准库中取出第年基准信息C^·,若身份信息Ci或基准信息C/中的某些信息项缺失,则判断缺失的信息项的权重是否较重,若较重则直接判定为不相似,否则将该信息项的权重按比例分配到其他未缺失的信息项上后进入步骤3 ;步骤3、计算待匹配的身份信息库中的第i条待匹配的身份信息 与基准库中的第条基准信息 ·之间的相似度 Μ ^ζκ ,σ^),,其中力信息项的总数、为第t个信息项所对应的权重,Smnknty(P^Cjk)指第2条待匹配的身份信息Ci与基准库中的第J条基准信息的第A个信息项之间的相似度,该相似度事先通过人工设定;步骤4、若相似度脑肌喊巧等于1,则直接将第、年待匹配的身份信息'二与基准库中的第J条基准信息^合并,若相似度小于0. 5,则两条信息具备相关性,不进行匹配,在其他情况下,在人工干预下将两条信息进行匹配。
2.如权利要求1所述的一种患者身份识别与匹配的方法,其特征在于步骤1中所述的信息项包括姓名、姓名拼音、性别、出生日期、身份证号、居住地址、电话号码及手机号码。
3.如权利要求2所述的一种患者身份识别与匹配的方法,其特征在于所述居住地址采用多级停用词进行划分,其步骤为步骤1. 1、定义地址信息框架,地址信息框架由地址信息项组成,地址信息项包括省、 市、区/县、镇/乡/街道、村/路/街/巷、弄/队、户/号/幢及室;步骤1. 2、将医院采集的患者地址信息通过至少一级停用词划分为不同的地址信息段, 停用词是指在需要分割的文本中经常出现,可作为词语之间的间隔标识的词;步骤1. 3、根据地址信息段的停用词和地址信息框架各个地址信息项的对应关系,将地址信息段中的非停用词部分填入相应的地址信息项中。
4.如权利要求1所述的一种患者身份识别与匹配的方法,其特征在于在步骤2之前, 还需要对待匹配的身份信息库及基准库中的身份信息采用关键信息项排序的方法进行分组,其步骤为若相似的身份信息所包含的某个信息项ItemA—定是相等的,则按信息项 ItemA对身份信息进行排序,排序完成后具有相同信息项ItemA的身份信息聚集成若干个组,然后在各个组内再进行身份信息的两两比对即可。
全文摘要
本发明提供了一种患者身份识别与匹配的方法,其特征在于,步骤为首先定义用来作为患者身份识别和匹配的信息项,根据信息项的重要程度为每个信息项分配一个权重;随后计算两个待匹配的身份信息与基准信息之间的相似度,通过得到的值判断是否将两条信息进行匹配。本发明提供的一种方法不用完全取代原系统中患者身份库,因此对原有系统冲击较小,不易造成单点故障。
文档编号G06F17/30GK102314478SQ201110186618
公开日2012年1月11日 申请日期2011年7月5日 优先权日2011年7月5日
发明者浮光纪, 肖筱华, 陈诚 申请人:万达信息股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1