将可操作属性归于描述个人身份的数据的制作方法

文档序号:6360359阅读:121来源:国知局
专利名称:将可操作属性归于描述个人身份的数据的制作方法
技术领域
本发明涉及数据库搜索,特别是在数据库中搜索与个人身份相关的给定查询最相匹配的记录,该个人身份可以包括期望的和未期望的数据属性,并且提取与查询最相匹配的记录以及解释该匹配过程和结 果的可操作反馈。
背景技术
本部分描述的方法是可以被实行的方法,但不必是先前设想或实行的方法。因此,除非是另有说明,本部分描述的方法对于本申请的权利要求也许不是现有技术,且不被本部分包含的内容承认为现有技术。高效的数据库访问和搜索功能对于为了匹配目的保持在参照数据库中的数据的有效利用是重要的。这一目标的关键是能够高效提取匹配结果,以用一种有效又高效的方式识别和选择匹配结果,及提供可操作反馈的能力。所谓匹配结果即将参考数据匹配查询的结果,该查询包括预期作为查询一部分的个人标识和在前未知的标识。该可操作反馈可用于做出关于匹配结果的使用的业务决策,如用于持续有效的数据管理。具体到识别个体,现有技术考虑具体而有限数量的数据字段,例如给定的名字、姓氏、物理地址和电子邮件地址、职位和别名,或一组未定义的数据组成部分,其可能包括或者不包括关于个体的信息。现有技术一般是基于逐字符的或数学启发式的比较,在考虑到可允许的正交变量,例如拼写特定字的多种方式以及连字符、大小写、字分离、标点符号、已知的缩写和同义词的使用后,其产生基于多个匹配字符或其他基本相关信息的准确性的评判。另外,现有技术假设了查询数据的一种特定结构,且没有考虑到与个体相关的有限的但是时间上无限制的高价值的预测的数据元素的集合或其他衍生标识,而这些已经被验证并合成或集成到个体的数据库,以用于匹配过程。

发明内容
本发明提供了一种方法,该方法包括(a)接收查询以启动对特定个体的数据的搜索,(b)基于该查询,确定策略以搜索一个参考数据库,(c)根据策略,在参考数据库搜索查询的匹配;和(d)输出匹配。该方法也可提供与匹配相关的反馈,其反映了匹配的推断质量,终端用户可用其确定被匹配主体满足终端用户的基于质量的标准的程度。本发明还提供了执行该方法的系统以及包含控制处理器执行该方法的指令的存储介质。处理查询以确认和合成查询标识,包括期望的和非期望的数据组成部分,以评估和选择候选。关于个体的参考数据被保存在数据库,访问、评估和使用该参考数据以识别对查询的匹配。提供匹配结果和可操作数据给查询者或查询系统,包括描述匹配结果相关度的信任指标和属性,以指示用于传播匹配的数据反馈和替代标识反馈。


图I是将可操作属性归于个人身份的数据的方法的功能框图。
图2是应用本发明的系统的框图。
具体实施例方式标识是涉及个人身份的信息。标识包括一个查询的可确认属性,即为该查询的期望组成部分的数据组成部分,例如个人的姓名、地址和出生日期,或在一个查询中被特别定义的数据组成部分,例如通过文件的栏目头或在线应用的特定数据输入字段定义的元数据,其可与其他数据一起使用来唯一地标识个人。标记还可以包括先前没有遇到的属性和替代方法,在该替代方法中,数据值可以如此表示或推断为名字的替代拼写。反馈是关于匹配的信息,反映了匹配过程的推断质量,该推断质量按照查询和匹配候选之间的匹配的信任度的,用于匹配过程的每个数据字段的相对等级,和关于用于匹配查询的数据源的指示。终端用户可用该反馈确定被匹配主体满足最终用户的基于质量的标准的程度,并可基于该反馈驱动不同的操作和管理干预。图I是将可操作属性归于描述个人身份的数据的方法100的功能框图。简而言 之,方法100接收查询103,执行进程115、120、125、130和135以使来自查询103的数据和参考数据库110中的数据匹配,因此产生结果160。方法100利用处理规则104、属性表105和频率表109,并在临时步骤中,产生数据140、属性145、函数150和一个最好的候选155。在此进程115、120、125、130和135中的每一个关于其各自的总体操作被描述。进程115、120、125、130和135中的每一个可以被配置为一个独立的进程或作为从属进程的一
个步骤。查询103是一个请求,该请求启动了对一个有关特定个人的信息的搜索。搜索基于查询103中所包含的标识,并在这方面,查询103包括多个数据元素,该数据元素按照数据字段依次包括关于个人的特定信息,该数据字段是在处理规则104和属性表105中预先定义的可确认属性的全部或子集,也可能包括有关个人的额外的和几乎无限制的标识。查询103可以由人类用户或者由自动化的进程提供给方法100。例如,查询100可以由使用在线数据录入屏幕处理的个人查询导出,或者从使用批处理机能力提交的文件中导出。查询103包括被方法100重新格式化为数据104的数据和方法100用来唯一地识别个体的数据。数据104可包括,例如,如名字、地址、出生日期、社会安全号码和其它形式的身份证明的数据。参考数据库110是一个关于个人信息的数据库,该数据库具有最大程度的个人和专业信息,即关于每个个人的已知属性。进程(未示出)被用于使数据获取资格,该数据其后将被分布在参考数据库110中,这随后可用于匹配目的。通过一组额外的进程(未示出),参考数据库110可被更新以包括已在参考数据库110中表示的关于个人的更多信息,及以包括额外的个人的信息。处理规则104包括自动化的且可重复的业务和元数据规则(迄今为止简称“规贝U” ),该规则基于标准化和归一化进程,其包括语义和数字消歧的逻辑以解释查询值,如不同的字组合(名/中间名/姓或姓/名/中间名,以及各种操作,如包括姓名属性的全部或子集的属性的其他重新排序)、寻址(独立地址或混合的地址组成部分)和不同的日期格式。元数据规则定义每个数据元素的信息,如(a)无论是否为文字的,即字母表中的字母,数字的或文字数字的,即文字和/或数字的,(b)允许的大小,及(C)格式。业务处理规则定义了基于一个或多个数据元素的值发生的活动,如,在后续操作或者计算运行前必须满足的条件。处理规则104中标准化进程的一个例子包括更换街道(street)名称的不同的版本,如“街(St.)”和“街(Strt) ”具有一个共同的一致的值如“街道”。处理规则104中归一化进程的一个例子包括如由“制(mnf)”作为统一的术语代替常见单词或缩写“制造(manufacturing) ”和“制造(mnfctring) ”以方便匹配。一个语义和消歧逻辑的例子包括将一个街道地址分为街道号码和街道名称的单独字段。属性表105是可确认属性的表格,即可以关联能识别个人的数据的数据字段。属性表105还包括定义可确认属性特征的元数据。元数据是关于数据的信息,即,它描述了数据的特性。例如,属性表105可列出的“名”的属性,并且可包含关于名的元数据,其指示名必须是一串字母字符。属性表105也可以使用数据140中的数据更新,以包括先前没有被确认的属性,预测加权和其他信息可以被定义到该属性。当参考数据库110更新时,属性表105中的值将被监测和调整。·频率表109表示在参考数据库110,具有特定属性的特定值的记录的数目。也就是说,频率表109是从参考数据库110生成的,以识别在参考数据库110中特定数据值的发生频率(F)。例如,参考数据库110可能出现5647个以“乔恩(Jon)”作为名,893个以“斯迈思(Smythe) ”为姓,和197个以“乔恩·斯迈思(Jon Smythe) ”作为名/姓的组合。因此,频率表109可以表示(a)名“乔恩(Jon) ”的频率为5647,(b)姓“斯迈思(Smythe) ”频率为893,和(c)名/姓组合为“乔恩·斯迈思(Jon Smythe) ”的频率为197。当参考数据库110中的记录更新时,频率表109更新。方法100从进程115开始。进程115接收查询103,并将来自查询103的标识构造为一种通用格式,即数据140。下面的表I示出数据140的一种典型表示。在表I中,数据140由一示范的数据元素组示出,该数据元素组以如姓名、地址、城市、州、邮政编码和电话号码的期望查询值的示范的通用格式表示。表I
数据140的示范表示活动数据140的典型表示
进程115接收查询乔恩·斯迈思(JonSmythe),总裁103,查询103包括表曼哈顿(Manhattan),第六大道(SixAve) 350号,达为单独数据元素或 7712单元,纽约(NY),10118者数据字段的标识, (917) 555-5555其提供关于个人的特 01271960定信息,进程115产 123-456-7890生数据 140。ismith@abc.com
www.abcllc.com
方法100从进程115进行到进程120。进程120分析数据140以识别特定数据字段,该数据字段与属性表105中的属性相关联以提高从参考数据库110中通过使用单个或者多个这些数据字段识别匹配机会。在这方面,进程120从数据140中提取与对匹配的搜索相关的属性,从而产生属性145。进程120按照处理规则104运行以清理、解析和规范化数据140中展示的输入的查询数据值的所有组成部分。清理包括去除多余的值,如标点符号和其他形式的非有价值的字符,例如电话号码的破折号或分开日期组成部分的斜线。例如,清理格式化为12/13/60的数据值,将得到值 121360。解析包括分割数据140以增加识别查询103的匹配的机会。这可以包括将单独查 询标识解析为多个数据元素,例如,分割格式为MMDDYY的生日121360为单独的元素,其包括月(MM(12))、日(DD(13))和年(YY(60))。解析还可包括合并单独的元素,例如,名(约翰(John))、中间名字或名(Q)、和姓(帕勃里克(Public))成为一个元素,例如,名字(约翰 Q 帕勃里克(JohnQPublic))。规范化包括对数据140关联替代数据,以增加识别匹配的机会。这可能包括对一系列代表州的名称(新泽西(New Jersey);新泽西(N Jersey);新泽西(New Jrsy))的查询值关联一个两字符的值(NJ)。进程120也使用处理规则104以分析和保留来自数据140的信息,该信息之前未遇到过,其目的在于产生新规则,其存储于处理规则104中,在将来执行进程120的期间使用。新规则可基于与现有规则的相似性被自动定义。包含在数据140中,但没有定义在属性表105中的标识,即,附加标识,因此,将被保留以供进程120和125后续使用,并有可能由进程130和135使用以处理从参考数据库110确定的候选。方法100包括保持这些附加标识的自动化的能力,以发展和定义将被填入在属性表105中的属性,并发展将被填入处理规则104中的相关的规则。因此,进程120分析数据140,且如果进程120确认用于某些特定数据的在处理规则104中缺少一个规则,那么该特定数据被存于进程140中并为了分析做上标识。例如,如果查询103包含一个电子邮件地址,以及如果一个电子邮件地址是一个先前未确认的值,因此在处理规则中的规则104中不具有对应规则,处理规则104可被一个更新进程(未示出)更新,以保留该电子邮件作为一个新的标识,其可能会成为一个确认的属性。下面,表2不出了处理规则104的一种不范的表不,表3不出了属性145的一种不范的表示。处理规则的例子包括(i)将数据140名称字段划分为单独的名和姓字段,(ii)将数据140地址字段划分为单独的街道号和街道名字段,和(iii)将数据140出生日期字段划分为单独的月、日、和年字段。灵活的标识包括来自数据140的数据,该数据先前未被识别为期望为查询的一部分的数据,但其应由处理规则104为将来的匹配过程而保留。这包括可基于模板分类的数据和自由格式数据。表2处理规则104的示范的表示 规则示范的结果
元数据规则(例子)
名字解析完整的查询名字为名乔恩(Jon)
单独的名和姓值,去除不相关姓斯迈思(Smythe)
的值
地址解析全部查询地址值为街道地址号350 单独值,标准化值以得到“城街道地址名第六大道(SixthAve) 市”,清理邮政编码替代的街道地址名6th (基于处理规则104中的替代逻辑确定)
地址2: 7712单元
替代的地址2: 7th层(基于处理规则 104中的替代逻辑确定)
城市纽约(NewYork)(代替“曼 哈顿(Manhattan) ” ,后者不是城市) 州纽约(NY)
邮政编码10118 (去除“A”作为假 定的不相关数据)
业务规则(例子)
出生日期(DOB)解析完整出生日期/月01 (代替“一月(Jan)”) 的出生日期值为单独的日、月、出生日期/日27 年值,标准化以用于处理出生日期/年60 灵活的标识
基于格式的假定值Email :j smith@abc.com表 3属性145的示范的表示
属性值
可识别属性
名乔恩(Jon)
姓斯迈思(Smythe) 街道地址号350
街道地址名第六大道(SixthAve)
地址27712单元
城市纽约(NewYork)
州纽约(NY)
邮政编码10118
电话(917) 555-5555
出生日期/月01
出生日期/曰27
出生日期/年60
移动电话号码1234567890
灵活的标识
电子邮件jsmith@abc.com
职位总裁
公司网页地址(URL)www.abcllc.com例如,按照表2,处理规则104表示名字被解析为单独的名和姓值。因此,“乔恩 斯迈思(Jon Smythe) ”被解析以产生名“乔恩(Jon) ”和姓“斯迈思(Smythe) ”,并存储如所示的表3中。方法100从进程120进行到进程125。进程125与属性表125连接以进一步描述属性145,来开发函数150。对于属性145中的每一个属性,进程125基于在识别一个个体中属性的影响的相关值分配一个权重,从而产生一个加权属性,其中该权重表示该属性在找到数据140的匹配中的有效性。例如,这个确定将包括如属性表105定义的加权,其提供一个静态加权,如名字相比地址具有更高的权重,以及相对于属性表105定义的其他填入的字段,如就业开始时间的加权具有更大的值,当其比出生日期最少大18年时,并且基于属性表中105定义的一个字段的实际数据值的加权,如,一个诸如伊拉兹马斯(Erasmus)的不寻常的名字,比诸如约翰(John)的较常见的名字有更大的权重。这项分析还考虑属性145中数据字段的代替值,如首字母缩写词和替代拼写(例如,乔恩(Jon)和乔纳森(Jonathan)作为名)。除了属性的静态加权,属性表105基于用于其他属性的数据值的存在或不存在以及推断的预测,分配调整的加权。例如,如果没有用于姓的数据,名的权重也较小,以及街道号和名的组合分别地比这两个字段有更大的权重。
进程125确定搜索参考数据库110的最优策略,并在函数150中表示该策略,函数150在此表示为f(x)。更具体地说,进程125从属性表105获取权重(W),从频率表109获取频率(F),对于每个属性(X)计算预测的加权(K),其中K = WXF,从而产生K(x),其中K(x)是属性X的预测加权。函数150可基于属性的不同组合计算f(x)的多个值,例如姓和出生日期或名/姓和出生日期,进程125使用其结果以确定最优搜索策略略。函数150具有下面的一般格式f(x) = 字段 1>+K2〈字段 2>+K3< 字段 3>+…+KN〈字段 N〉,其中对属性145的每一个组成部分计算K。下面,表4不出了属性表105的一个不范的表不,表5不出了频率表109的一个不范的表示。
表 4
属性表105的示范的表示 属性元数据权重(W)
可识别属性
名文字的0.25
姓文字的0.5
街道地址号文字数字的0.4
街道地址名文字的0.8
地址2文字数字的0.25
城市文字的0.9
州文字的0.9
邮政编码文字数字的0.75
电话数字的0.5
出生日期/月数字的0.3
出生日期/日数字的0.2
出生日期/年数字的0.5
移动电话号码数字的I
灵活的标识
Email文字数字的I
职位文字数字的0.2
公司网页地址文字数字的0.7
属性组合
名/姓文字的0.9
出生日期/月日年数字的0.7
在表4的示例中,属性表105中包括属性“名”、指定该名必须是文字字符串的元数据,且对于该名,权重(W) = O. 25。权重(W)表示数据140中表示的查询103中的属性的相关影响,以从参考数据库110中识别匹配。在表4的示例中,当属性具有值W= 1,该属性被认为是一个匹配的更好的预测,相较于权重值小于I的属性。例如,如果查询103包括一个个人移动电话号码,这是一个具有可被认为是唯一值的属性,对于匹配过程,个人的移动电话号码将比姓具有更大的影响,姓很可能具有更常见的值。表权利要求
1.一种方法,包括 接收查询以启动对关于特定个人的数据的搜索;基于所述查询确定策略,以搜索参考数据库;根据所述策略,在所述参考数据库搜索所述查询的匹配;以及输出所述匹配。
2.如权利要求I所述的方法, 其中,所述的确定所述策略包括 从所述查询提取与所述搜索相关的属性; 为所述属性分配权重,从而生成加权属性,其中所述权重表示在找到所述查询的匹配中所述属性的效能;以及 基于所述加权属性,建立函数,并且 其中,所述搜索包括 基于所述函数,从所述参考数据库提取具有表示可能匹配所述查询的属性值的候选; 从所述候选中确定最佳候选;以及 返回所述最佳候选作为所述匹配。
3.如权利要求2所述的方法, 其中,所述查询包括对所述属性的查询值,以及 其中,所述建立包括 修改所述权重为所述参考数据库中多个记录的函数,所述记录对所述属性具有所述查询值。
4.如权利要求I所述的方法,还包括输出所述匹配为所述查询的合适匹配的信任度的指标。
5.如权利要求4所述的方法,其中,所述指标指示用来形成关于所述信任度的评判的参考数据。
6.一种系统,包括 处理器;以及 包含指令的存储器,当所述指令被所述处理器读取时,使所述处理器 接收查询以启动对关于特定个人的数据的搜索; 基于所述查询确定策略,以搜索参考数据库; 根据所述策略,在所述参考数据库搜索所述查询的匹配;以及 输出所述匹配。
7.如权利要求6所述的系统, 其中,为了确定所述策略,所述指令使所述处理器 从所述查询提取与所述搜索相关的属性; 分配权重给所述属性,从而生成加权属性,其中,所述权重表示在找到所述查询的匹配中所述属性的效能;以及 基于所述加权属性建立函数,并且 其中,为了搜索所述参考数据库,所述指令使所述处理器 基于所述函数,从所述参考数据库提取具有表示可能匹配所述查询的属性值的候选; 从所述候选确定最佳候选;以及返回最佳候选作为所述匹配。
8.如权利要求7所述的系统, 其中,所述查询包括对所述属性的查询值,以及 其中,为了建立所述函数,所述指令使所述处理器 修改所述权重为所述参考数据库中多个记录的函数,所述记录对所述属性具有所述查询值。
9.如权利要求6所述的系统,其中,所述指令还使所述处理器输出所述匹配为所述查询的合适匹配的信任度的指标。
10.如权利要求9所述的系统,其中,所述指标指示用来形成关于所述信任度的评判的参考数据。
11.一种存储介质,包括指令,当所述指令被所述处理器读取时,使所述处理器 接收查询以启动对关于特定个人的数据的搜索; 基于所述查询确定策略,以搜索参考数据库; 根据所述策略,在所述参考数据库搜索所述查询的匹配;以及 输出所述匹配。
12.如权利要求11所述的存储介质, 其中,为了确定所述最优策略,所述指令使所述处理器 从所述查询提取与所述搜索相关的属性;并 分配权重给所述属性,从而生成加权属性,其中,所述权重表示在找到所述查询的匹配中所述属性的效能;以及 基于所述加权属性建立函数,并且 其中,为了搜索所述参考数据库,所述指令使所述处理器 基于所述函数,从所述参考数据库提取具有表示可能匹配所述查询的属性值的候选; 从所述候选确定最佳候选;以及 返回最佳候选作为所述匹配。
13.如权利要求12所述的存储介质, 其中,所述查询包括对所述属性的查询值,以及 其中,为了建立所述函数,所述指令使所述处理器 修改所述权重为所述参考数据库中多个记录的函数,所述记录对所述属性具有所述查询值。
14.如权利要求11所述的存储介质,其中,所述指令还使所述处理器输出所述匹配为所述查询的合适匹配的信任度的指标。
15.如权利要求14所述的存储介质,其中,所述指标指示用来形成关于所述信任度的评判的参考数据。
全文摘要
本发明提供了一种方法,包括(a)接收查询以启动对特定个人的数据搜索,(b)基于所述查询确定策略和灵活的预测方程,以搜索参考数据库,(c)根据所述策略,在所述参考数据库搜索所述查询的匹配,以及(d)输出所述匹配。该方法也输出与匹配相关的灵活的反馈,其反映了匹配过程的推断质量,终端用户可使用该反馈以确定被匹配主体满足终端用户的基于质量的标准的程度。本发明还提供了一种执行该方法的系统,和一种包含控制处理器执行该方法的指令的存储介质。
文档编号G06F17/30GK102971729SQ201180021956
公开日2013年3月13日 申请日期2011年4月14日 优先权日2010年4月14日
发明者安东尼·J·斯科里费希尼亚诺, 迈克尔·克莱恩 申请人:邓白氏公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1