基于变体标记网络的数据分群的制作方法

文档序号:6497954阅读:289来源:国知局
基于变体标记网络的数据分群的制作方法
【专利摘要】接收数据记录,每个都包括一个或多个字段中的一个或多个值,对所接收的数据记录进行处理以识别一个或多个数据群,该处理包括:识别(110)多个标记,所述标记中每个都包括一字段或字段组合中的至少一个值或值的片段;生成(120)表示所识别的标记的网络,所述网络的节点表示标记而所述网络的每个边表示标记之间的变体关系;以及用至少部分基于与节点关联的值区分的不同节点子组来生成所述网络的图形表示,其中与特定节点关联的值对该特定节点所表示的标记在所接收的数据记录内出现的实例数目计数加以量化。
【专利说明】基于变体标记网络的数据分群
[0001]相关申请的交叉引用
[0002]本申请要求2011年11月15日所提交美国专利申请第61/560257号和2012年6月15日所提交美国专利申请第61/660259号的优先权,二者中每个都通过引用合并于此。
【背景技术】
[0003]本说明书涉及基于变体标记网络的数据分群。
[0004]数据分群是这样一种方法,通过该方法将大体类似的信息用共享的标识符来标注,从而可使该信息后续在被处理时就像这些信息已经一起汇聚在同一位置那样。该信息可包括各种类型的信息,例如,诸如财务数据或医保记录等等。每个群(在多个群组成的一组中)包括已经被确定为符合一些类似性标准的多个数据单元(例如,文档、数据库记录、或其他数据对象)。一些技术属于“离线”技术,其将数据单元按批处理以生成群或添加至已有群。一些技术属于“在线”技术,其对数据单元按照接收这些数据单元的方式进行增量式处理。群可以是分级的,此时一个级别上的给定群自身在另一级别上被划分成多个群。在一些情况下,群对应于一个分区的数据单元,其中每个数据单元恰好是其中一个群,而在一些情况下,群可与属于一个以上群的其中一员的数据单元叠合。

【发明内容】

[0005]在一个方案中,一般而言,一种方法包括:接收数据记录,所接收的数据记录中每个都包括一个或多个字段中的一个或多个值;以及处理所接收的数据记录以识别一个或多个数据群。该处理包括:识别多个标记,所述标记中每个都包括一字段或字段组合中的至少一个值或值的片段;生成表示所识别的标记的网络,所述网络的节点表示标记而所述网络的每个边表示标记之间的变体关系;以及至少部分基于与节点关联的值来生成不同节点子组被加以区分的所述网络的图形表示,其中与特定节点关联的值对该特定节点所表示的标记在所接收的数据记录内出现的实例数目计数加以量化。
[0006]这些方案可包括以下特征的其中一个或多个。
[0007]如果两个标记之间的距离在一阈值以下则该两个标记具有变体关系。
[0008]至少一个子组包括第一节点和通过遍历与比关联于所述第一节点的值相等或更低的值相关联的节点连接的边所得到的节点。
[0009]至少一第一子组包括至少一个与一标记关联的节点,该标记是由所述第一子组中其他节点表示的标记的代表。
[0010]识别一数据群以关联于第一接收数据记录包括用所述第一接收数据记录的代表标记来取代所述第一接收数据记录中的至少一个标记。
[0011]识别至少一个节点,该至少一个节点与比所述第一组中其他节点相关联的值的平均值大过多于一预定阈值的值关联。
[0012]该方法还包括确定所识别的节点中通过一边直接彼此连接的任意两个节点。
[0013]该方法还包括接收来自用户的输入或将预先确定的规则应用于所述网络以通过在两个节点之间添加边或移除两个节点之间的边来修改所述网络。
[0014]该方法还包括在用户界面中显示所述网络的可视化表示,以及可视化地指示与所述节点关联的所述值。
[0015]该方法还包括通过所述用户界面接收所述输入。
[0016]在另一个方案中,一般而言,一种计算机程序,存储在计算机可读存储介质上。所述计算机程序包括指令,该指令用于使计算机系统:接收数据记录,所接收的数据记录中每个都包括一个或多个字段中的一个或多个值;以及处理所接收的数据记录以识别一个或多个数据群。该处理包括:识别标记,所述标记中每个都包括一字段或字段组合中的至少一个值或值的片段;生成表示所识别的标记的网络,所述网络的节点表示标记而所述网络的每个边表示标记之间的变体关系;以及至少部分基于与节点关联的值来生成不同节点子组被加以区分的所述网络的图形表示,其中与特定节点关联的值对该特定节点所表示的标记在所接收的数据记录内出现的实例数目计数加以量化。
[0017]在另一个方案中,一般而言,一种计算机系统,包括:输入装置或端口,被配置为接收数据记录,所接收的数据记录中每个都包括一个或多个字段中的一个或多个值;以及至少一个处理器,被配置为处理所接收的数据记录以识别一个或多个数据群。该处理包括:识别多个标记,所述标记中每个都包括一字段或字段组合中的至少一个值或值的片段;生成表示所识别的标记的网络,所述网络的节点表示标记而所述网络的每个边表示标记之间的变体关系;以及至少部分基于与节点关联的值来生成不同节点子组被加以区分的所述网络的图形表示,其中与特定节点关联的值对该特定节点所表示的标记在所接收的数据记录内出现的实例数目计数加以量化。
[0018]在另一个方案中,一般而言,一种计算机系统,包括:用于接收数据记录的装置,所接收的数据记录中每个都包括一个或多个字段中的一个或多个值;以及用于处理所接收的数据记录以识别一个或多个数据群的装置。该处理包括:识别多个标记,所述标记中每个都包括一字段或字段组合中的至少一个值或值的片段;生成表示所识别的标记的网络,所述网络的节点表示标记而所述网络的每个边表示标记之间的变体关系;以及至少部分基于与节点关联的值来生成不同节点子组被加以区分的所述网络的图形表示,其中与特定节点关联的值对该特定节点所表示的标记在所接收的数据记录内出现的实例数目计数加以量化。
[0019]这些方案可具有以下有益效果的其中一个或多个。
[0020]当对大规模数据加以分群时,限制性能和扩展性的主要因素之一是在记录之间为确定哪些在适当距离测量下是接近的所需要进行的运算量。简单的多对多比较与待分群的记录数目成平方比例关系。
[0021]改善的途径是,在进一步进行附近记录的计分之前通过新查询记录必须接近的代表记录增量式地发现群并表示每个群。发现查询记录属于新的群与不同群的数目成平方比例,因为在可创建新群之前必须首先检查每个已有群的代表。对于大量的不同群,这在对商业中客户数据库内个体或家庭进行分群时是常见的,该途径变得难以维系。
[0022]这里描述的数据分群方法在进行任何高成本的比较之前使用搜索处理以在近似距离测量下确定查询记录与任一已有群是否足够接近。这将之前查询记录作为新群第一记录的方法中的最糟情况转化成最佳情况。如果该查询记录与已有记录的重叠不足,其将不从搜索中返回候选项记录,并且其必定是新群的成员。[0023]这里描述的数据分群方法使用基于扩展自初始查询的数个查询组合的紧缩目标式搜索。多重查询使得查询词的变体匹配能够在搜索期间并且对于来自字段中多个标记或者来自记录中多个字段的同时查询而被检测到。搜索寻求从充当已有群的代表的主记录组找到匹配候选项匹配标准的候选项记录。搜索目录(indices)可在批处理模式下针对全数据组预计算出来,或者可在增量模式下累积填充。在批处理模式下,搜索目录可包含位向量形式的用于匹配记录的位置信息。这有助于布林运算(Boolean computation)以结合多重搜索的结果。
[0024]候选项匹配标准可按搜索码来规划(formulate),搜索码是对搜索组合的定性结果(例如对于客户的搜索是否具有姓氏和城市二者的匹配)进行编码的码。与每个搜索码关联的样本记录可被提取以辅助用户调整候选项匹配标准。搜索码在一些实施方式中还能够实现整个候选项匹配标准作为搜索结果的布林表达,使得即使在标记仅需近似匹配时搜索也非常快。
[0025]在找到匹配候选项匹配标准的候选项记录之后,来自于该候选项记录关联的每个群的代表记录被调出用于与查询记录的详细比较。使用成本更高的距离测量来用于这一比较。与搜索码类似,匹配码被构造以定性地总结该比较,包括在每对经过比较的个体字段或者字段组合与经过比对的个体字段或字段组合的填充状态之间的定性匹配,指示特定字段例如是否为空的、空白或填充的。在由匹配码分群之后可累积统计以量化质量变化的匹配数目。还可提取固定数目的样本记录关联于每个匹配码以辅助用户判定不同种类匹配的质量以及反复调整用于比较记录的比较功能由此以改变匹配输出。记录填充特征与匹配输出质量之间的关联还可由匹配码推导出来。
[0026]查询记录与来自候选项群的代表记录之间的详细比较组可被分析以找到某一匹配阈值以上的最佳匹配配对。如果没有匹配阈值以上的最佳匹配配对,则使该查询记录作为新群的第一个记录。如果有一个匹配阈值以上的最佳匹配配对,则将该查询记录添加至对应群。如果有一个以上与不同已有群的匹配阈值以上的匹配配对,则将该查询记录添加至与最佳匹配配对关联的群,但可选群的组要被记录以供用户检查使用。
[0027]在已经做出群成员身份决策并且所有查询记录已经被分配给群之后,用户可检查群记录的网络并参加群认可处理。模糊匹配被标志给用户以用于检查。用户可选择确认其群内的任意记录,在这种情况下如果该记录已被再次提交给群则其将收到同一群id,而无需经历分群处理。这符合业务需求,如果用户已经手动确认记录在正确分区内,则该决策必须坚持。
[0028]用户可选择将一记录排除在已经放置了该记录的群之外。在接续的群运行中,该记录被阻止分配给该群,并将被分配给由算法确定的下一最佳群。
[0029]用户可选择将一记录映射至新群。在接续的分群运行中,该记录将被分配给新群。任何未经确认的记录可添加新群的该记录,只要它们与接近其他已有群中的记录相比要更接近该记录。类似地,用户可将选择的记录重映射至不同的已有群,其中该记录还未由分群处理放置。在接续的运行中,选择的该记录将被放置在所选取的群中并且接近该记录的任何(未经确认)的记录将与选择的该记录一起移动至该选取的群。这使用户能够将重映射少量选择的个体记录并允许进行重新群以重映射与所选择记录密切相关的所有记录。
[0030]该认可处理通过提取受用户的修改影响的所有记录并经分群处理对它们重运行来加以促进。得到的数据群与之前的数据群有所不同,且为用户显示该结果。然后用户可选择紧接着在刚作出的分群之上应用进一步的修改并且重复或丢弃这些修改以及从头重新开始该认可处理。整个认可处理可在临时工作区中执行,并且在处理完成且用户满意时,引导该群处理的作为基础的分群库可发布返回至持续生成区(persistent productionarea)。
[0031]这里所描述数据分群处理的进一步有益效果在于,批处理模式的分群能够在初始数据组上做出而将来的数据可使用增量模式添加至已有群,而无需对整个积累的数据组重新群。这满足了个体记录的群成员身份不随着新数据到来而改变的业务预期和需求。除非未经确认的记录就像它们在群认可处理期间那样被重处理,否则它们对于个体群的分配无法改变。
[0032]跨国机构能够在很多国家存储关于个体的信息。这些国家可能具有限制如何使用及出口数据到其他国家的数据隐私法律或规定。该数据隐私法律可保护包括社保记录和财务记录等各种不同类型的数据。一些国家的数据保护法律阻止将数据出口至任一其他国家。在其他国家中,这样的法律允许将数据出口至某些国家而阻止将数据出口至其他国家。如这里使用的,限制数据流向任一其他国家的国家被称为禁止数据出口国,限制数据流向有选择性国家的国家被称为选择性数据出口国,并且限制性的数据出口国将用来统称为禁止数据出口国和选择性数据出口国。
[0033]与此同时,请求国可请求所选择的信息可在它们的司法管辖下由实体访问。例如,美国(在该示例中为请求国)可请求在其司法管辖下的全球金融机构提供与有关人士关联的银行账户的清单;然而,所请求的数据可能位于瑞士(在该示例中为限制性数据出口国)。
[0034]这里描述的技术可用来在请求国中使用限制数据出口国中的记录对与有关人士关联的记录进行分群而无需从这些国家出口数据。
【专利附图】

【附图说明】
[0035]图1A为示出分群处理的框图。
[0036]图1B为示出涉及受限数据出口国的分群处理的视图。
[0037]图1C为示出分群引擎的框图。
[0038]图1D为示出候选项搜索引擎的框图。
[0039]图1E为示出变体剖析器(variant profiler)的框图。
[0040]图1F为示出变体网络分析器(analyzer)的框图。
[0041]图1G为示出分群认可引擎的框图。
[0042]图2A-图2D示出变体搜索过程的示例。
[0043]图3A示出变体网络的示例。
[0044]图3B示出填充标记代表库(token-representative store)的处理的示例。
[0045]图4为用于使用重复分段来并行化分群的处理的示例的流程图。
[0046]图5A-图5C不出使用重复分段的并行分群的不例。
[0047]图6示出通过自然键来分区而生成并行代理键的示例。
[0048]图7A-图7D示出从多个字段搜索问询的示例。[0049]图8示出使用删除-添加过程来实施变体查找过程的示例。
[0050]图9为用于增量模式的分群处理的示例流程图。
[0051]图1OA-图1OD示出增量模式的分群的示例。
[0052]图1lA-图1lB为用于批处理模式的分群处理的示例流程图。
[0053]图1lC示出用于匹配已有群的一个成员的查询记录的群成员身份决策处理的示例。
[0054]图1lD示出用于匹配一个以上已有群的成员的查询的群成员身份决策处理的示例。
[0055]图12为调和多重匹配的处理示例的流程图。
[0056]图13A-图13C示出调和多重匹配的示例。
[0057]图14A-图14B为分群认可处理的示例的流程图。
[0058]图15A-图15C为在一个系统上发起并在一远程系统上继续的分群示例的流程图。
【具体实施方式】
[0059]I 综述
[0060]1.1基于搜索的分群处理综述
[0061]参考图1A,数据处理系统10用于对来自数据源100的数据进行分群。在一些实施方式中,由数据处理系统10执行的分群处理分析出现在数据内的标记(token),这些标记被组织为在各个字段具有多个值的记录(也称为“属性”或“栏目”),这些值可能包括空值(null value)。一个标记是一个字段或多个字段组合中的至少一个值或值的片段。用户102使用用户界面104来监测并控制分群处理的各个方面,包括:接收对于在数据源100的所选字段(或多个字段的组合)以及它们之中变体关系网络中收集的值、标记、及其变体的通报(可能既有表格式的又有图形式的);创建并维护业务规则以识别变体标记、类似短语(即,多标记单元)和类似记录,从而找到并解决模糊或假性肯定的匹配的标记、短语或记录,且进行将每个记录分配至一个或多个群的群成员身份决策;以及检查、修改、并认可变体网络连接和群成员身份决策。
[0062]数据源100 —般包括多个个体数据源,也称为数据组,每个个体数据源可具有独特的存储格式和接口(例如,数据库表,表单文件,纯文本文件,或者由主机使用的本机格式)。这些个体数据源对于分群系统10而言可以是本地的,例如,托管(host)在同一计算机系统上;或者对于分群系统10而言可以是远程的,例如,托管在通过局域网或广域网被访问的远程计算机上或者通过云网络服务访问分群系统10或被分群系统10访问的远程计算机上。
[0063]数据源中的数据可被组织为一个或多个记录,每个记录包括一个或多个包含多个值的字段,每个值由字符串或二进制值组成。该字符串可为单字节或多字节的字符,例如ASCII或Unicode。二进制数据可包括诸如整数等数字或者诸如图像数据等原始和/或压缩数据。
[0064]读取自数据源100的数据由变体剖析器(variant profiler) 110处理。变体剖析器110识别标记(例如,基于预定规则)及对数据中特定标记的出现计数(例如其中出现特定标记的记录的数目),并在一些实施方式中存储识别其中出现特定标记的具体记录的信息。通过例如编辑距离、语音类似性、或者共享字符序列的测量(例如,“eqty fnd”类似于“equity fund”,因为前者中所有字符都按相同的顺序出现在后者中),变体剖析器110还基于一些类似性得分识别出不同识别标记对(互为变体)(称为“变体标记对”)。例如通过提供单词词典、同义词和缩写词列表、用户提供的变体配对(例如公司特有的同义词、缩写或缩略词)、或者名称(例如,昵称、变体拼写、外国名称的变体音译等等)的文化类变体配对,外部数据106可用来丰富或修改由变量剖析器110使用类似性得分而识别的标记和变体标记对的组。这些列表可在原数据组中添加不存在的标记,或者在类似性不关联的标记之间创建变体配对。外部数据106还可用于修改与变体配对关联的得分(此时得分用来指示紧密度,这能够被用来改变标记之间的表观距离(apparent distance)),从而打断变体配对(例如,在仅偶然类似的字典单词之间),或者移除标记。
[0065]标记的示例为字段中的单词(没有空格的字符串),该字段的值包括由空格隔开的多个单词,例如,从包含全名的字段中取的个人名字,或者街道地址(可能由连在一起的多个字段形成)中的单词。标记可能包含空格,例如城市名“New York(纽约)”。标记可为数字值(可能是二进制),类似政府标识符(id)或账单号。标记可为字符串值或数字值的片段,诸如删除了一个字符的字符串,去除了一位的数字,或者由取自字符串或数字的连续序列的η个字符组成的连词。标记可能为二进制字段的片段,例如与图像中一区域对应的数据。
[0066]由变体剖析器110识别的变体标记的配对(成为变体标记对)限定变体网络,其中每个标记由一节点表示或者由与表示这些标记的节点之间的边对应的变体标记之间的配对表示。该变体网络可由变体网络分析器120分析。典型的网络可包括多个连接组件的汇聚,其中每个连接组件的节点都由边连接至该组件中的另一节点,但不同组件中没有节点互相连接。连接的组件是由边连接的节点的闭合组。通过限定,不同的连接组件是不相交的(disjoint)。变体网络分析器120可识别网络的连接组件的汇聚,并且可将一个或多个标记代表与变体网络的连接组件内的每个标记相关联。在多个量值中,表征变体网络节点的是从数据组中所有记录取自所选字段(或者字段的组合)的关联标记的实例的计数,以及分别地,与标记配对的变体数目对应的标记的度(或者配位数),也即连接表示该标记的节点的边数目。
[0067]用户102可在用户界面104中查看标记(特别是在单个连接组件内的那些标记)的变体配对的网络的图形表示。变体网络的连接组件的特定子组可以是所关注的并且可选择地在图形表示中加以突出。例如,考虑未与具有高计数的节点连接的那些节点。在一些实施方式中,这些节点可被选择作为该连接组件的标记代表的汇聚。通过遍历仅与相同或较少计数的节点连接的边而得到的节点树所组成的子网络可称为标记代表的典型邻居(canonical neighborhood)。典型邻居中的所有节点可由其标记代表表示。典型邻居可重叠。相应地,如果其自身并非标记代表,则该标记可与一个以上的标记代表相关联。这会帮助用户102能够通过图形用户界面104可视化典型邻居及其重叠。
[0068]与所选标记配对的变体标记的组称为所选标记的本地邻居。该所选标记称为本地邻居的主位(primary)。在图形显示中,本地邻居是通过边与所选(主位)节点连接的节点组。标记的度(或者图形意义(sense)中的配位数)是本地邻居的大小(减去I以排除标记自身)。所选标记的显著性被计算为所选标记本地邻居中每个标记出现的计数总和除以包含至少一个标记的记录数目(在给定的源和字段或者所选标记出现的语境中)的比率的对数。该显著性允许不同标记的相对重要性得以比较:具有较高显著性的标记出现在较少的记录中并且因此在搜索中使用时会更为突出。
[0069]在一些实施方式中,通过统计测试而被识别为有特色的那些标记(例如计数超过本地邻居中标记计数的平均和标准差的总和的那些标记)可被识别为“(本地)正标记”(对于典型邻居或者实际上任意邻居中的标记可进行类似识别)。对于由公司或个人名称中个别单词形成的标记,正标记在统计上可能为“实际”单词或名称,而不会说成是错误形成的印刷变体。也即,该标记出现的频率足够高以至于,在数据组内其邻居的语境中,该标记不太可能是偶然出现。
[0070]须注意,正标记并不必然预期在字典中找得到。拼错的单词之所以在数据组中占优势可能是有系统的原因。尤其是,许多人造或故意拼错的单词被用来形成有特色的公司名称。同样地,并非所有字典单词都将被辨识为正标记,因为数据组的统计可能并不支持它们的识别。
[0071]很多本地邻居将具有一个正标记。该正标记在统计意义上是“实际”标记一其他标记是相对少见的变体。一些本地邻居可能不具有正标记,因为所有变体标记出现的频率都相似。这对于在统计不足以区分出正标记的数据组中少见的标记而言尤其如此。如果正主位标记的本地邻居具有一个以上的正标记,则其他正标记被认为时“伪标记”。也即,它们在统计上可能是其他“实际”标记,而并非主位正标记的偶然变体。识别这些伪正标记是有用的,因为它们表示的是不应基于语义(semantic meaning)配对而是基于相似性配对的标记。通过破坏这些变体配对能够改善变体网络的精确性。需要适当关注,因为类似名词复数(plural)的那些“伪”正标记应当保留为变体。
[0072]在标记代表的语境中,为典型邻居识别正标记可能是有用的。一些非常常见的个人名称非常相似。考虑到,例如“Hermandez ”和“Fernandez ”,仅仅通过一个替换就将它们区分为变体对。在给定数据组中其中一个将比另一个更为频繁,则该名称可能是包含二者的典型邻居中更频繁出现的标记,因此,在一些实施方式中,为其标记代表。通过打断“Hermandez”和“Fernandez”之间的链接,二者都成为不太可能连接至另一较高计数标记的标记,并且随后成为它们各自(重叠)典型邻居的标记代表。可能需要进一步修剪来更彻底地隔开典型邻居,例如,打断“Hermandez”和“Fernandez”与其他类似配对之间的链接。
[0073]用户102可使用用户界面104例如通过添加或删除节点之间的边或添加或去除节点来操控变体网络。这对应于添加或打断变体配对或者添加或去除标记,这可能通过提供适当外部数据106而由变体剖析器110执行的过程而已经完成。图形用户界面104提供这样做的有用方式。图形用户界面104还可以图形形式地正标记与其他标记区分开,并突出连接这些正标记的边。可提供对连接正标记的所有变体配对的列表视图,一并提供的还有选择哪些边打断以及哪些保留的机制。
[0074]基于搜索的分群引擎130处理“标记化记录”(它们是内容已经过标记化处理的记录),在一些实施方式中被划分成段和/或在要并行处理的多个处理器中被分区,以集合具有类似内容(基于它们对应的标记)的记录从而产生数据群180的集合。分群引擎130能够运行在“批处理模式”(或“离线模式”)下,其中数据源100中一批记录内的所有记录一开始就能全体用于比较,或者运行在“增量模式”(或“在线模式”)下,其中将所述记录处理成它们所到达的已经过处理的记录集合的形式。
[0075]在一些实施方式中,批处理模式用于得到初始群,而后续记录则以增量模式来添力口。而后添加数据无需从头对积累的整个数据组重新群。除了显而易见仅处理添加记录的性能优势外,其还有附加的益处,即在新数据到达时之前确定分配给群的记录无法改变,而如果从头重新分群整个数据组则有可能发生改变。这在业务环境中分群时尤为重要,因为群及其成员具有独立于分群处理的业务上的含义,并且如果是仅仅因为有更多数据变为可用而群成员身份就能有变化,则业务不会顺畅。
[0076]分群库170,包括搜索库146和代表记录库178 (见图1D和图1G),通过分群引擎130来维护并参与到分群处理中。在一些实施方式中,除了分群库170外,来自变体剖析器110和变体网络分析器120的结果在分群处理期间比较记录类似性时可纳入考虑。
[0077]数据群是这样的数据记录的组,这些数据记录的内容被判定为足够类似。群中包括的数据记录被称为该群的成员。在一些实施方式中,群中的记录表现出与该群其他成员的高度类似以及与其他群成员的低度类似。
[0078]分段(segment)是这样的数据记录的组,这些数据记录可相互进行用于群中成员身份的比较。不同分段中的记录并非由分群引擎130来比较,并且必要地将被分配给不同群的成员身份。将数据组中的记录放置到分段中称为分段。一个记录可以是一个以上分段的成员。在一些场景中,存在自然分段,该自然分段是基于在整个分群中预期为共同的值,例如,将记录的集合划分成不相交组的分类标识符,类似于产品标识符或者像邮编或原产国那样的地理量值。在一些实施方式中,可基于其他标准来给数据群进行分段,例如,可基于政府分配标识符的片段来对数据分段。在一些实施方式中,多个级别的分段是可能的。例如,数据首先可按原产国分段,每个原产国分段内的数据群可进一步按政府分配标识符的片段来分段。
[0079]进行并行处理时,在一些实施方式中,每个分段可传递至分离的处理分区,因为在不同分段中的记录之间并不进行比较。在其他实施方式中,假定分群引擎130所使用的某些数据(包括搜索库)由所有分区共享,相同分段中的数据记录可被分区以隔开要并行处理的分区。
[0080]在涉及远程处理系统之间受限的或单向的信息流的一些实施方式中,像搜索库条目等查询及共享信息可单向传递至受限的远程处理系统,而从受限的远程处理系统来看免于妨害结果的可靠性。例如,一些国家限制个人信息跨国界共享:一些国家禁止数据出口至所有其他国家(例如瑞士)而其他国家禁止数据出口至包括美国等所选的其他国家(例如法国)。在图1B中,由用户22在US21发起查询20。该查询可能由个人名称、政府分配标识符以及生日组成,且该查询的目的是找到由该名下个人拥有的所有银行账户。该查询应用至在US21中持有的数据群23,且返回某些记录(称为候选项记录)。可检索诸如来自搜索库146的搜索条目或者来自代表记录库178的代表记录等附加信息并保持其作为该查询的结果。该查询、候选项记录以及可能的附加信息可被传送40至选择数据出口国41以由本地用户42针对该选择数据出口国41内持有的数据群43进行本地分群。类似地,该查询、候选项记录以及可能的附加信息可被传送50至禁止数据出口国51以由本地用户52针对该选择数据出口国51内保持的数据群53进行本地分群。分群的结果在受限数据出口国内将可用于适当的本地操作,例如,用于欺诈检测或法律实施。受限数据出口国出口其数据或其共享信息(例如搜索条目或代表记录)的失败意味着从受限数据出口国的数据中得到的群成员在该国外部将不可见。该受限国外部分群数据的完整性不受影响。
[0081]在一些实施方式中,通过将对来自一个或多个字段的数据记录进行比较结合到使用记分功能的记分和业务规则中来测量记录的相似性。诸如搜索代码和匹配代码等数据图案代码用来总结记录的特征,并且用于帮助制定用于测量相似性的业务规则以及向用户102展现结果。例如,用于记录的搜索代码可标注记录组之间共享的标记的组合,而用于配对的匹配代码可对匹配质量以及要进行比较的每个字段或字段组合的填充状态(state ofpopulation)进行编码。例如,一对比较字段值的匹配代码内的匹配质量状态可包括“准确匹配”(如果这些值相等)或者“模糊匹配”(如果相似性打分大于模糊匹配阈值)。匹配代码内的填充状态可包括“无填充I”(如果配对的记录I中的值为空或空白(零或更多个空格字符))或者“关联填充”(如果配对的记录I和记录2中的值要么均被填充要么均为空或空白)。从表征搜索或匹配对的不同属性的这些编码状态的汇聚中汇编出搜索代码或匹配代码。具有每个搜索代码的样本记录,或者来自具有每个匹配代码的匹配对的样本记录,可显示给用户。这会帮助用户形成、改善和调节用来作出群成员身份决策的相似性测量。
[0082]可采用分群认可引擎190通过与用户交互来反复改善分群决策。用户102通过用户界面104作出一系列的分群认可决策,例如,将一记录确认为一个群的成员或者将一记录重映射至新的或已有的群。仅有被选择的记录需要由用户102重映射来分裂或融合整个群。潜在会受分群认可决策影响的记录通过分群引擎130识别、检索并再处理以产生改进的数据群180。个别记录的重映射对于群成员身份有级联效应,这在受影响的记录被重分群时导致已有群的分裂或融合一与群的初始主位记录相比更接近重映射记录的那些记录将随重映射记录一起移动至其新群。在用户界面104中可为用户102显示数据群的“前-后”表示,以验证由用户的分群认可决策引发的改变。由于重映射所引起的级联效应,用户能够用少许很明智的改变来操控很多记录的部署,而无需对每个个体记录的放置加以微观管理。
[0083]1.2分群引擎
[0084]图1C示出分群引擎130的示例的元件。在一些实施方式中,数据源记录100或标记化记录118由分段引擎132读取并分成多个分段,和/或由并行分区器134在多重处理中加以分区以用于并行处理。
[0085]在一些实施方式中,初始或标记化的记录组可被分类136 (在每个分段和/或处理内)以加以排序,该排序反映记录的可区别性或丰富性,其中更易区别的记录在先。这可改善群的质量。可区别性旨在具有这样的意义,具有更充分填充的字段、包含不同值和多个标记的记录在直观上比那些可能不完整、包含未填充字段及字段填充有默认值或单个标记的记录要更易于与其他记录区分开。
[0086]例如,一个可区别性标准可以是基于记录的特征填充图案而定。填充图案码可用来通过例如为记录中一个或多个字段或字段组合的选择组连结(concatenate) —组值来对记录的填充状态进行编码——例如,如果该字段未填充(无、空或空白)则值为“0”,如果包含默认值则值为“1”,并且如果该字段填充有非默认值则值为“2”。可使用其他更高的值来对字段填充状态之间进行进一步的量化区分,例如,在文本字段中的标记数目(如果数目超出“9”则在其他码值的表示中作出适当补偿)。在填充图案码中可将可区别性分值计算为不同填充值的权重分值。更高的分值将表示更易于区别的记录,并且组织记录的分类136可以是对可区别性分值的降序分类。(通常,分类排序可由非数字可区别性标准来确定,诸如填充图案码,而无需一开始就转换成分值)。可使用包括像给定源和字段(或语境)中每个标记的显著性的统计测量那样的变体剖析器分值115中的数据来构造更正式的可区别性测量。
[0087]进行可区别性分类136的目的在于其导致更好的分群结果,因为群成员身份决策处理是增量式的:记录随着被处理而被分配给群。尤其是,群的数目一开始是未知的,随着记录的处理而发现新的群。可区别性排序被设计用来与群成员身份决策处理一起作用以产生与群成员身份决策处理兼容的最大数目的不同群。经验显示,如果首先处理可区别性分值低且常常伴随着较低数据质量的记录,它们倾向于引发否则可区分的群的汇聚(agglomeration)。
[0088]在一些实施方式中,可优选地以数据质量级联的方式来执行分群,在该方式中具有实质不同数据质量的记录被分开处理。例如,对于具有客户姓名、政府id和生日的银行记录,值得将填充有全部三个字段(具有非默认的值)的记录组与那些填充有两个字段(具有非默认的值)的记录组、以及那些仅填充有一个字段的记录组分开进行处理。随着记录的完整性降低,群成员身份决策的可靠性也下降,而分离的群经过可辅助用户理解这样的影响。可在用户界面104中为用户102将可区别性分值不同的记录对应地以图形显示方式加以标示。例如,可以可区别性从高至低变动的梯度规格(gradient scale)来给记录着色,从而使用户一眼就能看到哪些记录可靠性较低。用户界面104还可具有用于打开和关闭用不同可区别性范围显示标记的开关,从而也使用户能够关注给定质量的数据。这里,可区别性在这里被用作为数据质量的代名词(proxy),但图像显示也能够使用独立于用来驱动群的可区别性分值而得到的数据质量的直接测量。
[0089]分群引擎130包含候选项搜索引擎140,其从可用于比较的记录组中识别出与每个初始或标记化记录匹配的候选项,称为查询(query)记录。如果通过候选项搜索引擎没有检索到记录,则生成新的群id并分配给该查询记录。将关于该新群的适当信息存储在分群库170中。如果通过候选项搜索引擎检索到记录,则在进行群成员身份决策之前由计分引擎150来对检索到的记录针对查询记录具体进行计分。群成员身份引擎160确定被计分的查询记录的群成员身份。由变体剖析器110产生的变体剖析器库115和由变体网络分析器120产生的变体网络库126以及其他分群库170都可由候选项搜索引擎140和计分引擎150用来辅助对候选项记录识别和计分。
[0090]在一些实施方式中,例如在不同的分段以及使用不同分群策略的分离的分群途径中,单个记录可分配给多个群。可使用多重匹配调和器165来调和所述分配以将每个记录关联至单个群。
[0091]在一些场景中,例如在信息不足以在可选匹配之间区分时,当一记录接近一个以上群的成员身份时,在已经调和多重匹配之后还可保留有与多个群的模糊匹配。例如,假设存在两个不同群,标签有名称“顶点工业(Acme Industries)加拿大”和“顶点工业澳大利亚”。查询记录“顶点工业”同等匹配这两个名称。在没有其他信息时,“顶点工业”应当分配至哪个群是模糊的且不能分辨。在这种情况下,可在用户界面104中将模糊匹配通报并显示给用户102,在分群(匹配)后记录的网络的图形显示中可用独特颜色来标识涉及模糊匹配的记录。
[0092]在一些实施方式中,群成员身份决策处理可将模糊记录分配至可能的可选群中的一个群。对于涉及配对有模糊成员的群成员身份决策的群中的每个成员,用户界面104可用一个颜色显示从模糊记录到成员身份已得到承认的分群的配对成员的边,并用不同的颜色显示已经否认成员身份的群的对应成员的每个边。(例如,在图1lD中,模糊记录1190与匹配群1193的成员1193之间的边用黑色显示,而模糊记录与不匹配群的成员1194之间的边用灰色显示)。这一显示可使用户102能够容易地将群成员身份引擎作出的决策与接受或修改该群成员身份引擎的分配之前恰好可用的替代选择分开。
[0093]候选项搜索引擎140的目的是通过执行仅检索符合最低相似性标准的记录的搜索来减少需要与查询记录具体比较的记录的数目。实质上可用于比较的记录组(批处理情况下分段中的所有记录)编有索引,从而可将针对索引的搜索用作快速、低计算成本的过滤器以丢弃那些不可能匹配的记录。分群引擎130的性能很大程度上受到候选项搜索引擎是否成功地缩小了具体要考虑的记录组的影响。
[0094]1.3候选项搜索引擎
[0095]图1D概要示出候选项搜索引擎140的示例的要素。从数据源记录的组100P或标记化记录118P读取查询记录。如果初始或标记化记录已经过分段和/或分区而被并行处理,则该查询记录可处在分段中和/或处在并行分区中。查询基于预定义或用户指定的过程而定,该过程从查询记录的一个或多个字段或者字段组合中选择一个或多个标记,并且该查询是由查询构造过程142从所选的标记或所选标记的组合中生成。在一些实施方式中,生成的查询由查询扩展引擎143扩展为包括一个或多个指定查询的扩展查询。
[0096]在一些实施方式中,涉及通过计分引擎150确定群成员身份的被称为计分字段的字段集合可通过计分引擎150所使用的计分规则找到。计分规则被指定在预定义或用户指定的规则组中,其中一个或多个字段或者字段的组合被分别进行相似性的比较,且随后中间字段分值的集合被结合以计算整体记录分值。规则组是规则的集合,通过结合输入值、常量、参数、其他中间值、其他输出值、以及查找一个或多个基于示例(case-based)的分配组中其他数据组而得到的值,每个规则计算一个或多个中间值或输出值,该计算可使用内建逻辑和数学运算、内建函数和用户定义函数的结合。规则组可产生一个或多个输出值,其中一些可为矢量。计分规则组中的计分规则将采用从输入数据记录选择的字段,且这些字段被统称为计分字段。
[0097]在计分字段中共享相同值的记录组将共享相同的群会员身份决策。计分字段去重复(deduplication)模块144保证这样的记录组中仅有第一个记录被传递用来计分,而后续的记录则简单地集成群会员身份结果。
[0098]搜索条目扩展引擎145被应用至全输入数据源100中的记录或者已有数据群记录180的组以构建搜索库146。
[0099]查询记录被传递至候选项搜索引擎140的核心搜索引擎147。搜索引擎147收取每个扩展的查询并返回查询记录和识别候选项匹配记录之间可能的候选项匹配的特有记录标识符的一个或多个列表。这些列表被传送至群候选项选择器148,其应用预定义的规则和/或用户指定的规则(例如,规则组)来识别符合值得投入计分引擎150详细计分的最低标准的候选项匹配记录的列表。在一些实施方式中,表征查询记录与可用记录之间匹配的标记组合的搜索代码既用来促进选择处理还用来回溯地剖析及选择处理。
[0100]1.4变体剖析器
[0101]图1E概略示出变体剖析器110的示例的要素。变体剖析器110可使用多种用于生成识别变体标记的配对的存档(archive)的技术中的任意技术,包括诸如在名称为“管理用于近似字符串匹配的存档(Managing an Archive for Approximate String Matching) ”的美国专利公开第2009/0182728号中描述的一种用于产生存档的处理。记录读取自数据源100。它们在数据准备模块111中被准备以用于分析,包括由标准化器112和标记化器113进行处理。标准化器112应用预定义的规则和/或用户指定的规则基于所选字段(或者指派的字段组合)的性质和含义来对输入的数据标准化。例如,字符串值可处理为小写字母,而特定的标点字符或可删除、或可用空格字符代替、或二者兼备(可能导致多重记录)。根据字段的性质和含义,标记化器113基于应用至字段中值的预定义规则和/或用户制定规则来识别标记的列表。例如,地址的地段线(street line)可基于空格字符而分离成单词列表,而像“New York(纽约)”那样可能包含表示语义单元的值的城市字段则不被分离成单词。标记化器113产生标记化记录118的数据组或数据流,用于由分群引擎130进一步处理。
[0102]标记化记录的不同标记也由变体剖析引擎114来剖析,包括对每个标记的实例的数目(例如其中出现标记的记录的数目)计数。在一些实施方式中,识别其中出现标记的数据源、字段、和/或语境(字段的逻辑分组)的关键可与标记相关联,且标记的实例的数目的对应计数可得以保持。这样能够对不同源、字段、或语境中出现的同一标记编制进行分离的统计。在一些实施方式中,识别给定字段或语境中出现标记的记录的位置信息也与标记相关联。该位置信息可为位元向量(bitvector)的形式,可选地经过压缩,其中对于出现标记的每个记录都设置一位元。位元的顺序可明确或隐含地映射至记录的位置。
[0103]变体剖析引擎116进而基于标记相似性测量来识别互为变体的标记。可以有很多标记相似性测量。一种是基于编辑距离来比较标记的相似性。莱文斯坦(Levenshtein)编辑距离对将一个单词转化为另一单词所需的插入、删除和替代计数。两个单词越相似,它们的编辑距离越小。另一种测量是基于语音相似性(例如使用探测法编码)来比较单词。
[0104]第三种可能性是比较共享字符的序列。通过对共享字符的数目进行计数并除以较短字符串的长度可计算基本序列相似性分值。然后通过对序列之外的字符和字符串长度的差别从基本分值减去权重扣分来形成全序列相似性分值。例如,“eqty fnd”和“equityfund (股票基金)”分别从可能的8个字符和11个字符中共享8个字符(包括空格字符)。基本相似性分值为I。不存在序列之外的字符,且长度差为3。因此,在长度匹配权重为0.05时,序列相似性分值为1-0.05*3 = 0.85。
[0105]在一些实施方式中,变体剖析引擎114产生变体剖析器库115,包括识别变体配对及其相似性分值的分值存档以及包含源-字段-语境出现、关联计数、位置信息、和变体标记列表及它们在同一源-字段-语境中的计数的每一个中每个标记的变体存档。变体网络116可由变体存档计算而来,该变体存档中每个节点为标记且每个边为变体标记的配对。变体网络116可图形显示在用户界面104中,在这里用户102可操控变体网络116,可能包括添加边以链接未被变体剖析引擎114识别为变体配对的标记,或者删除与仅仅是基于相似性而非语义的变体的标记连接的边。[0106]在一些实施方式中,可通过整合外部数据106来充实变体剖析器库115和变体网络115。外部数据106可包括由用户提供或从第三方可获得的同义词和缩写的列表。外部数据源的一个示例为姓名的文化类变体列表,包括昵称、替代拼写、和替代音译。例如,这样的数据可通过将外部数据中的所有标记及其蕴含(entail)的变体配对添加至变体剖析器库115和变体网络116、或者通过仅添加这些数据中存在的标记之间的配对来加以整合。在前一种情况下,与不存在于数据中的标记相关联的计数应当为零。如果这一标记应在将来的处理中出现,则可增加其计数,但与其他标记的隐含链接将已经存在。
[0107]1.5变体网络分析器概述
[0108]图1F概略示出变体网络分析器120的示例的要素。变体网络116被读取且网络分析引擎122实行网络分析。在一些实施方式中,该网络分析可识别变体网络116内变体标记的连接组件的组并执行进一步分析,其中一些在下文加以说明。用户102可在用户界面104中观察变体网络116的图形显示,其中每个标记显示为一个节点,而每个标记变体配对由一边指示。可用表征节点和边的信息来修饰图形显示,例如下文所列举示例中的信息。用户102可使用用户界面104交互地修改变体网络116,添加或删除节点或边或者编辑修饰信息。
[0109]可显示标记的本地邻居。由网络分析器122实行的邻居分析可在图形显示中识别并标示正标记(可与其本地或其他邻居中的其他标记在统计上区别开的那些标记)以及连接正标记匹配对的边。
[0110]每个标记的实例的计数可在显示器中示出,并且在一些实施方式中可由用于节点的图标大小来以图形方式指示。可识别出连接的变体没有更高计数的标记,连带它们的典型邻居(通过从最高计数的标记开始接着是相等或更少计数的标记的所有变体配对来形成的标记树),并显示。标记代表是被选择来代表所选邻居中所有标记的标记。标记代表选择器124可从每个连接组件中选择一个或多个标记代表,例如典型邻居的最高计数标记。与标记代表关联的典型邻居或其他邻居可能会重叠。
[0111]从变体剖析器库115提取的标记的显著性表示哪些标记在用作搜索项时相对更有区别性。所选标记的显著性是通过位于该所选标记的本地邻居中且与该所选标记相关联的变体的计数计算而来。由于变体配对标记可具有不同的本地邻居,所以它们的显著性可能不同,因此将显著性关联至每个标记的重要性也不同。显著性是可在变体网络的图形显示中用颜色渐变显示的另一性质。
[0112]本地邻居的(辛普森)多样性是与每个标记关联的另一个量。经过归一化时,辛普森多样性反映指派标记的变体计数分布的偏斜(skew)。未经过归一化的多样性量级是随机选取标记的变体将具有的期望计数。如果指派标记的第k个变体的计数为nk,则变体的总数(不包括该指派标记)为整个k上nk的总和。多样性为:
[0113]多样性=〈nk〉= Σ k变体中nkPk = Σ k变体中nk2/N
[0114]其中
[0115]N =Ek变体中 nk
[0116]为变体的总计数,而
[0117]Pk = nk/N
[0118]是随机选择的出现将与第k个变量相关联的可能性。为了归一化显示的多样性,除以Σ k$#+nk来得到O与I之间的量。多样性对于识别相关标记之间的链接是有用的,因为标记的相关性隐含了低多样性。这给出了用来识别正标记的类似但不同的测量。
[0119]网络分析的结果可存储在网络分析库126中,在一些实施方式中包括标记代表库127和邻居分析库128。标记及其关联的标记代表可存储在标记代表库127中。邻居分析库128可包含从网络分析搜集的信息,包括正标记、标记的变体配对、以及典型邻居。
[0120]1.6分群认可处理概述
[0121]图1G概略示出分群认可引擎190的示例的要素。用户102可使用用户界面104来检查群成员身份决策。模糊的群成员身份决策(其中一个记录与一个以上的群足够近似而不足以成为可能的成员)可由分群引擎130加标志并由用户102解决。示出的引擎190的要素对应于可由用户输入发起的动作。
[0122]记录可被确认192为给定分群的成员。将记录的特有记录标识符和关联确认群的群id配对的决策可存储于分群库170的确认或排除库172中。如果确认的记录被提交给分群引擎130,通过其特有记录标识符(在确认组中)出现在确认或排除库172中来证明,则确认群的群id将被通报而无需进一步处理。
[0123]记录可从给定群中排除194。该决策可存储在分群库170的确认或排除库172中。如果排除的记录又被提交给分群引擎130,则其将被阻止于所排除群的成员身份外,并且必要时将被分配给不同的群(可能是新的群)。
[0124]记录可重映射196至其他群。尤其是,通过分配一个或多个记录至新群可将群分197成两个或更多个部分。在很多情况下,仅对选择的独特记录重映射才是必要的,因为在重处理时,比原始分群主位记录更类似那些记录的记录将跟随重映射的记录到其新群。多个群还可通过将一个或多个记录重映射至已有群而融合198成一个群。同样,在很多情况下,在重分群之前只有重映射选择的独特记录才是必要的。
[0125]2 示例
[0126]2.1变体剖析器和删除-添加过程
[0127]变体剖析器110识别变体的配对、测量它们的相似性、并将变体标记配对及其相似性分值存储在变体剖析器库126中。在一些实施方式中,变体剖析器110计算所有标记配对之间的编辑距离并存储编辑距离(“相似性”)低于预定阈值的标记配对。莱文斯坦编辑距离对将一个标记改编成另一标记所需的最低数目的插入、删除、和/或替换计数,并且是一种广泛使用的印刷(typographical)相似性的测量法。可惜,比较所有标记对的方法是低效的,因为绝大多数标记对没有相似性,所以付出很多计算努力可能都没什么好处。
[0128]删除-添加过程像莱文斯坦编辑距离那样基于印刷变体测量标记的相似性而设,但被设计用来只比较那些相对较接近的标记,从而节省估算很多不相关标记的计算成本。这在名称为“管理近似字符串匹配的存档”的美国专利公开第2009/0182728号中有更充分的说明。
[0129]在一些实施方式中,删除-添加过程按以下方式进行。对于标记字典(即标记的目录或列表)中的每个标记或者一部分标记字典(例如,给定源、字段、和/或语境),作出通过从标记删除单个字符的每个变体。该用于给定标记的“删除组”包含条目的列表,每个条目都有识别初始标记的键(“标记_键”)、初始标记(“初始”)、删除变体标记(“删除_变体”)、以及已经从初始标记中删除的字符的位置(“删除_位置”)。删除组的汇聚可与标记字典一起存储于变体剖析器库115中,或者可在被变体剖析引擎114用来生成也存储于变体剖析器库115中的变体配对后丢弃。
[0130]初始标记可与删除变体一起被包括在删除组中,其删除字符位置为O。例如,以下为标记LONDON(伦敦)的删除组:
【权利要求】
1.一种方法,包括: 接收数据记录,所接收的数据记录中每个都包括一个或多个字段中的一个或多个值;以及 处理所接收的数据记录以识别一个或多个数据群,该处理包括: 识别多个标记,所述标记中每个都包括一字段或字段组合中的至少一个值或值的片段; 生成表示所识别的标记的网络,所述网络的节点表示标记而所述网络的每个边表示标记之间的变体关系;以及 至少部分基于与节点关联的值来生成不同节点子组被加以区分的所述网络的图形表示,其中与特定节点关联的值对该特定节点所表示的标记在所接收的数据记录内出现的实例数目计数加以量化。
2.如权利要求1所述的方法,其中如果两个标记之间的距离在一阈值以下则该两个标记具有变体关系。
3.如权利要求1所述的方法,其中至少一个子组包括第一节点和通过遍历与比关联于所述第一节点的值相等或更低的值相关联的节点连接的边所得到的节点。
4.如权利要求1所述的方法,其中至少一第一子组包括至少一个与一标记关联的节点,该标记是由所述第一子组中其他节点表示的标记的代表。
5.如权利要求4所述的方法,其中识别数据群以关联于第一接收数据记录包括用所述第一接收数据记录的代表标记来取代所述第一接收数据记录中的至少一个标记。
6.如权利要求1所述的方法,还包括识别至少一个节点,该至少一个节点与比所述第一组中其他节点相关联的值的平均值大过多于一预定阈值的值关联。
7.如权利要求6所述的方法,还包括确定所识别的节点中通过一个边直接彼此连接的任意两个节点。
8.如权利要求1所述的方法,还包括接收来自用户的输入或将预先确定的规则应用于所述网络以通过在两个节点之间添加边或移除两个节点之间的边来修改所述网络。
9.如权利要求8所述的方法,还包括在用户界面中显示所述网络的可视化表示,以及可视化地指示与所述节点关联的所述值。
10.如权利要求9所述的方法,还包括通过所述用户界面接收所述输入。
11.一种计算机程序,存储在计算机可读存储介质上,所述计算机程序包括指令,该指令用于使计算机系统: 接收数据记录,所接收的数据记录中每个都包括一个或多个字段中的一个或多个值;以及 处理所接收的数据记录以识别一个或多个数据群,该处理包括: 识别多个标记,所述标记中每个都包括一字段或字段组合中的至少一个值或值的片段; 生成表示所识别的标记的网络,所述网络的节点表示标记而所述网络的每个边表示标记之间的变体关系;以及 至少部分基于与节点关联的值来生成不同节点子组被加以区分的所述网络的图形表示,其中与特定节点关联的值对该特定节点所表示的标记在所接收的数据记录内出现的实例数目计数加以量化。
12.—种计算机系统,包括: 输入装置或端口,被配置为接收数据记录,所接收的数据记录中每个都包括一个或多个字段中的一个或多个值;以及 至少一个处理器,被配置为处理所接收的数据记录以识别一个或多个数据群,该处理包括: 识别多个标记,所述标记中每个都包括一字段或字段组合中的至少一个值或值的片段; 生成表示所识别的标记的网络,所述网络的节点表示标记而所述网络的每个边表示标记之间的变体关系;以及 至少部分基于与节点关联的值来生成不同节点子组被加以区分的所述网络的图形表示,其中与特定节点关联的值对该特定节点所表示的标记在所接收的数据记录内出现的实例数目计数加以量化。
13.一种计算机系统,包括: 用于接收数据记录的装置,所接收的数据记录中每个都包括一个或多个字段中的一个或多个值;以及 用于处理所接收的数据记录以识别一个或多个数据群的装置,该处理包括: 识别多个标记,所述标记中每个都包括一字段或字段组合中的至少一个值或值的片段; 生成表示所识别的标记的网络,所述网络的节点表示标记而所述网络的每个边表示标记之间的变体关系;以及 至少部分基于与节点关联的值来生成不同节点子组被加以区分的所述网络的图形表示,其中与特定节点关联的值对该特定节点所表示的标记在所接收的数据记录内出现的实例数目计数加以量化。
【文档编号】G06F17/30GK104040544SQ201280067094
【公开日】2014年9月10日 申请日期:2012年11月15日 优先权日:2011年11月15日
【发明者】阿伦·安德森 申请人:起元科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1