用于发现复杂两对手方或多对手方关系的多维递归学习过程及系统的制作方法

文档序号:11851488阅读:128来源:国知局
用于发现复杂两对手方或多对手方关系的多维递归学习过程及系统的制作方法与工艺

1.领域

本公开内容总体上涉及用于发现、精化、判定和综合复杂两对手方和多对手方全球(即,辖区内和辖区间以及跨国界的)业务关系的系统和过程。具体地,本公开内容涉及创建能够发现、评价以及记录业务实体之间的两对手方和多对手方关系(在下文中称为“业务联系”)的系统的创建。过程包括:源不可知且非确定性分析子过程,该子过程使用馈送到自完善例程中的聚类和亲和力识别例程进行变换、测量、严格地评估、判定以及重构,使得该过程和系统用作以下高度递归系统,该高度递归系统断定、测试、实现和监视用于识别、确认和维持业务联系的新策略。

2.

背景技术:
的讨论

总体问题是理解业务对手方之间的全面关系。通常,这样的理解被应用于涉及总体风险或总体机遇的使用案例。这样的理解还能够应用于更复杂的使用案例,例如预测分析、补救以及场景形成。

如所附图6中所例示的,用于确定关系的现有技术包括将具有相同名称的实体分组在一起的解决方案,但是这些解决方案被限制于仅使用名称来触发对相似度和潜在关系的判定。技术问题是这样的解决方案不提供高效自动化以及不断演进的精化性能和/或从多个源或标记的角度来考虑对关系进行三角化的能力,所述多个源或标记中的一些可以通过分析技术来识别。而且,这样的解决方案通常不是缺乏手动精化和判定选项,就是以不足以高效过滤潜在关系并且确保高效使用正确的手动判定资源和过程的精度和准确度来执行其自动化任务。在没有足够的过滤或精度的情况下,潜在关系经历使用单个“一体适用”方法的手动判定。结果是:对于具有手动判定选项的解决方案缺乏再现性并且难以推进规模经济,而对于不具有手动判定选项的解决方案具有不一致性以及针对所有的但最不关键的业务应用来说不足的差的准确性。

本公开内容的技术效果通过使用(a)自动化的、递归的且手动的精化、(b)对源和源组合的基于规则的判定以及(c)多个替选标记的组合以准确地确定业务实体的相互关系上下文,从而克服了常规的公司联系系统和过程的缺点。相对历史经验和代表性样本来利用自动化规则,彻底地评估结果以确定“真相”,并且规则完善和协调使得能够创建使自动化最大化以实现可扩展性的规则的精化集合,同时允许要根据需要而使用的有针对性且“最适合”的手动精化和判定策略。

结果评价和协调利用详细的探索分析技术,并且包括已建立且不断出现的认知以及学习算法以及用于判定异构且高度动态的通常的非构造化数据的其他方法。

通过支持递归测试和对自动化规则的精化以及用于优化性能并且使手动工作最少化的用户定制,本系统使效率和下述能力最大化:所述能力是利用随时间而渐增的数目的源以广泛地扩展范围而不显著增加手动工作,同时持续地准确确定上下文关系。

本公开内容利用逻辑来通过鲁棒的身份解析过程而唯一识别业务实体,作为评估上下文的基础。

本公开内容生成具有标准化的、动态的和/或专用的格式的批量事务交互,使得能够与人力资源管理者进行交互,人力资源管理者进一步判定和评估标记以确定上下文。

本公开内容还生成具有标准化的、动态的和/或专用的格式的批量事务交互,以对更新进行综合并且保持上下文领悟。

使用源和过程通过根据需要来监视状态、检测主动改变和被动改变并且发起精化和判定来建立并且保持上下文领悟。

本公开内容精确地跟踪结果,并且出于协调和诊断目的来使用报告工具评估真实性并且最佳地使用源,并且使用自学习特征以基于经验来提高性能。还使用报告工具以相对已知时机来评价进展。

由具有最佳适合的经验和能力的人力资源管理者基于复杂度水平、利用送往资源的基于规则的决策来执行手动发现、精化和判定。

本公开内容还提供了许多另外的优点,其将如下所述而变得明显。



技术实现要素:

一种用于发现各方之间的两对手方或多对手方关系的多维递归过程,该过程包括:(a)从多个数据源收集信息;(b)根据所收集的信息来发现各方之间的两对手方或多对手方关系;(c)基于各方之间的共同属性或部分相交属性对各方进行聚类以推断各方之间的两对手方或多对手方关系,从而形成所聚类的各方;(d)通过对所收集的信息进行整合并且基于上下文评价来自数据源的标记,针对潜在业务联系来评估所聚类的各方,以检测和测量针对给定方的一致性和不一致性或者两对手方或多对手方关系;(e)通过识别最有可能为上级例如总部或母公司的一方,断定所起的作用和/或关系的方向;以及(f)评价关于存在两对手方或多对手方关系的似然性的置信水平,并且所述关系具有所断定的关系类型和各方之间的方向。

过程还包括以下步骤:利用自学习来提高多维递归过程评估和/或评价在各方之间存在两对手方或多对手方关系的潜在可能性的能力。利用自学习的步骤是选自下述中的至少一者:(a)使用被断定以用于评估在各方之间存在两对手方或多对手方关系的潜在可能性的种子规则;(b)将来自当前已知的规则库的适用候选者应用于所收集的信息以针对所发现的关系的量、质量和/或特征来评估对各方的聚类;(c)使用详细真相确定以利用另外的专业信息来评价关于所聚类的各方中的潜在关系的真相;(d)学习所述种子规则和所述多个源中的哪些种子规则和哪些源在确定在各方之间存在两对手方或多对手方关系时是最有用的;(e)连续地评价多个源中的每个源的真实性;以及(f)利用经验来发现和断定提出了另外的标记的判定规则、新的规则或对所述种子规则的增强。

过程还包括以下步骤:连续地对判定规则进行精化,其中,该过程利用通过详细真相确定所得到的经验来协调、改进和/或调整用于评估在各方之间存在两对手方或多对手方关系的潜在可能性的所述种子规则。

过程还包括以下步骤:使用身份解析来建立和参考用于发现在该过程以外的各方之间的两对手方和多对手方关系的标识符。

对各方进行聚类是基于灵活的标记范围。该标记是选自下述中的至少一者:行为数据;名称;初始特征;大小;以及行业。

共同属性或部分相交属性是选自下述中的至少一个属性:因特网存在细节;账户或其他外部标识符;名称相似度;地址;次级地址;相关个体;代表关系;以及认知、观点或假设关系。

评价关于在各方之间存在两对手方或多对手方关系的似然性的置信水平的步骤是基于与先前经验有关的规则,所述先前经验具有针对其他方的相似数据点和潜在关系,该规则包括数据点被发现的源的真实性。另外,根据跨地理间距或地理政治间距的共享标记的属性接近度可以用作精化和判定的输入。

此外,步骤(f)提高了过程的下述能力:评价潜在关系和现有关系以及:(i)潜在关系和现有关系是应当自动具备变成业务联系的资格;还是(ii)潜在关系和现有关系需要更多的对信息的收集以及针对潜在业务联系对所聚类的各方的评估;或者还是(iii)潜在关系和现有关系不太可能存在并且不保证另外的主动关注。

优选地,收集信息涉及发现选自下述中的至少一者:识别信息的新的源;评估源的质量;理解数据环境的改变;以及开发用于识别合适的数据的新的技术和过程。

另外的实施方式是一种系统,该系统包括:处理器;以及存储器,该存储器包含由处理器可读的指令,并且所述指令在由处理器读取时使处理器执行以下动作:

a.从多个数据源收集信息;

b.根据所收集的信息来发现各方之间的两对手方或多对手方关系;

c.基于各方之间的共同属性或部分相交属性对各方进行聚类以推断各方之间的两对手方或多对手方关系,从而形成所聚类的各方;

d.通过对所收集的信息进行整合并且基于上下文评价来自数据源的标记,针对潜在业务联系对所聚类的各方进行评估,以检测和测量针对给定方的一致性和不一致性或者两对手方或多对手方关系;

e.将根据跨地理间距或地理政治间距的共享标记的属性接近度视为精化和判定的输入;以及

f.评价关于在各方之间存在两对手方或多对手方关系的似然性的置信水平。

本公开内容的另外的目的、特征和优点将通过参考以下附图和详细描述来理解。

附图说明

图1是表示用在本公开内容中的发现、精化和综合的三个主要步骤的框图;

图2描绘了根据本公开内容的作为利用自动化和递归来可持续地推进质量的互相关活动的集合的系统;

图3描绘了揭示两个实体之间存在“代表”关系使得该“代表”关系可以用作发现源的源;

图4a至图4k是根据本公开内容的递归学习过程的图示表示;

图5是描绘了实现本公开内容的过程的计算机系统的框图;

图6是常规的公司联系过程的示意图;

图7是根据本公开内容的发现步骤的框图;

图8是根据本公开内容的账户号码或其他标记聚类和初始精化过程的逻辑图;

图9a是通过示例示出根据本公开内容的发现和账户号码聚类步骤的过程流程图;

图9b是通过示例示出根据本公开内容的发现和名称聚类步骤的过程流程图;

图9c是通过示例示出发现和名称聚类的过程流程图,该示例示出了其中其他实体相似并且因此保证形成聚类的场景;

图9d是通过示例示出发现和名称聚类的过程流程图,该示例示出了其中没有其他实体足够相似以致于能够创建具有多于一个成员的聚类的场景;

图10a和图10b是根据本公开内容的针对候选记录的精化和综合步骤的过程流程图;

图11是描绘了根据本公开内容的如何基于行为数据属性或先前保持的数据属性对现有相似实体进行聚类的框图;以及

图12a至图12c是示出了根据本公开内容的规则推进过程如何通过自学习进行持续改进的过程流程图。

具体实施方式

本系统和过程实现多个源的评估和关联以发现关系和潜在关系(基于共同数据属性、服务或行为)、精化(curate)(积累、存储、保持和更新)并且判定(评估和对其起作用)这些关系,相对于先前发现的关于所涉及的对手方以及其他的关系的领悟,根据需要推进对另外的信息的递归收集,并且创建一致分类的和全球可实施的信息。

通过参照附图可以最佳地理解本公开内容,其中,图1和图2是表示在本公开内容中使用的发现1、精化3和综合5三个主要步骤的框图。

图2描绘根据本公开内容的利用自动化来可持续地推进质量的递归过程,其中,发现步骤1涉及第三方企业对企业(B2B)关系、发现的关系,例如聚类、网络和能够发现的内容等。为了增强发现步骤1,有帮助的是提供用于客户反馈的直接通道、金源(gold sources),例如自我联系,并且利用现有的最佳实践。精化3包括源关联分析、领悟增强的规则以及有针对性的解析(resolution)。精化还包括针对发现1的反馈以在必要时发起对另外的信息的收集。该递归精化过程允许规则的持续精化,推进一致的质量,推进规模,允许对源的判定并且根据内容的质量和特征对它们进行配置,并且允许不断地监视源能力。最终,综合步骤5添加新的联系并且验证联系。综合有时还被用于指代发起另外的发现步骤的过程,例如通过生成发现过程的输入。

发现

本公开内容利用各种源来发现实体之间的关系。例如,其将具有共同账户号码或标识符的记录分组。实体记录的业务身份属性与现有已知实体相关联,或者可以用于证明主数据库中的新的实体的反映。一旦针对对手方的组或聚类中涉及的每个实体对身份进行解析,则对手方的组——因为它们已经与被保持的连续钥匙相关联所以被称为“实体”——被评估以评价它们之间的潜在关系。

精化和判定

方案根据下述而变化:先前是否已经针对相关联的组的成员中的全部成员、一些成员而确定并且保持了上下文关系或者未针对相关联的组的成员而确定并且保持上下文关系。在先前已经保持关系的情况下,新的源信息的接收被用于确认现有状态,或者检测潜在变化(冲突)。提起冲突以用于进一步判定,同时将确认用于保持主数据库中的新鲜评价。

在给定实体先前未被确定为存在于其他实体的组的相关联的上下文的情况下,使用用于确定最可能的关联的规则来识别潜在关系以将其与其组的其他成员相关联。该聚合可以包括以下假设:已知的以向其他组成员提供上下文的成员最可能向关注的实体提供相似的上下文。诸如地理接近度和业务行为的相似度的属性是可以用于自动判定潜在关系的标记中的一些。

一旦针对特定实体识别了最佳或最可能的关系,则源的准确性和各个标记的性能被用于确定是否可以自动建立上下文,或者观察是否需要另外的发现或判定。此外,该相同的系统在基于相同标记的相同值来确定联系是否存在时的先前经验可以用于当前考虑的关系的引导精化。同时,关于特定源的累积性能并且针对根据观察的性能的源的各个子聚合的分成来增加渐增的认知。如果另外的发现和人工判定是必要的,则识别资源&工作流的最佳适合类型,根据要求的接口来创建任务(综合),并且发起动作。

通过若干种类型的资源——包括对于简化的粒状工作任务的低经验的、中等经验的专家以及最后的作为领域专家的个体——来执行精化和判定。工作任务可以包括对一对实体或实体的集合的解析。

对任意发现和人工判定的结果进行跟踪和评价作为自动化精化和判定规则的输入,其中,自动化精化和判定规则期望综合对主数据库的添加和更新或者用于进一步的发现和判定的另外的任务。

发现源

图3描绘了可以用于发现企业对企业关系的源的类型。在该示例中,记录上的一个实体可以代表其他实体来执行一些服务或提供担保。“代表”关系的存在显示了存在的二元关系,该二元关系然后可以被精化和判定以确定合适的下一步骤。取决于源、源精确性、使其他关系发现源相关联的能力以及可用的数据点,可以作出判定来自动接受为特定联系和类型,使用选择的方法来收集另外的数据点,否认或推迟以等待自发性发现另外的数据点。代表另一实体来支付账单或作为担保人可以隐含所有权,例如,北方视觉(North Vision)公司可能拥有泽尔达代理(Zelda Agency)或者RGX投资可能拥有纪事报(The Chronicle)。

图4a至图4k为根据本公开内容的递归学习过程的图示。本公开内容涉及发现并且记录业务实体(下文称为“业务联系”)之间的两对手方和多对手方关系的新系统的创建。本公开内容包括使用聚类和亲和力关系识别例程——该例程馈送到自完善例程中——来进行变换、测量、严格地评估、判定和重构的源不可知(source-agnostic)且非确定性的分析子过程,使得本公开内容作为整体充当断定(posit)、测试和实现用于业务联系的识别、确认和维护的新的策略的高递归系统。

本公开内容能够被配置成包括用于从信息发现(3.0)中的多个源中提取输入并且发现两个或更多个实体之间的潜在业务联系的每个源配置文件(profile)(2.0)。其递归地这样做,有时消耗全部源以便根据无差别的数据来推断业务联系,其他时间则采用直接的归纳法来追求关于特定业务实体的信息。其还可以从用于各个实体的两个或更多个源收集标记值,然后基于对该认知进行聚类来推断关系。本公开内容利用身份解析(5.0)能力来解析实体的身份并且使得能够从多个角度和这些角度的结合来识别实体。独立于身份解析,本公开内容识别并且在适用的情况下实现专业、新颖的技术来基于上面发现的信息将业务实体聚类(6.1)在一起。

本公开内容利用已知的并且先前合格的当前在考虑中的业务实体之间以及先前考虑的实体之间的关系。其此外利用关于所有实体的另外的属性。对综合数据不断进行评估(6.2、6.3)以确定每个潜在关系是否被充分理解以使得适于添加至已知业务联系库。评估的其他结果是:(a)识别数据中的缺陷和“间隙”并且因此需要发起另外的信息发现(7.1);(b)使对更确定的数据的待定被动接收的动作延期并且捕获该评价(4.5);(c)确定修改或发起另外的信息发现(7.1)以在识别到冲突时证明对现有业务联系的修改合理的时机;以及/或者(d)确定确认一致的现有业务联系并且保持其评价的时机(405)。

关键特征包括

·信息发现和精化:系统迭代地利用信息发现(3.0)来进行收集,并且对可以预测关系和业务联系的所发现的信息进行整合(4.3)。

·利用身份解析(5.0)来建立和参考系统外部的发现的实体的标识符,包括但不限于组织、个体和概念实体诸如金融工具。身份解析使得随着时间的推移实现一致参考,并且系统可以使用可用的任意身份解析策略(包括最近个体附近的策略)。

·基于包括但不限于行为数据、名称、起始特征、大小和工业的灵活标记范围来对实体进行聚类,作为潜在关系的信息发现的源,利用身份解析来推断潜在关系以用于进一步评估(6.0)。

·对实体进行聚类(6.1)以基于诸如如下的共同属性或部分相交属性来推断关系:

a.因特网存在细节

b.账户或其他外部标识符

c.名称相似度

d.地址

e.次级地址(邮寄地址)

f.相关个体

g.“代表”关系

h.认知、观点或假定关系,源于内部或外部

·通过对发现的信息进行整合(4.3)并且基于上下文来评价潜在关系和现有关系(6.3),针对潜在联系对聚类进行评估(6.0),所述评价潜在关系和现有关系是经由针对关于目标实体和潜在关系的先前确认信息来平衡来自源数据与彼此数据的标记的。这包括使上面的多个源和标记相关联以检测和测量对于给定实体的一致性和不一致性或者关系。其还包括评价实体参数(6.3)以确定合并(5.6)时机。其还包括对标记值和部分值进行配置(profile)以考虑跨群体体或标准(denominator)的离散水平,例如工业、现有家庭的大小、分类、共享供应者关系或其他上下文因素。

·使用基于尤其是基于本公开内容的具有针对其他实体的相似数据点和潜在关系的先前的经验的规则,评价(6.3)关于存在所断定的关系以及关系的性质是具有资格的类型(因为并非所有关系均是可付诸实施的(actionable))的似然性的置信水平。

·利用自学习以随着时间而变得更加有效和高效:

i.系统接受被断定以用于评估潜在关系的“种子规则”

j.本公开内容将来自当前已知的规则库的适用候选者应用于累积以及整合的信息,以针对揭示的关系的量、质量和特征来评估聚类(6.2)

k.详细真相确定(3.3)利用另外的专业认知来评估关于各个分类的聚类中的关系的真相

l.连续精化判定规则-学习哪些规则以及哪些源针对关系和实体变化是最有用的(6.6)

m.持续地评价和跟踪源的真实性以支持规则的演进,包括“真实性”(Truthiness)评价(9.2)、每个业务分类的有用性评价(9.4)。测量交互协同并且通过源优先权重(9.3)和相交源的有效性(9.5)来调整和跟踪源的优先级。评价和跟踪标记的特定值的预测性,并且基于相同标记值对聚类的未来精化提供输入。

n.系统利用经验来发现和断定提出了另外的标记的新的判定规则(8.3)、新的规则或对当前规则的增强以提高下述能力:评价潜在关系和现在关系(6.3)以及:

i.潜在关系和现在关系是应当自动具备可以变成业务联系的资格;

ii.还是需要更多的信息发现(3.0)和评估(6.0),并且发起这样的步骤;

iii.或者还是不太可能存在并且不保证进一步的主动(active)关注

·持续精化判定规则(6.6):利用经验来使评估规则完善。例如,当两个或更多个源预测针对相同业务实体的关系并且它们关于相关实体的结论矛盾时,本公开内容利用通过详细真相确定(3.3)得到的经验来协调、改进和调整用于解释潜在关系的评估规则(6.7)。当可以从两个源获得相似的原始信息时,将另外的发现的结果用于调整用于解释其结论最初较不准确的源内的信息的规则。

·除了使对尚未被建立为业务联系的关系的理解完善以外,将相同的信息用于评价先前被接受为业务联系的现有关系(6.3)。在独立发现的信息支持并且确认联系存在情况下,这些关系的新鲜性和置信度被保持在它们的评价(4.5)中。在信息与现有联系矛盾的情况下,其用于针对另外的数据点来发起另外的信息发现(7.1)以确定关系的当前状态并且如果必要则对其进行确认或校正。

·除了使得对于新发现的关系的理解完善和评价先前综合的关系以外,系统跟踪先前判定并且确定不存在的潜在关系,因此不仅建立关于已知关系的认知,而且建立关于某种类型的关系不存在的认知。

图5为运用本公开内容的系统600的框图。系统600包括耦接至例如因特网的网络3930的计算机605。

计算机605包括用户接口610、处理器615和存储器620。可以将计算机605实现在通用微型计算机上。虽然在本文中将计算机605表示为独立设备,但是其不限于如此,相反可以经由网络630耦接至其他设备(未示出)。

处理器615被配置有响应于并且执行指令的逻辑电路系统。

存储器620存储用于控制处理器615的操作的数据和指令。存储器620可以按照随机存取存储器(RAM)、硬盘驱动器、只读存储器(ROM)或其组合进行实现。存储器620的部件中的一个部件为程序模块625。

程序模块625包含用于控制处理器615执行本文所述方法的指令。例如,作为程序模块625的执行的结果,处理器615执行以下动作:(a)从多个数据源收集信息;(b)根据收集的信息来发现各方之间的两个或多个对手方的关系;(c)基于各方之间的共同属性或部分相交属性对各方进行聚类以推断各方之间的两对手方或多对手方关系,从而形成所聚类的各方;(d)通过对所收集的信息进行整合并且基于上下文评价来自数据源的标记,针对潜在业务联系对所聚类的各方进行评估,以检测和测量针对给定方的一致性和不一致性或者两对手方或多对手方关系;以及(e)评价关于在各方之间存在两对手方或多对手方关系的似然性的置信水平。

数据“模块”在本文中用于指示可以实施为独立部件或者实施为多个下属部件的集成配置功能操作。因此,可以将程序模块625实现为单个模块或者实现为彼此合作地进行操作的多个模块。此外,虽然程序模块625在本文中被描述为安装在存储器620中并且因此按照软件进行实现,但是其可以按照任意硬件(例如,电子电路系统)、固件、软件、纸(paper)或其组合进行实现。

用户接口610包括用于使得用户能够向处理器615传送信息和命令选择的输入设备,例如键盘或语音识别子系统。用户接口610还包括输出设备,例如纸、显示器或打印机。光标控制器(例如,但不限于,鼠标、跟踪球或控制杆)使得用户能够操纵显示器上的光标以用于向处理器615传送额外的信息和命令选择。

处理器615向用户接口610输出本文所述方法的执行结果。可替选地,处理器615可以经由网络或纸630将输出引导至远程设备(未示出)。

虽然程序模块625被表示为已经载入到存储器620中,但是其可以被配置成在存储介质635上以用于随后加载到存储器620中。存储介质635可以是以有形形式在其上存储程序模块的任意存储介质。存储介质635的示例包括但不限于软盘、光盘、磁带、只读存储器、光存储介质、通用串行总线(USB)闪存驱动器、数字通用光盘或压缩驱动器。可替选地,存储介质635可以是位于远程存储系统上并且经由网络630耦接至计算机605的随机存取存储器或其他类型的电子存储装置——但不限于这些。

图7为根据本公开内容的发现步骤的框图,其中,从客户或账户的第三方文件——包括具有实体名称和地址的账户号码——发现和收集71第三方认知或信息70。然后,过程承担身份解析72的步骤,其中,实体名称和地址针对已知实体被比较,并且根据需要被映射到现有标识符或新识别的实体和它们的标识符。身份解析结果然后存储于数据库74中。此后,过程添加、更新或确认每个实体的属性,例如每个特定源的账户号码73,并且存储在关系建立信息数据库75中。由系统使用的数据库可以被逻辑地表示并且实际上可以被创建和保持为单个数据库。

图8为根据本公开内容的账户号码聚类和初始精化过程的逻辑图。该图展示了聚类、精化和判定过程的递归性。将步骤B示为参考点,其仅作为递归过程中的路径点,而非作为顺序过程中的第一步骤。在先前过程期间作出的精化和判定决策已经更新了关系建立信息数据库75。相同的关系建立信息数据库75用于发现步骤81中和其他过程中,例如精化和判定。通过将具有相同标记值或部分值的记录分组成聚类(cluster)来在步骤83中将从步骤81发现的信息连同源配置文件(profile)和表现信息85进行处理,此后,评估每个聚类87。此后,过程确定聚类是否包含多于一个(1)记录89。如果其未包含多于1个记录,则不采取动作91。然而,如果其包含多于1个记录,则评估聚类中的每个记录93。如果聚类中的记录尚未被联系95至联系参考数据库97中的记录,则过程识别并且评估最可能的关系99。如果已经联系,则过程确定现有联系是否与聚类内容一致101。如果不一致,则过程尝试解决任意冲突信息103。如果一致,则过程确定源准确性对于联系信息105是否足够。如果不足,则更新(B)关系建立信息数据库75以反映不使用该发现的信息来确认存在的业务联系的决策。如果足够,则确认联系参考数据库97中的现有联系(A)、跟踪的元数据例如数据和源107,并且更新(B)关系建立信息数据库75以反映使用该发现的信息来确认存在的业务联系的决策。

图9a为根据本公开内容的发现和账户聚类步骤的过程流程图,其中,以相应的账户号码发现201各个实体的示例,然后身份解析203,其中,共同的标识符基于实体的名称、街道地址或其他实体属性被分配给实体。如果实体具有相同的标记值,例如部分账户号码12345(205)或账户号码2299-X(207),则对实体进行聚类。

图9b为根据本公开内容的发现和名称聚类步骤的过程流程图,其中,针对跨属性303的相似度来检查已知的现有实体,并且对具有足够相似的属性例如业务名称、贸易方式、位置、电话或其他标识符的实体基于这些相似度进行聚类305。

图9c为示出其他实体相似并且因此保证聚类的形成的情况的发现和名称聚类的过程流程图。

图9d为示出无其他实体足够相似以能够创建具有多于一个成员的聚类的情况的发现和名称聚类的过程流程图。

图10a和图10b描绘了根据本公开内容的在针对未联系的记录的发现和聚类之后发生的精化和综合步骤的过程流程。通过基于属性和/或已知的或先前针对关注的实体和其他聚类成员103假定的关系来假定关系,来针对未联系的记录识别和评估最可能的关系99。将发现的潜在关系保存或存储于关系建立信息数据库75中。针对每一假定的关系,评估确实性并且将动作综合401,针对相同实体与先前断定的关系相关联403,针对聚类成员得到彼此的属性相似度分数405,并且考虑精确性(源的先前表现和真实性)407。此后,考虑用于推断关系的标记的特定值的先前表现409,并且判定和发起综合动作411。此后,发起发现或调查任务413,等待另外的信息的接收417和/或自动联系(即,生成数据库事务)415并且转发至联系参考数据库97。

图11为根据本公开内容描绘了如何基于行为数据属性或先前保持的数据属性对相似实体进行聚类的框图,其中,实体和联系参考数据库501用于识别种子实体503,种子实体503然后可以通过身份解析505过程进行评估以寻找相似然而有区别的实体并且将每个原始种子实体与那些被确定为相似的其他实体进行聚类509。实体聚类509然后被存储于实体和关系建立信息数据库511中,所以可以对它们进行精化。

图12a至图12c为示出根据本公开内容的规则推进过程如何通过自学习来持续进行改进的过程流程图。图12a示出核心过程的递归性。图12b添加用于支持对性能的跟踪和评价的交互以支持自学习。最终,图12c隐藏核心过程交互中的大部分以更好地突出推进自学习以随着系统基于经验变得完善、而以改进方式影响规则将控制过程的方式的跟踪和评价的反馈流程。

在图12a中,信息的发现和收集701、身份解析703、实体的分组和聚类705、潜在联系的自动评估707以及潜在联系的调查测试全部经由关系建立信息数据库511交互以识别潜在关系并且评估它们。过程由规则和累积源性能信息控制。取决于所采取的决策,可以发起另外的发现701以满足未满足的需要并且针对另外的发现和精化来推进递归。可替选地,如果批准或拒绝潜在关系,则在实体和联系参考数据库501中添加和保持联系和联系的缺乏711。

图12b帮助说明本公开内容的独特的自学习,其中,对结果的持续捕获和分析推进自学习。在了解用于改善用于发现、精化和判定关系的规则的机会的目的情况下,应用分析技术801来分析在实体和关系建立信息数据库511中累积的数据。分析的数据的类型可以包括但不限于:哪些源和标记被用于发现潜在关系;其如何与针对关于相同实体的关系信息的其他源进行比较;以及针对关注实体和其他实体的这样的关系的调查测试的结果。这可以揭示领悟,例如在从特定发现源接收时的特定标记高度预测批准的业务联系。这样的观察然后被利用以改善控制经由该源和标记发现的关系的未来判定的规则。然后,分析技术801断定新的规则和调整的规则以用于规则和累积源性能信息数据库713中的发现和精化。由两个分析技术801使用并且由建立的规则利用的并且随着规则&累积源性能信息数据库713而完善的数据中的一些数据被收集为如下:在信息发现和收集701期间来自观察的元数据违例的反馈、来自潜在联系的调查测试709的源质量观察(即,宏观水平和微观水平)、潜在联系的自动化评估707、发现的评估规则和调整以及在潜在联系的调查测试709和这样的结果的分析期间观察的人类专业知识和探索法。数据库713中更新的规则和累积的源性能信息继续控制处理,例如信息的发现和收集701、组/聚类实体705、身份解析703以及潜在联系的自动评估707,但是以由于基于上述反馈流程而生成的知识所引起的改进的性能结果来这样做。

图12c帮助突出图12b的自学习方面,但是仅示出正常核心处理流程的有限部分,同时保留反馈交互(通过图中的一致虚线所指示的),并且保留控制核心处理的规则交互(通过图中的混合点划线所指示的)。

虽然已经示出和描述了根据本发明的若干实施方式,但是要清楚理解的是上述实施方式可以容许进行对于本领域技术人员而言明显的若干变化。因此,不希望限于所示和所描述的细节,而是意在示出落在所附权利要求的范围内的所有变化和修改。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1