递归地遍历因特网和其他源以识别、收集、管理、评判和鉴定企业身份及相关数据的系统...的制作方法

文档序号：8449209阅读：301来源：国知局

递归地遍历因特网和其他源以识别、收集、管理、评判和鉴定企业身份及相关数据的系统 ...的制作方法
【技术领域】
[0001] 本公开涉及创建使用一个或多个源来发现、识别、收集、管理（curate)、评判和鉴定（qualify)企业实体身份及相关数据的递归的和灵活的能力。
【背景技术】
[0002] 这一部分描述的方法是可以实行的方法，但一定不是之前已想到或者已实行的方法。因此，除非另有说明，否则这一部分描述的方法对于本申请的权利要求而言不是现有技术，并且不会因为包含在这一部分中而承认是现有技术。
[0003] 经由搜索、匹配以及其他解析功能的有效数据访问，对于发现和评判与企业和其他类型实体有关的身份和相关信息是非常重要的。对于该目标而言，关键是能够有效地访问、检索和关联来自一个或更多个数据源的信息的能力。此外，重要的是具有评估和鉴定该处理（通过该处理来访问这种数据）、源（从该源访问这种数据）以及该数据本身的能力。这包括对数据和源的分析，从该分析可以生成可操作反馈，然后使所述可操作反馈可用于确定：处理、数据、关于所发现的数据的元数据、从其发现数据的源、关于这些源的元数据以及来自整个处理的可操作反馈。
[0004] 可在当前市场中获得发现产品和功能，其经由批处理能力或交互能力来获取关于实体或实体集团的查询，例如所述查询由用户通过下述不同的方法输入，例如（a)人通过键入或从其他源"搜罗"数据将数据输入到查询字段中，（b)机器生成查询值，或（C)系统直接与另一系统交互，然后针对包含查询属性或关于这些属性的推断信息的条目来询问网站或其他数据源。在其他情况下，在传统网络发现方式中，技术可以检索数据，该数据可以是自由形式或固定本体（或逻辑结构）。
[0005] 目前的这些发现产品和功能通常受限于几个方面，包括：其中对查询数据进行分析和消歧以限定能够用于识别来自现有数据源的数据的属性的方式；访问这样的数据源的方式；使用来自所访问的源的数据以发起或支持后续的解析查询的方式；所提供的与访问数据的解析处理和特征有关的信息（例如，质量、完整性和延迟）；以及这样的信息可用作监管处理的一部分的方式，所述监管处理包括发现、鉴定、评判和管理，以及对使用条款和主要约束的遵从。
[0006] 目前的这些发现产品和功能通常将数据直接提供给发出查询的最终用户和系统，而不会为了后续使用而存储与解析处理成功及其结果有关的信息。此外，目前的这些发现产品和功能通常不保持与所发现数据和数据源有关的元数据。此外，目前的这些发现产品和功能不通过递归学习处理将从一个搜索获得的数据和元数据用作另一个搜索的输入。
[0007] 目前的这些发现产品和功能在以下方面能力有限：自动使用与每次体验的数据和数据源的真实性、出处、以及内容有关的经验学习，以便形成意见，该意见在未来会影响对这些源及其数据进行访问和使用的可能性，或者会改变这些源的操作性特征或性质方面。

【发明内容】

[0008] 所公开的实施例包括一种处理，该处理递归地执行，以便利用一个查询的结果或目标属性的集合来从同一数据源以及从其他数据源发起随后的查询，使得发现的数据变成查询数据。
[0009] 在所公开的实施例中，生成、管理、合成以及自动归类与每次体验的数据和数据源的真实性、出处以及内容有关的经验信息，以形成意见，该意见在未来会影响对这些源及其数据进行访问和使用的可能性。
[0010] 在所公开的实施例中，生成关于每次体验的反馈，以使得终端用户（可以是人、计算机系统或其他接收者或下游处理）能够利用商业规则来驱动对处理和最终结果的使用和消费，从而在这些相同商业规则被应用于不同技术、产品或解决方案的情况下以一致且可重复的方式并且以可扩展的方式做出关于对信息的使用的决定。
[0011] 在所公开的实施例中，处理可以在不受限于环境、地理位置、语言或书写系统的情况下执行。此结果可通过能够使用任何种类和数目的标准网络语言标签的语言无关功能来实现，并且不受限于于环境、地理位置、语言或书写系统所特有的编码和逻辑。
[0012] 本文档公开了一种自动化系统和方法，所述自动化系统和方法用于执行不需要人干预的自动递归发现处理，以识别、鉴定、管理、评判以及合成数据例如企业身份或行为以及从多个源访问的相关元数据信息。
[0013] 本公开涉及一种用于搜索与查询有关的数据的系统，包括：存储装置，该存储装置包含种子源的列表，该种子源的列表指定所述查询的初始搜索目标；搜索引擎，该搜索引擎基于从初始搜索目标和现有附加搜索目（prior addition search target)标识别的数据和元数据来对初始搜索目标进行搜索以找到与查询有关的数据；存储装置，该存储装置存储来自初始搜索目标和附加搜索目标的数据和元数据；并且其中，搜索引擎对所述附加搜索目标进行搜索，以至少找到与查询有关的附加数据以及找到指定另外的附加搜索目标的数据和元数据。
[0014] 搜索引擎搜索附加搜索目标并且发行了另外的搜索目标。指定该另外的搜索目标的数据和任何相关元数据被存储在存储装置中，以由搜索引擎在访问另外的目标时使用。对附加搜索目标进行搜索以及对另外的搜索目标进行发现，直到对附加搜索目标的搜索不再产生要搜索的另外的搜索目标为止或者直到满足了可接受的评判规则或例外规则为止。
[0015] 另外的搜索目标通过递归和穷举处理被发现，由此基于来自现有搜索的结果和搜索目标的数据和元数据来识别搜索目标。
[0016] 搜索引擎被配置成搜索网站或其他源，并且种子源的列表是网站或其他源的列表。
[0017] 处理器被配置成对从每个搜索目标获得的数据进行净化。净化可以包括下述步骤中的至少一个步骤：解析数据，去除数据的错误值或不适当的值，以及从数据中去除预定标记。
[0018] 处理器可以被配置成通过执行下述步骤来执行对给定数据的数据验证，所述步骤包括：对来自已搜索的搜索目标的给定数据进行比较，以及基于一组优先级规则和使用规贝1J，将来自被认为是最可靠和可用的源的数据选择为有效。处理器还可以被配置成对来自不同搜索目标的相关数据进行管理、评判、合成和聚类，以形成聚类数据记录。处理器可以根据聚类数据记录来生成复合数据记录。
[0019] 本公开还涉及一种用于搜索与查询有关的数据的方法，包括：检查在初始搜索目标的集合中发现的数据；在存储装置中存储来自初始搜索目标的：(a)与查询有关的数据和元数据中的至少一个，以及（b)指定要搜索的附加搜索目标的数据和元数据中的至少一个；对附加搜索目标进行搜索，以找到（a)与查询有关的数据和元数据中的至少一个，以及 (c)指定要搜索的另外的搜索目标的数据和元数据中的至少一个；以及在存储装置中存储来自另外的搜索目标的：(a)与查询有关的数据和元数据中的至少一个，以及（c)指定另外的搜索目标的数据和元数据中的至少一个。
[0020] 当附加搜索目标被搜索时，如果另外的目标被发现，则该方法还包括：使用（C)指定另外的搜索目标的数据和元数据中的至少一个来访问另外的目标；以及在存储装置中存储来自另外的搜索目标的：(a)与查询有关的数据和元数据中的至少一个，以及（d)指定要搜索的其他搜索目标的数据和元数据中的至少一个。
[0021] 该方法在对另外的搜索目标的搜索不再产生要搜索的附加搜索目标时终止。
[0022] 根据该方法，搜索引擎可以被配置成搜索网站或其他源。种子源的列表是网站或其他源的列表。
[0023] 从搜索目标获得的数据可以被净化。可以通过如下步骤来执行对数据的净化，所述步骤包括：解析数据，去除数据的错误值，以及从数据去除预定标记。
[0024] 可以通过执行下述步骤来执行数据验证，所述步骤包括：对来自已搜索的各个源的数据进行比较，以及基于一组优先级规则，将来自被认为是最可靠的源的数据选择为有效。
[0025] 该方法还可以包括对来自不同源的相关数据进行管理、评判、合成和聚类，以形成聚类数据记录。可以根据聚合数据记录的集合生成复合多源数据记录。该方法还可以包括但并不以限制的方式包括例如执行从包括下述操作的组中选择的至少一个操作：将通过搜索与查询有关的数据而获得的结果写到数据库，将所述结果在数据库中存档，将所述结果生成报告，以及发布所述结果。
[0026] 方法还可以包括应用分析方法，以关于所述数据做出确定，以及确定是关于继续执行该方法还是终止该

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：安东尼·J·斯克里菲尼亚诺;迈克尔·克莱内;唐·Q·霍安;温德拉·拉姆保罗;罗宾·戴维斯;安贾莉·雷迪;
技术所有人：邓白氏公司;
我是此专利的发明人

上一篇：用于访问短url的抢先框架的制作方法
上一篇：在对话交互中消除用户意图歧义的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。