递归地遍历因特网和其他源以识别、收集、管理、评判和鉴定企业身份及相关数据的系统...的制作方法

文档序号:8449209阅读:301来源:国知局
递归地遍历因特网和其他源以识别、收集、管理、评判和鉴定企业身份及相关数据的系统 ...的制作方法
【技术领域】
[0001] 本公开涉及创建使用一个或多个源来发现、识别、收集、管理(curate)、评判和鉴 定(qualify)企业实体身份及相关数据的递归的和灵活的能力。
【背景技术】
[0002] 这一部分描述的方法是可以实行的方法,但一定不是之前已想到或者已实行的方 法。因此,除非另有说明,否则这一部分描述的方法对于本申请的权利要求而言不是现有技 术,并且不会因为包含在这一部分中而承认是现有技术。
[0003] 经由搜索、匹配以及其他解析功能的有效数据访问,对于发现和评判与企业和其 他类型实体有关的身份和相关信息是非常重要的。对于该目标而言,关键是能够有效地访 问、检索和关联来自一个或更多个数据源的信息的能力。此外,重要的是具有评估和鉴定该 处理(通过该处理来访问这种数据)、源(从该源访问这种数据)以及该数据本身的能力。 这包括对数据和源的分析,从该分析可以生成可操作反馈,然后使所述可操作反馈可用于 确定:处理、数据、关于所发现的数据的元数据、从其发现数据的源、关于这些源的元数据以 及来自整个处理的可操作反馈。
[0004] 可在当前市场中获得发现产品和功能,其经由批处理能力或交互能力来获取关于 实体或实体集团的查询,例如所述查询由用户通过下述不同的方法输入,例如(a)人通过 键入或从其他源"搜罗"数据将数据输入到查询字段中,(b)机器生成查询值,或(C)系统直 接与另一系统交互,然后针对包含查询属性或关于这些属性的推断信息的条目来询问网站 或其他数据源。在其他情况下,在传统网络发现方式中,技术可以检索数据,该数据可以是 自由形式或固定本体(或逻辑结构)。
[0005] 目前的这些发现产品和功能通常受限于几个方面,包括:其中对查询数据进行分 析和消歧以限定能够用于识别来自现有数据源的数据的属性的方式;访问这样的数据源的 方式;使用来自所访问的源的数据以发起或支持后续的解析查询的方式;所提供的与访问 数据的解析处理和特征有关的信息(例如,质量、完整性和延迟);以及这样的信息可用作 监管处理的一部分的方式,所述监管处理包括发现、鉴定、评判和管理,以及对使用条款和 主要约束的遵从。
[0006] 目前的这些发现产品和功能通常将数据直接提供给发出查询的最终用户和系统, 而不会为了后续使用而存储与解析处理成功及其结果有关的信息。此外,目前的这些发现 产品和功能通常不保持与所发现数据和数据源有关的元数据。此外,目前的这些发现产品 和功能不通过递归学习处理将从一个搜索获得的数据和元数据用作另一个搜索的输入。
[0007] 目前的这些发现产品和功能在以下方面能力有限:自动使用与每次体验的数据和 数据源的真实性、出处、以及内容有关的经验学习,以便形成意见,该意见在未来会影响对 这些源及其数据进行访问和使用的可能性,或者会改变这些源的操作性特征或性质方面。

【发明内容】

[0008] 所公开的实施例包括一种处理,该处理递归地执行,以便利用一个查询的结果或 目标属性的集合来从同一数据源以及从其他数据源发起随后的查询,使得发现的数据变成 查询数据。
[0009] 在所公开的实施例中,生成、管理、合成以及自动归类与每次体验的数据和数据源 的真实性、出处以及内容有关的经验信息,以形成意见,该意见在未来会影响对这些源及其 数据进行访问和使用的可能性。
[0010] 在所公开的实施例中,生成关于每次体验的反馈,以使得终端用户(可以是人、计 算机系统或其他接收者或下游处理)能够利用商业规则来驱动对处理和最终结果的使用 和消费,从而在这些相同商业规则被应用于不同技术、产品或解决方案的情况下以一致且 可重复的方式并且以可扩展的方式做出关于对信息的使用的决定。
[0011] 在所公开的实施例中,处理可以在不受限于环境、地理位置、语言或书写系统的情 况下执行。此结果可通过能够使用任何种类和数目的标准网络语言标签的语言无关功能来 实现,并且不受限于于环境、地理位置、语言或书写系统所特有的编码和逻辑。
[0012] 本文档公开了一种自动化系统和方法,所述自动化系统和方法用于执行不需要人 干预的自动递归发现处理,以识别、鉴定、管理、评判以及合成数据例如企业身份或行为以 及从多个源访问的相关元数据信息。
[0013] 本公开涉及一种用于搜索与查询有关的数据的系统,包括:存储装置,该存储装置 包含种子源的列表,该种子源的列表指定所述查询的初始搜索目标;搜索引擎,该搜索引擎 基于从初始搜索目标和现有附加搜索目(prior addition search target)标识别的数据 和元数据来对初始搜索目标进行搜索以找到与查询有关的数据;存储装置,该存储装置存 储来自初始搜索目标和附加搜索目标的数据和元数据;并且其中,搜索引擎对所述附加搜 索目标进行搜索,以至少找到与查询有关的附加数据以及找到指定另外的附加搜索目标的 数据和元数据。
[0014] 搜索引擎搜索附加搜索目标并且发行了另外的搜索目标。指定该另外的搜索目标 的数据和任何相关元数据被存储在存储装置中,以由搜索引擎在访问另外的目标时使用。 对附加搜索目标进行搜索以及对另外的搜索目标进行发现,直到对附加搜索目标的搜索不 再产生要搜索的另外的搜索目标为止或者直到满足了可接受的评判规则或例外规则为止。
[0015] 另外的搜索目标通过递归和穷举处理被发现,由此基于来自现有搜索的结果和搜 索目标的数据和元数据来识别搜索目标。
[0016] 搜索引擎被配置成搜索网站或其他源,并且种子源的列表是网站或其他源的列 表。
[0017] 处理器被配置成对从每个搜索目标获得的数据进行净化。净化可以包括下述步骤 中的至少一个步骤:解析数据,去除数据的错误值或不适当的值,以及从数据中去除预定标 记。
[0018] 处理器可以被配置成通过执行下述步骤来执行对给定数据的数据验证,所述步骤 包括:对来自已搜索的搜索目标的给定数据进行比较,以及基于一组优先级规则和使用规 贝1J,将来自被认为是最可靠和可用的源的数据选择为有效。处理器还可以被配置成对来自 不同搜索目标的相关数据进行管理、评判、合成和聚类,以形成聚类数据记录。处理器可以 根据聚类数据记录来生成复合数据记录。
[0019] 本公开还涉及一种用于搜索与查询有关的数据的方法,包括:检查在初始搜索目 标的集合中发现的数据;在存储装置中存储来自初始搜索目标的:(a)与查询有关的数据 和元数据中的至少一个,以及(b)指定要搜索的附加搜索目标的数据和元数据中的至少一 个;对附加搜索目标进行搜索,以找到(a)与查询有关的数据和元数据中的至少一个,以及 (c)指定要搜索的另外的搜索目标的数据和元数据中的至少一个;以及在存储装置中存储 来自另外的搜索目标的:(a)与查询有关的数据和元数据中的至少一个,以及(c)指定另外 的搜索目标的数据和元数据中的至少一个。
[0020] 当附加搜索目标被搜索时,如果另外的目标被发现,则该方法还包括:使用(C)指 定另外的搜索目标的数据和元数据中的至少一个来访问另外的目标;以及在存储装置中存 储来自另外的搜索目标的:(a)与查询有关的数据和元数据中的至少一个,以及(d)指定要 搜索的其他搜索目标的数据和元数据中的至少一个。
[0021] 该方法在对另外的搜索目标的搜索不再产生要搜索的附加搜索目标时终止。
[0022] 根据该方法,搜索引擎可以被配置成搜索网站或其他源。种子源的列表是网站或 其他源的列表。
[0023] 从搜索目标获得的数据可以被净化。可以通过如下步骤来执行对数据的净化,所 述步骤包括:解析数据,去除数据的错误值,以及从数据去除预定标记。
[0024] 可以通过执行下述步骤来执行数据验证,所述步骤包括:对来自已搜索的各个源 的数据进行比较,以及基于一组优先级规则,将来自被认为是最可靠的源的数据选择为有 效。
[0025] 该方法还可以包括对来自不同源的相关数据进行管理、评判、合成和聚类,以形成 聚类数据记录。可以根据聚合数据记录的集合生成复合多源数据记录。该方法还可以包括 但并不以限制的方式包括例如执行从包括下述操作的组中选择的至少一个操作:将通过搜 索与查询有关的数据而获得的结果写到数据库,将所述结果在数据库中存档,将所述结果 生成报告,以及发布所述结果。
[0026] 方法还可以包括应用分析方法,以关于所述数据做出确定,以及确定是关于继续 执行该方法还是终止该
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1