用于采集、规范、匹配和丰富数据的方法和系统的制作方法

文档序号:10540889阅读:245来源:国知局
用于采集、规范、匹配和丰富数据的方法和系统的制作方法
【专利摘要】在一个实施例中,一种方法包括从第一数据源获取第一数据集并从第二数据源获取第二数据集,第一数据集包括第一多个实体,且第二数据集包括第二多个实体。该方法还包括识别来自第一多个实体的第一实体和来自第二多个实体的第二实体之间经验证的关系,并且基于第一多个实体和第二多个实体之间的一个或多个经验证的关系来确定来自第一多个实体的第三实体与来自第二多个实体的第四实体具有第一相同关系。该方法还包括生成包括第一相同关系的第一输出数据。
【专利说明】用于采集、规范、匹配和丰富数据的方法和系统
[0001]相关申请的交叉引用
[0002]本申请要求于2014年8月31日提交的美国专利申请第14/474,153号的权益,其要求于2014年I月6日提交的美国临时专利申请第61/923,852号的权益。上述每个申请的全部内容通过引用被结合于此以用于任何目的。
技术领域
[0003]本公开涉及数据处理,特别地,涉及用于采集、规范、匹配和丰富数据的方法和系统。
【背景技术】
[0004]关于现实世界的实体的信息(如演员、影片、电视节目、电视节目的播放季、电视节目的剧集、导演等)可以存在于多种数字域和/或系统中。不同的系统以不同的方式表示和/或管理这些实体。不同的系统还可使用不同的标识符来识别和/或引用这些实体。例如,一部特定的影片可在不同的系统中具有不同的表示和标识符,例如在不同的电视台、视频点播(VOD)系统和网站上的电视节目表。
[0005]每个这样的系统通常具有实体以及与该实体相关联的属性和关系的有限观点(view)。每个实体的这样的有限观点通常导致在不同系统中具有关于实体的不同的信息,从而限制了当这样的数据在诸如终端用户体验和数据分析的很多应用中使用时可从中获得的潜在价值。此外,每个系统可具有实体的观点,这些观点可能经受了各自系统的编辑构建和/或是各自系统的编辑构建的部分。例如,不同的系统可不同地表示实体、属性和/或关系O
【附图说明】
[0006]为了使本公开可被本领域的普通技术人员理解,可通过参考某些说明性的实施方案进行更详细地描述,其中一些实施方案在附图中示出。
[0007]图1是示出了根据一些实施例的示例系统的框图;
[0008]图2A是示出了根据一些实施例的与两个提供者和/或数据所有者相关联的两个示例数据集的框图。
[0009]图2B是示出了根据一些实施例的与两个提供者和/或数据所有者相关联的两个示例数据集的框图。
[0010]图3是示出了根据一些实施例的示例数据集的框图。
[0011 ]图4是表示根据一些实施例的生成数据集的方法的流程图。
[0012]图5是表示根据一些实施例的归类关系的方法的流程图。
[0013]图6是表示根据一些实施例的确定输出数据是否满足信任级别的方法的流程图。
[0014]图7是示出了根据一些实施例的示例数据集的框图。
[0015]图8是表示根据一些实施例的实行通用断言集的方法的流程图。
[0016]图9是表示根据一些实施例的生成数据集的方法的流程图。
[0017]图10是根据一些实施例的计算设备的框图。
[0018]按照通常的实践,在附图中所示各种特征可能不是按比例绘制的,因为为清楚起见,各种特征的尺寸可能被任意扩大或缩小。此外,附图可能没有描绘出说明书确认的给定系统、方法或设备的所有的方面和/或变体。最后,相似的标号可用于表示整个说明书和附图中相似的特征。
【具体实施方式】
[0019]本文所描述的许多细节是为了透彻理解在附图中所示的说明性的实施方案。然而,附图仅示出了本公开的一些示例方面,并且因此不应被认为是限制性的。本领域的普通技术人员将从本公开中理解的是,其他有效的方面和/或变体不包括在本文描述的所有的具体细节中。此外,公知系统、方法、组件、设备和电路没有进行详尽地描述,为了不使本文描述的实施方案的更相关方面被不必要地模糊。
[0020]挺述
[0021]本文公开的多种实施方案包括用于生成数据集的装置、系统和方法。例如,在一些实施方案中,一种方法包括从第一数据源获取第一数据集并从第二数据源中获取第二数据集,第一数据集包括第一多个实体,且第二数据集包括第二多个实体。该方法还包括识别来自第一多个实体的第一实体和来自第二多个实体的第二实体之间的经验证的关系。该方法还包括基于第一多个实体和第二多个实体之间的一个或多个经验证的关系来确定来自第一多个实体的第三实体与来自第二多个实体的第四实体具有第一相同关系,并且包括生成包括第一相同关系的第一输出数据。
[0022]在其他实施方案中,一种方法包括:从多个数据提供器、多个匹配器模块以及多个推断模块接收多个数据集,该多个数据集包括关于实体、属性和实体之间的关系中的一者或多者的冲突数据,该多个数据集还包括由多个匹配器模块识别的相同关系,并且还包括由多个推断模块识别的所推断的数据。该方法还包括确定来自多个数据集的第一数据集是否通过使用通用断言集来识别实体、属性和关系,还包括在当第一数据集没有使用通用断言集时,修改第一数据集以通过使用通用断言集来识别实体、属性和关系。
[0023]在另一实施方案中,一种方法包括从多个数据提供器、多个匹配器模块和多个推断模块接收多个数据集,该多个数据集包括由多个匹配器模块识别的相同关系和由多个推断模块识别的所推断的数据。该方法也包括接收信任级别的指示,该信任级别指示了经允许的数据提供器、经允许的匹配器模块、经允许的推断模块、经允许的关系限定符或经允许的属性限定符中的一者或多者,该方法也包括识别满足信任级别的多个数据集的第一子集。该方法还包括基于第一子集生成输出数据集,该输出数据集包括相同关系的第二子集和所推断的数据的第三子集。
[0024]详细描述
[0025]随着社会和信息变得更加互连,期望信息系统以一种改进的方式而互连。人,如终端用户,通常希望能够在系统间分享或获取数据,期望更多的细节,并希望得到更协调的终端用户体验。例如,观众可能期望在视频点播目录中的影片应具有到社交媒体网站的链接,以便允许在社交环境下进行关于影片的互动。此外,在许多领域,往往出于供应商的利益,将其数据锁定到其系统,很少有或根本没有意愿与其他数据源建立链接。因此,通常需要一种系统(例如,独立的系统),该系统可以以所期望的真实/信任级别来构建数据源之间的链接。如本文中所描述的,这种系统可被配置来确定所选择的与不同的数据源相关联的实体是否的确是相同的实体。
[0026]本文公开的多种实施例包括用于采集、规范、匹配和/或丰富数据的设备、系统和方法。所述多种设备、系统、方法和/或技术可被实现以解决上述问题中的至少一些问题。这样的技术可通过使用算法得出所链接的数据,从而例如允许相同实体的不同表示被声明为与所选择的置信级别是相同的。本文更详细地描述了这些技术的示例。
[0027]所述数据可包括实体、实体之间的关系和/或属性。在一个实施例中,不同的数据集可从不同的数据源获取和/或接收。数据集可由不同的规范器模块规范化。在一个实施例中,数据集然后可由不同的匹配器模块进行分析,以便识别数据集的实体之间的关系(例如,识别“相同”关系或识别匹配的实体,如以下所讨论的)。推断模块也可基于其他关系(包括由匹配器模块所识别的关系)和/或属性来识别所推断的关系和/或所推断的属性。合并器模块可基于推断模块和/或匹配器模块的输出生成不同的输出数据集。
[0028]在一个实施例中,该系统使用底层通用数据模型,其允许不同类型的模块(例如,提供器模块、规范器模块、匹配器模块、推断模块等)以不同的方式处理数据并储存经处理的数据。各个模块可相互分离(例如,可以是相互独立的),这可允许在可行的情况下用户能够选择他们想在新模块中使用和/或替代的模块。通用数据模型允许存在关于数据的冲突观点,并允许用户基于信任级别和/或信任链选择不同的数据集。通用数据模型允许基于不同的信任级别和/或信任链生成不同的输出数据集。这可允许不同的系统使用相同的底层数据,但应用不同的要求来驱动他们各自的具体用例。这还允许系统来协调关于数据公共观点。
[0029]虽然本文描述的一些实施例、示例和/或实施方案的实体、关系和/或属性是与娱乐相关联的(例如,与影片和/或电视有关),将被理解的是,本公开的一个或多个特征也可在其他应用和/或领域中实现。这些应用和/或领域例如可包括不同的零售商(如超市)之间的产品的价格比较。
[0030]图1是示出了根据一些实施例的示例系统100的框图。在一个实施例中,系统100可以允许数据被采集、规范、匹配、推断和/或被丰富。系统100可包括若干组件用于促进这些功能的实现。该系统100包括提供器模块104A至104X、规范器模块114A至114X、匹配器模块108A至108X、推断模块IlOA至110X、合并器模块112A至112X、客户端150A至150X以及存储模块106,所有这些模块经由网络120可通信地彼此耦合。该系统还包括通过数据源102A至102X。数据源102A至102X分别地可通信地耦合到提供器模块104A至104X(例如,通过网络)。在一个实施例中,网络120可包括公共网络(如互联网)、私有网络(如局域网(LAN))或广域网(WAN)(如互联网)、有线网络(如以太网)、无线网络(如802.11网络或W1-Fi网络)、蜂窝网络(如长期演进(LTE)网络)、路由器、集线器、交换机、服务器计算机、其他类型的计算机网络和/或它们的组合。
[0031]在一个实施例中,系统100可使用基本的通用数据模型130,其实现和/或包括以下功能中一些或全部。在一个实施例中,通用数据模型130可储存在存储模块106中。在另一实施例中,通用数据模型130(或通用数据模型130的部分)可储存在与存储模块106分开的一个或多个数据存储设备中(例如,硬盘驱动器、闪存驱动器、数据库和存储器等)。这一个或多个数据存储设备可通信地耦合到存储模块106,并且存储模块106可访问、处理、分析和/或使用通用数据模型130。通用数据模型130包括数据提供器131、规范化数据132、匹配器数据133、推断数据134和合并器数据135。不同的提供器模块可从不同的数据源获取数据集(如以下所讨论的),并且所述数据集可储存在提供器数据131中。不同的规范器模块可以以不同的方式对数据集进行规范化(如以下所讨论的),并且不同的规范化数据集可储存在规范化数据132中。不同的匹配器模块可识别数据集中的实体之间的不同关系(如以下所讨论的),并且不同的关系可储存在匹配器数据中。不同的推断模块可识别不同的所推断的属性和/或所推断的关系(如以下所讨论的),并且不同的所推断的属性和/或所推断的关系可储存在推断数据134中。不同的合并器模块可根据不同的信任级别和/或信任链生成不同的输出数据集(如以下更详细讨论的),并且不同的输出数据集可储存在合并器数据135中。在一个实施例中,存储模块106可被配置为用于为实体和关系提供跟踪权限语义存储(rightstracked semantic store)。例如,存储模块可知道数据(例如,关系、属性等)是否是权限自由的和/或数据是否满足不同的信任级别。
[0032]由于不同的提供器模块可从不同的数据源获取不同的数据集,系统100允许重叠或冲突的数据。例如,不同的数据源可能指示一个演员的不同年龄。各种组件(例如,规范器组件114、匹配器组件108、推断组件110和/或合并器组件112)如何处理这种情况的示例在本文中更详细地进行了描述。不同的信任级别和/或信任链可由系统100的用户指定。由于不同的信任级别和/或信任链是系统100的一部分,并且被底层通用数据模型130所使用,系统100能够生成满足指定的信任级别和/或信任链的输出数据集。在一个实施例中,信任链(例如,一条信任的链)可指一种确保,即确保系统的各个组件生成和/或用来生成输出数据集(即权限自由的数据集)的数据满足信任级别。例如,信任链可指这样一种确保,即确保生成提供器数据的提供器模块满足信任级别,使用提供器数据生成规范化数据规范器模块满足信任级别,使用规范化数据生成匹配器数据的匹配器满足信任级别,等。
[0033]数据源102A至102X可以是能提供对数据或数据集的访问计算设备和/或存储设备(例如,数据库)。虽然多个数据源102A至102X在图1中示出,但是其他实施例也可包括任意数量的数据源(例如,一个数据源,25个数据源,等)。值得注意的是,给定的数据源102A至102X可与一个或多个数据提供器相关联。从数据源102A至102X接收的数据集可被各所有者拥有。数据集(从数据源102A至102X接收的)可涉及和/或代表实体。这些实体可代表特定类型的真实世界实体(例如,人、物理项目、位置和/或内容,如影片或电视节目)。关于特定实体的数据可被所有者拥有,并可通过使用标识符或关键词(key)被引用。实体的示例可以是影片(例如,移动图片)或演员(例如,在影片或电视(TV)节目中的人),商店(例如,超市、在线供应商等)出售的商品。实体可包括一个或多个属性,并且这些属性可以有一个或多个值。属性可以是关于实体的额外的数据和/或信息。属性可以是一个值,比如字符串、数字、字母数字字符串等。属性也可以包括多个值(例如,多个名称、多个日期等)。例如,演员实体(例如,代表演员的实体)的属性可以是演员的年龄。属性的其他的示例包括名称(例如,演员或影片的名称)、日期(例如,演员的生日,影片发布的日期)等。数据集(从数据源102A至102X接收的)也可包括关系。关系可以是不同实体之间的链接和/或关联。例如,演员实体可与影片实体(例如,代表影片的实体)存在有关系(例如,“出演”关系),因为该演员在影片中担任了角色。
[0034]数据集(从数据源102A至102X接收的)也可包括断言(predict)。断言可以是用于标记和/或标识属性和/或关系的词条(term)集。例如,“相同”关系可指示来自一个数据集的实体和来自另一数据集的实体是相同的(例如,匹配)。在另一示例中,演员实体和影片实体之间的出演关系可指示演员在影片中担任了角色。断言可以被标准化和/或被控制以使得断言在系统100中可以是标准的或通用的。例如,存储模块106可分析通用数据模型130中的数据集。存储模块106可有助于在通用数据模型130中跨数据集实行标准的或通用的断言(如下文更详细讨论的)。断言可被认为是关系和/或属性的命名。在一个实施例中,断言可被标记为规范的(例如,标记为规范的断言)或可被标记为肯定的(例如,被标记为肯定的断言)。肯定的断言可标识基于一个或多个客观的事实和/或信息的关系和/或属性。例如,演员的年龄(例如,演员实体的年龄属性)可以是肯定的断言,因为演员的年龄是客观的事实。在另一示例中,肯定的断言可意味着存在有可用的“真实的”答案或事实,其可客观地被证明。规范的断言可识别针对主观信息的断言和/或关系。例如,影片的评论(例如,影评人的评论)可以是规范的断言,因为影片的评论是评论影片的人的主观的观点。在一个实施例中,断言可用于选择认识论和对数据的不间断使用。在另一个实施例中,如果信息(例如,关系和/或属性)是基于规范的断言,则所有基于该信息的随后的信息(例如,随后的属性)通常可被认为是规范的。
[0035]属性和关系可包括额外的限定符(qualifier),其被用于确定获取数据的基础。例如,限定符可指示数据是否是原始调研(例如,包括以人限定的条目)、观测(例如,从源数据观测到的)和/或推断(例如,从原始的或所观测的数据中暗含的和/或所推断的数据)的结果。限定符也可指示属性和/或关系是是规范的还是是肯定的。例如,“评论”属性可包括指示属性是规范的限定符。在另一示例中,“年龄”属性可包括指示属性是肯定的限定符。
[0036]如以上所讨论的,系统100包括提供器模块104A至104X。虽然多个提供器模块104A至104X在图1中示出,其他实施例可包括任意数量的提供器模块。提供器模块104A至104X可以被配置为提供和/或促进如本文所描述的一个或多个功能。例如,提供器模块104A至104X可配置为分别从数据源102A至102X中采集数据。这样的数据的采集可通过例如包括但不限于API(应用编程接□)、远程过程调用(RPC)、函数调用、库(例如,动态链接库(DLL))、数据库查询、网页爬行和数据文件摄取(例如,从数据源接收和/或处理数据文件)的技术来实现。
[0037]提供器模块104A至104X可分别将从数据源102A至102X中接收的数据储存到存储模块106上的提供器数据131中。在一些实施例中,提供器模块104A至104X中的一些可以将不同格式的数据储存在提供器数据131中。例如,提供器模块104A可以以与提供器模块104X不同的格式储存日期。在另一实施例中,提供器模块104X可储存大写文本,而提供器模块104A可储存大写和小写文本。这可导致数据处于不同形式(例如,对齐到不同的枚举型或数字格式)并且这种差异可由规范器模块114A至114X解决(如下文更详细的论述)。在一个实施例中,提供器模块104A至104X可由数据源102A至102X的所有者提供。例如,提供器模块104A可以是由数据源102A的所有者提供的API。在另一实施例中,可以存在有不同的提供器模块的版本。例如,提供器模块104A的较晚版本可提供关于实体、关系和/或断言(例如,关于来自数据源102A中的数据)的新信息,同时保持信息的一个或多个的较早版本。信息的不同版本也可储存在提供器数据131中。
[0038]在一些实施方案中,数据可以通过爬行获取。为了支持可重新启动的数据爬行,存储模块106可以被配置为支持关于实体是否已经完全被看见或从关系中仅部分地被识别的跟踪。存储模块106可基于该信息加上上次访问的时间戳来返回待访问的挂起项目。
[0039]此外,如上所述,系统100包括规范器模块114A至114X。虽然多个规范器模块组件114A至114X在图1中示出,其他实施例可包括任意数量的规范器模块。规范器模块组件114A至114X可被配置为提供和/或促进如本文所述的一个或多个功能。例如,规范器模块组件114A至114X可配置为将提供器数据131规范化,使得提供器数据131可被系统100的其它组件(例如,匹配器模块108A至108X、推断模块IlOA至IlOX等)使用。将提供器数据131规范化包括将数据转换成为适当的和/或标准的格式。例如,日期格式可以被转换为规范的和/或所选择的格式(例如,月-日-年,或年-月-日等)。在另一示例中,文本可被转换为都是大写/小写,以便除去重音字符(例如“§”),和/或移除标点符号(例如,逗号、感叹号等)。规范器模块114A至114X可将经过处理的和/或经过转换的数据(例如,规范化提供器数据131)储存到存储模块106上的规范化数据132中。在一个实施例中,每个规范器模块114A至114X也可以不同的方式将数据规范化(例如,处理和/或转换数据)。例如,不同的规范器模块可使用大写或小写、可使用不同的日期格式、可以保留或移除不同的标点符号等。
[0040]规范器模块114A至114X可分析文本(例如,数字,字母,字母数字字符串)和把所有非ASCII重音字符转换成它们的ASCII等效形式,可将多个空白字符(white space)组替换为单空格字符,可移除所有标点符号(例如,句号、逗号、破折号等),可将字符调整为小写,和/或可修整任何前导或拖尾空白字符。规范器模块114A至114X也可转换日期(例如,日期属性,如影片的发行日期),以便调整年份值或将日期转换为特定的格式(例如,年-月-日)。规范器模块114A至114X也可将属性映射到规范化的属性集中。例如,值运动(sport)、运动(sports)、运动游戏(sports games)可被映射到“运动(Sport)”。在另一实例中,具有浪漫喜剧的类别属性的影片实体可以被映射到浪漫、喜剧或两者(例如,可以使用两种类别属性)。规范器模块114A至114X也可将数四舍五入到确定的小数位,以便规范化数据(例如,实体的属性)。规范器模块114A至114X也可将多个属性结合成一个属性。例如,玮度和经度坐标(例如,角、分和/或秒)可被转换为十进制玮度值。规范器模块114A至114X也可将一个属性拆分成多个属性。例如,具有值“伦敦,英国”的属性可被分成两个属性,其中第一个属性具有值“伦敦”且第二个属性具有值“英国”。
[0041]在一个实施例中,不同的规范器模块114A至114X可满足不同的信任级别和/或可包括在不同的信任链中。例如,如果规范器模块114A满足信任级别,则由该规范器模块114A生成的输出数据(例如,规范化数据)也可满足该信任级别。输出数据可被提供给满足该信任级别的另一模块(例如,另一规范器模块和/或匹配器模块),以保持针对输出数据的信任链。
[0042]如以上所讨论的,系统100包括匹配器模块108A至108X。虽然多个匹配器模块108A至108X在图1中示出,但其他实施例可包括任意数量的匹配器模块。匹配器模块108A至108X可以被配置为提供和/或促进如本文所述的一个或多个功能。例如,匹配器模块108A至108X可被配置为基于各种技术、算法、功能、操作和/或用户输入(从数据源102A至102X所接收的)识别数据集的实体之间的关系(例如,相同关系)。实体之间的关系可被储存在匹配器数据133中。不同的匹配器模块可识别不同的关系(例如,基于不同算法)并且不同的关系可被储存在匹配器数据133中。在一个实施方案中,匹配器模块108A至108X可识别不同的数据集中的实体之间的相同关系。例如,匹配器模块108A至108X可确定在从数据源102A接收的第一数据集中的第一演员实体与在从数据源102B接收的第二数据集中的第二演员实体是相同的(例如,匹配)。
[0043]匹配器模块108A至108X可使用多种技术、算法、功能和/或操作,以识别实体之间的相同关系。在一个实施例中,匹配器模块108A至108X可使用种子查找技术(seeded walktechnique)。所述种子查找技术使用一个或多个种子,种子包括例如通过原始调研(例如,由用户执行的调研)已发现的实体之间的一个或多个相同关系。这些种子可被称为经验证的关系,因为这些种子(例如,相同关系)被认为已经经过例如原始调研验证。在经验证的关系中的实体可以被称为种子实体。匹配器模块108A至108X可基于种子实体和其他实体之间的现有关系和基于数据重叠(例如,相同规范化名称属性和/或限定类型)使用这些种子(例如,经验证的关系)来识别候选关系。如果额外关系的阈值数可被发现在与候选关系中的两个种子实体相关联的其他实体之间,则候选关系可被评估为真(如以下更详细讨论的)。例如,如果两个或更多额外关系存在,则候选关系可被重新归类为合格关系(例如,严格匹配和精确匹配)。在这样的一个示例中,两个关系可提供用于确定关系(例如,候选相同关系)是合格关系(例如,严格匹配)还是候选关系(例如,宽松匹配)的额外关系的下限。在其他实施例中,额外关系的阈值数可能是不同的。在一个实施例中,匹配器模块108A至108X可通过使用多个经验证的关系执行种子查找。这允许匹配器模块108A至108X识别额外的相同关系,并有助于防止出现数据集内的数据的“岛”。例如,通过使用多个种子查找可允许系统100识别额外的相同关系,并且这些额外的相同关系可允许系统100分支出来并识别额外的属性和/或额外的关系。这也可允许系统100基于额外的属性和/或额外的关系来推断额外的所推断的属性和/或额外的所推断的关系。
[0044]在一个实施例中,不同的匹配器模块108A至108X可满足不同的信任级别和/或被包括在不同的信任链中。例如,如果匹配器模块114A满足一个信任级别,则由匹配器模块114A生成的输出数据也可满足该信任级别。输出数据也可提供给满足该信任级别的其他模块(例如,推断模块或合并器模块),以保持针对输出数据的信任链。
[0045]种子查找算法(在以下中更详细地讨论)是用于识别相同关系的算法的示例,所述算法由匹配器模块108A至108X实现。种子查找算法对于共生实体运作良好,能够在不同的实体类型之间漫步并发现更多的相反或相关类型实体。例如,人(例如,演员、导演等)和内容(例如,影片、节目等)之间的关系可为共生实体。在一些实施例中,种子的数量(例如,经验证的关系的数量)可以很少(例如,一个或多个)。例如,出现在大量的影片中(例如,影片实体)的一个演员(例如,演员实体)可提供一个用于上述种子查找算法的有效的种子。在其它实施例中,图1的系统100可被配置为支持其他类型的匹配器模块。在一些实施例中,匹配器模块可以被配置为提供不同级别的匹配(例如,严格匹配或宽松匹配)。
[0046]虽然种子查找算法结合图1进行了讨论,但应当理解的是,在其他实施例中,匹配器模块可使用多种其他算法来识别相同关系。例如,匹配器模块可分析实体,以便识别具有相同规范化题目、相同限定类型和具有相同的规范化名称的至少两个演职人员(例如,两个演员实体)的影片实体。在另一个示例中,匹配器模块可分析电视节目实体,并可比较所有剧集实体(所述剧集实体是电视节目实体的子实体)并识别具有相同规范化名称的剧集实体。在另一示例中,匹配器模块可分析影片实体并识别具有相同规范化名称和制作年份的影片实体。在另一示例中,匹配器模块可分析不同实体的属性并确定在实体之间匹配的属性的权重分数(例如,某些属性被给予更高的分数)。示例权重因素可以是两部影片实体的标题属性的匹配被给予了比两部影片实体的发行日期的属性的匹配更高的权重。具有比阈值分数高的权重分数的实体可被识别为具有相同关系。
[0047]还如以上所讨论的,系统100包括推断模块IlOA至110X。虽然多个推断模块IlOA至IlOX在图1中示出,但其他实施例可包括任意数量的推断模块。推断模块IlOA至IlOX可以被配置为提供和/或促进如本文所述的一个或多个功能。例如,推断模块IlOA至IlOX可基于已知的关于实体的信息(例如,基于实体的关系或属性)识别针对实体的额外的关系和/或额外的属性。额外的关系和/或额外的属性可以被称为所推断的关系和/或所推断的属性。推断模块IlOA至IlOX可与匹配器模块108A至108X进行并行和/或串行操作。当进行串行操作时,推断模块11OA至11OX可使用匹配器模块1 8A至108X的输出。例如,推断模块110 A至11OX可使用由匹配器模块108A至108X生成的匹配器数据133。当进行并行操作时,推断模块IlOA至IlOX可使用提供器模块104A至104X的输出。例如,推断模块IlOA至IlOX可使用由提供器模块104A至104X生成的提供器数据131。
[0048]推断模块IlOA至IlOX可生成和/或识别额外的属性和/或额外的关系。所述额外的属性和/或额外的关系可通过使用一组断言(例如,通过使用一个或多个断言)被标识和/或标记。例如,可以根据电视节目实体的剧集的数量来计算季的数量。在另一示例中,主力联合演员(例如,演员实体)可基于电视节目的出演人员之间的关系被识别。在另一示例中,可以基于演员之间的父母/孩子关系(例如,如果演员是某人的儿子,则这个演员可推断为男性)、其他家庭关系(例如,祖父等)、演员最受欢迎的影片和/或演员最知名的角色(例如,主要角色)来确定性别(例如,性或性别属性)。在一些实施例中,相同关系可被识别为数据集的查验结果,而不是推断结果。例如,如果一数据源提供了到与另一数据源相同的实体显示链接,则相同关系(例如,匹配)可被识别出。
[0049]在一个实施例中,推断模块IlOA至IlOX可满足不同的信任级别和/或被包括在不同的信任链中。例如,如果推断模块IlOA满足信任级别,则由推断模块IlOA生成的输出数据(例如,匹配器数据)也可满足信任级别。输出数据可提供给也满足信任级别的另一模块(例如,合并器模块),以保持针对输出数据的信任链。
[0050]推断模块IlOA至IlOX可使用多种算法生成所推断的属性(例如,新的属性)和/或所推断的关系(例如,新的关系)。例如,推断模块可使用一组(不同类型的)种子实体,并检查每个实体与其他实体之间的相同关系。推断模块可识别从这些关系中找到的所有实体之间的新的相同关系,接着遍历所有新的实体(例如,在新的相同关系中的实体)以寻找另外的相同关系。这个过程可被重复,直到再也没有新的相同关系被识别出。在另一示例中,推断模块可分析电视节目实体并可对剧集实体总数量(例如,电视节目的上部(upsides))和所找到的季数量的范围进行计数。在另一示例中,推断模块可分析演员实体,并且可检查与演员实体有出演关系的内容实体。推断模块可分析演员实体列在内容实体的演员阵容里的顺序(例如,确定哪个演员列在影片的演员阵容里的第一、第二和第三位等),并且如果演员出现在影片的演员阵容里的较高或最高位置,则可推断出该演员是这部影片中最知名的。在另一示例中,推断模块可分析人实体(例如,演员实体、导演实体、制作人实体等)和它们与内容(例如,影片实体、电视节目实体等)的关系。推断模块可基于这些关系推断特定人的职业(例如,推断某人是制作人、演员、导演等)。推断模块还可分析内容实体的类型属性,以便进一步推断特定人的职业(例如,这个人是喜剧演员、动作导演等)。推断模块也可检查人实体(例如,演员实体)之间的关系,以便识别人实体之间的联合出演关系。
[0051]如以上所讨论的,系统100还包括合并器模块112A至112X。虽然多个合并器模块112A至112X在图1中示出,但其他实施例可包括任意数量的合并器模块。合并器模块112A至112X可以被配置为通过交叉引用多个独立的数据源来揭露或产生权限自由的数据集。合并器模块112A至112X可使用一个或多个提供器数据131、规范化数据132、匹配器数据133和推断数据134来生成输出数据集。在一个实施例中,输出数据集可包括由多源的重叠的非规范事实所生成的权限自由数据。在一些实施例中,可从与相应的实体相关联的肯定属性(例如,事实)和/或关系中提取权限自由数据。例如,权限自由数据可指示特定影片在特定年份发行(例如,可指示肯定属性,例如发行日期属性)或可指示演员四十岁(例如,可指示肯定属性,如年龄属性)。来自这个过程的数据可被系统(例如,图1中的100)拥有并且该数据无需被许可便可被利用(例如,可自由地被利用)。将被理解的是,在一些实施例中,由合并器模块112A至112X生成的输出数据可不必是权限自由的。
[0052]在一个实施例中,在匹配器模块、推断模块和合并器模块所使用的算法属于提供器(例如,数据源所有者)的情况下,不同的提供器可具有不同的考虑域(例如,第一提供器可以处理诸如影片的内容,第二提供器可处理在商店里出售的产品)。这种情况可允许许多重叠,甚至是冲突的陈述。如本文所描述的,可选择一种认识论,该认识论对于给定的考虑域是值得信赖的。这种值得信赖的认识论可用来建立信任链,该信任链可从基础数据的信任开始,然后是被应用的规则的信任,接着是规则被应用的语境。
[0053]在一些实施例中,图1的系统100可被配置为通过跟踪该系统所提供的数据的访问来支持对最新知道的数据观点的提取。在一些实施例中,如果某些或所有的历史数据被需要或要求,则这些历史数据可被储存。
[0054]在一个实施例中,将数据处理链(例如,获取或收集数据集、规范化数据集、匹配实体、推断额外数据等)中的各个步骤分离成为不同的可互换的组件或模块,这可使得规则的新版本以更灵活的方式实现,而不会导致数据丢失或只会导致很少的数据丢失,从而提供了更有效的匹配技术。在另一实施例中,系统100的一个或多个特征可处理与不同所有者和提供者相关联的各种实体的多个观点。此外,系统100可以被配置为允许针对规则的不同的算法的插件和/或建立灵活的信任链。
[0055]系统100所提供的一些其他优点例如可包括灵活的链接的实现,这些链接可将不同的系统桥接在一起,从而使能许多跨功能使用的应用。在另一示例中,可在许多应用程序中启用数据。在又一示例中,相比现有的内容管理系统,与本公开相关联的技术可提供对实体的更好语义理解。在又一示例中,与本公开相关联的技术可允许数据被释放到权限自由域中。
[0056]在一些实施例中,提供器模块104A至104X、规范器模块114A至114X、匹配器模块108A至108X、推断模块11(^至11(^和合并器模块112々至112乂各自可驻留在单独的计算设备中(例如,可各自驻留在单独的服务器计算设备中)。在其他实施例中,提供器模块104A至104X、规范器模块114A至114X、匹配器模块108A至108X、推断模块IlOA至IlOX和合并器模块112A至112X中的一些可驻留在相同计算设备中。
[0057]虽然本公开内容可涉及内容(例如,影片、电视节目)和人(例如演员、导演、制片人等),应该被理解的是,本文所描述的实施例可应用于包括其他类型的实体、关系和/或属性的不同的数据领域。例如,数据源102A至102X、提供器模块104A至104A、规范器模块114A至114X、匹配器模块108A至108X、推断模块11(^至11(^、合并器模块112々至112乂和存储设备模块106可用于购物领域(例如在线购物或门店购物)。在另一示例中,匹配模块可匹配产品的规范化名称和/或产品的类型(例如,食物产品、运动产品)来识别相同关系。在又一示例中,推断模块可分析产品实体(例如,表示由商店出售的产品的实体)来识别表示捆绑产品的实体(例如,包括多个其他产品的产品)。该表示捆绑产品的实体可包括可用于生成所推断的属性和/或所推断的关系的属性和/或其他信息。推断模块也可分析产品实体以识别具有相同名称和/或品牌(例如,名称属性或品牌属性)的但具有不同的重量和/或尺寸(例如,不同的重量属性或尺寸属性)的产品。推断模块可在两个产品之间添加指示第一产品是另一个产品的更大或更小版本的关系。
[0058]客户端150A至150X可以是计算设备(例如,台式计算机、服务器计算机、平板计算机、智能电话等),该计算设备可向系统100请求输出数据集(例如,权限自由数据)。例如,客户端150A的用户可发送指示该用户想要输出数据集的消息、请求和/或其它数据。该用户也可提供信任级别和/或信任链供系统100使用以生成输出数据集。在一个实施例中,存储模块106可生成输出数据并可将输出数据储存在数据存储设备上(例如,硬盘、存储器、数据库等),从而使用户可访问所述输出数据集。在另一实施例中,存储模块106可生成输出数据集并且可将输出数据发送到用户(例如,发送数据到客户端150A)。
[0059]图2A是示出了根据一些实施例的与两个提供者和/或数据所有者相关联的两个示例数据集200和250的框图。例如,数据集200可从第一数据源被接收,数据集250可从第二数据源被接收。数据集200和250包括多个实体(例如,演员1、影片1、影片2’、电视节目1、剧集I’),这些实体使用实线框表示。某些实体可包括属性,这些属性使用虚线框表示。例如,实体演员3包括年龄属性。年龄属性的值可指示演员3的年龄。如图2A所示,虚线可指示候选关系。在端点处包括箭头的线可指示由匹配器模块所识别的和/或所确定的关系。在端点处不包括箭头的线可指示被包括在从第一数据源和第二数据源接收的数据中的关系。
[0060]在图2A中示出了使用示例数据集200和250的种子查找算法的示例。种子查找算法可以从一个种子(例如,种子关系)开始,该种子包括数据集200的实体演员X和数据集250的实体演员X’之间所验证的相同关系205。所验证的相同关系205可以是由用户执行的原始调研的结果。在数据集200中的实体、关系和/或、断言可能是从第一数据源接收的实体、关系和/或断言的子集。例如,在数据集200中的实体、关系和/或断言可被选择和/或识别,因为它们是在与实体演员X相关联的数据集200中的实体、关系和/或断言。在数据集250中的实体、关系和/或断言可能是从第二数据源接收的实体、关系和/或断言的子集。例如,在数据集250中的实体、关系和/或断言可被选择和/或识别,因为它们是在与实体演员X’相关联的数据集250中的实体、关系和/或断言。
[0061]在一个实施例中,数据集200和250的实体可从种子实体演员X和演员X’开始被遍历和/或分析,以确定是否数据集200中的一个或多个实体与数据集250的一个或多个实体具有相同关系。在第一数据集200中,演员X被识别为与若干影片实体具有出演关系,这些影片包括影片1、影片2、影片3和影片4。实体影片I还包括评论属性。评论属性可以是包括影评人对影片I的评论的文本(例如,句子和/或段落)。在第二数据集250中,演员X’被识别为与若干影片实体具有出演关系,这些影片包括影片I’、影片2’、影片3’和影片4’。在图2A的示例中,匹配器模块(例如,如图1中所示)可确定影片I与影片2具有候选相同关系210。例如,匹配器模块可分析规范器模块生成的数据(例如,规范化数据)和/或提供器模块生成的数据(例如,提供器数据),并且可确定影片I的标题(例如,标题属性)与影片I’的标题匹配。然而,实体影片I和影片I’可能不被视为具有合格的相同关系,因为与影片I和影片I’相关联的其他实体之间的额外关系的阈值数(例如,额外相同关系的阈值数)尚未确定。匹配器模块可确定影片2与影片2’具有候选相同关系215。匹配器模块也可确定影片4和影片4’没有任何关系。
[0062]匹配器模块可通过分析与实体影片2和实体影片2’有关的实体来继续遍历在数据集200和250中的实体。例如,在第一数据集200中的实体演员1、实体演员2和实体演员3与实体影片2具有出演关系。实体演员I与演员2是“儿子”关系245,该关系指示演员I是演员2的儿子(例如,男孩子)。实体演员2与演员3是“儿子”关系246,该关系指示演员2是演员3的儿子(例如,男孩子)。实体演员3包括可指示演员3的年龄的年龄属性。在第二数据集250中的实体演员I’、实体演员2’和实体演员3’与实体影片2’具有出演关系。实体演员3’包括可指示演员3’的年龄的年龄属性。实体影片2和影片2’由于他们的相同关系可被选择以用于进一步的种子查找,从而保持信任链。匹配器模块可进一步确定实体演员I与演员I’具有候选相同关系,且实体演员3与演员3’具有候选相同关系。例如,匹配器模块可确定演员I的规范化名称属性与演员I’的规范化名称属性匹配。匹配器模块可确定演员2和演员2’没有关系(例如,他们的名称属性不匹配)。
[0063]匹配器模块可通过分析与实体演员3和实体演员3’有关的实体来继续遍历在数据集200和250中的实体。演员3与实体电视节目I具有出演关系,演员3’与实体电视节目I’具有出演关系。实体电视节目I与实体剧剧集1、剧集2和剧集4具有“剧集”关系(例如,指示剧集1、剧集2和剧集4是电视节目I的剧集的关系)。实体电视节目I,与实体剧集I,、剧集2,和剧集3具有“剧集”关系(例如,指示剧集I ’、剧集2 ’和剧集3是电视节目I ’的剧集的关系)ο匹配器模块还可确定电视节目I与电视节目I’具有候选相同关系230,剧集I与剧集I’具有候选相同关系235,以及剧集2与剧集2’具有候选相同关系240。
[0064]图2B是示出了根据一些实施例的与两个提供者和/或数据所有者相关联的两个示例数据集200和250的框图。如以上所讨论的,数据集200和250包括多个实体(例如,演员1、影片1、影片2’、电视节目I和剧集I’),这多个实体使用实线框表示。一些实体可包括属性。如图2B所示,实线可指示合格关系,虚线可指示候选关系。在端点处包括箭头的线可指示由匹配器模块所识别的和/或所确定的关系。在端点处不包括箭头的线可指示被包括在从第一数据源和第二数据源接收的数据中的关系。如以上所述,如果与两个实体相关联的额外的实体之间存在阈值数量的额外关系,则这两个实体之间的候选关系(例如,宽松关系)可被重新归类为合格关系(例如,严格或精确关系)。在图2B的示例中,如果与两个实体相关联的额外实体之间存在至少两个额外关系,则这两个实体之间的候选关系可被重新归类为合格关系。
[0065]参考图2A,影片2和影片2’之间的关系215是候选相同关系。然而,演员1(该演员与影片2相关联)与演员I’(该演员与影片2’相关联)是候选相同关系220,且演员3(该演员与影片2相关联)与演员3’(该演员与影片2’相关联)是候选相同关系225。因为与两个实体影片2和影片2’相关联的额外实体(例如,演员1、演员I’、演员3和演员3’)之间存在两个额外关系(例如,关系225和220),关系215可被重新归类为合格相同关系315(如图2B所示)。同样地,关系225和230(如图2A所示)可分别被重新归类为合格相同关系325和330。
[0066]在上述种子查找示例中,从电视节目到剧集的查找的延伸基于相同关系(例如,电视节目I和电视节目I ’之间)的存在。在缺乏这种相同关系情况下,信任链可在电视节目级别结束。然而,如果信任链可在此级别上通过较弱的链接扩展,则可以构建若干有用关系。因此,在某些实施方案中,性种子查找可基于诸如候选状态或甚至更低级别的相关而继续。
[0067]通过使用示例数据集200和250生成和/或识别所推断的属性和/或所推断的关系也在图2B中示出。所推断的属性可以一种属性,该属性不是由第一数据源和第二数据源提供的数据的部分。所推断的属性可基于数据集200和250的实体之间的关系被识别(如以下更详细讨论的)。所推断的关系可以一种关系,该关系不是由第一数据源和第二数据源提供的数据的部分。所推断的关系可基于数据集200和250的实体之间的关系被识别(如以下更详细讨论的)。所推断的属性和/或所推断的关系可由推断模块(如图1所示)生成和/或识别。
[0068]例如,参考图2A,演员I与演员2是儿子关系245,该关系指示演员I是演员2的儿子。基于该儿子关系245,推断模块确定演员I是男性。参考图2B,推断模块可生成和/或识别针对演员I的性别属性且该性别属性的值可为“男性”。另一示例中,电视节目I与电视节目2具有相同关系330。通过使用相同关系330,推断模块可确定数据集200指示了剧集1、2和4是电视节目I的剧集,且剧集I’、2’和4’是电视节目I’的剧集。基于不同的剧集实体(剧集1、剧集
2、剧集I’、剧集2’、剧集3和剧集4)和剧集实体之间的关系,推断模块可确定电视节目I共有四个不同的剧集。推断模块可确定和/或识别标记为“剧集的#”的新属性,并且可设置该新属性的值为“4”以指示电视节目I共有4剧集。
[0069]推断模块也可生成和/或识别新关系360。关系360可以是“祖父”关系,该关系表明演员3是演员I的祖父。祖父关系360可基于儿子关系245和儿子关系246被推断出来。例如,如果演员I是演员2的儿子且演员2是演员3的儿子,则演员3是演员I的祖父。祖父关系360可为合格关系,即使祖父关系360不是基于阈值数量的额外关系。祖父关系360可为合格关系,因为祖父关系360是基于合格儿子关系245和合格儿子关系246。
[0070]图3是示出了根据一些实施例的示例数据集300的框图。在一个实施例中,数据集300可以是由合并器模块(如图1所示)生成的输出数据集。如以上所讨论的,合并器模块可以被配置为通过交叉引用多个独立的数据源来生成(例如,揭露或产生权限自由数据)。例如,参考图2A和2B,合并器模块可分析关系(例如,由一个或多个匹配器模块识别的合格关系和候选关系)、所推断的属性(由一个或多个推断模块生成的和/或识别的)和/或所推断的关系(由一个或多个推断模块生成的和/或识别的)。
[0071]如图3所示,数据集300包括演员I的性别属性。参考图2B,性别属性是基于与演员2的儿子关系245生成,该儿子关系指示演员I是演员2的儿子(例如,男孩)。因为性别属性可为肯定事实(例如,不是主观的或基于观点的),合并器模块可将该性别属性包括在数据集300中。数据集300也可包括演员3的年龄属性,因为年龄属性也可为肯定事实。参考图2B,数据集300不包括影片I的评论属性,因为评论属性可为规范属性(例如,可为主观的)。
[0072]在一个实施例中,合并器模块可分析由多个提供器模块、匹配器模块、规范器模块和/或推断模块生成的输出数据(例如,可分析数据提供器131、规范化数据132、匹配器数据133、推断数据134和合并器数据135)。合并器模块可能使用不同的信任级别以确定由提供器模块、匹配器模块、规范器模块和/或推断模块生成的和/或识别的关系和/或属性是否应被包括在输出数据集中。信任级别可指示针对数据(例如,实体、关系、属性等)所需的精确和/或信任级别。例如,第一信任级别可指示只有肯定事实和/或合格关系可被允许。第二信任级别可指示某些规范事实(例如,概要可被使用,但评论不应被使用)、肯定事实和合格关系可被允许。信任级别也可指示优选的提供器模块、匹配器模块、规范器模块和/或推断模块。例如,用户可希望由特定的一组提供器模块、匹配器模块、规范器模块和/或推断模块生成输出数据。多个提供器模块、匹配器模块、规范器模块和/或推断模块中的一些可满足一定的信任级别。合并器可使用由满足一定的信任级别的提供器模块、匹配器模块、规范器模块和/或推断模块生成的输出数据来生成输出数据集(例如,输出数据集300)。
[0073]在一个实施例中,输出数据集300可以是权限自由数据。例如,输出数据集300可从肯定属性(例如,事实)和/或与相应的实体关联的关系中提取出来。在另一示例中,如果规范属性的所有者允许该规范属性被自由地分配和/或使用(例如,该所有者允许对外或许可该规范属性),则输出数据集可包括该规范属性。将被理解的是,本公开的一个或多个功能可生成和输出不一定是权限自由的数据集。例如,输出数据集可包括评论属性,该属性由所有者版权保护。
[0074]图4是表示根据一些实施例的数据集的生成方法400的流程图。在一些实施方案中,方法400可由一个或多个提供器模块(如图1所示)、匹配器模块(如图1所示)、规范器模块(如图1所示)、推断模块(如图1所示)、合并器模块(如图1所示)和/或计算模块(例如,月艮务器计算设备)执行。简单地说,方法400包括获取数据集、识别数据集的实体之间的相同关系、识别所推断的属性和/或所推断的关系并产生输出数据集。方法400从块405开始,在此处该方法从第一数据源获取第一数据集和从第二数据源获取第二数据集。例如,参考图1,第一数据集(包括多个第一实体、关系和/或属性)可从数据源102A被接收,第二数据集(包括多个第二实体、关系和/或属性)可从数据源102B被接收。在块407处,方法400可规范化第一数据集和第二数据集。例如,方法400可以将日期属性(例如,日期)转换为一定格式,将名称属性(例如,名称)转换为小写或大写的情况等。参考图1,方法400可当规范化第一数据集和第二数据集时生成规范化数据132。
[0075]在块410处,方法400识别第一数据集中的第一实体和第二数据集中的第二实体之间的经验证的关系。例如,参考图2A,方法400可接收指示实体演员X和演员X’具有经验证的相同关系的数据。在块415处,方法400识别与来自第一数据集的第一实体相关联的第一实体子集和与来自第二数据集的第二实体相关联的第二实体子集。例如,参考图2A,方法400可识别数据集200和250。在块420处,方法400可确定来自第一多个实体的第三实体与来自第二多个实体的第四实体具有第一相同关系。例如,参考图2A,方法400可以识别一个或多个关系210、215、220、225、230和240。第三实体和第四实体之间的第一相同关系可以是合格关系或候选关系(如以上所讨论的)。在块425处,方法400可生成包括第一相同关系的第一输出数据。例如,参考图1,方法400可生成匹配器数据133,该匹配器数据133包括第一相同关系和/或指示第一相同关系的数据。
[0076]在块430处,方法400可识别第五实体的一个或多个所推断的关系或所推断的属性。所推断的关系或所推断的属性可基于第一多个实体与第二多个实体的实体之间和/或第一多个实体与第二多个实体的属性之间的一个或多个关系被识别。例如,参考图2B,方法400可生成、识别和/或推断实体演员I的性别属性和/或可生成、识别和/或推断祖父关系360。在块435处,方法400可生成包括所推断的关系和/或所推断的属性的第二输出数据。例如,参考图1,方法400可以生成包括所推断的关系和/或所推断的属性的推断数据134。在块440处,方法400可基于第一输出数据和第二输出数据生成第三输出数据(例如,可生成输出数据集)。例如,方法400可生成包含权限自由数据的输出数据集(如以上所讨论的)。参考图1,方法400可将输出数据集储存在合并器数据135中。
[0077]图5是表示根据一些实施例的归类关系的方法500的流程图。在一些实施方案中,方法500可由一个或多个提供器模块(如图1所示)、匹配器模块(如图1所示)、规范器模块(如图1所示)、推断模块(如图1所示)、合并器模块(如图1所示)和/或计算模块(例如,服务器计算设备)执行。简单地说,方法500包括识别两个实体之间,即第一实体和第二实体之间的相同关系以及对该相同关系进行归类。方法500从505块处开始,在此处方法500识别具有相同关系的两个实体。例如,参考图2A,方法500可识别具有相同关系215的实体影片2和影片2,。
[0078]在块510处,方法500确定与第一实体和第二实体相关联的其他实体之间是否存在阈值数的额外关系。应当理解的是,任何数可被用作额外关系的阈值数(例如,一个、两个、四个、十个等)。例如,参考图2B,方法500可确定数据集200中的与实体影片2相关联的实体是否与数据集250中的与实体影片2’相关联的实体有关系。参考图2B,方法500可确定是否实体演员1、演员3、演员I’和演员3’也有关系。如果存在阈值数的额外关系,则在块515处相同关系可被归类为合格关系(例如,严格或精确关系)。例如,参考图2B,相同关系215可被归类为合格关系,因为至少两个相同关系220和330存在。如果不存在阈值数的额外关系,则在块520处相同关系可被归类为候选关系(例如,严格或精确关系)。例如,参考图2B,相同关系210可被归类为候选关系。
[0079]图6是表示根据一些实施例的确定输出数据是否满足信任级别的方法600的流程图。在一些实施方案中,方法600可由一个或多个提供器模块(如图1所示)、匹配器模块(如图1所示)、规范器模块(如图1所示)、推断模块(如图1所示)、合并器模块(如图1所示)和/或计算模块(例如,服务器计算设备)执行。简单地说,方法400包括获取数据、确定输出数据是否满足信任级别,以及如果信任级别被满足,基于输出数据来生成输出数据集。该方法从块605开始,在此处该方法获取输出数据。例如,参考图1,匹配器模块可获取规范化数据132、推断模块可获取匹配器数据133,和/或合并器模块可获取推断数据134。
[0080]在块610处,方法600可确定信任级别是否被满足。例如,方法600可确定由特定的规范器模块生成的规范化数据是否满足信任级别(例如,可以确定规范器模块是否为可信的)。在另一示例中,方法600可确定由特定的匹配器模块生成的匹配器数据是否满足信任级别(例如,可以确定匹配器模块是否为可信的)。如果输出数据(例如,规范化数据、匹配器数据、推断数据等)不满足信任级别,则在块620处不能使用输出数据。如果输出数据不满足信任级别,则在615块处输出数据用于生成额外输出数据。在一个实施例中,如通过块615A表示的,方法600可基于输出数据识别相同关系。例如,参考图1,如果来自提供器模块的提供器数据(例如,输出数据)满足信任级别,则匹配器模块可使用提供器数据来识别实体之间的相同关系。在另一实施例中,如通过块615B表示的,方法600可基于输出数据来识别所推断的属性和/或所推断的关系。例如,参考图1,如果来自匹配器模块的匹配器数据(例如,输出数据)满足信任级别,推断模块可使用匹配器数据来识别推断的属性和/或所推断的关系。在又一实施例中,如通过块615C表示的,方法600可基于输出数据生成输出数据集。例如,参考图1,如果推断数据(例如,输出数据)和/或匹配器数据(例如,输出数据)满足信任级别,合并器模块可使用推断数据和/或匹配器来生成包括权限自由数据的输出数据集。
[0081]图7是示出了根据一些实施例的示例数据集700、720和740的框图。数据集700,720,和740可以是可接收数据集、分析/处理的数据集和/或生成输出数据集的系统的部分(例如,在图1中所示的系统100)。数据集700、720和740包括使用实线框表示的多个实体(例如,演员11A、影片10B、演员13C等)。某些实体可包括使用虚线框表示的属性。例如,实体演员12C包括年龄属性。年龄属性值可指示演员12C的年龄。数据集700、720和740中的一些属性和/或关系可为肯定的。例如,年龄、性别和性属性可为肯定属性。评论和概要属性可为规范属性。如图7所示,在端点处包括箭头的线可指示由匹配器模块和/或推断模块所识别的和/或所确定的关系。在端点处不包括箭头的线可指示当数据集被接收时被包括在该数据集中的关系。
[0082]如以上所讨论的,断言可为用于标记和/或识别属性和/或关系的术语集。断言可被规范化和/或被控制以使得该断言是规范的或通用的。存储模块(例如,图1中所示的存储模块106)可有助于跨越由系统生成和/或使用的数据集(例如,图1中所示的系统100)实行断言集。由系统所允许的断言可被称为经允许的断言集或通用的断言集。数据集700、720和740可与不同的数据提供者和/或数据所有者相关联。例如,数据集700可从第一提供器模块(用于第一数据源)被接收、数据集720可从第二提供器模块(用于第二数据源)被接收和数据集740可从第三提供器模块(用于第三数据源)被接收。
[0083 ]如图7中所示,数据集700的演员13A包括属性“性”且数据集740的演员13C包括属性“性别”。存储模块可使用断言“性别”来用于识别演员的性/性别属性。数据集700中使用的断言“性”可能不在经允许的断言集(经存储模块允许的断言)中。存储模块可通过修改断言集和/或使数据集被修改来实行断言集。在一个实施例中,存储模块可修改数据集700中的断言“性”(例如,不正确的断言)以得到经允许的断言(例如,在经允许的断言集中的断言)。例如,存储模块可以确定数据集700中的断言“性”是指识别演员的性/性别的属性。存储模块可确定在经允许的断言集中“性别”属性应被使用,并可将数据集700中的断言“性”修改成为断言“性别”。存储模块可选择性地向第一数据提供器发送消息和/或其他数据来指示断言“性”被改变为断言“性别”。在另一实施例中,存储模块在当断言不在经允许的断言集中时(例如,当断言不正确时)可不修改断言(用于关系和/或属性)。例如,存储模块可不修改数据集700中的断言“性”。存储模块可向第一数据提供器发送消息和/或其他数据来指示断言不在经允许的断言集中。存储模块可不允许数据集700被储存在针对系统的通用数据模型中,直到不正确的断言(例如,不在经允许的断言集中的断言)被改正。
[0084]在另一实施例中,存储模块也可实行针对由其他模块(提供器模块、规范器模块、匹配器模块、推断模块和/或合并器模块)生成的数据集的断言。例如,推断模块可推断出新关系(例如,所推断的关系)并且识别新关系的断言可能不在经允许的断言集中。存储模块可修改针对新关系的断言和/或可向推断模块发送消息来指示针对新关系的断言不在经允许的断目集中。
[0085]在一个实施例中,存储模块还可允许新断言被添加到经允许的断言集。例如,数据提供器可发送(经由菜单和/或用户界面)指示新断言(例如,“昵称”)应被添加到经允许的断言集的消息和/或请求。存储模块可将该消息和/或请求提供给系统的管理员。管理员可允许新断言被添加到经允许的断言集。
[0086]如以上所讨论的,系统可存储、分析和/或处理针对各种不同的数据领域的数据集。例如,系统可存储、分析和/或处理针对购物领域(例如,供应商和/或商品的采购)的数据集,并且系统也可存储、分析和/或处理针对娱乐领域(例如,影片、电视节目、演员等)的数据集。不同的数据领域可具有不同的经允许的断言集。例如,断言“物品名称”可在针对购物领域的第一经允许的断言集中,但可能不会在针对娱乐领域的第二经允许的断言集中。存储模块可确定和/或识别用于数据集的适当的一个领域(或多个领域),并可针对适当的一个领域(或多个领域)使用适当的经允许的断言集。例如,系统中的每个数据集可与一个或多个不同的领域相关联。存储模块可确定数据集中的断言是否在针对一个或多个不同的领域的经允许的断言集内。存储模块也可跨多个领域实行一组经允许的断言。例如,断言“年龄”可以是针对娱乐领域经允许的断言(例如,影片、电视节目中演员的年龄等),也可以是针对购物领域的经允许的断言(例如,顾客的年龄)。跨多个领域实行一组经允许的断言(例如,在多个领域中实行同一组经允许的断言)可允许系统用户使用来自多个领域的多个数据集以生成/创建输出数据集。
[0087]还如以上所讨论的,系统允许基于不同的信任级别和/或信任链生成不同的输出数据集。用户可向系统提供信任级别和/或信任链以指示可被用来生成输出数据集的数据集和/或数据类型。在一个实施例中,信任级别和/或信任链可识别一个或多个提供器模块、规范器模块、匹配器模块、推断模块和/或合并器模块。由所识别的模块生成的数据集可被使用(例如,可被“信任”)以生成输出数据集。例如,用户可提供指示第一提供器模块和第三提供器模块被信任的信任级别和/或信任链。系统可基于该信任级别和/或信任链来基于数据集700和740生成输出数据。系统可基于该信任级别和/或信任链而不使用数据集720。在另一示例中,用户可提供识别第一匹配器模块的信任级别和/或信任链。第一匹配器模块可识别演员IlA和演员IlC之间的相同关系761。第二匹配器模块可识别演员IlA和演员IlB之间的相同关系762。演员IlB包括指示演员IlB的年龄的“年龄”属性。演员IlB的年龄属性可不包括在输出数据集中,因为第二匹配器模块没有被指示在信任级别和/或信任链中。存储模块可确定演员IlB的年龄属性不应被用作演员IlA的年龄,因为相同关系762没有被信任。在又一示例中,信任级别和/或信任链可指示所推断的属性和/或关系是否应被用来生成输出数据集。例如,儿子关系764可指示演员IlB是演员12B的儿子且儿子关系765可指示演员12B是演员13B的儿子。基于儿子关系764和765,推断模块可推断出祖父关系763(例如,所推断的关系)以指示演员13B是演员IlB的祖父。如果信任级别和/或信任链表明所推断的属性和/或关系不应被使用,则祖父关系763可不被用来生成输出数据集(例如,可不被包括在输出数据集中)。
[0088]在另一实施例中,信任级别和/或信任链可指示当生成输出数据集时规范属性/关系、肯定属性/关系、肯定属性/关系的类型和/或规范属性/关系的类型是否要被使用。例如,信任级别和/或信任链可表明肯定属性和/或关系(例如,客观的信息,诸如年龄、日期、地点等)可被使用,但规范属性和/或关系不可以被使用。基于该信任级别,存储模块可生成包括演员13C的性别、演员12C的年龄的输出数据集,但不包括影片1A的评论和影片1C的概要。在另一示例中,信任级别和/或信任链可指示某些类型的规范属性和/或关系可被使用来生成输出数据集。例如,信任级别和/或信任链可指示概要属性可被使用(因为概要可具有更客观的质量)且评论属性不可以被使用来生成输出数据集。在又一示例中,信任级别和/或信任链可指示由其他数据源支持的肯定属性和/或关系可被使用。例如,如果多个数据集(来自多个数据提供器)针对同一演员具有相同的性/性别,则演员实体的性/性别可被使用来生成输出数据集(例如,可被包括在输出数据集中)。
[0089]正如以上所讨论的,数据和/或数据集可从不同的源和/或来源被接收。数据和/或数据集可作为原始调研(例如,包括有以人限定的条目)、观测(例如,从源数据所看到的)和/或推断(例如,原始的或所观测的数据中暗含的和/或所推断的数据)的结果被获取。在一个实施例中,信任级别和/或信任链也可基于数据的来源来指示数据是否可被用来生成输出数据集。例如,演员的13C的性别属性可基于由数据提供器授予合格的或所验证的数据(例如,人已验证的数据)。信任级别和/或信任链也可指示已由数据提供器授予合格的数据可被使用来生成输出数据集,但所推断的数据(例如,由推断模块生成的数据)不可被用于生成输出数据集。
[0090]如以上所讨论的,信任级别和/或信任链可指示数据和/或数据集是否可被使用来生成输出数据集。信任级别和/或信任链可包括指示是否可以使用数据和/或数据集来生成输出数据集的规则。例如,规则可指示来自第一提供器模块的数据集优选于来自第二提供器模块的数据集(例如,来自第二提供器模块的数据集不应该被使用,除非没有来自第一提供器模块的数据集)。在另一示例中,规则可指示如果来自提供器模块的数据集是最新的,则该数据集应被使用(例如,如果自从某特定时间起数据集已被更新和/或提供给存储模块,则数据集应被使用)。信任级别和/或信任链还可包括指示是数据和/或数据集否可被使用来生成输出数据集的列表、表和/或其他数据。例如,信任级别可包括匹配器模块列表(如以上所讨论的)。在一个实施例中,信任级别和/或信任链可被包括在匹配器模块中。例如,匹配器模块可包括(例如,可提供有)信任级别和/或信任链(例如规则、列表、表和/或其他数据)。匹配器模块可基于包括在匹配器模块中的信任级别和/或信任链生成输出数据。在另一实施例中,信任级别和/或信任链可由用户提供给存储模块。例如,用户可提供一个或多个可包括信任级别和/或信任链的文件。存储模块可基于由用户提供的一个或多个文件生成输出数据集。
[0091]图8是表示根据一些实施例的实行通用断言集的方法的流程图。在一些实施方案中,方法800可由一个或多个提供器模块(如图1所示)、匹配器模块(如图1所示)、规范器模块(如图1所示)、推断模块(如图1所示)、合并器模块(如图1所示)、存储模块(如图1所示)和/或计算模块(例如,服务器计算设备)执行。简单地说,方法800包括接收多个数据集、确定数据集是否使用通用断言集(例如,经允许的断言集)并且如果数据集不使用通用断言集则修改数据集。
[0092]方法800从块805处开始,在此处方法800从多个数据提供器、多个匹配器模块和多个推断模块中接收多个数据集。多个数据集可包括关于一个或多个实体、属性或实体之间的关系的冲突数据。例如,多个数据集可包括针对一个演员的两个不同的年龄。多个数据集可包括由多个匹配器模块识别的相同关系,并且也可包括由多个推断模块识别的所推断的数据。例如,多个数据集可包括所推断的属性和/或关系。在块810处,方法800可确定来自多个数据集的第一数据集是否识别使用通用断言集的实体、属性和关系。例如,参考图7,数据集可以使用断言“性”作为识别演员的性/性别的属性。方法800可以确定断言“性”是否被包括在所允许的断言集中。
[0093]如果数据集仅通过使用经允许的或通用的断言集来识别实体、属性和/或关系,则方法800结束。如果数据集确实通过使用不包括在经允许的或通用的断言集中的断言来识别实体、属性和/或关系,则在块815处方法800修改第一数据集以通过使用通用的断言集来识别实体、属性和/或关系。例如,方法800可修改不被允许的断言为被允许的断言(如以上所讨论的)。方法800可选择性地发送消息和/或其他数据以指示断言被改变为经允许的断言。在另一示例中,方法800可不修改断言,并可发送消息和/或其他数据以指示数据集包括一个或多个不在经允许的断言集中的断言。方法800可不允许将数据集存储在系统的通用数据模型中,直到错误的断言被改正。
[0094]在块820处,该系统可选择性地接收请求添加断言到经允许的或通用的断言集的请求。例如,在接收到指示数据集包括不在经允许的断言集中的断言的消息和/或其他数据之后,用户可向系统发送指示用户期望将断言添加到经允许的或通用数据集请求(例如,消息)。在块825处,方法800确定是否应将断言添加到经允许的或通用的断言集。例如,系统管理员可确定是否断言应被添加,并可提供指示断言是否应该或不应该被添加的用户输入。在另一示例中,系统(例如,存储模块)可基于一个或多个规则、添加断言到经允许的或通用数据集的请求(由系统接收的)的数量、与通用的或经允许的数据集相关联的领域等来确定断言是否应被添加。如果断言应被添加到通用的或经允许的断言集(例如,系统管理员提供了指示断言应被添加的用户输入),则在块830处方法800可将断言添加到通用的或经允许的断言集。如果断言不应当被添加到通用的或经允许的断言集(例如,系统管理员提供了指示断言不应被添加的用户输入),则方法800结束。
[0095]图9是表示根据一些实施例的数据集的生成方法。在一些实施方案中,方法900可由一个或多个提供器模块(如图1所示)、匹配器模块(如图1所示)、规范器模块(如图1所示)、推断模块(如图1所示)、合并器模块(如图1所示)、存储模块(如图1所示)和/或计算模块(例如,服务器计算设备)执行。简单地说,方法900包括接收多个数据集、接收信任级别的指示并基于信任级别生成输出数据集。
[0096]方法900从块905处开始,在此处方法900从多个数据提供器、多个匹配器模块和多个推断模块中接收多个数据集。多个数据集可包括由多个匹配器模块识别的相同关系和/或由多个推断模块识别的所推断的数据(如以上所讨论的)。在910块处,方法900接收信任级别的指示。信任级别可指示一个或多个经允许的数据提供器、经允许的匹配器模块、经允许的推断模块、经允许的关系限定符或经允许的属性限定符。例如,信任级别和/或信任链可识别一个或多个提供器模块、规范器模块、匹配器模块、推断模块和/或合并器模块是可信的(例如,如以上所讨论的)。由所识别的模块生成的数据集可被使用(例如,可被“信任”)以生成输出数据集。在另一示例中,信任级别和/或信任链可指示所推断的属性和/或关系是否应该用于生成输出数据集。在又一示例中,信任级别和/或信任链可指示当生成输出数据集时规范属性/关系、肯定属性/关系、肯定属性/关系的类型和/或规范属性/关系的类型是否要被使用。在一个示例中,信任级别和/或信任链可指示某些类型的规范属性和/或关系的可被使用来生成输出数据集。在又一示例中,信任级别和/或信任链可指示由其他数据源支持的肯定属性和/或关系可被使用。在又一示例中,信任级别和/或信任链也可基于数据的来源指示数据是否可被用来生成输出数据集。在又一示例中,信任级别和/或信任链可包括指示数据集和/或数据类型可被使用来生成输出数据集的规则(例如,规则指示优选的匹配器模块、提供器模块等的规则,如以上所讨论的)。
[0097]在块915处,方法900可识别多个数据集中满足信任级别和/或信任链的第一子集。在一个实施例中,方法900也可识别数据集内满足信任级别和/或信任链的数据子集。例如,方法900可识别数据集内满足信任级别和/或信任链的关系和/或属性的子集。在920块处,方法900可基于第一子集生成输出数据集。输出数据集可以包括相同关系的子集和所推断的数据的子集。
[0098]图10是根据一些实施例的计算设备1000的框图。虽然对某些特定的特征进行了说明,但本领域技术人员将从本公开意识到,出于简洁的目的,多种其他特征没有进行说明,以便不至于模糊本文公开的实施例的更相关的方面。为此,作为非限制性的示例,在一些实施例中,计算装置1000包括一个或多个处理单元(中央处理单元,CPU)1002(例如,处理器)、一个或多个输出接口 1003、存储器1006、编程接口 1008和一个或多个用于互连这些和其他各种组件的通信总线1004。
[0099]在一些实施例中,通信总线1004包括在系统组件之间互连和控制通信的电路。存储器1006包括高速随机存取存储器,如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备;并可包括非易失性存储器,如一个或多个磁盘存储设备、光盘存储设备,闪速存储器设备或其他非易失性固态存储设备。存储器1006可选择性地包括一个或多个位于远离中央处理单元1002的存储设备。存储器1006包括非暂态计算机可读存储介质。此外,在一些实施例中,存储器1006或存储器1006的非暂态计算机可读存储介质存储下列程序、模块和数据结构或它们的子集,包括可选操作系统1030和媒体中继服务模块1040。在一些实施例中,一个或多个指令被包含在逻辑和非暂态存储器的组合中。操作系统1030包括处理各种基本系统服务和执行硬件相关任务的程序。
[0100]在一些实施例中,提供器模块1041被配置为从不同的数据源采集和/或获取数据。为此,在一些实施例中,提供器模块1041包括一组指令1041a和启发式算法与元数据1041b。在一些实施例中,规范器模块1043被配置为规范化数据集(如以上所讨论的)。为此,在一些实施例中,规范器模块1043包括一组指令1043a和启发式算法与元数据1043b。在一些实施例中,匹配器模块1045被配置为识别实体之间的关系(如以上所讨论的)。为此,在一些实施例中,匹配器模块1045包括一组指令1045a和启发式算法与元数据1045b。在一些实施例中,推断模块1047被配置为识别所推断的关系和所推断的属性(如以上所讨论的)。为此,在一些实施例中,推断模块1047包括一组指令1047a和启发式算法和元数据1047b。在一些实施例中,合并器模块1048被配置为生成可包括权限自由数据(如以上所讨论的)的输出数据集。例如,合并器模块1048可以基于信任级别和/或信任链生成输出数据集。为此,在一些实施例中,合并器模块1048包括一组指令1048a和启发式算法和元数据1048b。在一些实施例中,存储模块1049被配置为实行通用断言集和/或基于信任级别和/或信任链生成输出数据集。为此,在一些实施例中,存储模块1049包括一组指令1049a和启发式算法和元数据1049bo
[0101]提供器模块1041、规范器模块1043、匹配器模块1045、推断模块1047、合并器模块1048和存储模块1049被示为驻留在同一计算设备1000中。应当理解的是,在其他实施例中,提供器模块1041、规范器模块1043、匹配器模块1045、推断模块1047、合并器模块1048和存储模块1049的任意组合可驻留在单独的计算设备中。例如,提供器模块1041、规范器模块1043、匹配器模块1045、推断模块1047、合并器模块1048和存储模块1049中各个模块可驻留在单独的计算设备中。
[0102]此外,图10的目的更多的是作为在特定的实施例中呈现的各种特征的功能性的描述,这与本文所描述的实施例的结构示意图相对。正如被本领域普通技术人员所认识到的,单独示出的各项可被合并并且一些项可被分开。例如,在图10中被示出为分开的一些功能模块可被实现在单个模块中,并且单个功能块的多种功能可通过在各种实施例中的一个或多个功能块来实现。模块的实际数量和特定功能的划分以及它们之间的功能分配将随着实施例的不同而变化,并可部分取决于针对特定实施例所选择的硬件、软件和/或固件的特定组合。
[0103]本公开描述了多种特征,其中没有一个单一的特征可单独地承担本文所描述的优点(benefits)。将被理解的是,本文所描述的各种特征的组合、修改或省略对于本领域普通技术人员来说是显而易见的。本文所特别描述的实施例以外的其他组合和子组合将对于普通技术人员而言是显而易见的,并且意在形成本公开的一部分。各种方法在本文中结合多个流程图步骤和/或阶段进行了描述。将被理解的是,在许多情况下,某些步骤或阶段可被结合在一起,使得在流程图所示的多个步骤或阶段可作为单独的步骤或阶段被执行。此外,某些步骤和/或阶段可被分解成为要被单独执行的额外的子组件。在一些情况下,步骤和/或阶段的顺序可被重新安排并且某些步骤和/或阶段可被完全省略。此外,本文所描述的方法应被理解为是开放式的,使得在这里所示的和所描述的的步骤和/或阶段以外的额外的步骤和/或阶段也可被执行。
[0104]本文所描述的系统和方法的一些方面可有利地通过使用,例如,计算机软件、硬件、固件、或计算机软件、硬件、固件的任意组合来实现。计算机软件可包括存储在计算机可读介质(例如,非暂态计算机可读介质)中的计算机可执行代码,该代码在被运行时执行本文所描述的功能。在一些实施例中,计算机可执行代码由一个或多个通用计算机处理器运行。本领域的技术人员根据本公开将会认识到,任何可通过使用要被运行在通用计算机处理器上的软件来实现的特征或功能也可通过使用不同的硬件、软件或固件的组合来实现。例如,这样的模块可通过使用集成电路的组合完全地由硬件实现。替选地或额外地,这样的特征或功能可通过使用专门设计以执行本文所描述的特定功能的计算机完全地或部分地实现,而不是由通用计算机实现。
[0105]多分布式计算设备可取代本文所描述的任何一种计算设备。在这种分布式的实施例中,一个计算设备的功能是分布式的(例如,贯穿网络),以至于一些功能在各个分布式计算设备上被执行。
[0106]—些实施例可参考方程、算法和/或流程图图示被描述。这些方法可使用在一个或多个计算机上可执行的计算机程序指令来实现。也可实现为计算机程序产品,无论是单独的,或作为装置或系统的组件。就这方面而言,流程图的每个方程、算法、块或步骤以及它们的组合可通过硬件、固件和/或软件来实现,该软件包括体现在计算机可读程序代码逻辑中的一个或多个计算机程序指令。正如将认识到的,任何这样的计算机程序指令可被加载到一个或多个计算机上,该计算机包括但不限于通用计算机或专用计算机或其他以生产机器的可编程处理装置,使得运行在(一个或多个)计算机或(一个或多个)其它可编程处理设备上的计算机程序指令实现在方程、算法和/或流程图中指定的功能。还将被理解的是,每个方程、算法、在流程图图示中的块以及它们的组合可通过基于硬件的专用计算机系统实现,该系统执行指定的方程或步骤,或通过专用硬件和计算机可读程序代码逻辑装置的组合实现。
[0107]此外,计算机程序指令,例如其体现在计算机可读程序代码逻辑中,也可被储存在计算机可读存储器(例如,非暂态计算机可读介质)中,该计算机可读存储器可以以特定方式指导一个或多个计算机或其它可编程处理设备运作,使得储存在计算机可读存储器中的指令实现在(一个或多个)流程图的(一个或多个)块中的指定功能。计算机程序指令也可被加载到一个或多个计算机或其它可编程处理设备上,以引发一系列操作步骤在一个或多个计算机或其它可编程处理设备上被执行以产生计算机实现过程(computer-1mplementedprocess),使得在计算机或其它可编程处理装置上运行的指令提供用于实现在方程、算法和/或流程图中指定的功能的步骤。
[0108]本文描述的一些或全部方法和任务可由计算机系统执行并完全自动化。在某些情况下,计算机系统可包括多个不同的计算机或计算设备(例如,物理服务器、工作站、存储阵列等),该计算机或计算设备经由网络通信和进行交互操作以执行所描述的功能。每个这样的计算设备通常包括一个处理器(或多处理器),该处理器运行储存在存储器或其他非暂态计算机可读存储介质或装置中的程序指令或模块。本文公开的各种功能可体现在这种程序指令中,尽管一些或所有公开的功能可替代地在计算机系统的特定应用电路(例如ASIC或FPGA)中实现。在计算机系统包括多个计算设备的情况下,这些设备可以但并不必须位于同地。通过将物理存储设备诸如固态存储器芯片和/或磁盘转换为不同状态,所公开的方法和任务的结果可被持续地储存。
[0109]除非上下文另外明确要求,否则贯穿整个说明书和权利要求,词“包括”、“包含”和类似的用语应被解释为包含的意义,而不是排除的或穷尽的意义,也就是说是“包括,但不限于”的意义。词“親合的”,如本文通常使用的,是指两个或多个元件可直接连接,或通过一个或多个中间元件连接。此外,词“本文” “以上” “以下”和类似意义的用语在当使用在本申请中时,应当指作为一个整体的本申请,而不是本申请的任何特定部分。在上下文允许的情况下,在以上【具体实施方式】中的使用单数或复数形式的词也可分别包括复数或单数。关于两个或多个项的列表的词“或”,该词涵盖了下列对该词的所有解释:列表中的任何项、列表中的所有项以及列表中的项的任何组合。使用在本文中的词“示例性”仅用来指“作为示例、实例或图示”。本文所描述为“示例性”的任何实现不一定被解释为优选地或优于其他实现。
[0110]还应当理解的是,尽管术语“第一”、“第二”等可在本文用来描述各种元件,但是这些元件不应被这些术语限制。这些术语仅用来将一个元件与另一个区分。例如,第一接触可被称为第二接触,并且类似地,第二接触可以被称为第一接触,这改变了描述的意思,只要在所有出现“第一接触”的地方一致地被重命名并且所有出现“第二接触”的地方一致地被重命名。第一接触和第二接触都为接触,但它们不是相同的接触。也如在实施例和所附权利要求的描述中所使用的,单数形式“一”、“一个”和“该”也意在包括复数形式,除非上下文另外明确指示。还应当理解的是,本文所使用的术语“和/或”是指并且包含一个或多个相关联的所列出的项的任意或所有可能的组合。
[0111]此外,本文所使用的术语中,术语“如果”可根据上下文被解释为“当”或“一旦”或“响应于确定”或“根据确定”或“响应于检测到”所陈述先决条件为真。同样地,措辞“如果确定【所陈述先决条件为真】”或“如果【所陈述先决条件为真】”或“当【所陈述先决条件为真】时”可根据上下文被解释为“一旦确定”或“响应于确定”或“根据确定”或“一旦检测到”或“响应于检测到”所陈述的先决条件为真。
[0112]本公开并非意在受限于本文所示的实施方案。本公开所描述的实施方案的各种修改对本领域技术人员是很容易显而易见的,并且本文定义的一般原理可应用于其它实施方案中,而不偏离本公开的精神或范围。本文所提供的本发明的教导可应用于其他方法和系统,并且不限于以上所描述的方法和系统,并且以上所描述的各种实施例的元件和动作可被结合以提供进一步的实施例。因此,本文所描述的新方法和系统可体现在其他各种形式中;此外,可在形式上对本文所描述的方法和系统做出各种省略、替换和改变,而不脱离本公开的精神。所附权利要求及它们的等同旨在涵盖这些形式或修改,因为它们落入本公开的范围和精神内。
【主权项】
1.一种匹配数据的方法,所述方法包括: 从第一数据源获取第一数据集并从第二数据源获取第二数据集,第一数据集包括第一多个实体,且第二数据集包括第二多个实体; 识别来自所述第一多个实体的第一实体和来自所述第二多个实体的第二实体之间的经验证的关系; 基于所述第一多个实体和所述第二多个实体之间的一个或多个经验证的关系来确定来自所述第一多个实体的第三实体与来自所述第二多个实体的第四实体具有第一相同关系;以及 生成包括所述第一相同关系的第一输出数据。2.根据权利要求1所述的方法,还包括: 基于来自所述第一数据源的所述第一数据集来识别与所述第一实体相关联的第一实体子集;以及 基于来自所述第二数据源的所述第二数据集来识别与所述第二实体相关联的第二实体子集; 其中确定所述第三实体与所述第四实体具有所述第一相同关系是还基于所述第一实体子集和所述第二实体子集的。3.根据权利要求1所述的方法,还包括: 规范化所述第一数据集和所述第二数据集中的一者或多者。4.根据权利要求1所述的方法,其中识别所述第一实体和所述第二实体之间的经验证的关系包括: 接收指示所述经验证的关系的数据。5.根据权利要求1所述的方法,其中所述第一相同关系包括候选关系。6.根据权利要求1所述的方法,其中所述第一相同关系包括合格关系。7.根据权利要求6所述的方法,其中所述第一相同的关系基于与所述第三实体和所述第四实体相关联的其他实体之间的额外关系的阈值数。8.根据权利要求1所述的方法,其中所述第一实体和所述第二实体之间的所述经验证的关系包括第二相同关系。9.根据权利要求1所述的方法,还包括: 基于所述第一多个实体与所述第二多个实体的实体之间或所述第一多个实体与所述第二多个实体的属性之间的一个或多个关系来识别第五实体的所推断的关系和所推断的属性中的一者或多者。10.根据权利要求9所述的方法,其中所述所推断的关系或所推断的属性进一步基于肯定断言。11.根据权利要求9所述的方法,还包括: 生成第二输出数据,所述第二输出数据包括所推断的关系和所推断的属性中的一者或多者。12.根据权利要求11所述的方法,还包括: 基于所述第一输出数据和所述第二输出数据生成第三输出数据,所述第三输出数据包括权限自由数据。13.根据权利要求1所述的方法,还包括: 从多个数据提供器、多个匹配器模块和多个推断模块接收多个数据集,所述多个数据集包括由所述多个匹配器模块识别的相同关系和由所述多个推断模块识别的所推断的数据; 接收信任级别的指示,所述信任级别指示经允许的数据提供器、经允许的匹配器模块、经允许的推断模块、经允许的关系限定符和经允许的属性限定符中的一者或多者; 识别所述多个数据集中满足所述信任级别的第一子集;以及 基于所述第一子集生成输出数据集,所述输出数据集包括相同关系的第二子集和所推断的数据的第三子集。14.根据权利要求1所述的方法,还包括: 从多个数据提供器、多个匹配器模块和多个推断模块接收多个数据集,所述多个数据集包括关于实体、属性、实体之间的关系中的一者或多者的冲突数据,还包括由所述多个匹配器模块识别的相同关系,并且还包括由所述多个推断模块识别的所推断的数据; 确定来自所述多个数据集的第一数据集是否通过使用通用断言集来识别实体、属性和关系; 当所述第一数据集没有使用所述通用断言集时,修改所述第一数据集以通过使用所述通用断言集来识别实体、属性和关系。15.—种系统,包括: 处理器;和 逻辑和非暂态存储器的组合,所述逻辑和非暂态存储器包括指令,所述指令当由所述处理器至少部分地运行时促使所述系统: 从第一数据源获取第一数据集和从第二数据源获取第二数据集,第一数据集包括第一多个实体,且第二数据集包括第二多个实体; 识别来自所述第一多个实体的第一实体和来自所述第二多个实体的第二实体之间的经验证的关系; 基于所述第一多个实体和第二多个实体之间的一个或多个经验证的关系来确定来自所述第一多个实体的第三实体与来自所述第二多个实体的第四实体具有第一相同关系;生成包括所述第一相同关系的第一输出数据。16.根据权利要求15所述的系统,其中所述第一相同关系包括合格关系。17.根据权利要求16所述的系统,其中所述第一相同的关系基于与所述第三实体和所述第四实体相关联的其他实体之间的额外关系的阈值数。18.根据权利要求15所述的系统,其中所述逻辑和非暂态存储器的组合还使得所述处理器: 基于所述第一多个实体与所述第二多个实体的实体之间或所述第一多个实体与所述第二多个实体的属性之间的一个或多个关系来识别第五实体的所推断的关系和所推断的属性中的一者或多者。19.根据权利要求18所述的系统,其中所述逻辑和非暂态存储器的组合还使得处理器: 生成第二输出数据,所述第二输出数据包括所推断的关系或所推断的属性中的一者或多者。20.根据权利要求19所述的系统,其中所述逻辑和非暂态存储器的组合还使得处理器: 基于所述第一输出数据和所述第二输出数据生成第三输出数据,所述第三输出数据包括权限自由数据。21.—种非暂态机器可读介质,包括多个指令,所述指令响应于在计算设备上被运行,使得所述计算设备执行根据权利要求1-14中的任一项的方法。
【文档编号】G06Q10/10GK105900117SQ201580003792
【公开日】2016年8月24日
【申请日】2015年1月3日
【发明人】史蒂芬·C·塔拉米, 劳伦·E·伯特兰, 皮特·雷
【申请人】思科技术公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1