用于数字实体相关的技术的制作方法

文档序号:14959004发布日期:2018-07-18 00:08阅读:145来源:国知局

知识图是一种表示与对象有关的、捕获这些对象之间的重要关系的信息的方式。知识图表用于数字信息检索和组织系统,以存储和组织可能的海量信息,诸如在互联网上发现的信息。为了将来自多个不同来源的知识组合成统一的可挖掘的知识图,重要的是要提供用于数字实体匹配的有效技术。实体匹配是一种确定数据集中的两个实体是否指代相同的现实世界对象的任务。

用于执行自动实体匹配的计算机的设计是具有挑战性的,因为涉及同一对象的两个数字实体仍然可以包含不同的属性集,原因例如在于跨不同知识图的属性选择差异、格式化不一致性、不准确性等。此外,需要有效的计算技术来处理包含在与不同知识域(包括例如历史、科学、娱乐等)相关联的大规模知识图中的绝对数量的数字实体,这样的知识域诸如是在互联网上发现的知识域。

已有的实体匹配技术包括将两个实体的直接属性彼此进行数字比较,而不必利用与这些实体到其他实体的连接相关联的其他属性。在一些情况下,这可能不会利用所有可用信息来获取准确匹配。此外,已有的实体匹配技术大部分是基于队列的,其中最高候选匹配被输入并且存储在队列中。这样的技术对硬件和存储器具有显著需求,并且可能无法很好地扩展到具有数百万乃至数十亿数字实体的大型知识图。

因此,期望提供用于数字实体匹配的技术,该技术不仅捕获知识图实体的局部特性而且捕获知识图实体的整体特性,同时以高效的方式实现所需要的计算。



技术实现要素:

提供本发明内容部分是为了以简化的形式介绍将在以下具体实施方式部分中进一步描述的一些概念。本发明内容部分无意确定所要求保护的主题的关键特征或基本特征,也无意用于限制所要求保护的主题的范围。

简而言之,本文中描述的主题的各个方面涉及用于使用数字实体相关来从组分图中生成复合知识图的技术。在一个方面,可以使用多分辨率编码方案将与知识图中的主实体相关联的属性值编码成基元。基于编码基元,可以通过比较实体对之间的编码基元以标识“种子对”来构建配对图。配对图可以被扩展为还包括与种子对相关的主语和宾语实体以及与图的“关系实体”相关的实体。

基于所构建的配对图,可以对于量化一对实体之间的相似度的每个候选对来计算相似度度量。在一个方面,可以通过在与候选对直接或间接相关联的所有基元上对加权着陆概率求和来计算相似度度量。所计算的相似度度量可以被传播到其他连接的候选对。可以基于所计算的相似度度量来对候选对执行匹配分辨,以确定实体匹配。

根据以下详细描述和附图,其他优点将是清楚的。

附图说明

图1示出了用于整合来自组分知识图的信息的示例性系统。

图2和3描绘了根据本公开的具有说明性格式的组分知识图。

图4示出了其中来自组分知识图的实体和关系已经被匹配和合并的复合知识图。

图5示出了根据本公开的用于构建配对图的方法的示例性实施例。

图6示出了种子块的示例性实施例。

图7示出了扩展块的示例性实施例。

图8示出了基于上文中描述的组分知识图的配对图的中间状态。

图9示出了在主语和宾语扩展之后的配对图的另一中间状态。

图10示出了配对图的又一中间状态。

图11示出了说明诸如可以在计算块处实现的相似度度量计算的简化配对图。

图12说明性地示出了简化的示例性配对图的计算的相似度度量。

图13示出了根据本公开的方法的示例性实施例。

图14示出了根据本公开的装置的示例性实施例。

图15示意性地示出了可以执行上述方法和过程中的一个或多个的非限制性计算系统。

图16示出了根据本公开的方法的替代示例性实施例。

具体实施方式

本文中描述的技术的各个方面通常涉及用于从具有数字实体相关特征的组分图中生成复合知识图的技术。下面结合附图阐述的详细描述旨在作为示例性手段“用作示例、实例或说明”的描述,并且不应当被解释为比其他示例性方面优选或有利。出于提供对本发明的示例性方面的透彻理解的目的,详细描述包括具体细节。对于本领域技术人员来说清楚的是,可以在没有这些具体细节的情况下实践本发明的示例性方面。在一些情况下,以框图形式示出了众所周知的结构和设备,以避免模糊本文中呈现的示例性方面的新颖性。

图1示出了用于整合来自组分知识图的信息的示例性系统100。注意,系统100仅用于说明目的,并不表示限制本公开的范围,例如限制为任何特定数目的知识数据库、图、功能块划分等。

在图1中,第一知识数据库110包括第一知识图112,并且第二知识数据库120包括第二知识图122。知识数据库110、120中的每一个可以对应于例如以有组织的知识图112、122的形式存储信息的硬件和/或软件系统。在某些示例性实施例中,数据库110、120可以进一步提供用户界面(未示出)以访问所存储的底层信息,例如从知识图112、122检索信息,或者向知识图112、122写入信息,或者以其他方式修改所存储的知识图。在示例性实施例中,数据库110、120中的任一个或两者可以对应于例如使用互联网协议与一个或多个用户通信的一个或多个服务器计算机。

存储在知识图112、122中的信息可以包括与一个或多个知识域相关联的知识。这样的域可以包括但不限于涵盖体育、电影、音乐、历史、科学、工程学等的知识域,并且通常可以包含以知识图格式可获取并且可表示信息的任何类型的知识域。下文参照图2和图3来描述用于表示知识图的特定说明性格式,但是应当理解,本公开的技术通常可以适用于任何其他类型的知识图格式。

图2描绘了根据本公开的具有说明性格式的知识图200。注意,知识图200是来自娱乐知识域(例如,电影)的简化示例。应当理解,知识图200仅是为了说明本公开的某些方面的目的而被描述,并且为了便于讨论而被大大简化。知识图200并不表示将本公开的范围限制为任何特定知识域、类型、结构、大小、节点或连接的数目等。此外,虽然下文中描述说明性知识图格式,但是应当理解,本公开的技术可以容易地应用和/或扩展到本文中未明确公开的替代知识图格式,并且这样的替代示例性实施例被认为是在本公开的范围内。

在图2中,具有圆形形状的每个节点在本文中也被表示为“实体”。应当理解,“实体”包含数字实体,即,用于由数字计算机处理的现实世界对象或抽象的数字表示。例如,节点220、230(分别具有标签“ml”和“p2”)是实体的示例。具有矩形形状的每个节点在本文中也被表示为“属性”,其中包含的文本或其他信息对应于该属性的“值”。例如,节点210是具有文本值“missionimpossible”的属性的示例。应当理解,属性值以数字形式表示,并且在本文中也可以被称为“数字属性值”。诸如215、225等线条或“边”通常可以表示实体与属性(例如,边215)之间的关联或两个实体(例如,边225)之间的关联。

知识图200中的每个实体可以进一步被分类为主实体或关系实体。主实体可以由与一个或多个“显式”属性的关联来定义,这样的属性例如是具有在知识图的上下文之外被引用的值或表示的属性。例如,也被标记为“ml”的节点220对应于电影实体。由于节点220与是显式属性的电影名称(即“missionimpossible”210)相关联,所以ml被适当视为“主实体”。

相比而言,关系实体不需要与具有在知识图之外被引用的值或指示的显式属性相关联。关系实体可以存在于知识图中,以连接主实体并且表征主实体之间的这种连接的属性。例如,也被标记为“p2”的节点230对应于“演出”实体,并且可以表征由在电影ml中主演的某个角色的男演员或女演员a2的演出。应当理解,演出p2本身并不与显式属性相关联,因此演出p2被适当认为是“关系”实体。

存在于知识图200中的实体和边可以使用具有[主语、谓语、宾语]格式的描述符列表(例如,资源描述框架(rdf)三元组)来完全指定。特别地,“主语”可以对应于实体的名称,“谓语”可以表示主语的属性,并且“宾语”可以表示属性的值。例如,诸如[ml、entity.class、电影]等的描述符可以指示实体ml具有对应于电影的类(或类型)。描述符[ml、movie.name、“missionimpossible”]可以指示实体ml具有电影名称“missionimpossible”。注意,描述符[ml、movie.name、“missionimpossible”]也在图2中以图形方式被示出为边215,而描述符[ml、entity.class、电影]在图2中被省略以便于说明,即使它可以被认为是知识图200的一部分。

注意,由“谓语”表示的主语属性通常也可以包含“关系”属性,在这种情况下,“宾语”可以对应于主语与之具有指定类型关系的另一实体。例如,诸如[p1、performance.actor、al]等描述符可以指示由实体p1表示的演出与由实体al表示的演员具有“演出中的演员”关系。

基于以上定义,可以使用如下文中的表1所示rdf三元组格式来进一步指定关于知识图200的信息。注意,为了便于说明,并非表1中的所有信息都以图形方式显示在图2中。

表1.知识图200的样本规范

从上文中的描述中可以理解,知识图200包括关于电影“missionimpossible”、在电影中出现的演员(包括“tomcruise”和“douglas”)以及他们在电影中相应人物角色的信息。知识图200进一步指示演员“tomcruise”也出现在电影“vanillasky”中。

图3描绘了与知识图200不同的知识图300。在示例性实施例中,知识图300可以驻留在与知识图200不同的知识数据库中,例如,知识图200与第一知识数据库110中的第一知识图112相对应,并且知识图300与第二知识数据库120中的第二知识图122中的第二知识图114相对应。下文中的表2使用上文参照图2描述的rdf三元组格式来指定关于图3中的知识图300的信息。再次注意,为了便于说明,并非表2中的所有信息都以图形方式显示在图3中。

表2.知识图300的样本规范

为了将来自多个不同来源的知识、诸如知识图112和知识图122等整合到统一的可挖掘框架中,期望匹配和合并在组分知识图中找到的信息,并且利用组分知识图中存在的预先存在的关系和信息。特别地,返回到图1,框130可以对知识图112、122执行知识图匹配/合并以生成复合知识图140。给定复合知识图140,相应地,对来自知识数据库的信息的数字请求142可以通过从第一知识图112和第二知识图122两者导出的实体和关系被准确且有效地解决。可以用于使用下文中描述的技术进行处理,例如在以数字形式表示的一个或多个搜索串方面制定数字请求142。

在框130处执行的处理的一个方面,实体匹配或相关确定两个被单独命名的实体是否指代相同的基础现实世界对象,例如是同一对象的不同实例或表示。在这种情况下,最好将这些实体相互匹配,并且将它们标识为对应于单个对象。因此,复合知识图有利地跨分离的知识数据库对各种知识元素进行整合,并且进一步减少了由单独知识数据库中的记录的可能重叠或重复所引起的冗余。在说明书和权利要求书中,“实体匹配”也可以被称为“实体关联”。

例如,图4示出了复合知识图400,其中来自组分知识图200、300的实体和关系已经被匹配和合并。特别地,图200中的节点m2和图300中的节点m4已经被匹配为对应于合并图400中的同一电影ml4(“vanillasky”)。匹配实体的其他实例包括被合并为节点al2(演员“tomcruise”)的节点a2和a4、被合并为节点cl2(人物“ethanhunt”)的节点c5和c2,等等。

注意,尽管实体匹配,但是图2和图3中的节点ml(电影“missionimpossible”)和m3(电影“missionimpossibleiii”)在图4中分别被保存为单独的节点ml1和ml3。特别地,虽然电影ml和m3在电影名称、人物列表等方面有很多相似之处,但是它们仍然是截然不同的电影。因此,理想情况是,框130将节点m1和m3标识为“不匹配”,并且将它们的身份保留为合并图400中的单独实体。

从上文中描述的示例中应当理解,标识两个匹配或不匹配实体的困难在于解决具有相似属性(诸如电影名称“missionimpossible”和“missionimpossibleiii”)的节点之间的差异。用于关联实体的已有技术可以仅使用有限的信息来标识两个实体之间的匹配,例如电影标题或其他个体实体属性。这样的技术可以不利用从实体的周围邻居中提取的信息(例如,与其他实体的连接以及这样的其他实体的属性)来确定是否存在匹配。例如,同一演员“tomcruise”(例如,共享相同姓名和其他传记数据的演员实体)与名为“vanillasky”的两个单独的电影实体(例如,跨两个知识图)相关联的这一事实应当改善这两个电影实体之间的匹配可信度。类似地,共享同一名字“tomcruise”的两个演员实体之间的匹配可信度也可以受到与它们连接的其他实体以递归方式的影响。

另一个方面,用于知识图中的实体匹配的已有技术通常是基于队列的,其中候选匹配被存储到优先级队列中。这样的基于队列的技术的禁止性存储器要求表示它们可能不容易适应web规模大小的知识图。

图5示出了根据本公开的用于构建配对图501的方法500的示例性实施例。注意,图5仅出于说明的目的而示出,并不表示将本公开的范围限制为所示出的任何特定方法。

在图5中,在框510处(本文中也表示为“编码框”或“编码器”)接收第一知识图502和第二知识图504(在本文中也统称为“组分”知识图),框510使用优化编码方案来编码存在于知识图实体中的显式属性。特别地,图502、图504中的信息最初可以使用上文中描述的rdf三元组格式(例如,[主语、谓语、宾语])来格式化。

在示例性实施例中,框510使用“多分辨率”编码方案对与知识图502和504中的每个实体相关联的显式属性进行编码。特别地,可以通过以下来对任何显式属性进行编码:生成具有与属性值重叠的最低分辨率的第一输出元素、具有与属性值重叠的较高分辨率的第二输出元素,等等,直至具有与属性值重叠的最高分辨率的最终输出元素。然后将得到的一组输出元素添加到实体的输出“元素袋”中。元素袋包括与实体相关联的所有编码元素。

可以使用多分辨率编码进行编码的属性值类型包括数字、日期/时间、地名(例如,{“newyork”,“syracuse,newyork”,“syracuse,newyork,usa”})等。此外,任意文本串也可以使用多级方法来表示,其中在这样的情况下的“较低分辨率”可以被理解为对应于例如文本串的单个词或较小n元(n-gram),而“较高分辨率”可以对应于例如个体词的较长连结,无论是按顺序还是不按顺序。

在示例性实施例中,多分辨率编码可以根据诸如下面参考表3描述的一组规则来具体实现。注意,表3中描述的规则仅出于说明的目的而描述,并不表示将本公开的范围限制为多分辨率编码的任何特定属性或用于编码实体属性值的任何特定规则。应当理解,考虑到本公开,表3中描述的某些规则可以容易地由本领域普通技术人员修改,并且这样的替代示例性实施例被认为是在本公开的范围内。

表3.实体编码规则

在示例性实施例中,如表3中所述,具有文本或字符串值的任何显式属性可以生成一组编码元素(也表示为“基元”),包括:针对显式属性中的每个单词(或“标记”)一个元素(根据规则1),包括针对原始短语的一个元素(根据规则2),针对m个标记的滑动窗口内的每个不同词或标记对(或n元语法)的一个元素(根据规则2a),以及每个minhash一个元素(根据规则3)。应当理解,minhash或者min-wise无关排列位置敏感哈希方案可以表示哈希技术,其中根据基于相似程度的概率,相似的文本串具有相同的哈希。

作为规则1和2的示例,如果诸如“电影宣传语”等显式属性类型具有值“thegreatestshowonearth”,n=2,并且m=5,则所生成的输出元素袋可以包括以下元素:根据规则1生成的五个元素{“the”,“greatest”,“show”,“on”,“earth”},根据规则2)的一个元素{“thegreatestshowonearth”},以及根据规则2a)的四个2元元素{“thegreatest”,“greatestshow”,“showon”,“onearth”}。

在一个示例性实施例中,根据规则4),具有日期和/或时间值的任何属性可以使得根据上文中描述的多分辨率编码技术从最低精度到最高精度生成包括用于所提供的每个日期精度等级的一个元素的一组元素。在示例性实施例中,每个元素可以是所有较低精度的累积。例如,如果日期被提供为yyyymmdd,则可以生成3个元素:{yyyy,yyyymm,yyyymmdd}。如果日期为yyyymm,则生成2个元素:{yyyy,yyyymm}。

在一个示例性实施例中,根据规则5)和6),具有数字的任何属性可以引起生成包括针对该数字的一个元素以及针对该数字的一个或更多个连续较低精度舍入版本的一个元素的一组元素。例如,如果数字是2128,则生成的元素可以包括{2128,2120,2100}等。

在一个示例性实施例中,根据规则7)和8),具有url值的任何属性可以生成包括以下的元素:针对每个url的一个元素和针对每个url的每个规范化版本的一个元素。

在一个示例性实施例中,根据规则9),除了根据上文中给出的规则(例如,用于文本、日期和/或时间、数字等)来编码属性值之外,还可以生成附加元素,其中相应的属性名称与根据上述规则生成的每个元素级联。例如,如果演员实体的“actor.name”属性的值为“tomcruise”,则除了根据用于“文本和字符串值”的规则生成的三个元素之外,还可以如下生成三个附加元素:{“actor.name:tom”,“actor.name:cruise”,“actor.name:tomcruise”}。特别地,每个元素与相应属性的名称级联,分隔符可选地用冒号表示。

在一个示例性实施例中,根据规则10),为被称为“身份属性”的特殊属性的值生成的元素可以进一步与根据上述规则生成的每个元素级联。例如,对于“actor”实体,属性“actor.name”被认为是特殊的身份属性,因为它明确地标识了实体。因此,为该身份属性生成的元素可以与根据上文中的规则为该实体生成的每个其他元素级联。例如,如果身份属性“actor.name”具有值“tomcruise”,则生成的另外一组元素可以包括例如{“tom:1962”,“cruise:1962”,“tomcruise:1962”,“tom:syracuse”,“tom:syracuse,ny”}等。

基于上文中描述的编码方案,应当理解,实体匹配(例如,如图1的框130处所执行的)可以通过将一个实体的编码元素与另一实体的编码元素相关联而进行。应当理解,诸如上文中描述的多分辨率编码元素有利地消除了对用于有其他方式标识实体对之间的匹配的广泛规则和算法的需求,例如使用机器学习技术来导出实体的每个字段的最佳权值等。因此通过先验地选择属性值的“分辨率”的优选维度,多分辨率编码和相关促进了对实体匹配的确定。

回到图5,在知识图502、504中的实体在框510处被编码之后,可以将编码的知识图(包括所生成的元素袋)提供给框520(在本文中也表示为“种子框”),框520从主实体生成种子对520a。特别地,种子对生成基于初始计算的相似度度量来标识足够相似的主实体对(例如,来自分离的知识图502、504)。

图6示出了框520的示例性实施例520.1。在图6中,在框610处,选择特定实体类(例如,电影、演员等)用于进一步处理。在示例性实施例中,在框610处仅选择与主实体相关联的类。

在框620处,为与所选择的类中的每个实体相关联的元素袋中的每个词或元素计算词得分。

在一个示例性实施例中,第一图g1中的词或元素w的词得分可以基于如下计算的逆文档频率(idf)得分(等式1):

其中c表示特定类,e指代实体,以及算子|·|返回集合中的元素的数目。应当理解,idf1(w,c)与图g1的类c中w的出现频率的倒数有关:w在c中出现的频率越高,idf1(w,c)的值越小。例如,在某些情况下,诸如“the”等相对常见的词可以具有比诸如“mission”等不太常见的词更低的idf1得分。可以类似地为第二图g2中的词或元素w计算idf得分idf2。

在框630处,为具有共有类和词的实体对计算相似度度量,其中实体对中的每个实体取自不同的图。

在一个示例性实施例中,可以如下根据上文中描述的idf得分来计算来自分离的图的、共享单个类c的两个实体e1、e2之间的初始相似度得分(等式2):

其中所指示的求和是在两个实体e1、e2共有的所有词或元素w上执行的。

在框640处,可以将具有在框630处计算的最高相似度得分的实体对{e1,e2}指定为“种子对”520.1a。

在框650处,可以在两个图共有的所有类c上执行框610至640的重新迭代。

在示例性实施例中,可以使用例如mapreduce算法来有效地执行框620、630处的词得分和相似度得分的计算。所计算的进一步优化可以包括例如丢弃具有非常低的idf得分的词(例如,对应于“停止”词),并且丢弃具有最高分的k个匹配之外的实体对。

返回到图5,在框520处从主实体生成种子对之后,可以将生成的种子对提供给框530(本文中也表示为“扩展框”),框530通过从初始种子对520a扩展以并入其他(例如,非主要或关系)实体来生成配对图501。

图7示出了扩展框530的示例性实施例530.1。在图7中,在框710处,将在框520处生成的种子对520a视为配对图501的“已有对”。

例如,图8示出了对于前面在上文中描述的说明性知识图200、300的框710之后的配对图501的第一中间状态501.1。在图8中,配对810、820、830、840表示在框520之后已经从知识图200、300生成的种子对。在图8中,配对810、820、830、840中的每个进一步被示出为与来自实体对的输出元素袋的一个或多个代表性元素相关联,其中每个代表性元素在该对中的实体之间被共享。例如,对810包括具有共有元素“mission”812和“impossible”814的实体ml和m3。与一个配对相关联的每个元素说明性地通过指向该配对的方向的箭头来与该配对连接。

在框710之后,在框720处,将配对图501扩展为还包括与已有配对中的实体相关的主语和宾语实体,例如,如由表征组分知识图502、504的rdf三元组所指定的那些实体。

例如,图9示出了在框720处的主语和宾语扩展之后的配对图501的第二中间状态501.2。在图9中,配对图501已经被扩展为还包括配对910,其由实体(p1、p4)组成。特别地,配对910的一个实体(p1)是图200的rdf三元组(p1、movie.performance、ml)的主语,其中ml(已有配对810中的实体)是一个宾语,而配对910的另一实体(p4)是图300的rdf三元组(p4、movie.performance、m3)的主语,其中m3(已有配对810中的另一实体)是一个宾语。如图所示,对920、930类似地与已有配对810、820、840相关。

应当理解,在框720处的扩展过程中,可以生成冲突对,例如,其中知识图中的实体与另一知识图中的多于一个的其他实体配对。例如,图9中的配对915(p1、p5)与配对910(p1、p4)冲突——两个配对910、915不能一起存在,因为图200中的演出实体p1只能对应于来自图300的一个实体(p4或p5)。因此,应当移除冲突对之一——检查表明配对915是不正确的并且应当被移除。为了自动解决这样的冲突并且仅保留相关配对,所采用的技术可以包括共享终端属性和稳定联姻启发式。

在框720之后,在框730处,将配对图501扩展为包括耦合到关系实体对的实体。例如,图10示出了在框730之后的配对图501的第三中间状态501.3。在图10中,配对1010(c1、c4)耦合到关系实体对910,并且因此被包括在配对图中。类似地,耦合到关系实体对930的配对1030(c3、c6)也被包括。注意,元素1012(“agent”)和1032(“david”)、1034(“ames”)也耦合到它们各自的实体对1010、1030。

返回到图5,在扩展框530生成配对图530a之后,在框540(本文中也表示为“计算”框或“相关器”)处执行对于配对图530a中的每个已有配对的相似度度量计算。任意配对u中的两个实体的所计算的相似度在本文中被量化为相似度度量sim(u)。

在一个示例性实施例中,sim(u)可以基于u中的两个实体的元素表示袋中的匹配元素的存在来计算。在一个示例性实施例中,元素对sim(u)的贡献可以用它们的相对信息内容来加权。例如,诸如“the”或“of”等频繁出现的元素可以被加权得小于诸如“mission”或“impossible”等生频率较低的元素。在另一示例性实施例中,sim(u)也可以解释连接到u和/或在u附近的其他实体对的所计算的相似度。

在示例性实施例中,sim(u)可以如下明确计算(等式3):

sim(u)=∑wprob(w→u);

其中每个w表示基元(例如,出现在输出元素袋中的元素),并且prob(w->u)表示“随机冲浪者”从给定基元w开始、在配对u处着陆的着陆概率,例如根据随机冲浪者模型的着陆概率。特别地,假设随机冲浪者在基元w处不断开始旅行,则冲浪者从基元w开始在节点u处着陆的概率将决定w对u中的实体对的相似度的贡献。

注意,等式3以w表示sim(u),其中w不仅可以对应于与u直接相关联的基元,而且还可以对应于与(直接或间接)连接到u的其他对相关联的基元。特别地,如果v是以w作为基元的任何实体对(本文也表示为“扩展对”),则从w开始、在配对u处着陆的概率可以表示如下(等式4):

prob(w->u)=∑v∈vwp(v)prob(v→u);

其中p(v)是在从w开始在v处着陆的概率,prob(v->u)是从配对v开始、在配对u处着陆的概率,并且vw是共享基元值w的所有配对的集合。注意,u本身也可以是vw的成员(例如,如果w对u和连接到u的其他对是共有的),在这种情况下,prob(v->u)=prob(u->u)=1,其中v=u。通常,连接到u但不包括u本身的配对v在本文中也可以表示为v∈vw,v≠u。

根据随机冲浪者模型,假设从w开始,随机冲浪者或者以概率∈保持在w处,或者以概率1-∈在随机方向上进行一步。如果存在deg(w)(在本文中也表示为“基元的度”),则这样的方向可能是从w发出的,使得在一次迭代之后,随机冲浪者以概率着陆在任何节点υ∈vw处,则等式4也可以表示如下(等式5):

鉴于此,等式3可以表示如下(等式6):

其中~表示“正比于”。

改变相同顶点的求和和组合项的顺序,等式6b也可以表示如下(等式7):

=∑v∈vwprob(v→u)·isim(v);(等式7b)

其中表示节点v的初始相似度度量,并且被计算为节点v的所有基元的度的倒数的总和。

图11示出了说明相似度度量计算诸如可以在框540处实现的简化配对图1100。注意,图11仅出于说明性目的进行描述,并不表示将本公开的范围限于明确示出的任何特定实体或计算。

在图11中,假设需要为图10中的u=节点840计算sim(u),其对应于演员实体的a2、a4对。假设u仅与一个显式属性“tomcruise”相关联,该显式属性与两个基元“tom”和“cruise”相对应,但是应当理解,任意节点通常可以与输出元素袋中存在的任何多个基元相关联。u进一步耦合到与一对演出实体p2、p5相对应的节点920(或v1),一对演出实体p2、p5又耦合到与一对人物实体c2、c5相关联的节点1020(或v2)。

在图11中,还假设与u相关联的基元“tom”也与节点1120(或v4)和1130(或v5)相关联,与v2相关联的基元“hunt”也与另一节点1110(或v3)相关联,并且假设v2耦合到另一节点1140(或v6)。

基于图1100,可以如下使用上文中描述的技术来计算初始相似度度量(等式8):

鉴于此,sim(w)可以如下计算(等式7b、9):

sim(u)~∑v∈vwprob(v→u)·isim(v);(等式7b)

sim(u)~isim(u)+∑v∈vw,v≠uprob(v→u)·isim(v);(等式9a)

=isim(u)+prob(v2→u)·isim(v2);(等式9b)

=1.33+prob(v2→v1)·prob(v1→u)·1.5;(等式9c)

如果假设v2以概率1/2转变到v1,并且v1以概率1转变到u,则等式9c可以表示如下(等式10):

sim(u)~1.33+0.5·1·1.5=2.08。(等式10)

以这种方式,可以为配对图中的所有实体对计算相似度度量。应当理解,上文中描述的相似度度量计算将每一对v的所有共享基元w包含到初始相似度度量isim(v)中。因此,一旦计算出isim(v),所有终端节点(例如,基元w)的值可以从配对图中移除。这显著减轻了构建配对图的存储器需求,并且通过将随机冲浪者的起点减少到仅仅非终端节点,进一步简化了计算。

在框540处的相似度计算之后,相似度度量sim(u)可用于配对图中的每一对,如图12所示的对于简化的示例性配对图1200。注意,配对图1200仅出于说明目的,并不表示将本公开的范围限制为任何特定类型或尺寸的配对图、或者可以适应的相似度度量的任何幅度或范围的值。进一步注意,图12所示的相似度度量的值仅出于说明的目的而示出,并不表示对应于本文中在其他地方讨论的任何特定配对图或属性的实际计算。

在图12中,每一对被指派顶点名称vn,其中n表示索引,并且与相应的经计算的相似度度量sim(vn)一起被示出。在示例性实施例中,sim(vn)可以根据上文中参考框540描述的技术来计算。

在本文中也表示为“聚合器”的框550处,执行匹配分辨以将所计算的相似度度量转换为对哪些配对构成匹配并且将被包括在最终配对图501中的最终确定。特别地,假设存在来自第一知识图的实体a和来自第二知识图的多个候选实体b1、b2等,与实体a可以与多个候选实体b1、b2等配对。在框540之后,相似度度量sim(a,b1)、sim(a,b1)等将可用于候选配对(a,b1)、(a,b1)等中的每一个。在一个示例性实施例,可以通过选择具有远大于实体a的其他候选配对的对应相似度度量sim(a,b*)的候选配对(a,b*)来做出哪个配对构成匹配的最终选择,例如,对于所有bx≠b*,sim(a,b*)>2·sim(a,bx)。这样的用于匹配分辨的技术在本文中也可以被表示为“稀疏邻域”确定。

应当理解,给定如上文中描述的来自框540的已计算的相似度度量,除了稀疏邻域确定之外,用于执行匹配分辨的其他技术也可以容易地采用,例如考虑到候选配对的其他统计以及候选配对所连接的其他实体等。这样的替代示例性实施例被认为是在本公开的范围内。

图13示出了根据本公开的方法的示例性实施例1300。注意,图13仅出于说明的目的而示出,并不表示将本公开的范围限制为明确描述的任何特定方法。

在图13中,在框1310处,针对多个知识图实体中的每一个,将与每个知识图实体相关联的数字属性值编码成至少一个基元。

在框1320处,将和第一知识图实体相关联的至少一个基元与和第二知识图实体相关联的至少一个基元相关以生成匹配对。

在框1330处,接收针对信息的数字请求。

在框1340处,利用上述匹配对中的一个匹配对的至少一个数字属性值来对上述针对信息的数字请求进行响应。

图14示出了根据本公开的装置的示例性实施例1400。注意,图14仅出于说明的目的而示出,并不表示将本公开的范围限制为明确描述的任何特定装置。

在图14中,编码器1410对于多个知识图实体1401、1402中的每一个,将与每个知识图实体相关联的数字属性值1410a、1410b编码成至少一个基元。相关器1420将和第一知识图实体相关联的至少一个基元与和第二知识图实体相关联的至少一个基元相关以生成匹配对1420a。

接口1430接收针对信息的数字请求1431,并且利用上述匹配对的至少一个数字属性值1432来对上述针对信息的数字请求进行响应。

图15示意性地示出了可以执行上述方法和过程中的一个或多个的非限制性计算系统1500。计算系统1500以简化的形式示出。应当理解,在不脱离本公开的范围的情况下,实际上可以使用任何计算机架构。在不同的实施例中,计算系统1500可以采取大型计算机、服务器计算机、台式计算机、膝上型计算机、平板电脑、家庭娱乐计算机、网络计算设备、移动计算设备、移动通信设备、游戏设备等形式。

计算系统1500包括处理器1510和存储器1520。计算系统1500可以可选地包括图15中未示出的显示子系统、通信子系统、传感器子系统、相机子系统和/或其他组件。计算系统1500还可以可选地包括例如用户输入设备,诸如键盘、鼠标、游戏控制器、相机、麦克风和/或触摸屏。

处理器1510可以包括被配置为执行一个或多个指令的一个或多个物理设备。例如,处理器可以被配置为执行作为一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其他逻辑构造的一部分的一个或多个指令。这样的指令可以被实现以执行任务,实现数据类型,变换一个或多个设备的状态,或者以其他方式达到期望的结果。

处理器可以包括被配置为执行软件指令的一个或多个处理器。另外地或替代地,处理器可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑机器。处理器可以是单核或多核的,并且在其上执行的程序可以被配置用于并行或分布式处理。处理器可以可选地包括分布在两个或更多个设备中的各个组件,这些设备可以远程定位和/或被配置用于协调处理。处理器的一个或多个方面可以由以云计算配置被配置的远程可访问的联网计算设备虚拟化和执行。

存储器1520可以包括被配置为保存由处理器可执行以实现本文中描述的方法和过程的数据和/或指令的一个或多个物理设备。在实现这样的方法和过程时,可以变换存储器1520的状态(例如,以保存不同的数据)。

存储器1520可以包括可移除介质和/或内置设备。存储器1520可以包括光存储器设备(例如,cd、dvd、hd-dvd、蓝光盘等)、半导体存储设备(例如,ram、eprom、eeprom等)和/或磁存储设备(例如,硬盘驱动器、软盘驱动器、磁带驱动器、mram等)等。存储器1520可以包括具有以下特征中的一个或多个的设备:易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和内容可寻址。在一些实施例中,处理器1510和存储器1520可以被集成到一个或多个常见设备中,诸如专用集成电路或片上系统。

存储器1520还可以采用可以用于存储和/或传输可执行以实现本文中描述的方法和过程的数据和/或指令的可移除计算机可读存储介质的形式。可移除计算机可读存储介质1530可以采取cd、dvd、hd-dvd、蓝光光盘、eeprom和/或软盘等形式。

应当理解,存储器1520包括存储信息的一个或多个物理设备。术语“模块”、“程序”和“引擎”可以用于描述被实现为执行一个或多个特定功能的计算系统1500的一个方面。在一些情况下,这样的模块、程序或引擎可以经由处理器1510执行由存储器1520保存的指令来实例化。应当理解,不同的模块、程序和/或引擎可以从相同的应用、服务、代码块、对象、库、例程、ap1、函数等来实例化。同样,相同的模块、程序和/或引擎可以由不同的应用、服务、代码块、对象、例程、ap1、函数等来实例化。术语“模块”、“程序”和“引擎”意在涵盖单个或一组可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。

在一个方面,计算系统1500可以对应于包括存储器1520的计算装置,存储器1520保存由处理器1510可执行以进行以下操作的指令:接收来自用户的信息请求;从与上述信息请求相关的知识数据库接收数据;并且将上述数据传输给用户,知识数据库通过以下操作来构建:接收包括多个第一实体和第一关系的第一知识图的属性值;接收包括多个第二实体和第二关系的第二知识图的属性值;为上述第一和第二知识图的上述接收到的属性值中的每一个,生成至少一个基元;基于至少一个基元,将至少一个第一实体与至少一个第二实体相关以生成至少一个匹配对;以及生成包括多个实体和关系的复合知识图,上述生成复合知识图包括利用上述至少一个匹配对来标识复合知识图的至少一个实体。注意,这样的计算设备将被理解为对应于物质的过程、机器、制造或组成。此外,应当理解,如本说明书和权利要求书中提及的存储器不对应于或包含载波或信号本身,例如处于通过某种介质传播的状态下的电信号或电磁信号。

图16示出了根据本公开的方法的替代示例性实施例1600。注意,图16仅出于说明的目的而示出,并不表示将本公开的范围限制为明确描述的任何特定方法。

在图16中,在框1610处,为多个扩展对中的每个扩展对生成初始相似度度量。上述多个扩展对中的每个可以耦合到至少一个候选对。上述至少一个候选对和上述多个扩展对中的每一个可以包括第一知识图实体和第二知识图实体。每个知识图实体可以具有至少一个关联属性值。

在框1620处,将每个候选对的相似度度量生成为直接或间接耦合到候选对的所有上述至少一个扩展对的初始相似度度量的加权和。每个权值可以包括从相应的扩展对开始、在候选对处着陆的概率。

在框1630处,基于条件来将候选对标识为匹配实体对,条件包括上述候选对具有比另一候选对的相似度度量更大的相似度度量。

在框1640处,接收针对信息的数字请求。

在框1650处,利用上述匹配实体对的至少一个属性值来对上述针对信息的数字请求进行响应。

在本说明书和权利要求书中,应当理解,当元件被称为“连接到”或“耦合到”另一元件时,它可以直接连接或耦合到另一元件或者可以存在中间元件。相反,当元件被称为“直接连接到”或“直接耦合到”另一元件时,不存在中间元件。此外,当元件被称为“电耦合”到另一元件时,表示在这样的元件之间存在低电阻路径,而当元件被称为简单地“耦合”到另一元件时,在这样的元素之间可以存在或可以不存在低电阻路径。

本文中描述的功能可以至少部分由一个或多个硬件和/或软件逻辑组件来执行。作为示例而非限制,可以用于实现具有本文中描述的功能的专用计算机的说明性类型的硬件逻辑组件包括微处理器、现场可编程门阵列(fpga)、程序特定集成电路(asic)、程序特定标准产品(assp)、片上系统(soc)、复杂可编程逻辑器件(cpld)等。

尽管本发明易于进行各种修改和替代构造,但是本发明的某些示出的实施例在附图中示出并且已经在上文进行了详细描述。然而,应当理解,无意将本发明限制到所公开的具体形式,而是相反,本发明应当覆盖落入本发明的精神和范围内的所有修改、替代构造和等同形式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1