基于rdf图路径游走的知识发现装置及方法

文档序号:6370871阅读:209来源:国知局
专利名称:基于rdf图路径游走的知识发现装置及方法
技术领域
本发明涉及面向链接数据的知识发现领域,特别是涉及一种基于RDF图路径游走的知识发现装置和方法。
背景技术
近年来,互联网正经历巨大的变革,其发展趋势正从文件互联网逐步发展成为数据互联网。万维网的发明人Tim berners-Lee号召政府部门和个人开发自己的数据并发布到网上,这样其他人就可以关联并使用这些数据。链接数据并不添加语义到信息中,但是它 能够更好地承载已经拥有的语义信息。因此,尽管链接数据并不是语义的,但是数据层面的链接将能够为创建一个真正的语义网络奠定坚实的基础。链接数据作为一种数据表达的新媒介,强调数据资源彼此之间的关联关系,因而更具有机器可读性,使得机器能够自动地理解和处理海量的在线数据。在这种背景下,如何能有效地从海量的链接数据中进行知识发现就成为一个亟待解决的重要问题。链接数据利用RDF (Resource Description Framework)资源描述框架进行知识表达,因此可以被建模成为一个有向的、带标注的多概念RDF图,在RDF中,数据资源可以被描述成一个三元组,包含主语、谓词和宾语,如图I所示。一个RDF三元组能够反映出一个简单语句的基本结构,例如“Bob interests_in Al book”,上述语句表明Bob对人工智能领域的书籍感兴趣。主语是一个在线用户“Bob”,宾语是一个具体的商品类别“AIBook”,分别表示为RDF图中的一个节点,而谓词是有向边上的标注“interests」!!”,方向是由主语“Bob”指向宾语“Al Book”,所表达的含义是用户Bob对Al Book这个领域感兴趣。基于图游走的知识发现方法已经成为面向链接数据进行知识发现的一种重要方法,传统基于链接数据的知识发现方法主要关注于单个子图,往往忽略了多个子图彼此之间的关联关系,因而所能推理出的衍生知识十分有限。还有一部分方法综合考虑了多个子图之间的关联关系,但是由于这些方法关于子图的关联模式是固定的,不能够实现独立子图之间的动态构建和重组,缺乏足够的灵活性和多变性,从而使得一些隐式的知识很难被发现和挖掘出来。

发明内容
本发明的目的在于提供一种面向链接数据基于RDF图路径游走的知识发现方法,通过基于RDF图路径的游走,动态地构建和重组RDF图,从而推理出新知识。本发明提供了一种基于RDF图路径游走的知识发现装置,用于在采用资源描述框架RDF建模的链接数据中发现知识,包括输入模块,链接数据RDF模块,推理模块和输出模块,其中输入模块接收链接数据、推理规则和控制命令的输入,将链接数据发送到链接数据RDF模块进行RDF建模,将推理规则发送到推理模块进行存储,并接收和转发控制命令;链接数据RDF模块对所获取的链接数据进行预处理,利用RDF对链接数据进行知识表达,建立RDF图;并接收输入模块转发的控制命令,基于RDF图的路径游走寻找新的路径;推理模块用于存储推理规则,并根据RDF游走路径查找推理规则,进行匹配并推理出新知识; 输出模块,用于输出推理模块推理出的新知识。进一步地,所述的链接数据RDF模块包括通用领域本体单元,RDF预处理单元和RDF知识路径寻找单元,其中通用领域本体单元,用于记录资源标识符URI和描述链接数据之间的属性关系;RDF预处理单元,利用通用领域本体,根据链接数据构造RDF图;RDF知识路径寻找单元,用于根据控制命令输入的游走起点,控制智能体从起点出发,在RDF图中游走寻找新的路径,如果两个节点间具有事实关系或两个节点间根据推理··规则具有事实关系,那么智能体就沿着所述事实关系对应的RDF链接从一个节点步移到达另外一个节点,如果两个RDF图之间有共同节点,那么智能体通过跳转从一个RDF图跳转到另外一个RDF图中去,当游走到某个节点不再满足其他任何条件时,那么路径游走过程停止,或返回起点去找寻其他可能的路径。进一步地,所述的通用领域本体单元中包括有朋友的朋友工程FOAF本体,语义链接在线社区工程SIOC本体,电子商务Web词汇GoodRelations本体或用户自定义的本体中的一个或多个。采用通用领域本体,可以方便的加入和减少本体,灵活多样。所述RDF预处理单元还用于接收推理模块推理出的新知识,在RDF图中增加新的链接。通过及时更新RDF图,可以动态地重组RDF图,增加智能体的游走路径,从而推理出更多新的知识。本发明还提供了一种基于RDF图路径游走的知识发现方法,用于在采用资源描述框架RDF建模的链接数据中发现知识,包括步骤步骤I、接收链接数据,利用通用领域本体对链接数据进行RDF建模,形成RDF图;步骤2、接收控制命令,控制智能体在RDF图中游走寻找新的路径;步骤3、根据智能体游走路径,查询推理规则进行知识推理;步骤4、输出推理出的新知识。进一步地,所述步骤2包括步骤控制命令输入游走起点,智能体从起点出发,在RDF图中游走寻找新的路径;如果两个节点间具有事实关系,那么智能体就沿着所述事实关系对应的RDF链接从一个节点步移到达另外一个节点;如果两个RDF图之间有共同节点,那么智能体通过跳转从一个RDF图跳转到另一个RDF图中去;当游走到某个节点不再满足其他任何条件时,那么路径游走过程停止,或返回起点去找寻其他可能的路径。进一步地,所述方法还包括如果两个节点间根据推理规则具有事实关系,那么智能体就沿着所述事实关系对应的RDF链接从一个节点步移到达另外一个节点。所述不再满足其他任何条件是指当前节点后面没有新的节点,或者推理规则中没有和当前节点相匹配的推理规则。
所述方法进一步包括智能体每经过一个节点,都去查询与该节点有关的推理规则进行匹配,根据相匹配的规则进行知识推理,从而及时发现新的知识,并在RDF图中增加新链接。可以及时发现新的知识,动态更新RDF图。本发明同现有技术相比,具有的有益效果是本发明所提出的方法针对链接数据的多图模态,依据子图的独立性能够灵活地构建复杂多概念图,然后能有效地建立链接数据中实体关系和图路径之间的映射模式,通过在子图内部的步移和子图之间的跳转并依据知识推理规则动态的发现新知识并更新RDF图,具有较强的灵活性和多变性。本发明基于RDF图路径游走的装置通过链接数据RDF模块为概念多且关系复杂的链接数据构建RDF图,其中RDF知识路径寻找单元能够通过在子图内部的步移和子图之间的跳转,寻找更多的游走路径,并结合推理模块推理出更多的隐式知识,因而能够从海量复杂的链接数据中发现更多的隐式知识,在实际应用中具有广泛的价值。


图I是RDF的一个典型示例图;图2是本发明知识发现装置结构图;图3是本发明知识发现装置链接数据RDF模块结构示意图;图4是本发明实施例采用的RDF图;图5是本发明知识发现方法流程图;图6是描述基于RDF图进行知识推理的示意图。
具体实施例方式下面结合附图和实施例对本发明技术方案做进一步详细说明,以下实施例不构成对本发明的限定。如图2所示,本发明面向链接数据基于RDF图路径游走的知识发现装置,包括输入模块201,链接数据RDF模块202,推理模块203和输出模块204。输入模块201接收链接数据、推理规则以及控制命令的输入,将链接数据发送到链接数据RDF模块202进行RDF建模,将推理规则发送到推理模块203存储,并接收控制命令转发到链接数据RDF模块202通过智能体的游走寻找新的路径。链接数据RDF模块202对所获取的链接数据进行RDF建模,利用资源描述框架RDF对链接数据进行知识表达,并建立RDF图,并根据控制命令通过智能体的游走寻找新的路径。链接数据RDF模块202如图3所示,包括通用领域本体单元301,RDF预处理单元302和RDF知识路径寻找单元303。其中通用领域本体单元301记录资源标识符URI和描述链接数据之间的属性关系,该通用领域本体可以根据需要选择现有的本体,如FOAF (朋友的朋友工程),SIOC (语义链接在线社区工程)和GoodRelations (电子商务Web词汇)等现有本体,也可以自定义本体;RDF预处理单元302用来对链接数据进行预处理,构造RDF图,完成RDF建模;具体地,一个RDF三元组能够清晰地表达出一个关于链接数据的陈述,其中主语是一个RDF的资源标识符URI (Universal Resoure Identifier)引用或者一个空白节点;谓词是一个RDF的URI引用;宾语是一个RDF的URI引用,或者是一个文字标注或一个空白节点。一个RDF三元组可以被建模成一个RDF子图,主语作为一个节点指代某个概念,谓词指代概念的属性特征或者指代主语与宾语之间的关系,宾语作为一个节点指代另一个概念或一个具体的属性值,有向边从主语指向宾语,属性值或关系描述被标注在有向边上。子图和子图之间通过共同的节点彼此关联在一起能够构成一个完整的链接数据超图G,G可以被看作是由若干个子图g,,,(W > I, GG)所组成。每个子图都能够独立地描述两个实体之间的关联关系或者是某个实体所具备的某种属性,子图和子图之间既彼此独立,又通过共同的节点相互关联在一起从而组成一个复杂图,即链接数据可以被建模成一个包含多个概念和多种不同关系的复杂RDF超图G。本实施例如图4所示,图G由三个子图组成,分别是ga,gb和g。。子图83和8)3通过共同节点“Bob”相互关联起来,而子图gb和g。通过共同节点“Peter”相互关联起来。其中子图ga描述的是用户Bob的FOAF文件,表明用户Bob所感兴趣 的领域。子图gb描述的是用户Bob和Peter之间的关系,即Bob是Peter的朋友。子图g。是用户Peter的FOAF文件,描述了用户Peter是Al Book领域的专家。综上所述,利用RDF图能够很好地对链接数据进行建模。RDF知识路径寻找单元303根据智能体的游走来寻找新的路径,根据控制命令输入的起点,控制智能体在RDF图中游走寻找新的路径。推理模块203用于存储推理规则,当智能体游走到某个节点并显示出这个节点存在某种关系时,智能体就到推理模块203中检索与该关系相关的推理规则,当事实情况满足推理规则中要求的所有条件时,就可以根据相匹配的规则推理出新知识。然后将新知识发送到输出模块204进行输出。其中事实情况就是指当前链接数据所呈现出来的情况,例如Bob对人工智能领域的书籍Al Book感兴趣,这就是一条事实。同时推理模块203将推理出来的知识反馈给链接数据RDF模块202,链接数据RDF模块202在原RDF超图中增加一条代表新知识的RDF链接。需要说明的是,推理规则主要依据以下两个方面进行制定一是经验常识,类似于数学上的公理,是不证自明的;这类推理规则主要由领域专家根据经验和常识来制定,例如一个用户经常在线浏览电影的影评,那么可以推断出该用户对电影领域感兴趣。另一方面的推理规则来源于数据挖掘与关联分析,通过对一定样本空间的数据进行挖掘和分析,从而发现链接数据之间的隐藏关系或预测出一定的结论。接下来采用归纳推理的方法,利用测试数据集对上述发现的关系或结论的正确性加以检验,验证通过的最终转化为推理规则,即根据某些链接数据及这些数据之间的相互关系能够推理出一定的结论。例如一个信任推理规则A,在领域d内,对于任意的用户u和V,如果同时满足(I)、用户U对领域d感兴趣;(2)、用户u和V是朋友关系;(3)、用户V是领域d内的一个专家。那么就可以推理出用户u在领域d内信任用户V。已经制定好的规则(rule)通过输入模块201被添加到推理模块203中,不同的规则根据其所涉及的关系进行索引,在知识推理的过程中,当事实情况显示出用户之间存在某种关系时,则根据该关系到规则库中检索到相关的推理规则并进行匹配,根据相匹配的规则进行知识推理。如图5所示,为本发明基于RDF图路径游走的知识发现方法,包括步骤步骤501、接收链接数据,对链接数据进行RDF建模,形成RDF图;步骤502、接收控制命令,控制智能体在RDF图中游走寻找新的路径;步骤503、根据智能体游走路径,查询推理规则进行知识推理;步骤504、输出推理出的新知识。具体地,控制命令由输入模块输入,包括起点信息,链接数据RDF模块接收到控制命令后,智能体就在RDF图中进行游走,寻找新的路径,推理模块根据游走路径进行知识推 理。需要说明的是,智能体可以在RDF图G中进行路径游走,共有两种游走方式一是在子图之间,从一个子图中跳转到另外一个子图中去;二是在子图的内部,从一个节点步移到达另外一个节点。对于第一种游走方式,只要两个子图之间有共同节点,那么通过该共同节点,智能体就能够从一个子图跳转到另外一个子图中去。例如在图4中,子图&和gb有共同节点Bob,那么智能体能够从子图^跳转到子图gb中。对于第二种游走方式,在某个子图的内部,如果当前的事实描述能够满足RDF链接(RDF link)上的条件,那么智能体就能够沿着这个RDF链接从一个节点一步到达另外一个节点。仍然以图4为例,Bob和Peter是朋友关系,这是一个已知的事实,那么智能体从节点Bob出发,由于其满足friendOf这一条件,所以智能体能够从节点Bob到达另外一个节点Peter。整个游走的过程可以被看作是一组路径的集合,一条路径可以表示为一个序列(Po, t1; Pl,...,tk, pk),其中Pi指代的是智能体所在的位置,也就是图G中一个具体的节点,而ti指代的是从p(i_D到Pi的转换(对于所有i,I彡i彡k)。路径游走的过程从起点Ptl开始,到终点Pk结束。为了便于描述,本发明采用如下转换操作符来表示智能体的游走Step :指在某个子图g," (m > I, gm C G)中,智能体通过一个RDF链接,从节点Pa-D到节点Pi的位置转换,可以写成一个四元组(gm, (P^1, Step, Pi)),注意Step指的是在某个子图的内部从一个节点经过一步而到达其邻近节点的一种状态转换;Jump :指通过一个共同的节点,从一个子图gm跳转到另外一个子图gn的一种转换,可以写成一个四元组& 1^1,几!^^11),注意其中8 1和811指代的是不同的子图,但是它们通过一个共同的节点Pi联系起来。通过Step和Jump等一系列的转换操作符,智能体能够实现在复杂RDF图中的路
径游走。智能体从RDF图中的起点出发,当满足两个节点具有某种关系的事实,或者是根据推理规则在RDF图中进行游走,在同一个子图内从一个节点Step到另一个节点,或通过共同节点在子图间进行Jump ;如果当前节点后面没有新的节点,或者推理规则中没有和当前节点匹配的推理规则的时候,智能体没有任何其他的游走路径,则游走过程停止,智能体停留在该节点处或者回到起点去找寻其他可能的路径。在图4中,Bob对人工智能领域的书籍感兴趣,根据这一事实,智能体可以从节点Bob到达节点Al Book,而从节点Al Book没有新的路径可走,因此智能体停留在此处,接下来智能体回到节点Bob再去寻找新的其他路径。由于不同子图彼此之间可能有多个共同节点,一个子图也可能与多个其它子图拥有同一个共同节点,那么这些子图相互关联在一起就会变化出多种不同的路径组合,因此,整个RDF图中会呈现出不同的游走路径,从而最终获得不同的推理结论。以图6为例,子图ga和gb有一个共同节点“Bob”,因此可以从子图ga通过转换操作符Jump跳转到子图gb,即图6中标注为2的虚线路径。在子图gb中,已知的事实是“Bob是Peter的朋友”,也就是说满足两个节点之间具有朋友关系这一条件,因此经由图6中标注为3的有向边,可以从节点“Bob”通过转换操作符St印到达节点“Peter”。子图gb和gc有一个共同节点“Peter”,从子图gb通过转换操作符Jump可以跳转到子图g。,即图6中标注为4的虚线路径。在子图g。中,根据已知事实“Peter是Al Book领域的专家”,即满足两个节点之间具有“expert_in”关系,那么智能体能够经由图6中标注为5的有向边从节点“Peter”通过转换操作符St印到达节点“Al Book”。那么,整条游走路径就可以表示成如下的形式(ga Bob, Jump, gb Bob, Step, gb Peter, Jump, gc Peter, Step, Al Book)基于上述路径,智能体从Bob出发,最终到达Al Book,并且子图g。中的节点Al Book和子图ga中的节点Al Book指的是同一个概念,子图和子图中的节点Peter指的是同一个用户(图6中标注为6的有向边),因此可以分别归并成一个节点,与前面定义的信任推理规则A相匹配,则可以推理出Bob在Al Book领域是信任Peter的,即(Bob: trusts Peter:AIbook)即根据推理规则将多条游走路径合并成一条新链接,这条新的链接代表了通过推理和路径发现而获取的衍生知识,本发明利用转换操作符Infer来表述推理出新发掘知识的转换操作,即在RDF图中增加了一条新的从Bob指向Peter的新链接7,如图6所示,而这个推理出的结论也被添加到RDF图中以便后续的知识发现使用。新链接的增加,使得RDF图中的路径更加丰富,路径游走的变化更多,从而能够进一步地衍生出更多的新知识。整个知识推理的过程可以被看作是基于RDF图路径游走的过程。在路径游走的过程中,可以采取宽度优先的方法,每到达一个节点,根据该节点现有的关系都去存储有推理规则的推理模块中寻找是否有与其匹配的推理规则,如果有则可以根据该规则获得新的衍生知识,新的衍生知识将作为一条新的有向边添加到RDF图中。接下来,智能体在新的RDF图中继续游走,寻找下一个可以扩展的节点并重复上述过程,直到整个RDF图中没有新节点可以扩展为止。在整个游走的过程中,不断有新的知识被推理出来,而在新知识的基础上又有更多的新知识被发现,从而实现整个知识发现过程。上述实施例中的衍生知识发现过程在现实生活中具有重要的实际应用价值。当前,在线购物和在线推荐网站层出不穷,如何适应新形式下的商品营销和推广是目前互联网行业亟待解决的一个重要问题。根据对在线链接数据进行知识推理,能够有效地发现用户彼此之间的信任关系、朋友关系以及推荐关系等隐式知识,从而为更好地为广告投放和目标营销提供可靠的依据。以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变、形,但这些相应的 改变和变形都应属于本发明所附的权利要求的保护范围。
权利要求
1.一种基于RDF图路径游走的知识发现装置,用于在采用资源描述框架RDF建模的链接数据中发现知识,其特征在于,包括输入模块,链接数据RDF模块,推理模块和输出模块,其中 输入模块接收链接数据、推理规则以及控制命令的输入,将链接数据发送到链接数据RDF模块进行RDF建模,将推理规则发送到推理模块进行存储,并接收和转发控制命令; 链接数据RDF模块对所获取的链接数据进行预处理,利用RDF对链接数据进行知识表达,建立RDF图;并接收输入模块转发的控制命令,基于RDF图的路径游走寻找新的路径;推理模块用于存储推理规则,并根据RDF游走路径查找推理规则,进行匹配并推理出新知识; 输出模块,用于输出推理模块推理出的新知识。
2.如权利要求I所述的知识发现装置,其特征在于,所述的链接数据RDF模块包括通用领域本体单元,RDF预处理单元和RDF知识路径寻找单元,其中 通用领域本体单元,用于记录资源标识符URI和描述链接数据之间的属性关系; RDF预处理单元,利用通用领域本体,根据链接数据构造RDF图; RDF知识路径寻找单元,用于根据控制命令输入的游走起点,控制智能体从起点出发,在RDF图中游走寻找新的路径,如果两个节点间具有事实关系或两个节点间根据推理规则具有事实关系,那么智能体就沿着所述事实关系对应的RDF链接从一个节点步移到达另外一个节点,如果两个RDF图之间有共同节点,那么智能体通过跳转从一个RDF图跳转到另一个RDF图中去,当游走到某个节点不再满足其他任何条件时,那么路径游走过程停止,或返回起点去找寻其他可能的路径。
3.如权利要求2所述的知识发现装置,其特征在于,所述的通用领域本体单元中包括有朋友的朋友工程FOAF本体,语义链接在线社区工程SIOC本体,电子商务Web词汇GoodRelations本体或用户自定义的本体中的一个或多个。
4.如权利要求2所述的知识发现装置,其特征在于,所述RDF预处理单元还用于接收所述推理模块推理出的新知识,在RDF图中增加新链接。
5.一种基于RDF图路径游走的知识发现方法,用于在采用资源描述框架RDF建模的链接数据中发现知识,其特征在于,包括步骤 步骤I、接收链接数据,利用通用领域本体对链接数据进行RDF建模,形成RDF图; 步骤2、接收控制命令,控制智能体在RDF图中游走寻找新的路径; 步骤3、根据智能体游走路径,查询推理规则进行知识推理; 步骤4、输出推理出的新知识。
6.如权利要求5所述的知识发现方法,其特征在于,所述步骤2包括步骤 控制命令输入游走起点,智能体从起点出发,在RDF图中游走寻找新的路径; 如果两个节点间具有事实关系,那么智能体就沿着所述事实关系对应的RDF链接从一个节点步移到达另外一个节点; 如果两个RDF图之间有共同节点,那么智能体通过跳转从一个RDF图跳转到另一个RDF图中去; 当游走到某个节点不再满足其他任何条件时,那么路径游走过程停止,或返回起点去找寻其他可能的路径。
7.如权利要求6所述的知识发现方法,其特征在于,所述方法还包括 如果两个节点间根据推理规则具有事实关系,那么智能体就沿着所述事实关系对应的RDF链接从一个节点步移到达另外一个节点。
8.如权利要求6或7所述的知识发现方法,其特征在于,所述不再满足其他任何条件是指当前节点后面没有新的节点,或者推理规则中没有和当前节点相匹配的推理规则。
9.如权利要求5所述的知识发现方法,其特征在于,所述方法进一步包括智能体每经过一个节点,都去查询与该节点有关的推理规则进行匹配,根据相匹配的推理规则进行知识推理。
10.如权利要求5所述的知识发现方法,其特征在于,所述方法还包括根据推理出的 新知识,在RDF图中增加新链接。
全文摘要
本发明公开了一种基于RDF图路径游走的知识发现装置,包括输入模块,链接数据RDF模块,推理模块和输出模块,其中链接数据RDF模块能够对概念多且关系复杂的链接数据进行建模从而构建出RDF图,并通过在子图内部的步移和子图之间的跳转进行游走寻找新的路径,并结合推理模块推理出新的知识,从而能够在海量复杂的链接数据中发现更多的隐式知识,在实际应用中具有广泛的价值。本发明还公开了一种基于RDF图路径游走的方法,通过对链接数据进行RDF建模,并控制智能体在子图内部的步移和子图之间的跳转同时依据知识推理规则动态的发现新知识并更新RDF图,因而具有较强的灵活性和多变性。
文档编号G06F17/30GK102722569SQ201210180149
公开日2012年10月10日 申请日期2012年5月31日 优先权日2012年5月31日
发明者于彤, 张华熊, 张宇 申请人:浙江理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1