一种图结构相似度测量方法及其系统的制作方法

文档序号:6463198阅读:226来源:国知局

专利名称::一种图结构相似度测量方法及其系统的制作方法
技术领域
:本发明涉及结构相似度测量技术,特别是涉及一种可用于数据挖掘或信息检索领域中图结构相似度测量方法及其系统。
背景技术
:随着互联网的飞速发展,信息技术的发展也突飞猛进,各类信息资源的数量以惊人的速度增长,如何在浩瀚的信息海洋中快速而又准确地检索出自己所需要的信息成为信息检索技术亟待解决的一大难题。相似度测量算法可用于数据挖掘或信息检索领域中。如文本相似性度量,很多文本应用包括文档聚类、文档检索、文档过滤等,都依赖于文档相似性的精确度量。然而现有的信息检索技术所采用的文本相似度度量并不能较好地进行信息检索,信息检索的性能不强,准确度不高。
发明内容本发明所要解决的技术问题在于提供一种图结构相似度测量方法及其系统,用于在数据挖掘或信息检索中通过将信息转化为图并通过图结构计算相似度,以提高信息检索能力和准确度。为了实现上述目的,本发明提供了一种图结构相似度测量方法,其特征在于,包括步骤一,输入第一个图、第二个图,并获取所述第一个图的^(空间、所述第二个图的6U空间;步骤二,根据所述SG空间计算所述第一个图、所述第二个图之间的结构相似度。所述的图结构相似度测量方法,其中,所述歩骤一中,所述^G空间由所述第一个图或所述第二个图所包含的SG组成,所述SG为从所述第一个图或所述第二个图中抽取的一个关系,表示为力,,力和^分别是所述第一个图或所述第二个图中2个不同的顶点,I表示","的关系,X为前驱模式或后继模式或前向边模式,前驱模式表示在所述第--个图或所述第二个图中存在分别从巧,"指向一相同节点的边;后继模式表示在所述第一个图或所述第二个图中存在从一相同节点分别指向力,V2节点的边;前向边模式表示在所述第一个图或所述第二个图中存在巧指向"的边。所述的图结构相似度测量方法,其中,所述步骤二中,所述结构相似度为以所述第一个图、所述第二个图之间的5U距离与重合百分比表示的函数。所述的图结构相似度测量方法,其中,所述SC7距离的计算公式如下'G2)=Z卜,-r2JG/:所述第一个图;G2:所述第二个图;SGD/W(《,G2):G7和G2的5*G距离;C/;:G/中SG的数目;5"G,:SG空间中第/个5"G;O、r2:SG,分别在(7/和G^中的数目。所述的图结构相似度测量方法,其中,所述重合百分比的计算公式如下(-'22G:所述第一个图;G2:所述第二个图;尸^fG/,G^重合百分比;C/2:G,中包含的G/中出现的所有SG的数目;C22:(2中5U的数目。所述的图结构相似度测量方法,其中,所述函数为所述5U距离与所述重合百分比之间的加权算术平均值或加权几何平均值或自定义函数。为了实现上述目的,本发明还提供了一种图结构相似度测量系统,其特征在于,包括5U空间获取模块,用于获取所输入的第一个图、第二个图的^G空间;相似度计算模块,连接所述SG空间获取模块,用于根据所述SG空间计算所述第一个图、所述第二个图之间的结构相似度。所述的图结构相似度测量系统,其中,所述5U空间获取模块将所述第一个图或所述第二个图所包含的组成所述<SG空间,所述《SG为从所述第一个图或所述第二个图中抽取的一个关系,表示为V/,,力和"分别是所述第一个图或所述第二个图中2个不同的顶点,X表示巧,力的关系,I为前驱模式或后继模式或前向边模式;前驱模式表示在所述第一个图或所述第二个图中存在分别从V^V2指向一相同节点的边;后继模式表示在所述第一个图或所述第二个图中存在从一相同节点分别指向","节点的边;前向边模式表示在所述第一个图或所述第二个图中存在"指向力的边。所述的图结构相似度测量系统,其中,所述相似度计算模块又包括5U距离计算模块,用于根据所述5^空间计算所述第一个图、所述第二个图之间的SG距离;G/:所述第一个图;G2:所述第二个图;,G2):和G2的SG距离;C//:G^中5U的数目;6"G",.:5"G空间中第/个SG;O、r2:5U,在G/和(2中的数目;重合百分比计算模块,用于根据所述SG计算所述第一个图、所述第二个图之间的重合百分比;^22尸^fG/,G2;:重合百分比;C/2:G2中包含的G^中出现的所有SG的数目;C22:C^中SG的数目;相似度获取模块,连接所述SG距离计算模块、所述重合百分比计算模块,用于根据所述SG距离与所述重合百分比获取所述结构相似度。所述的图结构相似度测量系统,其中,所述相似度获取模块以所述SG距离与所述重合百分比表示的函数获取所述结构相似度,所述函数为所述SG距离与所述重合百分比之间的加权算术平均值或加权几何平均值或自定义函数。本发明的有益技术效果在于本发明提出的图相似度测量算法用于计算两个图之间的相似度,可用于数据挖掘或信息检索领域中。任何一个图与其他图的相似度数值可以进而作为一个量化的衡量标准用于相似图或以图作为表示形式特征的相似信息的搜索查询中,也可用于图聚类算法的距离测量中。以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。图1为本发明的图结构相似度测量系统结构图;图2为本发明的图结构相似度测量方法流程图;图3为采用智能菜谱机的菜谱不意图。具体实施方式下面结合附图和具体实施方式对本发明的技术方案作进一步更详细的描述。如图1所示,为本发明的图结构相似度测量系统结构图。在该系统100中包括SG空间获取模块10、相似度计算模块20。SG空间获取模块10,用于获取所输入的G/和(72的SG空间,每个图G的空间由该图G所包含的所有SG组成,一个SG是可以从一个图G中抽取的一个关系,具体见后面定义。相似度计算模块20,连接SG空间获取模块IO,用于根据SG空间计算图G/和图(^之间的结构相似度。具体地,通过由SG空间计算得到的图G;和图(72的SG距离与图G和图G的重合百分比之间的函数来计算两个图G和G2之间的相似度。该函数可以为SG距离与重合百分比所表示的加权算术平均值或加权几何平均值或其他自定义函数。进一步地,相似度计算模块20又包括5"G距离计算模块21、重合百分比计算模块22、相似度获取模块23。SG距离计算模块21,用于根据SG计算图和图G2之间的SG距离。重合百分比计算模块22,用于根据5U计算图G/和图G之间的重合百分比。相似度获取模块23,连接5U距离计算模块21、重合百分比计算模块22,用于根据SG距离、重合百分比获取图(^和图<72之间的结构相似度。有关SG更详细的信息将在下文介绍。SG距离计算模块21以如下公式计算5U距离式中符号含义如下SG"/W(G,,G2):图G和图的距离;图中SG的数目;5"G空间中第/个SG;O、。SG,在图G/和图(^中的数目。重合百分比计算模块22以如下公式计算重合百分比C22式中符号含义如下/^(^,(2"重合百分比;C/2:图G2中包含的图中出现的所有SG的数目;C22:图G2中SG的数目。当SGD/w(G,,《)为一设定值时,Pe^,,(^的值越小,则表明图<^和图&两个图重合的部分越少,所以图<^和图(72很不相似;反之,当SGZfe《G,,Gj为一设定值时,/^r^^GJ的值越大,则表明G/和&两个图重合的部分越多,所以图G/和图C2很相似。因此用SODM^,Gj和尸er(^/,(^)来表示G/和G2两个图的相似度。本发明提出的图相似度测量算法可用于数据挖掘或信息检索领域中。该算法可用于计算两两图之间的相似度。任何一个图与其他图的相似度数值可以进而作为一个量化的衡量标准用于相似图或以图作为表示形式特征的相似信息的搜索查询中,也可用于图聚类算法的距离测量中。如图2所示,为本发明的图结构相似度测量方法流程图。该流程描述了图结构相似度测量方法,该方法是基于一种具有有序特性的图的相似度测量算法。有序特性,比如说时间特性或者是流程顺序都属于具有有序特性,图模型中带有这种有序特性的图就是一种具有有序特性的图,比如说流程图。该算法通过提取SG作为特征及特性,通过由SG空间计算得到的两个图的SG距离与该两个图的重合百分比之间的函数来计算相似度。有《个字母的一个字符串可以叫做《-gmm。对于任何两个字符串&和&,Esko[Esko]等人证明了这两个字符串之间的差别是一个有限集,参见"U.Esko,Approximatestring-matchingwithq-gramsandmaximalmatches.TheoreticalComputerScience,vol.92,pp.191-211,1992"。Rui[Rui]进一步将《-gra附的思想用在树结构上,参见"Y.Rui,K.Panos,andK.H.T.Anthony,Similarityevaluationontree-structureddata.InproceedingsofACM-SIGMODInternationalConferenceonManagementofData,pp,754—765,2005."。因为树的边数等于顶点数减一,因此可以通过类似字符串《-graw的分析方法来解决树结构的相似度问题。然而,对于图结构的相似度分析却还没有使用这种方法,原因是,图的属性不满足边数等于顶点数减一。对于一个完全图,其有w个顶点却有"*-/>2条边,从而可以看出,随着顶点数的增加,顶点之间的关系(也就是边数)增长得很快。因此只能考虑用以下所述的方法来计算图相似度。为了更好地描述上述相似度测量方法,现给出以下几个定义OS。一个是可以从一个图G中抽取的一个关系,表示为力,v2/)。v,和力分别是图G中2个不同的顶点(其中的一个可以为空null)。这里Z表示v;,"的关系,是下面三种关系中的一种iY/VWeceMor"为前驱模式,表示在图G中存在分别从巧,V2指向某一相同节点的边,5^MCC^C^为后继模式,表示在图G中存在从某一相同节点分别指向v;,"节点的边,F(ForvraW£^ge),为前向边模式,表示在图G中存在巧指向vj勺边。2)SG空间一个图G的SG空间可以用i^(^来表示,它是由图G包含的所有SG组成的。C"表示图G中SG的数目,C"表示图G2中SG的数目,Cu表示图G2中包含的图G;中出现的所有SG的数目。3)SG距离根据SG计算的两图间的距离称为SG距离。令S《表示5U空间中第/个SG,。和。分别代表SG,在图G和图G中的数目,那么5U距离可以用下式表示4)重合百分比对于任意两个图G/和G,重合百分比尸e^G/,C^定义为图G2中包含的图中出现的所有的数目比上图G2中SG的数目^22从重合百分比的定义可以看出,对于给定的SG距离,/^<(^,(^这个数值越小表明两个图重合的部分越少,因此是很不相似的。因此可以用SGZ)/^G;,(^和尸^YC^,(^的函数来表示图G/和图C2两个图的相似度SGZ^《G/,(^和Pe^G/,(72;的函数也可是6UD/WfG^,C^和尸e^C2;的加权算术平均值或加权几何平均值或其它自定义函数。结合图l,该流程的具体实现歩骤如下歩骤S201,输入图G和图&两个图;步骤S202,由SG空间获取模块10获取图和图G2的SG空间;步骤S203,由SG距离计算模块21计算图G,和图&之间的距离即SG"^G,,G」,由重合百分比计算模块22计算图G/和图G之间的重合百分比进一步地,歩骤S203中,当SGZ^(G,,G2)为一设定值时,尸wf^,(^的值越小,则表明图G/和图(72两个图重合的部分越少,所以图G;和图(^很不相似;反之,当SOD/W(G,,G2)为一设定值时,Z^(^/,(^)的值越大,则表明图G,和图G2两个图重合的部分越多,所以图<^和图C2很相似。因此可用SGZ^(G,,《)和/^f^,G2J的函数来表示图G/和图G/两个图的相似度。表一举出了两个及SG空间的例子,该表一列出了图G和图G2及其空间。在图G/和图G中,小下标的数字代表时间的先后顺序。根据5*G的定义,可以看到G/中,对于顶点"/7eW6",顶点"o/^/,比顶点"crt^5"离这个顶点更近一点。因此仅选择这一对顶点,用SG/F,W/5.。/','/7eW^来表示,有o"5.w指向/ze"^j的边。SG/P''mfln'"(3te,,7^ar,表示顶点^""'"ate,禾口顶点77M〃有指向顶点^^-/0/的边。对于例子中的图C^、图G2,可以计算SGZto《GpG2)=4,PerfG^,G2)=4/11=36.4%。计算5Vm卩G〃GJ的函数可以根据具体情况选用恰当的函数,比如算术平均、几何平均等等。这里使用下面这个函数(即几何平均)来计算&><(77,G2>5V一〃G2」二〃/SG腺(G',G2)*/^G〃GV/2<table>tableseeoriginaldocumentpage12</column></row><table>在该方法的歩骤中,首先输入两个图G7,G2,并得到图G的空间/^G",具体的程序流程是&=C〃;对于每一个在空间i(t^中的OCC「SG,在G/中的数目;0"2=5^,在(72中的数目;如果图G",不在结果集中那么把图&写入结果集;从结果集中取得S(7Z^《G/,G2J和尸e^fG/,(72人更新iSCZfe《G/'-=occ/-|occ,—occ2|;更新/^<(7/,+=返回结果集;上述图相似度算法可以用于各种搜索相似图的应用中,如图3中举例的菜谱。这里给出了一种使用这种算法的应用实例-智能菜谱机,该智能菜谱机集成了搜索、显示、推荐的功能,为用户提供各式各样的菜谱。一个菜谱的信息可以包括制作流程(Steps)35,视频(VideoClip)31,图片(FinalLook)32,还包括菜谱成分(Ingredients,所需食材或原料)34,菜谱的步骤图解(StepIllustration)33,菜谱所属类别(Category)36等,如图3所示。特别是,一个菜谱的制作流程(Steps)可以用一种具有有序特性的图来表示,如表一中的图或图G2。智能菜谱机可以实现如下功能al)当用户输入一些食材(原料)后,智能菜谱机可以与菜谱成分匹配输出利用这些食材的菜谱。a2)当用户输入一个菜谱名字后,智能菜谱机可以输出这个菜谱的图片,做法流程。不仅如此,还可以根据本发明的方法找出及推荐一些类似做法的菜谱。智能菜谱机的工作流程如下bl)用户输入食材或菜谱名,如BangBangChicken(棒棒鸡)30;b2)智能菜谱系统用传统的搜索方法搜索出相似的菜谱,提供该菜谱的信息,包括制作流程(Steps)35,视频(VideoClip)31,图片(FinalLook)32,还包括菜谱成分(Ingredients,即所需食材或原料)34,菜谱的步骤图解(StepIllustration)33,菜谱所属类别(Category)36等,如图3所示;b3)智能菜谱系统使用图相似度算法计算两个菜谱流程图的相似度。b4)排序所有菜谱与用户查询菜谱的相似度。b5)按顺序显示推荐的类似做法的菜谱,提供该菜谱的流程。本发明提出的图相似度测量算法用于计算两个图之间的相似度,可用于数据挖掘或信息检索领域中。任何一个图与其他图的相似度数值可以进而作为一个量化的衡量标准用于相似图或以图作为表示形式特征的相似信息的搜索査询中,也可用于图聚类算法的距离测量中。本发明所提出的图相似度算法远好于文本相似度算法,搜索查询准确度更高。当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。权利要求1、一种图结构相似度测量方法,其特征在于,包括步骤一,输入第一个图、第二个图,并获取所述第一个图的SG空间、所述第二个图的SG空间;步骤二,根据所述SG空间计算所述第一个图、所述第二个图之间的结构相似度。2、根据权利要求1所述的图结构相似度测量方法,其特征在于,所述歩骤一中,所述^G空间由所述第一个图或所述第二个图所包含的SG组成,所述5U为从所述第一个图或所述第二个图中抽取的一个关系,表示为力,力入"和V2分别是所述第一个图或所述第二个图中2个不同的顶点,X表示力,v2的关系,x为前驱模式或后继模式或前向边模式,前驱模式表示在所述第一个图或所述第二个图中存在分别从","指向一相同节点的边;后继模式表示在所述第一个图或所述第二个图中存在从一相同节点分别指向VA^节点的边;前向边模式表示在所述第一个图或所述第二个图中存在力指向v2的边。3、根据权利要求2所述的图结构相似度测量方法,其特征在于,所述步骤二中,所述结构相似度为以所述第一个图、所述第二个图之间的SG距离与重合百分比表示的函数。4、根据权利要求3所述的图结构相似度测量方法,其特征在于,所述SG距离的计算公式如下腦本,G2卜n^所述第一个图;G2:所述第二个图;SGD&(q,G2):和G2的距离;C〃:G^中SG的数目;SG"SG空间中第/个5U;^、O:5^分别在(^和G2中的数目。5、根据权利要求4所述的图结构相似度测量方法,其特征在于,所述重合百分比的计算公式如下所述第一个图;G2:所述第二个图;尸erf^,(^):重合百分比;C/2:G2中包含的(^中出现的所有SG的数目;C22:G2中5^的数目。6、根据权利要求3、4或5所述的图结构相似度测量方法,其特征在于,所述函数为所述SG距离与所述重合百分比之间的加权算术平均值或加权几何平均值或自定义函数。7、一种图结构相似度测量系统,其特征在于,包括SG空间获取模块,用于获取所输入的第一个图、第二个图的5U空间;相似度计算模块,连接所述SG空间获取模块,用于根据所述SG空间计算所述第一个图、所述第二个图之间的结构相似度。8、根据权利要求7所述的图结构相似度测量系统,其特征在于,所述5U空间获取模块将所述第一个图或所述第二个图所包含的5"G组成所述SG空间,所述SG为从所述第一个图或所述第二个图中抽取的一个关系,表示为(Xv,,W,,"和力分别是所述第一个图或所述第二个图中2个不同的顶点,I表示V/,"的关系,X为前驱模式或后继模式或前向边模式;前驱模式表示在所述第一个图或所述第二个图中存在分别从力,V2指向一相同节点的边;后继模式表示在所述第一个图或所述第二个图中存在从一相同节点分别指向V/,力节点的边;前向边模式表示在所述第一个图或所述第二个图中存在v,指向"的边。9、根据权利要求8所述的图结构相似度测量系统,其特征在于,所述相似度计算模块又包括SG距离计算模块,用于根据所述空间计算所述第一个图、所述第二个图之间的5^距离;G7:所述第一个图;G2:所述第二个图;5UD/W(q,G2):和。的6t距离;CG^中SG的数目;SG空间中第/个6^;O、6^,在G7和C2中的数目;重合百分比计算模块,用于根据所述5U计算所述第一个图、所述第二个图之间的重合百分比;^22i^f(^G2y):重合百分比;G2中包含的G/中出现的所有SG的数目;C22:G^中SG的数目;相似度获取模块,连接所述6U距离计算模块、所述重合百分比计算模块,用于根据所述SG距离与所述重合百分比获取所述结构相似度。10、根据权利要求9所述的图结构相似度测量系统,其特征在于,所述相似度获取模块以所述SG距离与所述重合百分比表示的函数获取所述结构相似度,所述函数为所述SG距离与所述重合百分比之间的加权算术平均值或加权几何平均值或自定义函数。全文摘要本发明公开了一种图结构相似度测量方法及其系统,其中该方法包括步骤一,输入第一个图、第二个图,并获取所述第一个图、所述第二个图的SG空间;步骤二,根据所述SG空间计算所述第一个图、所述第二个图之间的结构相似度。该方法可用于数据挖掘或信息检索领域中。任何一个图与其他图的相似度数值可以进而作为一个量化的衡量标准用于相似图或以图作为表示形式特征的相似信息的搜索查询中,也可用于图聚类算法的距离测量中,该方法远好于文本相似度算法,搜索查询准确度更高。文档编号G06F17/30GK101256594SQ20081010271公开日2008年9月3日申请日期2008年3月25日优先权日2008年3月25日发明者刘文印,娜李,青李,宇杨,王莉萍申请人:北京百问百答网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1