一种基于近邻传播的xml文档谱聚类方法

文档序号:6373719阅读:148来源:国知局
专利名称:一种基于近邻传播的xml文档谱聚类方法
技术领域
本发明属于Web数据管理技术领域,尤其涉及一种基于近邻传播的XML文档谱聚类方法。
背景技术
由于XML格式数据在web上的大量出现和广泛应用,对XML文档的搜索需求也越来越迫切。对于Internet上大量存在的自由XML文档,基于关键词的XML文档搜索技术不需要用户学习和掌握复杂的查询语言,也不需要用户了解XML的模式,因此适用于普通用户的检索需求。但由于XML文档中元素标签、元素内容存在同义词、多义词等现象,基于XML关键词搜索返回的检索结果集中会存在大量与用户检索语义需求不相关的文档,检索结果精度低,用户需要浪费大量时间从这些结果中浏览自己感兴趣的XML文档。使用XML文档聚类技术对搜索结果进行自动分组,便于用户只在感兴趣的少数组中查找和选取所关心的 文档,大大方便了用户对信息的浏览。对web下XML文档的聚类研究目前主要是应用扩展的向量模型表示XML的特征,用JACCARD系数、CSM余弦相似度等计算XML文档之间的相似度,再利用传统的聚类算法实现聚类。传统的聚类算法需要输入聚类个数,而对于XML检索结果的聚类预先不知道聚类个数,需要自动确定聚类的个数。谱聚类技术根据样本间的相似关系建立相似度矩阵,通过求解拉普拉斯矩阵的特征向量找出数据样本间的内在联系,其中利用kiay划分准则的多路谱聚类方法NJW由于稳定性好,成为最常用的谱聚类方法之一。对于多路谱聚类方法NJff,如果由样本构造的相似度矩阵偏离理想的相似度矩阵的扰动很小,则拉普拉斯矩阵L的前k个特征值Xk接近1,第k+1个特征值入,+1远远偏离1,或是入,+1与Xk之间的差值最大,此时可以自动确定聚类个数为k,直接选择前k个特征值对应的特征向量进行求解,可以得到准确的划分结果。在实际情况下,由于web上XML文档表示的任意性及XML文档中元素标签存在同义词等现象,使得两篇隐含相似的XML文档dl和d2根据已有的特征向量表示法和相似度计算方法计算出的相似度很小或为0,影响了多路谱聚类方法中相似度矩阵的真实性,从而影响了聚类个数的正确性和聚类结果的准确合理性。

发明内容
针对上述背景技术中提到Web数据管理中XML检索存在的检索精度低的不足,本发明提出了一种基于近邻传播的XML文档谱聚类方法。本发明的技术方案是,一种基于近邻传播的XML文档谱聚类方法,其特征是该方法包括以下步骤步骤I :将XML文档用XML路径构成的特征向量表示;步骤2 :计算特征向量两两之间的初始相似度,得到初始相似度矩阵W,进而确定初始近邻关系矩阵N ;
步骤3 :用近邻传播算法修正特征向量两两之间的相似度,得到相似度矩阵A ;步骤4 :根据相似度矩阵A,应用第一指定方法确定I文档的聚类个数及聚类结果。所述特征向量两两之间的初始相似度的计算公式为
Ik n^Jsim{diyd ,) = 1--4-
"卜 c/,|其中simWi,(Ij)为特征向量两两之间的初始相似度; Cli H Clj为XML文档Cli和Clj共同包含的路径数;Cli U Clj为XML文档Cli和Clj中提取出的所有路径数。所述初始近邻关系矩阵N的确定方法为当初始相似度矩阵W中的元素大于设定值时,将该元素在初始近邻关系矩阵N中对应位置的元素值修改为I ;否则修改为O。所述近邻传播算法具体为a :将初始近邻关系矩阵N中的行向量,按其所含有的I的数量,从多到少进行排列;进而得到排序后的XML文档集,并置换初始相似度矩阵W和初始近邻关系矩阵N中的对应的行和列,得到相似度矩阵W'和近邻关系矩阵N';b :从排序后的XML文档集中的第一个XML文档开始,确定第一个XML文档与排序后的XML文档集中其余文档的隐含相似关系;隐含相似关系是指若两个XML文档之间不是近邻关系,但这两个XML文档同时和另一个XML文档是近邻关系,则这两个XML文档是隐含相似关系;若这两个XML文档是隐含相似关系,则修改近邻关系矩阵N'中对应这两个XML文档的元素为I ;修改相似度矩阵W'中对应这两个XML文档的元素为这两个XML文档分别和另一个XML文档的对应元素中小的元素;重复上述步骤,直至最后一个XML文档。所述第一指定方法为多路谱聚类方法。本发明通过用近邻传播算法修正了使用传统的相似度计算方法得到的XML文档间的初始相似度矩阵,使其能反映隐含相似的XML文档之间的相似度,在此基础上应用多路谱聚类方法NJW得到正确的聚类个数和聚类结果。本发明与XML文档的顺序无关,适用于任意顺序排列的XML文档检索结果的聚类。


图I为本发明方法的流程图。
具体实施例方式下面结合附图1,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。I.抽取XML路径,对其中元素标签进行处理,统一用词的原型表示,并去掉包含于其他路径中的路径,然后将XML文档用XML路径构成的特征向量表示。若XML文档集有如下信息〈persons〉
〈person〉
-name-zhang staK/mme》
<books>
<book>visual c++ 6.0</book>
</ books〉
<papers><paper> A new clustering method</paper>
〈/papers〉
〈courses》
<course> visual c++ 6,0 Progmming</course>
</ courses〉
</persoti>
〈/persons〉
(a)XML 文档 dl
<persons>
〈person〉
<name>zliaiig shan</name>
〈articles〉
权利要求
1.一种基于近邻传播的XML文档谱聚类方法,其特征是该方法包括以下步骤 步骤I :将XML文档用XML路径构成的特征向量表示; 步骤2:计算特征向量两两之间的初始相似度,得到初始相似度矩阵W,进而确定初始近邻关系矩阵N ; 步骤3 :用近邻传播算法修正特征向量两两之间的相似度,得到相似度矩阵A ; 步骤4 :根据相似度矩阵A,应用第一指定方法确定XML文档的聚类个数及聚类结果。
2.根据权利要求I所述的一种基于近邻传播的XML文档谱聚类方法,其特征是所述特征向量两两之间的初始相似度的计算公式为
3.根据权利要求I所述的一种基于近邻传播的XML文档谱聚类方法,其特征是所述初始近邻关系矩阵N的确定方法为当初始相似度矩阵W中的元素大于设定值时,将该元素在初始近邻关系矩阵N中对应位置的元素值修改为I ;否则修改为O。
4.根据权利要求I所述的一种基于近邻传播的XML文档谱聚类方法,其特征是所述近邻传播算法具体为 a :将初始近邻关系矩阵N中的行向量,按其所含有的I的数量,从多到少进行排列;进而得到排序后的XML文档集,并置换初始相似度矩阵W和初始近邻关系矩阵N中的对应的行和列,得到相似度矩阵W'和近邻关系矩阵N'; b :从排序后的XML文档集中的第一个XML文档开始,确定第一个XML文档与排序后的XML文档集中其余文档的隐含相似关系; 隐含相似关系是指若两个XML文档之间不是近邻关系,但这两个XML文档同时和另一个XML文档是近邻关系,则这两个XML文档是隐含相似关系; 若这两个XML文档是隐含相似关系,则修改近邻关系矩阵N'中对应这两个XML文档的元素为I ;修改相似度矩阵W'中对应这两个XML文档的元素为这两个XML文档分别和另一个XML文档的对应元素中小的元素;重复上述步骤,直至最后一个XML文档。
5.根据权利要求I所述的一种基于近邻传播的XML文档谱聚类方法,其特征是所述第一指定方法为多路谱聚类方法。
全文摘要
本发明公开了Web数据管理技术领域中的一种基于近邻传播的XML文档谱聚类方法。本发明将XML文档用XML路径构成的特征向量表示;然后计算XML文档向量两两之间的初始相似度,得到初始相似度矩阵W,进而确定初始近邻关系矩阵N;之后用近邻传播算法修正隐含相似的XML文档向量两两之间的相似度,得到最终的相似度矩阵A;最后根据最终的相似度矩阵A,应用第一指定方法确定XML文档的聚类个数及聚类结果。本发明通过用近邻传播算法修正了使用传统的相似度计算方法得到的XML文档间的初始相似度矩阵,使其能反映隐含相似的XML文档之间的相似度;本发明与XML文档的顺序无关,适用于任意顺序排列的XML文档检索结果的聚类。
文档编号G06F17/30GK102799680SQ20121025700
公开日2012年11月28日 申请日期2012年7月24日 优先权日2012年7月24日
发明者李新叶 申请人:华北电力大学(保定)
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1