用于xml文档分类的语义相似度度量方法

文档序号:6619343阅读:436来源:国知局
专利名称:用于xml文档分类的语义相似度度量方法
用于XML文档分类的语义相似度度量方法技术领域
本发明属于数据识别技术领域,尤其是一种用于文档分类的相似度度量方法。
技术背景
XML作为互联网上数据表示和数据交换的标准,已得到广泛的应用。随着XML文档 数量的不断增长,如何对XML数据进行有效的管理在数据库和信息检索领域变得越来越重 要。在很多XML数据应用,例如版本控制、半结构化数据集成、XML文档分类/聚类、XML检 索等领域,如何度量XML文档之间的相似度成为一个重要的问题,尤其在XML文档分类/聚 类应用中,需要根据文档之间的相似度把XML文档归到不同的类别中。
Ifligi^"Tekli J, Chbeir R, Yetongnon K. An overview on XML similarity Background, current trends and future directions. Computer ScienceReview,2009, 3(3) :151-173. ”,度量XML文档之间相似度的方法大体可分成基于编辑距离(ED,Edit Distance)的方法、基于信息检索(IR,Information Retrieval)的方法以及其它一些方 法。
基于编辑距离的方法一般都忽略了包含在文档中的内容信息,利用结构信息计算 文档距离并进行分类,这种方法的缺点在于编辑距离的计算开销很大。文献“DalamagasT, Cheng Τ, Winel KJ, Sellis Τ. A methodology for clustering XML documents by structure. Information Systems, 2006, 31 (3) :187-228. ”首先对 XML 文档进行简化,得到 文档的Summary Tree,然后计算Summary Tree之间的编辑距离来进行分类。虽然这种方 法降低了计算树编辑距离的时间复杂性,但是Summary Tree并不能很好地保持原有文档的 结构° 文献"Xing G, Guo J, Xia ZH. Classifying XML Documents Based onStructure/ Content Similarity. Comparative Evaluation of XML Information RetrievalSystems, 2007,4518 :444-457. ”通过计算XML文档与khema之间的编辑距离对XML文档进行分类, 这种方法假设属于同一个类别的所有XML文档具有共同的khema,并且该khema可以得 到。事实上属于同一类别的XML文档很多情况下并不具有共同的khema,而且XML文档的 Schema并非总是可以轻易获得,虽然文中提出了一种从XML文档中抽取khema的方法,但 这需要额外的开销。由于基于编辑距离的方法忽略了文档的内容,因而并没有利用关键字 的语义信息。
传统的基于信息检索的方法将文档表示为一个向量,向量的每个分量为该文档中 所包含的关键字在该文档中的权重,然后任意两个文档之间的相似度可以转换为计算两个 向量的距离。关键为如何计算关键字的权重,使用最多的方法是tf-idf公式,这种方法仅 仅利用文档中的内容信息,并未考虑到XML文档中的结构信息,因此不完全适用于XML文档 的相似度计算。针对XML文档,也有方法对tf-idf方法进行扩展,同时利用XML文档中的 结构和内容信息,例如文献“袁家政,须德,鲍泓.基于结构与文本关键词相关度的xml网页 分类研究.计算机研究与发展,2006,43 (8) :1361-1367. ”在计算关键字的权重时考虑了关 键字出现在不同树节点的位置以及位置的权重,但仅仅考虑关键字在不同树节点的位置和位置权重还未能完全利用包含在其中的语义信息,比如还可以考虑包含关键字的路径的层 次,包含路径的文档数以及同时包含路径和关键字的文档数等信息。
文献"Zaki MJ, Aggarwal CC. XRules :an effective structural classifier for XML data. In :Getoor L,Senator TE, domingos P,Faloutsos C,eds. Proc. of the ninth ACM SIGKDDinternational conference on Knowledge discovery and data mining. Washington, D. C. :ACM,2003. 316-325. ”提出 了一种基于规则的分类方法,首先 从XML文档中挖掘频繁子树,然后利用这些频繁子树生成规则进行分类。这种方法假设 属于同一类别的文档具有相同的子结构,事实上在很多情况下这个假设并不成立。文献 “Theobald M,Schenkel R,Weikum Gerhard. Exploiting Structure,Annotation,and OntologicalKnowledge for Automatic Classification of XML Data. In Christophides V,Freire J,eds. Proc. ofthe WebDB Workshop. San Diego, California :ACM,2003.1-6. ” 除了使用关键字作为特征外,还使用小枝(Twigs)和标签路径(Tag Paths)作为结构特 征来构造特征空间,然后利用本体论和互信息来确定与某一个类别最相关的m个特征, 然后根据这些类相关的特征来构造分类器。由于这种方法预先限制结构特征中只包含 两层结构,在一定程度上破坏了 XML的多层结构。文献“mi Jff, Tang J. A bottom-up approach for XMLdocuments classification. In :Desai BC, ed.Proc. of the 12th International DatabaseEngineering and Applications Symposium. Coimbra,Portugal ACM, 2008. 131-137. ”利用支持度和互信息的概念从文档中抽取与某一个特定类别相关的 关键字,称为KeyTerm,然后找到包含这些Key Term的路径,称为Key Path,该类别的所有 Key Path就构成了该类别的一个分类Model,然后通过计算XML文档与各个类别的Model 之间的距离来对文档进行分类。作者同样利用了一个假设,即属于同一类别的XML文档的 Schema是相似的,虽然并不要求khema —定能够得到,但这个假设仍然在一定程度上限制 了其应用的灵活性。发明内容
为了克服现有技术未充分考虑XML文档中关键字语义信息或者依赖于文档 khema的不足,本发明提供一种基于关键字语义信息的XML文档相似度度量方法,将XML文 档表示为由关键字权重组成的向量,XML文档之间的相似度计算就可以转换为计算两个向 量之间的距离问题,计算过程中不需要得到XML文档的khema。本发明同时利用了 XML文 档中包含的结构信息和内容信息,较为充分地考虑包含在文档中的关键字的语义信息,比 如关键字在不同路径中出现的次数,路径的深度,路径本身的分类能力,包含路径的文档个 数,同时包含某一路径和关键字的文档个数等计算关键字的权重,并据此度量文档之间的 相似度。如果将利用这种方法度量的文档之间相似度用于XML文档的分类时,可以提高分 类的准确率。
对于给定的XML文档集D,其中的第i个文档表示为屯,设D中的文档分属于|C| 个类别,C表示所有类别的集合,Ci表示文档集D中所有属于第i个类别的文档组成的集合。 则为了计算文档之间的相似度,本发明解决其技术问题所采用的技术方案包括以下步骤
1.解析文档集中所有的XML文档,将每一个XML文档分解为结构信息和内容信息。
2.从内容信息中抽取关键字特征,构造关键字特征空间。
3.从结构信息中抽取所有的路径,构造路径字典。
4.统计关键字特征空间中每个关键字特征tk在每个文档的任意路径pat、中出 现的频率tfi (tk,pathj),同时包含该关键字特征和路径的文档个数(Ifai^pathj)以及包含 该关键字特征的文档个数df(tk),并根据df(tk)进行关键字特征筛选。
5.计算路径字典中每条路径Pathj的深度pi (Pathj),数据集中包含该路径的文档 数Clf(Pathj)及其权重wpathj,其中权重利用信息论中信息增益的概念进行计算。
6.根据第4,5步得到的信息,利用下式计算关键字特征空间中每个关键字特征tk 在文档Cli中的权重wik,然后将文档表示为由关键字特征权重组成的向量。
权利要求
1. 一种用于XML文档分类的语义相似度度量方法,其特征在于对于给定的XML文档 集D,其中的第i个文档表示为d”设D中的文档分属于|C|个类别,C表示所有类别的集 合,Ci表示文档集D中所有属于第i个类别的文档组成的集合,则为了计算文档之间的相似 度,包括以下步骤a.解析文档集中所有的XML文档,将每一个XML文档分解为结构信息和内容信息;b.从内容信息中抽取关键字特征,构造关键字特征空间;c.从结构信息中抽取所有的路径,构造路径字典;d.统计关键字特征空间中每个关键字特征tk在每个文档的任意路径中出现的 频率tfi (tk,pathj),同时包含该关键字特征和路径的文档个数df(tk,path」)以及包含该关 键字特征的文档个数df(tk),并根据df(tk)进行关键字特征筛选;e.计算路径字典中每条路径Pathj的深度Pl(Pathj),数据集中包含该路径的文档数 df(pathj)及其权重wpathj,其中权重利用信息论中信息增益的概念进行计算;f.根据第d,e步得到的信息,利用下式计算关键字特征空间中每个关键字特征tk在文 档Cli中的权重wik,然后将文档表示为由关键字特征权重组成的向量;
全文摘要
本发明公开了一种用于XML文档分类的语义相似度度量方法,依次将每个文档分解为结构信息和内容信息;从内容信息中抽取关键字特征,构造关键字特征空间;从结构信息中抽取所有的路径,构造路径字典;统计关键字特征空间中每个关键字特征在每个文档的任意路径中出现的频率,同时包含该关键字特征和路径的文档个数以及包含该关键字特征的文档个数等信息,计算关键字特征空间中每个关键字特征在文档中的权重;根据余弦度量计算任意两个文档之间的相似度。本发明应用于XML文档的分类,可以提高准确率。
文档编号G06F17/27GK102033867SQ201010590689
公开日2011年4月27日 申请日期2010年12月14日 优先权日2010年12月14日
发明者娄颖, 崔海文, 张利军, 李战怀, 李霞, 陈群 申请人:西北工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1