基于标签序列和nGrams的半结构化数据分类方法与流程

文档序号:12471243阅读:243来源:国知局
本发明涉及一种半结构化数据分类方法,特别涉及一种基于标签序列和nGrams的半结构化数据分类方法。
背景技术
:半结构化数据分类通常分为三步:首先从已知类别的半结构化数据集中提取特征,然后利用所提取的特征构造分类模型,最后使用构造好的模型对未知类别数据进行分类。而半结构化数据中包含结构和内容信息,对于基于结构和内容的分类,提取特征时需考虑以下几个因素:1.结构和内容之间的包含关系,即内容被组织包含在不同的层次结构中;2.结构内部元素间的相互关系,即元素之间有兄弟关系、父子关系、祖先后代关系等;3.内容中关键字之间的相互关系。现有基于结构和内容的半结构化数据分类方法大都在传统无结构的文本文档向量空间模型基础上对其扩展,使其包含结构信息,然后用于分类。例如文献1“TranT,NayakR,BruzaPD.CombiningstructureandcontentsimilaritiesforXMLdocumentclustering.Proceedingsofthe7thAustralasianDataMiningConference(AusDM’08).2008.219-226.”和“GhoshS,MitraP.CombiningContentandStructureSimilarityforXMLDocumentClassificationusingCompositeSVMKernels.Proceedingsof19thInternationalConferenceonPatternRecognition(ICPR'08),Tampa,2008.1-4.”均采用此种方法,这些方法的缺点在于结构信息和内容信息分别表示,割裂了结构和内容之间的相互关系,即忽略了上述第一个因素。也有一些方法考虑了结构和内容之间的关联关系,如文献2“袁家政,须德,鲍泓.基于结构与文本关键词相关度的XML网页分类研究.计算机研究与发展,2006,43(8):1361–1367.”考虑关键词在文档结构中出现的位置等信息,文献3“CostaG,OrtaleR,RitaccoE.EffectiveXMLClassificationUsingContentandStructuralInformationviaRuleLearning.Proceedingsofthe23rdIEEEInternationalConferenceonToolswithArtificialIntelligence(ICTAI'11),2011.102-109.”考虑路径中出现的关键词等。这些方法虽然考虑了结构和内容之间的包含关系,但将结构建模为路径,路径体现了元素之间的层次(父-子、祖先-后代)关系,但忽略了不同路径之间的相互关系以及路径的相似性等问题,即不能很好地处理上述第二个因素。文献4“YangJ,ZhangF.XMLDocumentClassificationUsingExtendedVSM.ProceedingsofFocusedAccesstoXMLDocuments,the6thInternationalWorkshopoftheInitiativefortheEvaluationofXMLRetrieval(INEX'07),DagstuhlCastle,Germany:SpringerBerlin/Heidelberg,2008.234-244.”扩展了向量空间模型,将半结构化数据表示为矩阵,以此捕捉结构和内容之间的关联关系,并且通过核矩阵体现结构内部(元素)相互间的关系,并在文献5“YangJ,WangS.ExtendedVSMforXMLDocumentClassificationUsingFrequentSubtrees.ProceedingsofFocusedRetrievalandEvaluation,the8thInternationalWorkshopoftheInitiativefortheEvaluationofXMLRetrieval(INEX'09).SpringerBerlin/Heidelberg,2010.441-448.”中将结构元素替换为结构子树,进一步体现这种关联性。这种方法虽然在一定程度上考虑了上述前两个因素,但对于第三个因素仍没有明确的解决。综上所述,现有的半结构化数据分类方法从半结构化数据中提取特征时,没有充分考以上三个因素,使得以上这些方法构造的半结构化数据分类模型缺失了半结构化数据特征与半结构化数据类别之间的部分内在信息,从而影响到半结构化数据分类的准确率。技术实现要素:为了克服现有半结构化数据分类方法准确率差的不足,本发明提供一种基于标签序列和nGrams的半结构化数据分类方法。该方法将TSGrams特征作为表示半结构化数据的基本单元,用标签序列捕捉半结构化数据的结构信息,用nGrams捕捉半结构化数据的内容信息,将二者融合作为特征捕捉结构和内容间的包含关系,同时考虑内容信息中不同关键字间的相互关系,使用信息增益对TSGrams特征进行筛选,获取具有较强的分类能力的TSGrams特征构造特征空间,并根据TSGrams特征与类别间的互信息构建类别分类模型,并在分类时考虑不同结构间的相似性,以此提高半结构化数据分类的准确率。本发明解决其技术问题所采用的技术方案:一种基于标签序列和nGrams的半结构化数据分类方法,其特点是包括以下步骤:步骤一、构造TSGrams特征空间。(1)TSGrams特征提取。对于数据集D中的每一个数据文档d,以树模型遍历d的所有文本节点,从根节点到其父节点的路径构成标签序列,从文本内容中提取所有长度小于等于3的nGrams。然后将标签序列和nGrams组合构成TSGrams特征,所有TSGrams特征构成的集合记为TSGramsSet。(2)计算信息增益。计算TSGramsSet中每个TSGrams特征f:<s,g>的信息增益IG(f)。计算方法如下:IG(f)=-Σi=1kP(Ci)logP(Ci)+P(f)Σi=1kP(Ci|f)logP(Ci|f)+P(f‾)Σi=1kP(Ci|f‾)logP(Ci|f‾)]]>其中,P(Ci)=|{d|d∈Ci}||D|]]>(3)将TSGramsSet中所有长度为1的TSGrams特征按照信息增益从大到小排序,设第N个特征的信息增益为IGN。其中N为参数。(4)选取TSGramsSet中所有信息增益值大于IGN的特征构成特征空间Ω。步骤二、构建分类模型。(1)计算特征空间Ω中每个TSGrams特征f:<s,g>与类别Ci的互信息MI(f,Ci)。计算方法如下:(2)将特征空间Ω划分为k个不相交的子集,每个子集代表了一个类别Ci,该子集称为该类别Ci的分类模型,记作特征空间Ω中任一特征f划分到与其互信息最高的分类模型ΦC*中。即:C*=ArgmaxCi∈CMI(f,Ci)]]>(3)根据以上划分,任一类别Ci的分类模型能够表示为TSGrams特征空间Ω中的一个向量:φCi=<wi,1,wi,2,...,wi,|Ω|>]]>其中,wi,j为TSGrams特征fj:<sj,gj>在类别Ci中的权重,若fj不属于Ci,则权重为0,否则为二者互信息,并规范化,即wi,j=MI(fj,Ci)Σm=1|ΦCi|(MI(fm,Ci))2fj∈ΦCi0fj∉ΦCi]]>步骤三、对未知类别数据分类。(1)对待分类的未知类别半结构化数据d进行预处理,用前述的方法获取未知类别半结构化数据d中的TSGrams特征,舍弃在未知类别半结构化数据d中出现而未包含在特征空间Ω中特征,则未知类别半结构化数据d表示为特征空间Ω中的一个向量:其中,wj是TSGrams特征空间Ω中第j个特征fj:<sj,gj>在文档d中出现的频次规范化后得到的值。(2)利用未知类别半结构化数据d的向量表示计算它和任一类别Ci的分类模型间的相似度,计算方法如下:sim(d,φCi)=Σ<sj,gj>∈dΣ<sk,gj>∈φCiwd(<sj,gj>)×wφCi(<sk,gj>)×sim(sj,sk)||d||×||φCi||]]>其中,wd(<sj,gj>)为TSGrams特征<sj,gj>在未知类别半结构化数据d中的权重,为TSGrams特征<sk,gj>在类别模型中的权重,||d||和分别为d和的欧几里得范数,而sim(sj,sk)为标签序列sj和sk间的相似度,定义为:sim(sj,sk)=1-ed(sj,sk)max{m,n}]]>其中,m和n分别为标签序列sj和sk的长度,而ed(sj,sk)为sj和sk的编辑距离。(3)指派文档d的类别为与其相似度最高的C*,即C*=ArgmaxCi∈Csim(d,φCi).]]>本发明的有益效果是:该方法将TSGrams特征作为表示半结构化数据的基本单元,用标签序列捕捉半结构化数据的结构信息,用nGrams捕捉半结构化数据的内容信息,将二者融合作为特征捕捉结构和内容间的包含关系,同时考虑内容信息中不同关键字间的相互关系,使用信息增益对TSGrams特征进行筛选,获取具有较强的分类能力的TSGrams特征构造特征空间,并根据TSGrams特征与类别间的互信息构建类别分类模型,并在分类时考虑不同结构间的相似性,提高了半结构化数据分类的准确率。下面结合附图和具体实施方式对本发明作详细说明。附图说明图1是本发明基于标签序列和nGrams的半结构化数据分类方法的流程图。具体实施方式参照图1。本发明基于标签序列和nGrams的半结构化数据分类方法具体步骤如下:1.构造TSGrams特征空间。1>TSGrams特征提取:对于数据集D中的每一个数据文档d,以树模型遍历d的所有文本节点,从根节点到其父节点的路径构成标签序列,利用与文献“TesarR,StrnadV,JezekK,etal.Extendingthesinglewords-baseddocumentmodel:acomparisonofbigramsand2-itemsets.ProceedingsoftheACMSymposiumonDocumentEngineering,Amsterdam,TheNetherlands:ACM,2006.138-146.”类似的方法从文本内容中提取所有长度小于等于3的nGrams。然后将标签序列和nGrams组合构成TSGrams特征,所有TSGrams特征构成的集合记为TSGramsSet。2>计算信息增益。计算TSGramsSet中每个TSGrams特征f:<s,g>的信息增益IG(f)。计算方法如下:IG(f)=-Σi=1kP(Ci)logP(Ci)+P(f)Σi=1kP(Ci|f)logP(Ci|f)+P(f‾)Σi=1kP(Ci|f‾)logP(Ci|f‾)]]>其中:P(Ci)=|{d|d∈Ci}||D|]]>3>将TSGramsSet中所有长度为1的TSGrams特征按照信息增益从大到小排序,设第N个特征的信息增益为IGN。其中N为参数,根据训练数据集不同取不同的值,需要根据实验结果调整。4>选取TSGramsSet中所有信息增益值大于IGN的特征构成特征空间Ω。2.构建分类模型。1>计算特征空间Ω中每个TSGrams特征f:<s,g>与类别Ci的互信息MI(f,Ci)。计算方法如下:2>将特征空间Ω划分为k个不相交的子集,每个子集代表了一个类别Ci,该子集称为该类别Ci的分类模型,记作特征空间Ω中任一特征f划分到与其互信息最高的分类模型ΦC*中。即:C*=ArgmaxCi∈CMI(f,Ci)]]>3>根据以上划分,任一类别Ci的分类模型可表示为TSGrams特征空间Ω中的一个向量:φCi=<wi,1,wi,2,...,wi,|Ω|>]]>其中,wi,j为TSGrams特征fj:<sj,gj>在类别Ci中的权重,若fj不属于Ci,则权重为0,否则为二者互信息,并规范化,即wi,j=MI(fj,Ci)Σm=1|ΦCi|(MI(fm,Ci))2fj∈ΦCi0fj∉ΦCi]]>3.对未知类别数据分类。1>对待分类的未知类别半结构化数据d进行预处理,用前述的方法获取未知类别半结构化数据d中的TSGrams特征,舍弃在未知类别半结构化数据d中出现而未包含在特征空间Ω中特征,则未知类别半结构化数据d可表示为特征空间Ω中的一个向量:其中,wj是TSGrams特征空间Ω中第j个特征fj:<sj,gj>在文档d中出现的频次规范化后得到的值。2>利用未知类别半结构化数据d的向量表示计算它和任一类别Ci的分类模型间的相似度,计算方法如下:sim(d,φCi)=Σ<sj,gj>∈dΣ<sk,gj>∈φCiwd(<sj,gj>)×wφCi(<sk,gj>)×sim(sj,sk)||d||×||φCi||]]>其中,wd(<sj,gj>)为TSGrams特征<sj,gj>在d中的权重,为TSGrams特征<sk,gj>在类别模型中的权重,||d||和分别为d和的欧几里得范数,而sim(sj,sk)为标签序列sj和sk间的相似度,定义为:sim(sj,sk)=1-ed(sj,sk)max{m,n}]]>其中,m和n分别为标签序列sj和sk的长度,而ed(sj,sk)为sj和sk的编辑距离,其计算方法请参见文献“LevenshteinVI.Binarycodescapableofcorrectingspuriousinsertionsanddeletionsofones.ProblemsofInformationTransmission.1965”,不同点在于本方法中编辑的基本单元是标签(tag)。3>指派文档d的类别为与其相似度最高的C*,即C*=ArgmaxCi∈Csim(d,φCi).]]>当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1