基于块划分及位置权重的文本分类方法

文档序号：6353101阅读：842来源：国知局

专利名称：基于块划分及位置权重的文本分类方法
技术领域：
本发明涉及一种基于块划分及位置权重的文本分类方法，属于电子文本组织归类领域。
背景技术：
文本分类通常从两个角度评价文本分类方法的优劣一是分类性能，如准确率、召回率和Fl值，二是实现性能，如时间效率和存储效率。而实现文本分类的过程却包含文本预处理、文本表示、分类器训练和分类应用等步骤，其中文本表示包含特征选择、特征权重量化、特征降维等细节。
常规的文本分类方法较多的集中在分类器的选择和改进方面，主要有基于支持向量机、K近邻、贝叶斯网络或多分类器组合等技术，尤其是支持向量机技术以其较高的分类性能和泛化能力而被广泛应用。然而，分类器的分类性能是受待分样本的可分性制约的，而确保样本可分性的关键却在于文本表示。一个文本数据在通过预处理之后，丢失部分信息是不可避免的，而文本向量固有的稀疏性则将加剧信息的丢失，以至于从分类器的设计上去解决输入样本的本身的类别重叠、噪声等变得异常困难和不确定。所以，一个良好文本分类方法如果能够在文本表示阶段最大程度地保留文本所携带的信息，无疑对于提高文本分类的效果是有益的。
传统的文本分类方法主要有两种模式一是完全基于特征词的词频(TF)信息及其变化来反映文本信息，一是对文本进行断句后，根据特征词所在句子的不同来调节特征词权重以丰富所反映的文本信息。前者由于表达模式单一，不能最大程度的保留文本信息；后者虽携带信息更丰富，但通常的文本大小不一、句子长度差异大，导致句划分分析模式的适应能力差、存储资源消耗大，且不易于寻找有效的特征词权重调节模式等问题。发明内容
本发明的目的是提供一种基于块划分及位置权重的文本分类方法，能够对文本做块划分、调整和分析后，引入特征词的位置权重表达以丰富文本向量的信息量，进一步提高文本分类的性能。
本发明的一个基本思想就是通过将文本内容划分为文本块，并利用特征词所在的块号或块偏移对特征重要程度的影响，来阐释文本携带的特征词信息之外的结构信息。然而，即便是同类文本的不同实例的原始段(块)大小与数量都是随机的，同时，对于文本块较多的情况，距离较近的文本块对相同特征词的重要程度影响较小，所以为避免直接使用原始段作为文本块的基本单位带来的计算、存储开销，需要对文本块进行适当的调整或重新划分。
本发明的技术方案是基于块划分及位置权重的文本分类方法，包括如下步骤
第一步预处理及原始段、块的提取与标记对输入的训练或测试文本使用基本的预处理，分析、提取并标记文本的原始段信息，将每个段视为一个文本块；
第二步统计分析每个文本的块大小与分布，根据一个阈值，对近邻小文本块做合并操作；根据预定义块比率对整个文本或特定文本块重新进行块划分和标记；
第三步判断处理对象，若为训练集文本，转入第四步，否则转入第六步；
第四步利用常规的特征提取方法从训练集文本中提取特征词、；使用特征权重量化方法，计算特征词的权重％；计算特征词、对每个训练类别的后验概率；
第五步提取每个训练集文本中的具有最大后验概率类别与文本类标相符的特征词的分布，分析该特征词分布，选择合适的位置权重表达式f(b)，其中b为块号；
第六步根据第四步的特征词，提取测试文本的特征词、、所属文本块号…及原始权重；计算位置权重f (bp · Wj来替代原始权重％，并输出文本向量；
第七步利用分类器完成分类模型训练或文本分类。
上述第一步中预处理及原始段、块的提取与标记采用的方法包括中/英文分词、去停用词、英文的词根还原，若为网页文本，则增加去HTML标记等操作。
上述第一步中分析、提取文本的段信息，将每一个段视为一个文本块，加以标记。
上述第二步中合并操作的步骤为
根据第一步中的标记结果，长度为IDI的文本D被划分为长度序列{dp d2，…， dj，其中，1为文本块数，则统计文本D的块平均长度J和方差δ如下。_ ！ 1
孑=了(1)fc=l[。。2。] J 二 (占 gK -(2)
上述第四步中提取特征词的方法为基于互信息量(Mutual hformation)、卡方 (chi-square, X2)禾口 RF(relevance frequency)中的一种特征提取方法。
上述第四步中计算特征词的权重Wj的方法包括IDF (Inverse Document Frequency)、卡方、RF、OR (Odd Ratio)中的一种特征词权重量化方法。
上述第四步中计算特征词、对每个训练类别的后验概率，对类别Ci的后验概率Pr(CJtj)的计算方法为[_ 哪⑶Ef ι tf(tH)_ 赛 Sife^. (4)
Pr(tj) = ,^/y；(5)
PritjICl) = 二、(6)
其中，tf(、)为特征词、在类别Ci中出现的频率，C|为训练集中包含的类别数， N为特征词总数，对于具有多类文本的训练过程，每一个特征词、都会得到一个后验概率序列，{Pr (C11 tj)，Pr (C11 tj)，…，Pr (CN11」)}，其中N为训练文本的类别总数。
上述第五步中特征词分布分析方法包括以下两种
方法一，根据文本分类器的目标应用，分析各类别文档的共性结构规范，确定最佳表达文本类别的信息与该信息存在与文档中的偏移关系，而后选择一个合理的位置权重表达式；
方法二，由文本分类器，依据第二步的块划分，先将从长度大于一个阈值dth_h。ld 的文本Dk (| Dk I ^ dthreshold)中提取的特征词集Tk划分为如下序列
TDk 二 {TDkl, Tpk2，…；TDkr}(7)
其中，r为文本Dk的块数，然后依据一定的统计分析方法得到位置权重表达式，通过分析得到每个块对文档类别判定的贡献程度，再通过概率拟合算法得到的位置权重表达式为β
f(b)=L·g2(^ + 2)(8)
其中，b e
为块偏移，δ (彡1)为控制位置权重值范围和偏移落差的阈值，为预设值。
本发明的有益效果
本发明的研究将人工进行文本分类时，有意识地提取文本对象特定区域、特定词等信息以对文本做出合理的类别判断的行为，转换为从文本向量对文本信息的表达能力提升的角度来提高文本分类器的分类效果。为此，本发明的文本分类方法，通过先将文本进行内容块标记、调整或重划分，然后利用人工或统计方法对文本中最大后验概率与文本类标相同的特征词的分布进行分析，确定特征词重要程度与其所在块偏移的关系作为位置权重，最后将位置权重和传统的特征权重相结合计算新的特征权重值，并输出相应的文本向量到分类器进行分类。
本发明方法采用了灵活的文本块划分方式，适宜处理任意长度的文本，能最大程度地节省文本分类器实现系统对存储资源的占用，并且块大小调整或重划分过程无须额外的文本扫描工作，极大的节约了分类所需的时间。同时，采用本发明的基于块偏移的位置权重表达模式，能从根本上解决传统方法本质上单纯地基于词频的权重所存在的表达模式单一，生成文本向量的信息量不足的问题。因此，本发明的本质是在原特征权重中附加了文本的结构信息，使得文本向量表达信息更丰富，使本发明的实现系统在分类的准确率、召回率等指标比传统方法有较大幅度的提高。

图1本发明的基于块划分及位置权重的文本分类方法流程图。
具体实施例方式
下面结合附图和实施例，对本发明所述的技术方案作进一步的阐述。
在人工进行分类的时候，人们如果判断一个文本属于哪一类或者是获取文本所传达的信息，往往并不需要通读全文以确定文本的主题进而得到正确的判断，而是在文本的特定位置提取反映文本类型的特征词。而确定一个具有相当重要程度的特征词，也不仅仅依据它在一个文本中出现的频率来判断。也就是，一个具有明确的单类别或多类别归属的6文本，通常具有在其特定领域的规范表达，即同样的特征词由于其处于文本中的位置不同，也将携带不同的信息量。换言之，一个文本所传达的信息量，应至少包含由组成文本的特征词所携带的信息和影响特征词本身作为反映文本类别的重要程度的文本结构信息两部分。而文本分类器从文本中获取的信息量越多，越将有利于做出正确的判断。然而，让文本分类器提取特征词是容易的，要精确分析文本结构并给出严格的特征词重要程度受结构影响的表达式却是不可能的。在对语料库的分析时，虽然每个特征词都可能在不同的类别中出现，但通过后验概率分析，我们能找与其具有最大相关度的类别，本发明称其为特征词的最大类别倾向。结合恰当的统计分析方法对特征集内各特征词的最大类别倾向分析，能找到特征词权重与位置结构关系的近似，进而优化文本表示的信息量。也就是说，本发明实现了一种基于块划分和位置权重分析的文本分类新方法。
本发明基于块划分及位置权重的文本分类方法的步骤如下
1)预处理及原始段(块)提取与标记，它包括
a.对输入的训练或测试文本，使用基本的预处理；
b.分析、提取并标记文本的原始段信息，将每个段视为一个文本块；
2)块信息统计分析，相邻文本块合并或按预定义的块比率重新划分文本块，它包括下面两个可选步骤
a.统计分析每个文本的块大小与分布，根据一个阈值，对近邻小文本块做合并操作；
b.根据预定义块比率，对整个文本或特定文本块重新进行块划分和标记；幻判断处理对象，若为训练集文本，转入步骤4)，否则，转入步骤6)；
4)提取特征词、量化权重，并获取特征词、对类别Ci的后验概率已(Ci Itj)，它包括
a.利用常规的特征提取方法，从训练集文本中提取特征词、；
b.使用一种特征权重量化方法，计算特征词的权重Wj ；
c.计算特征词、对每个训练类别的后验概率，如对类别Ci的后验概率ft· (Ci Itj)；
5)根据最大后验概率类别与文本类别标签相符的特征词分布分析，选择或设计位置权重表达式，它包括
a.提取每个训练集文本中的具有最大后验概率类别与文本类标相符的特征词的分布；
b.分析a步骤的特征词分布，选择或设计合适的位置权重表达式f (b)，其中b为块号；
6)提取特征词、、所属块号bj及原始权重Wj，计算f(bp ·%，并生成文本向量，它包括
a.根据步骤4)的特征词集，提取测试文本的特征词、、所属文本块号…及原始权重Wj ；
b.计算位置权重f(bp · Wj来替代原始权重Wj，并输出文本向量；
7)分类器训练模型或分类。用于训练分类模型或分类的分类器可以是任何支持文本向量模型的分类器，如支持向量机分类器、K近邻分类器及朴素贝叶斯分类器等。
1.预处理及原始段(块)提取与标记
步骤1. a的预处理操作以利于提取训练集或测试集文本的原始段落信息为中心，可以采用常规的预处理方法，如中/英文分词、去停用词、英文的词根还原等，若为网页文本，则可增加去HTML标记等操作；
步骤l.b分析、提取文本的段信息，将每一个段视为一个文本块，加以标记，以便在步骤2中进行块分析与调整；
步骤1. a和1. b没有先后关系，具体实施过程中，可根据实际情况将二者有效融合，或先提取并标记文本块(段)信息后再做基本预处理操作。例如，在处理网页文本时， HTML标记中的“<H>与</H>”和“
与</p>”分别反映了文本的标题和段落数据范围，此时便可先自行标记文本块信息后清除这些语法标记。
本发明方法建议在处理网页文本时，将HTML标记“<H>与</H>”之间的标题文本或其他具有明确主题反映能力的文本块作为一个独立的文本块划分，并不受步骤2的块调整方法影响。
2.块信息统计分析，相邻文本块合并或按预定义的块比率重新划分文本块
本发明的一个基本思想就是通过将文本内容划分为文本块，并利用特征词所在的块号或块偏移对特征重要程度的影响，来阐释文本携带的特征词信息之外的结构信息。然而，即便是同类文本的不同实例的原始段(块)大小与数量都是随机的，同时，对于文本块较多的情况，距离较近的文本块对相同特征词的重要程度影响较小，所以为避免直接使用原始段作为文本块的基本单位带来的计算、存储开销，需要对文本块进行适当的调整或重新划分。
本发明关于文本块调整或重新划分包含两个可选方案
a.统计分析每个文本的块大小与分布，根据一个阈值，对近邻小文本块做合并操作；
b.根据预定义块比率，对整个文本或特定文本块重新进行块划分和标记；
所述的方案a中，假设根据步骤1中的标记结果，长度为|D|的文本D被划分为长度序列{di，d2，…，dj，其中，1为文本块数。则统计文本D的块平均长度J和方差δ如下1 1
( 二了(9)fc=l_2] (^ΣΚ- ]2)(10)\ ‘ k~-=l J-
判断一个文本块是否需要进行调整的条件是对于设定的系数λ，如果当前文本块的长度CliGe [1，1])小于( +λ·、
进行文本块合并的方法可以是将第i个文本块并入第i_l或i+Ι个文本块中；
所述的方案b中，可预设块大小比率R，将文本逐次划分为长度为R · |D的文本块。
所述的方案b中，文本块大小比率R将直接影响文本即将被划分的块数，预设原则可以是人工对文本分类的目标领域的文档做有意义的结构分析而得到，也可以是其他任何有效方式。
本步骤中，上述两个方案可以结合使用，条件是当文本分类系统选择使用方案a所述方法进行文本块调整时，但存在一些步骤1无法提取恰当的信息进行原始块划分和标记的文本，且该文本的长度|D|又大于一个预设的全文长度界|D|max时。
由于它们本身没有足够的信息使得步骤ι合理的标记文本块，
3.判断处理对象，若为训练集文本，转入步骤4)，否则，转入步骤6)；
本发明的图示步骤采用了将文本分类系统的训练过程和测试过程结合的表达方式，故步骤3对处理对象的判断并不是必须在步骤2之后进行。在实际的文本分类系统中，对训练集的训练和对测试集的测试过程是两个独立的过程，即在将本发明方法用于具体的文本分类系统中，可以将此7个步骤分解为训练和测试两个步骤序列，示例如下
训练过程步骤1 —步骤2 —步骤4 —步骤5 —步骤7
测试过程步骤1 —步骤2 —步骤6 —步骤7
4.提取特征词、量化权重，并获取特征词、对类别Ci的后验概率ft· (Ci I tj)
本发明实际是实现了一种基于并具有灵活的块划分能力和位置权重分析的文本分类方法，所以对于提取特征词、量化权重等方法不作具体限制。
步骤4. a旨在从训练集文本中提取特征词、，使用的方法可以是基于互信息量 (MutualInformation)、卡方(chi-square，X2)禾口 RF (relevance frequency)等任何一禾中特征提取方法；
步骤4. b计算特征词的权重Wj,可选择包括IDF (Inverse Document Frequency)、卡方、RF、OR (Odd Ratio)等在内的任何一种特征词权重量化方法；
步骤4. c计算特征词、对每个训练类别的后验概率，如对类别Ci的后验概率 Pr(CJtj)计算方法(3) (6)
权利要求
1.基于块划分及位置权重的文本分类方法，其特征在于包括如下步骤第一步预处理及原始段、块的提取与标记对输入的训练或测试文本使用基本的预处理，分析、提取并标记文本的原始段信息，将每个段视为一个文本块；第二步统计分析每个文本的块大小与分布，根据一个阈值，对近邻小文本块做合并操作；根据预定义块比率对整个文本或特定文本块重新进行块划分和标记；第三步判断处理对象，若为训练集文本，转入第四步，否则转入第六步；第四步利用常规的特征提取方法从训练集文本中提取特征词、；使用特征权重量化方法，计算特征词的权重％；计算特征词、对每个训练类别的后验概率；第五步提取每个训练集文本中的具有最大后验概率类别与文本类标相符的特征词的分布，分析该特征词分布，选择合适的位置权重表达式f(b)，其中b为块号；第六步根据第四步的特征词，提取测试文本的特征词、、所属文本块号…及原始权重 Wj ；计算位置权重f (bp · Wj来替代原始权重％，并输出文本向量；第七步利用分类器完成分类模型训练或文本分类。
2.如权利要求1所述的基于块划分及位置权重的文本分类方法，其特征在于上述第一步中预处理及原始段、块的提取与标记采用的方法包括中/英文分词、去停用词、英文的词根还原，若为网页文本，则增加去HTML标记等操作。
3.如权利要求1或2所述的基于块划分及位置权重的文本分类方法，其特征在于上述第一步中分析、提取文本的段信息，将每一个段视为一个文本块，加以标记。
4.如权利要求1所述的基于块划分及位置权重的文本分类方法，其特征在于上述第二步中合并操作的步骤为根据第一步中的标记结果，长度为|D|的文本D被划分为长度序列{屯，屯，…，dj，其中，ι为文本块数，则统计文本D的块平均长度J和方差δ如下。1 1J二了(!)“(^τ κ)(2)
5.如权利要求1所述的基于块划分及位置权重的文本分类方法，其特征在于上述第二步中合并操作的步骤为上述第四步中提取特征词的方法为基于互信息量 (MutualInformation)、卡方(chi-square，X2)禾口 RF(relevance frequency)中的一禾中特征提取方法。
6.如权利要求1或5所述的基于块划分及位置权重的文本分类方法，其特征在于上述第二步中合并操作的步骤为上述第四步中计算特征词的权重Wj的方法包括 IDF(InverseDocument Frequency)、卡方、RF、OR (Odd Ratio)中的一种特征词权重量化方法。
7.如权利要求1或5所述的基于块划分及位置权重的文本分类方法，其特征在于上述第二步中合并操作的步骤为上述第四步中计算特征词、对每个训练类别的后验概率，对类别Ci的后验概率ft· (Ci ι tj)的计算方法为Pr(Cit)-pric^ -pr^lay Pr{Q)η、- -ρ^Γ - RrW(3)Σ" ！ tf(t,i)pr^ ^lL ’ (4)剛:JlSb⑶pr^--^Sk) (6)其中，tf(ty为特征词、在类别Ci中出现的频率，|C|为训练集中包含的类别数，N为特征词总数，对于具有多类文本的训练过程，每一个特征词、都会得到一个后验概率序列， {Pr (C11 tj)，Pr (C11 tj)，…，Pr (CN11」)}，其中N为训练文本的类别总数。
8.如权利要求1或2或4或5所述的基于块划分及位置权重的文本分类方法，其特征在于上述第二步中合并操作的步骤为上述第五步中特征词分布分析方法包括以下两种方法一，根据文本分类器的目标应用，分析各类别文档的共性结构规范，确定最佳表达文本类别的信息与该信息存在与文档中的偏移关系，而后选择一个合理的位置权重表达式；方法二，由文本分类器，依据第二步的块划分，先将从长度大于一个阈值dth_h。ld的文本Dk(IDkI ^ dthreshold)中提取的特征词集划分为如下序列 TDk 二 [TDkl，TDk2 ,·■■ . Tpkr}·(7)其中，r为文本Dk的块数，然后依据一定的统计分析方法得到位置权重表达式，通过分析得到每个块对文档类别判定的贡献程度，再通过概率拟合算法得到的位置权重表达式为f(b)=log2(^i+2)(8)其中，b e
为块偏移，δ (彡1)为控制位置权重值范围和偏移落差的阈值，为预设值。
全文摘要
本发明公开一种基于块划分及位置权重的文本分类方法。它包括步骤对输入的训练或测试文本经过基本的预处理后，提取文本中的段信息；将每一段视为一个基本的文本块，对块信息做统计分析，根据块大小分布或预定义的块比率，对文本内容重新进行块划分，包括文本块的合并等操作。提取特征词、量化权重，并获取特征词对类别的后验概率，然后分析具有最大后验概率类别与文本类别标签相符的特征词的分布，最后生成文本向量；利用分类器完成分类模型训练或文本分类。本发明可用于文本分类系统的文本表示阶段，通过丰富传统的利用特征词构建文本向量时对文本内容信息的表达，提升文本分类效果。
文档编号G06F17/30GK102033964SQ20111000650
公开日2011年4月27日申请日期2011年1月13日优先权日2011年1月13日
发明者刘念, 周亚建, 平源, 彭维平, 杨义先申请人:北京邮电大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周亚建;平源;杨义先;彭维平;刘念
技术所有人：北京邮电大学
我是此专利的发明人

上一篇：分布录波装置的tdmow串行总线结构及编码方法
上一篇：复合型固态驱动器控制系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。