基于块划分及位置权重的文本分类方法

文档序号:6353101阅读:842来源:国知局
专利名称:基于块划分及位置权重的文本分类方法
技术领域
本发明涉及一种基于块划分及位置权重的文本分类方法,属于电子文本组织归类 领域。
背景技术
文本分类通常从两个角度评价文本分类方法的优劣一是分类性能,如准确率、召 回率和Fl值,二是实现性能,如时间效率和存储效率。而实现文本分类的过程却包含文本 预处理、文本表示、分类器训练和分类应用等步骤,其中文本表示包含特征选择、特征权重 量化、特征降维等细节。
常规的文本分类方法较多的集中在分类器的选择和改进方面,主要有基于支持向 量机、K近邻、贝叶斯网络或多分类器组合等技术,尤其是支持向量机技术以其较高的分类 性能和泛化能力而被广泛应用。然而,分类器的分类性能是受待分样本的可分性制约的,而 确保样本可分性的关键却在于文本表示。一个文本数据在通过预处理之后,丢失部分信息 是不可避免的,而文本向量固有的稀疏性则将加剧信息的丢失,以至于从分类器的设计上 去解决输入样本的本身的类别重叠、噪声等变得异常困难和不确定。所以,一个良好文本分 类方法如果能够在文本表示阶段最大程度地保留文本所携带的信息,无疑对于提高文本分 类的效果是有益的。
传统的文本分类方法主要有两种模式一是完全基于特征词的词频(TF)信息及 其变化来反映文本信息,一是对文本进行断句后,根据特征词所在句子的不同来调节特征 词权重以丰富所反映的文本信息。前者由于表达模式单一,不能最大程度的保留文本信息; 后者虽携带信息更丰富,但通常的文本大小不一、句子长度差异大,导致句划分分析模式的 适应能力差、存储资源消耗大,且不易于寻找有效的特征词权重调节模式等问题。发明内容
本发明的目的是提供一种基于块划分及位置权重的文本分类方法,能够对文本做 块划分、调整和分析后,引入特征词的位置权重表达以丰富文本向量的信息量,进一步提高 文本分类的性能。
本发明的一个基本思想就是通过将文本内容划分为文本块,并利用特征词所在的 块号或块偏移对特征重要程度的影响,来阐释文本携带的特征词信息之外的结构信息。然 而,即便是同类文本的不同实例的原始段(块)大小与数量都是随机的,同时,对于文本块 较多的情况,距离较近的文本块对相同特征词的重要程度影响较小,所以为避免直接使用 原始段作为文本块的基本单位带来的计算、存储开销,需要对文本块进行适当的调整或重 新划分。
本发明的技术方案是基于块划分及位置权重的文本分类方法,包括如下步骤
第一步预处理及原始段、块的提取与标记对输入的训练或测试文本使用基本 的预处理,分析、提取并标记文本的原始段信息,将每个段视为一个文本块;
第二步统计分析每个文本的块大小与分布,根据一个阈值,对近邻小文本块做合 并操作;根据预定义块比率对整个文本或特定文本块重新进行块划分和标记;
第三步判断处理对象,若为训练集文本,转入第四步,否则转入第六步;
第四步利用常规的特征提取方法从训练集文本中提取特征词、;使用特征权重 量化方法,计算特征词的权重% ;计算特征词、对每个训练类别的后验概率;
第五步提取每个训练集文本中的具有最大后验概率类别与文本类标相符的特征 词的分布,分析该特征词分布,选择合适的位置权重表达式f(b),其中b为块号;
第六步根据第四步的特征词,提取测试文本的特征词、、所属文本块号…及原始 权重 ;计算位置权重f (bp · Wj来替代原始权重%,并输出文本向量;
第七步利用分类器完成分类模型训练或文本分类。
上述第一步中预处理及原始段、块的提取与标记采用的方法包括中/英文分词、 去停用词、英文的词根还原,若为网页文本,则增加去HTML标记等操作。
上述第一步中分析、提取文本的段信息,将每一个段视为一个文本块,加以标记。
上述第二步中合并操作的步骤为
根据第一步中的标记结果,长度为IDI的文本D被划分为长度序列{dp d2,…, dj,其中,1为文本块数,则统计文本D的块平均长度J和方差δ如下。_ ! 1
孑=了(1)fc=l[。。2。] J 二 (占 gK -(2)
上述第四步中提取特征词的方法为基于互信息量(Mutual hformation)、卡方 (chi-square, X2)禾口 RF(relevance frequency)中的一种特征提取方法。
上述第四步中计算特征词的权重Wj的方法包括IDF (Inverse Document Frequency)、卡方、RF、OR (Odd Ratio)中的一种特征词权重量化方法。
上述第四步中计算特征词、对每个训练类别的后验概率,对类别Ci的后验概率Pr(CJtj)的计算方法为[_ 哪⑶Ef ι tf(tH)_ 赛 Sife^. (4)
Pr(tj) = ,^/y;(5)
PritjICl) = 二 、(6)
其中,tf(、)为特征词、在类别Ci中出现的频率,C|为训练集中包含的类别数, N为特征词总数,对于具有多类文本的训练过程,每一个特征词、都会得到一个后验概率序 列,{Pr (C11 tj),Pr (C11 tj),…,Pr (CN11」)},其中N为训练文本的类别总数。
上述第五步中特征词分布分析方法包括以下两种
方法一,根据文本分类器的目标应用,分析各类别文档的共性结构规范,确定最佳 表达文本类别的信息与该信息存在与文档中的偏移关系,而后选择一个合理的位置权重表 达式;
方法二,由文本分类器,依据第二步的块划分,先将从长度大于一个阈值dth_h。ld 的文本Dk (| Dk I ^ dthreshold)中提取的特征词集Tk划分为如下序列
TDk 二 {TDkl, Tpk2,…;TDkr}(7)
其中,r为文本Dk的块数,然后依据一定的统计分析方法得到位置权重表达式,通 过分析得到每个块对文档类别判定的贡献程度,再通过概率拟合算法得到的位置权重表达 式为β
f(b)=L·g2(^ + 2)(8)
其中,b e
为块偏移,δ (彡1)为控制位置权重值范围和偏移落差的阈 值,为预设值。
本发明的有益效果
本发明的研究将人工进行文本分类时,有意识地提取文本对象特定区域、特定词 等信息以对文本做出合理的类别判断的行为,转换为从文本向量对文本信息的表达能力提 升的角度来提高文本分类器的分类效果。为此,本发明的文本分类方法,通过先将文本进 行内容块标记、调整或重划分,然后利用人工或统计方法对文本中最大后验概率与文本类 标相同的特征词的分布进行分析,确定特征词重要程度与其所在块偏移的关系作为位置权 重,最后将位置权重和传统的特征权重相结合计算新的特征权重值,并输出相应的文本向 量到分类器进行分类。
本发明方法采用了灵活的文本块划分方式,适宜处理任意长度的文本,能最大程 度地节省文本分类器实现系统对存储资源的占用,并且块大小调整或重划分过程无须额外 的文本扫描工作,极大的节约了分类所需的时间。同时,采用本发明的基于块偏移的位置权 重表达模式,能从根本上解决传统方法本质上单纯地基于词频的权重所存在的表达模式单 一,生成文本向量的信息量不足的问题。因此,本发明的本质是在原特征权重中附加了文本 的结构信息,使得文本向量表达信息更丰富,使本发明的实现系统在分类的准确率、召回率 等指标比传统方法有较大幅度的提高。


图1本发明的基于块划分及位置权重的文本分类方法流程图。
具体实施例方式
下面结合附图和实施例,对本发明所述的技术方案作进一步的阐述。
在人工进行分类的时候,人们如果判断一个文本属于哪一类或者是获取文本所传 达的信息,往往并不需要通读全文以确定文本的主题进而得到正确的判断,而是在文本的 特定位置提取反映文本类型的特征词。而确定一个具有相当重要程度的特征词,也不仅仅 依据它在一个文本中出现的频率来判断。也就是,一个具有明确的单类别或多类别归属的6文本,通常具有在其特定领域的规范表达,即同样的特征词由于其处于文本中的位置不同, 也将携带不同的信息量。换言之,一个文本所传达的信息量,应至少包含由组成文本的特征 词所携带的信息和影响特征词本身作为反映文本类别的重要程度的文本结构信息两部分。 而文本分类器从文本中获取的信息量越多,越将有利于做出正确的判断。然而,让文本分类 器提取特征词是容易的,要精确分析文本结构并给出严格的特征词重要程度受结构影响的 表达式却是不可能的。在对语料库的分析时,虽然每个特征词都可能在不同的类别中出现, 但通过后验概率分析,我们能找与其具有最大相关度的类别,本发明称其为特征词的最大 类别倾向。结合恰当的统计分析方法对特征集内各特征词的最大类别倾向分析,能找到特 征词权重与位置结构关系的近似,进而优化文本表示的信息量。也就是说,本发明实现了一 种基于块划分和位置权重分析的文本分类新方法。
本发明基于块划分及位置权重的文本分类方法的步骤如下
1)预处理及原始段(块)提取与标记,它包括
a.对输入的训练或测试文本,使用基本的预处理;
b.分析、提取并标记文本的原始段信息,将每个段视为一个文本块;
2)块信息统计分析,相邻文本块合并或按预定义的块比率重新划分文本块,它包 括下面两个可选步骤
a.统计分析每个文本的块大小与分布,根据一个阈值,对近邻小文本块做合并操 作;
b.根据预定义块比率,对整个文本或特定文本块重新进行块划分和标记;幻判断 处理对象,若为训练集文本,转入步骤4),否则,转入步骤6);
4)提取特征词、量化权重,并获取特征词、对类别Ci的后验概率已(Ci Itj),它包 括
a.利用常规的特征提取方法,从训练集文本中提取特征词、;
b.使用一种特征权重量化方法,计算特征词的权重Wj ;
c.计算特征词、对每个训练类别的后验概率,如对类别Ci的后验概率ft· (Ci Itj);
5)根据最大后验概率类别与文本类别标签相符的特征词分布分析,选择或设计位 置权重表达式,它包括
a.提取每个训练集文本中的具有最大后验概率类别与文本类标相符的特征词的 分布;
b.分析a步骤的特征词分布,选择或设计合适的位置权重表达式f (b),其中b为 块号;
6)提取特征词、、所属块号bj及原始权重Wj,计算f(bp ·%,并生成文本向量,它 包括
a.根据步骤4)的特征词集,提取测试文本的特征词、、所属文本块号…及原始权 重Wj ;
b.计算位置权重f(bp · Wj来替代原始权重Wj,并输出文本向量;
7)分类器训练模型或分类。用于训练分类模型或分类的分类器可以是任何支持文 本向量模型的分类器,如支持向量机分类器、K近邻分类器及朴素贝叶斯分类器等。
1.预处理及原始段(块)提取与标记
步骤1. a的预处理操作以利于提取训练集或测试集文本的原始段落信息为中心, 可以采用常规的预处理方法,如中/英文分词、去停用词、英文的词根还原等,若为网页文 本,则可增加去HTML标记等操作;
步骤l.b分析、提取文本的段信息,将每一个段视为一个文本块,加以标记,以便 在步骤2中进行块分析与调整;
步骤1. a和1. b没有先后关系,具体实施过程中,可根据实际情况将二者有效融 合,或先提取并标记文本块(段)信息后再做基本预处理操作。例如,在处理网页文本时, HTML标记中的“<H>与</H>”和“
与</p>”分别反映了文本的标题和段落数据范围,此 时便可先自行标记文本块信息后清除这些语法标记。
本发明方法建议在处理网页文本时,将HTML标记“<H>与</H>”之间的标题文本 或其他具有明确主题反映能力的文本块作为一个独立的文本块划分,并不受步骤2的块调 整方法影响。
2.块信息统计分析,相邻文本块合并或按预定义的块比率重新划分文本块
本发明的一个基本思想就是通过将文本内容划分为文本块,并利用特征词所在的 块号或块偏移对特征重要程度的影响,来阐释文本携带的特征词信息之外的结构信息。然 而,即便是同类文本的不同实例的原始段(块)大小与数量都是随机的,同时,对于文本块 较多的情况,距离较近的文本块对相同特征词的重要程度影响较小,所以为避免直接使用 原始段作为文本块的基本单位带来的计算、存储开销,需要对文本块进行适当的调整或重 新划分。
本发明关于文本块调整或重新划分包含两个可选方案
a.统计分析每个文本的块大小与分布,根据一个阈值,对近邻小文本块做合并操 作;
b.根据预定义块比率,对整个文本或特定文本块重新进行块划分和标记;
所述的方案a中,假设根据步骤1中的标记结果,长度为|D|的文本D被划分为长 度序列{di,d2,…,dj,其中,1为文本块数。则统计文本D的块平均长度J和方差δ如下1 1
( 二了(9)fc=l_2] (^ΣΚ- ]2)(10)\ ‘ k~-=l J-
判断一个文本块是否需要进行调整的条件是对于设定的系数λ,如果当前文本 块的长度CliGe [1,1])小于( +λ·、
进行文本块合并的方法可以是将第i个文本块并入第i_l或i+Ι个文本块中;
所述的方案b中,可预设块大小比率R,将文本逐次划分为长度为R · |D的文本 块。
所述的方案b中,文本块大小比率R将直接影响文本即将被划分的块数,预设原则 可以是人工对文本分类的目标领域的文档做有意义的结构分析而得到,也可以是其他任何 有效方式。
本步骤中,上述两个方案可以结合使用,条件是当文本分类系统选择使用方案a所述方法进行文本块调整时,但存在一些步骤1无法提取恰当的信息进行原始块划分和标 记的文本,且该文本的长度|D|又大于一个预设的全文长度界|D|max时。
由于它们本身没有足够的信息使得步骤ι合理的标记文本块,
3.判断处理对象,若为训练集文本,转入步骤4),否则,转入步骤6);
本发明的图示步骤采用了将文本分类系统的训练过程和测试过程结合的表达方 式,故步骤3对处理对象的判断并不是必须在步骤2之后进行。在实际的文本分类系统中, 对训练集的训练和对测试集的测试过程是两个独立的过程,即在将本发明方法用于具体的 文本分类系统中,可以将此7个步骤分解为训练和测试两个步骤序列,示例如下
训练过程步骤1 —步骤2 —步骤4 —步骤5 —步骤7
测试过程步骤1 —步骤2 —步骤6 —步骤7
4.提取特征词、量化权重,并获取特征词、对类别Ci的后验概率ft· (Ci I tj)
本发明实际是实现了一种基于并具有灵活的块划分能力和位置权重分析的文本 分类方法,所以对于提取特征词、量化权重等方法不作具体限制。
步骤4. a旨在从训练集文本中提取特征词、,使用的方法可以是基于互信息量 (MutualInformation)、卡方(chi-square,X2)禾口 RF (relevance frequency)等任何一禾中特 征提取方法;
步骤4. b计算特征词的权重Wj,可选择包括IDF (Inverse Document Frequency)、 卡方、RF、OR (Odd Ratio)等在内的任何一种特征词权重量化方法;
步骤4. c计算特征词、对每个训练类别的后验概率,如对类别Ci的后验概率 Pr(CJtj)计算方法(3) (6)
权利要求
1.基于块划分及位置权重的文本分类方法,其特征在于包括如下步骤第一步预处理及原始段、块的提取与标记对输入的训练或测试文本使用基本的预 处理,分析、提取并标记文本的原始段信息,将每个段视为一个文本块;第二步统计分析每个文本的块大小与分布,根据一个阈值,对近邻小文本块做合并操 作;根据预定义块比率对整个文本或特定文本块重新进行块划分和标记;第三步判断处理对象,若为训练集文本,转入第四步,否则转入第六步;第四步利用常规的特征提取方法从训练集文本中提取特征词、;使用特征权重量化 方法,计算特征词的权重% ;计算特征词、对每个训练类别的后验概率;第五步提取每个训练集文本中的具有最大后验概率类别与文本类标相符的特征词的 分布,分析该特征词分布,选择合适的位置权重表达式f(b),其中b为块号;第六步根据第四步的特征词,提取测试文本的特征词、、所属文本块号…及原始权重 Wj ;计算位置权重f (bp · Wj来替代原始权重%,并输出文本向量;第七步利用分类器完成分类模型训练或文本分类。
2.如权利要求1所述的基于块划分及位置权重的文本分类方法,其特征在于上述第 一步中预处理及原始段、块的提取与标记采用的方法包括中/英文分词、去停用词、英文的 词根还原,若为网页文本,则增加去HTML标记等操作。
3.如权利要求1或2所述的基于块划分及位置权重的文本分类方法,其特征在于上 述第一步中分析、提取文本的段信息,将每一个段视为一个文本块,加以标记。
4.如权利要求1所述的基于块划分及位置权重的文本分类方法,其特征在于上述第 二步中合并操作的步骤为根据第一步中的标记结果,长度为|D|的文本D被划分为长度序 列{屯,屯,…,dj,其中,ι为文本块数,则统计文本D的块平均长度J和方差δ如下。1 1J二了(!)“(^τ κ)(2)
5.如权利要求1所述的基于块划分及位置权重的文本分类方法,其特征在于 上述第二步中合并操作的步骤为上述第四步中提取特征词的方法为基于互信息量 (MutualInformation)、卡方(chi-square,X2)禾口 RF(relevance frequency)中的一禾中特征 提取方法。
6.如权利要求1或5所述的基于块划分及位置权重的文本分类方法,其特征在 于上述第二步中合并操作的步骤为上述第四步中计算特征词的权重Wj的方法包括 IDF(InverseDocument Frequency)、卡方、RF、OR (Odd Ratio)中的一种特征词权重量化方法。
7.如权利要求1或5所述的基于块划分及位置权重的文本分类方法,其特征在于上 述第二步中合并操作的步骤为上述第四步中计算特征词、对每个训练类别的后验概率, 对类别Ci的后验概率ft· (Ci ι tj)的计算方法为Pr(Cit)-pric^ -pr^lay Pr{Q)η、- -ρ^Γ - RrW(3)Σ" ! tf(t,i)pr^ ^lL ’ (4)剛:JlSb⑶pr^--^Sk) (6)其中,tf(ty为特征词、在类别Ci中出现的频率,|C|为训练集中包含的类别数,N为 特征词总数,对于具有多类文本的训练过程,每一个特征词、都会得到一个后验概率序列, {Pr (C11 tj),Pr (C11 tj),…,Pr (CN11」)},其中N为训练文本的类别总数。
8.如权利要求1或2或4或5所述的基于块划分及位置权重的文本分类方法,其特征在 于上述第二步中合并操作的步骤为上述第五步中特征词分布分析方法包括以下两种方法一,根据文本分类器的目标应用,分析各类别文档的共性结构规范,确定最佳表 达文本类别的信息与该信息存在与文档中的偏移关系,而后选择一个合理的位置权重表达 式;方法二,由文本分类器,依据第二步的块划分,先将从长度大于一个阈值dth_h。ld的文 本Dk(IDkI ^ dthreshold)中提取的特征词集划分为如下序列 TDk 二 [TDkl,TDk2 ,·■■ . Tpkr}·(7)其中,r为文本Dk的块数,然后依据一定的统计分析方法得到位置权重表达式,通过分 析得到每个块对文档类别判定的贡献程度,再通过概率拟合算法得到的位置权重表达式为f(b)=log2(^i+2)(8)其中,b e
为块偏移,δ (彡1)为控制位置权重值范围和偏移落差的阈值,为预设值。
全文摘要
本发明公开一种基于块划分及位置权重的文本分类方法。它包括步骤对输入的训练或测试文本经过基本的预处理后,提取文本中的段信息;将每一段视为一个基本的文本块,对块信息做统计分析,根据块大小分布或预定义的块比率,对文本内容重新进行块划分,包括文本块的合并等操作。提取特征词、量化权重,并获取特征词对类别的后验概率,然后分析具有最大后验概率类别与文本类别标签相符的特征词的分布,最后生成文本向量;利用分类器完成分类模型训练或文本分类。本发明可用于文本分类系统的文本表示阶段,通过丰富传统的利用特征词构建文本向量时对文本内容信息的表达,提升文本分类效果。
文档编号G06F17/30GK102033964SQ20111000650
公开日2011年4月27日 申请日期2011年1月13日 优先权日2011年1月13日
发明者刘念, 周亚建, 平源, 彭维平, 杨义先 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1