基于信息熵的期望交叉熵特征选择文本分类系统及方法

文档序号:10612845阅读:1431来源:国知局
基于信息熵的期望交叉熵特征选择文本分类系统及方法
【专利摘要】本发明公开了一种基于信息熵的期望交叉熵特征选择文本分类系统及方法。本发明系统包括依次相联的数据收集及预处理单元、特征选择单元、特征权重计算单元、分类器单元、分类选优单元;数据收集及预处理单元,用于从互联网上收集不同类别语料,分为训练语料和测试语料,并对语料进行预处理,预处理包括文本分词和去停用词;特征选择单元,用于选择语料中的特征项,根据特征选择评估函数从特征项表中选择出不同数目的特征项,组成特征项集合;特征权重计算单元,用于计算特征项的权重值;分类单元,用于对语料文本进行分类;分类选优单元,用于对比不同分类结果,找到最佳分类效果时的特征项数目。本发明能够提高文本分类的精度,改善分类效果。
【专利说明】
基于信息熵的期望交叉熵特征选择文本分类系统及方法
技术领域
[0001] 本发明属于计算机科学与技术领域,具体涉及一种基于信息熵的期望交叉熵特征 选择文本分类系统及方法。
【背景技术】
[0002] 随着计算机技术和互联网技术的发展,互联网上的信息呈爆炸式增长。文本自动 分类已逐渐成为获取知识和信息的有效手段,因为它可以处理和组织大量的文本数据。目 前,文本分类广泛应用于邮件分类、信息检索、网页查重、数字图书馆等。文本以向量空间模 型形式进行结构化表示。在向量模型下,文本分类的主要问题是特征空间的高维性以及数 据稀疏性问题。高维特征空间不仅会增加分类过程的开销,而且影响分类精度。因此,特征 维度约减成为文本自动分类技术研究的核心问题,而特征选择是文本特征维度约减的一种 主要模式。特征选择是从原始特征集中依据某种评估函数选择出对分类贡献较大的特征 项,用这些特征项来组成文本特征子集,用于文本的表示。
[0003] 目前,常用的特征选择方法有文档频率(DF)、信息增益(IG)、互信息(MI)、x2统计、 期望交叉熵(CEC)和文本证据权等过滤式特征选择算方法。该类算法不依赖具体的分类器, 提供一个评估函数,通过比较特征项的函数值,将特征项按照函数值从高到低进行排序,从 而选择出重要的特征项。在这些特征选择方法中,期望交叉熵具有较低复杂度和较好的降 维效果,因此,该算法是目前应用比较广泛的特征选择算法。但是,该算法最明显的不足在 于其只考虑了特征与类别之间的相关性,而忽略了特征项词频在类内和类别间分布情况。

【发明内容】

[0004] 基于现有期望交叉熵方法只考虑了特征项的文档频率,并没有考虑特征项词频在 类别中分布的差异性问题,本发明公开了一种基于信息熵的期望交叉熵文本分类特征选择 方法,利用类间信息熵来修正现有期望交叉熵在特征选择时,特征项在类间分布的集中性 考虑不足的缺陷;利用类内信息熵来修正现有期望交叉熵在特征选择时,特征项在类内分 布的均匀性考虑不足的缺陷。
[0005] 为了达到上述发明目的,本发明提供如下技术方案:
[0006] 基于信息熵的期望交叉熵特征选择文本分类系统,包括依次相联的数据收集及预 处理单元、特征选择单元、特征权重计算单元、分类器单元、分类选优单元;
[0007] 数据收集及预处理单元,用于从互联网上收集不同类别语料,分为训练语料和测 试语料,并对语料进行预处理,预处理包括文本分词和去停用词;
[0008] 特征选择单元,用于选择语料中的特征项,根据特征选择评估函数从特征项表中 选择出不同数目的特征项,组成特征项集合;
[0009] 特征权重计算单元,用于计算特征项的权重值;
[0010] 分类单元,用于对语料文本进行分类;
[0011] 分类选优单元,用于对比不同分类结果,找到最佳分类效果时的特征项数目。
[0012] 本发明还公开了一种基于信息熵的期望交叉熵特征选择文本分类方法,按如下步 骤:
[0013] ⑴、收集不同类别文本,分析整理后按类别归入语料训练集。
[0014] (2)、对训练集进行预处理,包括中文分词、去停用词等来过滤噪声数据、改善文本 数据质量等。
[0015] (3)、利用基于信息熵的期望交叉熵方法计算特征向量空间中特征项评估函数值, 基于信息熵的期望交叉熵函数公式为:
[0016]
[0017] 其中
_示特征项tk在期望交叉熵评估函数 中的得分值。p(tk)表示出现特征项tk的文档概率,p(Ci)表示属于Ci类的文本在整个文本集 中出现的概率,P(ci|tk)表示文本包含特征项tk时属于类别ci的概率,η表示类别总数;
[0018]表示特征项tk在类别c j中的类内信息熵。f j (tk)表
^ / \ n. / ^ / \ λ- / 示特征项tk在类cj中出现的频率,m为类Cj中的文本数目,fji(tk)表示特征项tk在类cj第i篇
H r|=i山糊的掘歲
[0019] 良示特征项tk的类间信息熵。fj(tk)表示特征项 j=i :/=i tk在类cj中出现的频率,η为文本类别个数
表示特征项tk在整个文本集中出现的频 率。
[0020] 计算特征向量空间每个特征项的评估函数值,并进行降序排列,选择出得分较大 的前N个特征项。
[0021] (4 )、使用特征向量权重TF-IDF算法来计算特征向量表中包含的特征向量词的权 重。
[0022]特征权重计算
[0023]本发明采用最常用的TF-IDF权重计算方法,根据TF-IDF权重,候选特征项fi在文 本d中的权重通过以下公式来计算:
[0024]
[0025] 其中,TF(fi,dj)表示候选特征项fi在文本dj中出现的频率,N表示训练文本集合的 总文本数,m表示候选特征项fi在文本集中出现的文本频率,这样,语料库中的文本集合表 示为一个矩阵。
[0026] (5)、构造相应的文本分类器,利用分类器对测试语料进行计算,得到分类结果。 [00 27]分类器
[0028]采用KNN分类器,KNN是指给定一个测试文档,计算测试文档和训练文本集中文档 的相似度,从中找到K个与测试文档最为相似的训练文本。相似度计算公式一般使用向量夹 角余弦值等来进行计算。依据这Κ个训练文本的类别信息来判定测试文档应该属于哪个类 别。ΚΝΝ算法的决策规则为:
[0029]
[0030] 其中,KNN(d)表不Κ个最邻近训练文本的集合。当文档dj属于Ci类时,y(dj,Ci)的值 等于1,当文档dj不属于Ci类时,y(dj,ci)的值等于0。5;[111((1,山)表示测试文档(1与训练文本山 的相似度值。
[0031] (6)、采用评价函数计算各种分类器的性能评价参数,依据分类器评价参数结果确 定最优的特征向量集合。
[0032] 评价函数
[0033] 目前国际上比较流行的判别文本分类效果的评价函数主要包括查全率、查准率、 F1测量值,其定义如下:
[0034] 查准率:P = TP/(TP+FP)查全率:R = TP/(TP+FN)
[0035] F1 测量值 JfSPRAP+R)
[0036] TP表示属于某个类别且被判别为该类别的文本数;
[0037] FP表示实际不属于某个类别却被判别为该类别的文本数;
[0038] FN表示实际属于某个类别却被判别为其它类别的文本数。
[0039] 对于不同数目的特征项向量,使得评价函数F1测度最优的那组数目,即是该分类 方法在该语料下的最优的特征项数目。
[0040] 与现有技术相比,本发明具有如下优点和有益效果:
[0041] 本发明在现有的期望交叉熵方法中加入类内信息熵、类间信息熵,修正了现有期 望交叉熵方法对特征项词频考虑不足的缺陷,使在文本集合中特征项类间分布集中性、类 内分布均匀性的这一特性得到了充分体现。相对现有期望交叉熵方法,本发明能够提高文 本分类的精度,改善分类效果。
[0042]本发明涉及一种基于信息熵的期望交叉熵特征选择文本分类方法(简称ECE_IE), 该方法在期望交叉熵方法基础上通过引入特征项词频的类间信息熵、类内信息熵因子,弥 补了特征项词频对类别考虑不足的缺陷,其中,利用类间信息熵来修正现有期望交叉熵在 特征选择时,特征项在类间分布的集中性考虑不足的缺陷;利用类内信息熵来修正现有期 望交叉熵在特征选择时,特征项在类内分布的均匀性考虑不足的缺陷。本发明证明新方法 的采用在文本分类的准确率有明显提高,充分证明了它的有效性。
【附图说明】
[0043] 图1是本发明基于信息熵的期望交叉熵算法的文本分类方法的流程图。
[0044] 图2是本发明基于信息熵的期望交叉熵算法的文本分类装置的单元构成图。
【具体实施方式】
[0045] 下面结合附图和实施例,做进一步详细说明,应理解下述具体实施方法仅用于说 明本发明而不用于限制本发明的范围。
[0046]如图1所示,该图为基于信息熵的期望交叉熵算法的文本分类方法的流程图,具体 步骤如下:
[0047]步骤S101,从互联网上收集语料文本。例如:训练语料1812篇,测试语料906篇,训 练语料与测试语料所占的比例为2 :1。在训练语料中,包括政治(300 )、经济(216 )、体育 (250)、军事(162)、艺术(168)、计算机(156)、教育(150)、环境(138)、医药(138)、交通 (134)。测试语料各类别数量为训练语料的一半。
[0048] 步骤S102,对训练语料进行预处理,对文本进行分词处理和停用词过滤。
[0049] 步骤S103,根据基于信息熵的期望交叉熵特征选择方法(即ECE_IE)来计算每个特 征向量的评估函数值,选定不同阈值,得到不同数目的特征向量表。
[0050] 步骤S104,使用特征向量权重TF-IDF计算特征向量词权重。
[00511步骤S105,构造相应的文本分类器。
[0052]步骤S106,对测试文本进行分类,得到不同数目特征向量下的分类结果。
[0053]步骤S107,计算分类器的性能评价参数。
[0054]步骤S108,根据评价函数的值判定该系统最优的特征向量数目。
[0055]如图2所示,该图为基于信息熵的期望交叉熵算法的文本分类装置的单元构成图, 所述装置包含:
[0056]语料收集及预处理单元,用于从互联网上收集不同类别语料,分为训练语料和测 试语料,并对语料进行预处理,预处理包括文本分词和去停用词;特征选择单元,用于选择 语料中的特征项,根据特征选择评估函数从特征项表中选择出不同数目的特征项,组成特 征项集合;特征权重计算单元,用于计算特征项的权重值;分类单元,用于对语料文本进行 分类;分类选优单元,用于对比不同分类结果,找到最佳分类效果时的特征项数目。
[0057]下面详细说明本发明技术方案中所涉及到的各个细节问题:
[0058] 1、特征选择:
[0059] 期望交叉熵算法是信息增益的一种特例,与信息增益不同之处在于它仅仅考虑特 征项在文档中发生的情况。它反映的是文档类别的概率分布与出现某个特征条件下文档类 别的概率分布之间的距离,又称KL距。KL距离越大,说明了特征项在文本分类中的贡献程度 越高,期望交叉熵记为ECE( tk)可计算为:
[0060]
[0061] p(tk)代表特征项tk在文档中发生的概率,p( Cj)代表在训练集中隶属于类别(^的 文档发生的概率,P(Cj|tk)代表训练集中含有特征项t k的文档隶属于类别的概率,η为类 另II总数。若特征项tk与类别关联性越大,则P(Cj I tk)值越大。当P(Cj I tk)越大且P(Cj)值越小 时,则相应特征项tk的ECE(tk)值就越大,当特征集合中的特征项tk的排名比较靠前时,特征 项tk对文本分类影响较大。
[0062] 本发明对期望交叉熵方法的改进方法主要体现在引入类间信息熵、类内信息熵参 数因子,有效地利用特征项表征类别信息进行计算,用来调整特征选择的评估函数值。这是 由于:现有期望交叉熵方法只考虑了特征项的文档频率,并没有考虑特征项词频在类别中 分布的差异性问题。利用类间信息熵来修正现有期望交叉熵在特征选择时,特征项在类间 分布的集中性考虑不足的缺陷;利用类内信息熵来修正现有期望交叉熵在特征选择时,特 征项在类内分布的均匀性考虑不足的缺陷。
[0063] 本发明将类间信息熵描述为某个特征项词频在类间的概率分布情况。若存在特征 项tk集中地分布在一个或几个类别中,而在其它类中分布的较少,则说明特征项t k所在类别 可以很好的与其它类别进行区分,此时特征项tk的类间信息熵较小。相反,特征项t k的类间 信息熵值较大。类内信息熵描述为某个特征项词频在类内的概率分布情况。若存在特征项 tk在类别W内所有文本中分布的比较均匀,则说明特征项tk能够较好地表征类别信息,可 以有效地将该类别与其它类别进行区分,此时特征项t k的类内信息熵值较大。特征项tk的类 内信息熵值较小。在进行特征选择时,我们将类内各文本中词频分布比较均匀的特征项进 行保留,以提高文本分类效果。通过下式计算特征项的类间与类内信息熵:
[0064]
η
[0065] 其中,f j(tk)表示特征项tk在类Cj中出现的频率,η为文本类别个数,Σ./:_(^ )表示 Μ 特征项tk在整个文本集中出现的频率,m为类Cj中的文本数目,fji(tk)表示特征项tk在类cj 第i篇文本中出现的频率。
[0066] 因此,本专利将基于信息熵的期望交叉熵的特征选择评估函数表示为:
[0067]
[0068] 基于信息熵的期望交叉熵的特征选择方法,既考虑了特征项在类内分布的均匀 性,又考虑了特征项在类间分布的集中性。
[0069] 2、特征权重计算
[0070]本发明采用最常用的TF-IDF权重计算方法,根据TF-IDF权重,候选特征项fi在文 本d中的权重通过以下公式来计算:
[0071]
[0072] 其中,TF(fi,dj)表示候选特征项fi在文本dj中出现的频率,N表示训练文本集合的 总文本数,m表示候选特征项fi在文本集中出现的文本频率,这样,语料库中的文本集合表 示为一个矩阵。
[0073] 3、分类器
[0074]本发明采用KNN分类器,KNN是指给定一个测试文档,计算测试文档和训练文本集 中文档的相似度,从中找到K个与测试文档最为相似的训练文本。相似度计算公式一般使用 向量夹角余弦值等来进行计算。依据这K个训练文本的类别信息来判定测试文档应该属于 哪个类别。KNN算法的决策规则为:
[0075]
[0076] 其中,KNN⑷表示K个最邻近训练文本的集合。当文档山属于(^类时,y(山,Cl)的值 等于1,当文档dj不属于ci类时,y(dj,ci)的值等于0。5;[111((1,山)表示测试文档(1与训练文本山 的相似度值。
[0077] 4、评价函数
[0078] 目前国际上比较流行的判别文本分类效果的评价函数主要包括查全率、查准率、 F1测量值,其定义如下:
[0079] 查准率:P = TP/(TP+FP)查全率:R = TP/(TP+FN)
[0080] F1 测量值:Fi = 2PR/(P+R)
[0081] TP表示属于某个类别且被判别为该类别的文本数;
[0082] FP表示实际不属于某个类别却被判别为该类别的文本数;
[0083] FN表示实际属于某个类别却被判别为其它类别的文本数。
[0084]对于不同数目的特征项向量,使得评价函数F1测度最优的那组数目,即是该分类 方法在该语料下的最优的特征项数目。
[0085] 5、实验结果
[0086]下表是本实验的结果:
[0087]
12 从实验结果可以看出,在不同的特征数量情况下,基于信息熵的期望交叉熵方法 优于现有期望交叉熵方法,证明了该方法的有效性。同时可以看出,采用基于信息熵的期望 交叉熵特征选择方法时,在特征数目为3000时分类效果达到最佳。 2 以上所述仅为本发明的优选实施而已,并不用与限制本发明,对于本领域的技术 人员来说,本发明可以有各种更改和变化。在本发明的精神和原则之内,所作的任何修改、 等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 基于信息赌的期望交叉赌特征选择文本分类系统,其特征是包括依次相联的数据收 集及预处理单元、特征选择单元、特征权重计算单元、分类器单元、分类选优单元; 数据收集及预处理单元,用于从互联网上收集不同类别语料,分为训练语料和测试语 料,并对语料进行预处理,预处理包括文本分词和去停用词; 特征选择单元,用于选择语料中的特征项,根据特征选择评估函数从特征项表中选择 出不同数目的特征项,组成特征项集合; 特征权重计算单元,用于计算特征项的权重值; 分类单元,用于对语料文本进行分类; 分类选优单元,用于对比不同分类结果,找到最佳分类效果时的特征项数目。2. 基于信息赌的期望交叉赌特征选择文本分类方法,其按如下步骤: (1 )、收集不同类别文本,分析整理后按类别归入语料训练集; (2) 、对语料训练集的文本进行预处理,包括分词和去停用词; (3) 、利用期望交叉赌特征评估函数进行特征值评估,基于信息赌的期望交叉赌函数公 式为:其中: ECE_IE (tk)表示特征项tk评估函数值;衰示特征项tk在期望交叉赌评估函数中的得分 值,其中,所述P(tk)表示出现特征项tk的文档概率,所述P(Ci)表示属于Cl类的文本在整个 文本集中出现的概率,所述P(cj I tk)表示文本包含特征项tk时属于类别ci的概率,所述I C 表示类别总数;表示特征项tk在类别Cj中的类内信息赌,其中,所述。 (tk)表示特征项tk在类Cj中出现的频率,所述m为类Cj中的文本数目,所述fji(tk)表示特征 项tk在类Cj第i篇文本中出现的频率;'表示特征项tk的类间信息赌,其中,所述。(tk)表示特 征项tk在类cj中出现的频率,所述η为文本类别个数,所述表示特征项tk在整个文本 集中出现的频率; 计算特征向量空间每个特征项的评估函数值,并进行降序排列,选择出得分最大的前N 个特征项; (4) 、使用特征向量权重算法TF-IDF计算特征向量表包含的特征向量词的权重; 巧)、构造相应的文本分类器,利用分类器对测试语料进行计算,得到分类结果; (6)、采用评价函数计算各种分类器的性能评价参数,根据分类器评价参数结果确定最 优的特征向量集合。3. 根据权利要求2所述的基于信息赌的期望交叉赌特征选择文本分类方法,其特征在 于,步骤(4)中,TF-IDF权重,候选特征词fi在文本d中的权重通过W下公式来计算:其中,TF(fi,山)表示候选特征词fi在文本d冲出现的频率,N表示训练文本集合的总文 本数,m表示候选特征词fi在文本集中出现的文本频率。4. 根据权利要求2所述的基于信息赌的期望交叉赌特征选择文本分类方法,其特征在 于,步骤(5)中,分类器采用KNN最近邻算法构建分类器,计算待分类文本测试集所有文本的 相似度,按相似度从高到低将训练集文本排序,选取前K篇训练集文本,按照运K篇文本的类 别对待分类文本进行归类,其中K值根据实际情况设定。
【文档编号】G06F17/30GK105975518SQ201610278141
【公开日】2016年9月28日
【申请日】2016年4月28日
【发明人】吴国华, 王刘阳, 张祯, 王玉娟
【申请人】吴国华
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1