一种基于改进互信息和熵的文本分类特征提取方法

文档序号:6501814阅读:104来源:国知局
一种基于改进互信息和熵的文本分类特征提取方法
【专利摘要】本发明提供一种用于文本分类的特征提取方法,用于解决文本分类存在的准确率和召回率有待进一步提高的问题。本发明是一种策略性方法。考虑到统计热力学中熵的概念,熵用来描述体系的混乱程度,它在控制论、概率论、数论、天体物理、生命科学、信息论等领域都有重要应用。本发明认为熵同样可以用在文本分类中,可以将特征看成是一个事件,文本的类集就是一个系统,这样熵就可以衡量特征和类别的混乱程度,进而转化为它们之间关系的紧密程度。本发明在改进互信息的基础上,结合熵的概念,提出一种新的特征评估函数,并基于该函数进行特征提取,能选取更优特征子集,用以表示文本和构建分类器,以提高文本分类的准确率与召回率。
【专利说明】一种基于改进互信息和熵的文本分类特征提取方法
【技术领域】
[0001]本发明涉及文本挖掘【技术领域】,特别涉及一种基于改进互信息和熵的文本分类特征提取方法。
【背景技术】
[0002]随着计算机技术的发展以及网络的普及,我们处在一个信息化的时代,网络文本的数量在急剧增长,以前人工方法筛选文本进行分类的方法已经不适合了,迫切地需要一种快速高效的收集资料并整理所需信息的技术,这样就产生了文本分类技术。文本分类是指在给定分类体系下,根据文本的内容将其分到相应预定义类别中的过程。文本分类过程实际上是对文本的模式特征进行识别,其中的关键技术包括文本预处理、特征提取、分类模型等。文本特征提取是文本分类的基本步骤,过大的文本空间将导致此后文本分类过程耗费更多的时间和空间资源,因此从原始的特征集中选取最具代表性的特征是十分必要的。 [0003]文本分类中的特征选择一般是利用评估函数对原始的特征进行评估并计算得分,并对得分的大小进行排序,选取一定数目的高分值特征组成特征子集,以此来代替原特征。目前常见的几种特征评估函数是来自信息论与统计学原理的,有信息增益、互信息、期望交
叉熵、Z2统计、文本证据权等。虽然互信息是一种常用的特征评估函数,在实际的应用中也很广泛,但其文本的分类准确率和召回率一直比较低,本发明就是在互信息的改进基础上提出一种新的特征评估函数,提高文本分类的准确率和召回率。
[0004]互信息是信息论中的一种信息度量,它度量两个事件间的相关性。两个事件的互信息定义为:
【权利要求】
1.一种基于改进互信息和熵的文本分类特征提取方法,其特征在于,包含如下步骤: 步骤I)将数据集中的训练文本进行预处理,分词后去掉一些停用词,得到特征词,计算每个特征词在文档中出现的频度,统计全部的文档数,包含每个特征词的文档数,根据公式(5)计算每个特征的权重,并将文本表示为向量:
2.根据权利要求1所述的一种基于改进互信息和熵的文本分类特征提取方法,其特征在于:该方法将改进的互信息和熵结合起来,用于文本分类的特征评估函数。
3.一种基于改进互信息和熵的文本分类特征提取方法,其特征在于:该方法基于训练文本集,利用特征评估函数TFMIIE对每个特征词t进行评分; 计算含有特征t的文档数,及其与整个训练集文档数的比值; 对每个类别Ci,分别计算训练文本集中Ci类文档数、含有特征t的Ci类文档数与整个训练集文档数的比值,计算训练文本集中含有特征t的Ci类文档数与含有特征t的文档数的比值; 按公式(8)计算特征词t的评分,公式(8)为:
【文档编号】G06F17/27GK103678274SQ201310129008
【公开日】2014年3月26日 申请日期:2013年4月15日 优先权日:2013年4月15日
【发明者】成卫青, 唐旋, 范恒亮, 杨庚, 梁胜 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1