文本中特征词选择方法及装置制造方法

文档序号:6629206阅读:709来源:国知局
文本中特征词选择方法及装置制造方法
【专利摘要】本发明提供了一种文本中特征词选择方法及装置,其中该方法包括利用评价函数FCD确定总文本中候选特征词的重要性值,其中,该评价函数FCD为根据候选特征词的平均频度ATF、候选特征词的隶属度μ计算得到的,平均频度ATF为候选特征词在预定文本类别中平均出现的次数,隶属度μ为候选特征词对预定文本类别的隶属度;根据确定的候选特征词的重要性值,从候选特征词中选择预定数量的特征词。通过本发明,解决了相关技术中存在的文本分类系统在非均衡数据集情况下分类性能较差的问题,进而达到了提高文本分类器的性能的效果。
【专利说明】文本中特征词选择方法及装置

【技术领域】
[0001] 本发明涉及通信领域,具体而言,涉及一种文本中特征词选择方法及装置。

【背景技术】
[0002] 随着计算机技术和互联网的发展,大量的信息开始以计算机可读的文字形式存 在,并且其数量与日俱增。如何从这些海量数据中获取用户所需的信息成为关键问题。自动 文本分类是组织和处理大规模文本数据的关键技术之一,广泛应用于搜索引擎、Web分类、 信息推介和信息过滤等领域。自动文本分类是根据内容把文本划分到一个或多个预先定义 的类别,是一种有监督的学习,涉及预处理、文本表示、特征降维、分类方法等关键技术。文 本特征的高维性及文本向量数据的稀疏性是影响文本分类效率的主要瓶颈,因而特征降维 是自动文本分类中的一个重要环节,对分类的准确性和效率起决定性作用。特征选择是其 中一种有效的特征降维方法,也是目前的研究热点。
[0003] 特征选择是指从特征全集中选取一部分对于分类有贡献的特征子集,不同的特征 选取方法按不同的评估函数对特征进行评价。常用的特征选择方法有文本频率(DF)、信息 增益(IG)、互信息(MI)、x2统计量(CHI)、期望交叉熵(ECE)、文本证据权(WET)和几率 比(OR)等。随着机器学习、信息检索从发展到成熟,非均衡数据集(imbalance)或类偏斜 (skewed)问题成为文本分类技术发展面临的重要难题之一。非均衡数据集问题,即数据集 中各个类别包含的样本数或者文本长度存在很大差异,是导致文本分类效果不理想的一个 重要原因。传统特征选择方法都是基于数据集均衡假设而提出,而现实应用中数据集往往 是不均衡的。相关研究表明,虽然传统特征选择方法在均衡语料上效果不错,但是它们在非 均衡语料上效果并不理想;这是因为这些方法一般倾向于选择高频词,在数据集非均衡情 况下,大类中文本数量远远多于稀有类别(小类),在大类中出现次数较少的词由于文本数 量较多其频率可能远远大于稀有类别中出现次数较多的词,因此特征选择方法倾向于选择 大类中出现的词,那些对稀有类别判别具有重要作用的特征可能被去掉,导致分类器预测 容易偏向于大类而忽略稀有类别,稀有类别的分类误差大。因此,在相关技术中存在着文本 分类系统在非均衡数据集情况下分类性能较差的问题。
[0004] 针对相关技术中存在的文本分类系统在非均衡数据集情况下分类性能较差的问 题,目前尚未提出有效的解决方案。


【发明内容】

[0005] 本发明提供了一种文本中特征词选择方法及装置,以至少解决相关技术中存在的 文本分类系统在非均衡数据集情况下分类性能较差的问题。
[0006] 根据本发明的一个方面,提供了一种文本中特征词选择方法,包括:利用评价函数 FCD确定总文本中候选特征词的重要性值,其中,所述评价函数FCD为根据所述候选特征词 的平均频度ATF、所述候选特征词的隶属度y计算得到的,所述平均频度ATF为所述候选特 征词在预定文本类别中平均出现的次数,所述隶属度U为所述候选特征词对所述预定文 本类别的隶属度;根据确定的所述候选特征词的重要性值,从所述候选特征词中选择预定 数量的特征词。
[0007] 优选地,所述候选特征词的所述隶属度U为根据所述候选特征词的类间集中度 和所述候选特征词的类内分散度确定的,其中,所述候选特征词的类间集中度为所述候选 特征词在所述预定文本类别中集中出现的程度,所述候选特征词的类内分散度为所述候选 特征词在所述预定文本类别的所有文档中出现的均匀程度。
[0008] 优选地,在利用所述评价函数确定所述候选特征词的重要性值之前,还包括:对 文本进行预处理,所述预处理包括以下处理至少之一:删除已损坏文本、删除重复文本、去 除格式标记、进行中文分词、利用预定算法进行词干化、将英文大写字母转换为英文小写字 母、去除停用词和非法字符、去除词频小于预订数量的词语;选择所述文本中经过所述预处 理后剩余的词语作为候选特征词。
[0009] 优选地,所述评价函数TOD关于候选特征词L类Cj的计算公式为:

【权利要求】
1. 一种文本中特征词选择方法,其特征在于,包括: 利用评价函数FCD确定总文本中候选特征词的重要性值,其中,所述评价函数FCD为根 据所述候选特征词的平均频度ATF、所述候选特征词的隶属度μ计算得到的,所述平均频 度ATF为所述候选特征词在预定文本类别中平均出现的次数,所述隶属度μ为所述候选特 征词对所述预定文本类别的隶属度; 根据确定的所述候选特征词的重要性值,从所述候选特征词中选择预定数量的特征 。
2. 根据权利要求1所述的方法,其特征在于,所述候选特征词的所述隶属度μ为根据 所述候选特征词的类间集中度和所述候选特征词的类内分散度确定的,其中,所述候选特 征词的类间集中度为所述候选特征词在所述预定文本类别中集中出现的程度,所述候选特 征词的类内分散度为所述候选特征词在所述预定文本类别的所有文档中出现的均匀程度。
3. 根据权利要求1所述的方法,其特征在于,在利用所述评价函数确定所述候选特征 词的重要性值之前,还包括: 对文本进行预处理,所述预处理包括以下处理至少之一:删除已损坏文本、删除重复文 本、去除格式标记、进行中文分词、利用预定算法进行词干化、将英文大写字母转换为英文 小写字母、去除停用词和非法字符、去除词频小于预订数量的词语; 选择所述文本中经过所述预处理后剩余的词语作为候选特征词。
4. 根据权利要求1所述的方法,其特征在于,所述评价函数FCD关于候选特征词4、类 Cj的计算公式为:
,其中,所述ATF(fi,Cp表示 候选特征词A在类4中的频度;C为文本预定类别的集合,所述C= IC1, C2, C3,……,C|c|}; 所述R为候选特征词集合F到C上的模糊关系,所述F = {f\,f2, f3,……,fm};所述I c」为 类h中的文本总数,所述I C|为总文本数,所M
表示总文本数|C|与类内的文本数 的比例,所述μ K(fi,cP为R的隶属度,表示所述fi与所述h的相关关系,其中,所述R为 FXC上的模糊集,用于表示所述F到所述C上的一个模糊关系。
5. 根据权利要求4所述的方法,其特征在于,所述候选特征词&在类中的频度 ATF况,Cj)的计算公式为:
其中,所述TF(fi,dk)表示候选特 7 征词fi在文本dk中出现的词频,所述dk为类Cj内的文本,所述DF (fi,Cj)表示候选特征词 A在类Cj中出现的文本频率,M表示在文本dk中出现的候选特征词的种类之和。
6. 根据权利要求4所述的方法,其特征在于,所述候选特征词&在类中的隶属度 μ K(fi,Cj)的计算公式为: μ ^fi, Cj) = DAC(fi; Cj) X010(^, Cj), ψ, I^iiDAC(fi; Cj) ^ Cj 中的类间集中度,所述DIC(fi,Cp为候选特征词&在类&中的类内分散度。
7. 根据权利要求6所述的方法,其特征在于,所述候选特征词&在类中的类间集中
度 其中,所述CF(A)表示出现候 ? 选特征词fi的类别数,所述DF (A)表示候选特征词&平均在每个类别中出现的文本频率; 所述TF(A)表示候选特征词&在总文本数中出现的词频。
8. 根据权利要求6所述的方法,其特征在于,所述候选特征词&在类中的类内分散
度j 其中,所述|c」为类h中的文本总数,所述 ? TF(f,Cj)表示类Cj中总的词频数。
9. 根据权利要求6所述的方法,其特征在于,所述R为候选特征词集合F到类集 合C上的模糊集,其中,所述F = {匕匕匕,……,fm},所述C = IC1, C2, C3,……,C|c|},
7所述候选特征词fi在类Cj中的隶属度μ Jfi, Cj) :FXC - [0, 1]。
10. -种文本中特征词选择装置,其特征在于,包括: 确定模块,用于利用评价函数FCD确定总文本中候选特征词的重要性值,其中,所述评 价函数为根据所述候选特征词的平均频度ATF、所述候选特征词的隶属度μ计算得到的, 所述频度为所述候选特征词在预定文本类别中平均出现的次数,所述隶属度μ为所述候 选特征词对所述预定文本类别的隶属度; 第一选择模块,用于根据确定的所述候选特征词的重要性值,从所述候选特征词中选 择预定数量的特征词。
11. 根据权利要求10所述的装置,其特征在于,还包括: 处理模块,用于对文本进行预处理,所述预处理包括以下处理至少之一:删除已损坏文 本、删除重复文本、去除格式标记、进行中文分词、利用预定算法进行词干化、将英文大写字 母转换为英文小写字母、去除停用词和非法字符、去除词频小于预订数量的词语; 第二选择模块,用于选择所述文本中经过所述预处理后剩余的词语作为候选特征词。
【文档编号】G06F17/27GK104391835SQ201410521030
【公开日】2015年3月4日 申请日期:2014年9月30日 优先权日:2014年9月30日
【发明者】陈晓红, 胡东滨, 徐丽华, 刘咏梅 申请人:中南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1