文本中特征词选择方法及装置制造方法

文档序号：6629206阅读：709来源：国知局

文本中特征词选择方法及装置制造方法
【专利摘要】本发明提供了一种文本中特征词选择方法及装置，其中该方法包括利用评价函数FCD确定总文本中候选特征词的重要性值，其中，该评价函数FCD为根据候选特征词的平均频度ATF、候选特征词的隶属度μ计算得到的，平均频度ATF为候选特征词在预定文本类别中平均出现的次数，隶属度μ为候选特征词对预定文本类别的隶属度；根据确定的候选特征词的重要性值，从候选特征词中选择预定数量的特征词。通过本发明，解决了相关技术中存在的文本分类系统在非均衡数据集情况下分类性能较差的问题，进而达到了提高文本分类器的性能的效果。
【专利说明】文本中特征词选择方法及装置

【技术领域】
[0001] 本发明涉及通信领域，具体而言，涉及一种文本中特征词选择方法及装置。

【背景技术】
[0002] 随着计算机技术和互联网的发展，大量的信息开始以计算机可读的文字形式存在，并且其数量与日俱增。如何从这些海量数据中获取用户所需的信息成为关键问题。自动文本分类是组织和处理大规模文本数据的关键技术之一，广泛应用于搜索引擎、Web分类、信息推介和信息过滤等领域。自动文本分类是根据内容把文本划分到一个或多个预先定义的类别，是一种有监督的学习，涉及预处理、文本表示、特征降维、分类方法等关键技术。文本特征的高维性及文本向量数据的稀疏性是影响文本分类效率的主要瓶颈，因而特征降维是自动文本分类中的一个重要环节，对分类的准确性和效率起决定性作用。特征选择是其中一种有效的特征降维方法，也是目前的研究热点。
[0003] 特征选择是指从特征全集中选取一部分对于分类有贡献的特征子集，不同的特征选取方法按不同的评估函数对特征进行评价。常用的特征选择方法有文本频率（DF)、信息增益（IG)、互信息（MI)、x2统计量（CHI)、期望交叉熵（ECE)、文本证据权（WET)和几率比（OR)等。随着机器学习、信息检索从发展到成熟，非均衡数据集（imbalance)或类偏斜 (skewed)问题成为文本分类技术发展面临的重要难题之一。非均衡数据集问题，即数据集中各个类别包含的样本数或者文本长度存在很大差异，是导致文本分类效果不理想的一个重要原因。传统特征选择方法都是基于数据集均衡假设而提出，而现实应用中数据集往往是不均衡的。相关研究表明，虽然传统特征选择方法在均衡语料上效果不错，但是它们在非均衡语料上效果并不理想；这是因为这些方法一般倾向于选择高频词，在数据集非均衡情况下，大类中文本数量远远多于稀有类别（小类），在大类中出现次数较少的词由于文本数量较多其频率可能远远大于稀有类别中出现次数较多的词，因此特征选择方法倾向于选择大类中出现的词，那些对稀有类别判别具有重要作用的特征可能被去掉，导致分类器预测容易偏向于大类而忽略稀有类别，稀有类别的分类误差大。因此，在相关技术中存在着文本分类系统在非均衡数据集情况下分类性能较差的问题。
[0004] 针对相关技术中存在的文本分类系统在非均衡数据集情况下分类性能较差的问题，目前尚未提出有效的解决方案。

【发明内容】

[0005] 本发明提供了一种文本中特征词选择方法及装置，以至少解决相关技术中存在的文本分类系统在非均衡数据集情况下分类性能较差的问题。
[0006] 根据本发明的一个方面，提供了一种文本中特征词选择方法，包括：利用评价函数 FCD确定总文本中候选特征词的重要性值，其中，所述评价函数FCD为根据所述候选特征词的平均频度ATF、所述候选特征词的隶属度y计算得到的，所述平均频度ATF为所述候选特征词在预定文本类别中平均出现的次数，所述隶属度U为所述候选特征词对所述预定文本类别的隶属度；根据确定的所述候选特征词的重要性值，从所述候选特征词中选择预定数量的特征词。
[0007] 优选地，所述候选特征词的所述隶属度U为根据所述候选特征词的类间集中度和所述候选特征词的类内分散度确定的，其中，所述候选特征词的类间集中度为所述候选特征词在所述预定文本类别中集中出现的程度，所述候选特征词的类内分散度为所述候选特征词在所述预定文本类别的所有文档中出现的均匀程度。
[0008] 优选地，在利用所述评价函数确定所述候选特征词的重要性值之前，还包括：对文本进行预处理，所述预处理包括以下处理至少之一：删除已损坏文本、删除重复文本、去除格式标记、进行中文分词、利用预定算法进行词干化、将英文大写字母转换为英文小写字母、去除停用词和非法字符、去除词频小于预订数量的词语；选择所述文本中经过所述预处理后剩余的词语作为候选特征词。
[0009] 优选地，所述评价函数TOD关于候选特征词L类Cj的计算公式为：

【权利要求】
1. 一种文本中特征词选择方法，其特征在于，包括：利用评价函数FCD确定总文本中候选特征词的重要性值，其中，所述评价函数FCD为根据所述候选特征词的平均频度ATF、所述候选特征词的隶属度μ计算得到的，所述平均频度ATF为所述候选特征词在预定文本类别中平均出现的次数，所述隶属度μ为所述候选特征词对所述预定文本类别的隶属度；根据确定的所述候选特征词的重要性值，从所述候选特征词中选择预定数量的特征。
2. 根据权利要求1所述的方法，其特征在于，所述候选特征词的所述隶属度μ为根据所述候选特征词的类间集中度和所述候选特征词的类内分散度确定的，其中，所述候选特征词的类间集中度为所述候选特征词在所述预定文本类别中集中出现的程度，所述候选特征词的类内分散度为所述候选特征词在所述预定文本类别的所有文档中出现的均匀程度。
3. 根据权利要求1所述的方法，其特征在于，在利用所述评价函数确定所述候选特征词的重要性值之前，还包括：对文本进行预处理，所述预处理包括以下处理至少之一：删除已损坏文本、删除重复文本、去除格式标记、进行中文分词、利用预定算法进行词干化、将英文大写字母转换为英文小写字母、去除停用词和非法字符、去除词频小于预订数量的词语；选择所述文本中经过所述预处理后剩余的词语作为候选特征词。
4. 根据权利要求1所述的方法，其特征在于，所述评价函数FCD关于候选特征词4、类 Cj的计算公式为：
，其中，所述ATF(fi，Cp表示候选特征词A在类4中的频度；C为文本预定类别的集合，所述C= IC1, C2, C3,……，C|c|}; 所述R为候选特征词集合F到C上的模糊关系，所述F = {f\，f2, f3,……，fm};所述I c」为类h中的文本总数，所述I C|为总文本数，所M
表示总文本数|C|与类内的文本数的比例，所述μ K(fi，cP为R的隶属度，表示所述fi与所述h的相关关系，其中，所述R为 FXC上的模糊集，用于表示所述F到所述C上的一个模糊关系。
5. 根据权利要求4所述的方法，其特征在于，所述候选特征词&在类中的频度 ATF况，Cj)的计算公式为：
其中，所述TF(fi，dk)表示候选特 7 征词fi在文本dk中出现的词频，所述dk为类Cj内的文本，所述DF (fi，Cj)表示候选特征词 A在类Cj中出现的文本频率，M表示在文本dk中出现的候选特征词的种类之和。
6. 根据权利要求4所述的方法，其特征在于，所述候选特征词&在类中的隶属度 μ K(fi，Cj)的计算公式为： μ ^fi, Cj) = DAC(fi； Cj) X010(^, Cj), ψ, I^iiDAC(fi； Cj) ^ Cj 中的类间集中度，所述DIC(fi，Cp为候选特征词&在类&中的类内分散度。
7. 根据权利要求6所述的方法，其特征在于，所述候选特征词&在类中的类间集中
度其中，所述CF(A)表示出现候 ? 选特征词fi的类别数，所述DF (A)表示候选特征词&平均在每个类别中出现的文本频率；所述TF(A)表示候选特征词&在总文本数中出现的词频。
8. 根据权利要求6所述的方法，其特征在于，所述候选特征词&在类中的类内分散
度j 其中，所述|c」为类h中的文本总数，所述 ? TF(f，Cj)表示类Cj中总的词频数。
9. 根据权利要求6所述的方法，其特征在于，所述R为候选特征词集合F到类集合C上的模糊集，其中，所述F = {匕匕匕，……，fm}，所述C = IC1, C2, C3,……，C|c|}，
7所述候选特征词fi在类Cj中的隶属度μ Jfi, Cj) :FXC - [0, 1]。
10. -种文本中特征词选择装置，其特征在于，包括：确定模块，用于利用评价函数FCD确定总文本中候选特征词的重要性值，其中，所述评价函数为根据所述候选特征词的平均频度ATF、所述候选特征词的隶属度μ计算得到的，所述频度为所述候选特征词在预定文本类别中平均出现的次数，所述隶属度μ为所述候选特征词对所述预定文本类别的隶属度；第一选择模块，用于根据确定的所述候选特征词的重要性值，从所述候选特征词中选择预定数量的特征词。
11. 根据权利要求10所述的装置，其特征在于，还包括：处理模块，用于对文本进行预处理，所述预处理包括以下处理至少之一：删除已损坏文本、删除重复文本、去除格式标记、进行中文分词、利用预定算法进行词干化、将英文大写字母转换为英文小写字母、去除停用词和非法字符、去除词频小于预订数量的词语；第二选择模块，用于选择所述文本中经过所述预处理后剩余的词语作为候选特征词。
【文档编号】G06F17/27GK104391835SQ201410521030
【公开日】2015年3月4日申请日期:2014年9月30日优先权日:2014年9月30日
【发明者】陈晓红, 胡东滨, 徐丽华, 刘咏梅申请人:中南大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈晓红;胡东滨;徐丽华;刘咏梅;
技术所有人：中南大学;
我是此专利的发明人

上一篇：电力物资配送中心选址方法
上一篇：一种克劳斯硫磺回收过程中反应炉动态建模方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。