一种文本特征词提取方法及系统的制作方法

文档序号:8487894阅读:290来源:国知局
一种文本特征词提取方法及系统的制作方法
【技术领域】
[0001] 本发明涉及文本分析相关技术领域,特别是一种文本特征词提取方法及系统。
【背景技术】
[0002] 经典的向量空间模型(VSM:VectorSpaceModel)由Salton等人于60年代提出,并 成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向 量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被 表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本 处理中最常用的相似性度量方式是余弦距离。文本挖掘系统采用向量空间模型,用特征词 条(T1,T2,一Tn)及其权值Wi代表目标信息,在进行信息匹配时,使用这些特征项评价未 知文本与目标样本的相关程度。特征词条及其权值的选取称为目标样本的特征提取,特征 提取算法的优劣将直接影响到系统的运行效果。
[0003] 当前常用特征选择算法如下:
[0004] 1.特征频度(TF)指训练集中特征Tk出现的次数。这是最简单的特征选择方法。 直观上,特征在文本集中出现次数越多,对文本分类的贡献越大。由于原始特征集中绝大部 分是低频特征,因此,设定阈值对过滤低频特征非常有效,可以获得很大的降维度。就高频 特征而言,特征的统计分布决定了文本分类的准确率。即当该高频特征均匀地分布在所有 文本中时,对分类的作用将是有限的。因此,主要用在文本标引时直接删除某些低频特征。
[0005] 2.文本频度(DF)是训练集中含有词条Tk的文本数在总文本数中出现的概率。其 理论假设为稀有词条或者对分类作用不大,或者是噪声,可以被删除。文本频度较特征频度 的统计粒度更粗一些,在实际运用中有一定的效果。但是如果某一稀有词条主要在某类文 本中出现的情况下,可能会把该类的显著特征错误地过滤掉。实验表明,用TF和DF的组合 进行特征选择可以得到更好的降维效果。
[0006] 3.在文本分类中,特征t的信息增益(IG)如式⑷所示:
【主权项】
1. 一种文本特征词提取方法,其特征在于,包括: 初始种群获取步骤,包括:从预设的训练集中提取出多个候选特征词,从所有候选特征 词中选出多种特征词组合,每个特征词组合包括一个或多个候选特征词,以一个染色体表 示一个特征词组合,生成包括多个染色体的初始种群,初始化迭代次数,将初始种群作为当 代种群,执行适应度计算步骤; 适应度计算步骤,包括:对当代种群中的每个所述染色体,计算每个所述染色体所表示 的特征词组合对于预设的测试集的测试结果作为染色体的适应度,如果当代种群满足预设 的输出条件,则根据预设的输出规则,输出当代种群所包括的染色体所表示的特征词组合 作为用于文本分析的输出特征词组合,否则,执行选择步骤; 选择步骤,包括:根据染色体的适应度选择一个或多个染色体根据交叉概率执行交叉 操作和根据变异概率执行变异操作后得到下一代种群,执行适应度计算步骤。
2. 根据权利要求1所述的文本特征词提取方法,其特征在于,染色体采用如下方式表 示特征词组合: 将所有的候选特征词进行排序,每个候选特征词对应一个序号; 所述染色体中每个基因为一个候选特征词所对应的序号。
3. 根据权利要求1所述的文本特征词提取方法,其特征在于,所述选择步骤,具体包 括: 对当代种群中的染色体的适应度进行排序,将排在前面的若干个染色体加入下一代种 群,对当代种群的其他染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后 加入下一代种群。
4. 根据权利要求1所述的文本特征词提取方法,其特征在于: 所述交叉概率为
其中P。为当前染色体交叉概率,a为一个固 定的值,用来设定初始交叉概率,i为迭代次数,f_为当代种群最大适应度,£_为当代种 群最小适应度,f'为执行交叉操作的两个染色体的较大适应度; 所述变异概率为
其中Pm为变异概率,P_为预设的最大变异 概率,f"为执行变异操作的染色体的适应度。
5. 根据权利要求1所述的文本特征词提取方法,其特征在于: 所述从预设的训练集中提取出多个候选特征词,具体包括:对预设的训练集中进行文 本分词得到包括文本分词的文本分词结果,从文本分词结果中选择文本分词作为所述候选 特征词; 所述计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染 色体的适应度,具体包括:对预设的测试集采用每个所述染色体所表示的特征词组合进行 文本分类得到关于每个特征词组合的分类准确率或者召回率,根据所述分类准确率或者所 述召回率确定相应的染色体的适应度。
6. -种文本特征词提取系统,其特征在于,包括: 初始种群获取模块,用于:从预设的训练集中提取出多个候选特征词,从所有候选特征 词中选出多种特征词组合,每个特征词组合包括一个或多个候选特征词,以一个染色体表 示一个特征词组合,生成包括多个染色体的初始种群,初始化迭代次数,将初始种群作为当 代种群,执行适应度计算模块; 适应度计算模块,用于:对当代种群中的每个所述染色体,计算每个所述染色体所表示 的特征词组合对于预设的测试集的测试结果作为染色体的适应度,如果当代种群满足预设 的输出条件,则根据预设的输出规则,输出当代种群所包括的染色体所表示的特征词组合 作为用于文本分析的输出特征词组合,否则,执行选择模块; 选择模块,用于:根据染色体的适应度选择一个或多个染色体根据交叉概率执行交叉 操作和根据变异概率执行变异操作后得到下一代种群,执行适应度计算模块。
7. 根据权利要求6所述的文本特征词提取系统,其特征在于,染色体采用如下方式表 示特征词组合: 将所有的候选特征词进行排序,每个候选特征词对应一个序号; 所述染色体中每个基因为一个候选特征词所对应的序号。
8. 根据权利要求6所述的文本特征词提取系统,其特征在于,所述选择模块,具体包 括: 对当代种群中的染色体的适应度进行排序,将排在前面的若干个染色体加入下一代种 群,对当代种群的其他染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后 加入下一代种群。
9. 根据权利要求6所述的文本特征词提取系统,其特征在于: 所述交叉概率为
其中P。为当前染色体交叉概率,a为一个固 定的值,用来设定初始交叉概率,i为迭代次数,f_为当代种群最大适应度,£_为当代种 群最小适应度,f'为执行交叉操作的两个染色体的较大适应度; 所述变异概率为:
丨中为变异概率,P_为预设的最大变异 概率,f"为执行变异操作的染色体的适应度。
10. 根据权利要求6所述的文本特征词提取系统,其特征在于: 所述从预设的训练集中提取出多个候选特征词,具体用于:对预设的训练集中进行文 本分词得到包括文本分词的文本分词结果,从文本分词结果中选择文本分词作为所述候选 特征词; 所述计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染 色体的适应度,具体用于:对预设的测试集采用每个所述染色体所表示的特征词组合进行 文本分类得到关于每个特征词组合的分类准确率或者召回率,根据所述分类准确率或者所 述召回率确定相应的染色体的适应度。
【专利摘要】本发明公开一种文本特征词提取方法及系统,方法包括:从预设的训练集中提取出多个候选特征词组合,以一个染色体表示一个特征词组合,生成包括多个染色体的初始种群;适应度计算步骤,包括:对当代种群中的每个所述染色体,计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度,如果当代种群满足预设的输出条件,则根据预设的输出规则,输出当代种群所包括的染色体所表示的特征词组合作为用于文本分析的输出特征词组合,否则执行交叉操作和执行变异操作后得到下一代种群,执行适应度计算步骤。本发明实现了基于遗传算法实现特征词的提取,可以获取比传统特征选择算法更加准确的特征词组合。
【IPC分类】G06F17-27, G06F17-30
【公开号】CN104809229
【申请号】CN201510230545
【发明人】殷俊
【申请人】北京京东尚科信息技术有限公司, 北京京东世纪贸易有限公司
【公开日】2015年7月29日
【申请日】2015年5月7日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1