一种文本分类特征提取方法、分类方法及装置制造方法

文档序号:6493812阅读:122来源:国知局
一种文本分类特征提取方法、分类方法及装置制造方法
【专利摘要】本发明实施例公开了一种文本分类特征提取方法、分类方法及装置,其中,所述文本分类特征提取方法包括:获取训练集文本的特征词集合;根据特征词集合中各特征词与预置文本类别的相关度以及特征词的词长度,确定各特征词的特征评分值;记录特征评分值高于预设分数阈值的特征词,得到所述训练集文本的文本特征集合。采用本发明,可以在得到能够表达文本信息的特征词的情况下,有效地减少特征词的个数,从而方便在对文本进行分类时,减小分类运行时间,减小计算的时间和空间开销,节省计算成本。
【专利说明】一种文本分类特征提取方法、分类方法及装置
【技术领域】
[0001]本发明涉及文本分类领域,尤其涉及一种文本分类特征提取方法、分类方法及装置。
【背景技术】
[0002]随着互联网技术的迅速发展,网络文本的数量呈现爆炸性的增长,如何有效的管理这些文本是当前的热点问题,文本分类作为管理海量数据的关键技术,已得到广泛的应用。
[0003]目前采用的基于统计的文本分类方法通过学习已分类的文本,能较好的对新的实例文本进行分类。其中,在对新的实例进行分类的过程中,需要先对实例文本进行分词处理,得到包括若干词语的词语集合,再基于词语集合中的所有词语进行文本分类处理,完成对该实例文本的分类。发明人在实施现有技术时发现,采用上述方式的分类方法在实例文本内容比较多,分词得到的词语的数量比较高的情况下,分类运算性能比较差。

【发明内容】

[0004]本发明实施例所要解决的技术问题在于,提供一种文本分类特征提取方法、分类方法及装置,可提高了分类的性能。
[0005]为了解决上述技术问题,本发明实施例提供了一种文本分类特征提取方法,其特征在于,包括:
[0006]获取训练集文本的特征词集合;
[0007]根据特征词集合中各特征词与预置文本类别的相关度以及特征词的词长度,确定各特征词的特征评分值;
[0008]记录特征评分值高于预设分数阈值的特征词,得到所述训练集文本的文本特征集
口 ο
[0009]其中,所述获取训练集文本的特征词集合包括:
[0010]对训练集文本进行分词处理,得到所述训练集文本的词语集合;
[0011]删除所述词语集合中的停用词,得到特征词集合,所述词语集合中的停用词包括语气助词和/或人称代词。
[0012]其中,所述删除所述词语集合中的停用词,得到特征词集合,包括:
[0013]将所述词语集合中各个分词与预设的停用词库中的预置停用词进行比较;
[0014]根据比较结果将词语集合中与预置停用词相同的分词删除,得到特征词集合。
[0015]其中,所述根据特征词集合中各特征词与预置文本类别的相关度以及特征词的词长度,确定各特征词的特征评分值,包括:
[0016]确定特征词集合中各特征词与预置的每一个文本类别的相关度;
[0017]根据各特征词的词长度确定各特征词的长度权重值;
[0018]根据各特征词的相关度和长度权重值,确定各特征词的特征评分值。[0019]其中,所述根据各特征词的相关度和长度权重值,确定各特征词的特征评分值,包括:
[0020]根据特征词的相关度,确定特征词在各对应文本类别上的类别区分能力;
[0021]确定特征词在预置的所有文本类别上的类别区分能力之和;
[0022]根据类别区分能力之和与长度权重值,确定各特征词的特征评分值。
[0023]其中,所述确定特征词集合中各特征词与预置文本类别的相关度中,确定相关度的计算公式包括:
[0024]
【权利要求】
1.一种文本分类特征提取方法,其特征在于,包括: 获取训练集文本的特征词集合; 根据特征词集合中各特征词与预置文本类别的相关度以及特征词的词长度,确定各特征词的特征评分值; 记录特征评分值高于预设分数阈值的特征词,得到所述训练集文本的文本特征集合。
2.如权利要求1所述的提取方法,其特征在于,所述获取训练集文本的特征词集合包括: 对训练集文本进行分词处理,得到所述训练集文本的词语集合; 删除所述词语集合中的停用词,得到特征词集合,所述词语集合中的停用词包括语气助词和/或人称代词。
3.如权利要求2所述的方法,其特征在于,所述删除所述词语集合中的停用词,得到特征词集合,包括: 将所述词语集合中各个分词与预设的停用词库中的预置停用词进行比较; 根据比较结果将词语集合中与预置停用词相同的分词删除,得到特征词集合。
4.如权利要求1 -3任一项所述的方法,其特征在于,所述根据特征词集合中各特征词与预置文本类别的相关度以及特征词的词长度,确定各特征词的特征评分值,包括: 确定特征词集合中各特征词与预置的每一个文本类别的相关度; 根据各特征词的词长度确定各特征词的长度权重值; 根据各特征词的相关度和长度权重值,确定各特征词的特征评分值。
5.如权利要求4所述的方法,其特征在于,所述根据各特征词的相关度和长度权重值,确定各特征词的特征评分值,包括: 根据特征词的相关度,确定特征词在各对应文本类别上的类别区分能力; 确定特征词在预置的所有文本类别上的类别区分能力之和; 根据类别区分能力之和与长度权重值,确定各特征词的特征评分值。
6.如权利要求5所述的方法,其特征在于,所述确定特征词集合中各特征词与预置文本类别的相关度中,确定相关度的计算公式包括:
|{i A =-;-, - ?.| 其中,R^t表示特征词tk与文本类别的相关度,I U:tk e dj, Clj e CjI |表示文本类别Cj中出现特征词tk的文档数,I C」表示文本类别q的文档总数。
7.如权利要求4所述的方法,其特征在于,所述根据各特征词的词长度确定各特征词的长度权重值中,确定长度权重值的计算公式包括:
weight (len (tk)) =1g (e+len (tk)); 其中,e为预设的自然数值,len(tk)为特征词tk的长度值。
8.如权利要求7所述的方法,其特征在于, 所述根据各特征词的相关度,确定各特征词在相应文本类别上的类别区分能力中,确定类别区分能力的计算公式包括:
DiffJk=min (| Rjk-Rik ), i ^ j ;其中,Diff^k表示特征词tk在文本类别&上的类别区分能力的值,Ra表示特征词tk与文本类别&的相关度,Rik表示特征词tk与文本类别Ci的相关度; 所述确定特征词在预置的所有文本类别上的类别区分能力之和中,确定所述类别区分能力之和的计算公式包括: Difh=H, 其中,DifTk为特征词tk在预置的所有文本类别上的类别区分能力之和; 所述根据类别区分能力之和与长度权重值,确定各特征词的特征评分值中,确定特征评分值的计算公式包括:
f (tk) =DiffkXweight (len (tk)); 其中,f(tk)为特征词tk的特征评分值。
9.一种文本分类方法,其特征在于,包括: 分别获取训练集内各文本的特征词集合,并将其合并去重形成训练集的特征词集合;根据训练集的特征词集合中每一个特征词与预置的文本类别的相关度以及词长度,确定每一个特征词的特征评分值; 记录特征评分值高于预设分数阈值的特征词,得到所述训练集的文本特征集合; 根据训练集的文本特征集合,获取测试集各文本的特征词集合; 根据训练集的文本特征集合和所述测试集内各文本的特征词集合进行文本向量化操作,得到训练集内各文本的文本向量和测试集内各文本的文本向量,形成训练集的文本向量集合和测试集的文本向量集合; 根据训练集的文本向量集合生成文本分类模型,并根据所述生成的文本分类模型对所述测试集的文本向量集合中各个文本向量进行分类,获得测试集中各个文本的类别。
10.如权利要求9所述的方法,其特征在于,所述根据训练集的文本特征集合和所述测试集内各文本的特征词集合进行文本向量化操作,得到训练集内各文本的文本向量和测试集内各文本的文本向量,形成训练集的文本向量集合和测试集的文本向量集合,包括: 对所述训练集的文本特征集合和所述测试集内各文本的特征词集合中的每一个特征词分配索引; 根据训练集的文本特征集合确定所述训练集内各文本的文本特征集合中的每一个特征词的权重,并确定测试集中各文本的特征词集合中的每一个特征词的权重,其中,所述确定权重的算法包括:词频-逆文档频率TF-1DF加权算法; 根据每一个特征词的索引和权重生成向量,分别得到训练集和测试集中各文本的文本向量,得到训练集和测试集的文本向量集合。
11.如权利要求10所述的方法,其特征在于,所述根据训练集的文本向量集合生成文本分类模型,并根据所述生成的文本分类模型对所述测试集的文本向量集合中各个文本向量进行分类,获得测试集中各个文本的类别,包括: 对所述训练集的文本向量集合中每一个文本向量执行归一化处理,以将每一个文本向量中的每一个特征项的权重投射到预设的数值范围内; 根据归一化处理后训练 集的文本向量集合和预置的分类模型,生成文本分类模型,所述预置的分类模型包括支持向量机SVM分类模型; 根据所述生成的文本分类模型对所述测试集的文本向量集合中各个文本向量进行分类,获得测试集中各个文本的类别。
12.如权利要求10所述的方法,其特征在于,所述根据训练集的文本向量集合生成文本分类模型,并根据所述生成的文本分类模型对所述测试集的文本向量集合中各个文本向量进行分类,获得测试集中各个文本的类别,包括: 根据训练集的文本向量集合和预置的分类模型,生成文本分类模型,所述预置的分类模型包括朴素贝叶斯分类模型; 根据所述生成的文本分类模型对所述测试集的文本向量集合中各个文本向量进行分类,获得测试集中各个文本的类别。
13.一种文本分类特征提取装置,其特征在于,包括: 获取模块,用于获取训练集文本的特征词集合; 确定模块,用于根据特征词集合中各特征词与预置的文本类别的相关度以及特征词的词长度,确定各特征词的特征评分值; 记录模块,用于记录特征评分值高于预设分数阈值的特征词,得到所述训练集文本的文本特征集合。
14.如权利要求13所述的装置,其特征在于,所述获取模块包括: 分词单元,用于对训练集文本进行分词处理,得到所述训练集文本的词语集合; 删除单元,用于删除所述词语集合中的停用词,得到特征词集合,所述词语集合中的停用词包括语气助词和/或人称代词。
15.如权利要求14所述的装置,其特征在于,所述删除单元包括: 比较子单元,用于将所述词语集合中各个分词与预设的停用词库中的预置停用词进行比较; 删除子单元,用于根据比较结果将词语集合中与预置停用词相同的分词删除,得到特征词集合。
16.如权利要求13-15任一项所述的装置,其特征在于,所述确定模块包括: 第一确定单元,用于确定特征词集合中各特征词与预置的每一个文本类别的相关度; 第二确定单元,用于根据各特征词的词长度确定各特征词的长度权重值; 第三确定单元,用于根据各特征词的相关度和长度权重值,确定各特征词的特征评分值。
17.如权利要求16所述的装置,其特征在于, 所述第三确定单元,具体用于根据特征词的相关度,确定特征词在各对应文本类别上的类别区分能力,并确定特征词在预置的所有文本类别上的类别区分能力之和,并根据类别区分能力之和与长度权重值,确定各特征词的特征评分值。
18.—种文本分类装置,其特征在于,包括: 特征提取模块,用于分别获取训练集 内各文本的特征词集合,并将其合并去重形成训练集的特征词集合,根据训练集的特征词集合中每一个特征词与预置的文本类别的相关度以及词长度,确定每一个特征词的特征评分值,记录特征评分值高于预设分数阈值的特征词,得到所述训练集的文本特征集合; 获取模块,用于根据训练集的文本特征集合,获取测试集各文本的特征词集合; 向量确定模块,用于根据训练集的文本特征集合和所述测试集内各文本的特征词集合进行文本向量化操作,得到训练集内各文本的文本向量和测试集内各文本的文本向量,形成训练集的文本向量集合和测试集的文本向量集合; 分类模块,用于根据训练集的文本向量集合生成文本分类模型,并根据所述生成的文本分类模型对所述测试集的文本向量集合中各个文本向量进行分类,获得测试集中各个文本的类别。
19.如权利要求18所述的装置,其特征在于,所述向量确定模块包括: 索引分配单元,用于对所述训练集的文本特征集合和所述测试集内各文本的特征词集合中的每一个特征词分配索引; 权重确定单元,用于根据训练集的文本特征集合确定所述训练集内各文本的文本特征集合中的每一个特征词的权重,并确定测试集中各文本的特征词集合中的每一个特征词的权重,其中,所述确定权重的算法包括:词频-逆文档频率TF-1DF加权算法; 向量确定单元,用于根据每一个特征词的索引和权重生成向量,分别得到训练集和测试集中各文本的文本向量,得到训练集和测试集的文本向量集合。
20.如权利要求19所述的装置,其特征在于,所述分类模块包括: 模型生成单元,用于对所述训练集的文本向量集合中每一个文本向量执行归一化处理,以将每一个文本向量中的每一个特征项的权重投射到预设的数值范围内;根据归一化处理后训练集的文本向量集合和预置的分类模型,生成文本分类模型,所述预置的分类模型包括支持向量机SVM分类模型; 第一分类单元,用于根据所述生成的文本分类模型对所述测试集的文本向量集合中各个文本向量进行分类,获得测试集中各个文本的类别。
21.如权利要求19所述的装置,其特征在于,所述分类模块包括: 第二分类单元,用于根据训练集的文本向量集合和预置的分类模型,生成文本分类模型,所述预置的分类模型包括朴素贝叶斯分类模型,根据所述生成的文本分类模型对所述测试集的文本向量集合中各个文本向量进行分类,获得测试集中各个文本的类别。
【文档编号】G06F17/30GK103902570SQ201210578378
【公开日】2014年7月2日 申请日期:2012年12月27日 优先权日:2012年12月27日
【发明者】李鑫, 张延祥 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1