一种文本特征提取方法和装置制造方法

文档序号:6490282阅读:338来源:国知局
一种文本特征提取方法和装置制造方法
【专利摘要】本申请公开了一种文本特征提取方法和装置。该方法包括:对于特征词库中的特征词Fi,根据样本库中包含所述特征词Fi的样本中该特征词Fi的出现次数以及包含该特征词Fi的样本所具有的标签,确定该特征词Fi与标签库中的每个标签之间的互信息;对目标文档进行分词,获得所述目标文档中出现的所有特征词;基于目标文档中的每个特征词与每个标签之间的互信息,确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重;根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。应用本申请能够提高提取文本特征的准确度。
【专利说明】一种文本特征提取方法和装置
【技术领域】
[0001]本申请涉及信息【技术领域】,尤其涉及一种文本特征提取方法和装置。
【背景技术】
[0002]在文本分类领域中,因为一篇文档里出现的特征词的个数太多,如何从一篇文档中提取到关键的特征词,即如何从一篇文档中提取文本特征,成为文本分类的重要技术问题。
[0003]常用的基于概率模型的文本分类因为实现原理简单、准确率高的特点,成为应用最广泛的文本分类方法之一。其中,基于互信息(Mutual Information, Ml)的文本特征提取就是一种典型的基于概率模型的文本分类方法。
[0004]互信息,是指两个事件集合之间的相关性。
[0005]具体地,两个事件X和Y的互信息定义为公式1:
[0006]
【权利要求】
1.一种文本特征提取方法,其特征在于,该方法包括: 对于特征词库中的特征词Fi,根据预先建立的样本库中包含所述特征词Fi的样本中该特征词Fi的出现次数以及包含该特征词Fi的样本所具有的标签,确定该特征词Fi与标签库中的每个标签之间的互信息; 对目标文档进行分词,获得所述目标文档中出现的所有特征词; 基于目标文档中的每个特征词与每个标签之间的互信息,确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重; 根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。
2.根据权利要求1所述的方法,其特征在于,确定该特征词Fi与标签库中的每个标签之间的互信息包括: 将特征词Fi与标签库中的标签L的互信息确定为:


3.一种文本特征提取方法,其特征在于,该方法包括: 对目标文档进行分词,获得所述目标文档中出现的所有特征词; 确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重; 根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征; 其中,确定所述目标文档中的每个特征词对每个标签的权重包括: 根据特征词Fi与标签Tj的互信息MI (Fi, Tj)、该特征词Fi在所述目标文档中出现的次数TF (Fi)、以及该特征词的重要程度IDF (Fi)确定该特征词Fi对标签Tj的权重,其中,预先建立的样本库中包含该特征词Fi的样本个数越多,该特征词Fi的重要程度IDF(Fi)越低。
4.根据权利要求3所述的方法,其特征在于,根据特征词Fi与标签L的互信息MI (Fi, Tj)、该特征词Fi在所述目标文档中出现的次数TF(Fi)、以及该特征词Fi的重要度IDF(Fi)确定该特征词Fi对标签L的权重包括: 将特征词Fi对标签L的权重P (Fi, Tj)确定为:
P (Fi, Tj) =MI (Fi, Tj) X TF (Fi) X IDF (Fi); 将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对所述标签的总权重包括:将目标文档中的所有特征词的集合F对标签L的总权重ρ (F,Tj)确定为:
5.根据权利要求4所述的方法,其特征在于,特征词Fi的重要度IDF(Fi)为:
6.根据权利要求3或4或5所述的方法,其特征在于,特征词Fi与标签Tj的互信息MI (Fi, Tj)为:
7.一种文本特征提取装置,其特征在于,该装置包括互信息确定模块和文本特征提取模块; 所述互信息确定模块,对于特征词库中的特征词Fi,根据预先建立的样本库中包含所述特征词Fi的样本中该特征词Fi的出现次数以及包含该特征词Fi的样本所具有的标签,确定该特征词Fi与标签库中的每个标签之间的互信息; 所述文本特征提取模块,用于对目标文档进行分词,获得所述目标文档中出现的所有特征词,基于目标文档中的每个特征词与每个标签之间的互信息,确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重,根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。
8.根据权利要求7所述的装置,其特征在于, 所述互信息确定模块,用于将特征词Fi与标签L的互信息MI (Fi, Tj)确定为:


9.一种文本特征提取装置,其特征在于,该装置包括分词模块、权重确定模块和文本特征提取1?块; 所述分词模块,用于对目标文档进行分词,获得所述目标文档中出现的所有特征词;所述权重确定模块,用于确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重; 所述文本特征提取模块,用于根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征; 其中,所述权重确定模块,用于根据特征词Fi与标签L的互信息MI (Fi, Tp、该特征词Fi在所述目标文档中出现的次数TF(Fi)、以及该特征词的重要度IDF(Fi)确定该特征词Fi对标签L的权重,其中,预先建立的样本库中包含该特征词Fi的样本个数越多,该特征词Fi的重要度IDF(Fi)越低。
10.根据权利要求9所述的装置,其特征在于, 所述权重确定模块,用于根据P (Fi, Tj) =MI (Fi, Tj) X TF (Fi) X IDF (Fi)确定特征词Fi对标签Tj的权重P (Fi, Tj),根据
11.根据权利要求10所述的装置,其特征在于,特征词Fi的重要度IDF(Fi)为:
12.根据权利要求9或10或11所述的装置,其特征在于, 所述权重确定模块,用于将特征词Fi与标签L的互信息MI (Fi, Tj)为:
【文档编号】G06F17/30GK103793385SQ201210419624
【公开日】2014年5月14日 申请日期:2012年10月29日 优先权日:2012年10月29日
【发明者】邹维, 尹华彬, 周畅, 杨俊松, 宫建涛, 吴振宇, 宁合军 申请人:深圳市世纪光速信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1