一种文本特征提取方法和装置制造方法

文档序号：6490282阅读：338来源：国知局

一种文本特征提取方法和装置制造方法
【专利摘要】本申请公开了一种文本特征提取方法和装置。该方法包括：对于特征词库中的特征词Fi，根据样本库中包含所述特征词Fi的样本中该特征词Fi的出现次数以及包含该特征词Fi的样本所具有的标签，确定该特征词Fi与标签库中的每个标签之间的互信息；对目标文档进行分词，获得所述目标文档中出现的所有特征词；基于目标文档中的每个特征词与每个标签之间的互信息，确定所述目标文档中的每个特征词对每个标签的权重，将所述目标文档中的所有特征词对同一个标签的权重进行加权，得到所述目标文档中的所有特征词对同一个标签的总权重；根据各个标签的所述总权重，从所述各个标签中确定出目标标签作为所述目标文档的文本特征。应用本申请能够提高提取文本特征的准确度。
【专利说明】一种文本特征提取方法和装置
【技术领域】
[0001]本申请涉及信息【技术领域】，尤其涉及一种文本特征提取方法和装置。
【背景技术】
[0002]在文本分类领域中，因为一篇文档里出现的特征词的个数太多，如何从一篇文档中提取到关键的特征词，即如何从一篇文档中提取文本特征，成为文本分类的重要技术问题。
[0003]常用的基于概率模型的文本分类因为实现原理简单、准确率高的特点，成为应用最广泛的文本分类方法之一。其中，基于互信息(Mutual Information, Ml)的文本特征提取就是一种典型的基于概率模型的文本分类方法。
[0004]互信息，是指两个事件集合之间的相关性。
[0005]具体地，两个事件X和Y的互信息定义为公式1:
[0006]
【权利要求】
1.一种文本特征提取方法，其特征在于，该方法包括: 对于特征词库中的特征词Fi,根据预先建立的样本库中包含所述特征词Fi的样本中该特征词Fi的出现次数以及包含该特征词Fi的样本所具有的标签，确定该特征词Fi与标签库中的每个标签之间的互信息；对目标文档进行分词，获得所述目标文档中出现的所有特征词；基于目标文档中的每个特征词与每个标签之间的互信息，确定所述目标文档中的每个特征词对每个标签的权重，将所述目标文档中的所有特征词对同一个标签的权重进行加权，得到所述目标文档中的所有特征词对同一个标签的总权重；根据各个标签的所述总权重，从所述各个标签中确定出目标标签作为所述目标文档的文本特征。
2.根据权利要求1所述的方法，其特征在于，确定该特征词Fi与标签库中的每个标签之间的互信息包括: 将特征词Fi与标签库中的标签L的互信息确定为:

3.一种文本特征提取方法，其特征在于，该方法包括: 对目标文档进行分词，获得所述目标文档中出现的所有特征词；确定所述目标文档中的每个特征词对每个标签的权重，将所述目标文档中的所有特征词对同一个标签的权重进行加权，得到所述目标文档中的所有特征词对同一个标签的总权重；根据各个标签的所述总权重，从所述各个标签中确定出目标标签作为所述目标文档的文本特征；其中，确定所述目标文档中的每个特征词对每个标签的权重包括: 根据特征词Fi与标签Tj的互信息MI (Fi, Tj)、该特征词Fi在所述目标文档中出现的次数TF (Fi)、以及该特征词的重要程度IDF (Fi)确定该特征词Fi对标签Tj的权重，其中，预先建立的样本库中包含该特征词Fi的样本个数越多，该特征词Fi的重要程度IDF(Fi)越低。
4.根据权利要求3所述的方法，其特征在于，根据特征词Fi与标签L的互信息MI (Fi, Tj)、该特征词Fi在所述目标文档中出现的次数TF(Fi)、以及该特征词Fi的重要度IDF(Fi)确定该特征词Fi对标签L的权重包括: 将特征词Fi对标签L的权重P (Fi, Tj)确定为:
P (Fi, Tj) =MI (Fi, Tj) X TF (Fi) X IDF (Fi)；将所述目标文档中的所有特征词对同一个标签的权重进行加权，得到所述目标文档中的所有特征词对所述标签的总权重包括:将目标文档中的所有特征词的集合F对标签L的总权重ρ (F，Tj)确定为:
5.根据权利要求4所述的方法，其特征在于，特征词Fi的重要度IDF(Fi)为:
6.根据权利要求3或4或5所述的方法，其特征在于，特征词Fi与标签Tj的互信息MI (Fi, Tj)为:
7.一种文本特征提取装置，其特征在于，该装置包括互信息确定模块和文本特征提取模块；所述互信息确定模块，对于特征词库中的特征词Fi,根据预先建立的样本库中包含所述特征词Fi的样本中该特征词Fi的出现次数以及包含该特征词Fi的样本所具有的标签，确定该特征词Fi与标签库中的每个标签之间的互信息；所述文本特征提取模块，用于对目标文档进行分词，获得所述目标文档中出现的所有特征词，基于目标文档中的每个特征词与每个标签之间的互信息，确定所述目标文档中的每个特征词对每个标签的权重，将所述目标文档中的所有特征词对同一个标签的权重进行加权，得到所述目标文档中的所有特征词对同一个标签的总权重，根据各个标签的所述总权重，从所述各个标签中确定出目标标签作为所述目标文档的文本特征。
8.根据权利要求7所述的装置，其特征在于，所述互信息确定模块，用于将特征词Fi与标签L的互信息MI (Fi, Tj)确定为:

9.一种文本特征提取装置，其特征在于，该装置包括分词模块、权重确定模块和文本特征提取1?块；所述分词模块，用于对目标文档进行分词，获得所述目标文档中出现的所有特征词；所述权重确定模块，用于确定所述目标文档中的每个特征词对每个标签的权重，将所述目标文档中的所有特征词对同一个标签的权重进行加权，得到所述目标文档中的所有特征词对同一个标签的总权重；所述文本特征提取模块，用于根据各个标签的所述总权重，从所述各个标签中确定出目标标签作为所述目标文档的文本特征；其中，所述权重确定模块，用于根据特征词Fi与标签L的互信息MI (Fi, Tp、该特征词Fi在所述目标文档中出现的次数TF(Fi)、以及该特征词的重要度IDF(Fi)确定该特征词Fi对标签L的权重，其中，预先建立的样本库中包含该特征词Fi的样本个数越多，该特征词Fi的重要度IDF(Fi)越低。
10.根据权利要求9所述的装置，其特征在于，所述权重确定模块，用于根据P (Fi, Tj) =MI (Fi, Tj) X TF (Fi) X IDF (Fi)确定特征词Fi对标签Tj的权重P (Fi, Tj)，根据
11.根据权利要求10所述的装置，其特征在于，特征词Fi的重要度IDF(Fi)为:
12.根据权利要求9或10或11所述的装置，其特征在于，所述权重确定模块，用于将特征词Fi与标签L的互信息MI (Fi, Tj)为:
【文档编号】G06F17/30GK103793385SQ201210419624
【公开日】2014年5月14日申请日期:2012年10月29日优先权日:2012年10月29日
【发明者】邹维, 尹华彬, 周畅, 杨俊松, 宫建涛, 吴振宇, 宁合军申请人:深圳市世纪光速信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邹维;尹华彬;周畅;杨俊松;宫建涛;吴振宇;宁合军
技术所有人：深圳市世纪光速信息技术有限公司
我是此专利的发明人

上一篇：桌面互动式产品展示柜的制作方法
上一篇：一种通用的客户端与服务端数据绑定的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。