主题词抽取方法及装置与流程

文档序号:12464592阅读:来源:国知局

技术特征:

1.一种主题词抽取方法,其特征在于,包括:

获取所有需要抽取主题词的文档以及出现在该文档中的词语;

基于每个词语在该文档中出现的频率构建词语文档矩阵,其中,所述词语文档矩阵的每一行表示各个词语在一篇文档中的词频信息,每一列表示一个词语在各篇文档中的词频信息;

利用潜在语义分析模型对所述词语文档矩阵进行语义分析,生成潜在语义空间;

根据所述潜在语义空间抽取所述所有需要抽取主题词的文档的主题词。

2.根据权利要求1所述的方法,其特征在于,利用潜在语义分析模型对所述词语文档矩阵进行语义分析,生成潜在语义空间包括:

利用所述潜在语义分析模型分析所述词语文档矩阵中的词语与文档的对应关系;

按照所述对应关系将所述词语文档矩阵中的词语与文档映射到满足预定维度条件的向量空间中,生成所述潜在语义空间。

3.根据权利要求1或2所述的方法,其特征在于,利用潜在语义分析模型对所述词语文档矩阵进行语义分析,生成潜在语义空间包括:

利用奇异值分解模型或非负矩阵分解模型或概率潜在语义索引模型对所述词语文档矩阵进行语义分析,生成潜在语义空间。

4.根据权利要求1所述的方法,其特征在于,根据所述潜在语义空间抽取所述所有需要抽取主题词的文档的主题词包括:

根据所述潜在语义空间确定主题词词语矩阵,其中,所述主题词词语矩阵的每一行表示主题词的语义类别,每一列表示在所述所有需要抽取主题词的文档中出现的词语;

对所述主题词词语矩阵中每一行词语按其权重值排序;

抽取排序后的主题词词语矩阵中权重值大于预设阈值的词语作为所述所有需要抽取主题词的文档的主题词。

5.根据权利要求1所述的方法,其特征在于,获取所有需要抽取主题词的文档以及出现在该文档中的词语包括:

获取所述所有需要抽取主题词的文档;

对所述所有需要抽取主题词的文档进行分词处理,得到所述出现在该文档中的词语。

6.一种主题词抽取装置,其特征在于,包括:

获取单元,用于获取所有需要抽取主题词的文档以及出现在该文档中的词语;

构建单元,用于基于每个词语在该文档中出现的频率构建词语文档矩阵,其中,所述词语文档矩阵的每一行表示各个词语在一篇文档中的词频信息,每一列表示一个词语在各篇文档中的词频信息;

生成单元,用于利用潜在语义分析模型对所述词语文档矩阵进行语义分析,生成潜在语义空间;

抽取单元,用于根据所述潜在语义空间抽取所述所有需要抽取主题词的文档的主题词。

7.根据权利要求6所述的装置,其特征在于,所述生成单元包括:

分析模块,用于利用所述潜在语义分析模型分析所述词语文档矩阵中的词语与文档的对应关系;

生成模块,用于按照所述对应关系将所述词语文档矩阵中的词语与文档映射到满足预定维度条件的向量空间中,生成所述潜在语义空间。

8.根据权利要求6或7所述的装置,其特征在于,所述生成单元还用于利用奇异值分解模型或非负矩阵分解模型或概率潜在语义索引模型对所述词语文档矩阵进行语义分析,生成潜在语义空间。

9.根据权利要求6所述的装置,其特征在于,所述抽取单元包括:

确定模块,用于根据所述潜在语义空间确定主题词词语矩阵,其中,所述主题词词语矩阵的每一行表示主题词的语义类别,每一列表示在所述所有需要抽取主题词的文档中出现的词语;

排序模块,用于对所述主题词词语矩阵中每一行词语按其权重值排序;

抽取模块,用于抽取排序后的主题词词语矩阵中权重值大于预设阈值的词语 作为所述所有需要抽取主题词的文档的主题词。

10.根据权利要求6所述的装置,其特征在于,所述获取单元包括:

获取模块,用于获取所述所有需要抽取主题词的文档;

分词模块,用于对所述所有需要抽取主题词的文档进行分词处理,得到所述出现在该文档中的词语。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1