主题词抽取方法及装置与流程

文档序号:12464592阅读:来源:国知局
技术总结
本发明公开了一种主题词抽取方法及装置。其中,该方法包括:获取所有需要抽取主题词的文档以及出现在该文档中的词语;基于每个词语在该文档中出现的频率构建词语文档矩阵,其中,词语文档矩阵的每一行表示各个词语在一篇文档中的词频信息,每一列表示一个词语在各篇文档中的词频信息;利用潜在语义分析模型对词语文档矩阵进行语义分析,生成潜在语义空间;根据潜在语义空间抽取所有需要抽取主题词的文档的主题词。本发明解决了由于一词多义或多词同义造成的影响主题词抽取质量的技术问题。

技术研发人员:祁国晟;徐文斌
受保护的技术使用者:北京国双科技有限公司
文档号码:201510819148
技术研发日:2015.11.23
技术公布日:2017.05.31

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1