多领域词典自动构建方法与流程

文档序号:11918980阅读:来源:国知局
技术总结
本发明涉及自然语言处理领域,特别涉及多领域词典自动构建方法;在自动获取文本关键词的基础上,对待处理文本进行聚类,形成N个主题文本集;构建M个领域,选取各领域的种子词,依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。本发明方法在自动区分文本主题领域的基础上,在较短的时间内可以构建数个词典,为相关的文本分析提供更多可用工具。也可以为某一具体分析提供更多分析维度,使得分析的视角更加全面,分析的结果更加准确。

技术研发人员:张晓霞;刘世林
受保护的技术使用者:成都数联铭品科技有限公司
文档号码:201611150855
技术研发日:2016.12.13
技术公布日:2017.05.17

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1