一种多义词词向量消歧方法与流程

文档序号:16068439发布日期:2018-11-24 12:54阅读:来源:国知局

技术特征:

技术总结
一种多义词词向量消歧方法,属于文本挖掘和机器学习的交叉技术领域,包括(1)文本语料获取以及预处理:采用搜狗新闻文本分类语料,然后进行分词、去停用词的预处理步骤;(2)BTM主题模型建模;(3)词语对应主题的概率计算;(4)向量模型计算词向量和主题向量;(5)多义词词向量构造并对应主题的概率P(z|w)对连接过程中的主题向量进行加权处理,实现对相同词语在不同上下文中的不同意思的区分,得到正确的多义词词向量。本发明有助于将汉语词义消歧扩展到短文本领域;通过利用主题模型和词向量的结合,不需要人力进行数据标注,有助于海量的短文本数据挖掘,更加省时省力;有助于电商网站进行个性化商品推荐。

技术研发人员:谢珺;李思宇;梁凤梅;刘建霞
受保护的技术使用者:太原理工大学
技术研发日:2018.05.25
技术公布日:2018.11.23
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1