弹幕文本相似度计算方法、存储介质、设备及系统与流程

文档序号:17862194发布日期:2019-06-11 22:56阅读:来源:国知局

技术特征:

技术总结
本发明公开了一种弹幕文本相似度计算方法、存储介质、设备及系统,涉及大数据处理领域,包括:对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;计算相同词项在弹幕A和弹幕B文本中的所占比例;计算基于相同词项词频的弹幕A和弹幕B的文本相似度;将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。本发明能够有效保证计算得到弹幕文本间相似度的准确性。

技术研发人员:徐乐乐
受保护的技术使用者:武汉斗鱼网络科技有限公司
技术研发日:2018.11.30
技术公布日:2019.06.07
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1