技术特征:
技术总结
本发明公开了一种弹幕文本相似度计算方法、存储介质、设备及系统,涉及大数据处理领域,包括:对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;计算相同词项在弹幕A和弹幕B文本中的所占比例;计算基于相同词项词频的弹幕A和弹幕B的文本相似度;将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。本发明能够有效保证计算得到弹幕文本间相似度的准确性。
技术研发人员:徐乐乐
受保护的技术使用者:武汉斗鱼网络科技有限公司
技术研发日:2018.11.30
技术公布日:2019.06.07