文本相似性分析方法、装置、电子设备及计算机存储介质与流程

文档序号:15931924发布日期:2018-11-14 01:46阅读:来源:国知局

技术特征:

技术总结
本申请涉及文本处理领域,公开了一种文本相似性分析方法、装置、电子设备及计算机可读存储介质,其中,文本相似性分析方法包括:确定目标文本的第一预设个数的基础特征词;接着基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词;接着基于各基础特征词、各扩展词以及各个词的权重值,从预设文本数据库中确定目标文本的相似文本。本申请实施例的方法,极大扩充了抽取到的能够表征目标文本的专业性词汇的数量,有效提高表征目标文本的文本特征词频的统计特性,能够快速、准确地从预设文本数据库中甄选出目标文本的相似专利,极大提高专利相似性分析的准确度。

技术研发人员:高影繁;姚长青;刘志辉;崔笛;李岩;郑明
受保护的技术使用者:中国科学技术信息研究所
技术研发日:2018.05.28
技术公布日:2018.11.13
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1