技术特征:
技术总结
本申请涉及文本处理领域,公开了一种文本相似性分析方法、装置、电子设备及计算机可读存储介质,其中,文本相似性分析方法包括:确定目标文本的第一预设个数的基础特征词;接着基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词;接着基于各基础特征词、各扩展词以及各个词的权重值,从预设文本数据库中确定目标文本的相似文本。本申请实施例的方法,极大扩充了抽取到的能够表征目标文本的专业性词汇的数量,有效提高表征目标文本的文本特征词频的统计特性,能够快速、准确地从预设文本数据库中甄选出目标文本的相似专利,极大提高专利相似性分析的准确度。
技术研发人员:高影繁;姚长青;刘志辉;崔笛;李岩;郑明
受保护的技术使用者:中国科学技术信息研究所
技术研发日:2018.05.28
技术公布日:2018.11.13