一种基于语义分析的文档查重方法和装置与流程

文档序号:15931916发布日期:2018-11-14 01:46阅读:来源:国知局

技术特征:

技术总结
本发明提供了一种基于语义分析的文档查重方法和装置,包括:确定待查重文档和对比文档;根据预设的格式标准,对所述待查重文档、所述对比文档进行格式转换;对经过格式转换的所述待查重文档、所述对比文档进行分词;根据所述待查重文档的分词结果和所述对比文档的分词结果,进行同义词归并,确定第一相似度;根据所述待查重文档的分词结果和所述对比文档的分词结果,进行聚类分析,确定第二相似度;根据所述第一相似度和所述第二相似度,确定所述待查重文档与所述对比文档的重复率。本发明提供的方案能够提高查重的精确度。

技术研发人员:王乐;石园
受保护的技术使用者:浪潮软件集团有限公司
技术研发日:2018.05.21
技术公布日:2018.11.13
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1