一种快速文档相似度判定方法与流程

文档序号：14451712阅读：750来源：国知局

本发明涉及文本处理领域，特别涉及一种快速文档相似度判定方法。

背景技术：

随着我国知识是产权保护的意识越来越强，诞生了版权作者主动维权的意识，而人工判断侵权的工作量太大，在海量数据面前，需要计算机工具作为辅助，对数据进行筛选，然后进行人工判断。

申请人在2017年12月23日，申请了名为“一种文档相似度判定方法”的发明专利，是将整个文档的词语做hash，并根据词语出现的次数做加权，最后比较1，0数列，得到一个相似对比结果。整个文档的词语做hash，计算量比较大。

技术实现要素：

为了克服上述现有技术的不足，本发明提供了一种快速文档相似度判定方法。

所述方法包括以下步骤：选句：选取整篇文档10个最长的句子；分词：将每个句子拆分成基础词汇；词汇统计：将词汇通过hash函数计算各个特征向量的hash值，所述hash值设置为64位，将所有词汇重复的数量n记录，并建立数量*词汇的数据，即n*hash值；合并：将上述各个特征向量的加权结果累加，变成只有一个序列串；降维：对于累加结果，计算平均值，每个位置与平均值做对比，如果大于或等于则置1，否则置0，得到10个句子的序列串；对比：将两个文档的序列串进行对比，得到不同位数的个数；小于等于3，则判定为相似。

有益效果：

具体实施方式

实施例：

第一步，选句：选取整篇文档10个最长的句子；

第二步，分词：将每个句子拆分成基础词汇；

第三步，词汇统计：将词汇通过hash函数计算各个特征向量的hash值，所述hash值设置为64位，将所有词汇重复的数量n记录，并建立数量*词汇的数据，即n*hash值；

第四步，合并：将上述各个特征向量的加权结果累加，变成只有一个序列串；

第五步，降维：对于累加结果，计算平均值，每个位置与平均值做对比，如果大于或等于则置1，否则置0，得到10个句子的序列串；

第六步，对比：将两个文档的序列串进行对比，得到不同位数的个数；小于等于3，则判定为相似。

技术特征：

技术总结
本发明公开了一种快速文档相似度判定方法，选句：选取整篇文档10个最长的句子；分词：将每个句子拆分成基础词汇；词汇统计：将词汇通过hash函数计算各个特征向量的hash值，所述hash值设置为64位，将所有词汇重复的数量N记录，并建立数量*词汇的数据，即N*hash值；合并：将上述各个特征向量的加权结果累加，变成只有一个序列串；降维：对于累加结果，计算平均值，每个位置与平均值做对比，如果大于或等于则置1，否则置0，得到10个句子的序列串；对比：将两个文档的序列串进行对比，得到不同位数的个数；小于等于3，则判定为相似。

技术研发人员：王祝
受保护的技术使用者：奕响（大连）科技有限公司
技术研发日：2017.12.18
技术公布日：2018.05.18

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王祝
技术所有人：奕响（大连）科技有限公司
我是此专利的发明人

上一篇：适用于跑步的智能背心的制作方法
上一篇：一种天然气管道铺设防护装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。