文本相似度的计算方法及系统、相似文本的查找方法及系统的制作方法

文档序号：9471354阅读：715来源：国知局

文本相似度的计算方法及系统、相似文本的查找方法及系统的制作方法
【技术领域】
[0001] 本发明涉及计算机技术领域，具体涉及一种文本相似度的计算方法及系统、相似文本的查找方法及系统。
【背景技术】
[0002] 文本相似度计算和相似文本的查找在论文反抄袭、网站反假冒等领域有着广泛的应用，例如：
[0003] 1、仿冒网站识别，以仿冒工商银行网站为例，如果发现某网站内容与工商银行官网（http://www.icbc.com.cn)内容接近,可以认为此网站为仿冒网站。
[0004] 2、论文抄袭识别，通过将论文与论文库中的其它论文进行比较，判定是否存在抄袭行为。
[0005] 3、商品推荐系统，比如用户在网站购买一本介绍计算机操作系统的书籍时，可以自动推荐与该书内容相似的其他书籍。
[0006] 4、相似去重，搜索引擎中自动对相似网页进行去重，以提供给用户更多有用的信肩、。
[0007] 现有技术中常见的文本相似度计算方法包括以下几种：
[0008] 方案1、最长公共字串算法，假设两个字符串长度分别为n和m，最长公共字串长度为c，则相似度为c/MIN(n，m)，即c除以n和m中较小的值。比如"我叫张三"与"我叫李四"两段文本，其最长公共字串为"我叫"，相似度为2/MIN(4,4) = 2/4 = 0. 5。
[0009]方案2、最少编辑距离算法，指将一个字符串转化为另一个字符串所需的最小编辑 (增删改操作）次数。比如上例中的需要将"张"改为"李"，"三"改为"四"，共2次编辑。假设两个字符串长度分别为n和m，最少编辑距离为d，则相似度为l-d/MIN(n，m)。
[0010] 在计算得到文本相似度之后，可以再将相似度与阈值（例如以0. 8为阈值）相比，超过阈值则为认为文本相似。
[0011] 现有技术中的各种文本相似度计算方法都存在一些问题：
[0012] 方案1和方案2都很容易绕过，通过简单的词汇、语句或段落换位就会导致相似度大大较低，其准确度较低。比如下面两段实质内容相同的文本内容："他现在的名字是张三" 与"现在张三是他的名字"，采用方案1 :最长公共字串是"的名字"，相似度只有3/9 = 0. 33 ; 采用方案2 :最小编辑距离为9,相似度为1-9/9 = 0 ;采用现有技术的方法来计算其文本相似度很低，可能被认为不相似。
[0013] 综上，现有技术中的文本相似度计算方法，存在准确度不高的问题，也不利于从文本库中查找到待测文本的相似文本。

【发明内容】

[0014] 本发明实施例所要解决的技术问题是提供一种文本相似度的计算方法及系统、相似文本的查找方法及系统，用于提高文本相似度计算的准确度，利于从文本库中查找待测文本的相似文本。
[0015] 本发明实施例提供一种文本相似度的计算方法，包括：
[0016] 获取需要进行文本相似度计算的第一文本和第二文本；
[0017] 将所述第一文本进行词汇分割获得第一词汇集合，将所述第二文本进行词汇分割获得第二词汇集合；
[0018] 将所述第一词汇集合中的停用词删除获得第三词汇集合，将所述第二词汇集合中的停用词删除获得第四词汇集合；
[0019] 从所述第三词汇集合中提取高频词汇组成第五词汇集合，从所述第四词汇集合中提出高频词汇组成第六词汇集合；所述高频词汇为词频逆向文档频率TFIDF值高于第一阈值的词汇；
[0020] 根据所述第五词汇集合以及第六词汇集合计算所述第一文本和所述第二文本的文本相似度。
[0021] 相应的，本发明实施例还提供一种相似文本的查找方法，包括：
[0022] 获取高频词汇与文本编号的数据结构，所述数据结构包括文本库中各个高频词汇与包括所述各个高频词汇的相应文本的编号的信息；
[0023] 对第三文本进行词汇分割，获得第七词汇集合；
[0024] 将所述第七词汇集合中的停用词删除，获得第八词汇集合；
[0025] 将所述第八词汇集合中的高频词汇提取出来组成第九词汇集合；所述高频词汇为词频逆向文档频率TFIDF值高于第二阈值的词汇；
[0026] 利用所述数据结构和所述第九词汇集合查找所述第三文本的相似文本。
[0027] 相应的，本发明实施例还提供一种文本相似度的计算系统，包括：
[0028] 第一获取单元，用于获取需要进行文本相似度计算的第一文本和第二文本；
[0029] 第一分割单元，用于将所述第一文本进行词汇分割获得第一词汇集合，将所述第二文本进行词汇分割获得第二词汇集合；
[0030] 第一删除单元，用于将所述第一词汇集合中的停用词删除获得第三词汇集合，将所述第二词汇集合中的停用词删除获得第四词汇集合；
[0031] 第一提取单元，用于将所述第三词汇集合中的高频词汇提取出来组成第五词汇集合，将所述第四词汇集合中的高频词汇提取出来组成第六词汇集合；所述高频词汇为词频逆向文档频率TFIDF值高于第一阈值的词汇；
[0032] 计算单元，用于根据所述第五词汇集合以及第六词汇集合计算所述第一文本和所述第二文本的文本相似度。
[0033] 相应的，本发明实施例还提供一种相似文本的查找系统，包括：
[0034] 第二获取单元，用于高频词汇与文本编号的数据结构，所述数据结构包括文本库中各个高频词汇与包括所述各个高频词汇的相应文本的编号的信息；
[0035] 第二分割单元，用于对第三文本进行词汇分割，获得第七词汇集合；
[0036] 第二删除单元，用于将所述第七词汇集合中的停用词删除，获得第八词汇集合；
[0037] 第二提取单元，用于将所述第八词汇集合中的高频词汇提取出来组成第九词汇集合；所述高频词汇为词频逆向文档频率TFIDF值高于第二阈值的词汇；
[0038] 查找单元，用于利用所述数据结构和所述第九词汇集合查找所述第三文本的相似文本。
[0039] 上述的文本相似度的计算方法及系统、相似文本的查找方法及系统，通过对文本进行词汇分割、停用词删除、高频词汇提取，利用文本的高频词汇进行相似度计算或相似文本的查找，可以提高文本相似度计算的准确率，提高相似文本查找的效率。
【附图说明】
[0040] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0041] 图1是本发明实施例一提供的文本相似度的计算方法的流程示意图；
[0042] 图2是本发明实施例二提供的相似文本的查找方法的流程第一示意图；
[0043] 图3是本发明实施例二提供的相似文本的查找方法的流程第二示意图；
[0044] 图4是本发明实施例二提供的相似文本的查找方法的流程第三示意图；
[0045] 图5是本发明实施例二提供的相似文本的查找方法的流程第四示意图；
[0046] 图6是本发明实施例三提供的文本相似度的计算系统的结构示意图；
[0047] 图7是本发明实施例四提供的相似文本的查找系统的结构示意图。
【具体实施方式】
[0048] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0049] 本发明的说明书和权利要求书及上述附图中的术语"第一"、"第二"、"第三…第四" 等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语"包括"和"具有"以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0050] 实

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘健;
技术所有人：腾讯科技（深圳）有限公司;
我是此专利的发明人

上一篇：自然语言中的自动问句检测的制作方法
上一篇：一种移动终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。