文本相似度的计算方法及系统、相似文本的查找方法及系统的制作方法

文档序号:9471354阅读:715来源:国知局
文本相似度的计算方法及系统、相似文本的查找方法及系统的制作方法
【技术领域】
[0001] 本发明涉及计算机技术领域,具体涉及一种文本相似度的计算方法及系统、相似 文本的查找方法及系统。
【背景技术】
[0002] 文本相似度计算和相似文本的查找在论文反抄袭、网站反假冒等领域有着广泛的 应用,例如:
[0003] 1、仿冒网站识别,以仿冒工商银行网站为例,如果发现某网站内容与工商银行官 网(http://www.icbc.com.cn)内容接近,可以认为此网站为仿冒网站。
[0004] 2、论文抄袭识别,通过将论文与论文库中的其它论文进行比较,判定是否存在抄 袭行为。
[0005] 3、商品推荐系统,比如用户在网站购买一本介绍计算机操作系统的书籍时,可以 自动推荐与该书内容相似的其他书籍。
[0006] 4、相似去重,搜索引擎中自动对相似网页进行去重,以提供给用户更多有用的信 肩、。
[0007] 现有技术中常见的文本相似度计算方法包括以下几种:
[0008] 方案1、最长公共字串算法,假设两个字符串长度分别为n和m,最长公共字串长度 为c,则相似度为c/MIN(n,m),即c除以n和m中较小的值。比如"我叫张三"与"我叫李 四"两段文本,其最长公共字串为"我叫",相似度为2/MIN(4,4) = 2/4 = 0. 5。
[0009]方案2、最少编辑距离算法,指将一个字符串转化为另一个字符串所需的最小编辑 (增删改操作)次数。比如上例中的需要将"张"改为"李","三"改为"四",共2次编辑。 假设两个字符串长度分别为n和m,最少编辑距离为d,则相似度为l-d/MIN(n,m)。
[0010] 在计算得到文本相似度之后,可以再将相似度与阈值(例如以0. 8为阈值)相比, 超过阈值则为认为文本相似。
[0011] 现有技术中的各种文本相似度计算方法都存在一些问题:
[0012] 方案1和方案2都很容易绕过,通过简单的词汇、语句或段落换位就会导致相似度 大大较低,其准确度较低。比如下面两段实质内容相同的文本内容:"他现在的名字是张三" 与"现在张三是他的名字",采用方案1 :最长公共字串是"的名字",相似度只有3/9 = 0. 33 ; 采用方案2 :最小编辑距离为9,相似度为1-9/9 = 0 ;采用现有技术的方法来计算其文本相 似度很低,可能被认为不相似。
[0013] 综上,现有技术中的文本相似度计算方法,存在准确度不高的问题,也不利于从文 本库中查找到待测文本的相似文本。

【发明内容】

[0014] 本发明实施例所要解决的技术问题是提供一种文本相似度的计算方法及系统、相 似文本的查找方法及系统,用于提高文本相似度计算的准确度,利于从文本库中查找待测 文本的相似文本。
[0015] 本发明实施例提供一种文本相似度的计算方法,包括:
[0016] 获取需要进行文本相似度计算的第一文本和第二文本;
[0017] 将所述第一文本进行词汇分割获得第一词汇集合,将所述第二文本进行词汇分割 获得第二词汇集合;
[0018] 将所述第一词汇集合中的停用词删除获得第三词汇集合,将所述第二词汇集合中 的停用词删除获得第四词汇集合;
[0019] 从所述第三词汇集合中提取高频词汇组成第五词汇集合,从所述第四词汇集合中 提出高频词汇组成第六词汇集合;所述高频词汇为词频逆向文档频率TFIDF值高于第一阈 值的词汇;
[0020] 根据所述第五词汇集合以及第六词汇集合计算所述第一文本和所述第二文本的 文本相似度。
[0021] 相应的,本发明实施例还提供一种相似文本的查找方法,包括:
[0022] 获取高频词汇与文本编号的数据结构,所述数据结构包括文本库中各个高频词汇 与包括所述各个高频词汇的相应文本的编号的信息;
[0023] 对第三文本进行词汇分割,获得第七词汇集合;
[0024] 将所述第七词汇集合中的停用词删除,获得第八词汇集合;
[0025] 将所述第八词汇集合中的高频词汇提取出来组成第九词汇集合;所述高频词汇为 词频逆向文档频率TFIDF值高于第二阈值的词汇;
[0026] 利用所述数据结构和所述第九词汇集合查找所述第三文本的相似文本。
[0027] 相应的,本发明实施例还提供一种文本相似度的计算系统,包括:
[0028] 第一获取单元,用于获取需要进行文本相似度计算的第一文本和第二文本;
[0029] 第一分割单元,用于将所述第一文本进行词汇分割获得第一词汇集合,将所述第 二文本进行词汇分割获得第二词汇集合;
[0030] 第一删除单元,用于将所述第一词汇集合中的停用词删除获得第三词汇集合,将 所述第二词汇集合中的停用词删除获得第四词汇集合;
[0031] 第一提取单元,用于将所述第三词汇集合中的高频词汇提取出来组成第五词汇集 合,将所述第四词汇集合中的高频词汇提取出来组成第六词汇集合;所述高频词汇为词频 逆向文档频率TFIDF值高于第一阈值的词汇;
[0032] 计算单元,用于根据所述第五词汇集合以及第六词汇集合计算所述第一文本和所 述第二文本的文本相似度。
[0033] 相应的,本发明实施例还提供一种相似文本的查找系统,包括:
[0034] 第二获取单元,用于高频词汇与文本编号的数据结构,所述数据结构包括文本库 中各个高频词汇与包括所述各个高频词汇的相应文本的编号的信息;
[0035] 第二分割单元,用于对第三文本进行词汇分割,获得第七词汇集合;
[0036] 第二删除单元,用于将所述第七词汇集合中的停用词删除,获得第八词汇集合;
[0037] 第二提取单元,用于将所述第八词汇集合中的高频词汇提取出来组成第九词汇集 合;所述高频词汇为词频逆向文档频率TFIDF值高于第二阈值的词汇;
[0038] 查找单元,用于利用所述数据结构和所述第九词汇集合查找所述第三文本的相似 文本。
[0039] 上述的文本相似度的计算方法及系统、相似文本的查找方法及系统,通过对文本 进行词汇分割、停用词删除、高频词汇提取,利用文本的高频词汇进行相似度计算或相似文 本的查找,可以提高文本相似度计算的准确率,提高相似文本查找的效率。
【附图说明】
[0040] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。
[0041] 图1是本发明实施例一提供的文本相似度的计算方法的流程示意图;
[0042] 图2是本发明实施例二提供的相似文本的查找方法的流程第一示意图;
[0043] 图3是本发明实施例二提供的相似文本的查找方法的流程第二示意图;
[0044] 图4是本发明实施例二提供的相似文本的查找方法的流程第三示意图;
[0045] 图5是本发明实施例二提供的相似文本的查找方法的流程第四示意图;
[0046] 图6是本发明实施例三提供的文本相似度的计算系统的结构示意图;
[0047] 图7是本发明实施例四提供的相似文本的查找系统的结构示意图。
【具体实施方式】
[0048] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0049] 本发明的说明书和权利要求书及上述附图中的术语"第一"、"第二"、"第三…第四" 等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理 解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除 了在这里图示或描述的那些以外的顺序实施。此外,术语"包括"和"具有"以及他们的任 何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、 产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于 这些过程、方法、产品或设备固有的其它步骤或单元。
[0050] 实
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1