文本相似度判断方法、装置及存储介质与流程

文档序号:30790738发布日期:2022-07-16 09:57阅读:128来源:国知局
文本相似度判断方法、装置及存储介质与流程

1.本技术涉及数据处理技术领域,尤其涉及一种文本相似度判断方法、装置及存储介质。


背景技术:

2.随着互联网的快速发展以及大数据时代的到来,各种文本数据量指数增长,也存在着各种不同形式的借鉴,对相似内容的识别,相似性判断的准确性提出了更高的要求。
3.相关技术中,文本相似度判断是指对两个文本之间相似度的度量,其在多个领域有着广泛的应用。如在信息检索中,可以用相似度来识别相似的词语,提高召回率。现有文本相似度判断通常利用文本中各段落中的语句来分析相似度。
4.但是,现有文本相似度判断的适应性较差,如文本段落位置变动,语句句式变换等,文本相似度判断准确率较低。


技术实现要素:

5.本技术提供一种文本相似度判断方法、装置及存储介质,以解决现有文本相似度判断的适应性较差,文本相似度判断准确率较低的问题。
6.第一方面,本技术实施例提供一种文本相似度判断方法,包括:
7.确定进行文本相似度判断的第一文本和第二文本,并提取所述第一文本的各个段落的段落特征,以及所述第二文本的各个段落的段落特征;
8.基于所述第一文本的段落i的段落特征和所述第二文本的段落j的段落特征,确定所述段落i与所述段落j的第一相似度,其中,所述段落i为所述第一文本中的任意一个段落,i=1,2,

,m,m为整数,m根据所述第一文本中的段落总数确定,所述段落j为所述第二文本中的任意一个段落,j=1,2,

,n,n为整数,n根据所述第二文本中的段落总数确定;
9.若所述第一相似度大于第一预设阈值,则分别提取所述段落i和所述段落j的关键词;
10.基于所述段落i和所述段落j的关键词,确定所述段落i与所述段落j的第二相似度;
11.根据所述第一相似度和所述第二相似度,确定所述第一文本与所述第二文本的文本相似度。
12.在一种可能的实现方式中,所述基于所述第一文本的段落i的段落特征和所述第二文本的段落j的段落特征,确定所述段落i与所述段落j的第一相似度,包括:
13.分别对所述段落i的段落特征和所述段落j的段落特征进行分词处理,获得第一集群和第二集群;
14.计算所述第一集群和所述第二集群的交并比,并基于所述交并比,确定所述段落i与所述段落j的第一相似度。
15.在一种可能的实现方式中,在所述计算所述第一集群和所述第二集群的交并比之
前,还包括:
16.根据所述第一集群和所述第二集群,确定所述段落i与所述段落j的非交集词汇;
17.所述计算所述第一集群和所述第二集群的交并比,包括:
18.若所述段落i与所述段落j的非交集词汇中否定词的个数为偶数,则计算所述第一集群和所述第二集群的交并比。
19.在一种可能的实现方式中,在所述提取所述第一文本的各个段落的段落特征,以及所述第二文本的各个段落的段落特征之前,还包括:
20.分别提取所述第一文本的文本特征和所述第二文本的文本特征;
21.基于所述第一文本的文本特征和所述第二文本的文本特征,确定所述第一文本与所述第二文本的第三相似度;
22.所述提取所述第一文本的各个段落的段落特征,以及所述第二文本的各个段落的段落特征,包括:
23.若所述第三相似度大于第二预设阈值,则提取所述第一文本的各个段落的段落特征,以及所述第二文本的各个段落的段落特征。
24.在一种可能的实现方式中,所述根据所述第一相似度和所述第二相似度,确定所述第一文本与所述第二文本的文本相似度,包括:
25.根据所述第一相似度、所述第二相似度和所述第三相似度,确定所述第一文本与所述第二文本的文本相似度。
26.在一种可能的实现方式中,所述根据所述第一相似度、所述第二相似度和所述第三相似度,确定所述第一文本与所述第二文本的文本相似度,包括:
27.根据所述第一文本和所述第二文本,分别确定所述第一相似度对应的第一系数,所述第二相似度对应的第二系数,以及所述第三相似度对应的第三系数;
28.基于所述第一相似度、所述第一系数、所述第二相似度、所述第二系数、所述第三相似度和所述第三系数,获得所述第一文本与所述第二文本的段落相似度;
29.根据所述第一文本与所述第二文本的段落相似度,确定所述第一文本与所述第二文本的文本相似度。
30.在一种可能的实现方式中,所述根据所述第一文本与所述第二文本的段落相似度,确定所述第一文本与所述第二文本的文本相似度,包括:
31.根据所述第一文本的各个段落和所述第二文本的各个段落,确定所述段落相似度对应的段落权重;
32.基于所述段落相似度,以及所述段落相似度对应的段落权重,确定所述第一文本与所述第二文本的文本相似度。
33.在一种可能的实现方式中,在所述提取所述第一文本的各个段落的段落特征,以及所述第二文本的各个段落的段落特征之前,还包括:
34.判断所述第一文本的类型是否为预设文本类型,且判断所述第二文本的类型是否为所述预设文本类型;
35.所述提取所述第一文本的各个段落的段落特征,以及所述第二文本的各个段落的段落特征,包括:
36.若所述第一文本的类型为所述预设文本类型,且所述第二文本的类型为所述预设
文本类型,则提取所述第一文本的各个段落的段落特征,以及所述第二文本的各个段落的段落特征。
37.第二方面,本技术实施例提供一种文本相似度判断装置,包括:
38.第一特征提取模块,用于确定进行文本相似度判断的第一文本和第二文本,并提取所述第一文本的各个段落的段落特征,以及所述第二文本的各个段落的段落特征;
39.第一相似度确定模块,用于基于所述第一文本的段落i的段落特征和所述第二文本的段落j的段落特征,确定所述段落i与所述段落j的第一相似度,其中,所述段落i为所述第一文本中的任意一个段落,i=1,2,

,m,m为整数,m根据所述第一文本中的段落总数确定,所述段落j为所述第二文本中的任意一个段落,j=1,2,

,n,n为整数,n根据所述第二文本中的段落总数确定;
40.第二特征提取模块,用于若所述第一相似度大于第一预设阈值,则分别提取所述段落i和所述段落j的关键词;
41.第二相似度确定模块,用于基于所述段落i和所述段落j的关键词,确定所述段落i与所述段落j的第二相似度;
42.文本相似度判断模块,用于根据所述第一相似度和所述第二相似度,确定所述第一文本与所述第二文本的文本相似度。
43.在一种可能的实现方式中,所述第一相似度确定模块,具体用于:
44.分别对所述段落i的段落特征和所述段落j的段落特征进行分词处理,获得第一集群和第二集群;
45.计算所述第一集群和所述第二集群的交并比,并基于所述交并比,确定所述段落i与所述段落j的第一相似度。
46.在一种可能的实现方式中,所述第一相似度确定模块,具体用于:
47.根据所述第一集群和所述第二集群,确定所述段落i与所述段落j的非交集词汇;
48.若所述段落i与所述段落j的非交集词汇中否定词的个数为偶数,则计算所述第一集群和所述第二集群的交并比。
49.在一种可能的实现方式中,所述第一特征提取模块,具体用于:
50.分别提取所述第一文本的文本特征和所述第二文本的文本特征;
51.基于所述第一文本的文本特征和所述第二文本的文本特征,确定所述第一文本与所述第二文本的第三相似度;
52.若所述第三相似度大于第二预设阈值,则提取所述第一文本的各个段落的段落特征,以及所述第二文本的各个段落的段落特征。
53.在一种可能的实现方式中,所述文本相似度判断模块,具体用于:
54.根据所述第一相似度、所述第二相似度和所述第三相似度,确定所述第一文本与所述第二文本的文本相似度。
55.在一种可能的实现方式中,所述文本相似度判断模块,具体用于:
56.根据所述第一文本和所述第二文本,分别确定所述第一相似度对应的第一系数,所述第二相似度对应的第二系数,以及所述第三相似度对应的第三系数;
57.基于所述第一相似度、所述第一系数、所述第二相似度、所述第二系数、所述第三相似度和所述第三系数,获得所述第一文本与所述第二文本的段落相似度;
58.根据所述第一文本与所述第二文本的段落相似度,确定所述第一文本与所述第二文本的文本相似度。
59.在一种可能的实现方式中,所述文本相似度判断模块,具体用于:
60.根据所述第一文本的各个段落和所述第二文本的各个段落,确定所述段落相似度对应的段落权重;
61.基于所述段落相似度,以及所述段落相似度对应的段落权重,确定所述第一文本与所述第二文本的文本相似度。
62.在一种可能的实现方式中,所述第一特征提取模块,具体用于:
63.判断所述第一文本的类型是否为预设文本类型,且判断所述第二文本的类型是否为所述预设文本类型;
64.若所述第一文本的类型为所述预设文本类型,且所述第二文本的类型为所述预设文本类型,则提取所述第一文本的各个段落的段落特征,以及所述第二文本的各个段落的段落特征。
65.第三方面,本技术实施例提供一种文本相似度判断设备,包括:
66.处理器;
67.存储器;以及
68.计算机程序;
69.其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如第一方面所述的方法的指令。
70.第四方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得服务器执行第一方面所述的方法。
71.第五方面,本技术实施例提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行第一方面所述的方法。
72.本技术实施例提供的文本相似度判断方法、装置及存储介质,该方法通过提取进行文本相似度判断的两个文本各个段落的段落特征,进而,基于该段落特征,确定两个文本各段落之间的第一相似度,如果段落之间的第一相似度大于阈值,则进一步提取各段落的关键字,基于该关键字,确定各段落的第二相似度,从而,根据第一相似度和第二相似度,确定两个文本的文本相似度,解决现有文本相似度判断适应性较差的问题,如在文本段落位置调换、语句句式变换时,提高文本相似度判断准确率。
附图说明
73.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
74.图1为本技术实施例提供的文本相似度判断系统架构示意图;
75.图2为本技术实施例提供的一种文本相似度判断方法的流程示意图;
76.图3为本技术实施例提供的另一种文本相似度判断方法的流程示意图;
77.图4为本技术实施例提供的再一种文本相似度判断方法的流程示意图;
78.图5为本技术实施例提供的一种文本相似度判断装置的结构示意图;
79.图6为本技术实施例提供的一种文本相似度判断设备的基本硬件架构示意图。
具体实施方式
80.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
81.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
82.另外,本技术的技术方案中,所涉及的金融数据或用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
83.相关技术中,文本相似度判断是指对两个文本之间相似度的度量,其在多个领域有着广泛的应用。如在信息检索中,可以用相似度来识别相似的词语,提高召回率;自动问答场景中,相似度在可以用于计算用户以自然语言的提问问句与语料库中问题的匹配程度,将匹配度最高的问题对应的答案最为响应返回等。现有文本相似度判断通常利用文本中各段落中的语句来分析相似度。但是,现有文本相似度判断的适应性较差,如文本段落位置变动,语句句式变换等,文本相似度判断准确率较低。
84.为了解决上述问题,本技术实施例提出一种文本相似度判断方法,通过提取两个文本各个段落的段落特征,确定两个文本各段落之间的第一相似度,并基于各段落之间的第一相似度,进一步提取各段落的关键字,基于该关键字,确定各段落的第二相似度,从而,根据第一相似度和第二相似度,确定两个文本的文本相似度,解决了现有文本相似度判断适应性较差的问题,提高文本相似度判断准确率。
85.可选地,本技术提供的一种文本相似度判断方法,可以适用于图1所示的文本相似度判断系统架构示意图,如图1所示,该系统可以包括接收装置101、处理装置102和显示装置103。
86.在具体实现过程中,接收装置101可以是输入/输出接口,也可以是通信接口,可以用于接收进行文本相似度判断的文本等。
87.处理装置102可以通过上述接收装置101获取进行文本相似度判断的文本,进而,提取文本各个段落的段落特征,基于该段落特征,确定文本各段落之间的第一相似度,并基于各段落之间的第一相似度,提取各段落的关键字,基于该关键字,确定各段落的第二相似度,从而,根据第一相似度和第二相似度,确定文本之间的文本相似度,提高文本相似度判断准确率。
88.显示装置103可以用于对上述第一相似度、第二相似度和文本相似度等进行显示。
89.显示装置还可以是触摸显示屏,用于在显示的上述内容的同时接收用户指令,以实现与用户的交互。
90.应理解,上述处理装置可以通过处理器读取存储器中的指令并执行指令的方式实现,也可以通过芯片电路实现。
91.上述系统仅为一种示例性系统,具体实施时,可以根据应用需求设置。
92.可以理解的是,本技术实施例示意的结构并不构成对文本相似度判断系统架构的具体限定。在本技术另一些可行的实施方式中,上述架构可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,具体可根据实际应用场景确定,在此不做限制。图1所示的部件可以以硬件,软件,或软件与硬件的组合实现。
93.另外,本技术实施例描述的系统架构是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
94.下面以几个实施例为例对本技术的技术方案进行描述,对于相同或相似的概念或过程可能在某些实施例不再赘述。
95.图2为本技术实施例提供的一种文本相似度判断方法的流程示意图,本实施例的执行主体可以为图1中的处理装置,具体执行主体可以根据实际应用场景确定,本技术实施例对此不做特别限制。如图2所示,本技术实施例提供的文本相似度判断方法可以包括如下步骤:
96.s201:确定进行文本相似度判断的第一文本和第二文本,并提取第一文本的各个段落的段落特征,以及第二文本的各个段落的段落特征。
97.这里,上述处理装置在确定进行文本相似度判断的第一文本和第二文本后,可以先判断第一文本的类型是否为预设文本类型,且判断第二文本的类型是否为上述预设文本类型,如果第一文本的类型为上述预设文本类型,且第二文本的类型为上述预设文本类型,则提取第一文本的各个段落的段落特征,以及第二文本的各个段落的段落特征。
98.其中,上述预设文本类型可以根据实际情况确定,例如txt这类文件。在本技术实施例中,上述处理装置首先判断进行文本相似度判断的文本的类型,如果是预设文本类型,则直接执行后续步骤,如果不是预设文本类型,则将其转换为预设文本类型后再执行后续步骤,以方便后续文本处理。
99.可选地,上述处理装置在提取第一文本的各个段落的段落特征,以及第二文本的各个段落的段落特征时,可以利用预先训练好的段落特征提取模型进行提取。这里,上述段落特征提取模型用于提取文本的各个段落的段落特征。该段落特征可以理解为段落摘要,段落主要内容等。
100.s202:基于第一文本的段落i的段落特征和第二文本的段落j的段落特征,确定段落i与段落j的第一相似度,其中,段落i为第一文本中的任意一个段落,i=1,2,

,m,m为整数,m根据第一文本中的段落总数确定,段落j为第二文本中的任意一个段落,j=1,2,

,n,n为整数,n根据第二文本中的段落总数确定。
101.示例性的,上述处理装置可以分别对段落i的段落特征和段落j的段落特征进行分词处理,获得第一集群和第二集群,进而,计算第一集群和第二集群的交并比,并基于该交
并比,确定段落i与段落j的第一相似度。
102.例如上述第一集群和第二集群分别记为e1,e2,上述处理装置在计算第一集群和第二集群的交并比时,可以计算e1和e2的交集,记为e

,并计算e1和e2的并集,记为e

,然后计算两个集群的交并比sim=e

/e


103.假设e1={a1,a2,a3,......}和e2={b1,b2,b3,......},e1中词汇总数为counta,e2中词汇总数为countb,计算e1和e2的交集,即两个集中同时存在某个词汇,则该词汇被添加到交集中,记为e

,同时交集中词汇个数增加1,并集是指e1和e2两个集合中去重后剩余的词汇数,记为e

,交并比计算的是交集中的词汇个数和并集中词汇个数的比值。
104.例如e1={“朋友”,“小明”,“小红”,“成为”},
105.e2={“朋友”、“小明”,“小花”,“是”},则
106.e

={“小明”,“小红”,“小花”,“成为”,“是”,“朋友”},并集中词汇个数为6,e

={“朋友”,“小明”},交集中的词汇个数为2,两个集群的交并比2/6=1/3。
107.在计算得到上述交并比后,上述处理装置可以将上述交并比作为段落i与段落j的第一相似度。
108.其中,在计算上述第一集群和第二集群的交并比之前,上述处理装置还考虑先根据上述第一集群和第二集群,确定段落i与段落j的非交集词汇,如果段落i和段落j的非交集词汇中否定词汇的个数为偶数,则计算上述第一集群和第二集群的交并比。
109.这里,上述处理装置考虑集群之间非交集词汇中出现否定词的情况,如果段落i与段落j的非交集词汇中总的否定词汇的个数为偶数,说明段落i与段落j相似的可能性很高,然后,再进一步计算上述第一集群和第二集群的交并比,基于该交并比,确定段落i与段落j的第一相似度,从而,根据该第一相似度进行后续文本相似度判断。
110.s203:若上述第一相似度大于第一预设阈值,则分别提取段落i和段落j的关键词。
111.这里,如果上述第一相似度大于第一预设阈值,说明段落i和段落j相似的可能性很大,为了进一步提高后续文本相似度判断的准确率,上述处理装置在上述第一相似度大于第一预设阈值时,进一步提取段落i和段落j的关键词。其中,上述第一预设阈值可以根据实际情况确定,例如1/2。
112.可选地,上述处理装置在提取段落i和段落j的关键词时,可以利用预先训练好的关键词提取模型进行提取。这里,上述关键词提取模型用于提取文本的各个段落的关键词。该关键词可以根据实际情况确定,例如与段落内容关联度较大的词。
113.s204:基于段落i和段落j的关键词,确定段落i与段落j的第二相似度。
114.示例性的,上述处理装置可以分别对段落i的关键词和段落j的关键词进行分词处理,获得第三集群和第四集群,进而,计算第三集群和第四集群的交并比,并基于该交并比,确定段落i与段落j的第二相似度。例如上述处理装置将上述交并比作为段落i与段落j的第二相似度。
115.其中,在计算上述第三集群和第四集群的交并比之前,上述处理装置还可以根据第三集群和第四集群,确定段落i与段落j的关键字非交集词汇,如果段落i和段落j的非交集词汇中否定词汇的个数为偶数,则计算第三集群和第四集群的交并比。
116.这里,上述处理装置考虑集群之间非交集词汇中出现否定词的情况,如果段落i与段落j的非交集词汇中总的否定词汇的个数为偶数,说明段落i与段落j相似的可能性很高,
这里,再进一步计算上述第三集群和第四集群的交并比,基于该交并比,确定段落i与段落j的第二相似度,从而,根据该第二相似度进行后续文本相似度判断。
117.s205:根据上述第一相似度和第二相似度,确定第一文本与第二文本的文本相似度。
118.在本技术实施例中,上述处理装置可以根据上述第一文本和第二文本,分别确定上述第一相似度对应的第一系数,上述第二相似度对应的第二系数,进而,基于上述第一相似度、第一系数、第二相似度和第二系数,获得上述第一文本与第二文本的段落相似度,从而,根据该段落相似度,确定上述第一文本与第二文本的文本相似度。例如,上述处理装置将上述第一相似度、第一系数、第二相似度和第二系数相乘,基于相乘结果获得上述第一文本与第二文本的段落相似度。
119.其中,上述处理装置可以根据上述第一文本的各个段落和第二文本的各个段落,确定上述段落相似度对应的段落权重,然后,基于上述段落相似度,以及上述段落权重,确定上述第一文本与第二文本的文本相似度。例如上述处理装置将上述段落相似度与上述段落权重相乘,基于相乘结果,确定上述第一文本与第二文本的文本相似度。
120.本技术实施例通过提取进行文本相似度判断的两个文本各个段落的段落特征,进而,基于该段落特征,确定两个文本各段落之间的第一相似度,如果段落之间的第一相似度大于阈值,则进一步提取各段落的关键字,基于该关键字,确定各段落的第二相似度,从而,根据第一相似度和第二相似度,确定两个文本的文本相似度,解决现有文本相似度判断适应性较差的问题,如在文本段落位置调换、语句句式变换时,提高文本相似度判断准确率。
121.另外,上述处理装置在提取上述第一文本的各个段落的段落特征,以及第二文本的各个段落的段落特征之前,还考虑先分别提取上述第一文本的文本特征和第二文本的文本特征,基于该文本特征,确定上述第一文本与第二文本的第三相似度,并在该第三相似度大于第二预设阈值时,再执行上述提取第一文本的各个段落的段落特征,以及第二文本的各个段落的段落特征的步骤,进一步提高后续文本相似度判断的准确率。而且,在后续确定上述第一文本与第二文本的文本相似度,上述处理装置除考虑上述第一相似度和第二相似度,还可以考虑第三相似度,即根据第一相似度、第二相似度和第三相似度,确定第一文本与所述第二文本的文本相似度,也提高了文本相似度判断的准确率。图3为本技术实施例提供了另一种文本相似度判断方法的流程示意图,如图3所示,该方法可以包括:
122.s301:确定进行文本相似度判断的第一文本和第二文本,分别提取第一文本的文本特征和第二文本的文本特征。
123.这里,上述处理装置可以利用预先训练好的文本特征提取模型,提取第一文本的文本特征和第二文本的文本特征。其中,上述文本特征提取模型用于提取文本的段落特征。该文本特征可以理解为文本摘要,文本主要内容等
124.s302:基于第一文本的文本特征和第二文本的文本特征,确定第一文本与第二文本的第三相似度。
125.示例性的,上述处理装置可以分别对第一文本的文本特征和第二文本的文本特征进行分词处理,获得第五集群和第六集群,进而,计算第五集群和第六集群的交并比,并基于该交并比,确定第一文本与第二文本的第三相似度。
126.其中,在计算上述第五集群和第六集群的交并比之前,上述处理装置还考虑先根
据上述第五集群和第六集群,确定第一文本与第二文本的全文非交集词汇,如果第一文本与第二文本的全文非交集词汇中否定词汇的个数为偶数,再计算上述第五集群和第六集群的交并比。
127.这里,上述处理装置考虑集群之间非交集词汇中出现否定词的情况,如果第一文本与第二文本的非交集词汇中总的否定词汇的个数为偶数,说明第一文本与第二文本相似的可能性很高,这里,再进一步计算上述第五集群和第六集群的交并比,基于该交并比,确定第一文本与第二文本的第三相似度,从而,根据该第三相似度进行后续文本相似度判断。
128.s303:若上述第三相似度大于第二预设阈值,则提取第一文本的各个段落的段落特征,以及第二文本的各个段落的段落特征。
129.这里,如果上述第三相似度大于第二预设阈值,说明第一文本和第二文本相似的可能性很大,为了进一步提高后续文本相似度判断的准确率,上述处理装置在上述第三相似度大于第二预设阈值时,进一步提取第一文本的各个段落的段落特征,以及第二文本的各个段落的段落特征。
130.s304:基于第一文本的段落i的段落特征和第二文本的段落j的段落特征,确定段落i与段落j的第一相似度,其中,段落i为第一文本中的任意一个段落,i=1,2,

,m,m为整数,m根据第一文本中的段落总数确定,段落j为第二文本中的任意一个段落,j=1,2,

,n,n为整数,n根据第二文本中的段落总数确定。
131.s305:若上述第一相似度大于第一预设阈值,则分别提取段落i和段落j的关键词。
132.s306:基于段落i和段落j的关键词,确定段落i与段落j的第二相似度。
133.其中,步骤s304-s306与上述步骤s202-s204的实现方式相同,此处不再赘述。
134.s307:根据上述第一相似度、第二相似度和第三相似度,确定第一文本与第二文本的文本相似度。
135.示例性的,上述处理装置可以根据上述第一文本和第二文本,分别确定第一相似度对应的第一系数,第二相似度对应的第二系数,以及第三相似度对应的第三系数,进而,基于上述第一相似度、第一系数、第二相似度、第二系数、第三相似度和第三系数,获得第一文本与第二文本的段落相似度,并根据该段落相似度,确定第一文本与第二文本的文本相似度。例如,上述处理装置将上述第一相似度、第一系数、第二相似度、第二系数、第三相似度和第三系数相乘,基于相乘结果获得上述第一文本与第二文本的段落相似度。
136.这里,上述第一系数可以根据上述段落对应的非交集词汇中否定词汇的个数确定,上述第二系数可以根据上述段落对应的关键字非交集词汇中否定词汇的个数确定,上述第三系数可以根据上述全文非交集词汇中否定词汇的个数确定。
137.例如上述第一文本与第二文本的段落相似度可以根据表达式:
138.s
段落
=s
第三相似度
*(2-2
全文非交集否定词%2
)*s
第一相似度
*(2-2
段落非交集否定词%2
)
139.*s
第二相似度
*(2-2
段落关键词非交集否定词%2
)
140.确定,其中,s
段落
表示上述段落相似度,s
第一相似度
表示上述第一相似度,2-2
段落非交集否定词%2
表示上述第一系数,s
第二相似度
表示上述第二相似度,2-2
段落关键词非交集否定词%2
表示上述第二系数,s
第三相似度
表示上述第三相似度,2-2
全文非交集否定词%2
表示上述第三系数。
141.可选地,上述处理装置可以根据上述第一文本的各个段落和第二文本的各个段落,确定上述段落相似度对应的段落权重,从而,基于上述段落相似度,以及上述段落权重,
确定第一文本与第二文本的文本相似度。例如上述处理装置将上述段落相似度与上述段落权重相乘,基于相乘结果,确定上述第一文本与第二文本的文本相似度。
142.本技术实施例在提取上述第一文本的各个段落的段落特征,以及第二文本的各个段落的段落特征之前,还考虑先分别提取上述第一文本的文本特征和第二文本的文本特征,基于该文本特征,确定上述第一文本与第二文本的第三相似度,并在该第三相似度大于第二预设阈值时,再执行上述提取第一文本的各个段落的段落特征,以及第二文本的各个段落的段落特征的步骤,进一步提高后续文本相似度判断的准确率。而且,在后续确定上述第一文本与第二文本的文本相似度,本技术实施例除考虑上述第一相似度和第二相似度,还可以考虑第三相似度,即根据第一相似度、第二相似度和第三相似度,确定第一文本与所述第二文本的文本相似度,也提高了文本相似度判断的准确率,解决现有文本相似度判断适应性较差的问题。
143.这里,如图4所示,图4给出再一种文本相似度判断示意图,其中与图2和图3实施例相同或相似的内容请参照上述,在此不再赘述。如图4所示,上述处理装置在确定进行文本相似度判断的第一文本和第二文本后,首先判断第一文本的类型是否为预设文本类型,且判断第二文本的类型是否为所述预设文本类型,如果第一文本的类型为上述预设文本类型,且第二文本的类型为上述预设文本类型,则直接执行后续步骤,否则进行文本预处理,将不符合要求的文本的类型转换为上述预设文本类型。然后,上述处理装置可以分别提取第一文本的文本特征和第二文本的文本特征,基于第一文本的文本特征和第二文本的文本特征,确定第一文本与第二文本的第三相似度,如果第三相似度大于第二预设阈值,则进一步提取第一文本的各个段落的段落特征,以及第二文本的各个段落的段落特征。进而,上述处理装置基于第一文本的段落i的段落特征和第二文本的段落j的段落特征,确定段落i与段落j的第一相似度,其中,段落i为第一文本中的任意一个段落,i=1,2,

,m,m为整数,m根据第一文本中的段落总数确定,段落j为第二文本中的任意一个段落,j=1,2,

,n,n为整数,n根据第二文本中的段落总数确定。如果第一相似度大于第一预设阈值,则上述处理装置可以进一步分别提取段落i和段落j的关键词,基于段落i和段落j的关键词,确定段落i与段落j的第二相似度,根据上述第一相似度、第二相似度和第三相似度,确定第一文本与第二文本的文本相似度。
144.其中,以确定上述第一相似度为例,上述处理装置在确定段落i与段落j的第一相似度时,可以分别对段落i的段落特征和段落j的段落特征进行分词处理,获得第一集群和第二集群,进而,计算第一集群和第二集群的交并比,并基于该交并比,确定段落i与段落j的第一相似度。
145.这里,上述处理装置在计算上述第一集群和第二集群的交并比之前,还可以根据上述第一集群和第二集群,确定段落i与段落j的非交集词汇,如果段落i与段落j的非交集词汇中否定词汇的个数为偶数,则计算第一集群和第二集群的交并比。
146.综上所述,本技术实施例相对现有技术来说,通过提取上述第一文本的文本特征和第二文本的文本特征,基于该文本特征,确定上述第一文本与第二文本的第三相似度,基于该第三相似度,进一步提取两个文本各个段落的段落特征,确定两个文本各段落之间的第一相似度,并基于各段落之间的第一相似度,提取各段落的关键字,基于该关键字,确定各段落的第二相似度,从而,根据第一相似度、第二相似度和第三相似度,确定两个文本的
文本相似度,解决了现有文本相似度判断适应性较差的问题,如在文本段落位置调换、语句句式变换、非交集词汇中出现否定词等时,提高文本相似度判断准确率。
147.对应于上文实施例的文本相似度判断方法,图5为本技术实施例提供的文本相似度判断装置的结构示意图。为了便于说明,仅示出了与本技术实施例相关的部分。图5为本技术实施例提供的一种文本相似度判断装置的结构示意图,该文本相似度判断装置50包括:第一特征提取模块501、第一相似度确定模块502、第二特征提取模块503、第二相似度确定模块504以及文本相似度判断模块505。这里的文本相似度判断装置可以是上述处理装置本身,或者是实现处理装置的功能的芯片或者集成电路。这里需要说明的是,第一特征提取模块、第一相似度确定模块、第二特征提取模块、第二相似度确定模块以及文本相似度判断模块的划分只是一种逻辑功能的划分,物理上两者可以是集成的,也可以是独立的。
148.其中,第一特征提取模块501,用于确定进行文本相似度判断的第一文本和第二文本,并提取所述第一文本的各个段落的段落特征,以及所述第二文本的各个段落的段落特征。
149.第一相似度确定模块502,用于基于所述第一文本的段落i的段落特征和所述第二文本的段落j的段落特征,确定所述段落i与所述段落j的第一相似度,其中,所述段落i为所述第一文本中的任意一个段落,i=1,2,

,m,m为整数,m根据所述第一文本中的段落总数确定,所述段落j为所述第二文本中的任意一个段落,j=1,2,

,n,n为整数,n根据所述第二文本中的段落总数确定。
150.第二特征提取模块503,用于若所述第一相似度大于第一预设阈值,则分别提取所述段落i和所述段落j的关键词。
151.第二相似度确定模块504,用于基于所述段落i和所述段落j的关键词,确定所述段落i与所述段落j的第二相似度。
152.文本相似度判断模块505,用于根据所述第一相似度和所述第二相似度,确定所述第一文本与所述第二文本的文本相似度。
153.在一种可能的实现方式中,所述第一相似度确定模块502,具体用于:
154.分别对所述段落i的段落特征和所述段落j的段落特征进行分词处理,获得第一集群和第二集群;
155.计算所述第一集群和所述第二集群的交并比,并基于所述交并比,确定所述段落i与所述段落j的第一相似度。
156.在一种可能的实现方式中,所述第一相似度确定模块502,具体用于:
157.根据所述第一集群和所述第二集群,确定所述段落i与所述段落j的非交集词汇;
158.若所述段落i与所述段落j的非交集词汇中否定词的个数为偶数,则计算所述第一集群和所述第二集群的交并比。
159.在一种可能的实现方式中,所述第一特征提取模块501,具体用于:
160.分别提取所述第一文本的文本特征和所述第二文本的文本特征;
161.基于所述第一文本的文本特征和所述第二文本的文本特征,确定所述第一文本与所述第二文本的第三相似度;
162.若所述第三相似度大于第二预设阈值,则提取所述第一文本的各个段落的段落特征,以及所述第二文本的各个段落的段落特征。
163.在一种可能的实现方式中,所述文本相似度判断模块505,具体用于:
164.根据所述第一相似度、所述第二相似度和所述第三相似度,确定所述第一文本与所述第二文本的文本相似度。
165.在一种可能的实现方式中,所述文本相似度判断模块505,具体用于:
166.根据所述第一文本和所述第二文本,分别确定所述第一相似度对应的第一系数,所述第二相似度对应的第二系数,以及所述第三相似度对应的第三系数;
167.基于所述第一相似度、所述第一系数、所述第二相似度、所述第二系数、所述第三相似度和所述第三系数,获得所述第一文本与所述第二文本的段落相似度;
168.根据所述第一文本与所述第二文本的段落相似度,确定所述第一文本与所述第二文本的文本相似度。
169.在一种可能的实现方式中,所述文本相似度判断模块505,具体用于:
170.根据所述第一文本的各个段落和所述第二文本的各个段落,确定所述段落相似度对应的段落权重;
171.基于所述段落相似度,以及所述段落相似度对应的段落权重,确定所述第一文本与所述第二文本的文本相似度。
172.在一种可能的实现方式中,所述第一特征提取模块501,具体用于:
173.判断所述第一文本的类型是否为预设文本类型,且判断所述第二文本的类型是否为所述预设文本类型;
174.若所述第一文本的类型为所述预设文本类型,且所述第二文本的类型为所述预设文本类型,则提取所述第一文本的各个段落的段落特征,以及所述第二文本的各个段落的段落特征。
175.本技术实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本技术实施例此处不再赘述。
176.可选地,图6示意性地提供本技术所述文本相似度判断设备的一种可能的基本硬件架构示意图。
177.参见图6,文本相似度判断设备包括至少一个处理器601以及通信接口603。进一步可选的,还可以包括存储器602和总线604。
178.其中,文本相似度判断设备中,处理器601的数量可以是一个或多个,图6仅示意了其中一个处理器601。可选地,处理器601,可以是中央处理器(central processing unit,cpu)、图形处理器(graphics processing unit,gpu)或者数字信号处理器(digital signal processor,dsp)。如果文本相似度判断设备具有多个处理器601,多个处理器601的类型可以不同,或者可以相同。可选地,文本相似度判断设备的多个处理器601还可以集成为多核处理器。
179.存储器602存储计算机指令和数据;存储器602可以存储实现本技术提供的上述文本相似度判断方法所需的计算机指令和数据,例如,存储器602存储用于实现上述文本相似度判断方法的步骤的指令。存储器602可以是以下存储介质的任一种或任一种组合:非易失性存储器(例如只读存储器(read-only memory,rom)、固态硬盘(solid state disk,ssd)、硬盘(hard disk drive,hdd)、光盘),易失性存储器。
180.通信接口603可以为所述至少一个处理器提供信息输入/输出。也可以包括以下器
件的任一种或任一种组合:网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。
181.可选的,通信接口603还可以用于文本相似度判断设备与其它计算设备或者终端进行数据通信。
182.进一步可选的,图6用一条粗线表示总线604。总线604可以将处理器601与存储器602和通信接口603连接。这样,通过总线604,处理器601可以访问存储器602,还可以利用通信接口603与其它计算设备或者终端进行数据交互。
183.在本技术中,文本相似度判断设备执行存储器602中的计算机指令,使得文本相似度判断设备实现本技术提供的上述文本相似度判断方法,或者使得文本相似度判断设备部署上述的文本相似度判断装置。
184.从逻辑功能划分来看,示例性的,如图6所示,存储器602中可以包括第一特征提取模块501、第一相似度确定模块502、第二特征提取模块503、第二相似度确定模块504以及文本相似度判断模块505。这里的包括仅仅涉及存储器中所存储的指令被执行时可以分别实现第一特征提取模块、第一相似度确定模块、第二特征提取模块、第二相似度确定模块以及文本相似度判断模块的功能,而不限定是物理上的结构。
185.本技术提供一种计算机可读存储介质,所述计算机程序产品包括计算机指令,所述计算机指令指示计算设备执行本技术提供的上述文本相似度判断方法。
186.本技术提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行上述文本相似度判断方法。
187.本技术提供一种芯片,包括至少一个处理器和通信接口,所述通信接口为所述至少一个处理器提供信息输入和/或输出。进一步,所述芯片还可以包含至少一个存储器,所述存储器用于存储计算机指令。所述至少一个处理器用于调用并运行该计算机指令,以执行本技术提供的上述文本相似度判断方法。
188.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
189.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
190.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1