文本匹配方法、装置、电子设备及计算机可读存储介质与流程

文档序号:23994184发布日期:2021-02-20 15:22阅读:58来源:国知局
文本匹配方法、装置、电子设备及计算机可读存储介质与流程

[0001]
本发明涉及人工智能领域,具体涉及一种文本匹配方法、装置、电子设备及计算机可读存储介质。


背景技术:

[0002]
自然语言处理(nlp)具有广泛的应用场景,比如用于网页检索、医疗案例检索、专利匹配以及论文匹配等等。
[0003]
传统的专利匹配、论文匹配等文本匹配大多采用基于规则模板或特征构建的方式,也有一些研究者致力于采用机器学习的方法来对专利、论文等进行匹配,不过现有机器学习方法只使用了局部的信息,或者仅是对文本表征学习进行改进,其使用的特征对于句子层面或许是足够的,而对于专利、论文这种基于文档层面的语料是很难捕获到充足的信息的,这将会导致专利、论文的匹配准确率低。


技术实现要素:

[0004]
因此,本发明要解决的技术问题在于克服现有技术中匹配准确率低的缺陷,从而提供一种文本匹配方法,包括如下步骤:
[0005]
获取第一文本和第二文本,所述第一文本和所述第二文本具有相同的文本结构,所述文本结构中包括用于写入不同规定内容类型的多个版块;
[0006]
提取与所述第一文本中多个版块一一对应的多个第一单视角匹配特征;提取与所述第二文本中多个版块一一对应的多个第二单视角匹配特征,其中,所述第一文本中多个版块与所述第二文本中多个版块一一对应;
[0007]
将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,得到多个拼接后的单视角匹配特征;
[0008]
融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征;
[0009]
利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率;
[0010]
通过所述多视角匹配概率确定所述第一文本与所述第二文本是否匹配。
[0011]
优选地,所述利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率,包括:
[0012]
将所述多视角匹配特征输入到预先训练得到的网络模型中,利用所述网络模型计算得到所述第一文本与所述第二文本的多视角匹配概率,其中,所述网络模型的目标函数是基于所述拼接后的单视角匹配特征的代价函数和基于所述多视角匹配特征的代价函数组成。
[0013]
优选地,还包括:
[0014]
将多个拼接后的单视角匹配特征输入到所述网络模型中,利用所述网络模型基于所述多个拼接后的单视角匹配特征计算得到所述第一文本与所述第二文本的单视角匹配
概率;
[0015]
利用所述单视角匹配概率对所述多视角匹配概率进行优化调整,得到优化后的多视角匹配概率。
[0016]
优选地,所述融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征,包括:
[0017]
采用多头注意力机制计算不同拼接后的单视角匹配特征的权重值,加权融合后得到所述多视角匹配特征。
[0018]
优选地,所述通过所述多视角匹配概率确定所述第一文本与所述第二文本是否匹配,包括:
[0019]
判断所述多视角匹配概率是否大于等于预设阈值;
[0020]
当所述多视角匹配概率大于等于所述预设阈值时,确定所述第一文本与所述第二文本匹配。
[0021]
优选地,所述将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,包括:
[0022]
将所述属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行标准化处理,形成具有标准格式的特征语句,其中,所述特征语句包括句头标签和句尾标签,所述句头标签位于所述特征语句的头部,所述句尾标签位于所述第一单视角匹配特征与第二单视角匹配特征之间,以及所述特征语句的末端。
[0023]
本发明要解决的另一个技术问题在于克服现有技术中匹配准确率低的缺陷,从而提供一种文本匹配装置,包括:
[0024]
获取模块,用于获取第一文本和第二文本,所述第一文本和所述第二文本具有相同的文本结构,所述文本结构中包括用于写入不同规定内容类型的多个版块;
[0025]
提取模块,用于提取与所述第一文本中多个版块一一对应的多个第一单视角匹配特征;提取与所述第二文本中多个版块一一对应的多个第二单视角匹配特征,其中,所述第一文本中多个版块与所述第二文本中多个版块一一对应;
[0026]
拼接模块,用于将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,得到多个拼接后的单视角匹配特征;
[0027]
融合模块,用于融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征;
[0028]
计算模块,用于利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率;
[0029]
判断模块,用于通过所述多视角匹配概率确定所述第一文本与所述第二文本是否匹配。
[0030]
优选地,所述融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征,包括:
[0031]
采用多头注意力机制计算不同拼接后的单视角匹配特征的权重值,加权融合后得到所述多视角匹配特征。
[0032]
本发明还提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指
令,从而执行上述的文本匹配方法。
[0033]
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行上述的文本匹配方法。
[0034]
本发明技术方案,具有如下优点:
[0035]
1.本发明提供的文本匹配方法,提取第一文本中多个不同版块中的多个第一单视角匹配特征,提取第二文本中多个不同版块中的多个第二单视角匹配特征,并将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,形成多个拼接后的单视角匹配特征。将多个拼接后的单视角匹配特征融合得到第一文本和第二文本的多视角匹配特征,在融合的过程中,综合考虑了各个不同视角下的匹配特征信息。利用所得到的多视角匹配特征计算第一文本与第二文本的多视角匹配概率,最后通过多视角匹配概率来确定第一文本与第二文本是否匹配,由于多视角匹配特征综合考虑到了各个单视角特征的信息,能够大幅提升文本匹配的准确率。
[0036]
2.本发明提供的文本匹配装置,提取模块提取第一文本中多个不同版块中的多个第一单视角匹配特征,并提取第二文本中多个不同版块中的多个第二单视角匹配特征,拼接模块将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,形成多个拼接后的单视角匹配特征。融合模块将多个拼接后的单视角匹配特征融合得到第一文本和第二文本的多视角匹配特征,在融合的过程中,综合考虑了各个不同视角下的匹配特征信息。计算模块利用所得到的多视角匹配特征计算第一文本与第二文本的多视角匹配概率,判断模块最后通过多视角匹配概率来确定第一文本与第二文本是否匹配,由于多视角匹配特征综合考虑到了各个单视角特征的信息,能够大幅提升文本匹配的准确率。
附图说明
[0037]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]
图1为本发明实施例1中文本匹配方法的流程图;
[0039]
图2为本发明实施例2中文本匹配装置的原理框图;
[0040]
图3为本发明实施例3中电子设备的原理框图。
具体实施方式
[0041]
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042]
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0043]
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
[0044]
实施例1
[0045]
本实施例提供了一种文本匹配方法,图1是说明根据本发明某些实施例,通过对多个不同文本序列进行提取、拼接、融合、计算以及判断多个不同文本是否匹配的流程图。虽然下文描述的过程包括以特定的顺序出现的多个操作,但是应该清楚地了解到,这些过程也可以包括更多或者更少的操作,这些操作可以顺序执行或者并行执行(例如使用并行处理器或者多线程环境)。
[0046]
本实施例提供的文本匹配方法,如图1所示,包括如下步骤:
[0047]
s101、获取第一文本和第二文本,所述第一文本和所述第二文本具有相同的文本结构,所述文本结构中包括用于写入不同规定内容类型的多个版块。
[0048]
在上述实施方式中,第一文本和第二文本为所需要判断是否匹配的文本,第一文本和第二文本可以为专利申请文本、论文文本等,在本实施例中,用专利申请文本作为例子来阐述本实施例的具体实施方案。
[0049]
所获得的第一文本和第二文本具有相同的文本结构,并且在文本结构中包括多个用于写入不同规定内容类型的版块,例如,专利申请文本中,包括说明书摘要、权利要求书、说明书以及说明书附图等版块,在这些版块中,每个版块都是写入有特定的内容,说明书摘要简述了本专利申请的技术方案以及所能带来的技术效果等,权利要求书记载了本专利申请所要求保护的技术方案,说明书清楚完整地记载了本申请所要解决的技术问题、采用的技术方案、技术方案所能带来的技术效果等,说明书附图记载了与本专利申请相关的设计图纸。每个专利申请文本都具有上述几部分,缺一不可。
[0050]
s102、提取与所述第一文本中多个版块一一对应的多个第一单视角匹配特征;提取与所述第二文本中多个版块一一对应的多个第二单视角匹配特征,其中,所述第一文本中多个版块与所述第二文本中多个版块一一对应。
[0051]
在上述实施方式中,可以使用bert模型、albert模型等网络模型来对第一文本和第二文本进行单视角特征提取,在本实施例中,采用bert模型来对第一文本和第二文本进行单视角特征提取。bert模型不需要用一个很庞大的训练集就能获得几乎所有的对分类起关键作用的特征,这将使得在现实应用中特征提取的效率非常高,也将会直接提高整个文本匹配任务的效率。
[0052]
使用bert模型中的transfomer层对第一文本和第二文本进行特征提取,包括:将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行标准化处理,形成具有标准格式的特征语句。其中,特征语句包括句头标签和句尾标签,句头标签位于特征语句的头部,句尾标签位于第一单视角匹配特征与第二单视角匹配特征之间,以及特征语句的末端。
[0053]
举个例子,使用bert模型中的transfomer层对第一专利申请文本和第二专利申请文本中的权利要求进行单视角匹配特征提取,对第一专利申请文本和第二专利申请文本中的权利要求各截取特定长度的字数,例如64个字、50个字或者30个字等等,在本实施例中,进行单视角匹配特征提取时截取64个字。并且在本实施例中,句头标签用cls表示,句尾标签用sep表示,标准格式的特征语句可以表示为:cls t1 sep t2 sep,其中t1为第一专利申请文本中权利要求的第一单视角匹配特征,t2为第二专利申请文本中权利要求的第二单视角匹配特征。所提取的第一专利申请文本和第二专利申请文本中的说明书摘要以及说明书的单视角匹配特征均处理成标准格式的特征语句,将所提取到的单视角匹配特征处理成bert模型的输入格式,使得bert模型能够更好地获取专利申请文本的单视角匹配特征。
[0054]
在本步骤中,使用bert模型中的transfomer层对第一专利申请文本和第二专利申请文本中的权利要求、说明书摘要以及说明书进行单视角匹配特征提取,并将相同版块的的单视角匹配特征进行标准化处理,形成具有标准格式的特征语句如下:
[0055]
cls t1 sep t2 sep,其中t1为第一专利申请文本中权利要求的第一单视角匹配特征,t2为第二专利申请文本中权利要求的第二单视角匹配特征;
[0056]
cls m1 sep m2 sep,其中m1为第一专利申请文本中说明书摘要的第一单视角匹配特征,m2为第二专利申请文本中说明书摘要的第二单视角匹配特征;
[0057]
cls n1 sep n2 sep,其中n1为第一专利申请文本中说明书的第一单视角匹配特征,n2为第二专利申请文本中说明书的第二单视角匹配特征。
[0058]
将特征处理成上述具有标准格式的特征语句作为bert模型的输入格式,使得bert模型能够更好地获取到单视角匹配特征。
[0059]
本步骤所提取到的多个版块的单视角匹配特征,可以提取第一文本和第二文本中的两个版块、三个版块或四个版块的单视角匹配特征,在一些实施例中,所提取到的版块数量可以超过四个。第一文本和第二文本中所提取的版块位置一一对应,例如第一专利申请文本和第二专利申请文本中,都提取权利要求、说明书摘要及说明书的单视角匹配特征,而不是第一专利申请文本中提取说明书及说明书摘要的单视角匹配特征,第二专利申请文本中却提取权利要求、说明书摘要及说明书的单视角匹配特征。
[0060]
s103、将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,得到多个拼接后的单视角匹配特征。
[0061]
在上述实施方式中,将在步骤s102中所提取到的相同板块的单视角匹配特征拼接,得到多个拼接后的单视角匹配特征。在本实施例中,拼接在步骤s102中所提取到的单视角匹配特征可表示为:
[0062]
cls-t1-sep-t2-sep,其中t1为第一专利申请文本中权利要求的第一单视角匹配特征,t2为第二专利申请文本中权利要求的第二单视角匹配特征;
[0063]
cls-m1-sep-m2-sep,其中m1为第一专利申请文本中说明书摘要的第一单视角匹配特征,m2为第二专利申请文本中说明书摘要的第二单视角匹配特征;
[0064]
cls-n1-sep-n2-sep,其中n1为第一专利申请文本中说明书的第一单视角匹配特征,n2为第二专利申请文本中说明书的第二单视角匹配特征。
[0065]
经过该步骤,对第一专利申请文本和第二专利申请文本所提取到的单视角匹配特征进行拼接,得到三个单视角匹配特征。
[0066]
s104、融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征。
[0067]
在上述实施方式中,对经步骤s103拼接后的多个单视角匹配特征进行融合,在本实施例中,采用多头注意力机制计算不同拼接后的单视角匹配特征的权重值,加权融合后得到多视角匹配特征,多头注意力机制能够同时注意到来自不同版块的单视角匹配特征,综合考虑多个不同视角下的单视角匹配特征对最终结果的影响大小,以此来提高最终的匹配准确率。例如,在专利申请文本中,融合从第一专利申请文本和第二专利申请文本中提取到的多个单视角匹配特征,并采用多头注意力机制计算不同拼接后的单视角匹配特征的权重值,可以设定说明书摘要所占的权重最轻,说明书所占的权重其次,权利要求书所占的权
重最重。当然,在一些实施例中,也可以采用加权平均的方式来对各个单视角匹配特征进行配重,以此来提高最终的匹配概率,例如在同一专利申请文本的相同板块中,提取多个单视角匹配特征,加权平均多个单视角匹配特征的权重。
[0068]
s105、利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率。
[0069]
在上述实施方式中,利用多视角匹配特征计算第一文本与第二文本的多视角匹配概率,包括:
[0070]
将经步骤s104融合得到的多视角匹配特征输入到预先训练得到的网络模型中,利用网络模型计算得到第一文本与所述第二文本的多视角匹配概率,其中,网络模型的目标函数是基于拼接后的单视角匹配特征的代价函数和基于多视角匹配特征的代价函数组成。训练及识别过程中网络模型可能会逐渐倾向于选择一部分特征进行学习,为代价函数的各个组成部分赋予一定的权重来调节各视角结果的平衡,可以帮助网络模型充分利用所有的特征信息,优化多视角匹配特征预测得到的结果。虽然在计算第一文本与第二文本的多视角匹配概率的时候,只利用到了第一文本与所述第二文本的多视角匹配概率,但是,由于网络模型的目标函数是基于拼接后的单视角匹配特征的代价函数和基于多视角匹配特征的代价函数组成,因此网络模型的目标函数中参数受到单视角匹配特征的影响,从而使得最终的多视角匹配特征计算得到的匹配概率中融合了单视角的因素,进一步提高了最终的匹配的准确率。
[0071]
在训练过程中,使用优化器最小化单视角匹配特征的代价函数和多视角匹配特征的代价函数,使得网络模型最终收敛,从而获得效果最好的网络模型。
[0072]
在一些实施例中,还包括将多个拼接后的单视角匹配特征输入到网络模型中,利用网络模型基于多个拼接后的单视角匹配特征计算得到第一文本与第二文本的单视角匹配概率,即利用单视角匹配概率对多视角匹配概率进行优化调整,得到优化后的多视角匹配概率,并以优化后的多视角匹配概率作为最终结果。
[0073]
举例来说,将经步骤s103所拼接得到的单视角匹配特征cls-t1-sep-t2-sep、cls-m1-sep-m2-sep以及cls-n1-sep-n2-sep输入到训练好的网络模型的中,并且将融合后的多视角匹配特征输入到训练好的网络模型中,多个单视角匹配特征和融合后的多视角匹配特征经过线性变换,使用sigmoid函数分别从单视角和多视角出发预测得到文本的匹配概率,并最终采用多视角预测得到的匹配概率作为文本匹配的结果,以此进一步提高最终文本匹配的结果准确率。
[0074]
s106、通过所述多视角匹配概率确定所述第一文本与所述第二文本是否匹配。
[0075]
在上述实施方式中,判断多视角匹配概率是否大于等于预设阈值,当多视角匹配概率大于等于预设阈值时,确定第一文本与第二文本匹配,当多视角匹配概率小于预设阈值时,确定第一文本与第二文本不匹配。
[0076]
举例来说,设定预设阈值t为0.5,当第一专利申请文本与第二专利申请文本的多视角匹配概率为0.5时,则第一专利申请文本与第二专利申请文本匹配;当第一专利申请文本与第二专利申请文本的多视角匹配概率为0.6时,则第一专利申请文本与第二专利申请文本匹配;而当第一专利申请文本与第二专利申请文本的多视角匹配概率为0.45时,则第一专利申请文本与第二专利申请文本不匹配。预设阈值t的范围大于等于0并且小于等于1,
预设阈值t的具体数值在此不作限定,本领域技术人员可根据具体情况进行合理的选择。基于实验结果和实验样本正负平衡的考虑,建议将阈值t取为0.5附近。
[0077]
在一些实施例中,还可以再预设一个阈值,当第一专利申请文本与第二专利申请文本的多视角匹配概率大于该阈值时,可以确定该第一专利申请文本与第二专利申请文本属于最接近的文件。举例来说,设定阈值t为0.8,当第一专利申请文本与第二专利申请文本的多视角匹配概率为0.9时,可以确定该第一专利申请文本与第二专利申请文本不仅匹配,而且还属于最接近的文件。
[0078]
在本实施例中,提取第一文本中多个不同版块中的多个第一单视角匹配特征,提取第二文本中多个不同版块中的多个第二单视角匹配特征,并将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,形成多个拼接后的单视角匹配特征。将多个拼接后的单视角匹配特征融合得到第一文本和第二文本的多视角匹配特征,在融合的过程中,综合考虑了各个不同视角下的匹配特征信息。利用所得到的多视角匹配特征计算第一文本与第二文本的多视角匹配概率,最后通过多视角匹配概率来确定第一文本与第二文本是否匹配,由于多视角匹配特征综合考虑到了各个单视角特征的信息,能够大幅提升文本匹配的准确率。
[0079]
实施例2
[0080]
本实施例提供了一种文本匹配装置,如图2所示,包括:
[0081]
获取模块201,用于获取第一文本和第二文本,所述第一文本和所述第二文本具有相同的文本结构,所述文本结构中包括用于写入不同规定内容类型的多个版块。详细内容请参见实施例1中步骤s101的相关描述,此处不再赘述。
[0082]
提取模块202,用于提取与所述第一文本中多个版块一一对应的多个第一单视角匹配特征;提取与所述第二文本中多个版块一一对应的多个第二单视角匹配特征,其中,所述第一文本中多个版块与所述第二文本中多个版块一一对应。详细内容请参见实施例1中步骤s102的相关描述,此处不再赘述。
[0083]
拼接模块203,用于将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,得到多个拼接后的单视角匹配特征。详细内容请参见实施例1中步骤s103的相关描述,此处不再赘述。
[0084]
融合模块204,用于融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征。详细内容请参见实施例1中步骤s104的相关描述,此处不再赘述。
[0085]
计算模块205,用于利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率。详细内容请参见实施例1中步骤s105的相关描述,此处不再赘述。
[0086]
判断模块206,用于通过所述多视角匹配概率确定所述第一文本与所述第二文本是否匹配。详细内容请参见实施例1中步骤s106的相关描述,此处不再赘述。
[0087]
在本实施例中,提取模块202提取第一文本中多个不同版块中的多个第一单视角匹配特征,并提取第二文本中多个不同版块中的多个第二单视角匹配特征,拼接模块203将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,形成多个拼接后的单视角匹配特征。融合模块204将多个拼接后的单视角匹配特征融合得到第一文本和第二文本的多视角匹配特征,在融合的过程中,综合考虑了各个不同视角下的匹配特征信息。计
drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
[0096]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0097]
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1