一种文本语法纠错方法、装置、计算机设备及存储介质与流程

文档序号:31708117发布日期:2022-10-01 12:54阅读:70来源:国知局
一种文本语法纠错方法、装置、计算机设备及存储介质与流程

1.本发明涉及自然语言处理技术领域,特别涉及一种文本语法纠错方法、装置、计算机设备及存储介质。


背景技术:

2.文本纠错的目的是检测和纠正文本中的拼写错误,是自然语言处理中的重要任务,在信息检索、智能写作、智能客服等诸多领域都有应用。
3.由于中文的博大精深,导致人们日常写作文稿中的错误类型种类繁多,例如“一个拥有千年厉史的文明古国”这个样本中,出现了错别字,需要将“厉史”纠正为“历史”;又例如样本“一年不见,他的身体和思想水平都比先前提高了许多”,出现了主谓搭配不当的错误,即身体是不能与提高搭配的;还例如样本“大家越来越认识到,在激烈竞争的市场经济中,必须明确树立起依靠科学技术,加快开发新产品”,出现了句法成分缺失的错误,应在“树立起依靠科学技术”后面补上“的观念”这个文本片段。
4.现有技术方案多集中在处理错别字这类相对简单的错误纠正任务上,大多通过对预训练语言模型进行再次微调训练,以此识别错误文字并纠正。但由于预训练语言模型在训练时并非专门为文本语法纠错任务而设计,因此,微调后的模型中也很少能学习到如何进行文本语法纠错的知识,实践中效果仍有较大提升空间。
5.因此,如何实现文本的语法纠错是本领域技术人员需要解决的问题。


技术实现要素:

6.本发明实施例提供了一种文本语法纠错方法、装置、计算机设备及存储介质,旨在对文本的句法成分进行判断,以实现语法纠错。
7.第一方面,本发明实施例提供了一种文本语法纠错方法,包括:
8.获取包含多条语料的语料数据集;
9.针对每一条语料,通过依存句法方法对语料进行句法依存分析,得到对应的初始句法依存图;
10.基于初始句法依存图中的节点关系,通过设置虚拟边对不同的初始句法依存图进行组合,得到包含更多节点数量的目标句法依存图;
11.将所述目标句法依存图中的所有节点输入至多层图卷积神经网络中,并由多层图卷积神经网络输出对应的节点矩阵;
12.根据所述节点矩阵计算所述初始句法依存图中的节点亲密度矩阵,并根据所述节点亲密度矩阵判断对应语料的句法成分。
13.第二方面,本发明实施例提供了一种文本语法纠错装置,包括:
14.语料获取单元,用于获取包含多条语料的语料数据集;
15.语料分析单元,用于针对每一条语料,通过依存句法方法对语料进行句法依存分析,得到对应的初始句法依存图;
16.虚拟边设置单元,用于基于初始句法依存图中的节点关系,通过设置虚拟边对不同的初始句法依存图进行组合,得到包含更多节点数量的目标句法依存图;
17.矩阵输出单元,用于将所述目标句法依存图中的所有节点输入至多层图卷积神经网络中,并由多层图卷积神经网络输出对应的节点矩阵;
18.成分判断单元,用于根据所述节点矩阵计算所述初始句法依存图中的节点亲密度矩阵,并根据所述节点亲密度矩阵判断对应语料的句法成分。
19.第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的文本语法纠错方法。
20.第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文本语法纠错方法。
21.本发明实施例提供了一种文本语法纠错方法、装置、计算机设备及存储介质,该方法包括:获取包含多条语料的语料数据集;针对每一条语料,通过依存句法方法对语料进行句法依存分析,得到对应的初始句法依存图;基于初始句法依存图中的节点关系,通过设置虚拟边对不同的初始句法依存图进行组合,得到包含更多节点数量的目标句法依存图;将所述目标句法依存图中的所有节点输入至多层图卷积神经网络中,并由多层图卷积神经网络输出对应的节点矩阵;根据所述节点矩阵计算所述初始句法依存图中的节点亲密度矩阵,并根据所述节点亲密度矩阵判断对应语料的句法成分。本发明实施例通过对文本语料构造句法依存图,并利用图卷积神经网络提取图节点的深层次语义表征向量,然后根据节点亲密度来判断句法依存图之间是否缺失句法成分或存在多余的句法成分,从而实现对于文本的语法纠错。
附图说明
22.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1为本发明实施例提供的一种文本语法纠错方法的流程示意图;
24.图2为本发明实施例提供的一种文本语法纠错方法的子流程示意图;
25.图3为本发明实施例提供的一种文本语法纠错方法的句法依存树的示例图;
26.图4为本发明实施例提供的一种文本语法纠错装置的示意性框图;
27.图5为本发明实施例提供的一种文本语法纠错装置的子示意性框图。
具体实施方式
28.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
29.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示
所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
30.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
31.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
32.下面请参见图1,图1为本发明实施例提供的一种文本语法纠错方法流程示意图,具体包括:步骤s101~s104。
33.s101、获取包含多条语料的语料数据集;
34.s102、针对每一条语料,通过依存句法方法对语料进行句法依存分析,得到对应的初始句法依存图;
35.s103、基于初始句法依存图中的节点关系,通过设置虚拟边对不同的初始句法依存图进行组合,得到包含更多节点数量的目标句法依存图;
36.s104、将所述目标句法依存图中的所有节点输入至多层图卷积神经网络中,并由多层图卷积神经网络输出对应的节点矩阵;
37.s105、根据所述节点矩阵计算所述初始句法依存图中的节点亲密度矩阵,并根据所述节点亲密度矩阵判断对应语料的句法成分。
38.本实施例中,通过依存句法方法将语料构造句法依存图,以此得到每一条语料对应的初始句法依存图,然后根据各初始句法依存图中的节点关系,将不同的初始句法依存图连接起来,组合为一个更大、包含更多节点的目标句法依存图。对于目标句法依存图,采用多层图卷积神经网络对其提取图表征向量,并以此输出对应的节点矩阵。随后,根据所述节点矩阵可以计算得到各初始句法依存图的节点亲密度矩阵,由此实现对于初始句法依存图对应的语料的句法成分判断,从而完成文本语法纠错。
39.本实施例通过对文本语料构造句法依存图,并利用图卷积神经网络提取图节点的深层次语义表征向量,然后根据节点亲密度来判断句法依存图之间是否缺失句法成分或存在多余的句法成分,从而实现对于文本的语法纠错。
40.在一实施例中,所述步骤s103包括:
41.在所有的所述初始句法依存图中,选取多个语料共同包含的第一目标词节点,并对所述第一目标词节点所属的不同句法依存图建立虚拟连接;其中,所述第一目标词节点为主语节点、谓语节点和/或宾语节点;
42.或者,在所有的所述初始句法依存图中,选取其他语料均未包含的第二目标词节点,并对所述第二目标词节点所属初始句法依存图中的名词节点和/或动词节点建立虚拟连接。
43.本实施例中,考虑到每个句子包含的节点数通常较少,导致单个初始句法依存图非常稀疏。因此设置“虚拟边”将不同的初始句法依存图组合起来,形成节点数量更多的图,即所述所述目标句法依存图。虚拟边设置分为两种情况。第一种情况中,若某个词节点(即所述第一目标词节点)是训练集中多个句子共同的主语、谓语,宾语,则将位于不同句法依存图的相同词节点直接连接。例如,结合图3(图3中,hed表示核心,sbv表示主谓关系,adv表
示状中结构,pob表示介宾关系,att表示定中关系,rad表示后附加关系,wp表示标点,vob表示动宾关系),句子“今年,x市将迎来建立n周年”和“我们即将以昂扬的斗志迎来新的一年”,“迎来”作为两个句子共同的谓语,在两个句子分别对应的句法依存图中的“迎来”节点之间建立虚拟连接。在第二种情况中,若语料集中某句子中的词(即所述第二目标词节点)都未在语料集中的其它句子中出现,则在这些句子中的名词、动词之间建立虚拟连接。在建立起虚拟连接后,虚拟边的权重可自行设定,为[0,1]之间的数值。
[0044]
在一实施例中,所述步骤s104之前,包括:
[0045]
通过自然语言处理平台获取所述目标句法依存图对应的依存句法解析标签;
[0046]
统计每一种依存句法解析标签的出现次数,并将同一依存句法解析标签的出现次数除以所有依存句法解析标签的总数量,得到对应依存句法解析标签的权重,并将所述权重作为所述目标句法依存图的出入度。
[0047]
本实施例中,采用自然语言处理平台(例如ltp、standford等平台)定义的依存句法解析标签为基础,如ltp平台定义了:《主谓关系:sbv》、《动宾关系:vob》、《动补结构:cmp》等多种依存句法解析标签。以每种依存句法解析标签所出现的次数,除以依存句法解析标签的总数,分别得到每个依存句法解析标签的权重,作为出入度。例如:假设主谓关系句法解析标签对应的权重为 0.05,则节点“我们”和“迎来”之间的边权重为0.05。
[0048]
在一实施例中,所述步骤s104之前,还包括:
[0049]
将所述目标句法依存图中的所有节点输入至预训练语言模型中,以获取对应的节点特征向量;
[0050]
根据所述节点特征向量构建第一矩阵x:
[0051]
x∈rn×m[0052]
其中,n表示所述目标句法依存图中的节点数量,m表示节点特征向量的维度;
[0053]
获取所述目标句法依存图中各节点之间的边权重,并以此构建所述目标句法依存图对应的出入度矩阵;
[0054]
按照下式,结合出入度矩阵构建第二矩阵
[0055][0056]
其中,为所述目标句法依存图的出入度矩阵,为所述目标句法依存图的邻接矩阵。
[0057]
本实施例中,通过预训练语言模型(例如bert、roberta等常见预训练语言模型)获取节点的节点特征向量,并以此构建第一矩阵。同时,根据所述目标句法依存图中各节点之间的边权重构建出入度矩阵,并进一步构建所述第二矩阵。在这里,所述第一矩阵和第二矩阵均用于后续多层图卷积神经网络的处理步骤中。
[0058]
在一实施例中,所述步骤s104包括:
[0059]
按照下式,计算得到节点的图表征向量:
[0060][0061]
其中,l
(j+1)
表示第j+1层图卷积神经网络,l
(j)
表示第j层图卷积神经网络, l
(0)
=x,wo表示权重矩阵,σ表示激活函数;
[0062]
基于节点的数量n和节点的图表征向量维度k构建n*k的节点矩阵。
[0063]
本实施例中,构造多层图卷积神经网络(graph convolutional network,gcn), gcn的层数可自行设置,并设l(i)为gcn的第i层,且其中, l
(0)
=x,即第0层为所述第一矩阵。经过多层图卷积神经网络迭代计算后,gcn 最后一层输出节点矩阵,该节点矩阵大小为n*k,表示n个节点,且每个节点的图表征向量维度为k。还需说明的是,权重矩阵wo∈rn×k,激活函数σ可采用常见relu、tanh、sigmoid等。
[0064]
在一实施例中,如图2所示,所述步骤s105包括:步骤s201~s202。
[0065]
s201、将所述节点矩阵中各节点的图表征向量维度相加求和,并将求和结果设置为节点特征标量;
[0066]
s202、对于任意两个节点,计算对应的节点特征标量相除后的比值,并将所述比值作为两个节点最终的边权重;
[0067]
s203、按照下式,基于最终的边权重计算得到所述初始句法依存图的出入度矩阵d:
[0068]dij
=∑edge
ij
[0069]
其中,d
ij
表示第i个节点和第j个节点之间的出入度,edge
ij
表示第i个节点和第j个节点之间的权重;
[0070]
s204、按照下式计算所述节点亲密度矩阵:
[0071][0072]
其中,i表示单位矩阵,α表示矩阵系数,α∈[0,1],a表示所述初始句法依存图的邻接矩阵,d表示所述初始句法依存图的出入度矩阵。
[0073]
本实施例中,对于每个节点,根据所述节点矩阵中各节点的图表征向量维度,都将其图表征向量按维度相加得到一个标量,即所述节点特征标量。举例来说,若某个节点的图表征向量为[0.1,0.2,0,25,0.35],则其节点特征标量为 0,1+0.2+0.25+0.35=0.9)。然后,将任意两个节点的节点特征标量相除得到的比值,作为该两个节点之间最终的边权重,并进一步得到两个节点对应的初始句法依存图的出入度矩阵,随后将该出入度矩阵代入至节点亲密度矩阵中,计算得到节点之间的亲密度。
[0074]
在一实施例中,所述步骤s105还包括:
[0075]
当任意两个节点之间的亲密度小于或者等于预设阈值时,则判定两个节点之间缺少句法成分;
[0076]
当任意两个节点之间的亲密度大于预设阈值时,则判定两个节点之间存在多余句法成分。
[0077]
本实施例中,若两个节点的亲密度小于或者等于预设阈值,则可视为这两个节点之间缺少连接,即意味着缺少了某种句法成分;反之若两个节点的亲密度大于预设阈值,则可视为这两个节点之间不应该存在连接,即意味着存在不必要的句法成分。
[0078]
图4为本发明实施例提供的一种文本语法纠错装置300的示意性框图,该装置400包括:
[0079]
语料获取单元401,用于获取包含多条语料的语料数据集;
[0080]
语料分析单元402,用于针对每一条语料,通过依存句法方法对语料进行句法依存分析,得到对应的初始句法依存图;
[0081]
虚拟边设置单元403,用于基于初始句法依存图中的节点关系,通过设置虚拟边对不同的初始句法依存图进行组合,得到包含更多节点数量的目标句法依存图;
[0082]
矩阵输出单元404,用于将所述目标句法依存图中的所有节点输入至多层图卷积神经网络中,并由多层图卷积神经网络输出对应的节点矩阵;
[0083]
成分判断单元405,用于根据所述节点矩阵计算所述初始句法依存图中的节点亲密度矩阵,并根据所述节点亲密度矩阵判断对应语料的句法成分。
[0084]
在一实施例中,所述虚拟边设置单元403包括:
[0085]
第一虚拟连接单元,用于在所有的所述初始句法依存图中,选取多个语料共同包含的第一目标词节点,并对所述第一目标词节点所属的不同句法依存图建立虚拟连接;其中,所述第一目标词节点为主语节点、谓语节点和/或宾语节点;
[0086]
第二虚拟连接单元,用于或者,在所有的所述初始句法依存图中,选取其他语料均未包含的第二目标词节点,并对所述第二目标词节点所属初始句法依存图中的名词节点和/或动词节点建立虚拟连接。
[0087]
在一实施例中,所述文本语法纠错装置400包括:
[0088]
标签获取单元,用于通过自然语言处理平台获取所述目标句法依存图对应的依存句法解析标签;
[0089]
权重计算单元,用于统计每一种依存句法解析标签的出现次数,并将同一依存句法解析标签的出现次数除以所有依存句法解析标签的总数量,得到对应依存句法解析标签的权重,并将所述权重作为所述目标句法依存图的出入度。
[0090]
在一实施例中,所述文本语法纠错装置400还包括:
[0091]
向量获取单元,用于将所述目标句法依存图中的所有节点输入至预训练语言模型中,以获取对应的节点特征向量;
[0092]
第一矩阵构建单元,用于根据所述节点特征向量构建第一矩阵x:
[0093]
x∈rn×m[0094]
其中,n表示所述目标句法依存图中的节点数量,m表示节点特征向量的维度;
[0095]
边权重获取单元,用于获取所述目标句法依存图中各节点之间的边权重,并以此构建所述目标句法依存图对应的出入度矩阵;
[0096]
第二矩阵构建单元,用于按照下式,结合出入度矩阵构建第二矩阵
[0097][0098]
其中,为所述目标句法依存图的出入度矩阵,为所述目标句法依存图的邻接矩阵。
[0099]
在一实施例中,所述矩阵输出单元404包括:
[0100]
向量计算单元,用于按照下式,计算得到节点的图表征向量:
[0101][0102]
其中,l
(j+1)
表示第j+1层图卷积神经网络,l
(j)
表示第j层图卷积神经网络, l
(0)
=x,wo表示权重矩阵,σ表示激活函数;
[0103]
节点矩阵构建单元,用于基于节点的数量n和节点的图表征向量维度k构建n*k的节点矩阵。
[0104]
在一实施例中,如图5所示,所述成分判断单元405包括:
[0105]
维度相加单元501,用于将所述节点矩阵中各节点的图表征向量维度相加求和,并将求和结果设置为节点特征标量;
[0106]
标量计算单元502,用于对于任意两个节点,计算对应的节点特征标量相除后的比值,并将所述比值作为两个节点最终的边权重;
[0107]
出入度矩阵构建单元503,用于按照下式,基于最终的边权重计算得到所述初始句法依存图的出入度矩阵d:
[0108]dij
=∑edge
ij
[0109]
其中,d
ij
表示第i个节点和第j个节点之间的出入度,edge
ij
表示第i个节点和第j个节点之间的权重;
[0110]
亲密度矩阵计算单元504,用于按照下式计算所述节点亲密度矩阵:
[0111][0112]
其中,i表示单位矩阵,α表示矩阵系数,α∈[0,1],a表示所述初始句法依存图的邻接矩阵,d表示所述初始句法依存图的出入度矩阵。
[0113]
在一实施例中,所述成分判断单元405还包括:
[0114]
第一判定单元,用于当任意两个节点之间的亲密度小于或者等于预设阈值时,则判定两个节点之间缺少句法成分;
[0115]
第二判定单元,用于当任意两个节点之间的亲密度大于预设阈值时,则判定两个节点之间存在多余句法成分。
[0116]
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
[0117]
本发明实施例还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(randomaccess memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0118]
本发明实施例还提供了一种计算机设备,可以包括存储器和处理器,存储器中存有计算机程序,处理器调用存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口,电源等组件。
[0119]
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
[0120]
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那
些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1