一种文本语法纠错方法、装置、计算机设备及存储介质与流程

文档序号:31708117发布日期:2022-10-01 12:54阅读:来源:国知局

技术特征:
1.一种文本语法纠错方法,其特征在于,包括:获取包含多条语料的语料数据集;针对每一条语料,通过依存句法方法对语料进行句法依存分析,得到对应的初始句法依存图;基于初始句法依存图中的节点关系,通过设置虚拟边对不同的初始句法依存图进行组合,得到包含更多节点数量的目标句法依存图;将所述目标句法依存图中的所有节点输入至多层图卷积神经网络中,并由多层图卷积神经网络输出对应的节点矩阵;根据所述节点矩阵计算所述初始句法依存图中的节点亲密度矩阵,并根据所述节点亲密度矩阵判断对应语料的句法成分。2.根据权利要求1所述的文本语法纠错方法,其特征在于,所述将所述基于初始句法依存图中的节点关系,通过设置虚拟边对不同的初始句法依存图进行组合,得到包含更多节点数量的目标句法依存图,包括:在所有的所述初始句法依存图中,选取多个语料共同包含的第一目标词节点,并对所述第一目标词节点所属的不同句法依存图建立虚拟连接;其中,所述第一目标词节点为主语节点、谓语节点和/或宾语节点;或者,在所有的所述初始句法依存图中,选取其他语料均未包含的第二目标词节点,并对所述第二目标词节点所属初始句法依存图中的名词节点和/或动词节点建立虚拟连接。3.根据权利要求1所述的文本语法纠错方法,其特征在于,所述将所述目标句法依存图中的所有节点输入至多层图卷积神经网络中,并由多层图卷积神经网络输出对应的节点矩阵之前,包括:通过自然语言处理平台获取所述目标句法依存图对应的依存句法解析标签;统计每一种依存句法解析标签的出现次数,并将同一依存句法解析标签的出现次数除以所有依存句法解析标签的总数量,得到对应依存句法解析标签的权重,并将所述权重作为所述目标句法依存图的出入度。4.根据权利要求3所述的文本语法纠错方法,其特征在于,所述将所述目标句法依存图中的所有节点输入至多层图卷积神经网络中,并由多层图卷积神经网络输出对应的节点矩阵之前,还包括:将所述目标句法依存图中的所有节点输入至预训练语言模型中,以获取对应的节点特征向量;根据所述节点特征向量构建第一矩阵x:x∈r
n
×
m
其中,n表示所述目标句法依存图中的节点数量,m表示节点特征向量的维度;获取所述目标句法依存图中各节点之间的边权重,并以此构建所述目标句法依存图对应的出入度矩阵;按照下式,结合出入度矩阵构建第二矩阵按照下式,结合出入度矩阵构建第二矩阵其中,为所述目标句法依存图的出入度矩阵,为所述目标句法依存图的邻接矩
阵。5.根据权利要求4所述的文本语法纠错方法,其特征在于,所述将所述目标句法依存图中的所有节点输入至多层图卷积神经网络中,并由多层图卷积神经网络输出对应的节点矩阵,包括:按照下式,计算得到节点的图表征向量:其中,l
(j+1)
表示第j+1层图卷积神经网络,l
(j)
表示第j层图卷积神经网络,l
(0)
=x,wo表示权重矩阵,σ表示激活函数;基于节点的数量n和节点的图表征向量维度k构建n*k的节点矩阵。6.根据权利要求1所述的文本语法纠错方法,其特征在于,所述根据所述节点矩阵计算所述初始句法依存图中的节点亲密度矩阵,并根据所述节点亲密度矩阵判断对应语料的句法成分,包括:将所述节点矩阵中各节点的图表征向量维度相加求和,并将求和结果设置为节点特征标量;对于任意两个节点,计算对应的节点特征标量相除后的比值,并将所述比值作为两个节点最终的边权重;按照下式,基于最终的边权重计算得到所述初始句法依存图的出入度矩阵d:d
ij
=∑edge
ij
其中,d
ij
表示第i个节点和第j个节点之间的出入度,edge
ij
表示第i个节点和第j个节点之间的权重;按照下式计算所述节点亲密度矩阵:其中,i表示单位矩阵,α表示矩阵系数,α∈[0,1],a表示所述初始句法依存图的邻接矩阵,d表示所述初始句法依存图的出入度矩阵。7.根据权利要求1所述的文本语法纠错方法,其特征在于,所述根据所述节点矩阵计算所述初始句法依存图中的节点亲密度矩阵,并根据所述节点亲密度矩阵判断对应语料的句法成分,还包括:当任意两个节点之间的亲密度小于或者等于预设阈值时,则判定两个节点之间缺少句法成分;当任意两个节点之间的亲密度大于预设阈值时,则判定两个节点之间存在多余句法成分。8.一种文本语法纠错装置,其特征在于,包括:语料获取单元,用于获取包含多条语料的语料数据集;语料分析单元,用于针对每一条语料,通过依存句法方法对语料进行句法依存分析,得到对应的初始句法依存图;虚拟边设置单元,用于基于初始句法依存图中的节点关系,通过设置虚拟边对不同的初始句法依存图进行组合,得到包含更多节点数量的目标句法依存图;矩阵输出单元,用于将所述目标句法依存图中的所有节点输入至多层图卷积神经网络
中,并由多层图卷积神经网络输出对应的节点矩阵;成分判断单元,用于根据所述节点矩阵计算所述初始句法依存图中的节点亲密度矩阵,并根据所述节点亲密度矩阵判断对应语料的句法成分。9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的文本语法纠错方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的文本语法纠错方法。

技术总结
本发明公开了一种文本语法纠错方法、装置、计算机设备及存储介质,该方法包括:获取包含多条语料的语料数据集;针对每一条语料,通过依存句法方法对语料进行句法依存分析,得到对应的初始句法依存图;基于初始句法依存图中的节点关系,通过设置虚拟边对不同的初始句法依存图进行组合,得到包含更多节点数量的目标句法依存图;将所述目标句法依存图中的所有节点输入至多层图卷积神经网络中,并由多层图卷积神经网络输出对应的节点矩阵;根据所述节点矩阵计算所述初始句法依存图中的节点亲密度矩阵,并根据所述节点亲密度矩阵判断对应语料的句法成分。本发明结合句法依存图和图卷积神经网络,基于节点亲密度对句法成分进行判断,实现文本语法纠错。实现文本语法纠错。实现文本语法纠错。


技术研发人员:王伟 张黔 陈焕坤 钟焰涛 郑毅
受保护的技术使用者:润联软件系统(深圳)有限公司
技术研发日:2022.06.27
技术公布日:2022/9/30
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1