一种基于深度神经网络的句子构式分析方法及装置

文档序号:34382997发布日期:2023-06-08 04:21阅读:41来源:国知局
一种基于深度神经网络的句子构式分析方法及装置

本发明涉及自然语言处理,特别涉及一种基于深度神经网络的句子构式分析方法及装置。


背景技术:

1、对于不含构式的一般句子如例1,通常的句法分析和事件分析可给出其句法结构和事件结构,基于此可获取句子的主要意义。

2、例1:张三喝咖啡

3、 张三 喝 咖啡 句法分析: 主语 谓语 宾语 事件语义: 施事 动作 受事

4、但对于含有构式的句子如例2:传统分析方法却无法获取其较完整的意义。

5、例2:一锅饭吃了\吃不了十个人

6、 一锅饭 吃了\吃不了 十个人 构式语义: 容纳量 容纳trigger 被容纳量

7、如果一个小学生或外国学生初次看到这样的句子,他们能够理解其中每个词的意思,但他们不一定知道整句话的意思。对于例2,除句法(“主-动-宾”关系,或主宾倒装句)和事件语义(“受事-动作-施事")的基本理解外,它还包含容纳量和被容纳量之间的关系,还需理解其特有的构式义才能真正理解其意义。

8、像例2这样的句式,用构式理论来解读,可以作出比较好的分析与解释。它可以看作容纳量数量构式,其中“一锅饭”表示容纳量,“十个人”表示被容纳量,“吃了\吃不了”表示容纳方式,所说的是动词前边那个量能够容纳(容纳不了)后面那个量。

9、当前,语言中存在大量的构式,但是由于构式的句法语义特征无法单纯从内部各个词语成分的句法语义特征简单相加得到,因此是当前自然语言处理中的难点和重点。

10、目前组合语义学作为自然语言处理领域的主流研究,认为短语和句子的语义由其组成部分的语义组合而成,其缺陷为未考虑短语和句子内部结构本身所包含的语义信息。

11、虽然构式语义学的发展为解决以上缺陷提供了理论支撑,它强调构式本身是有意义的,而且整体意义大于内部各成分意义之和。因此构式的语义分析不能仅靠其内部构成部分的语义信息,还需探讨构式本身所表示的意义。但是目前汉语构式的研究主要集中在语言学理论层面,缺乏大规模的构式语义标注资源以及相应的自动分析方法。


技术实现思路

1、有鉴于此,本发明提供至少解决上述部分技术问题的一种基于深度神经网络的句子构式分析方法及装置,该方法建立了基于组块链的汉语构式语义表示机制和汉语构式的标注数据集,并利用深度神经网络模型可以自动分析句子的构式,便于更准确地、更深入地实现汉语句子级的深层语义理解,有助于提升对外汉语教学的效率。

2、为实现上述目的,本发明采取的技术方案为:

3、第一方面,本发明实施例提供一种基于深度神经网络的句子构式分析方法,包括以下步骤:

4、s1、构建基于组块链的汉语构式语义表示机制;

5、s2、根据所述汉语构式语义表示机制,构建汉语构式的标注数据集;

6、s3、基于所述汉语构式的标注数据集训练深度神经网络模型,获得训练后的深度神经网络模型;

7、s4、将待分析句子输入训练后的深度神经网络模型,自动分析出所述句子的构式结构。

8、进一步的,所述步骤s1中,所述构建基于组块链的汉语构式语义表示机制,具体包括以下步骤:

9、s11、分析汉语构式的类型;

10、s12、基于所述汉语构式的类型,分析所述汉语构式内部所包含的各个语义成分;

11、s13、由所述语义成分构成线性组块链,获得表示所述汉语构式的组块链。

12、进一步的,所述步骤s2中,所述构建汉语构式的标注数据集,具体包括以下步骤:

13、s21、从目标语料库中进行语料选取;

14、s22、基于汉语构式的类型,并结合真实语料,构建汉语构式模板集;

15、s23、基于所述汉语构式模板集对句子进行构式标注,获得汉语构式的标注数据集。

16、进一步的,所述步骤s4中,所述将待分析句子输入训练后的所述深度神经网络模型,自动分析出所述句子的构式结构,具体包括以下步骤:

17、s41、在输入层,采用bert模型来对输入的所述待分析句子进行编码,输出特征表示;

18、s42、在特征层,将所述bert模型输出的特征表示输入至bilstm神经网络得到神经网络特征,并结合预设组合特征拼接后输入到隐藏层,得到相应的特征表示;

19、s43、在输出层,使用隐藏层的输出作为输入,采用softmax计算输出所述句子的构式分析最优结果。

20、进一步的,所述步骤s11中,所述汉语构式的类型,包括:

21、动补结构、双及物结构、很+名词结构、容纳结构、a是a,b是b、v来v去+vp、v+np+v+的、存在句式、兼语句式、把字句式和被字句式。

22、进一步的,所述步骤s23中,所述构式标注为:一个标注实例包含一个句子及其所包含的构式类型和构式成分。

23、进一步的,所述步骤s42中,所述预设组合特征,具体包括:

24、a.一元特征:对于任意状态,一元特征包括<q0>、<q1>、<q2>;

25、b.二元特征:对于任意状态,二元特征包括<q0,q1>、<q1,q2>、<s0,t0>,<e0,t0>;

26、c.上下文结构特征:对于任意状态,上下文特征包括<s0,t-1,t0>、<s-1,t-1,s0,t0,>,<e-1,t-1,e0,t0>、<e-1,t-1,s0,t0>;

27、其中,q0、q1和q2为该状态队列中待处理的词,t0为该状态stack中当前构式成分的类型,s0为当前构式成分的起始词,e0为当前构式成分的终止词,t-1为当前构式成分之前的一个构式成分的类型,s-1为当前构式成分之前的一个构式成分的起始词,e-1为当前构式成分之前的一个构式成分的终止词。

28、第二方面,本发明实施例还提供一种基于深度神经网络的句子构式分析装置,该装置包括:

29、机制构建模块,用于构建基于组块链的汉语构式语义表示机制;

30、数据集构建模块,用于根据所述汉语构式语义表示机制,构建汉语构式的标注数据集;

31、训练模块,用于基于所述汉语构式的标注数据集训练深度神经网络模型,获得训练后的深度神经网络模型;

32、分析模块,用于将待分析句子输入训练后的深度神经网络模型,自动分析出所述句子的构式结构。

33、第三方面,本发明实施例还提供一种存储装置,其上存储有计算设备可读的一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述的一种基于深度神经网络的句子构式分析方法。

34、与现有技术相比,本发明具有如下有益效果:

35、1、本发明实施例提供的基于深度神经网络的句子构式分析方法,构建了汉语构式的语义表示机制,并建立了一个汉语构式的标注数据集,利用深度神经网络模型可以自动分析出句子的构式结构,有助于提升对外汉语教学的效率。

36、2、本发明实施例提供的基于深度神经网络的句子构式分析方法,不仅能分析句子内部构成部分的语义信息,还能分析构式本身所表示的意义,有助于更准确地、更深入地实现汉语句子级的深层语义理解,便于分析汉语构式的特点及其相关句法语义模式,为进一步的汉语理解、分析和处理奠定基础。

37、3、本发明实施例提供的基于深度神经网络的句子构式分析方法,根据汉语构式的语义表示机制,建立了一个汉语构式的标注数据集,可用于句子构式分析任务。

38、4、本发明实施例提供的基于深度神经网络的句子构式分析方法,采用深度学习方法自动分析句子的构式,并将构式的结构分析和语义分析形式化为一个联合分析问题,实现构式的结构分析和语义分析的互增强效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1