基于图神经网络的命名实体提取方法、装置及存储介质与流程

文档序号:33712707发布日期:2023-04-01 00:34阅读:98来源:国知局
基于图神经网络的命名实体提取方法、装置及存储介质与流程

1.本发明涉及人工智能的自然语言处理技术领域,具体涉及一种基于图神经网络的命名实体提取方法、基于图神经网络的命名实体提取装置及存储介质。


背景技术:

2.自然语言文本是数字社会中最重要的数据类型之一,它可以从社交网络、聊天机器人、数字媒体等各个领域生成。命名实体识别是大量文本处理任务的基础,例如智能搜索、意图识别和知识图谱。命名实体模型基于标注的文本来训练机器学习模型,训练完成的模型可以自动从文本中提取需要的实体(例如,人、位置和事件)。
3.现有命名实体模型主要是基于神经网络监督学习模型,该类模型采用编码器-解码器的架构,根据单词间的语序信息以及单词本身的语义信息,学习命名实体的特征和模式。编码器依据上述语序信息和语义信息将单词映射到低维的向量空间,而解码器则根据单词的向量表示来判断单词是否是实体。此外,为了进一步丰富单词的语义信息,部分方法进一步引入句法分析来获得单词间的依存关系,进而提高实体识别的精度。
4.现有主流的实体识别方法将实体识别建模成序列(语句)标注问题,基于深度神经网络模型来学习文本的特征,并采用端到端的方式自动提取需要的实体。因此,该类模型大多采用可以学习语序的神经网络模型,如循环神经网络和注意力机制,来提取文本的特征,并在这个过程中加入预训练语言模型提供的单词的语义信息来丰富特征信息,以达到更好的实体提取精度。
5.由于自然语言的复杂语法,单纯依赖文本的语序不能很好的提取单词之间的结构信息。比如主动语态和被动语态可以表达同样的事,但是单词的语序有非常大的区别。因此,一些方法采用通过语法分析获得的单词间的依存树来表达单词的结构,并将该信息整合到模型中来提高实体识别的准确度。但是,当前采用依存树的实体识别模型仍基于序列神经网络,无法有效的利用语句中的结构信息从而提高实体识别精度。


技术实现要素:

6.有鉴于此,本发明的目的在于提供一种基于图神经网络的命名实体提取方法、装置及存储介质,以解决当前存在的基于序列神经网络无法有效提高实体识别精度的问题,达到提高命名实体识别准确度的目的。
7.根据本发明实施例的第一方面,提供一种基于图神经网络的命名实体提取方法,所述方法包括:
8.根据语句的词法分析和依存关系分析结果,将语句转化为基于有向图的以单词为节点的语句异构图;
9.根据语句中单词的语义信息向量、字符信息向量、词性信息向量进行拼接获得单词初始词向量;
10.将所述语句异构图和单词初始词向量输入至命名实体识别模型,输出提取得到的
命名实体。
11.优选地,所述命名实体识别模型包括顺序连接的多层图神经网络编码器和条件随机场解码器;所述单词初始词向量输入到多层堆叠图神经网络编码器的第一层图神经网络;所述语句异构图输入到多层堆叠图神经网络编码器的每一层图神经网络;所述基于条件随机场的解码器对多层堆叠图神经网络编码器输出的最终词向量进行解码,并根据解码结果给出提取得到命名实体。
12.优选地,所述语句异构图包括语句中单词对应的节点,其中节点属性为单词词性;还包括表示节点间依存关系的有向边和/或表示节点间语序关系的有向边。
13.优选地,所述根据语句中单词的语义信息向量、字符信息向量、词性信息向量进行拼接获得单词初始词向量的步骤中:
14.所述语义信息向量的获取方式为:从预训练语言模型获取单词的语义信息向量,单词不存在预训练语言模型中时将随机向量作为语义信息向量;
15.所述字符信息向量的获取方式为:通过lstm循环神经网络对单词进行编码,将lstm最后一个状态的输出作为字符信息向量;
16.所述词性信息向量是通过为每一种词性设置一个随机初始的向量的方式确定。
17.优选地,所述语句异构图输入到多层堆叠图神经网络编码器的每一层图神经网络,每一个单层图神经网络将语句异构图中节点邻居的信息聚合到节点中,将语句异构图中的节点间的语序信息和依存关系信息编码到节点对应的单词向量中。
18.优选地,所述图神经网络为图注意力网络,单层图注意力网络利用语句异构图编码后的单词向量表示为:
[0019][0020]
其中,代表第“l”层的单词向量,代表“l-1”层索引为i节点的邻居节点向量;
[0021]
其中,e
ij
代表i节点对j节点的注意力;
[0022]
其中,e
ij
=a(whi,w(hj||rj),rj表示两个节点单词向量hi和hj之间连接的边的类型,a和w分别是一维和高维线性映射。
[0023]
优选地,所述多层图神经网络编码器是堆叠的多层图神经网络,具体堆叠方式为每层图神经网络的输出直接连接到所述多层图神经网络编码器的输出端;
[0024]
所述多层图神经网络编码器的最终输出表示为各层图神经网络的输出拼接结果h:
[0025]
h=w||h1||h2…
||hn,
[0026]
其中,符号“||”表示拼接关系,n是多层图神经网络的层数,w是单词初始词向量。
[0027]
优选地,所述图神经网络是图卷积神经网络或图注意力网络。
[0028]
根据本发明实施例的第二方面,提供一种基于图神经网络的命名实体提取装置,所述装置包括:
[0029]
异构图模块,用于根据语句的词法分析和依存关系分析结果,将语句转化为基于有向图的以单词为节点的语句异构图;
[0030]
初始向量模块,用于根据语句中单词的语义信息向量、字符信息向量、词性信息向量进行拼接获得单词初始词向量;
[0031]
命名实体识别模型,用于根据输入的单词初始词向量和语句异构图进行命名实体识别,最终输出提取得到命名实体;
[0032]
所述命名实体识别模型包括顺序连接的多层图神经网络编码器和条件随机场解码器;所述基于图表示的单词初始词向量输入到多层堆叠图神经网络编码器;所述语句异构图输入到多层堆叠图神经网络编码器的每一层图神经网络;所述基于条件随机场的解码器对多层堆叠图神经网络编码器输出的最终词向量进行解码,并根据解码结果给出提取得到命名实体。
[0033]
根据本发明实施例的第三方面,提供一种存储介质,所述存储介质上存储有基于图神经网络的命名实体提取的处理程序,所述基于图神经网络的命名实体提取的处理程序被处理器执行时实现所述的基于图神经网络的命名实体提取方法的步骤。
[0034]
本发明的实施例提供的技术方案可以包括以下有益效果:
[0035]
本发明从图分析角度出发,通过将文本中单词的词性、语序信息和依赖关系融合为语句异构图,并以此采用图注意力网络或图卷积神经网络来提取实体信息。该方法比现有方法更全面、有效的利用文本中的语义信息,从而提高实体提取的效果和精度。本发明一方面通过构建语句异构图提供了一种基于有向图的文本表示方式,另一方面还提供了一种基于图神经网络的实体提取方法。
[0036]
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
[0037]
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[0038]
图1为一种基于图神经网络的命名实体提取装置示意图;
[0039]
图2为一种基于图神经网络的命名实体提取方法流程图;
[0040]
图3为一种基于图神经网络的命名实体模型训练示意图。
具体实施方式
[0041]
这里将详细地对示例性实施例进行说明,其示例表示在附图中。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0042]
本发明的技术方案从图分析角度出发,将一条语句建模成语句异构图,其中单词作为节点,单词的语序信息和单词间的依存关系作为不同类别的边。随后通过图注意力网络或图神经网络构成的编码器从语句异构图丰富的图结构中提取文本的特征,从而达到精度更高的实体识别效果。
[0043]
如图1所示,给出了一种基于图神经网络的命名实体提取装置示意图,所述装置包括:
[0044]
异构图模块,用于根据语句的词法分析和依存关系分析结果,将语句转化为基于
有向图的以单词为节点的语句异构图;
[0045]
初始向量模块,用于根据语句中单词的语义信息向量、字符信息向量、词性信息向量进行拼接获得单词初始词向量;
[0046]
命名实体识别模型,用于根据输入的单词初始词向量和语句异构图输出提取得到命名实体;
[0047]
所述命名实体识别模型包括顺序连接的多层图神经网络编码器和条件随机场解码器;所述基于图表示的单词初始词向量输入到多层堆叠图神经网络编码器;所述语句异构图输入到多层堆叠图神经网络编码器的每一层图神经网络;
[0048]
所述基于条件随机场的解码器对多层堆叠图神经网络编码器输出的最终词向量进行解码,并根据解码结果给出提取得到命名实体。
[0049]
如图2所示,给出了提供一种基于图神经网络的命名实体提取方法,所述方法包括如下步骤:
[0050]
步骤s1:根据语句的词法分析和依存关系分析结果,将语句转化为基于有向图的以单词为节点的语句异构图;
[0051]
步骤s2:根据语句中单词的语义信息向量、字符信息向量、词性信息向量进行拼接获得单词初始词向量;
[0052]
步骤s3:将所述语句异构图和单词初始词向量输入至命名实体识别模型,输出提取得到的命名实体。
[0053]
进一步地,所述命名实体识别模型包括顺序连接的多层图神经网络编码器和条件随机场解码器,在步骤s3中所述基于图表示的单词初始词向量输入到多层堆叠图神经网络编码器;所述基于条件随机场的解码器对多层堆叠图神经网络编码器输出的最终词向量进行解码,并根据解码结果给出提取得到命名实体。所述单词初始词向量输入到多层堆叠图神经网络编码器的第一层图神经网络;所述语句异构图输入到多层堆叠图神经网络编码器的每一层图神经网络;所述基于条件随机场的解码器对多层堆叠图神经网络编码器输出的最终词向量进行解码,并根据解码结果给出提取得到命名实体。
[0054]
在步骤s1中根据语句的词法分析和依存关系分析结果,将语句转化为基于有向图的以单词为节点的语句异构图。具体包括对语句进行词法分析和依存关系分析,获取单词的词性和相互的依存关系;根据单词间的顺序和依存关系构建语句异构图。
[0055]
在本步骤中,将字符串形式的自然语言文本,通过开源nltk的工具进行词法分析转化为单词序列,并获取每个单词的词性。对词法分析后的语句使用stanza的句法分析工具进行依存关系分析,获取单词间的依存树,树的节点表示单词,边表示单词间是否存在依存关系,而边的类别表示不同的依存关系类型。
[0056]
将序列结构的语句表示转化为基于有向图的表示形式。在语句对应的图中,单词被建立为节点,单词的词性作为节点的属性,而节点之间的边表示单词之间的关系。这里建立两种边,1)表示语序的边:单词a有一条连接到单词b的边,如果在语句中a是b前一个单词;2)表示依存关系的边:单词a有一条连接到单词b的边,如果a在依赖树中是b的子节点,并且边的类型对依赖树中的依赖关系类型对应。
[0057]
在步骤s2中根据语句中单词的语义信息向量、字符信息向量、词性信息向量进行拼接获得单词初始词向量。
[0058]
在本步骤中,将单词初始化为低维度的向量,该向量表示三部分信息:
[0059]
1)单词的语义信息,从开源预训练语言模型中,如bert,glove等,获取表示单词语义的向量w
semantic
。对于预训练语言模型不存在的单词,采用随机向量;
[0060]
2)单词的字符信息,将单词视作粒度为字符的序列,采用lstm循环神经网络对单词进行编码,以lstm最后一个状态的输出作为向量w
character

[0061]
3)单词的词性信息,为每一种词性设置一个随机初始的向量,并以此作为单词的词性向量w
pos
。拼接上述三种向量得到单词的初始词向量w=w
semantic
||w
character
||w
pos
,符号“||”表示拼接关系。
[0062]
以图神经网络为图注意力网络为例,语句异构图输入到多层堆叠图神经网络编码器的每一层图神经网络。在每一层图神经网络中,通过图注意力网络(graph attention network,gat)将语句异构图中的语序信息和依存关系信息编码到单词的初始词向量中,编码后得到本层的单词向量。
[0063]
单层图注意力网络将节点一阶邻居的信息聚合到节点中:单层图注意力网络将节点一阶邻居的信息聚合到节点中:其中代表第“l”层的单词向量,代表“l-1”层索引为i节点的邻居节点向量,α
ij
的计算方式为:其中,e
ij
代表i节点对j节点的注意力,计算方式为:e
ij
=a(whi,w(hj||rj),这里rj表示hi和hj连接的边的类型,a和w分别是一维和高维线性映射。编码后的词向量通过relu非线性激活函数进一步提高表示能力。
[0064]
在步骤s3中所述单词初始词向量输入到多层堆叠图神经网络编码器的第一层图神经网络;所述语句异构图输入到多层堆叠图神经网络编码器的每一层图神经网络;所述基于条件随机场的解码器对多层堆叠图神经网络编码器输出的最终词向量进行解码,并根据解码结果给出提取得到命名实体。
[0065]
在本步骤中,通过堆叠多层图注意力网络来提高模型的感受野和提取有向图中节点多跳邻居的信息。不同于现有方法的直接堆叠,本发明采用类似resnet残差连接的方式,来减弱模型多层网络堆叠导致的过平滑现象。具体来说,每层图注意力网络的输出直接接到整个多层图神经网络编码器的输出端,模型的最终输出为:h=w||h1||h2…
||hn,其中符号“||”表示拼接关系,n是多层图神经网络编码器的网络层数,w是单词初始词向量。
[0066]
在本步骤中,采用基于条件随机场的解码器对从多层图神经网络编码器获取的最终词向量h进行解码,并根据解码结果预测单词的命名实体标签。
[0067]
所述命名实体识别模型是预先基于标注语料进行训练得到,采用bio格式对语句进行标注。采用bio格式对语句进行序列标注,表达实体在语句中的位置。采用人工标注加标准化标注平台的方式,对语句进行序列标注,用于后续模型训练。标注采用标准的bio格式,“b”表示单词是实体的开始,“i”表示单词属于实体,“o”表示单词不属于任何实体。例如,“tom,cruise,played,the,protagonist,in,mission,impossible”对应的标注是“b-per,i-per,o,o,o,o,b-mov,i-mov”。其中”per”表示实体的类别是“人”(person),“mov”表示“电影”(movie)。
[0068]
在训练模型时,如图3所示,把实际应用时的无标注语句替换为训练用的标注语句
即可。训练时,一种标注方式的概率为:其中y是模型预测的bio标签,wk代表该标注路径的权重,fk(y,h)表示条件概率,z(h)是归一因子。解码器通过优化目标函数argmaxyp(y|h)来获取最优的实体标签结果。在训练过程中可以优化调节的参数主要包括语句长度、图神经网络层数等。
[0069]
本发明从图分析角度出发,通过将文本中单词的词性、语序信息和依赖关系融合为语句异构图,并以此采用图注意力网络来提取实体信息。该方法比现有方法更全面、有效的利用文本中的语义信息,从而提高实体提取的效果和精度。本发明一方面提供了一种基于有向图的文本表示方法,另一方面还提供了一种基于图神经网络的实体提取方法。
[0070]
以图神经网络为图注意力网络为例,基于图注意力网络的实体提取时,结合单词的语义信息和词性,构建单词的初始词向量表示模型;采用多层图注意力网络编码器,从语句异构图中学习单词的语序和依存关系;基于条件随机场的解码器,通过学习到的单词向量判断单词的标签。
[0071]
此外,本发明实施例还提出一种计算机可读存储介质,所述存储介质上存储有基于图神经网络的命名实体提取的处理程序,所述基于图神经网络的命名实体提取的处理程序被处理器执行时实现所述的基于图神经网络的命名实体提取方法的步骤。
[0072]
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
[0073]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0074]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。
[0075]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0076]
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0077]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0078]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何
的一个或多个实施例或示例中以合适的方式结合。
[0079]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1