一种命名实体抽取方法、装置、电子设备及存储介质与流程

文档序号:29789967发布日期:2022-04-23 17:22阅读:74来源:国知局
一种命名实体抽取方法、装置、电子设备及存储介质与流程

1.本技术涉及深度学习技术领域,具体而言,涉及一种命名实体抽取方法、装置、电子设备及存储介质。


背景技术:

2.命名实体抽取是信息抽取的子任务,是指从文本数据中抽取预先定义的如时间、地点、人物名称等实体信息。
3.通常,将获取的语料输入至循环神经网络的模型中,经过一系列的训练获得目标神经网络模型,进而将目标神经网络模型运用到实际场景中。
4.现有的命名实体抽取方法,仅在获取语料后对于语料进行分词处理,将分词后的语料输入至循环神经网络的模型中,仅进行分词处理的语料训练出来的模型在测试时表现结果较差。


技术实现要素:

5.本技术的目的在于提供一种命名实体抽取方法、装置、电子设备及存储介质,其能够在将文本特征输入预设的实体抽取网络之前对于文本信息进行文本特征的提取,将文本特征的提取后的文本信息输入至预设的实体抽取网络,提高了对于命名实体的预测的准确性。
6.本技术的实施例第一方面提供了一种命名实体抽取方法,包括:获取待处理语料信息的文本信息;提取所述文本信息的文本特征,所述文本特征包括所述文本信息的通道特征、空间特征和上下文信息特征;将所述文本特征输入预设的实体抽取网络,输出所述待处理语料的命名实体抽取结果。
7.于一实施例中,所述提取所述文本信息的文本特征,所述文本特征包括所述文本信息的通道特征、空间特征和上下文信息特征,包括:将所述文本信息输入第一特征提取网络,输出所述文本信息的通道特征和空间特征;将所述文本信息输入第二特征提取网络,输出所述文本信息的上下文信息特征。
8.于一实施例中,所述第一特征提取网络,包括:特征提取模块,用于提取所述文本信息的初始特征;特征过滤模块,用于对所述初始特征进行过滤,得到所述文本信息的通道特征和空间特征。
9.于一实施例中,所述第二特征提取网络为循环神经网络。
10.于一实施例中,在所述提取所述文本信息的文本特征之前,包括:对所述文本信息进行分词处理,获取分词后的文本;将所述分词后的文本进行名称标注,得到标注后的文本信息。
11.于一实施例中,所述方法还包括:从所述命名实体抽取结果中滤除非目标标签类型的冗余信息,得到所述待处理语料的最终实体抽取结果。
12.本技术的实施例第二方面提供了一种命名实体抽取装置,包括:获取模块,用于获
取待处理语料信息的文本信息;提取模块,用于提取所述文本信息的文本特征,所述文本特征包括所述文本信息的通道特征、空间特征和上下文信息特征;抽取模块,用于将所述文本特征输入预设的实体抽取网络,输出所述待处理语料的命名实体抽取结果。
13.于一实施例中,所述提取模块,包括:第一提取单元,用于将所述文本信息输入第一特征提取网络,输出所述文本信息的通道特征和空间特征;第二提取单元,用于将所述文本信息输入第二特征提取网络,输出所述文本信息的上下文信息特征。
14.于一实施例中,所述第一特征提取网络,包括:特征提取模块,用于提取所述文本信息的初始特征;特征过滤模块,用于对所述初始特征进行过滤,得到所述文本信息的通道特征和空间特征。
15.于一实施例中,所述第二特征提取网络为循环神经网络。
16.于一实施例中,所述命名实体抽取装置,还包括:分词模块,用于对所述文本信息进行分词处理,获取分词后的文本;标注模块,用于将所述分词后的文本进行名称标注,得到标注后的文本信息。
17.于一实施例中,所述命名实体抽取装置,还包括:滤除模块,用于从所述命名实体抽取结果中滤除非目标标签类型的冗余信息,得到所述待处理语料的最终实体抽取结果。
18.本技术的实施例第三方面提供了一种电子设备,包括:存储器,用以存储计算机程序;处理器,用以执行所述计算机程序,以实现本技术实施例第一方面及其任一实施例的方法。
19.本技术的实施例第四方面提供了一种非暂态电子设备可读存储介质,包括:程序,当其藉由电子设备运行时,使得所述电子设备执行本技术实施例第一方面及其任一实施例的方法。
20.本技术提供的命名实体抽取方法、装置、电子设备和存储介质,通过在将文本特征输入预设的实体抽取网络之前对于文本信息进行通道特征、空间特征以及上下文信息特征等特征的提取,将提取后的文本特征输入预设的实体抽取网络,得到所述待处理语料的命名实体抽取结果,提高了对于命名实体的预测的准确性。
附图说明
21.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
22.图1为本技术一实施例示出的电子设备的结构示意图;
23.图2为本技术一实施例示出的命名实体抽取方法的流程示意图;
24.图3为本技术一实施例示出的cbam的结构示意图;
25.图4为本技术一实施例示出的命名实体抽取方法的流程示意图;
26.图5为本技术一实施例示出的改进的inception-v2网络的结构示意图;
27.图6为本技术一实施例示出的gru的结构示意图;
28.图7为本技术一实施例示出的crf的结构示意图;
29.图8为本技术一实施例示出的命名实体抽取的过程示意图;
30.图9为本技术一实施例示出的命名实体抽取装置的结构示意图。
具体实施方式
31.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。
32.相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
33.请参阅图1,其为本技术一实施例示出的一种电子设备1,该电子设备1包括:至少一个处理器11和存储器12,图1中以一个处理器为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行。其中,处理器11被配置为执行本技术实施例提供的命名实体抽取方法。
34.处理器11可以是包含中央处理单元(cpu)、图像处理单元(gpu)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对电子设备1中的其它组件的数据进行处理,还可以控制电子设备1中的其它组件以执行期望的功能。
35.存储器12可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行程序指令,以实现下文的敏感数据识别的方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
36.图1所示的电子设备1的组件和结构只是示例性的,而非限制性的,根据需要,于一实施例,电子设备1也可以具有其他组件和结构。
37.于一实施例中,用于实现本技术实施例的敏感数据识别的方法的示例电子设备1可以被实现为智能手机、平板电脑、台式电脑、笔记本电脑、车载终端等智能设备。
38.请参阅图2,其为本技术一实施例示出的命名实体抽取方法的流程示意图。该方法可由图1所示的电子设备1来执行,并应用到命名实体抽取方法中以进行命名实体的抽取,该方法包括如下步骤:
39.步骤201:获取待处理语料信息的文本信息。
40.在本步骤中,电子设备1可以获取待处理的文本信息,可以通过手动输入得到相应的文本信息,也可以由电子设备1执行相应的计算机程序,从而得到对应的文本信息。
41.于一实施例中,文本信息以汉字的形式呈现,由电子设备1执行相应的计算机程序,从电子设备1的存储器12中调取。
42.步骤202:提取文本信息的文本特征,文本特征包括文本信息的通道特征、空间特征和上下文信息特征。
43.在本步骤中,电子设备1可提取到在步骤201中所获取的文本信息中的文本特征。其中,文本特征包括通道特征、空间特征和上下文信息特征。
44.于一实施例中,可采用如图3所示的cbam(convolutional block attention module,卷积块注意力模块),对于步骤201中获取的文本信息进行第一次特征提取,从而得
organization表示;
59.3.文本中除人名、地名及组织机构名之外的其它字都是用o表示。
60.于一实施例中,经过上述的bio算法对于获取到的分词后的文本“王五/昨天/在/上海/游玩/了/迪士尼”中每个字的标注如下:
61.[b-person,i-person]、[o,o]、[o]、[b-place,i-place]、[o,o]、[o]、[b-organization,i-organization,i-organization]。
[0062]
步骤404:将文本信息输入第一特征提取网络,输出文本信息的通道特征和空间特征。
[0063]
在本步骤中,第一特征提取网络可以为改进后的inception-resnet-v2网络。如图5所示,改进后的inception-resnet-v2网在inception-resnet-v2网络的每一个inception-resnet层中加入了一个用于提取文本信息的通道特征和空间注意力特征的cbam(convolutional block attention module,卷积块注意力模块)。由于只需要进行特征提取,而不需要该网络对文本进行分类,因而删除了inception-resnet-v2网络原有的softmax层,并连接于用于将分布式特征表示映射到样本标记空间的fc(fully connected layers,全连接层)。从而,使得改进后的inception-resnet-v2网络的输出为一个1*1*512的具有通道特征和空间注意力特征的三维矩阵式的文本信息。
[0064]
具体而言,若改进后的inception-resnet-v2网络中的每个inception-resnet层提取的特征为f,经过cbam(convolutional block attention module,卷积块注意力模块)处理后得到特征f’,其计算公式如下:
[0065]
f'=channel_feature(spatial_feature(f))
[0066]
其中,channel_feature和spatial_feature分别表示通道注意力和空间注意力函数。channel_feature和spatial_feature的计算公式如下:
[0067][0068][0069]
式中,f表示初始特征,f’表示通道特征,即spatial_feature,f表示卷积核,维数为7*7,avgpool为平均池化,maxpool为最大池化,σ表示sigmoid激活函数,为平均池化特征,为最大池化特征。
[0070]
故本技术通过对于inception-resnet-v2网络进行改进,在inception-resnet-v2网络中的每个inception-resnet层中加入cbam,用于对深层次inception-resnet网络模块所提取到的特征进行过滤,加大对通道特征和空间特征的关注度,使提取到的文本特征更加准确。通过删除inception-resnet-v2网络原有的softmax层,并连接于fc,使得第一特征提取网络的输出为一个1*1*512的具有通道特征和空间注意力特征的三维矩阵式的文本信
息,以使得第一特征提取网络与第二特征提取网络之间的衔接更加顺畅,从而节省了电子设备1的算力。
[0071]
步骤405:将包括通道特征和空间特征的文本特征输入第二特征提取网络,输出文本信息的上下文信息特征。
[0072]
在本步骤中,第二特征提取网络可以是包含多个如图6所示的gru(gated recurrent unit,门控循环单元)结构的bi-rnn(双向rnn),bi-rnn中的多个并排且上下叠加的gru组成了bi-gru(双向gru)结构。在bi-gru结构中,并排连接的上层gru单元依次从左至右连接,并排连接的下层gru单元依次从右至左连接。。
[0073]
具体而言,gru是由互相连接的重置门结构z
t
和更新门结构r
t
组成,其中完成记忆功能的模块主要是重置门z
t
,需要遗忘的信息随着重置门z
t
参数值的变化而变化,上述两个门结构都是通过sigmoid函数进行控制,各参数的计算公式如下:
[0074]zt
=σ(wz[h
t-1
,x
t
])
[0075]rt
=σ(wr[h
t-1
,x
t
])
[0076][0077][0078]
式中:x
t
为输入信息,z
t
为更新后的信息,r
t
为重置后的信息,为记忆的信息,h
t
为输出的信息,σ为sigmoid函数,w为特征矩阵,wz为重置门特征矩阵,wr为更新门特征矩阵,t为当前时刻,t-1为上一时刻。根据上述公式,gru可对于输入的文本特征进行分析,从而输出文本信息的上下文信息特征。在bi-gru结构中,通过gru结构之间的互相连接,实现了待处理文本的上下文连接,即实现了待处理文本从前到后和从后到前的上下文联系,从而获得上下文信息特征。
[0079]
故本技术通过第二特征提取网络中的bi-gru结构,可处理当前时刻的输出与之前的状态有关系、并且与之后的状态相关的自然语言,不仅能够记忆长时间内的信息,且从后向前的上下文信息不会被遗漏,使得从前向后以及从后向前的两个方向的上下文信息都能够被处理到,提高了命名实体抽取结果的准确性,节省了电子设备1的算力。
[0080]
步骤406:将文本特征输入预设的实体抽取网络,输出待处理语料的命名实体抽取结果。
[0081]
在本步骤中,可以在第一特征提取网络和第二特征提取网络后面加上fc层和softmax层,来实现实体抽取网络,如此,整个实体抽取模型包括:第一特征提取网络、第二特征提取网络和实体抽取网络。
[0082]
步骤407:从命名实体抽取结果中滤除非目标标签类型的冗余信息,得到待处理语料的最终实体抽取结果。
[0083]
在本步骤中,由于上述步骤406中输出的抽取结果中仍可能存在不符合要求的预测要求的词性(如预测出的词性会存在i-开头的可能),因此采用如图7所示的crf(conditional random field,条件随机场)对于上述的抽取结果进行滤除,滤除非目标标签类型的冗余信息,得到待处理语料的最终实体抽取结果。
[0084]
具体而言,图7可以看出源序列和目标序列之间存在明显的依赖关系,该模型的概
率公式如下:
[0085][0086]
式中:y为第一随机变量;x为第二随机变量;θ为第三随机变量;p(y|x:θ)表示当第二随机变量为x且第三随机变量为θ时,第一随机变量为y的概率;z
x
(θ)为划分函数;k表示特征的个数;fi(di)表示的是状态特征与转移特征的统一特征表示;θi表示权重参数;d表示参数集合。
[0087]
其中,z
x
(θ)和fi(di)的具体表达式如下:
[0088][0089][0090]
式中:w表示特征矩阵,ti表示第i个节点特征,si表示第i个局部特征,k表示节点个数。
[0091]
故本技术可通过crf对于步骤406中得到的抽取结果进行滤除,滤除非目标标签类型的冗余信息,以得到更加准确的抽取结果。
[0092]
请参阅图8,其为本技术一实施例示出的命名实体抽取的过程示意图。在本实施例中,假设电子设备1所获取的文本信息为“王五昨天在上海游玩了迪士尼”,该方法包括:
[0093]
步骤801:获取的文本信息为“王五昨天在上海游玩了迪士尼”;
[0094]
步骤802:上述文本信息经过分词处理后得到了分词处理后文本“王五/昨天/在/上海/游玩/了/迪士尼”;
[0095]
步骤803:通过bio算法将分词后的文本进行标注,获得标注后的文本“[b-person,i-person]、[o,o]、[o]、[b-place,i-place]、[o,o]、[o]、[b-organization,i-organization,i-organization]”;
[0096]
步骤804:将分词后的文本输入改进的inception-v2网络,获得文本每个单元的空间特征及通道特征;再将每个单元的空间特征及通道特征输入包括bi-gru结构的bi-rnn中,以获得文本的空间特征、通道特征及上下文信息特征;再将每个单元的空间特征、通道特征及上下文信息特征输入预设的实体抽取网络中,获取“[b-person,i-person]、[o,o]、[o]、[b-place,i-place]、[o,o]、[o]、[b-organization,i-organization,i-organization]”中的每个单元的抽取结果;
[0097]
步骤805:将每个单元的抽取结果输入crf模型中,从而获得最终实体抽取结果如:b-person[0.83]、i-person[0.87]、o[0.81]、o[0.81]、o[0.87]、b-place[0.97]、i-place[0.96]、o[0.89]、o[0.86]、o[0.87]、b-organization[0.89]、i-organization[0.93]、i-organization[0.89]。最终电子设备1可将获取的文本信息处理后的最终结果显示为:“王五”是人名、“上海”是地名、“迪士尼”是组织机构名。
[0098]
请参阅图9,其为本技术一实施例示出的命名实体抽取装置900,该装置可应用于图1所示的电子设备,以准确高效的进行命名实体的抽取。该装置包括:获取模块901、提取模块902和抽取模块903,各个模块的原理关系如下:
[0099]
获取模块901,用于获取待处理语料信息的文本信息。
[0100]
提取模块902,用于提取文本信息的文本特征,文本特征包括文本信息的通道特征、空间特征和上下文信息特征。
[0101]
抽取模块903,用于将文本特征输入预设的实体抽取网络,输出待处理语料的命名实体抽取结果。
[0102]
于一实施例中,提取模块902,包括:第一提取单元,用于将文本信息输入第一特征提取网络,输出文本信息的通道特征和空间特征;第二提取单元,用于将文本信息输入第二特征提取网络,输出文本信息的上下文信息特征。
[0103]
于一实施例中,第一特征提取网络,包括:特征提取模块,用于提取文本信息的初始特征;特征过滤模块,用于对初始特征进行过滤,得到文本信息的通道特征和空间特征。
[0104]
于一实施例中,第二特征提取网络为循环神经网络。
[0105]
于一实施例中,命名实体抽取装置900,还包括:分词模块,用于对文本信息进行分词处理,获取分词后的文本;标注模块,用于将分词后的文本进行名称标注,得到标注后的文本信息。
[0106]
于一实施例中,命名实体抽取装置900,还包括:滤除模块,用于从命名实体抽取结果中滤除非目标标签类型的冗余信息,得到待处理语料的最终实体抽取结果。
[0107]
上述有关命名实体抽取装置900的详细描述,请参见上述实施例中相关方法步骤的描述。
[0108]
在本技术所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0109]
另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0110]
本发明实施例还提供了一种非暂态电子设备可读存储介质,包括:程序,当其在电子设备上运行时,使得电子设备可执行上述实施例中方法的全部或部分流程。其中,存储介质可为磁盘、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等。存储介质还可以包括上述种类的存储器的组合。
[0111]
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1