基于全局指针解码方法的文本结构化信息抽取方法

文档序号:33650840发布日期:2023-03-29 08:22阅读:91来源:国知局
基于全局指针解码方法的文本结构化信息抽取方法

1.本发明涉及信息抽取方法技术领域,具体为基于全局指针解码方法的文本结构化信息抽取方法。


背景技术:

2.各行各业在人工智能技术兴起之后,纷纷开始了智能化转型升级。而这些转型升级带来的大量智能化需求也反过来不断在推动着技术革新。作为实现机器智能的赋能技术,事件知识图谱用事件作为本体建模的基本单元,突破了传统知识图谱以实体作为本体建模的基本单元带来的限制,使得图形化的知识图谱也能呈现事件的演化性质,在很大程度上提升了计算机的智能程度。不过目前学界对于事件知识图谱的自动构建技术研究还不多,暂未形成一种统一高效的构建标准,对构建技术也没有明确的权威认定。因此本文围绕事件知识图谱自动构建技术,实验了几个关键算法,对事件关系抽取和事件知识抽取进行深入研究,并构建了较为有效的抽取模型。


技术实现要素:

3.(一)解决的技术问题
4.针对现有技术的不足,本发明提供了基于全局指针解码方法的文本结构化信息抽取方法,通过全局化的关联文本内容,用归一处理的全局指针解码方法方法来应对命名实体识别任务,不对嵌套实体和非嵌套实体作明确区分,使得形成的模型统一高效的处理两类文本,并将归一化的模型利用到两个抽取任务之中,实现从非结构化文本中抽取结构化有效信息的优点,解决了事件知识图谱自动构建过程中,无论是事件抽取任务还是事件关系抽取任务都会不可避免地遇到文本嵌套问题的问题。
5.(二)技术方案
6.为实现上述目的,本发明提供如下技术方案:基于全局指针解码方法的文本结构化信息抽取方法,其特征在于,包括以下算法及模型:
7.(1)面向文本事件信息抽取的向量化表示;
8.(2)统一方式处理嵌套与非嵌套ner任务;
9.(3)设计事件抽取算法并完成模型训练;
10.(4)设计事件关系抽取算法并完成模型训练;
11.(5)完成最优化模型参数的部署对知识进行融合加工;
12.(6)基于web实现事件知识图谱自动构建的原型系统。
13.优选的,所述面向文本事件信息抽取的向量化表示模块运用了bert针对中文文本信息而设计出的预训练模型bert-base-chinese,该模型将文本内容转化为向量形式来表征文本的特征,且在向量化的过程中将单个的字作为最小的文本单位,后续神经网络中也以单个字向量作为基本的单位作训练。
14.优选的,所述统一方式处理嵌套与非嵌套ner任务模型为指针网络模型,而指针网
络模型由全局指针解码方法所构成,且包括以下具体步骤:
15.步骤一:在给定的一段文本中,如果要识别的实体的长度是n,那么,为了简单起见首先假定所述文本中仅有一种特殊的实体需要识别,并且所需识别的实体是所述文本中连续的一部分,长度不受限制,内容可以彼此嵌套。那么可以通过计算得出该文本序列中共计有n(n+1)/2个符合上述设定要求的候选序列,也就是说当抽取出了总数为n(n+1)/2的候选实体之后,所有可能的实体就已经被包含在其中了;
16.步骤二:不管是事件抽取任务还是关系抽取任务,要做的都是从这些全部候选实体里边挑出满足筛选要求的特定格式和内容的实体,简化来说就是一个结构很清晰的多分类任务,从n(n+1)/2个可能中选k个不同的标签。从实体抽取延伸到事件抽取,则可以考虑成有x个不同类别的实体需要识别,那么就调整为x个多分类任务,每个任务同样是从n(n+1)/2个可能中选k个不同的标签。
17.优选的,所述事件抽取算法模块由考察事件类型,论元角色和论元所组成,简化成命名实体识别任务,利用全局指针解码方法模型统一了有无触发词的抽取抽取场景。在有效实体识别出之后,利用类似于完全子图的递归搜索方法搜索出事件论元,组合这些事件论元作为抽取结果,最终实现模型效果。
18.优选的,所述事件关系算法模块是分离出所有可能出现的五元组,利用特定的打分函数通过打分高低来判别出正确的事件关系,将这些判别出的关系视为抽取结果,并通过上文提到的全局指针解码方法模型完成算法简化,最后对全局指针解码方法模型内置的多标签交叉熵稀疏化处理后作为模型的损失函数,即可得到事件关系抽取模型。
19.优选的,所述基于web的展示页面利用了fastapi网络框架实现了在线抽取系统的高效实时响应,在模型参数的部署时选用了ray框架,利用其较强的伸缩性满足短时间内的较大数据流传输。在原型系统的可视化展示时利用了d3组件,避开对本地图形数据库的访问带来的耗时过长问题,直接基于html生成可视化的知识图谱,最终形成了事件知识图谱自动构建的在线原型系统。
20.本文还提出基于全局指针解码方法的文本结构化信息抽取方法,包括以下具体步骤:
21.(1)事件内容向量化:基于bert-base-chinese预训练模型,适应文本内容对事件内容进行了向量化编码;
22.(2)指针网络设计:使用了全局指针解码方法指针网络模型,用统一化的方式处理了嵌套与非嵌套的命名实体识别问题;
23.(3)事件关系抽取:使用上述指针网络,将传统关系抽取的三元组推广到五元组,配合多标签交叉熵实现事件关系抽取;
24.(4)事件抽取:同样使用上述的指针网络,运用在统一论元中搜索完全子图的形式,配合交叉熵实现事件抽取;
25.(5)基于web的展示页面:运用d3.js组件基于html搭建展示界面,模型部署利用fastapi和ray框架。
26.(三)有益效果
27.与现有技术相比,本发明提供了基于全局指针解码方法的文本结构化信息抽取方法,具备以下有益效果:
28.(1)引入了bert的掩码语言模型学习上下文语义,使事件的字向量与上下文产生关联,在后续模型设计中一定程度上提升了识别出数据集中事件的能力。
29.(2)全局化的关联文本内容,用归一处理的全局指针解码方法方法来应对命名实体识别任务,不对嵌套实体和非嵌套实体作明确区分,使得形成的模型统26一高效的处理两类文本,并将归一化的模型利用到两个抽取任务之中,实现从非结构化文本中抽取结构化的有效信息。
30.(3)运用了fastapi网络框架与ray框架实现高响应速度的在线抽取演示程序,并利用d3.js组件避免了访问本地图数据库的时间延迟问题。
附图说明
31.图1为本发明bert模型示意图;
32.图2为本发明bert掩盖预测任务示意图。
具体实施方式
33.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
34.实施例一:
35.请参阅图1-2,基于全局指针解码方法的文本结构化信息抽取方法,其特征在于,包括以下算法及模型:
36.(1)面向文本事件信息抽取的向量化表示;
37.(2)统一方式处理嵌套与非嵌套ner任务;
38.(3)设计事件抽取算法并完成模型训练;
39.(4)设计事件关系抽取算法并完成模型训练;
40.(5)完成最优化模型参数的部署对知识进行融合加工;
41.(6)基于web实现事件知识图谱自动构建的原型系统。
42.本实施例中,所述面向文本事件信息抽取的向量化表示模块运用了bert针对中文文本信息而设计出的预训练模型bert-base-chinese,该模型将文本内容转化为向量形式来表征文本的特征,且在向量化的过程中将单个的字作为最小的文本单位,后续神经网络中也以单个字向量作为基本的单位作训练。
43.其中bert是一种经过预训练的语言表达模型,其特点在于,不像以前传统的语言表达模型那样在预训练过程中只采用单向模式或简单的两种单向模式拼接的方法处理语言表达任务,而是改用一种全新的掩码语言模型,这种掩码语言模型不仅可以实现双向的特征表征,还可以挖掘出更加深层的语言特征。
44.而掩码语言模型通过随机地掩盖掉已给语句中的一些字或词语,机器就能通过剩余的文本预测出所隐藏的字或词语是什么。
45.本实施例中,所述统一方式处理嵌套与非嵌套ner任务模型为指针网络模型,而指针网络模型由全局指针解码方法所构成,且包括以下具体步骤:
46.步骤一:在给定的一段文本中,如果要识别的实体的长度是n,那么,为了简单起见首先假定所述文本中仅有一种特殊的实体需要识别,并且所需识别的实体是所述文本中连续的一部分,长度不受限制,内容可以彼此嵌套。那么可以通过计算得出该文本序列中共计有n(n+1)/2个符合上述设定要求的候选序列,也就是说当抽取出了总数为n(n+1)/2的候选实体之后,所有可能的实体就已经被包含在其中了;
47.步骤二:不管是事件抽取任务还是关系抽取任务,要做的都是从这些全部候选实体里边挑出满足筛选要求的特定格式和内容的实体,简化来说就是一个结构很清晰的多分类任务,从n(n+1)/2个可能中选k个不同的标签。从实体抽取延伸到事件抽取,则可以考虑成有x个不同类别的实体需要识别,那么就调整为x个多分类任务,每个任务同样是从n(n+1)/2个可能中选k个不同的标签。
48.具体使用时设长度为n的文本t经过编码后得到的向量序列为[h1,h2,

,hn],通过变换q
i,α
=w
q,αhi
+b
q,α
和k
i,α
=w
k,αhi
+b
k,α
我们可以得到向量序列[q1,α,q2,α,

,qn,α]和[k1,α,k2,α,

,kn,α],这两个序列可以用来表征第α种类型实体。有了这两个向量序列我们就可以定义以下函数:们就可以定义以下函数:
[0049]
作为判断从i到j的连续片段是否是类型为α的实体的打分。也就是说,用qi,α与kj,α的内积,作为片段t[i:j]是类型为α的实体的打分,这里的t[i:j]指的是序列t中第i个字到第j个字所组成的连续文本。这种设计类似于现在常用的多头注意力机制,在截取的文本片段中有多少种需要被识别出的实体就相当于有多少个不同的头类型去提取文本特征信息。
[0050]
实施例二:
[0051]
本实施例中,在实施例一的基础上,所述事件抽取算法模块由考察事件类型,论元角色和论元所组成,简化成命名实体识别任务,利用全局指针解码方法模型统一了有无触发词的抽取抽取场景。在有效实体识别出之后,利用类似于完全子图的递归搜索方法搜索出事件论元,组合这些事件论元作为抽取结果,最终实现模型效果。
[0052]
具体使用时,传统的事件抽取模型一般分为“触发词检测”、“事件/触发词类型识别”、“事件论元检测”和“论元角色识别”四个子任务,也就是说要先检测触发词然后基于触发词做进一步的处理,所以如果训练集没有标注出触发词,事件抽取任务就无法进行,这说明传统的思路是不够完备的。为了统一有无触发词的场景,本文将触发词也当作事件的一个论元角色,这样有无触发词就是增减一个论元而已,所以主要还是在于论元识别和事件划分对于论元识别,实现方式是将事件类型和论元角色组合成一个大类,然后转化为命名实体识别问题,但要注意的是,不同的实体是可能嵌套的,所以此处继续使用上文提到的能识别嵌套实体的全局指针解码方法模型。
[0053]
实施例三:
[0054]
本实施例中,在实施例一的基础上:所述事件关系算法模块是分离出所有可能出现的五元组,利用特定的打分函数通过打分高低来判别出正确的事件关系,将这些判别出的关系视为抽取结果,并通过上文提到的全局指针解码方法模型完成算法简化,最后对全局指针解码方法模型内置的多标签交叉熵稀疏化处理后作为模型的损失函数,即可得到事件关系抽取模型。
[0055]
具体使用时,事件关系抽取简单来看是三元组(s,p,o),即主语,谓语,宾语的联合抽取,但在具体实现时,由于事件相较于简单实体来说有一定的长度,它实际应该被视作五元组(sh,st,p,oh,ot)的抽取,其中sh,st分别是s的首、尾位置,而oh,ot则分别是o的首、尾位置。
[0056]
从概率图的角度来看,构建事件抽取模型的结构如下:
[0057]
1、设计一个针对于五元组的打分函数s(sh,st,p,oh,ot);
[0058]
2、在训练时让被标注的五元组s(sh,st,p,oh,ot)》0,其余五元组则
[0059]
s(sh,st,p,oh,ot)《0;
[0060]
3、预测时枚举所有有可能的五元组,输出其中s(sh,st,p,oh,ot)》0的部分。
[0061]
所有五元组的数目可由下式计算出:
[0062][0063]
实施例四:
[0064]
本实施例中,在实施例一的基础上,所述基于web的展示页面利用了fastapi网络框架实现了在线抽取系统的高效实时响应,在模型参数的部署时选用了ray框架,利用其较强的伸缩性满足短时间内的较大数据流传输。在原型系统的可视化展示时利用了d3组件,避开对本地图形数据库的访问带来的耗时过长问题,直接基于html生成可视化的知识图谱,最终形成了事件知识图谱自动构建的在线原型系统。
[0065]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0066]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1