实体抽取方法、装置、设备和存储介质与流程

文档序号:26139828发布日期:2021-08-03 14:23阅读:76来源:国知局
实体抽取方法、装置、设备和存储介质与流程

本公开涉及人工智能技术领域,具体涉及计算机视觉、深度学习、知识图谱等技术领域,尤其涉及一种实体抽取方法、装置、设备和存储介质。



背景技术:

随着数字化时代的来临,许多行业都在进行数字化转型,文档数据从传统的文本文档逐渐转变为电子文档。为了便于理解电子文档,可以抽取电子文档中的目标实体。

相关技术中,可以抽取电子文档中的文本信息,对文本信息进行处理,以获得电子文档中的目标实体。



技术实现要素:

本公开提供了一种实体抽取方法、装置、设备和存储介质。

根据本公开的一方面,提供了一种实体抽取方法,包括:获取电子文档的多个模态的信息;基于所述多个模态的信息进行融合处理,以获得融合信息;基于所述融合信息抽取所述电子文档中的目标实体。

根据本公开的另一方面,提供了一种实体抽取装置,包括:获取模块,用于获取电子文档的多个模态的信息;融合模块,用于基于所述多个模态的信息进行融合处理,以获得融合信息;抽取模块,用于基于所述融合信息抽取所述电子文档中的目标实体。

根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

根据本公开的技术方案,可以提高电子文档的实体抽取的准确度。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是根据本公开第一实施例的示意图;

图2是根据本公开第二实施例的示意图;

图3是根据本公开第三实施例的示意图;

图4是根据本公开第四实施例的示意图;

图5是根据本公开第五实施例的示意图;

图6是根据本公开第六实施例的示意图;

图7是根据本公开第七实施例的示意图;

图8是用来实现本公开实施例的实体抽取方法中任一方法的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

相关技术中,针对电子文档,采用对电子文档中的文本信息进行处理的方式进行实体抽取,但是,仅处理文本信息,忽视了文字间的位置关系等、信息,影响抽取的实体的准确度。

为了提高电子文档中实体的抽取准确度,本公开提供如下实施例。

图1是根据本公开第一实施例的示意图。该实施例提供一种实体抽取方法,包括:

101、获取电子文档的多个模态的信息。

102、对所述多个模态的信息进行融合处理,以获得融合信息。

103、基于所述融合信息抽取所述电子文档中的目标实体。

与相关技术仅采用文本信息进行处理不同,本实施例中,会获取多个模态的信息,并基于多个模态的信息进行实体抽取,从而可以提高抽取的实体的准确度。

电子文档可以分为图像文档和非图像文档,图像文档可以是对纸质文档进行扫描后生成,或者由计算机生成;非图像文档比如包括:网页文档和各种办公文档,办公文档比如包括pdf文档、word文档、ppt文档等。

模态(modal)是指信息形式,比如,文本(text)、图像(image)、布局(layout)等。电子文档中包括多种模态的信息,比如包括文本信息、布局信息等,对于图像文档,多种模态的信息还可以包括图像信息。具体地,文本信息是指电子文档中包括的具体的文本内容,比如为“北京大学生”;布局信息可以用文本内容中的词或图像文档分割后的区域图像的边界框(boundingbox)表示,边界框可以用4个边界坐标值(x0,x0,y0,y1)、宽(w)、高(h)共6个信息来表示。针对图像文档,可以对图像文档进行图像分割,将图像分割后得到的小图像(或称为区域图像)作为图像信息,图像分割时可以进行网格均分。通过对图像进行图像分割,可以使得图像信息包括整体的图像信息和局部的图像信息,整体的图像信息可以更好地描述电子文档的整体页面结构信息;通过补充局部图像信息可以更好地描述电子文档的局部细节信息。

通过多个模态的信息包括文本信息,还包括布局信息,还可以包括图像信息,使得实体抽取时不仅可以参考文本信息,还可以参考布局、视觉等信息,从而更好地对电子文档进行语义理解,提高实体抽取的准确度。

如图2所示,可以采用信息提取模块201提取电子文档的多个模态的信息。具体地,可以对电子文档进行文档解析,以获得文本信息和布局信息,对于图像文档,还可以对图像文档进行图像分割,以获得图像信息。图2中以电子文档包括网页文档、pdf文档和扫描件文档为例,其中,对于网页文档和pdf文档,可以对其进行文档解析,以获得文本信息和布局信息;对于扫描件文档,由于扫描件文档是图像文档,除了文档解析之外还可以进行图像分割,以获得图像信息。文档解析时,对网页文档,可以进行超文本标记语言(hypertextmarkuplanguage,html)解析;对pdf文档,可以进行pdf文档解析;对于图像文档,比如扫描件文档,可以进行光学字符识别(opticalcharacterrecognition,ocr)。

通过对电子文档进行文档解析,可以获得所需的多模态的信息中的文本信息和布局信息。

通过对图像文档进行图像分割,可以获得所需的多模态的信息中的图像信息。

如图2所示,获得多个模态的信息后,可以采用文档理解预训练模型202对多个模态的信息进行融合处理,输出融合信息。实体抽取模块203可以结合融合信息和预设的知识图谱(knowledgegraph,kg),抽取电子文档中的目标实体。

实体(entity)是指可独立存在的事物或概念,比如人名、地名、机构名、概念(比如简介)等。

知识图谱是一种基于图的数据结构,由节点(point)和边(edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”。

目标实体可以为核心实体,核心实体是指电子文档主要描述的一个或多个实体,核心实体能够反映电子文档所描述的主题内容。除了核心实体,电子文档中还可以包括相关实体,相关实体是与核心实体具有一定的关联关系,但不影响用户理解主题内容的实体。

以某档娱乐节目的网页文档为例,假设该网页文档中描述了节目aa的节目形式、内容等,以及主要嘉宾包括xx和yy,另外,该节目在某期邀请了嘉宾zz,则该网页文档的核心实体可以包括节目名称、主要嘉宾的名字,即aa、xx、yy,相关实体可以包括某期嘉宾的名字,即zz。

如图3所示,文档理解预训练模型可以包括:输入网络301和编码器302。输入网络301用于将多个模态中的各个模态的信息转换为对应的向量,并基于所述各个模态的向量,获得输入向量x。编码器302用于对所述输入向量进行编码处理,以获得编码向量,将所述编码向量作为融合信息。进一步地,编码器可以为基于空间感知自注意力的编码器。

具体地,可以采用文本编码层将文本信息编码成文本向量(textembedding),采用图像编码层将图像信息编码成图像向量(imageembedding),采用布局编码层将布局信息编码成布局向量(layoutembedding)。之后,可以将文本向量和图像向量进行拼接(contact),在拼接后得到的向量与布局向量进行对应位置的相加后得到输入向量。

通过基于各个模态的向量获得输入向量,以及对输入向量进行编码处理,可以获得多个模态的信息进行深度融合,可以提高实体抽取的准确度。

图像编码层和布局编码层可以采用各种相关技术实现,比如layoutlm。

对于文本编码层,本实施例中,可以采用字向量和实体向量混合编码的方式。即,针对文本信息,可以执行:获得所述文本信息中的文字的字向量;获得所述文本信息中的先验实体的实体向量;对所述字向量和所述实体向量进行混合编码,以获得混合向量;基于所述混合向量获得所述文本向量。

如图4所示,针对文本信息,可以进行字符(token)切分,得到文本信息中的每个字,再采用各种相关技术中,将字转换为对应的字向量。另外,文本信息中可以包括一些先验实体,比如,可以对文本信息进行分词处理,将得到的每个词与知识图谱中的实体进行比对,将在知识图谱中的词作为先验实体。获得先验实体后,可以将其转换为实体向量。实体向量的转换方式可以类似词向量的转换关系,或者,进一步地,在转换时除了参考当前实体本身的信息之外,还可以参考知识图谱中的与当前实体存在关联的其他实体或者该当前实体的具体属性信息等进行转换。

获得混合向量后,还可以针对每个字,将混合向量与其他向量进行相加运算,图4中以其他向量为位置向量(positionembedding)为例,但是,可以理解的是,其他向量还可以包括分段向量(segmentembedding)等。上述各向量,比如实体向量、字向量、位置向量的获得方式可以参见各种相关技术,不再详述。

本实施例中,针对实体向量和字向量,还进行了混合编码。以文本信息为“大学生来应聘”为例,假设先验实体为“大学生”,图5示出了字向量和实体向量的混合编码过程,即,将先验实体的实体向量重复该先验实体包括的字的数量的次数,并叠加到该先验实体包括的每个字上。图5以一个先验实体为例,若文本信息中包括多个先验实体,则对应每个先验实体执行一次上述的重复和叠加操作。

实体向量的维度与字向量的维度可能不一致,当两者不一致时,如图5所示,可以采用预设的转换矩阵对实体向量进行转换,得到与字向量的维度一致的转换后的实体向量,再将维度一致的转换后的实体向量与字向量进行相加。

通过采用字向量和实体向量的混合编码,可以得到包含更丰富信息的文本向量。

本实施例中,编码器以基于空间感知的自注意力的编码器为例,通常的编码器,比如transformer编码器,也采用了自注意力机制,transformer编码器采用的自注意力机制可以称为传统自注意力机制,传统自注意力机制是隐式地引入空间位置关系,而基于空间感知的自注意力是显式地引入空间位置关系。

比如,传统的自注意力机制的注意力得分用αij表示,则基于空间感知的自注意力机制的注意力得分可以表示为α′ij,b(1d)分别是可学习的相对位置偏差值,(xi,yi)是第i个边界框的左上角坐标。

通过采用基于空间感知的自注意力的编码器,可以获得包含更精准的空间位置信息的融合信息,以更好地进行实体抽取。

获得融合信息后,可以基于融合信息进行电子文档中的目标实体的抽取。具体可以包括:基于所述融合信息和预设的知识图谱,获得所述电子文档中的候选实体;采用预设的分类模型,在所述候选实体中选择出所述电子文本中的目标实体。

如图6所示,可以采用实体链接(entitylink)等技术,将融合信息与知识图谱中的实体进行链接,将链接到的实体作为候选实体,再采用分类模型判断候选实体是否为核心实体,以及输出核心实体。

实体链接(entitylinking)是指将文本信息中的一些字符串映射到知识图谱对应的实体上。比如,文本信息中的某个词可以是水果名称,也可以是手机品牌,则可以基于文本信息的融合信息确定该词链接到知识图谱中的水果名称上还是手机品牌上。

分类模型可以是预先训练的二分类模型,经过该分类模型的处理,可以获知各个候选实体是否为核心实体,并输出核心实体。比如,文本信息为“北京大学生”,经过上述处理确定的候选实体可以包括“北京”、“北京大学”和“大学生”,经过分类模型的处理,确定的核心实体可以为“大学生”。分类模型具体可以是xgboost分类模型。

另外,需要说明的是,实体抽取模块确定的候选实体和核心实体,与文本向量确定时采用的先验实体的关系不限定,比如,候选实体和核心实体可以不属于先验实体。基于上述示例,先验实体可以包括“北京”、“北京大学”,但不包括“大学生”,但确定的核心实体可以为“大学生”。

通过结合融合信息和知识图谱,可以提供更准确的候选实体,采用分类模型可以提取出更准确的核心实体。

图7是根据本公开第七实施例的示意图,本实施例提供一种实体抽取装置。如图7所示,实体抽取装置700包括获取模块701、融合模块702和抽取模块703。

获取模块701用于获取电子文档的多个模态的信息;融合模块702用于基于所述多个模态的信息进行融合处理,以获得融合信息;抽取模块703用于基于所述融合信息抽取所述电子文档中的目标实体。

一些实施例中,所述融合模块具体用于:将所述多个模态的信息中的各个模态的信息转换为各个模态的向量;基于所述各个模态的向量,获得输入向量;对所述输入向量进行编码处理,以获得编码向量,作为所述融合信息。

一些实施例中,所述多个模态的信息包括文本信息,所述文本信息对应的向量为文本向量,所述融合模块进一步具体用于:获得所述文本信息中的字的字向量;获得所述文本信息中的先验实体的实体向量;对所述字向量和所述实体向量进行混合编码,以获得混合向量;基于所述混合向量获得所述文本向量。

一些实施例中,所述融合模块具体用于:采用基于空间感知自注意力的编码器,对所述输入向量进行编码处理。

一些实施例中,所述抽取模块具体用于:基于所述融合信息和预设的知识图谱,获得所述电子文档中的候选实体;采用预设的分类模型,在所述候选实体中选择出所述电子文本中的目标实体。

一些实施例中,所述多个模态的信息包括文本信息、布局信息、图像信息中的至少两个,所述获取模块具体用于:对所述电子文档进行文档解析和/或图像分割,以获得所述多个模态的信息。

本实施例中,会获取多个模态的信息,并基于多个模态的信息进行实体抽取,从而可以提高抽取的实体的准确度。

可以理解的是,本公开实施例中,不同实施例中的相同或相似内容可以相互参考。

可以理解的是,本公开实施例中的“第一”、“第二”等只是用于区分,不表示重要程度高低、时序先后等。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram803中,还可存储电子设备800操作所需的各种程序和数据。计算单元801、rom802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。

电子设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如实体抽取方法。例如,在一些实施例中,实体抽取方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到ram803并由计算单元801执行时,可以执行上文描述的实体抽取方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行实体抽取方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务(″virtualprivateserver″,或简称″vps″)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1