本申请涉及计算机视觉和自然语言处理,尤其涉及一种文档实体及关系抽取方法、装置及存储介质。
背景技术:
1、在现实中通常存在视觉信息丰富的文档,即视觉富文档,比如购物发票、订单、报表等。这类文档中的主要信息不仅由文档中各个实体本身的语义决定,还与实体间关系有关。文档中的视觉信息和文本间的布局关系为了表达文档中的实体及其关系信息,通常具有一定的规律。
2、针对文档的信息提取,现有技术大多只关注了实体级别的信息提取,例如,多数方法将文档实体信息提取视作一个序列标记问题,并且采用命名实体识别方法提取文档中的信息。在这些类方法中,通常通过光学字符识别引擎获取文档文本后,将文本序列化,然后使用分类模型将每个文本分类为预定义的类别之一。但是序列化对于某些依赖于布局特征的文档来说,存在文档实体信息提取不全面、不准确的技术问题。
技术实现思路
1、本申请实施例提供一种文档实体及关系抽取方法、装置及存储介质,用以解决现有技术中视觉富文档的及关系抽取不全面、不准确的技术问题。
2、第一方面,本申请实施例提供一种文档实体及关系抽取方法,包括:
3、确定图结构的顶点的视觉特征和所述图结构的边的视觉特征;所述图结构以文档中的实体为顶点,以所述实体的外接框之间的连线为边;
4、基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息;所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。
5、在一些实施例中,基于所述顶点的视觉特征和所述边的视觉特征确定所述实体的布局关系,包括:
6、基于所述顶点的视觉特征和所述边的视觉特征利用图神经网络进行边分类,获得所述实体的布局关系。
7、在一些实施例中,基于所述顶点的视觉特征和所述边的视觉特征确定所述实体的类别信息和所述实体之间的语义关系,包括:
8、通过将所述顶点的视觉特征和所述顶点的语义特征进行拼接获得所述图结构的顶点特征;
9、基于所述顶点特征和所述边的视觉特征利用图神经网络进行顶点分类,获得所述实体的类别信息,并基于所述顶点特征和所述边的视觉特征利用图神经网络进行边分类,获得所述实体之间的语义关系。
10、在一些实施例中,确定图结构的顶点的视觉特征,包括:
11、对所述文档的文档图像的像素进行归一化处理,得到灰度图像;
12、基于所述灰度图像确定所述文档的图像特征;
13、基于所述图像特征利用插值法确定图结构的顶点的视觉特征。
14、在一些实施例中,确定所述图结构的边的视觉特征,包括:
15、对任意两个实体的外接框的中心点连线周围进行插值,获得所述边的视觉特征。
16、在一些实施例中,所述方法还包括:
17、基于所述文档的序列化文本的语义特征利用多层感知机进行预测,获得所述文档中的实体;
18、将属于同一实体的序列化文本的语义特征进行平均池化,获得所述顶点的语义特征。
19、在一些实施例中,所述方法还包括:
20、基于预定义词表将所述文档的序列化文本进行分词和令牌化,获得令牌化的词;
21、基于所述令牌化的词确定所述序列化文本的语义特征。
22、第二方面,本申请实施例提供一种文档实体及关系抽取装置,包括:
23、第一确定模块,用于确定图结构的顶点的视觉特征和所述图结构的边的视觉特征;所述图结构以文档中的实体为顶点,以所述实体的外接框之间的连线为边;
24、第二确定模块,用于基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息;所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。
25、第三方面,本申请实施例提供一种电子设备,包括存储器,收发机,处理器;
26、所述存储器用于存储计算机程序;所述收发机用于在所述处理器的控制下收发数据;所述处理器用于读取所述存储器中的计算机程序并执行如上所述第一方面所述的文档实体及关系抽取方法。
27、第四方面,本申请实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行如上所述第一方面所述的文档实体及关系抽取方法。
28、第五方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行如上所述第一方面所述的文档实体及关系抽取方法。
29、第六方面,本申请实施例还提供一种通信设备可读存储介质,所述通信设备可读存储介质存储有计算机程序,所述计算机程序用于使通信设备执行如上所述第一方面所述的文档实体及关系抽取方法。
30、第七方面,本申请实施例还提供一种芯片产品可读存储介质,所述芯片产品可读存储介质存储有计算机程序,所述计算机程序用于使芯片产品执行如上所述第一方面所述的文档实体及关系抽取方法。
31、本申请实施例提供的文档实体及关系抽取方法、装置及存储介质,通过构建文档实体的图结构,基于实体的视觉特征和实体间的边的视觉特征进行顶点分类和边分类,得到实体的布局关系、所述实体的类别信息和所述实体之间的语义关系,实现了文档实体中的布局信息和语义信息的提取,使得对文档实体信息的提取更加完整和准确。
1.一种文档实体及关系抽取方法,其特征在于,包括:
2.根据权利要求1所述的文档实体及关系抽取方法,其特征在于,基于所述顶点的视觉特征和所述边的视觉特征确定所述实体的布局关系,包括:
3.根据权利要求1所述的文档实体及关系抽取方法,其特征在于,基于所述顶点的视觉特征和所述边的视觉特征确定所述实体的类别信息和所述实体之间的语义关系,包括:
4.根据权利要求1所述的文档实体及关系抽取方法,其特征在于,确定图结构的顶点的视觉特征,包括:
5.根据权利要求1所述的文档实体及关系抽取方法,其特征在于,确定所述图结构的边的视觉特征,包括:
6.根据权利要求1所述的文档实体及关系抽取方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的文档实体及关系抽取方法,其特征在于,所述方法还包括:
8.一种文档实体及关系抽取装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括存储器,收发机,处理器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行权利要求1至7中的任一项所述的文档实体及关系抽取方法。