实体抽取方法、装置、设备和存储介质与流程

文档序号：26139828发布日期：2021-08-03 14:23阅读：来源：国知局

技术特征：

1.一种实体抽取方法，包括：

获取电子文档的多个模态的信息；

基于所述多个模态的信息进行融合处理，以获得融合信息；

基于所述融合信息抽取所述电子文档中的目标实体。

2.根据权利要求1所述的方法，其中，所述基于所述多个模态的信息进行融合处理，以获得融合信息，包括：

将所述多个模态的信息中的各个模态的信息转换为各个模态的向量；

基于所述各个模态的向量，获得输入向量；

对所述输入向量进行编码处理，以获得编码向量，作为所述融合信息。

3.根据权利要求2所述的方法，其中，所述多个模态的信息包括文本信息，所述文本信息对应的向量为文本向量，所述将所述多个模态的信息中的各个模态的信息转换为各个模态的向量，包括：

获得所述文本信息中的字的字向量；

获得所述文本信息中的先验实体的实体向量；

对所述字向量和所述实体向量进行混合编码，以获得混合向量；

基于所述混合向量获得所述文本向量。

4.根据权利要求2或3所述的方法，其中，所述对所述输入向量进行编码处理，包括：

采用基于空间感知自注意力的编码器，对所述输入向量进行编码处理。

5.根据权利要求1-4任一项所述的方法，其中，所述基于所述融合信息抽取所述电子文档中的目标实体，包括：

基于所述融合信息和预设的知识图谱，获得所述电子文档中的候选实体；

采用预设的分类模型，在所述候选实体中选择出所述电子文本中的目标实体。

6.根据权利要求1-5任一项所述的方法，其中，所述多个模态的信息包括文本信息、布局信息、图像信息中的至少两个，所述获取电子文档的多个模态的信息，包括：

对所述电子文档进行文档解析和/或图像分割，以获得所述多个模态的信息。

7.一种实体抽取装置，包括：

获取模块，用于获取电子文档的多个模态的信息；

融合模块，用于基于所述多个模态的信息进行融合处理，以获得融合信息；

抽取模块，用于基于所述融合信息抽取所述电子文档中的目标实体。

8.根据权利要求7所述的装置，其中，所述融合模块具体用于：

将所述多个模态的信息中的各个模态的信息转换为各个模态的向量；

基于所述各个模态的向量，获得输入向量；

对所述输入向量进行编码处理，以获得编码向量，作为所述融合信息。

9.根据权利要求8所述的装置，其中，所述多个模态的信息包括文本信息，所述文本信息对应的向量为文本向量，所述融合模块进一步具体用于：

获得所述文本信息中的字的字向量；

获得所述文本信息中的先验实体的实体向量；

对所述字向量和所述实体向量进行混合编码，以获得混合向量；

基于所述混合向量获得所述文本向量。

10.根据权利要求8或9所述的装置，其中，所述融合模块具体用于：

采用基于空间感知自注意力的编码器，对所述输入向量进行编码处理。

11.根据权利要求7-10任一项所述的装置，其中，所述抽取模块具体用于：

基于所述融合信息和预设的知识图谱，获得所述电子文档中的候选实体；

采用预设的分类模型，在所述候选实体中选择出所述电子文本中的目标实体。

12.根据权利要求11所述的装置，其中，所述多个模态的信息包括文本信息、布局信息、图像信息中的至少两个，所述获取模块具体用于：

对所述电子文档进行文档解析和/或图像分割，以获得所述多个模态的信息。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。

技术总结
本公开公开了一种实体抽取方法、装置、设备和存储介质，涉及人工智能技术领域，具体涉及计算机视觉、深度学习、知识图谱等技术领域。实体抽取方法包括：获取电子文档的多个模态的信息；基于所述多个模态的信息进行融合处理，以获得融合信息；基于所述融合信息抽取所述电子文档中的目标实体。本公开可以提高电子文档的实体抽取的准确度。

技术研发人员：王述;冯知凡;柴春光;朱勇
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.04.29
技术公布日：2021.08.03

完整全部详细技术资料下载

当前第2页1 2