文本抽取模型的训练与文本抽取的方法、装置与流程

文档序号：26139832发布日期：2021-08-03 14:23阅读：来源：国知局

技术特征：

1.一种文本抽取模型的训练方法，包括：

获取训练数据，所述训练数据中包含多个文本与多个文本的方面词标注结果；

构建包含第一抽取模型与第二抽取模型的神经网络模型，所述第一抽取模型的输出为所述第二抽取模型的输入；

将多个文本分别输入所述第一抽取模型，得到所述第一抽取模型针对每个文本输出的实体词预测结果；

使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛，将所述第一抽取模型与训练得到的第二抽取模型组成文本抽取模型。

2.根据权利要求1所述的方法，其中，所述训练数据中还包括多个文本的实体词标注结果。

3.根据权利要求1所述的方法，其中，所述使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛包括：

将多个文本与多个文本的实体词预测结果进行融合；

使用多个文本的融合结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛。

4.根据权利要求2所述的方法，其中，所述使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛，将所述第一抽取模型与训练得到的第二抽取模型组成文本抽取模型包括：

根据多个文本的实体词预测结果与多个文本的实体词标注结果对所述第一抽取模型进行训练，直至所述第一抽取模型收敛；

将训练得到的第一抽取模型与训练得到的第二抽取模型组成文本抽取模型。

5.一种文本抽取的方法，包括：

获取待处理文本；

将所述待处理文本输入文本抽取模型，将所述文本抽取模型的输出结果作为所述待处理文本的抽取结果；

其中，所述文本抽取模型是根据权利要求1-4中任一项方法预先训练得到的。

6.根据权利要求5所述的方法，其中，所述将所述待处理文本输入文本抽取模型包括：

将所述待处理文本中位于预设词典中的实体词，作为目标实体词；

将所述待处理文本与所述目标实体词输入所述文本抽取模型。

7.一种文本抽取模型的训练装置，包括：

第一获取单元，用于获取训练数据，所述训练数据中包含多个文本与多个文本的方面词标注结果；

构建单元，用于构建包含第一抽取模型与第二抽取模型的神经网络模型，所述第一抽取模型的输出为所述第二抽取模型的输入；

处理单元，用于将多个文本分别输入所述第一抽取模型，得到所述第一抽取模型针对每个文本输出的实体词预测结果；

训练单元，用于使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛，将所述第一抽取模型与训练得到的第二抽取模型组成文本抽取模型。

8.根据权利要求7所述的装置，其中，所述第一获取单元获取的训练数据中还包括多个文本的实体词标注结果。

9.根据权利要求7所述的装置，其中，所述训练单元在使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛时，具体执行：

将多个文本与多个文本的实体词预测结果进行融合；

使用多个文本的融合结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛。

10.根据权利要求8所述的装置，其中，所述训练单元在使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛，将所述第一抽取模型与训练得到的第二抽取模型组成文本抽取模型时，具体执行：

根据多个文本的实体词预测结果与多个文本的实体词标注结果对所述第一抽取模型进行训练，直至所述第一抽取模型收敛；

将训练得到的第一抽取模型与训练得到的第二抽取模型组成文本抽取模型。

11.一种文本抽取的装置，包括：

第二获取单元，用于获取待处理文本；

抽取单元，用于将所述待处理文本输入文本抽取模型，将所述文本抽取模型的输出结果作为所述待处理文本的抽取结果；

其中，所述文本抽取模型是根据权利要求7-10中任一项装置预先训练得到的。

12.根据权利要求11所述的装置，其中，所述抽取单元在将所述待处理文本输入文本抽取模型时，具体执行：

将所述待处理文本中位于预设词典中的实体词，作为目标实体词；

将所述待处理文本与所述目标实体词输入所述文本抽取模型。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。

技术总结
本公开提供了一种文本抽取模型的训练与文本抽取的方法，涉及深度学习、知识图谱、自然语言处理技术领域。文本抽取模型的训练方法包括：获取训练数据；构建包含第一抽取模型与第二抽取模型的神经网络模型，第一抽取模型的输出为第二抽取模型的输入；将多个文本分别输入第一抽取模型，得到第一抽取模型针对每个文本输出的实体词预测结果；使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对第二抽取模型进行训练，直至第二抽取模型收敛，将第一抽取模型与训练得到的第二抽取模型组成文本抽取模型。文本抽取的方法包括：获取待处理文本；将待处理文本输入文本抽取模型，将文本抽取模型的输出结果作为待处理文本的抽取结果。

技术研发人员：刘同阳;王述;常万里;郑伟;冯知凡;柴春光;朱勇
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.04.30
技术公布日：2021.08.03

完整全部详细技术资料下载

当前第2页1 2