基于文本特征的信息抽取方法、装置及电子设备与流程

文档序号：30621833发布日期：2022-07-02 03:34阅读：来源：国知局

技术特征：
1.一种基于文本特征的信息抽取方法,其特征在于,所述方法包括：基于预训练模型对待处理的信息文本进行预训练编码，生成文本特征；将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器；分别得到通用域特征和私有域特征，所述通用域特征为通用域特征抽取器的输出，所述私有域特征为私有域特征抽取器的输出；将通用域特征和私有域特征进行耦合，将耦合结果输入混合专家预测器中进行解码，生成对应的信息标签，完成信息抽取操作。2.根据权利要求1所述的方法，其特征在于，所述基于预训练模型对待处理的信息文本进行预训练编码，生成文本特征，包括：基于bert模型对待处理的信息文本进行预训练编码，生成文本特征，所述文本特征为固定维度的字符向量或词向量。3.根据权利要求2所述的方法，其特征在于，所述基于bert模型对待处理的信息文本进行预训练编码，生成文本特征，所述文本特征为固定维度的字符向量或词向量，包括：获取信息文本中语言的种数，提取信息文本中每一种语言，生成单一语言对应的文本数据，所述文本数据数目与语言的种数相同；信息文本包括至少两种语言；将每一种文本数据分别输入bert模型，生成对应的文本特征，所述文本特征为固定维度的字符向量或词向量。4.根据权利要求3所述的方法，其特征在于，所述将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器前，还包括：预先构建通用域特征抽取器，所述通用域特征抽取器包括采用lstm模型的学习器和采用mlp模型的语言判别器。5.根据权利要求4所述的方法，其特征在于，所述将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器前，还包括：预先构建私有域特征抽取器，所述预先构建通用域特征抽取器包括mlp模型。6.根据权利要求5所述的方法，其特征在于，所述将通用域特征和私有域特征进行耦合，包括：将通用域特征和私有域特征按照第一预定权重进行拼接，生成耦合结果。7.根据权利要求6所述的方法，其特征在于，所述将耦合结果输入混合专家预测器中进行解码，生成对应的信息标签，完成信息抽取操作，包括：将耦合结果输入混合专家预测器的mp模型后，按照第二预定权重进行拼接，生成拼接好的特征向量；将特征向量输入crf解码器进行解码，生成对应的信息标签，完成信息抽取操作。8.一种基于文本特征的信息抽取装置，其特征在于，所述装置包括：预训练编码模块，用于基于预训练模型对待处理的信息文本进行预训练编码，生成文本特征；通用域特征和私有域特征抽取模块，用于将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器；分别得到通用域特征和私有域特征，所述通用域特征为通用域特征抽取器的输出，所述私有域特征为私有域特征抽取器的输出；解码模块，用于将通用域特征和私有域特征进行耦合，将耦合结果输入混合专家预测
器中进行解码，生成对应的信息标签，完成信息抽取操作。9.一种电子设备，其特征在于，所述电子设备包括至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一项所述的基于文本特征的信息抽取方法。10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-7任一项所述的基于文本特征的信息抽取方法。

技术总结
本发明公开了一种基于文本特征的信息抽取方法、装置及电子设备，方法包括：基于预训练模型对待处理的信息文本进行预训练编码，生成文本特征；将文本特征分别输入预先构建的通用域特征抽取器和私有域特征抽取器；分别得到通用域特征和私有域特征，所述通用域特征为通用域特征抽取器的输出，所述私有域特征为私有域特征抽取器的输出；将通用域特征和私有域特征进行耦合，将耦合结果输入混合专家预测器中进行解码，生成对应的信息标签，完成信息抽取操作。本发明实施例通过通用域和私有域的丰富语义信息，结合CRF进行解码，确保实体抽取任务的准确率，提升了金融信息的抽取效率。提升了金融信息的抽取效率。提升了金融信息的抽取效率。

技术研发人员：林远平甘伟超喻广博邹鸿岳周靖宇
受保护的技术使用者：北京快确信息科技有限公司
技术研发日：2022.02.24
技术公布日：2022/7/1

完整全部详细技术资料下载

当前第2页1 2