本发明涉及信息处理,尤其涉及一种模型训练方法、信息抽取方法、模型训练装置、信息抽取装置、电子设备及计算机存储介质。
背景技术:
1、随着多媒体技术的发展,电子卷宗数据的呈现方式已包括图像、文本、视频和音频等多种媒体格式,信息抽取其实在知识图谱领域就是知识抽取,形式如输入一个句子,通过实体识别和关系抽取联合模型,直接得到有关系的实体三元组,而对于信息抽取的方法,随着深度学习的发展,以深度学习的联合抽取方法得到极大发展,总体上分为两类:基于共享参数的联合抽取模型和基于联合解码的联合抽取模型。
2、相关技术中,基于共享参数的联合抽取模型和基于联合解码的联合抽取模型的准确率直接与要素信息抽取结果相关,同时信息抽取模型直接用于整个文本信息抽取效果低,并且关系抽取、事件抽取中信息冗余也对信息抽取造成负面影响,因此对含有大量信息的文本信息抽取效果较差。
技术实现思路
1、本发明实施例提供一种模型训练方法、信息抽取方法、装置、电子设备及介质,旨在解决或者部分解决背景技术中存在的问题。
2、为了解决上述技术问题,本发明是这样实现的:
3、第一方面,本发明实施例提供了一种模型训练方法,方法包括:
4、获取由多个样本电子卷宗构成的样本数据集;
5、确定每个所述样本电子卷宗对应的关键要素表,并确定每个所述样本电子卷宗的对应的文本格式数据;
6、根据所述关键要素表,对样本电子卷宗的文本格式数据进行标注,获得携带标签信息的样本电子卷宗的文本格式数据;
7、根据所述携带标签信息的样本电子卷宗的文本格式数据,构建样本数据库;
8、根据所述样本数据库,对初始信息抽取模型进行训练,以获得目标信息抽取模型。
9、可选地,所述确定每个所述样本电子卷宗的对应的文本格式数据的步骤,包括:
10、确定所述样本电子卷宗的对应的文件格式;
11、根据所述样本电子卷宗的对应的文件格式,对所述样本电子卷宗进行格式转换处理,生成所述样本电子卷宗的文本格式数据,并确定所述文本格式数据的字符储存位置。
12、可选地,所述关键要素表包含多个关键要素,所述根据所述关键要素表,对样本电子卷宗的文本格式数据进行标注,获得携带标签信息的样本电子卷宗的文本格式数据的步骤,包括:
13、根据每个所述关键要素对应的要素信息的字符储存位置,在所述样本电子卷宗的文本格式数据进行自动标注,以生成对应的标注框和注释内容。
14、可选地,根据所述携带标签信息的样本电子卷宗的文本格式数据,构建样本数据库的步骤,包括:
15、对所述携带标签信息的样本电子卷宗的文本格式数据,按句进行信息抽取,以获得至少一个待选信息抽取结果;
16、根据所述信息抽取结果中含有的信息量的大小,对所述待选信息抽取结果进行筛选,以获得目标信息结果;
17、确定所述样本数据库中样本示例对应的组织和结构,并将所述目标信息结果以及所述目标信息结果对应的文本格式数据,按照所述样本示例对应的组织和结构进行整合,生成所述样本数据库的样本示例。
18、可选地,所述根据所述样本数据库,对初始信息抽取模型进行训练,以获得目标信息抽取模型步骤,包括:
19、将所述样本数据库中的样本示例划分为训练数据集和验证数据集;
20、根据所述训练数据集,对初始信息抽取模型进行训练,以对所述初始信息抽取模型进行调整,以获得所述优化后的信息抽取模型;
21、根据所述验证数据集,评估所述优化后的信息抽取模型的信息提取准确率;
22、根据所述信息提取准确率与预设阈值的大小关系,确定所述目标信息抽取模型。
23、可选地,所述根据所述信息提取准确率与预设阈值的大小关系,确定所述目标信息抽取模型的步骤,包括:
24、在所述优化后的信息抽取模型的信息提取准确率大于或等于预设阈值的情况下,将所述优化后的信息抽取模型确定为所述目标信息抽取模型;
25、在所述优化后的信息抽取模型的信息提取准确率小于预设阈值的情况下,继续执行所述根据所述训练数据集,对初始信息抽取模型进行训练,以对所述初始信息抽取模型进行调整,以获得所述优化后的信息抽取模型的步骤。
26、第二方面,本发明实施例提供了一种信息抽取方法,方法包括:
27、获取待处理的电子卷宗,并确定所述待处理的电子卷宗对应的关键要素表;
28、将所述待处理的电子卷宗和所述关键要素表输入到目标信息抽取模型中,得到待处理的电子卷宗对应的信息抽取结果,所述目标信息抽取模型根据本技术第一方面任意一项所述的模型训练方法训练得到。
29、第三方面,本发明实施例提供了一种模型训练装置,装置包括:
30、获取模块,用于获取由多个样本电子卷宗构成的样本数据集;
31、确定模块,用于确定每个所述样本电子卷宗对应的关键要素表,并确定每个所述样本电子卷宗的对应的文本格式数据;
32、标注模块,用于根据所述关键要素表,对样本电子卷宗的文本格式数据进行标注,获得携带标签信息的样本电子卷宗的文本格式数据;
33、数据库构建模块,根据所述携带标签信息的样本电子卷宗的文本格式数据,构建样本数据库;
34、训练模块,根据所述样本数据库,对初始信息抽取模型进行训练,以获得目标信息抽取模型。
35、可选的,确定模块包括:
36、文件格式确定子模块,用于确定所述样本电子卷宗的对应的文件格式;
37、文件格式转换子模块,用于根据所述样本电子卷宗的对应的文件格式,对所述样本电子卷宗进行格式转换处理,生成所述样本电子卷宗的文本格式数据,并确定所述文本格式数据的字符储存位置。
38、可选的,标注模块包括:
39、自动标注子模块,用于根据每个所述关键要素对应的要素信息的字符储存位置,在所述样本电子卷宗的文本格式数据进行自动标注,以生成对应的标注框和注释内容。
40、可选的,数据库构建模块包括:
41、信息抽取子模块,用于对所述携带标签信息的样本电子卷宗的文本格式数据,按句进行信息抽取,以获得至少一个待选信息抽取结果;
42、信息筛选子模块,用于根据所述信息抽取结果中含有的信息量的大小,对所述待选信息抽取结果进行筛选,以获得目标信息结果;
43、样本示例生成子模块,用于确定所述样本数据库中样本示例对应的组织和结构,并将所述目标信息结果以及所述目标信息结果对应的文本格式数据,按照所述样本示例对应的组织和结构进行整合,生成所述样本数据库的样本示例。
44、可选的,训练模块,包括:
45、数据集划分子模块,用于将所述样本数据库中的样本示例划分为训练数据集和验证数据集;
46、模型训练子模块,用于根据所述训练数据集,对初始信息抽取模型进行训练,以对所述初始信息抽取模型进行调整,以获得所述优化后的信息抽取模型;
47、模型验证子模块,用于根据所述验证数据集,评估所述优化后的信息抽取模型的信息提取准确率;
48、模型确定子模块,用于根据所述信息提取准确率与预设阈值的大小关系,确定所述目标信息抽取模型。
49、可选地,模型确定子模块包括:
50、第一判断单元,用于在所述优化后的信息抽取模型的信息提取准确率大于或等于预设阈值的情况下,将所述优化后的信息抽取模型确定为所述目标信息抽取模型;
51、第二判断单元,用于在所述优化后的信息抽取模型的信息提取准确率小于预设阈值的情况下,继续执行所述根据所述训练数据集,对初始信息抽取模型进行训练,以对所述初始信息抽取模型进行调整,以获得所述优化后的信息抽取模型的步骤。
52、第四方面,本发明实施例提供了一种信息抽取装置,装置包括:
53、待处理电子卷宗获取模块,用于获取待处理的电子卷宗,并确定所述待处理的电子卷宗对应的关键要素表;
54、输入模块,用于将所述待处理的电子卷宗和所述关键要素表输入到目标信息抽取模型中,得到待处理的电子卷宗对应的信息抽取结果,所述目标信息抽取模型根据本技术第一方面任意一项所述的模型训练方法训练得到。
55、第五方面,本发明实施例提出一种电子设备,电子设备包括:
56、至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,
57、存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本发明实施例第一方面提出或本发明实施例第二方面提出的方法步骤。
58、第六方面,本发明实施例提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例第一方面提出或本发明实施例第二方面提出的方法步骤。
59、本发明实施例包括以下优点:获取由多个样本电子卷宗构成的样本数据集,并确定每个样本电子卷宗对应的关键要素表,并确定每个样本电子卷宗的对应的文本格式数据。根据关键要素表,对样本电子卷宗的文本格式数据进行标注,获得携带标签信息的样本电子卷宗的文本格式数据,并根据携带标签信息的样本电子卷宗的文本格式数据,构建样本数据库。根据样本数据库,对初始信息抽取模型进行训练,以获得目标信息抽取模型。在本技术中,通过具有较高抽取准确率的目标信息抽取模型,来对含有大量信息的电子卷宗进行信息抽取,进而减少人工工作量,并提高信息抽取的准确率。