本申请涉及信息抽取,特别是涉及一种科学文献信息抽取方法、装置、计算机设备和存储介质。
背景技术:
1、科学文献作为记录科学研究结果的文献,通常会记录和描述研究问题、方法、结果和结论等,对于推进学术研究、传播研究成果、促进知识共享等具有重要意义。通过科学文献,研究人员可以了解前人的研究成果、研究现状和发展趋势,从而更好地开展自己的研究工作。然而,随着信息技术的发展,科学文献的规模和蕴含的信息量越来越大,仅仅依靠人工阅读和获取其中有用的信息需要耗费大量时间和精力,因此,信息抽取技术作为一种能够实现自然语言处理和数据库技术结合的工具,逐渐被研究人员广泛使用。
2、传统的信息抽取技术,通常是采用传统的机器学习方法,基于规则或分类器,例如支持向量机、决策树等,进行科学文献的信息抽取,然而,这种方法仅在一些特定领域或数据集上具有较好的效果,并不适用于全部的科学文献,且由于科学文献具有多元异构的特点,来源、格式等多种多样,极大的影响了信息抽取的准确性和鲁棒性。因此,相关技术中亟需一种能够对多元异构的科学文献进行信息抽取,同时提高抽取的准确率和可扩展性的方式。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够对多元异构的科学文献进行抽取,同时提高抽取的准确率和可扩展性的科学文献信息抽取方法、装置、计算机设备和计算机可读存储介质。
2、第一方面,本申请提供了一种科学文献信息抽取方法。所述方法包括:
3、获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式;
4、基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令;
5、基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息;
6、基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型;
7、将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。
8、可选的,在本申请的一个实施例中,所述获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式包括:
9、识别参考科学文献的来源和载体格式;
10、基于所述来源和载体格式确定信息抽取方式。
11、可选的,在本申请的一个实施例中,所述基于所述参考科学文献和信息抽取方式构建信息抽取指令集包括:
12、基于所述参考科学文献的内容和元数据确定多个信息抽取对象;
13、基于所述多个信息抽取对象和信息抽取方式生成多个信息抽取指令,组成信息抽取指令集。
14、可选的,在本申请的一个实施例中,所述基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集之后包括:
15、基于所述参考科学文献和标注信息确定信息抽取指令的抽取准确率和抽取完整率。
16、可选的,在本申请的一个实施例中,所述基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型包括:
17、将所述参考科学文献输入初始信息抽取模型,得到初始信息;
18、基于所述初始信息和标注信息确定抽取损失函数,基于所述抽取损失函数调整所述初始信息抽取模型的参数;
19、将所述参考科学文献输入经过调整的初始信息抽取模型,得到抽取结果,并将所述抽取结果输入奖励评分模型,得到评分结果,其中,所述奖励评分模型基于调整后的初始信息抽取模型训练得到;
20、基于所述抽取结果和评分结果确定强化损失函数,基于所述强化损失函数调整所述初始信息抽取模型的参数,得到目标信息抽取模型。
21、可选的,在本申请的一个实施例中,所述奖励评分模型基于调整后的初始信息抽取模型通过以下方式训练得到:
22、将所述初始信息输入经过调整的初始信息抽取模型,得到累积奖励;
23、基于所述累积奖励和标准评分确定奖励损失函数,基于所述累积奖励和策略损失函数调整初始信息抽取模型的参数,得到奖励评分模型。
24、可选的,在本申请的一个实施例中,所述将待处理科学文献输入所述目标信息抽取模型,得到目标信息抽取结果之后包括:
25、将所述目标信息抽取结果存入科学文献抽取数据库。
26、第二方面,本申请还提供了一种科学文献信息抽取装置。所述装置包括:
27、参考科学文献获取模块,用于获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式;
28、信息抽取指令集构建模块,用于基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令;
29、信息抽取数据集构建模块,用于基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息;
30、信息抽取模型训练模块,用于基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型;
31、信息抽取模块,用于将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。
32、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述各个实施例所述方法的步骤。
33、第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个实施例所述方法的步骤。
34、上述科学文献信息抽取方法、装置、计算机设备和存储介质,首先,获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式,之后,基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令,之后,基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息,之后,基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型,最后,将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。也就是说,通过基于科学文献的特点,采用不同的信息抽取方式,并基于不同的信息抽取方式生成信息抽取指令,构建训练数据集,训练抽取模型,实现了从多元异构的科学文献中抽取信息,且采用生成式模型,能够自动适应不同领域和格式的科学文献,提高了信息抽取的准确性和可扩展性。
1.一种科学文献信息抽取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述参考科学文献和信息抽取方式构建信息抽取指令集包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集之后包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型包括:
6.根据权利要求5所述的方法,其特征在于,所述奖励评分模型基于调整后的初始信息抽取模型通过以下方式训练得到:
7.根据权利要求1所述的方法,其特征在于,所述将待处理科学文献输入所述目标信息抽取模型,得到目标信息抽取结果之后包括:
8.一种科学文献信息抽取装置,其特征在于,所述装置包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。