本申请涉及文档处理,特别地涉及一种信息的提取方法、装置、电子设备及存储介质。
背景技术:
1、在论文写作过程中,论文作者需要参考大量文献著作,也经常需要提取文献末尾所引用文献的文字信息。本地存储的文档资料,其类型主要包括:可解析版pdf、扫描版pdf、word和png/jpg图片等。对于能够提取文字的文档类型,如:word文档类型和可解析版pdf类型,直接人工手动提取出参考文献段落,而对于不能直接提取文字的文档类型,如:对于扫描版文件pdf和png/jpg图片等,需要人工借助图片识别工具,先将其转换为文本文档,然后再人工手动提取出所需参考文献信息,需要耗费大量的人工成本。
技术实现思路
1、针对上述相关技术中的问题,本申请提供一种信息的提取方法、装置、电子设备及存储介质。
2、本申请提供了一种信息的提取方法,所述方法包括:
3、获取具有目标信息的文档;
4、在确定不能够提取所述文档中的文字的情况下,将所述文档转换为能够提取文字的目标文档;
5、基于目标信息的关键字确定在所述目标文档中的目标文字段落;
6、基于目标信息的要素从目标文字段落确定目标信息。
7、在一些实施例中,所述方法还包括:
8、确定所述文档的类型;
9、基于所述类型确定是否能够提取所述文档的文字,其中,在确定能够提取所述文档的文字的情况下,基于目标信息的关键字确定在所述文档中的目标文字段落,并基于目标信息的要素从目标文字段落确定目标信息。
10、在一些实施例中,所述将所述文档转换为能够提取文字的目标文档,包括:
11、对所述文档进行扫描,获取图像文件;
12、对所述图像文件进行解析,获得所述图像文件对应的文字及版面信息;
13、基于所述文字和所述版面信息确定所述目标文档。
14、在一些实施例中,所述目标信息包括:参考文献,所述目标信息对应的要素包括以下至少之一:作者姓名、文献标题名称、文献类型、文献出处、年号、期刊号、起始页数、终止页数,所述基于目标信息的要素从目标文字段落确定目标信息,包括:
15、基于目标信息的要素从目标文字段落提取各个要素对应的文字;
16、基于各个要素对应的文字的预设的排序规则确定参考文献。
17、在一些实施例中,所述方法还包括:
18、将所述参考文献进行可视化展示。
19、在一些实施例中,所述方法还包括:
20、获取所述文档的标识信息;
21、建立所述标识信息与所述参考文献之间的对应关系;
22、并保存所述对应关系。
23、在一些实施例中,所述方法还包括:
24、获取针对可视化展示的参考文献中目标参考文献的选择操作;
25、基于所述选择操作搜索所述目标参考文献对应的信息。
26、本申请实施例再提供一种信息的提取装置,包括:
27、第一获取模块,用于获取具有目标信息的文档;
28、转换模块,用于在确定不能够提取所述文档中的文字的情况下,将所述文档转换为能够提取文字的目标文档;
29、第一确定模块,用于基于目标信息的关键字确定在所述目标文档中的目标文字段落;
30、提取模块,用于基于目标信息的要素从目标文字段落确定目标信息。
31、本申请实施例提供一种电子设备,包括:包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如上述任意一项所述信息的提取方法。
32、本申请实施例提供一种存储介质,该存储介质存储的计算机程序,能够被一个或多个处理器执行,能够用来实现上述任一项所述的信息的提取方法。
33、本申请实施例提供一种信息的提取方法、装置、电子设备及存储介质,在确定不能够提取所述文档中的文字的情况下,将所述文档转换为能够提取文字的目标文档;基于目标信息的关键字确定在所述目标文档中的目标文字段落;基于目标信息的要素从目标文字段落确定目标信息,实现对目标信息(如参考文献)的自动并快速地提取,节约用户时间。
1.一种信息的提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述将所述文档转换为能够提取文字的目标文档,包括:
4.根据权利要求1所述的方法,其特征在于,所述目标信息包括:参考文献,所述目标信息对应的要素包括以下至少之一:作者姓名、文献标题名称、文献类型、文献出处、年号、期刊号、起始页数、终止页数,所述基于目标信息的要素从目标文字段落确定目标信息,包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
8.一种信息的提取装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如权利要求1至7任意一项所述信息的提取方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行如权利要求1-7任一项所述信息的提取方法。