信息的提取方法、装置、电子设备及存储介质与流程

文档序号:33736574发布日期:2023-04-06 08:00阅读:33来源:国知局
信息的提取方法、装置、电子设备及存储介质与流程

本申请涉及文档处理,特别地涉及一种信息的提取方法、装置、电子设备及存储介质。


背景技术:

1、在论文写作过程中,论文作者需要参考大量文献著作,也经常需要提取文献末尾所引用文献的文字信息。本地存储的文档资料,其类型主要包括:可解析版pdf、扫描版pdf、word和png/jpg图片等。对于能够提取文字的文档类型,如:word文档类型和可解析版pdf类型,直接人工手动提取出参考文献段落,而对于不能直接提取文字的文档类型,如:对于扫描版文件pdf和png/jpg图片等,需要人工借助图片识别工具,先将其转换为文本文档,然后再人工手动提取出所需参考文献信息,需要耗费大量的人工成本。


技术实现思路

1、针对上述相关技术中的问题,本申请提供一种信息的提取方法、装置、电子设备及存储介质。

2、本申请提供了一种信息的提取方法,所述方法包括:

3、获取具有目标信息的文档;

4、在确定不能够提取所述文档中的文字的情况下,将所述文档转换为能够提取文字的目标文档;

5、基于目标信息的关键字确定在所述目标文档中的目标文字段落;

6、基于目标信息的要素从目标文字段落确定目标信息。

7、在一些实施例中,所述方法还包括:

8、确定所述文档的类型;

9、基于所述类型确定是否能够提取所述文档的文字,其中,在确定能够提取所述文档的文字的情况下,基于目标信息的关键字确定在所述文档中的目标文字段落,并基于目标信息的要素从目标文字段落确定目标信息。

10、在一些实施例中,所述将所述文档转换为能够提取文字的目标文档,包括:

11、对所述文档进行扫描,获取图像文件;

12、对所述图像文件进行解析,获得所述图像文件对应的文字及版面信息;

13、基于所述文字和所述版面信息确定所述目标文档。

14、在一些实施例中,所述目标信息包括:参考文献,所述目标信息对应的要素包括以下至少之一:作者姓名、文献标题名称、文献类型、文献出处、年号、期刊号、起始页数、终止页数,所述基于目标信息的要素从目标文字段落确定目标信息,包括:

15、基于目标信息的要素从目标文字段落提取各个要素对应的文字;

16、基于各个要素对应的文字的预设的排序规则确定参考文献。

17、在一些实施例中,所述方法还包括:

18、将所述参考文献进行可视化展示。

19、在一些实施例中,所述方法还包括:

20、获取所述文档的标识信息;

21、建立所述标识信息与所述参考文献之间的对应关系;

22、并保存所述对应关系。

23、在一些实施例中,所述方法还包括:

24、获取针对可视化展示的参考文献中目标参考文献的选择操作;

25、基于所述选择操作搜索所述目标参考文献对应的信息。

26、本申请实施例再提供一种信息的提取装置,包括:

27、第一获取模块,用于获取具有目标信息的文档;

28、转换模块,用于在确定不能够提取所述文档中的文字的情况下,将所述文档转换为能够提取文字的目标文档;

29、第一确定模块,用于基于目标信息的关键字确定在所述目标文档中的目标文字段落;

30、提取模块,用于基于目标信息的要素从目标文字段落确定目标信息。

31、本申请实施例提供一种电子设备,包括:包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如上述任意一项所述信息的提取方法。

32、本申请实施例提供一种存储介质,该存储介质存储的计算机程序,能够被一个或多个处理器执行,能够用来实现上述任一项所述的信息的提取方法。

33、本申请实施例提供一种信息的提取方法、装置、电子设备及存储介质,在确定不能够提取所述文档中的文字的情况下,将所述文档转换为能够提取文字的目标文档;基于目标信息的关键字确定在所述目标文档中的目标文字段落;基于目标信息的要素从目标文字段落确定目标信息,实现对目标信息(如参考文献)的自动并快速地提取,节约用户时间。



技术特征:

1.一种信息的提取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述文档转换为能够提取文字的目标文档,包括:

4.根据权利要求1所述的方法,其特征在于,所述目标信息包括:参考文献,所述目标信息对应的要素包括以下至少之一:作者姓名、文献标题名称、文献类型、文献出处、年号、期刊号、起始页数、终止页数,所述基于目标信息的要素从目标文字段落确定目标信息,包括:

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.根据权利要求5所述的方法,其特征在于,所述方法还包括:

8.一种信息的提取装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如权利要求1至7任意一项所述信息的提取方法。

10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行如权利要求1-7任一项所述信息的提取方法。


技术总结
本申请提供的一种信息的提取方法、装置、电子设备及存储介质,在确定不能够提取所述文档中的文字的情况下,将所述文档转换为能够提取文字的目标文档;基于目标信息的关键字确定在所述目标文档中的目标文字段落;基于目标信息的要素从目标文字段落确定目标信息,实现对目标信息(如参考文献)的自动并快速地提取,节约用户时间。

技术研发人员:贾敬伍,赵国庆,周长安
受保护的技术使用者:北京中关村科金技术有限公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1