文档处理方法、系统及相关设备与流程

文档序号:35977315发布日期:2023-11-09 20:19阅读:35来源:国知局
文档处理方法、系统及相关设备与流程

本申请实施例涉及互联网,尤其涉及文档处理方法、系统及相关设备。


背景技术:

1、如pdf等的文档格式,因其在不同平台环境下渲染效果的高度一致性,成为很多重要文档事实上的标准格式。

2、实际应用中,用户常需在pdf文档中查找到关键内容。然而目前对pdf文档内容的定位,往往采用直接编码的方式,这使得每一次定位就需要编写一份匹配代码,且效率比较低,致使面对大量的定位需求就需相应地编写大量的匹配代码。

3、针对于此,相关技术并未提供有效的解决方案。


技术实现思路

1、本申请实施例提供了文档处理方法、系统及相关设备,用于通过通用的定位规则满足不同内容的定位需求。

2、本申请实施例第一方面提供一种文档处理方法,包括:

3、解析初始文档,以得到所述初始文档的目录信息、段落信息和各字符坐标,所述初始文档包含pdf格式文档;

4、根据目标文本所在段落的前向目录项的信息,配置所述目标文本的内容定位规则;其中,所述前向目录项指处于所述所在段落上文的目录项;

5、执行所述内容定位规则,以确定所述目标文本在所述初始文档中的位置。

6、本申请第一方面所述的方法在具体实施时可采用本申请第二方面所述的内容实现。

7、本申请实施例第二方面提供一种文档处理系统,包括:

8、解析单元,用于解析初始文档,以得到所述初始文档的目录信息、段落信息和各字符坐标,所述初始文档包含pdf格式文档;

9、处理单元,用于根据目标文本所在段落的前向目录项的信息,配置所述目标文本的内容定位规则;其中,所述前向目录项指处于所述所在段落上文的目录项;

10、所述处理单元,还用于执行所述内容定位规则,以确定出所述目标文本在所述初始文档中的位置。

11、本申请实施例第三方面提供一种电子设备,包括:

12、中央处理器,存储器以及输入输出接口;

13、所述存储器为短暂存储存储器或持久存储存储器;

14、所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。

15、本申请实施例第四方面提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。

16、本申请实施例第五方面提供一种包含指令或计算机程序的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。

17、从以上技术方案可以看出,本申请实施例至少具有以下优点:

18、本申请实施例能解析得到初始文档中的目录、段落和字符坐标等文档信息,进而根据目录和段落信息配置出通用性强、简洁的内容定位规则,使得通过内容定位规则,便可便捷确定目标文本在初始文档中的位置,从而有效减少编写和维护规则的工作量,并增强对文档内容的解析和定位效果,提高用户对文档的审阅体验。



技术特征:

1.一种文档处理方法,其特征在于,包括:

2.根据权利要求1所述的文档处理方法,其特征在于,所述目录项信息包含目录项层级信息,所述目录项层级指当前目录项属于父级或子级;所述根据目标文本所在段落的前向目录项的信息,配置所述目标文本的内容定位规则,包括:

3.根据权利要求1所述的文档处理方法,其特征在于,解析得到所述初始文档的目录项信息和各字符坐标的过程,包括:

4.根据权利要求3所述的文档处理方法,其特征在于,所述目录树的构建过程,包括:

5.根据权利要求1所述的文档处理方法,其特征在于,解析得到所述初始文档的段落信息的过程包括:

6.根据权利要求5所述的文档处理方法,其特征在于,将字符坐标位于同一所述段落区域的各字符作为一个段落的字符之后,所述方法还包括:

7.根据权利要求1所述的文档处理方法,其特征在于,所述目录项信息包含目录层级信息;解析初始文档之后,所述方法还包括:

8.一种文档处理系统,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7中任意一项所述的方法。


技术总结
本申请公开了文档处理方法、系统及相关设备,该方法包括:解析得到初始文档的目录信息、段落信息和各字符坐标;根据目标文本所在段落的前向目录项的信息,配置目标文本的内容定位规则;执行内容定位规则,以确定出目标文本在初始文档中的位置。其中,可利用图像边界识别算法解析PDF文档的段落及目录等结构信息,进而根据这些结构信息配置出通用性强、简洁的内容定位规则,使得通过该规则便可确定目标文本在文档中的坐标,有效减少编写和维护规则的工作量,并增强对文档内容的解析和定位效果。此外,文档解析出的中间信息表能通用于不同的下游处理逻辑;本方法还可以高保真显示原文,并支持拓展出目录和批注等内容在文档中的前端阅览效果。

技术研发人员:王仁勇,尚东东,孙德旺,谢奕红,李勇,朱辉晃,张平兰,毛瑞彬,杨建明
受保护的技术使用者:深圳证券信息有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1