一种文档解析方法、装置、设备和文档搜索方法与流程

文档序号:37301741发布日期:2024-03-13 20:49阅读:11来源:国知局
一种文档解析方法、装置、设备和文档搜索方法与流程

本申请涉及文档解析,尤其涉及一种文档解析方法、装置、设备和文档搜索方法。


背景技术:

1、随着互联网技术的发展,需要从大量文档中高效准确的检索所需要的信息,文档智能搜索技术在各种领域中扮演着越来越重要的角色,如何将文档智能搜索发展的更全面、更智能成为技术人员研究的主要问题。

2、现有的文档智能搜索仅能简单的提取单栏文档中的数据,对于文本内容被分成两列的双栏场景,分析能力不够,无法支持用户对相关内容的提问或统计,使用极不方便。


技术实现思路

1、有鉴于此,本申请提供一种文档解析方法、装置、设备和文档搜索方法,用以从各种不同的分栏结构中解析出相应的文本内容,以提高对文档的检索能力。

2、具体地,本申请是通过如下技术方案实现的:

3、本申请第一方面提供一种文档解析方法,所述方法包括:

4、遍历文档的每一文档页,针对当前遍历的文档页,获取所述文档页的识别结果;其中,所述识别结果包括所述文档页包含的多个文本框以及所述文档页的宽度;

5、根据所述文档页的宽度及每个所述文本框的坐标,确定每个所述文本框的类型;其中,所述文本框的类型表征所述文本框与所述文档页在宽度方向上的中轴线的位置关系;

6、根据每个所述文本框的类型,确定所述文档页的分栏结构;

7、采用与所述分栏结构适配的分栏解析方法对所述文档页进行解析,得到所述文档页的解析结果;

8、根据所述文档的每一所述文档页的解析结果,得到所述文档的解析结果。

9、本申请第二方面提供一种文档解析装置,所述装置包括获取模块、确定模块、解析模块和合并模块;其中,

10、所述获取模块,用于遍历文档的每一文档页,针对当前遍历的文档页,获取所述文档页的识别结果;其中,所述识别结果包括所述文档页包含的多个文本框以及所述文档页的宽度;

11、所述确定模块,用于根据所述文档页的宽度及每个所述文本框的坐标,确定每个所述文本框的类型;其中,所述文本框的类型表征所述文本框与所述文档页在宽度方向上的中轴线的位置关系;

12、所述确定模块,用于根据每个所述文本框的类型,确定所述文档页的分栏结构;

13、所述解析模块,用于采用与所述分栏结构适配的分栏解析方法对所述文档页进行解析,得到所述文档页的解析结果;

14、所述合并模块,用于根据所述文档的每一所述文档页的解析结果,得到所述文档的解析结果。

15、本申请第三方面提供一种文档解析设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请第一方面提供的任一项所述方法的步骤。

16、本申请第四方面提供一种文档搜索方法,所述方法包括:

17、在检测到用户搜索的问题时,将所述问题输入到预先训练好的智能问答模型中,以由所述智能问答模型从预先建立的知识库中识别所述问题对应的答案;其中,所述预先建立的知识库至少基于文档的解析结果构建;所述文档的解析结果基于本申请第一方面提供的任一项所述的文档解析方法获取;

18、将所述答案和所述答案所在的文档展示给所述用户。

19、本申请提供的文档解析方法、装置和设备,通过遍历文档的每一文档页,并针对当前遍历的文档页,获取文档页的识别结果,然后根据文档页的宽度及每个文本框的坐标,确定每个文本框的类型,进而根据每个文本框的类型,确定文档页的分栏结构,再采用与分栏结构适配的分栏解析方法对文档页进行解析,得到文档页的解析结果,最后根据文档的每一文档页的解析结果,得到文档的解析结果。这样,通过确定文本框的类型,进而根据文本框的类型,得到文档页的分栏结构,最后采用对应的分栏解析方法处理文档页,可以高效准确的从不同分栏结构的文档中解析出相关的文本内容,进而提高对文档的检索能力。



技术特征:

1.一种文档解析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定文档页的分栏结构,包括:

3.根据权利要求2所述的方法,其特征在于,在所述分栏结果为混合栏时,所述采用与所述分栏结构适配的分栏解析方法对所述文档页进行解析,得到所述文档页的解析结果,包括:

4.根据权利要求3所述的方法,其特征在于,识别所述文档页中的单栏区域和双栏区域,包括:

5.根据权利要求2或4所述的方法,其特征在于,所述识别所述文档页或所述切分区域包含的多个文本框中满足双栏特征的双栏文本框对,得到所述文档页或所述切分区域包含的双栏文本框对,包括:

6.根据权利要求1所述的方法,其特征在于,在所述分栏结构为双栏时,所述采用与所述分栏结构适配的分栏解析方法对所述文档页进行解析,得到所述文档页的解析结果,包括:

7.根据权利要求2所述的方法,其特征在于,所述第一指定值根据标准字符宽度确定;所述第二指定值根据标准栏间距确定;所述第三指定值根据标准字符高度确定。

8.根据权利要求7所述的方法,其特征在于,所述标准栏间距的确定过程,包括:

9.一种文档搜索方法,其特征在于,所述方法包括:

10.一种文档解析装置,其特征在于,所述装置包括获取模块、确定模块、解析模块和合并模块;其中,


技术总结
本申请提供一种文档解析方法、装置、设备和文档搜索方法,包括:遍历文档的每一文档页,针对当前遍历的文档页,获取文档页的识别结果;其中,识别结果包括文档页包含的多个文本框以及文档页的宽度;根据文档页的宽度及每个文本框的坐标,确定每个文本框的类型;其中,文本框的类型表征文本框与文档页在宽度方向上的中轴线的位置关系;根据每个文本框的类型,确定文档页的分栏结构;采用与分栏结构适配的分栏解析方法对文档页进行解析,得到文档页的解析结果;根据文档的每一文档页的解析结果,得到文档的解析结果。本申请提供的文档解析方法、装置和设备,用以从各种不同的分栏结构中解析出相应的文本内容,以提高对文档的检索能力。

技术研发人员:王天文
受保护的技术使用者:深圳云天励飞技术股份有限公司
技术研发日:
技术公布日:2024/3/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1