本申请涉及信息处理,尤其涉及一种表格解析方法、装置、设备和文档搜索方法。
背景技术:
1、随着互联网技术的发展,需要从大量文档中高效准确的检索所需要的信息,文档智能搜索技术在各种领域中扮演着越来越重要的角色,如何将文档智能搜索发展的更全面、更智能成为技术人员研究的主要问题。
2、现有的文档智能搜索仅能简单的提取没有表格的文档中的数据,对于文档中含有表格的场景,分析能力不够,无法支持用户对表格内容和数据的提问或统计,使用极不方便。
技术实现思路
1、有鉴于此,本申请提供一种表格解析方法、装置、设备和文档搜索方法,用以从包含表格的文档中解析出表格对应的文本内容,以提高对文档的检索能力。
2、具体地,本申请是通过如下技术方案实现的:
3、本申请第一方面提供一种表格解析方法,所述方法包括:
4、获取目标文档所包含的文本框和表格;
5、针对所述目标文档中的每页文档页,识别所述文档页所包含的文本框和表格的从属关系,得到所述文档页的页面识别结果;
6、汇总各页所述文档页的页面识别结果,得到所述目标文档的文档识别结果;
7、根据所述文档识别结果,确定所述目标文档所包含的每个表格对应的文本内容。
8、本申请第二方面提供一种表格解析装置,所述装置包括获取模块、识别模块、汇总模块和处理模块;其中,
9、所述获取模块,用于获取目标文档所包含的文本框和表格;
10、所述识别模块,用于针对所述目标文档中的每页文档页,识别所述文档页所包含的文本框和表格的从属关系,得到所述文档页的页面识别结果;
11、所述汇总模块,用于汇总各页所述文档页的页面识别结果,得到所述目标文档的文档识别结果;
12、所述处理模块,用于根据所述文档识别结果,确定所述目标文档所包含的每个表格对应的文本内容。
13、本申请第三方面提供一种表格解析设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请第一方面提供的任一项所述方法的步骤。
14、本申请第四方面提供一种文档搜索方法,所述方法包括:
15、在检测到用户搜索的问题时,将所述问题输入到预先训练好的智能问答模型中,以由所述智能问答模型从预先建立的知识库中识别所述问题对应的答案;其中,所述预先建立的知识库至少基于文档所包含的表格对应的文本内容构建;所述文档所包含的表格对应的文本内容基于权利要求1-8任一项所述的表格解析方法获取;
16、将所述答案、以及所述答案所在的文档展示给所述用户。
17、本申请提供的表格解析方法、装置和设备,通过获取目标文档所包含的文本框和表格,进而针对目标文档中的每页文档页,识别文档页所包含的文本框和表格的从属关系,得到文档页的页面识别结果,然后汇总各页文档页的页面识别结果,得到目标文档的文档识别结果,最后根据文档识别结果,确定目标文档所包含的每个表格对应的文本内容。这样,通过识别目标文档中的文本框和表格,将文档页中文本框对应至表格中,进而得到文档中表格中的文本内容。这样,可以高效准确从含有表格的文档中解析出表格对应的文本内容,提高对文档的检索能力。
1.一种表格解析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述识别所述文档页所包含的文本框和表格的从属关系,得到所述文档页的页面识别结果,包括:
3.根据权利要求2所述的方法,其特征在于,根据属性标签为属于所述待处理表格的文本框,确定所述待处理表格的文本内容,包括:
4.根据权利要求2所述的方法,其特征在于,所述判断所述目标文本框是否属于当前待处理的待处理表格,包括:
5.根据权利要求2所述的方法,其特征在于,所述将所述目标文本框拼接到所述文档页对应的识别结果中,包括:
6.根据权利要求5所述的方法,其特征在于,所述预先计算的标准文本框长度的计算方法,包括:
7.根据权利要求1所述的方法,其特征在于,根据所述文档识别结果,确定所述目标文档所包含的每个表格对应的文本内容,包括:
8.根据权利要求7所述的方法,其特征在于,所述获取所述目标文本内容的上文、以及所述目标文本内容的下文,包括:
9.一种文档搜索方法,其特征在于,所述方法包括:
10.一种表格解析装置,其特征在于,所述装置包括获取模块、识别模块、汇总模块和处理模块;其中,