本申请涉及人工智能,尤其涉及一种文档解析方法及装置。
背景技术:
1、随着科技的发展,企业或个人在日常工作中会产生大量的数据,而这些数据大多以非结构化文本即文档的形式存在。人们往往需要从这些文档中获取问题的答案或文档的摘要,这就需要对文档进行解析。文档解析,即解析出文档中的文字内容,并按照顺序解析成一篇完整有序的内容。
2、相关技术中,仅能解析出文档中文字的内容,而对于文字的顺序则按照行排列。对于分栏、分块的内容,按照行排列时,由于在同一水平线上不同栏或块内容之间存在相互交叉排列,这种方式会导致对文字的排序不够准确,进而使得解析出的内容质量较差,进而影响到问答和摘要结果的准确性。
技术实现思路
1、本申请实施例的目的是提供一种文档解析方法及装置,以解决相关技术中对文字的排序不够准确,进而使得解析出的内容质量较差,进而影响到问答和摘要结果的准确性问题。
2、为了实现上述技术方案,本申请实施例是这样实现的:
3、第一方面,本申请实施例提供一种文档解析方法,包括:对待解析的文档进行文字提取,得到所述文档中文字的信息,所述文字的信息包括所述文字的内容和所述文字的位置信息;根据所述文字的位置信息对所述文字进行聚类,得到多个文字块;根据所述文字块内所述文字的信息,确定所述文字块的信息,所述文字块的信息包括所述文字块的内容和所述文字块的位置信息;根据所述文字块的内容和/或所述文字块的位置信息,对所述多个文字块进行排序,得到排序结果;根据所述文字块的内容和所述排序结果,生成文档解析结果。
4、第二方面,本申请实施例提供一种文档解析装置,包括:提取模块,用于对待解析的文档进行文字提取,得到所述文档中文字的信息,所述文字的信息包括所述文字的内容和所述文字的位置信息;聚类模块,用于根据所述文字的位置信息对所述文字进行聚类,得到多个文字块;确定模块,用于根据所述文字块内所述文字的信息,确定所述文字块的信息,所述文字块的信息包括所述文字块的内容和所述文字块的位置信息;排序模块,用于根据所述文字块的内容和/或所述文字块的位置信息,对所述多个文字块进行排序,得到排序结果;生成模块,用于根据所述文字块的内容和所述排序结果,生成文档解析结果。
5、第三方面,本申请实施例提供一种文档解析设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行如第一方面中所述的方法中的步骤。
6、第四方面,本申请实施例提供一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如第一方面中所述的方法中的步骤。
7、可以看出,在本申请实施例中,在对文档进行解析时,首先对待解析的文档进行文字提取,得到文档中文字的信息,文字的信息包括文字的内容和文字的位置信息,然后根据文字的位置信息对文字进行聚类,得到多个文字块,根据文字块内文字的信息,确定文字块的信息,文字块的信息包括文字块的内容和文字块的位置信息,根据文字块的内容和/或文字块的位置信息,对多个文字块进行排序,得到排序结果,根据文字块的内容和排序结果,生成文档解析结果。本申请实施例通过将文档中的文字根据其位置信息聚类为多个文字块,并根据文字块的内容和/或位置信息对多个文字块进行排序,由于采用了按照文字的位置信息进行聚类和排序,而非按照行进行聚类和排序,即使对于分栏、分块的内容,也可以实现对文字的准确排序,进而提高了解析出的内容的质量,以及基于解析出的内容获取的问答和摘要结果的准确性。
1.一种文档解析方法,其特征在于,包括:
2.根据权利要求1所述的文档解析方法,其特征在于,根据所述文字块的内容对所述多个文字块进行排序,得到所述排序结果,包括:
3.根据权利要求2所述的文档解析方法,其特征在于,所述排序模型为上下句判断模型,所述根据所述文字块的内容,采用排序模型对所述多个文字块进行排序,得到所述排序结果,包括:
4.根据权利要求2所述的文档解析方法,其特征在于,所述排序模型为文字排序模型,所述根据所述文字块的内容,采用排序模型对所述多个文字块进行排序,得到所述排序结果,包括:
5.根据权利要求1所述的文档解析方法,其特征在于,根据所述文字块的位置信息对所述多个文字块进行排序,得到所述排序结果,包括:
6.根据权利要求5所述的文档解析方法,其特征在于,所述文字块的位置信息包括所述文字块对应的第一矩形区域的位置信息,所述第一矩形区域的位置信息包括所述第一矩形区域的横坐标最小值l、横坐标最大值r、纵坐标最小值u和纵坐标最大值b;
7.根据权利要求6所述的文档解析方法,其特征在于,所述在所述最左文字块和所述最上文字块中,确定当前最先顺序的文字块,包括:
8.根据权利要求7所述的文档解析方法,其特征在于,所述基于最近一次排序的文字块的位置信息,在所述最左文字块和所述最上文字块中,确定当前最先顺序的文字块,包括:
9.根据权利要求7所述的文档解析方法,其特征在于,所述在所述最左文字块和所述最上文字块中确定当前最先顺序的文字块,还包括:
10.根据权利要求1所述的文档解析方法,其特征在于,所述排序结果为多个,所述根据所述文字块的内容和所述排序结果,生成文档解析结果,包括:
11.根据权利要求10所述的文档解析方法,其特征在于,所述采用预设的选择方式,在多个所述排序结果中选出一个作为目标排序结果,包括:
12.根据权利要求1所述的文档解析方法,其特征在于,所述文字的位置信息包括所述文字对应的第二矩形区域的位置信息,所述根据所述文字的位置信息对所述文字进行聚类,得到多个文字块,包括:
13.根据权利要求1所述的文档解析方法,其特征在于,所述对待解析的文档进行文字提取,得到所述文档中文字的信息,包括:
14.根据权利要求1所述的文档解析方法,其特征在于,所述文字块的位置信息包括所述文字块对应的第一矩形区域的位置信息,所述第一矩形区域的位置信息包括所述第一矩形区域的横坐标最小值l、横坐标最大值r、纵坐标最小值u和纵坐标最大值b;所述文字的位置信息包括所述文字对应的第二矩形区域的位置信息,所述第二矩形区域的位置信息包括所述第二矩形区域的横坐标最小值l、横坐标最大值r、纵坐标最小值u和纵坐标最大值b;
15.一种文档解析装置,其特征在于,包括:
16.一种文档解析设备,其特征在于,所述设备包括:
17.一种存储介质,其特征在于,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如权利要求1-14任一项所述的方法。