一种PDF文档中文字的分段方法、装置及电子设备与流程

文档序号:20205401发布日期:2020-03-31 10:03阅读:209来源:国知局
本发明涉及计算机
技术领域
:,特别是涉及一种pdf文档中文字的分段方法、装置及电子设备。
背景技术
::目前对pdf(portabledocumentformat,便携文档格式)文档进行分段处理时,往往只能针对某一页面中的内容进行分段。若需要对整个pdf文档进行分段处理,则需要逐一对该pdf文档的每个页面进行分段处理。因此,对于pdf文档中处于两个页面的同一段文字进行分段时,会出现分段偏差。例如,一段文字由两行文字组成段落,一行文字位于pdf文档中第四页的最后一行,另一行文字位于第五页的第一行,在分段时这两行文字将被当作两段文字。除此以外,在对pdf文档中的每个页面进行分段处理时,一般通过计算pdf文档中每个文字组成一个段落的概率,完成对pdf文档的分段。但是在分段过程中,也会出现一定的偏差,例如,一个pdf文档中某一段落仅有一数学公式,对该段进行分段时,由于公式中的每个参数组成一个段落的概率可能存在较大的差异,因此,该公式可能被划分为两段落或者更多段落。由上述方案可知,现有技术对pdf文档进行分段时,分段的准确性存在不足。技术实现要素:本发明实施例的目的在于提供一种pdf文档中文字的分段方法、装置及电子设备,以提高pdf文档分段的准确性。具体技术方案如下:本发明实施例提供了一种pdf文档中文字的分段方法,所述方法包括:针对待分段pdf文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息,作为行位置信息;基于所述三行文字的所述行位置信息,确定所述三行文字中每相邻两行文字之间的位置间隔,作为行间距;当所述三行文字中每相邻两行文字之间的所述行间距相等时,将所述三行文字划分在同一个段落中。进一步的,所述三行文字中第一行文字与第二行文字已被划分在同一个段落中;所述方法还包括:当所述三行文字中每相邻两行文字之间的所述行间距不相等,且所述三行文字中第二行文字的末尾字符为预设字符时,在所述三行文字中的第二行文字与第三行文字之间进行分段。进一步的,所述三行文字中第一行文字为一个段落的第一行文字;所述方法还包括:当所述三行文字中每相邻两行文字之间的所述行间距不相等,且所述三行文字中第一行文字的末尾字符为预设字符时,在所述三行文字中的第一行文字与第二行文字之间进行分段;当所述三行文字中每相邻两行文字之间的所述行间距不相等,且所述三行文字中第二行文字的末尾字符为所述预设字符时,在所述三行文字中的第二行文字与第三行文字之间进行分段。进一步的,在所述针对待分段pdf文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息之前,还包括:针对待分段pdf文档中待分段的连续的三行文字,将每一个文字用与该文字相切的矩形区域表示该文字所在的位置,确定所述三行文字中每个文字对应的所述矩形区域的位置信息,作为字位置信息;所述针对待分段pdf文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息,作为行位置信息,包括:针对待分段pdf文档中待分段的连续的三行文字,至少根据每一行文字左右两端文字的所述字位置信息,确定该行文字的位置信息,作为行位置信息。进一步的,所述字位置信息至少包括:字上边缘位置信息、字下边缘位置信息、字左边缘位置信息和字右边缘位置信息;所述针对待分段pdf文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息,作为行位置信息,包括:针对所述待分段pdf文档中的待分段的连续的三行文字,将每一行文字的最左端文字的所述字上边缘位置信息和所述字左边缘位置信息,以及最右端文字的所述字下边缘位置信息和所述右边缘位置信息,确定为该行文字的位置信息,作为行位置信息。进一步的,所述行位置信息至少包括:行上边缘位置信息和行下边缘位置信息;所述基于所述三行文字的所述行位置信息,确定所述三行文字中每相邻两行文字之间的位置间隔,作为行间距,包括:针对所述三行文字中的每相邻两行文字,基于所述三行文字的所述行位置信息,计算所述两行文字中排列在上的一行文字的所述行下边缘位置信息与排列在下的一行文字的所述行上边缘位置信息之间的差值,得到所述两行文字之间的位置间隔,作为行间距。进一步的,所述行位置信息至少包括:行左边缘位置信息和行右边缘位置信息;在所述当所述三行文字中每相邻两行文字之间的所述行间距相等时,将所述三行文字划分在同一个段落中之后,还包括:针对所述待分段pdf文档分段后的每个段落,将该段落中每行文字的行左边缘位置信息,以及行右边缘位置信息与预设段落标准进行比较,其中,所述预设段落标准表示针对pdf文档中每个段落,预先设定的关于该段落中每一行文字的左边缘位置和右边缘位置的标准;根据比较的结果,确定是否对所述待分段pdf文档中的段落进行再处理。进一步的,所述再处理表示再分段处理;所述根据比较的结果,确定是否对所述分段pdf文档中的段落进行再处理,包括:针对所述待分段pdf文档分段后的每个段落,若该段落中至少存在一行文字的行左边缘位置信息不符合所述预设段落标准,将不符合所述预设段落标准对应行的最左端作为段落分段点,对该段落进行再分段处理,得到再分段后的段落;针对所述待分段pdf文档分段后的每个段落,若该段落中至少存在一行文字的行右边缘位置信息不符合所述预设段落标准,将不符合所述预设段落标准对应行的最右端作为段落分段点,对该段落进行再分段处理,得到再分段后的段落。进一步的,所述再处理表示段落合并处理;所述根据比较的结果,确定是否对所述分段pdf文档中的段落进行再处理,包括:针对所述待分段pdf文档分段后的连续的两个段落,若排列在上的段落中最后一行文字的所述行右边缘位置信息不符合所述预设段落标准,对该段落以及排列在下的段落进行段落合并处理,得到合并后的段落;针对所述待分段pdf文档分段后的连续的两个段落,若排列在下的段落中第一行文字的所述行左边缘位置信息不符合所述预设段落标准,对该段落以及排列在上的段落进行段落合并处理,得到合并后的段落。本发明实施例还提供了一种pdf文档中文字的分段装置,所述装置包括:行位置信息确定模块,用于针对待分段pdf文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息,作为行位置信息;行间距确定模块,用于基于所述三行文字的所述行位置信息,确定所述三行文字中每相邻两行文字之间的位置间隔,作为行间距;段落划分模块,用于当所述三行文字中每相邻两行文字之间的所述行间距相等时,将所述三行文字划分在同一个段落中。进一步的,所述三行文字中第一行文字与第二行文字已被划分在同一个段落中;所述装置还包括:第一分段模块,用于当所述三行文字中每相邻两行文字之间的所述行间距不相等,且所述三行文字中第二行文字的末尾字符为预设字符时,在所述三行文字中的第二行文字与第三行文字之间进行分段。进一步的,所述三行文字中第一行文字为一个段落的第一行文字;所述装置还包括:第二分段模块,用于当所述三行文字中每相邻两行文字之间的所述行间距不相等,且所述三行文字中第一行文字的末尾字符为预设字符时,在所述三行文字中的第一行文字与第二行文字之间进行分段;当所述三行文字中每相邻两行文字之间的所述行间距不相等,且所述三行文字中第二行文字的末尾字符为所述预设字符时,在所述三行文字中的第二行文字与第三行文字之间进行分段。进一步的,所述装置还包括:字位置信息确定模块,用于针对待分段pdf文档中待分段的连续的三行文字,将每一个文字用与该文字相切的矩形区域表示该文字所在的位置,确定所述三行文字中每个文字对应的所述矩形区域的位置信息,作为字位置信息;所述行位置信息确定模块,具体用于针对待分段pdf文档中待分段的连续的三行文字,至少根据每一行文字左右两端文字的所述字位置信息,确定该行文字的位置信息,作为行位置信息。进一步的,所述字位置信息至少包括:字上边缘位置信息、字下边缘位置信息、字左边缘位置信息和字右边缘位置信息;所述行位置信息确定模块,具体用于针对所述待分段pdf文档中的待分段的连续的三行文字,将每一行文字的最左端文字的所述字上边缘位置信息和所述字左边缘位置信息,以及最右端文字的所述字下边缘位置信息和所述右边缘位置信息,确定为该行文字的位置信息,作为行位置信息。进一步的,所述行位置信息至少包括:行上边缘位置信息和行下边缘位置信息;所述行间距确定模块,具体用于针对所述三行文字中的每相邻两行文字,基于所述三行文字的所述行位置信息,计算所述两行文字中排列在上的一行文字的所述行下边缘位置信息与排列在下的一行文字的所述行上边缘位置信息之间的差值,得到所述两行文字之间的位置间隔,作为行间距。进一步的,所述行位置信息至少包括:行左边缘位置信息和行右边缘位置信息;所述装置还包括:比较模块,用于针对所述待分段pdf文档分段后的每个段落,将该段落中每行文字的行左边缘位置信息,以及行右边缘位置信息与预设段落标准进行比较,其中,所述预设段落标准表示针对pdf文档中每个段落,预先设定的关于该段落中每一行文字的左边缘位置和右边缘位置的标准;段落再处理模块,用于根据比较的结果,确定是否对所述待分段pdf文档中的段落进行再处理。进一步的,所述再处理表示再分段处理;所述段落再处理模块,具体用于针对所述待分段pdf文档分段后的每个段落,若该段落中至少存在一行文字的行左边缘位置信息不符合所述预设段落标准,将不符合所述预设段落标准对应行的最左端作为段落分段点,对该段落进行再分段处理,得到再分段后的段落;针对所述待分段pdf文档分段后的每个段落,若该段落中至少存在一行文字的行右边缘位置信息不符合所述预设段落标准,将不符合所述预设段落标准对应行的最右端作为段落分段点,对该段落进行再分段处理,得到再分段后的段落。进一步的,所述再处理表示段落合并处理;所述段落再处理模块,具体用于针对所述待分段pdf文档分段后的连续的两个段落,若排列在上的段落中最后一行文字的所述行右边缘位置信息不符合所述预设段落标准,对该段落以及排列在下的段落进行段落合并处理,得到合并后的段落;针对所述待分段pdf文档分段后的连续的两个段落,若排列在下的段落中第一行文字的所述行左边缘位置信息不符合所述预设段落标准,对该段落以及排列在上的段落进行段落合并处理,得到合并后的段落。本发明实施例还提供了一种电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任一所述的pdf文档中文字分段的方法步骤。本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的pdf文档中文字分段方法。本发明实施例提供的一种pdf文档中文字的分段方法、装置及电子设备,可以将待分段pdf文档中待分段的连续的三行文字,确定该三行文字中每行文字的位置信息,作为行位置信息,基于三行文字的行位置信息,确定该三行文字中每相邻两行文字之间的位置间隔,作为行间距,当三行文字中每相邻两行文字之间的行间距相等时,将三行文字划分在同一个段落中。通过本发明实施例提供的方案,可以针对整个pdf文档,以该pdf文档每一行为单位,按照每相邻两行文字之间的行间距对pdf文档进行分段处理,得到分段后的段落,提高了pdf文档分段的准确性。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种pdf文档中文字的分段方法流程图;图2为本发明实施例提供的一种pdf文档中行位置信息的示意图;图3为本发明实施例提供的一种pdf文档中文字的分段的装置结构示意图;图4为本发明实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明实施例提供的一种pdf文档中文字的分段方法、装置及电子设备,可以将待分段pdf文档中待分段的连续的三行文字,确定该三行文字中每行文字的位置信息,作为行位置信息,基于三行文字的行位置信息,确定该三行文字中每相邻两行文字之间的位置间隔,作为行间距,当三行文字中每相邻两行文字之间的行间距相等时,将三行文字划分在同一个段落中。通过本发明实施例提供的方案,可以针对整个pdf文档,以该pdf文档每一行为单位,按照每相邻两行文字之间的行间距对pdf文档进行分段处理,得到分段后的段落,提高了pdf文档分段的准确性。本发明实施例提供了一种pdf文档中文字的分段方法,如图1所示,至少可以包括以下步骤:步骤s101,针对待分段pdf文档中待分段的连续的三行文字,确定三行文字中每行文字的位置信息,作为行位置信息。在本步骤中,针对待分段pdf文档中待分段的连续三行文字,可以以该三行文字对应的位置坐标表示该三行文字中每一行文字在该待分段pdf文档中的具体位置,作为行位置信息。具体的,如图2所示,针对待分段pdf文档中的连续三行文字,每一行文字可以用与该行文字相切的矩形区域表示该行文字所在的位置,通过确定该矩形区域的上、下、左、右各边缘的位置,确定该矩形区域在待分段文档中的相对位置,得到该行文字的行位置信息。进一步的,针对待分段pdf文档中待分段的连续的三行文字,可以将该三行文字中每一个文字用与该文字相切的矩形区域表示该文字所在的位置,确定三行文字中每个文字对应的矩形区域的位置信息,作为字位置信息。具体的,在pdf文档中,每一个文字都是以离散的方式存在的,所以在确定上述行位置信息之前,可以先确定针对待分段pdf文档中待分段的连续的三行文字,确定每一行文字中每一个文字的位置信息,作为字位置信息,再根据字位置信息,确定上述行位置信息。针对待分段pdf文档中待分段的连续三行文字中每一个文字,可以用与该文字相切的矩形区域表示该文字所在的位置。针对该矩形区域,同样可以用位置坐标表示该矩形区域,例如,可以用坐标表示该矩形区域的四个顶点所在的位置坐标,通过四个顶点的位置坐标可以确定该文字的各个边缘的位置所在,得到该文字的字位置信息,进而至少可以根据上述三行文字中每一行文字左右两端的文字的字位置信息,确定上述行位置信息。例如,假设待分段pdf文档中每一行最多可以有34个文字,现第一行中一共有34个文字,并且每个文字的大小为0.5cm(厘米)*0.5cm,相邻两个文字之间的间隔为0.1cm。此时以该行第一个文字左上角位置为坐标原点,x轴方向沿水平方向自左向右,y轴方向沿垂直方向自上向下,从而可以确定每个文字的位置信息,如第三个文字对应矩形区域的四个顶点坐标为(1.7,0)、(2.2,0)(1.7,0.5)(2.2,0.5)。同理,根据第1个文字和第34个文字的字位置信息,可以确定该行文字的左边缘位置是y轴所在位置,上边缘位置是x轴所在位置,下边缘位置是直线y=0.5所在位置,右边缘位置是直线x=20.3所在的位置,根据上、下、左、右四个边缘位置,可以确定该行文字对应的矩形与的位置,得到该行文字的行位置信息。在本发明实施例中,针对上述三行文字中的每一行文字,其所包含的每一个文字与该文字相邻的其他文字之间存在一定位置间隔,同时,每一行文字之间也存在着一定的位置间隔,因此,在用矩形区域表示文字所在位置时,并不一定要相切的矩形区域才行,也可以在相切的矩形区域的基础上,适当进行扩展,例如,可以将相切的矩形区域的上边缘增加1毫米。进一步的,上述字位置信息至少包括:字上边缘位置信息、字下边缘位置信息、字左边缘位置信息和字右边缘位置信息。针对待分段pdf文档中的待分段的连续的三行文字,将每一行文字的最左端文字的字上边缘位置信息和字左边缘位置信息,以及最右端文字的字下边缘位置信息和右边缘位置信息,确定为该行文字的位置信息,作为行位置信息。具体的,针对待分段pdf文档中待分段的连续三行文字,在确定上述字位置信息之后,可以用与每一行文字相切的矩形区域表示该行文字的行位置信息。例如,根据该行文字左右两端的两个文字,将左端文字的字左边缘位置信息,作为行左边缘位置信息,右端文字的字右边缘位置信息,作为行右边缘位置信息。至于该行文字的行上边缘位置信息和行下边缘位置信息,则可以根据该行文字中的任意一个文字的字上边缘位置信息和字下边缘位置信息。在本发明实施例中,针对待分段pdf文档中待分段的连续的三行文字,当任意一行文字出现如字母、公式、分数等特殊字符时,与这些字符相切的矩形区域的大小往往要大于或者小于正常文字的矩形区域,因此,在确定上述行上边缘位置信息和行下边缘位置信息时,可以选取较大的矩形区域的字上边缘位置信息作为行上边缘位置信息,以及较大的矩形区域的字下边缘位置信息作为行下边缘位置信息。由上述可知,针对待分段pdf文档中待分段的连续的三行文字,可以根据每一行文字中每一个文字的字位置信息,准确的得到该行文字的行位置信息。步骤s102,基于三行文字的行位置信息,确定三行文字中每相邻两行文字之间的位置间隔,作为行间距。在本步骤中,根据步骤s101得到的三行文字的行位置信息,可以通过数学计算,确定三行文字中每相邻两行文字的之间的位置间隔,作为行间距。进一步的,针对三行文字中的每相邻两行文字,基于三行文字的行位置信息,计算两行文字中排列在上的一行文字的行下边缘位置信息与排列在下的一行文字的行上边缘位置信息之间的差值,得到两行文字之间的位置间隔,作为行间距。具体的,针对上述三行文字中的每相邻两行文字,可以计算排列在上的一行文字的行下边缘位置信息与排列在下一行文字的行上边缘位置信息之间的差值,作为这两行文字之间的位置间隔,得到行间距。例如,现有三行文字,假设以左右两端文字确定每一行文字的行位置信息,第一行文字的行下边缘位置信息表示为直线x=5所在位置,第二行文字的行上边缘位置信息表示为直线x=8所在位置,行下边缘位置信息表示为直线x=13所在位置,第三行文字的行上边缘位置信息表示为直线x=17所在位置,则第一行文字与第二行文字之间的行间距为3,第二行文字与第三行文字之间的行间距为4。在本发明实施例中,上述行间距是针对上述三行文字中相邻两行文字,计算排列在上的一行文字的行下边缘位置信息和排列在下一行文字的行上边缘位置信息之间差值得到的。但是在实际过程中,也可以根据具体的情况,采用其他方法确定行间距,例如,当待分段pdf文档中的文字的格式相同时,可以计算相邻两行文字之间的行上边缘位置信息之间的差值,作为行间距。当然,也可以计算相连两行文字之间行下边缘位置信息,作为行间距。由上述可知,行间距的确定,可以结合实际中的具体情况,根据行位置信息计算得到。在本发明实施例中,当上述三行文字在待分段pdf文档中处于两个页面时,行间距的确定可以不考虑页面的页边距。例如,假设上述三行文字中第一行文字位于待分段pdf文档第二页的最后一行,第二行文字位于待分段pdf文档第三页的第一行,第三行文字位于待分段pdf文档第三页的第二行,则在确定第一行文字与第二行文字之间的行间距时,可以不考虑待分段pdf文档第二页面与第三页面之间的页边距。步骤s103,当三行文字中每相邻两行文字之间的行间距相等时,将三行文字划分在同一个段落中。在本步骤中,根据步骤s102中得到的上述三行文字中每相邻两行文字之间的行间距,当行间距相等时,将三行文字划分在同一段落中。在本发明实施例中,针对待分段pdf文档,以三行为标准,逐一确定每一行文字是否属于同一段落。因此,可以采用本发明实施例,对整个pdf文档进行分段,也可以仅仅只对pdf文档中的某一页面或者某一页面中的某一部分进行分段处理。在对待分段的pdf文档进行分段时,可以从第一行开始逐行进行分段。例如,假设现有六行文字,在对这六行文字进行分段时,可以先判断前三行是否为一段,若前三段为一段,则判断第二行文字、第三行文字以及第四行文字是否属于一段落,以此类推,确定对该六行文字怎么分段。此外,当第一行文字和第二行文字属于同一段落,第三行文字属于另一段落时,也可以确定第三行文字、第四行文字以及第五行文字是否属于同一段落,以此类推,确定对该六行文字怎么分段。同理,也可以以三行间隔确定分段结果,仍以上述六行文字为例进行说明,可以先确定对前三行文字以及后三行文字怎么分段,再针对第三行文字和第四行文字,从第二行文字以及第五行文字中任选一行得到三行文字,确定对这三行文字怎么分段。至于是选第二行文字还是第五行文字,可以根据具体情况确定,例如,第二行文字和第三行文字已经确定属于两个段落时,选择将第三行、第四行以及第五行作为待分段的连续的三行文字。由上述可知,本发明实施例可以针对整个pdf文档进行分段,可以有效避免处于两个页面中的同一段文字被分为两段文字的现象。进一步的,上述针对待分段pdf文档中待分段的连续的三行文字进行分段时,会存在以下情况:情况一,三行文字中第一行文字与第二行文字已被划分在同一个段落中。当三行文字中每相邻两行文字之间的行间距不相等,且三行文字中第二行文字的末尾字符为预设字符时,在三行文字中的第二行文字与第三行文字之间进行分段。具体的,假设现有三行文字,第一行文字和第二行文字已经确定属于同一段落时,若第一行文字与第二行文字之间的行间距不等于第二行文字与第三行文字之间的行间距,则可以通过确定第二行文字的末尾字符是否为预设字符,例如,句号、感叹号、问号等。根据确定的结果,若第二行的末尾字符是预设字符,则第二行文字与第三行文字属于两个段落,对第二行文字和第三行文字进行分段处理;若第二行的末尾字符不是预设字符,例如,逗号、顿号等,则将这三行文字作为同一段落,不进行分段处理。情况二,三行文字中第一行文字为一个段落的第一行文字。当三行文字中每相邻两行文字之间的行间距不相等,且三行文字中第一行文字的末尾字符为预设字符时,在三行文字中的第一行文字与第二行文字之间进行分段。当三行文字中每相邻两行文字之间的行间距不相等,且三行文字中第二行文字的末尾字符为预设字符时,在三行文字中的第二行文字与第三行文字之间进行分段。具体的,假设有三行文字,第一行文字已经确定为某一段落的第一行文字时,若第一行文字与第二行文字之间的行间距不等于第二行文字与第三行文字之间的行间距,并且第一行文字的末尾字符为预设字符时,则第一行文字与第二行文字属于两个段落,对第一行文字和第二行文字进行分段处理。同理,若第一行文字与第二行文字之间的行间距不等于第二行文字与第三行文字之间的行间距,并且第二行文字的末尾字符为预设字符时,则第二行文字与第三行文字属于两个段落,对第二行文字和第三行文字进行分段处理。在本发明实施例中,上述预设字符至少包括:句号、感叹号、问号。除此以外还可以包括省略号、引号等标点符号。由上述可知,在根据行间距对待分段pdf文档中待分段的连续的三行文字进行分段时,还可以考虑每一行文字末尾字符,具体通过确定末尾字符是否为预设字符,确定是否进行分段处理,可以进一步提高段落分段的准确性。进一步的,根据本发明实施例提供的方案,对上述待分段pdf文档中待分段的连续的三行文字进行分段之后,针对待分段pdf文档分段后的每个段落,可以将该段落中每行文字的行左边缘位置信息,以及行右边缘位置信息与预设段落标准进行比较。根据比较的结果,确定是否对待分段pdf文档中的段落进行再处理。具体的,在pdf文档中,每一个段落存在一定的共性,例如,在中文文档中,每一段的第一行会采用首行缩进2个字符,当然,一些英文文档中也会存在这样的现象;或者,每一段落中,除了最后一行文字,其他行的右边缘位置都是大致相同的。因此,针对待分段pdf文档分段后的每个段落,可以将该段落中每一行文字的行左边缘位置信息,以及右边缘位置信息与预设段落标准进行比较,并根据比较的结果,确定是否对待分段pdf文档中的每个段落进行再处理。进一步的,上述再处理可以是再分段处理。针对待分段pdf文档分段后的每个段落,若该段落中至少存在一行文字的行左边缘位置信息不符合预设段落标准,将不符合预设段落标准对应行的最左端作为段落分段点,对该段落进行再分段处理,得到再分段后的段落。针对待分段pdf文档分段后的每个段落,若该段落中至少存在一行文字的行右边缘位置信息不符合预设段落标准,将不符合预设段落标准对应行的最右端作为段落分段点,对该段落进行再分段处理,得到再分段后的段落。具体的,针对待分段pdf文档分段后的每个段落,当该段落中除第一行文字以外的其他行文字的行左边缘位置信息不符合预设段落标准时,将不符合预设段落标准对应行的最左端作为段落分段点,对该段落进行再分段处理,得到在分段后的段落。同理,当该段落中除最后一行文字以外的其他行文字的行右边缘位置信息不符合预设标准时,将不符合预设段落标准对应行的最右端作为段落分段点,对该段落进行在分段处理,得到待分段后的段落。例如,假设现有3行文字行间距相等,并且每一行文字都是独立的一个段落,其中,第二行文字为一居中的公式。此时,根据行间距进行分段时,假设这三行文字每相邻两行文字之间的行间距都相等,则这三行文字将作为一个段落,不符合实际情况。因此,针对该段落,可以将每一行文字的行左边缘位置信息,以及行右边缘位置信息与预设段落标准进行比较。假设第一行文字的行右边缘位置信息与预设段落标准相比相差两个字符,第二行文字的行左边缘位置信息,以及行右边缘位置信息与预设段落标准相比均相差五个字符,第三行文字的行左边缘位置信息与预设段落标准相差两个字符,此时,根据第一行文字的行右边缘位置信息或者第二行文字的行左边缘位置信息与预设段落标准比较的结果,则可以将第一行与第二行划分为两个段落,同理,根据第二行文字的行右边缘位置信息或者第三行文字的行左边缘位置信息,可以将第二行文字与第三行文字划分为两个段落。由上述可知,通过再分段处理,可以使得分段的结果符合实际情况,明显提高了段落分段的准确性。进一步的,上述再分段处理还可以是合并处理。针对待分段pdf文档分段后的连续的两个段落,若排列在上的段落中最后一行文字的行右边缘位置信息不符合预设段落标准,对该段落以及排列在下的段落进行段落合并处理,得到合并后的段落。针对待分段pdf文档分段后的连续的两个段落,若排列在下的段落中第一行文字的行左边缘位置信息不符合预设段落标准,对该段落以及排列在上的段落进行段落合并处理,得到合并后的段落。具体的,针对待分段pdf文档分段后的连续的两个段落,若排列在上的一个段落中最后一行文字的行右边缘位置信息不符合预设段落标准时,可以对该段落与排列在下的一个段落进行合并处理,得到合并后的段落;同理,若排列在下的一各段落的第一行文字的行左边缘位置信息不符合预设段落标准时,可以对该段落与排列在上的一个段落进行合并处理,得到合并后的段落。例如,假设现有五行文字属于同一段落,由于第三行文字中出现一字母,如,wi等形式的文字。为了让其下标能够显示完全,改变了第三行文字的行间距,例如,原始行间距为22磅,更改后行间距便为28磅。此时,根据行间距对该五行文字进行分段时,由于这五行文字之间的行间距从上到下依次为22、28、28以及22,则分段的结果可以是,第一行文字与第二行文字为第一段落,第三行文字与第四行文字为第二段落,第五行文字为第三段落,不符合实际情况。因此,针对分段后得到的三个段落,可以根据第二行文字的行右边缘位置信息或者第三行文字的行左边缘位置信息不符段落预设标准,以及第四行文字的行右边缘位置信息或者第五行文字的行左边缘位置信息不符合预设段落标准,可以对这三段文字进行合并处理,得到合并后的一个段落。在本发明实施例中,在针对待分段pdf文档中分段后的每个段落进行再处理的过程中,上述预设段落标准是针对pdf文档中每个段落,预先设定的关于该段落中每一行文字的左边缘位置和右边缘位置的标准。例如,只有每一段落只有第一行文字可以缩进两个字符,只有该段落中最后一行文字的行右边缘位置可以与其他行文字的行右边缘位置信息不相同,或者该段落中最后一行文字的最后一个字符必须为上述预设字符等。除此以外,在将每一行文字的行右边缘位置与预设段落标准进行比较时,需要根据实际情况确定行右边缘位置是否符合预设段落标准。例如,假设预设段落标准规定的行右边缘位置为自左向右12cm处,现某一行文字的最后一个字符为逗号,该行文字的行右边缘位置为11.6cm,若该行文字都是四号字体,而一个四号字体的文字大小为14磅,约等于0.5cm,因此,该行文字的右边缘位置处不足以再放下一个文字时,可以认为该行文字符合预设段落标准。同理,当某一行文字中右端出现一个较长的英文单词,且该行的剩余位置不足以放下该单词时,该单词将出现在下一行文字中,此时,该行文字中每个文字之间的间隔将适应性增大,虽然该行文字的行右边缘位置明显不等于预设段落标准,但是却可以认为行右边缘位置符合预设段落标准。由上述可知,通过合并处理,可以使得分段的结果符合实际情况,可以明显提高段落分段的准确性。综上所述,采用本发明实施例提供的pdf文档中文字的分段方法,可以针对整个pdf文档,以该pdf文档中每一行文字为单位,按照每相邻两行文字之间的行间距对pdf文档进行分段处理,得到分段后的段落,提高了pdf文档分段的准确性。基于同一种发明构思,根据上本发明实施例提供的一种pdf文档中文字的分段方法,本发明实施例还提供了一种pdf文档中文字的分段中装置,如图3所示,可以包括以下模块:行位置信息确定模块301,用于针对待分段pdf文档中待分段的连续的三行文字,确定三行文字中每行文字的位置信息,作为行位置信息。行间距确定模块302,用于基于三行文字的行位置信息,确定三行文字中每相邻两行文字之间的位置间隔,作为行间距。段落划分模块303,用于当三行文字中每相邻两行文字之间的行间距相等时,将三行文字划分在同一个段落中。进一步的,三行文字中第一行文字与第二行文字已被划分在同一个段落中;上述装置还包括:第一分段模块,用于当三行文字中每相邻两行文字之间的行间距不相等,且三行文字中第二行文字的末尾字符为预设字符时,在三行文字中的第二行文字与第三行文字之间进行分段。进一步的,三行文字中第一行文字为一个段落的第一行文字;上述装置还包括:第二分段模块,用于当三行文字中每相邻两行文字之间的行间距不相等,且三行文字中第一行文字的末尾字符为预设字符时,在三行文字中的第一行文字与第二行文字之间进行分段;当三行文字中每相邻两行文字之间的行间距不相等,且所三行文字中第二行文字的末尾字符为预设字符时,在三行文字中的第二行文字与第三行文字之间进行分段。进一步的,上述装置还包括:字位置信息确定模块,用于针对待分段pdf文档中待分段的连续的三行文字,将每一个文字用与该文字相切的矩形区域表示该文字所在的位置,确定三行文字中每个文字对应的矩形区域的位置信息,作为字位置信息;行位置信息确定模块301,具体用于针对待分段pdf文档中待分段的连续的三行文字,至少根据每一行文字左右两端文字的字位置信息,确定该行文字的位置信息,作为行位置信息。进一步的,字位置信息至少包括:字上边缘位置信息、字下边缘位置信息、字左边缘位置信息和字右边缘位置信息;行位置信息确定模块301,具体用于针对待分段pdf文档中的待分段的连续的三行文字,将每一行文字的最左端文字的字上边缘位置信息和字左边缘位置信息,以及最右端文字的字下边缘位置信息和右边缘位置信息,确定为该行文字的位置信息,作为行位置信息。进一步的,行位置信息至少包括:行上边缘位置信息和行下边缘位置信息;行间距确定模块302,具体用于针对三行文字中的每相邻两行文字,基于三行文字的行位置信息,计算两行文字中排列在上的一行文字的行下边缘位置信息与排列在下的一行文字的行上边缘位置信息之间的差值,得到两行文字之间的位置间隔,作为行间距。进一步的,行位置信息至少包括:行左边缘位置信息和行右边缘位置信息;上述装置还包括:比较模块,用于针对待分段pdf文档分段后的每个段落,将该段落中每行文字的行左边缘位置信息,以及行右边缘位置信息与预设段落标准进行比较,其中,预设段落标准表示针对pdf文档中每个段落,预先设定的关于该段落中每一行文字的左边缘位置和右边缘位置的标准;段落再处理模块,用于根据比较的结果,确定是否对待分段pdf文档中的段落进行再处理。进一步的,上述再处理表示再分段处理;段落再处理模块,具体用于针对待分段pdf文档分段后的每个段落,若该段落中至少存在一行文字的行左边缘位置信息不符合预设段落标准,将不符合预设段落标准对应行的最左端作为段落分段点,对该段落进行再分段处理,得到再分段后的段落;针对待分段pdf文档分段后的每个段落,若该段落中至少存在一行文字的行右边缘位置信息不符合预设段落标准,将不符合预设段落标准对应行的最右端作为段落分段点,对该段落进行再分段处理,得到再分段后的段落。进一步的,上述再处理表示段落合并处理;段落再处理模块,具体用于针对待分段pdf文档分段后的连续的两个段落,若排列在上的段落中最后一行文字的行右边缘位置信息不符合预设段落标准,对该段落以及排列在下的段落进行段落合并处理,得到合并后的段落;针对待分段pdf文档分段后的连续的两个段落,若排列在下的段落中第一行文字的行左边缘位置信息不符合预设段落标准,对该段落以及排列在上的段落进行段落合并处理,得到合并后的段落。本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,存储器403,用于存放计算机程序;处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:针对待分段pdf文档中待分段的连续的三行文字,确定三行文字中每行文字的位置信息,作为行位置信息;基于三行文字的行位置信息,确定三行文字中每相邻两行文字之间的位置间隔,作为行间距;当三行文字中每相邻两行文字之间的行间距相等时,将三行文字划分在同一个段落中。上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(randomaccessmemory,ram),也可以包括非易失性存储器(non-volatilememory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一pdf文档中文字的分段方法的步骤。在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一pdf文档中文字的分段方法。在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备等实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1