一种PDF边界及网格线标识的方法及装置与流程

文档序号:14571862发布日期:2018-06-01 22:42阅读:918来源:国知局
本发明涉及排版系统
技术领域
:,具体而言,涉及一种PDF边界及网格线标识的方法及装置。
背景技术
::PDF(PortableDocumentFormat的简称,意为“便携式文件格式”)是一种文件格式,它的优点在于跨平台、能保留文件原有格式(Layout)、开放标准,能自由授权(Royalty-free)自由开发PDF兼容软件,应用十分广泛。现有技术中,在生成PDF文件的排版系统中,为了精确控制版式,操作员需要知道排出的PDF文件中每个关键区域的精确位置信息,如页面边界,栏目分割线,每行文字,每个图片等。现有技术中的常规做法是排版系统输出PDF文件时另外定制一个PDF阅读器,给阅读器加上一个类似办公软件word中的标尺功能,操作员需要时可以点击标尺上的刻度,阅读器画出通过该刻度的直线,操作人员根据这条线穿过区域的情况,人工判断关心的区域坐标,以此知道每个关键区域的位置信息,然后进行排版。这样的方式不够直观简洁,工作量大,精确性较低。技术实现要素:有鉴于此,本发明的目的在于提供一种PDF边界及网格线标识的方法及装置,以解决上述问题。第一方面,本发明实施例提供了一种PDF边界及网格线标识的方法,包括:对PDF文件进行预排版,在预排版的PDF文件上生成标尺层;基于所述标尺层中标注的所述PDF文件中的关键区域的坐标信息,判断所述关键区域的位置是否满足排版规则;如果所述关键区域的位置不满足排版规则,则进行调整所述关键区域的位置参数;基于调整后的位置参数对所述PDF文件进行排版。结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述关键区域包括:文件中所包含的内容、文件的页眉、页脚和左右边空;其中,所述文件中所包含的内容包括:正文段落文字、图片、表格和公式。结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述在预排版的PDF文件上生成标尺层,包括:识别所述文件中所包含的关键区域;根据确定的坐标原点,计算所述关键区域在PDF坐标系中的位置信息;基于所述位置信息在所述关键区域的特定的位置处对所述关键区域进行标注;其中,所述标注的内容包括:坐标信息;显示所述标注。结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述显示所述标注,包括:获取预设的标注样式信息,按照所述标注样式信息进行显示所述标注;其中,所述标注样式信息包括:标注的线条格式、线条颜色和标注的文字字体、文字颜色及各间隔信息点标注。结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述基于所述位置信息在特定的位置处对所述关键区域进行标注,包括:在所述页眉与所述正文段落之间进行标注;在所述正文段落与所述页脚之间进行标注;在所述左右边空与所述正文之间进行标注;在页面每栏的边界处进行标注;在每个间隔信息点处进行标注。结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述基于所述位置信息在特定的位置处对所述关键区域进行标注,还包括:在每行文字的下方进行标注;在每个图片的边框处进行标注;在每个表格的边框处进行标注;在每个独立成行的公式下方进行标注。第二方面,本发明实施例还提供了一种PDF边界及网格线标识的装置,包括:标尺层生成模块,用于对PDF文件进行预排版,在预排版的PDF文件上生成标尺层;判断模块,用于基于所述标尺层中标注的所述PDF文件中的关键区域的坐标信息,判断所述关键区域的位置是否满足排版规则;调整模块,用于如果所述关键内容的坐标信息不满足排版规则时,进行调整所述关键区域的位置参数;排版模块,用于基于调整后的位置参数对所述PDF文件进行排版。结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述标尺层生成模块,包括:识别单元,用于识别所述文件中所包含的关键区域;计算单元,用于根据确定的坐标原点,计算所述关键区域在PDF坐标系中的位置信息;标注单元,用于基于所述位置信息在所述关键区域的特定的位置处对所述关键区域进行标注;其中,所述标注的内容包括:坐标信息;显示单元,用于显示所述标注。结合第二方面的第一种可能的实施方式,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述显示单元,具体用于:获取预设的标注样式信息,按照所述标注样式信息进行显示所述标注;其中,所述标注样式信息包括:标注的线条格式、线条颜色和标注的文字字体、文字颜色及各间隔信息点标注。结合第二方面的第一种可能的实施方式,本发明实施例提供了第二方面的第三种可能的实施方式,其中,所述标注单元具体用于:在所述页眉与所述正文段落之间进行标注;在所述正文段落与所述页脚之间进行标注;在所述左右边空与所述正文之间进行标注;在页面每栏的边界处进行标注;在每个间隔信息点处进行标注。本发明实施例提供的一种PDF边界及网格线标识的方法及装置,采用首先对PDF文件进行预排版,在预排版的PDF文件上生成标尺层,基于该标尺层中对PDF文件中的关键区域的坐标信息的标注,进行判断关键区域的坐标信息是否满足排版规则,如果不是,则进行调整关键区域的位置参数,基于调整后的位置参数对PDF文件进行排版。与现有技术中的由人工进行估计关键区域的位置信息相比,其具有简单、便捷、准确的积极效果。为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本发明一个实施例所提供的一种PDF边界及网格线标识的方法的流程示意图;图2示出了本发明一个实施例所提供的一种预排版的PDF文件上生成标尺层的流程示意图;图3a示出了本发明一个实施例所提供的一种PDF文件预排版后生成标尺层的示例;图3b示出了本发明另一个实施例所提供的一种PDF文件排版关联的内容结构树列表的示例;图3c示出了本发明另一个实施例所提供的一种PDF文件排版后在PDF坐标系中显示的单点坐标信息的示例;图4示出了本发明一个实施例所提供的一种PDF文件PDF边界及网格线标识的装置的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。考虑到现有技术中,在对PDF文件进行排版时需要由人工进行估计关键区域的位置,然后根据估计得位置进行排版,效率低,且准确性低;基于此,本发明实施例提供了一种PDF边界及网格线标识的方法及装置,下面通过实施例进行描述。参照图1所示的实施例,本发明实施例中,提供了一种PDF边界及网格线标识的方法,参照图1所示的实施例,该方法包括如下步骤:S101、对PDF文件进行预排版,在预排版的PDF文件上生成标尺层;上述的标尺层中包含有对PDF文件的关键区域的标注,该关键区域包括:PDF文件中所包含的内容、文件的页眉、页脚和左右边空;其中,所述文件中所包含的内容包括:正文段落、图片、表格和公式。上述在预排版的PDF文件上生成标尺层的过程,参照图2所示,包括如下步骤:S201、识别所述PDF文件中所包含的关键区域;该关键区域包括:PDF文件中所包含的内容、文件的页眉、文件的页脚和左右边空;其中,该PDF文件中所包含的内容包括:正文段落、图片、表格和公式。S202、根据确定的坐标原点,计算所述关键区域在PDF坐标系中的位置信息;上述的坐标原点一般是选取PDF文件页面的左上角的某一特定的位置,在确定坐标原点以后,计算上述的关键区域在PDF坐标系中的位置信息,该位置信息包括上述关键区域的坐标信息。S203、基于所述位置信息在所述关键区域的特定的位置处对所述关键区域进行标注;其中,所述标注的内容包括:坐标信息;标注的样式可以是直线标注。具体的,上述在确定关键区域的坐标信息以后,对关键区域进行直线标注,并在该直线上标注位置坐标。上述的关键区域的特定位置的选取,以容易被工作人员看到为原则,包括但不限于以下选取方式:从头到尾等间距地选择;从头到尾每隔一定行数选择;只在头尾选择。具体的,参照图3a所示,在PDF文件的页眉与正文段落之间进行标注直线;在PDF文件的正文段落与页脚之间进行标注直线;在PDF文件的左右边空与正文之间进行标注直线;在页面每栏的边界处进行标注直线;在每个间隔信息点处进行标注。以及,在PDF文件的每行文字的下方进行标注直线;并且该直线的长度与文字行的长度对应;在每个图片的边框处进行标注直线;示例性地,沿图片的四个边线进行标注直线;在每个表格的边框处进行标注直线;在每个独立成行的公式下方进行标注直线。上述在进行直线标注以后,在每个线条邻近选取适当的位置进行标注坐标信息;选取邻近位置的方法以尽量不与正文重合为原则,包括但不限于下面列出的方法:文字行是通栏(页面只有一栏),选取左右变空处进行标注坐标信息;文字行是某栏,选取该栏的右边空处进行标注坐标信息;针对于图片,选取图片的四个边角处进行标注坐标信息。S204、显示所述标注。上述的标注包括:标注线线条和坐标。具体的,获取预设的标注样式信息,按照所述标注样式信息进行显示所述标注;其中,所述标注样式信息包括:标注的线条格式、线条颜色和标注的文字字体及文字颜色以及各间隔信息点标注。S102、基于所述标尺层中标注的所述PDF文件中的关键区域的坐标信息,判断所述关键区域的位置是否满足排版规则;示例性地,在排版规则中要求图和与其相邻的段落文字行之间的间距为10pt(磅)。S103、如果不是,则进行调整所述关键区域的位置参数;在预排版的PDF文件上生成标尺层以后,基于标尺层中标注的该图片的坐标信息和与该图片相邻的文字行的坐标信息进行判断该图片和与其相邻的段落文字行之间的间距不满足比如10pt等具体的要求时,则根据标尺层的标注的位置信息进行对该图片的参数进行调整,比如调整行高,最终使得图片与文字段落之间的间距满足排版规则。S104、基于调整后的位置参数对所述PDF文件进行排版。本实施例中所提供的方法,相对于现有技术中,需要添加阅读器由人工进行估计调整的方式相比,具有排版更加简单、高效、准确的积极效果。在一可能的实施方式中,上述的排版方法还包括:基于排版后的PDF文件的标尺层标注的关键区域的坐标信息,关联对应的结构树列表,参照图3b所示;该结构树列表中列出了各个父节点、子节点所对应的索引关键词和该索引关键词所对应的内容的坐标信息,在接收到用户的通过鼠标或者触控的方式选择相应的索引关键词时,根据该索引关键词所对应的内容的坐标信息既可以调取该位置处的内容进行显示,并显示标尺层。在另一可能的实施方式中,上述在对PDF文件进行排版以后,可以响应用户请求实时显示某一特定位置的坐标信息供用户进行参考,参照图3c所示,图3c中示出了在PDF坐标系中,显示单点坐标信息的情况。本发明的又一个实施例中提供了一种PDF边界及网格线标识的装置,参照图4所示,该装置包括:标尺层生成模块401,用于对PDF文件进行预排版,在预排版的PDF文件上生成标尺层;判断模块402,用于基于所述标尺层中标注的所述PDF文件中的关键区域的坐标信息,判断所述关键区域的位置是否满足排版规则;调整模块403,用于如果所述关键内容的坐标信息不满足排版规则时,进行调整所述关键区域的位置参数;排版模块404,用于基于调整后的位置参数对所述PDF文件进行排版。上述标尺层生成模块401,包括:识别单元,用于识别所述文件中所包含的关键区域;计算单元,用于根据确定的坐标原点,计算所述关键区域在PDF坐标系中的位置信息;标注单元,用于基于所述位置信息在所述关键区域的特定的位置处对所述关键区域进行标注;其中,所述标注的内容包括:坐标信息;显示单元,用于显示所述标注。上述显示单元,具体用于:获取预设的标注样式信息,按照所述标注样式信息进行显示所述标注;其中,所述标注样式信息包括:标注的线条格式、线条颜色和标注的文字字体、文字颜色及各间隔信息点标注。上述标注单元具体用于:在所述页眉与所述正文段落之间进行标注;在所述正文段落与所述页脚之间进行标注;在所述左右边空与所述正文之间进行标注;在页面每栏的边界处进行标注;在每个间隔信息点处进行标注。本发明实施例所提供的进行PDF文件的排版方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。本发明实施例所提供的一种PDF文件的排版方法的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本
技术领域
:的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1