一种pdf文档目录的获取方法及装置的制造方法

文档序号:9687488阅读:413来源:国知局
一种pdf文档目录的获取方法及装置的制造方法【
技术领域
】[0001]本发明涉及信息抽取领域,特别是涉及一种PDF文档目录的获取方法及装置。【
背景技术
】[0002]roF,全称PortableDocumentFormat,S卩“便携文档格式”,是一种电子文档格式,这种格式与操作平台无关,跨平台特点突出,可在几乎所有的平台上使用。这一特性使它成为在Internet上进行电子文档发行和数字化信息传播的首选文档格式,越来越多的图书文献资料首选PDF作为其电子发布的形式,如电子图书、产品说明、公司公告、网络资料、电子邮件等。PDF格式已成为用于将信息数字化的一个事实上的工业标准。[0003]PDF格式有其鲜明的技术特色,如跨平台性优越;可集成多种媒体信息出版和发布,可集成超文本链接、声音及动态影像等电子信息;提供了对网络信息发布的支持。其中,在roF的可信可靠,维护信息完整性与一致性及保持信息安全性上,最为使用者所称道的则是其安全性,数字签名或使用密码保护。而其他格式则很容易地可以修改或编辑。[0004]PDF的安全性首先保证了PDF文档不能被编辑,至少不能被轻易修改;其次,可通过设置权限,限制用户的内容打印、内容复制甚至是评论或批注的添加、修改或删除。[0005]PDF文档只供阅读,不能被修改,确保了内容的完整性与其他特性。[0006]PDF格式设计的初衷不是用来编辑的,对PDF文件内的小部分变动可能问题不大,但对PDF文档中的整块文字或影像的修改就相当困难,即便使用市场上的有关工具,也无法避开这类限制。[0007]目录基本上是图书的一个必要的组成部分,也是大多数其他形式资料的重要构成成份,利用目录可快速导航到所要查看的页面,便于用户检索相关内容。对于图书的使用者来讲,其作用重大。[0008]基于PDF格式本身的上述特点,当人们欲对PDF文档目录进行编辑和修改是不太容易实现的。【
发明内容】[0009]本发明的目的是提供一种PDF文档目录的获取方法及装置,能够解决现有技术对PDF文档中的目录进行修改和编辑存在困难的问题。[0010]为了解决上述技术问题,本发明的实施例提供一种PDF文档目录的获取方法,其中,包括:[0011]对PDF文档的体系结构进行解析,获取PDF文档的交叉索引表;[0012]对所述交叉索引表进行检索,得到文件尾TRAILER字典;[0013]对所述文件尾TRAILER字典进行分析,得到键值ROOT对应的目录簿CATALOG字JL..,N9[0014]对所述目录簿CATALOG字典进行检索,获得所述PDF文档的目录。[0015]其中,所述对PDF文档的体系结构进行解析,获取PDF文档的交叉索引表的步骤包括:[0016]对PDF文档的树形层次数据结构进行解析,获取所述PDF文档的交叉索引表。[0017]其中,所述对所述TRAILER字典进行分析,得到键值ROOT对应的目录簿CATALOG字典的步骤包括:[0018]对所述TRAILER字典进行分析,获取键值ROOT;[0019]根据所述键值R00T,获取所述键值ROOT对应的目录薄CATALOG字典。[0020]其中,所述对所述目录簿CATALOG字典进行检索,获得所述PDF文档的目录的步骤包括:[0021]对所述目录薄CATALOG字典进行检索,获取键值OUTLINES;[0022]根据所述键值OUTLINES,获取所述键值OUTLINES对应的目录对象以及目录对象中各目录项的父级目录项、兄级目录项以及子级目录项信息;[0023]对所述各目录项的父级目录项、兄级目录项和子级目录项信息进行提取,获得所述PDF文档的目录。[0024]其中,所述对所述各目录项的父级目录项和子级目录项进行提取的步骤包括:[0025]步骤a,获取所述目录对象中一当前目录项;[0026]步骤b,根据所述各目录项的父级目录项以及子级目录项信息,获取所述当前目录项的父级目录项和所述当前目录项的子级目录项。[0027]其中,所述对所述各目录项的兄级目录项进行提取的步骤包括:[0028]步骤c,获取所述目录对象中一当前目录项;其中,每个目录项包含上一个PREV指针信息和下一个NEXT指针信息;[0029]步骤d,根据所述当前目录项的PREV指针信息,获取所述当前目录项的上一个兄级目录项;其中,所述上一个兄级目录为一新当前目录项;和/或[0030]根据所述当前目录项的NEXT指针信息,获取所述当前目录项的下一个兄级目录项;其中,所述下一个兄弟目录项为一新当前目录项;[0031]步骤e,重复步骤d中根据所述当前目录项的PREV指针信息,获取所述当前目录项的上一个兄级目录项;其中,所述上一个兄级目录项为一新当前目录项的步骤至当前目录项的PREV指针信息为空;和/或[0032]重复步骤d中根据所述当前目录项的NEXT指针信息,获取所述当前目录项的下一个兄级目录项;其中,所述下一个兄级目录项为一新当前目录项的步骤至当前目录项的NEXT指针信息为空。[0033]为了解决上述技术问题,本发明的实施例还提供一种PDF文档目录的获取装置,其中,包括:[0034]第一获取模块,用于对PDF文档的体系结构进行解析,获取PDF文档的交叉索引表;[0035]第二获取模块,用于对所述交叉索引表进行检索,得到文件尾TRAILER字典;[0036]第三获取模块,用于对所述文件尾TRAILER字典进行分析,得到键值ROOT对应的目录簿CATALOG字典;[0037]第四获取模块,用于对所述目录簿CATALOG字典进行检索,获得所述PDF文档的目录。[0038]其中,所述第一获取模块包括:[0039]第一获取子模块,用于对PDF文档的树形层次数据结构进行解析,获取所述PDF文档的交叉索引表。[0040]其中,所述第三获取模块包括:[0041]第二获取子模块,用于对所述TRAILER字典进行分析,获取键值ROOT;[0042]第三获取子模块,用于根据所述键值R00T,获取所述键值ROOT对应的目录薄CATALOG字典。[0043]其中,所述第四获取模块包括:[0044]第四获取子模块,用于对所述目录薄CATALOG字典进行检索,获取键值OUTLINES;[0045]第五获取子模块,用于根据所述键值OUTLINES,获取所述键值OUTLINES对应的目录对象以及目录对象中各目录项的父级目录项、兄级目录项以及子级目录项信息;[0046]第六获取子模块,用于对所述各目录项的父级目录项、兄级目录项和子级目录项信息进行提取,获得所述PDF文档的目录。[0047]其中,所述第六获取子模块包括:[0048]第一获取单元,用于获取所述目录对象中一当前目录项;[0049]第二获取单元,用于根据所述各目录项的父级目录项以及子级目录项信息,获取所述当前目录项的父级目录项和所述当前目录项的子级目录项。[0050]其中,所述第六获取子模块还包括:[0051]第三获取单元,用于获取所述目录对象中一当前目录项;其当前第1页1 2 3 4 
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1