版式文档的处理方法及装置的制造方法

文档序号:8223470阅读:479来源:国知局
版式文档的处理方法及装置的制造方法【专利说明】【
技术领域
】[0001]本发明涉及文档处理技术,尤其涉及一种版式文档的处理方法及装置。【【
背景技术
】】[0002]版式文档是指符合版式文档格式规范的文档,它采用一种绝对描述方式,在自定义的坐标系中,明确记录了每个页面元素显示的位置、尺寸和样式等。版式文档格式是版面呈现效果固定的电子文档格式,版式文档的呈现与终端无关,在各种终端上阅读、打印或印刷时,其版面的呈现结果都是一致的。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用版式文档,例如,目前的可移植文档格式(PortableDocumentFormat,PDF)文档就是一种比较典型的版式文档。[0003]在对版式文档的信息化管理中,在一些情况下,例如,版式文档中所包含的目录数据可能并不完整,或者版式文档中根本不包含目录数据,等等,需要重新获取完整的目录数据。现有技术中,可以由操作人员对版式文档进行人工查看,进而根据所查看的内容,获取对应的目录数据。[0004]然而,人工获取的操作复杂,且容易出错,从而导致了版式文档处理的效率和可靠性的降低。【【
发明内容】】[0005]本发明的多个方面提供一种版式文档的处理方法及装置,用以提高版式文档处理的效率和可靠性。[0006]本发明的一方面,提供一种版式文档的处理方法,包括:[0007]获取版式文档的元数据;[0008]根据所述版式文档的元数据,获得所述版式文档的标题;[0009]根据所述版式文档的标题,获得所述版式文档的目标目录数据。[0010]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述版式文档的元数据包括所述版本文档的目录页面的元数据和版本文档的正文页面的元数据中的至少一项。[0011]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,[0012]所述根据所述版式文档的元数据,获得所述版式文档的标题之前,还包括:[0013]获取所述版式文档的参考目录数据,所述参考目录数据为与所述版式文档的内容相同或相似的其他文档的目录数据;[0014]所述根据所述版式文档的元数据,获得所述版式文档的标题,包括:[0015]根据所述版式文档的元数据和所述版式文档的参考目录数据,获得所述版式文档的标题。[0016]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述版式文档的元数据包括所述版本文档的目录页面的元数据;所述获取版式文档的元数据,包括:[0017]获取目录页面的起始部分的元数据、目录页面的结束部分的元数据和目录页面的结构特征的元数据中的至少一项;[0018]根据所述目录页面的起始部分的元数据、所述目录页面的结束部分的元数据和所述目录页面的结构特征的元数据中的至少一项,获取所述版本文档的目录页面的元数据。[0019]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述版式文档的元数据,获得所述版式文档的标题,包括:[0020]利用各个等级目录的特征数据,从所述版式文档的元数据中,获得所述版式文档的标题;或者[0021]根据所述版本文档的元数据,提取所述版式文档的结构化数据;以及根据所述版式文档的结构化数据,获得所述版式文档的标题。[0022]本发明的另一方面,提供一种版式文档的处理装置,包括:[0023]元数据获取单元,用于获取版式文档的元数据;[0024]标题获得单元,用于根据所述版式文档的元数据,获得所述版式文档的标题;[0025]目录获得单元,用于根据所述版式文档的标题,获得所述版式文档的目标目录数据。[0026]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述元数据获取单元所获取的所述版式文档的元数据包括所述版本文档的目录页面的元数据和版本文档的正文页面的元数据中的至少一项。[0027]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,[0028]所述标题获得单元,还用于[0029]获取所述版式文档的参考目录数据,所述参考目录数据为与所述版式文档的内容相同或相似的其他文档的目录数据;[0030]所述标题获得单元,具体用于[0031]根据所述版式文档的元数据和所述版式文档的参考目录数据,获得所述版式文档的标题。[0032]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述元数据获取单元所获取的所述版式文档的元数据包括所述版本文档的目录页面的元数据;所述元数据获取单元,具体用于[0033]获取目录页面的起始部分的元数据、目录页面的结束部分的元数据和目录页面的结构特征的元数据中的至少一项;以及[0034]根据所述目录页面的起始部分的元数据、所述目录页面的结束部分的元数据和所述目录页面的结构特征的元数据中的至少一项,获取所述版本文档的目录页面的元数据。[0035]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述标题获得单元,具体用于[0036]利用各个等级目录的特征数据,从所述版式文档的元数据中,获得所述版式文档的标题;或者[0037]根据所述版本文档的元数据,提取所述版式文档的结构化数据;以及根据所述版式文档的结构化数据,获得所述版式文档的标题。[0038]由上述技术方案可知,本发明实施例通过获取版式文档的元数据,进而根据所述版式文档的元数据,获得所述版式文档的标题,使得能够根据所述版式文档的标题,获得所述版式文档的目标目录数据,无需人工参与,操作简单,而且正确率高,从而提高了版式文档处理的效率和可靠性。[0039]另外,采用本发明提供的技术方案,由于根据版本文档的目录页面的元数据和版本文档的正文页面的元数据,共同获得所述版式文档的标题,因此,能够有效提高版式文档处理的可靠性。[0040]另外,采用本发明提供的技术方案,由于根据版本文档的元数据,以及与该版式文档的内容相同或相似的其他文档的目录数据,共同获得所述版式文档的标题,因此,能够有效提高版式文档处理的可靠性。【【附图说明】】[0041]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。[0042]图1为本发明一实施例提供的版式文档的处理方法的流程示意图;[0043]图2为本发明另一实施例提供的版式文档的处理装置的结构示意图。【【具体实施方式】】[0044]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。[0045]需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(PersonalDigitalAssistant,PDA)、无线手持装置、无线上网本、个人电脑、便携电脑、平板电脑、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。[0046]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。[0047]图1为本发明一实施例提供的版式文档的处理方法的流程示意图,如图1所示。[0048]101、获取版式文档的元数据。[0049]102、根据所述版式文档的元数据,获得所述版式文档的标题。[0050]103、根据所述版式文档的标题,获得所述版式文档的目标目录数据。[0051]需要说明的是,此处所获得的版式文档的目标目录数据,中“目标”二字,在此处的意思就是,“最终所获得的”,也就是说,目标目录数据,就是最终所获得的目录数据,并不是一个具有特别功能限定的特殊目录数据。[0052]这样,可以利用所获得的版式文档的目标目录数据,对版式文档进行信息化管理,以及对所展现的版式文档进行页面跳转。[0053]需要说明的是,101?103的执行主体可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。[0054]可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。[0055]当前第1页1 2 3 4 
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1