版式文档的处理方法及装置的制造方法_4

文档序号:8223470阅读:来源:国知局
位于网络侧的分布式系统,本实施例对此不进行特别限定。
[0111]可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
[0112]可选地,在本实施例的一个可能的实现方式中,所述元数据获取单元21所获取的所述版式文档的元数据可以包括但不限于所述版本文档的目录页面的元数据和版本文档的正文页面的元数据中的至少一项,本实施例对此不进行特别限定。
[0113]可选地,在本实施例的一个可能的实现方式中,所述标题获得单元22,还可以进一步用于获取所述版式文档的参考目录数据,所述参考目录数据为与所述版式文档的内容相同或相似的其他文档的目录数据;相应地,所述标题获得单元22,具体可以用于根据所述版式文档的元数据和所述版式文档的参考目录数据,获得所述版式文档的标题。
[0114]可选地,在本实施例的一个可能的实现方式中,所述元数据获取单元21所获取的所述版式文档的元数据包括所述版本文档的目录页面的元数据;相应地,所述元数据获取单元21,具体可以用于获取目录页面的起始部分的元数据、目录页面的结束部分的元数据和目录页面的结构特征的元数据中的至少一项;以及根据所述目录页面的起始部分的元数据、所述目录页面的结束部分的元数据和所述目录页面的结构特征的元数据中的至少一项,获取所述版本文档的目录页面的元数据。
[0115]可选地,在本实施例的一个可能的实现方式中,所述标题获得单元22,具体可以用于利用各个等级目录的特征数据,从所述版式文档的元数据中,获得所述版式文档的标题。
[0116]可选地,在本实施例的一个可能的实现方式中,所述标题获得单元22,具体可以用于根据所述版本文档的元数据,提取所述版式文档的结构化数据;以及根据所述版式文档的结构化数据,获得所述版式文档的标题。
[0117]需要说明的是,图1对应的实施例中方法,可以由本实施例提供的版式文档的处理装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
[0118]本实施例中,通过元数据获取单元获取版式文档的元数据,进而由标题获得单元根据所述版式文档的元数据,获得所述版式文档的标题,使得目录获得单元能够根据所述版式文档的标题,获得所述版式文档的目标目录数据,无需人工参与,操作简单,而且正确率高,从而提高了版式文档处理的效率和可靠性。
[0119]另外,采用本发明提供的技术方案,由于根据版本文档的目录页面的元数据和版本文档的正文页面的元数据,共同获得所述版式文档的标题,因此,能够有效提高版式文档处理的可靠性。
[0120]另外,采用本发明提供的技术方案,由于根据版本文档的元数据,以及与该版式文档的内容相同或相似的其他文档的目录数据,共同获得所述版式文档的标题,因此,能够有效提高版式文档处理的可靠性。
[0121]所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0122]在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0123]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0124]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0125]上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory, RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0126]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【主权项】
1.一种版式文档的处理方法,其特征在于,包括: 获取版式文档的元数据; 根据所述版式文档的元数据,获得所述版式文档的标题; 根据所述版式文档的标题,获得所述版式文档的目标目录数据。
2.根据权利要求1所述的方法,其特征在于,所述版式文档的元数据包括所述版本文档的目录页面的元数据和版本文档的正文页面的元数据中的至少一项。
3.根据权利要求1所述的方法,其特征在于, 所述根据所述版式文档的元数据,获得所述版式文档的标题之前,还包括: 获取所述版式文档的参考目录数据,所述参考目录数据为与所述版式文档的内容相同或相似的其他文档的目录数据; 所述根据所述版式文档的元数据,获得所述版式文档的标题,包括: 根据所述版式文档的元数据和所述版式文档的参考目录数据,获得所述版式文档的标题。
4.根据权利要求1所述的方法,其特征在于,所述版式文档的元数据包括所述版本文档的目录页面的元数据;所述获取版式文档的元数据,包括: 获取目录页面的起始部分的元数据、目录页面的结束部分的元数据和目录页面的结构特征的元数据中的至少一项; 根据所述目录页面的起始部分的元数据、所述目录页面的结束部分的元数据和所述目录页面的结构特征的元数据中的至少一项,获取所述版本文档的目录页面的元数据。
5.根据权利要求1?4任一权利要求所述的方法,其特征在于,所述根据所述版式文档的元数据,获得所述版式文档的标题,包括: 利用各个等级目录的特征数据,从所述版式文档的元数据中,获得所述版式文档的标题;或者 根据所述版本文档的元数据,提取所述版式文档的结构化数据;以及根据所述版式文档的结构化数据,获得所述版式文档的标题。
6.一种版式文档的处理装置,其特征在于,包括: 元数据获取单元,用于获取版式文档的元数据; 标题获得单元,用于根据所述版式文档的元数据,获得所述版式文档的标题; 目录获得单元,用于根据所述版式文档的标题,获得所述版式文档的目标目录数据。
7.根据权利要求6所述的装置,其特征在于,所述元数据获取单元所获取的所述版式文档的元数据包括所述版本文档的目录页面的元数据和版本文档的正文页面的元数据中的至少一项。
8.根据权利要求6所述的装置,其特征在于, 所述标题获得单元,还用于 获取所述版式文档的参考目录数据,所述参考目录数据为与所述版式文档的内容相同或相似的其他文档的目录数据; 所述标题获得单元,具体用于 根据所述版式文档的元数据和所述版式文档的参考目录数据,获得所述版式文档的标题。
9.根据权利要求6所述的装置,其特征在于,所述元数据获取单元所获取的所述版式文档的元数据包括所述版本文档的目录页面的元数据;所述元数据获取单元,具体用于 获取目录页面的起始部分的元数据、目录页面的结束部分的元数据和目录页面的结构特征的元数据中的至少一项;以及 根据所述目录页面的起始部分的元数据、所述目录页面的结束部分的元数据和所述目录页面的结构特征的元数据中的至少一项,获取所述版本文档的目录页面的元数据。
10.根据权利要求6?9任一权利要求所述的装置,其特征在于,所述标题获得单元,具体用于 利用各个等级目录的特征数据,从所述版式文档的元数据中,获得所述版式文档的标题;或者 根据所述版本文档的元数据,提取所述版式文档的结构化数据;以及根据所述版式文档的结构化数据,获得所述版式文档的标题。
【专利摘要】本发明提供一种版式文档的处理方法及装置。本发明实施例通过获取版式文档的元数据,进而根据所述版式文档的元数据,获得所述版式文档的标题,使得能够根据所述版式文档的标题,获得所述版式文档的目标目录数据,无需人工参与,操作简单,而且正确率高,从而提高了版式文档处理的效率和可靠性。
【IPC分类】G06F17-30, G06F17-25
【公开号】CN104536948
【申请号】CN201410754250
【发明人】薛璐影, 刘水
【申请人】百度在线网络技术(北京)有限公司
【公开日】2015年4月22日
【申请日】2014年12月10日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1