一种批量文档格式转换的方法及装置的制造方法_3

文档序号:8445516阅读:来源:国知局
包含基准文档格式的信息,具体的本发明实施例对此不进行限制。第一转换模块403,用于根据所述获取模块获取到的基准文档的格式信息将源文档的格式转换为基准文档格式。第二转换模块404,用于根据所述接收模块接收的所述目标文档格式信息,将由所述第一转换模块得到的源文档的基准文档格式转换为目标文档格式。
[0055]进一步的,图5是本发明实施例提供的第一转换模块的组成框图,如图5所示,所述第一转换模块403包括:预处理子模块4031,用于对源文档进行预处理,获得所述源文档的内容元素及结构的信息。第一格式转换子模块4032,用于根据所述基准文档的格式信息、所述预处理子模块获得的源文档的内容元素及结构的信息以及预设的源文档与基准文档元素及结构的对应关系,将源文档的格式转换为基准文档格式。
[0056]进一步的,图6是本发明实施例提供的预处理子模块的组成框图,如图6所示,所述预处理子模块4031包括:结构处理单元4031a,用于对非/半结构化的源文档进行结构化处理。数据处理单元403 Ib,用于将所述经过结构化处理后的源文档中不支持基准文档格式的数据进行删除或者修改为支持基准文档格式的数据。
[0057]进一步的,所述结构处理单元4031a具体用于:根据文档规范和源文档的内容信息,将非/半结构化的源文档的文档结构转换成结构化的文档结构,其中,所述文档规范是对非/半结构化文档的格式进行描述的规范。
[0058]进一步的,图7是本发明实施例提供的第二转换模块的组成框图,如图7所示,所述第二转换模块404包括:文档信息获取子模块4041,用于获得所述基准文档的内容元素及结构的信息。第二格式转换子模块4042,用于根据所述目标文档的格式信息、所述文档信息获取子模块获得的基准文档的内容元素及结构的信息以及预设的基准文档与目标文档元素及结构的对应关系,将源文档的基准文档格式转换为目标文档格式。
[0059]本发明实施例提供的一种批量文档格式转换的方法及装置,通过一种文件转换的基本架构,以一种中间文档格式为基准,对要转换的文件格式进行预处理,然后转换为基准格式,再由基准格式转换为目标格式,从而实现了批量文档格式的转换,方便的扩充文档格式转换功能,充分复用已有的文档格式转换模块,减少重复开发,提高工作效率。
[0060]显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的装置实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
[0061]以上仅是针对本发明的优选实施例及其技术原理所做的说明,而并非对本发明的技术内容所进行的限制,任何熟悉本技术领域的技术人员在本发明所公开的技术范围内,所容易想到的变化或替换,都应涵盖在本发明的保护范围内。
【主权项】
1.一种批量文档格式转换的方法,其特征在于,包括: 接收将源文档的格式转换为目标文档格式的请求,所述请求中包含目标文档格式信息; 根据所述请求获取基准文档格式的信息,所述基准文档格式为结构化文档格式,所述基准文档格式是文档格式转换的格式基准; 根据所述基准文档的格式信息将源文档的格式转换为基准文档格式; 根据所述目标文档格式信息,将源文档的基准文档格式转换为目标文档格式。
2.根据权利要求1所述的批量文档格式转换的方法,其特征在于,根据所述基准文档的格式信息将源文档的格式转换为基准文档格式,包括: 对源文档进行预处理,获得所述源文档的内容元素及结构的信息; 根据所述基准文档的格式信息、所述源文档的内容元素及结构的信息以及预设的源文档与基准文档元素及结构的对应关系,将源文档的格式转换为基准文档格式。
3.根据权利要求2所述的批量文档格式转换的方法,其特征在于,所述对源文档进行预处理,包括: 对非/半结构化的源文档进行结构化处理; 将所述经过结构化处理后的源文档中不支持基准文档格式的数据进行删除或者修改为支持基准文档格式的数据。
4.根据权利要求3所述的批量文档格式转换的方法,其特征在于,所述对非/半结构化的源文档进行结构化处理,包括: 根据文档规范和源文档的内容信息,将非/半结构化的源文档的文档结构转换成结构化的文档结构,其中,所述文档规范是对非/半结构化文档的格式进行描述的规范。
5.根据权利要求1所述的批量文档格式转换的方法,其特征在于,根据所述目标文档格式信息,将源文档的基准文档格式转换为目标文档格式包括: 获得所述基准文档的内容元素及结构的信息; 根据所述目标文档的格式信息、所述基准文档的内容元素及结构的信息以及预设的基准文档与目标文档元素及结构的对应关系,将源文档的基准文档格式转换为目标文档格式。
6.一种批量文档格式转换的装置,其特征在于,包括: 接收模块,用于接收将源文档的格式转换为目标文档格式的请求,所述请求中包含目标文档格式信息; 获取模块,用于根据所述接收模块接收的所述请求获取基准文档格式的信息,所述基准文档格式为结构化文档格式,所述基准文档格式是文档格式转换的格式基准; 第一转换模块,用于根据所述获取模块获取到的基准文档的格式信息将源文档的格式转换为基准文档格式; 第二转换模块,用于根据所述接收模块接收的所述目标文档格式信息,将由所述第一转换模块得到的源文档的基准文档格式转换为目标文档格式。
7.根据权利要求6所述的批量文档格式转换的装置,其特征在于,所述第一转换模块包括: 预处理子模块,用于对源文档进行预处理,获得所述源文档的内容元素及结构的信息; 第一格式转换子模块,用于根据所述基准文档的格式信息、所述预处理子模块获得的源文档的内容元素及结构的信息以及预设的源文档与基准文档元素及结构的对应关系,将源文档的格式转换为基准文档格式。
8.根据权利要求7所述的批量文档格式转换的装置,其特征在于,所述预处理子模块包括: 结构处理单元,用于对非/半结构化的源文档进行结构化处理; 数据处理单元,用于将所述经过结构化处理后的源文档中不支持基准文档格式的数据进行删除或者修改为支持基准文档格式的数据。
9.根据权利要求8所述的批量文档格式转换的装置,其特征在于,所述结构处理单元具体用于: 根据文档规范和源文档的内容信息,将非/半结构化的源文档的文档结构转换成结构化的文档结构,其中,所述文档规范是对非/半结构化文档的格式进行描述的规范。
10.根据权利要求6所述的批量文档格式转换的装置,其特征在于,所述第二转换模块包括: 文档信息获取子模块,用于获得所述基准文档的内容元素及结构的信息; 第二格式转换子模块,用于根据所述目标文档的格式信息、所述文档信息获取子模块获得的基准文档的内容元素及结构的信息以及预设的基准文档与目标文档元素及结构的对应关系,将源文档的基准文档格式转换为目标文档格式。
【专利摘要】本发明公开了一种批量文档格式转换的方法及装置,涉及计算机技术领域,实现了批量文档格式的转换,方便的扩充文档格式转换功能,充分复用已有的文档格式转换模块,减少重复开发,提高工作效率。该方法包括:接收将源文档的格式转换为目标文档格式的请求;根据请求获取基准文档格式的信息;根据所述基准文档的格式信息将源文档的格式转换为基准文档格式;根据所述目标文档格式信息,将源文档的基准文档格式转换为目标文档格式。本发明主要用于出版工作中对批量文档进行格式转换的过程中。
【IPC分类】G06F17-22
【公开号】CN104765717
【申请号】CN201410008740
【发明人】魏超鹏
【申请人】北大方正集团有限公司, 方正信息产业控股有限公司, 北京北大方正电子有限公司
【公开日】2015年7月8日
【申请日】2014年1月8日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1