一种批量文档格式转换的方法及装置的制造方法_2

文档序号:8445516阅读:来源:国知局
准文档格式更方便于各种不同格式之间的转换。当然,任何结构化文档格式均可以作为基准文档格式,具体的本发明实施例对此不进行限制。
[0033]步骤103:根据所述基准文档的格式信息将源文档的格式转换为基准文档格式。
[0034]格式转换的装置根据源文档的格式以及基准文档的格式,选择对应的格式转换规贝U,根据格式转换规则对源文档进行相应的处理,然后将源文档的格式转换为基准文档格式。
[0035]步骤104:根据所述目标文档格式信息,将源文档的基准文档格式转换为目标文档格式。
[0036]格式转换的装置根据目标文档的格式以及基准文档的格式,选择对应的格式转换规则,根据格式转换规则将源文档的基准文档格式转换为目标文档格式。
[0037]本发明实施例提供的一种批量文档格式转换的方法,通过一种文件转换的基本架构,以一种中间文档格式为基准,对要转换的文件格式进行预处理,然后转换为基准格式,再由基准格式转换为目标格式,这样可以减少开发不同格式文档之间转换关系的次数,如果工作环节中需要增加一种目标文档格式,只需要重新开发基准格式与目标文档格式的转换关系,因此实现了批量文档格式的转换,方便的扩充文档格式转换功能,充分复用已有的文档格式转换模块,减少重复开发,提高工作效率。
[0038]进一步的,图2是本发明实施例提供的根据基准文档的格式信息将源文档的格式转换为基准文档格式的方法流程图,如图2所示,所述方法包括:
[0039]步骤201:对源文档进行预处理,获得所述源文档的内容元素及结构的信息。
[0040]其中,对源文档进行预处理是为了能够获得源文档的内容元素及结构的信息。因为,源文档可能是结构化的文档也可能是非/半结构化的文档,当源文档是非/半结构化的文档时,无法直接从源文档中提取源文档的内容元素及结构的信息。另外,在格式转换的过程中,对于源文档中部分数据可能存在基准文档的格式不支持的问题,因此,需要首先对源文档进行预处理。
[0041]其中,对源文档进行预处理可以采用但不局限于以下步骤:对非/半结构化的源文档进行结构化处理;将所述经过结构化处理后的源文档中不支持基准文档格式的数据进行删除或者修改为支持基准文档格式的数据。
[0042]其中,一般的,非/半结构化的文档的结构信息,在形成文档时全部/部分没有被记录,文档的结构信息隐含在文档的内容中无法直接被提取,因此,首先要将非/半结构化的文档进行结构化处理。
[0043]具体地,将非/半结构化的文档进行结构化处理具体包括根据文档规范和源文档的内容信息,将非/半结构化的源文档的文档结构转换成结构化的文档结构。其中,文档规范是对非/半结构化文档的格式进行描述的规范,由技术人员预先根据规范的文档格式的描述进行设定,并将规范转换成计算机可识别的语言,存储到格式转换的装置中。具体来说,可以采用如下的方式,当获取源文档的内容元素及结构的信息时,首先判断源文档是否是结构化文档,如果是,直接读取源文档就能够获取到源文档的内容元素及结构的信息。如果否,则说明源文档是非/半结构化文档,需要先将源文档进行结构化处理。首先读取源文档,获得源文档的内容信息,同时通过预设的路径读取文档规范,根据文档规范对源文档的内容信息进行分析并获得源文档的结构信息,根据源文档的结构信息将非/半结构化的源文档的文档结构转换成结构化的文档结构。
[0044]其中,针对将所述经过结构化处理后的源文档中不支持基准文档格式的数据进行删除或者修改为支持基准文档格式的数据。因为不同的文档格式会存在不同的显示效果,对于部分数据可能有些格式支持有些格式不支持,例如,PDF格式中不支持vsd格式中的图形数据,假设要将vsd格式的文档转换成PDF格式,要将vsd格式中的图形数据转换成图像数据。再例如,txt格式不支持doc格式中的艺术字或者渲染效果,因此假设要将doc格式的文档转换成txt格式,要将doc格式中的艺术字转换成相应的普通文字或者删除渲染效果的数据。
[0045]步骤202:根据所述基准文档的格式信息、所述源文档的内容元素及结构的信息以及预设的源文档与基准文档元素及结构的对应关系,将源文档的格式转换为基准文档格式。
[0046]需要说明的是,不同格式的文档之间元素及结构有一定的对应关系,这个对应关系需要根据具体的格式进行开发,每两种不同格式的文档之间仅存在一种对应关系。对于将源文档的格式转换为基准文档格式,具体来说,可以采用如下的方式,首先获取到基准文档的格式信息,根据基准文档的格式信息开发出基准文档格式与其他所有常用文档格式的对应关系,将对应关系通过计算机可识别的语言进行描述,并存储到格式转换的装置中。当需要将源文档的格式转换为基准文档格式时,获得源文档的格式信息,根据源文档的格式信息查找到源文档与基准文档元素及结构的对应关系,根据源文档的内容元素及结构的信息和源文档与基准文档元素及结构的对应关系,将源文档的格式转换为基准文档格式。
[0047]进一步的,图3是本发明实施例提供的根据所述目标文档格式信息,将源文档的基准文档格式转换为目标文档格式的方法流程图,如图3所示,所述方法包括:
[0048]步骤301:获得所述基准文档的内容元素及结构的信息。
[0049]需要说明的是,这个步骤中不包含对基准文档进行结构化处理的过程,因为前面提到过基准文档格式选取的原则,一般选取结构化文档的格式作为基准文档格式,结构化文档具有规整的结构,并且能够直接将文档的内容元素及结构的信息提取出来,因此不需要对源文档的基准文档进行结构化处理。
[0050]步骤302:根据所述目标文档的格式信息、所述基准文档的内容元素及结构的信息以及预设的基准文档与目标文档元素及结构的对应关系,将源文档的基准文档格式转换为目标文档格式。
[0051]需要说明的是,前面已经提到,根据基准文档的格式信息开发出基准文档格式与其他所有常用文档格式的对应关系,将对应关系通过计算机可识别的语言进行描述,并存储到格式转换的装置中。因此,若要获得基准文档与目标文档元素及结构的对应关系,也可以根据具体的目标文档格式在已开发出的基准文档格式与其他所有常用文档格式的对应关系中查询到,不需要重新开发。具体来说,将源文档的基准文档格式转换为目标文档格式可以采用如下的方式,首先获取到目标文档的格式信息,根据目标文档的格式信息查找到目标文档与基准文档元素及结构的对应关系,根据基准文档内容元素及结构的信息和基准文档与目标文档元素及结构的对应关系,将源文档的基准文档格式转换为目标文档格式。
[0052]由上述内容也可以很容易的看出,假设现有A、B、C三种格式的源文档,如果在出版的2个环节中分别需要E、F两种格式,那么对于现有技术来说,一共需要开发A和E,B和E,C和E,A和F,B和F,C和F,六种不同格式文档之间的对应关系,如果再增加一个使用G格式的环节,还需要重新开发三种不同格式文档之间的对应关系。而对于本发明来说,假设选取D格式作为基准文档格式,则一共仅需要开发A和D,B和D,C和D,D和E,D和F五种不同格式文档之间的对应关系,如果再增加一个使用G格式的环节,只需要再开发D和G —种格式文档之间的对应关系。显然本发明的方案很方便的扩充了文档格式转换功能,充分复用已有的文档格式转换模块,减少了重复开发,提高了工作效率。并且,源文档的格式种类以及出版的环节需要的不同格式的种类越多,本发明的这种优势越明显。
[0053]图4是本发明实施例提供的一种批量文档格式转换的装置组成框图,如图4所示,所述装置包括:
[0054]接收模块401,用于接收将源文档的格式转换为目标文档格式的请求,所述请求中包含目标文档格式信息。其中,将源文档的格式转换为目标文档格式的请求可以由操作人员通过计算机发出,也可以由计算机直接发出,具体的本发明实施例对此不进行限制。获取模块402,用于根据所述接收模块接收的所述请求获取基准文档格式的信息,所述基准文档格式为结构化文档格式,所述基准文档格式是文档格式转换的格式基准。其中,请求中可以包含基准文档格式的信息,也可以不
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1