一种联合采用多种转换技术的高兼容性电子文档转换方法与流程

文档序号:13661304阅读:203来源:国知局
本发明涉及教育领域中常用电子文档文件格式转换处理技术,尤其涉及一种联合采用多种转换技术的高兼容性电子文档转换方法。
背景技术
::文件转换主要用于将常用办公类电子文档文件,例如word、ppt等office文档以及pdf文档等格式文件自动转换,可以不用安装控件直接在web网页显示播放的html格式。传统的教育资源以文本类与图形(图像)类素材为主,可以很方便地直接在浏览器网页等客户端上显示。随着现代化信息技术的迅猛发展,教师在日常办公工作中越来越多地应用电子文档来准备教案、教材、素材及课件等教育资源,信息技术手段进入课堂教学已成为一种趋势。运用形式多样、内容丰富的电子文档文件辅助教学,符合学生的认知特点,能使学生积极主动地获取知识,使每一个学生都得到充分地发展,对于教学方法的改革具有积极的推动作用。但是,目前的教育资源有着不同文档格式,大部分的客户端浏览器只能针对某些文档格式(pdf或者msoffice等办公文档格式)下载安装activex控件或者在本地个人电脑上安装各种office软件来打开显示播放,一方面在浏览器中显示播放比较繁琐,需要不断下载更新控件,对客户计算机操作水平要求较高;另一方面由于客户端安全性的不断增强,很多控件被安全软件屏蔽,不能正常安装使用。技术实现要素:有鉴于此,本发明的主要目的在于提供一种高效、稳定、兼容性强的电子文档转换方法,可将丰富多彩、形式多样的教案、教材、素材及课件等教育资源直接在网页上流畅地打开显示播放。为达到上述目的,本发明提供了一种联合采用多种转换技术的高兼容性电子文档转换方法,包括如下步骤:步骤1:上传文档文件到文件服务器并通知转换服务有需要转换的文档文件;步骤2:文档转换服务获取文件内容,判断文档是否包含有微软公式编辑器生成的特殊公式;步骤3:如果不包含特殊公式,则调用linux服务器上的openoffice转换服务进行转换,并将转换结果保存到文件服务器,结束处理流程;步骤4:如果包含特殊公式,则调用windows服务器上的msoffice转换服务进行转换,并将转换结果保存到文件服务器,结束处理流程。由上,联合采用多种转换技术,客户端浏览器不需要针对某些格式的文档文件(pdf或者msoffice等办公文档格式)下载安装activex控件或者在本地个人电脑上安装各种office软件,可将丰富多彩、形式多样的教案、教材、素材及课件等教育资源直接在网页上流畅地打开显示播放,高效、稳定、兼容性强。可选的,所述步骤2中获取所述文档文件后,对所述文档文件进行格式合法性检验处理。进一步,对所述文档文件格式合法性检验的具体实现过程为:使用文档识别技术打开整个文档,将所有内容遍历读出,判断其合法性;如果识别出有可能中断转换过程的特殊特征字符串,则不向任何一个转换服务提交转换申请,而是向上传文档文件的用户发送警告信息,提请用户确认文档内容合法性,要求用户更新后重新上传。由上,通过对文档文件格式合法性检验,可以防止后续转换服务处理在打开、读取、转换文档时报错,造成转换过程中断,严重影响转换服务的运行效率及可用性。可选的,所述步骤3、步骤4中的文件转换服务,采用分布式集群方式部署转换服务。进一步,采用分布式集群方式部署转换的具体实现过程为:将openoffice及msoffice转换服务部署在多台服务器上;部署软路由服务集中管理各个转换服务器,实时监控服务器的运行及负载状况,当转换超时甚至完全中断时及时报告管理员并处理;所有转换申请必须先提交到软路由服务,根据转换类型以及服务器负载,将申请动态分配到合适的转换服务器。由上,采用分布式集群方式部署转换服务,通过软路由的负载均衡以及实时监控管理功能,一方面,可以提高转换服务的并发处理能力,转换更加高效;另一方面,在某一个转换服务器因故中断后,其他转换服务器可以接替继续运行,不会造成转换服务完全停止,可用性更高。可选的,所述步骤2中获取所述需转换的文档文件后,还对文档内容进行预处理,判断是否包含有微软公式编辑器生成的特殊公式,并根据判断结果调用不同文档转换服务处理。进一步,所述步骤2中判断文档是否包含有微软公式编辑器生成的特殊公式处理包括如下步骤:步骤2.1:首先通过文档识别技术打开要转换的文档文件;步骤2.2:遍历整个文档并逐个扫描文档中的paragraph段落标签;步骤2.3:检测paragraph段落标签是否包含微软公式编辑器生成的特殊公式特征字符串;步骤2.4:如果包括有特征字符串,则可以判断此文档包含有微软公式编辑器生成的特殊公式,并将此文件转发给msoffice转换服务;步骤2.5:如果没有包括有特征字符串,则可以判断此文档不包含有微软公式编辑器生成的特殊公式,并将此文件转发给openoffice转换服务。由上,采用文档识别技术,使用java程序创建、读取、修改和显示msoffice文件;使用文档识别技术的wordextractorapi读取文档文件,通过getparagraphtext()方法得到文档中所有paragraph段落所包含的字符数组;遍历paragraph段落所包含的字符串数组,通过java的字符串函数判断是否包含微软公式编辑器生成的特殊公式特征字符串。附图说明图1为联合采用多种转换技术的高兼容性电子文档转换方法的流程示意图;图2为图1中步骤2的流程示意图。具体实施方式下面参照附图1-2对本发明所述的联合采用多种转换技术的高兼容性电子文档转换方法的具体实施方式进行详细的说明。一种联合采用多种转换技术的高兼容性电子文档转换方法,如图1所示,包括如下步骤:步骤1:上传文档文件到文件服务器并通知转换服务有需要转换的文档文件;步骤2:文档转换服务获取文件内容,判断文档是否包含有微软公式编辑器生成的特殊公式;步骤3:如果不包含特殊公式,则调用linux服务器上的openoffice转换服务进行转换,并将转换结果保存到文件服务器,结束处理流程;步骤4:如果包含特殊公式,则调用windows服务器上的msoffice转换服务进行转换,并将转换结果保存到文件服务器,结束处理流程。在本实施例中,所述步骤2中获取所述文档文件后,还需对所述文档文件进行格式合法性检验处理。对所述文档文件格式合法性检验的具体实现过程为:使用文档识别技术打开整个文档,不止遍历paragraph段落标签所包含的内容,而将所有标签遍历读出,包括section小节、characterrun文本、table表格等,判断每个标签所包含内容的合法性;如果识别出有可能中断转换过程的特殊特征字符串,则不向任何一个转换服务提交转换申请,而是向上传文档文件的用户发送警告信息,提请用户确认文档内容合法性,要求用户更新后重新上传。在本实例中,所述步骤3、步骤4中的文件转换服务,采用分布式集群方式部署转换服务。采用分布式集群方式部署转换的具体实现过程为:将openoffice及msoffice转换服务部署在多台服务器上;部署软路由服务集中管理各个转换服务器,实时监控服务器的运行及负载状况,当转换超时甚至完全中断时及时报告管理员并处理;所有转换申请必须先提交到软路由服务,根据转换类型以及服务器负载,将申请动态分配到合适的转换服务器。其中,所述步骤2中获取所述需转换的文档文件后,还对文档内容进行预处理,判断是否包含有微软公式编辑器生成的特殊公式,并根据判断结果调用不同文档转换服务处理。如图2所示,所述步骤2中判断文档是否包含有微软公式编辑器生成的特殊公式处理包括如下步骤:步骤2.1:首先通过文档识别技术打开要转换的文档文件;步骤2.2:遍历整个文档并逐个扫描文档中的paragraph段落标签;步骤2.3:检测paragraph段落标签是否包含微软公式编辑器生成的特殊公式特征字符串;步骤2.4:如果包括有特征字符串,则可以判断此文档包含有微软公式编辑器生成的特殊公式,并将此文件转发给msoffice转换服务;步骤2.5:如果没有包括有特征字符串,则可以判断此文档不包含有微软公式编辑器生成的特殊公式,并将此文件转发给openoffice转换服务。具体地,所述步骤2.1中,采用文档识别技术,使用java程序创建、读取、修改和显示msoffice文件;所述步骤2.2中,使用文档识别技术的wordextractorapi读取文档文件,通过getparagraphtext()方法得到文档中所有paragraph段落所包含的字符数组;所述步骤2.3中,遍历paragraph段落所包含的字符串数组,通过java的字符串函数判断是否包含微软公式编辑器生成的特殊公式特征字符串;所述步骤2.4中,如果包含特殊公式特征字符串,则将当前文档发送到windows服务器上的msoffice转换服务队列;所述步骤2.5中,如果不包含特殊公式特征字符串,则将当前文档发送到linux服务器上的openoffie转换服务队列。本发明的电子文档转换方法,充分利用linux上的openoffice转换服务的快速稳定高效,以及windows上的msoffice转换服务对特殊公式的转换处理能力,从而能够高效、稳定地将常用格式的电子文档转换为可以在浏览器上流畅显示播放、外观格式保持一致的html文档。以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本
技术领域
:的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1