文档的协同转换方法及系统的制作方法

文档序号:9929608阅读:606来源:国知局
文档的协同转换方法及系统的制作方法
【技术领域】
[0001]本发明涉及文档转换技术领域,尤其涉及一种文档的协同转换方法及系统。
【背景技术】
[0002]目前,存在着巨量的纸质书籍尚未提供电子书版本,纸质书籍转化为统一的电子书格式,除了创造直接的商业价值外,也更便于文化的传播、交流和继承,并能有效防止由于纸张损坏而造成的遗失。另外,现存大量的TOF扫描版文档需要转为更易于阅读的其他电子书格式,电子书格式的统一是历史发展的必然趋势。如何将市面上巨量的现存纸质书籍以及^^格式书籍,转为包括#1*、11101^、(10(3、00(^001^在内的各种电子书格式则成为一个具有挑战意义和紧迫性的问题。
[0003]由于目前市场上待转为电子书的文档数量非常庞大,当前电子书转换系统基本都是单任务转换系统,面临的主要问题是:一方面待转换文档数量相当庞大且转换成本较高,采用的单任务转换系统转换效率及质量低;另一方面由于纠错、排版等问题,转换工作无法完全由系统自动实现,部分工作必须依靠人工实现,由单个人实现整个文档所有的校对工作,其工作效率低,需要人工付出更多的劳动。

【发明内容】

[0004]本发明的主要目的在于提供一种文档的协同转换方法及系统,旨在提高文档转换的效率及质量。
[0005]为实现上述目的,本发明提供了一种文档的协同转换方法,包括:
[0006]多个客户端分别向服务端发送创建用户的请求,或者同一客户端统一向服务端分别发送多个客户端创建用户的请求;
[0007]服务端根据所述请求创建多个用户及为各用户分配对应的角色;
[0008]服务端接收客户端上传的文档,对所述文档进行拆分,对拆分后的文档依次进行清染及光学字符识别;
[0009]各客户端从服务端获取经光学字符识别后的文档进行结构化标引,并
[0010]根据各自对应的用户及角色,接收用户指令对进行结构化标引后的文档进行相应的校对,将完成校对的文档上传至服务端;
[0011]服务端在接收到各客户端上传的所有完成校对的拆分文档后进行合并。
[0012]可选地,所述服务端在接收到各客户端上传的所有完成校对的拆分文档后进行合并之后包括:
[0013]客户端从服务端获取合并后的文档,对合并后的文档进行完整性校对。
[0014]可选地,所述服务端接收客户端上传的文档,对所述文档进行拆分,对拆分后的文档依次进行渲染及光学字符识别包括:
[0015]所述服务端接收客户端上传的文档,对所述文档进行拆分,对拆分后的文档进行渲染,在对渲染后的文档进行光学字符识别的过程中,将不同的语言文字进行分开识别,并将进行光学字符识别的文档中识别错误的文字进行存储,以在识别的过程中对所述识别错误的文字进行标识。
[0016]可选地,所述服务端与各客户端之间通过https协议进行通信,所述客户端所有下载或上传的数据以加密的方式存储在内存和/或客户端的临时文件中,所述临时文件的加密秘钥存在所述服务器并通过https协议发送至所述客户端。
[0017]可选地,所述各客户端从服务端获取经光学字符识别后的文档进行结构化标引,并根据各自对应的用户及角色,接收用户指令对进行结构化标引后的文档进行相应的校对,将完成校对的文档上传至服务端之前包括:
[0018]客户端获取用户的身份验证信息,在所述身份验证信息通过验证后,从所述服务端获取经光学字符识别后的文档。
[0019]可选地,所述接收用户指令对进行结构化标引后的文档进行相应的校对包括:
[0020]在校对界面同时显示多个对照视图,接收用户指令对进行结构化标引后的文档进行相应的校对。
[0021]此外,为实现上述目的,本发明还提供了一种文档的协同转换系统,所述文档的协同转换系统包括服务端和多个客户端,其中,
[0022]客户端,用于向服务端发送创建用户的请求;
[0023]服务端,用于根据所述请求创建多个用户及为各用户分配对应的角色;
[0024]服务端,还用于接收客户端上传的文档,对所述文档进行拆分,对拆分后的文档依次进行渲染及光学字符识别;
[0025]客户端,还用于从服务端获取经光学字符识别后的文档进行结构化标引;
[0026]客户端,还用于根据各自对应的用户及角色,接收用户指令对进行结构化标引后的文档进行相应的校对,将完成校对的文档上传至服务端;
[0027]服务端,还用于在接收到各客户端上传的所有完成校对的拆分文档后进行合并。
[0028]可选地,所述客户端还用于,从服务端获取合并后的文档,对合并后的文档进行完整性校对。
[0029]可选地,所述服务端与各客户端之间通过https协议进行通信,所述客户端所有下载或上传的数据以加密的方式存储在内存和/或客户端的临时文件中,所述临时文件的加密秘钥存在所述服务器并通过https协议发送至所述客户端。
[0030]可选地,所述客户端还用于,获取用户的身份验证信息,在所述身份验证信息通过验证后,从所述服务端获取经光学字符识别后的文档。
[0031]本发明实施例服务端通过创建多个用户及为各用户分配对应的角色,并对接收到的文档进行拆分后依次进行渲染及光学字符识别。然后各客户端从服务端获取经光学字符识别后的文档进行结构化标引,各客户端协同工作根据对应的用户及角色接收用户指令对进行结构化标引后的文档进行相应的校对,并将完成校对的文档上传至服务端进行合并。实现了对文档转换任务进行拆分、分配及合并等,使各个客户端进行协同工作完成文档的转换及校对,提高了文档转换的效率及质量。
【附图说明】
[0032]图1为本发明文档的协同转换方法第一实施例的流程示意图;
[0033]图2为本发明文档的协同转换方法第二实施例的流程示意图;
[0034]图3为本发明文档的协同转换系统一实施例的功能模块示意图。
[0035]本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
【具体实施方式】
[0036]应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0037]如图1所示,示出了本发明一种文档的协同转换方法第一实施例。该实施例的文档的协同转换方法包括:
[0038]步骤S10、多个客户端分别向服务端发送创建多个用户的请求,或者同一客户端统一向服务端分别发送多个客户端创建用户的请求;
[0039]步骤S20、服务端根据所述请求创建多个用户及为各用户分配对应的角色;
[0040]本实施例提供的文档的协同转换方案中,实现分布式电子书协同转换,用户可将纸质书籍和1^?扫描版文档转为6?1113、1]1013;[、(100、00013001^等电子书格式。能够实现人机协同工作,并对转换任务进行拆分、分配、跟踪、以及合并等。主要的涉及的技术包括PDF解析、PDF清染、光学字符识别(Optical Character Recognit1n,OCR)、工作流管理、结构化标引、OCR校对、整书完整性校对等。以下将以对一本书的的PDF文档的转换为例进行详细说明。
[0041]本实施例中,客户端根据具体任务不同,可运行于个人PC或者是特殊提供的智能设备之上,服务端部署在互联网上。根据文档的协同转换的需要,首先创建用户、用户组和角色,该用户组由多个用户组成以便管理,每个用户组分配一个角色来执行对应的任务,多个用户可自主注册,也可是由管理员批量注册。即服务端根据客户端发送创建多个用户的请求创建多个用户、用户组及分配不同角色,或者是服务端根据同一客户端分别发送多个客户端创建用户的请求创建多个用户、用户组及分配不同角色。可以理解的是,各客户端所对应的不同用户的权限和角色可由管理员进行指定。该用户为在创建工作流时需要执行任务的用户,分配不同角色指由管理员给每个用户分别指派结构化标引、OCR校对、整书完整性校对等任务。例如,创建用户名yuyue对应的角色为结构化标引校对,创建用户名j enny对应的角色为结构化标引,创建用户名yixiaoting对应的角色为整书完整性校对。
[0042]步骤S30、服务端接收客户端上传的文档,对所述文档进行拆分,对拆分后的文档依次进行渲染及光学字符识别;
[0043]在完成用户创建后,创建工作流,由管理员所在的客户端上传所要转换的PDF文档至服务端,并设置工作流名。启动工作流后,服务端可通过任务拆分,将文档按照页码进行打散,以便分发给不同的客户端,避免一个用户拿到整册书籍并需要对整册书籍执行所有转换任务。服务端自动执行对I3DF文档进行解析、渲染和OCR识别等。其中,PDF解析是指获取文档中各种信息以及提取文档中各种对象,并可对这些对象进行增加、修改、删除等操作,PDF文档中对象主要包括:路径、文字、图片、图表、底纹等。PDF渲染是指将文档页面转换为图片格式。OCR识别是指对图像文件进行分析处理,自动识别获取文字信息及版面信息,图像文件的来源可以是使用扫描仪或数码相机对文本资料进行扫描成图像文件,也可以是PDF文件通过TOF渲染后得到的图片文件。
[0044]步骤S40、各客户端从服务端获取经光学字符识别后的文档进行结构化标引,并根据各自对
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1