文档的协同转换方法及系统的制作方法_3

文档序号:9929608阅读:来源:国知局
了进一步提高文档的协同转换的安全性,可设置对操作人员身份进行严格审核。身份验证信息包括用户可是用户的身份证号、指纹信息、人脸信息等。具体地,在一实施例中,当客户端对应的用户想进行文档的转换操作时,用户需要在指定的设置界面输入身份证号码,当身份证号码与注册时所提交的身份证号码一致时,该用户身份验证通过,可从服务器获取相应的文档。反之,当身份证号码与注册时所提交的身份证号码不一致时,该用户身份验证失败,没有获取文档的权限。在另一实施例中,客户端可在用户作业的过程中,通过前置摄像头定时或实时获取当前用户的面部图像,将面部图像与预先存储的人脸进行比对,若相似度达到预设值(该预设可根据实际需要进行设置),则该用户身份验证通过,可从服务器获取相应的文档。反正,该用户没有获取文档的权限。当然,也可采用对用户的指纹识别等措施进行用户身份验证。
[0064]同时,客户端对应的用户在校对的过程中,用户可使用专业硬件设备,例如电脑棒,从硬件层面保护内容不被非法拷贝和流传。当然,防止文档被拷贝的方式也可根据具体情况而灵活设置,并不限定本发明。本实施例通过对用户进行用户身份验证,大大提高了文档的协转换的安全性。
[0065]进一步地,基于上述第一至第五实施例中的任一实施例,提出了本发明文档的协同转换方法第六实施例,该实施例中上述接收用户指令对进行结构化标引后的文档进行相应的校对的步骤可包括:在校对界面同时显示多个对照视图,接收用户指令对进行结构化标引后的文档进彳丁相应的fe对。
[0066]本实施例中,使用执行校对任务的用户名登录的客户端,在显示校对界面时,可选择同步显示多个对照视图,例如,可根据实际需要设置校对界面左右视图对照同步显示,可在左边视图显示原文档,在右边视图显示结构化标引后的文档,或者是设置上下视图对照等。当然,显示多个对照视图的方式可根据具体情况而灵活设置,并不限定本发明。从而可以方便进行校对的用户进行快速校对,提高工作效率。另外,在显示输入法窗口时,可将输入法窗口设置为适宜大小,以免输入法窗口过大而挡住文字内容过多,不方便用户阅览,即上述提到的输入法视图校对,从而提高文档的转换效率。
[0067]进一步地,基于上述第一实施例,本实施例中,上述步骤S50之前可包括:服务端根据接收到的撤回指令,将已校对的文档回退至相应的客户端。
[0068]本实施例在对文档进行校对后,若发现上传到服务端的文档还存在问题,则客户端可向服务端发送撤回指令,以使服务端返回已校对的文档。例如,提交到服务端进行结构化标引后的文档,若发现还存在错误,可将已提交页面撤回,重新进行结构化标引校对。进行OCR校对后的文档提交到服务端后,若发现错误,可将文档打回到结构化标引或撤回到OCR校对,重新执行人工标引或OCR校对操作。本实施例实现了对已上传的文档进行回退及纠错,极大地提高了文档的转换质量。
[0069]进一步地,基于上述第一实施例,本实施例中,服务端包括私有云平台和公众云平台。
[0070]本实施例服务端包括私有云平台和公众云平台,即可采用众包模式作为公众云平台部署,或者针对集团用户部署为私有云平台。在私有云平台上,文档的转换工作只能由企业内部人员使用,这样的好处是可以很好的保护书籍的版权,并且可以通过对操作人员的专业培训,提高对文档转换的效率和质量。考虑到待转换书籍的庞大数量,以及对于操作人员专业要求不高的特点,在公众云平台上,文档的转换工作可以分配给各种非专业人员,可以找到社会上各领域的大量兼职人员参与转换工作,利用互联网的高效通信、分布式工作等特点,能针对不同转换书籍迅速找到合适的转换操作人员,大大地降低文档的转换的人工成本,及极大地提高转换工作的整体进度,既能提高转换效率,又能保证转换质量。
[0071]本实施例系统还设置有后台服务监控,后台服务监控是指通过一个功能模块对服务器基本信息、网络传输信息、当前用户数、CPU占用率、内存使用情况、服务运行情况、磁盘使用情况进行监控,以便系统管理员了解系统的整体运行情况。
[0072]对应地,如图3所示,提出本发明一种文档的协同转换系统第一实施例。该实施例的文档的协同转换系统包括服务端100和多个客户端200,其中,服务端100包括用于提供系统运行的各种支撑库的系统支撑层,系统支撑层包括数据库、文件系统、RPC、HTTPS、互斥锁等。服务端100主要任务是进行任务管理、用户管理、资源管理、任务执行、系统管理等。其中,任务管理是指负责创建、删除、分派任务,分派任务时可根据任务不同阶段自动调用各任务执行模块,或者分派给不同操作人员;用户管理是指负责记录用户账户信息、角色管理、用户注册、注销、登录、登出等工作;资源管理是指负责TOF以及转换后电子文件的搜索、上传、下载、删除、元数据管理等工作;任务执行是指负责执行某一项特定任务,并将执行结果返回给任务管理模块,目前包括三个子任务模块:PDF解析和渲染、OCR识别、电子文档输出等;系统管理是指负责整个系统的参数设置,状态和统计数据的查询,运行日志的管理,系统维护等工作.
[0073]客户端200包括负责与服务端100可靠通信、XML数据解析,以及提供各种数据结构对象的中间层。客户端200主要任务是进行登录管理、工作流管理、结构化标引、OCR校对、整书完整性校对、系统管理等。其中,登录管理是指与服务端用户管理模块进行交互,负责用户的登录、登出;工作流管理是指与服务端任务管理模块进行交互,负责对任务列表进行创建、删除、指派等管理工作;结构化标引是指负责对页面内容进行标引,标引包括区域位置,类型(图片、文字、表格)和正文、标题、注、CIP版权页、版芯、封面、参考文献、图题、表题等,同时,可对区域重新识别,提高OCR识别率;OCR校对是指负责对页面文字进行校验和修改;整书完整性校对是指负责对书的目录、注(注包括脚注、尾注等)、元数据进行全面校对。系统管理是指与服务端用户管理模块和系统管理模块通信,负责用户、角色管理、用户组管理等工作。角色包括系统管理角色、工作流管理角色、结构化标引角色、校对角色、整书完整性校对角色、导出ePub角色,一个用户可以具有多个角色。
[0074]以下将对服务端100与客户端200进行文档的协同转换进行详细说明,其中,
[0075]客户端200,用于向服务端100发送创建用户的请求;
[0076]服务端100,用于根据所述请求创建多个用户及为各用户分配对应的角色;
[0077]本实施例提供的文档的协同转换方案中,实现分布式电子书协同转换,用户可将纸质书籍和1^?扫描版文档转为6?1113、1]1013;[、(100、00013001^等电子书格式。能够实现人机协同工作,并对转换任务进行拆分、分配、跟踪、以及合并等。主要的涉及的技术包括PDF解析、PDF清染、光学字符识别(Optical Character Recognit1n,OCR)、工作流管理、结构化标引、OCR校对、整书完整性校对等。以下将以对一本书的的PDF文档的转换为例进行详细说明。
[0078]本实施例中,客户端200根据具体任务不同,可运行于个人PC或者是特殊提供的智能设备之上,服务端100部署在互联网上。根据文档的协同转换的需要,首先创建用户、用户组和角色,该用户组由多个用户组成以便管理,每个用户组分配一个角色来执行对应的任务,多个用户可自主注册,也可是由管理员批量注册。即服务端100根据客户端200发送创建多个用户的请求创建多个用户、用户组及分配不同角色,或者是服务端100根据同一客户端200分别发送多个客户端200创建用户的请求创建多个用户、用户组及分配不同角色。可以理解的是,各客户端200所对应的不同用户的权限和角色可由管理员进行指定。。该用户为在创建工作流时需要执行任务的用户,分配不同角色指由管理员给每个用户分别指派结构化标引、OCR校对、整书完整性校对等任务。例如,创建用户名yuyue对应的角色为结构化标引校对,仓Il建用户名jenny对应的角色为结构化标引,创建用户名yixiaoting对应的角色为整书完整性校对。
[0079]服务端100,还用于接收客户端200上传的文档,对所述文档进行拆分,对拆分后的文档依次进行渲染及光学字符识别;
[0080]在完成用户创建后,创建工作流,由管理员所在的客户端200上传所要转换的PDF文档至服务端100,并设置工作流名。启动工作流后,服务端100可通过任务拆分,将文档按照页码进行打散,以便分发给不同的客户端200,避免一个用户拿到整册书籍并需要对整册书籍执行所有转换任务。服务端100自动执行对TOF文档进行解析、渲染和OCR识别等。其中,PDF解析是指获取文档中各种信息以及提取文档中各种对象,并可对这些对象进行增加、修改、删除等操作,PDF文档中对象主要包括:路径、文字、图片、图表、底纹等。PDF渲染是指将文档页面转换为图片格式。OCR识别是指对图像文件进行分析处理,自动识别获取文字信息及版面信息,图像文件的来源可以是使用扫描仪或数码相机对文本资料进行扫描成图像文件,也可以是TOF文件通过TOF渲染后得到的图片文件。
[0081]客户端200,还用于从服务端100获取经光学字符识别后的文档进行结构化标引,并根据各自对应的用户及角色,接收用户指令对进行结构化标引后的文档进行相应的校对,将完成校对的文档上传至服务端100;
[0082]在登录执行结构化标引用户
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1