现代地方文献电子图书制作方法

文档序号:6400442阅读:181来源:国知局
专利名称:现代地方文献电子图书制作方法
技术领域
本发明涉及一种电子图书制作方法,尤其是对现代地方文献类书籍的电子图书的制作方法。
背景技术
知识就是力量,千百年来,书籍一直是传承知识的载体。但是随着科技的进步,人们也慢慢发现纸质书籍的保藏是一个难题。主要原因在于纸由于制材关系容易损坏。导致纸张损坏的原因大致有以下几种:—,温度温度乃表示空气中冷热程度的指标,是物体热能的量度,热能是促进有机质文物变质的一种能量形式,当温度越高,原子,分子相撞的机会就越多,化学反应就加快,科学实验证明:在化学反应中,温度升高10°c,其反应速率将增加二倍,而对纸质,温度升高5°C,变质速率就会增加二倍,即使在高温下放置短时间,也会使纸变黄,发脆。从下表可以看出,温度越高,纸张半衰期越短,反之,温度越低,半衰期越长。温度忽高忽低,对纸质的保护也是不利的,温度忽高,蒸发到空气中的水汽量就增力口,空气就过於潮湿;反之,温度忽低,蒸发到空气中的水汽也就忽然减少,空气就过於乾燥。由於温度忽高忽低,则会造成纸张中的纤维忽胀,忽缩,而影响纸张纤维的抗张强度。二,湿度湿度是表示空气中水汽含量或乾湿的程度。潮湿的环境不仅会使纸张变潮而发生水解,而且会使耐水性差的字迹湮化褪色,模糊不清。还有利於微生物的生长繁殖,促使纸张霉烂,虫蛀,变质。另外会加速其它有害物质(如大气中酸性气体C02,NO2, SO2等),极易被潮湿纸张中的水份所吸收,形成腐蚀性更强的无机酸,以及明矾更易水解生成硫酸,而加速纸张的损坏。三,光照光对纸质的危害,一般认为是光的热作用与光化学作用造成的。对此,为了保护书籍,我们现在常用的方式是将书籍进行电子化处理,扫描。将书籍转为电子化。但是事实上在这个过程中,会有许多意想不到的事情发生。如电子扫描识别的精确度一直是个难以解决的问题。现有技术中虽然也有相关的专利,如深圳市点通数据有限公司就有公开号为CN101488126的发明专利《双语语句对齐方法及装置》用于提高版权对齐的效率;以及公开号CN101308491的《版面还原方法》发明专利用于提高版面位置的对应。但是在针对文字校对方面并没有突出的进步。而且电子书的查阅方式和纸质文本也不同,需要方便的链接等方式,现有技术中的扫描文件均无法满足这样的要求。文本的种类也很多,但是现代地方文献具有文字量大,数据、图案、文字表格混排等多种特点,而且对于文字、数字准确率的要求非常高,是转电子版本文件中难度较高的一种。而且转成电子文本后,又要满足便于查询检索等要求,后期制作要求高。但是优点在于现代地方文献纸质文本的纸质较好,适合现代化的扫描工具。

发明内容
为了实现对具有复杂内容的现代地方志由纸质转为电子,并且能根据客户需求进行检索,本发明提供了一种现代地方文献电子图书制作方法,包括以下步骤:步骤1.图像扫描,通过专业扫描仪将纸本地方文献扫描到电脑中,这样将纸件文献转化成电子图像;步骤2.图像处理,所述图像处理步骤包括校对信息完整性,确保没有遗漏文本的文字、图片、注释等信息,对图像进行纠偏,确保图像位置正,以及图片去污处理,确保图片整洁美观;步骤3.PDF转换,按目录最小组织结构采用HF图像格式进行封装;步骤4.版面分析识别校对,包括图像版面分析、文本OCR识别,文本校对,所述文本校对包括了横向校对和纵向校对,所述横向校对即逐行校对,所述纵向校对为逐一选择
书本中所有不同的字,寻找这些字在文中出现的所有位置,--对比确认这些文字校对的
是否正确;步骤5.TXT排版并进行JPG插图索引,包括对经所述步骤4识别产生的文本的TXT文件进行排版以及对文本中间的插图进行索引,确保JPG插图嵌套在文本中正确位置,并且索引准确;步骤6.目录制作,根据规则编制目录并完成目录标引,完成的文件生成目录文件;步骤7.XML文件制作,根据编制的目录文本和所述步骤5的TXT文本生成描述每本地方文献用于入库的X ML文件;步骤8.XML质检。检查针对每本文献生成的XML文件格式,包括书名、作者、出版社、正文、PDF路径等所有字段的检查,确保与原纸本文献的内容完全对应。优选的,所述步骤2中的纠偏工序中包括对文字的初步辨识;确认是扫描导致的倾斜后进行纠偏,纠偏后文字和水平方向的夹角不超过3度。这样转换过后能提高后期文本OCR识别的准确率,减轻后期校对的工作负担。其特征在于:所述纠偏工作完成后,将文字部分进行投影,该投影覆盖了一定的区域,该区域可以按比例放大和缩小,将该投影区域调整到和原稿等比大小后,将其四个顶点和原稿位置一一校对,看是否能同时重合,然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。这样从版面上检验是否有遗漏或者缺少。这样也能检查出复制错误页的问题。优选的,所述步骤3中所述采用PDF图像格式进行封装;即封面后的插图封装成一个节点,命名为“冠图”,冠图之间允许插入有序、前言,冠图分为冠图1、冠图2 ;封底前的插图封装成一个节点,命名为“附图”;封面、冠图、目录、序、前言、题名页、版权页、扉页、编纂委员会等正文前面的内容按其标题单独封装HF ;对于封面、冠图、目录、题名页、版权页、扉页按照每个页面作为整张图片处理不需要OCR识别,用专业图像处理软件转成JPG上传至每本书相对应的JPG文件夹;对于序、前言、编纂委员会内容需要识别校对。优选的,所述步骤4中版面分析识别校对,即首先将原文的图片中的文字段落和图片分别进行版面分析,画上代表不同识别类型的区域框,所述版面分析工作完成后,进行OCR识别,所述OCR识别工作完成后,须将识别后的文本内容逐行进行横向校对。所述横向校对工作完成后,再进行纵向校对,即逐一选择书本中所有不同的字,寻找这些字在文中出现的所有位置,一一对比确认这些文字在文中的出现是否正确,确保文字的识别错误率要低于万分之一。优选的,所述步骤7中的XML文件制作过程为:将XML文件里图书中文名称、馆藏标识、一级目录、二级目录、名称、正文、PDF等所有字段都遵照书本客观录入,是简体字体的录入简体字体,是繁体字体的录入繁体字体;如果书本封面标题和题名页标题不一致,则取题名页标题;书本内容有“〈>”字符,在XML里采用“O”代替;书本内有注释内容,著录规则为:-(本页注释开始)-注释内容-(本页注释完)-有无法录入的生僻汉字用黑色实心方框代替;正文里的数学公式、化学分子式或方程式按插图处理,给出图片索引地址;有无法录入的特殊符号,如能用中文描述的,采用用中文文字表达;一份表格内容在第一页没有结束,在第二页有续表,如第二页上没有“续表” 二字,则增加“续表” 二字并录入在正文里,后加该表格的索引地址;书本的目录标题与正文标题不一致,录入目录标题。优选的,XML的目录级别只制作到三级,即一级目录、二级目录和名称。这样避免了过多的目录级别导致目录导航混乱。优选的,成套出版物在所述单本文件做完步骤8的质检工作后,还需要进行总检,并生成xml文件。这样使得检索更为方便。对于不需要进行校验,仅仅是扫描保存的现代地方文献电子图书制作方,包括以下步骤:步骤1.图像扫描,通过专业扫描仪将纸质地方文献扫描到电脑中,这样将纸件文本转化成图像;步骤2.图像处理,所述图像处理步骤包括校对信息完整性,确保没有遗漏文本的注释等信息,对图像进行纠偏,确保图像位置正,以及图片去污处理;步骤3.PDF转换,整本书直接进行封装。这样的电子版文本通常用于备份,保存价值不高。封装后只要在图像处理时确保图像清晰即可,不需要后续质检。优选的,所述纠偏工作完成后,将文字部分进行投影,该投影覆盖了一定的区域,该区域可以按比例放大和缩小,将该投影区域调整到和原稿等比大小后,将其四个顶点和原稿位置一一校对,看是否能同时重合,然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。这样能确保PDF文件没有遗漏原始文本信息。本发明具有以下效果:通过科学的步骤,提高了将纸质文本转化成电子文本的效率。通常情况下一本十万字的地方志由一个20人小组在一个星期内能完成。错误率在万分之一左右。完成的文稿都已经通过XML文件制成目录,方便查阅和检索。


下面结合附图对本发明作进一步说明:
图1为本实用现代地方文献图书制作方法的整体流程示意图。
具体实施例方式如图1所示,本实用现代地方文献图书制作方法,以20人为规模的制作流水线安排,3人做PDF封装,13人做识别校对,I人做目录制作,3人做排版图片索引及XML质检。地方文献制作的主要工作量在识别校对这道工序上,由于制作规范要求识别错误率要低于万分之一,就必须要经过横向校对和纵向校对,这也就直接影响到了识别所需花费的时间。PDF封装的操作人员完成本职工作后,可分配到识别校对和排版索引的工序中,刚好调节这两道工序的人员安排,而目录制作按比例分配可按排I人做目录制作,此操作人员的工作饱和度较高,安排3人同时做2道工序——排版索引与XML质检,这样的安排人员可动性较高,调整起来不费力。为了实现对具有复杂内容的现代地方志由纸质,本发明提供了一种现代地方文献电子图书制作方法,包括以下步骤:步骤1.图像扫描,通过专业扫描仪将纸本地方文献扫描到电脑中,这样将纸件文献转化成电子图像;步骤2.图像处理,所述图像处理步骤包括校对信息完整性,确保没有遗漏文本的注释等信息,对图像进行纠偏,确保图像位置正,以及图片去污处理;纠偏工序中包括对文字的初步辨识;确认是扫描导致的倾斜后进行纠偏,纠偏后文字和水平方向的夹角不超过3度。这样转换过后能提高后期ORC识别的成功率,减轻后期校对的工作负担。所述图像处理和PDF转换工作完成后,将图像的有效信息部分进行投影,该投影覆盖了图像所有有效信息区域,该区域可以按比例放大和缩小,将该投影区域的四个顶点和原稿位置一一校对,看是否能同时重合,然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。这样能确保PDF文件和原始图像完全一致,没有遗漏原始图像有效信息。步骤3.PDF转换,按目录结构采用PDF图像格式进行封装;所述步骤3中所述采用PDF图像格式进行封装。具体的说就是封面后的插图封装成一个节点,命名为“冠图”,冠图之间允许插入有序、前言,冠图分为冠图1、冠图2 ;封底前的插图封装成一个节点,命名为“附图”;封面、冠图、目录、序、前言、题名页、版权页、扉页、编纂委员会等正文前面的内容按其标题单独封装PDF ;对于封面、冠图、目录、题名页、版权页、扉页按照每个页面作为整张图片处理不需要OCR识别,用专业图像处理软件转成JPG上传至每本书相对应的JPG文件夹;对于序、前言、编纂委员会内容需要识别校对。步骤4.版面分析识别校对,包括文本OCR识别,文本校对,所述文本校对包括了横向校对和纵向校对,所述横向校对即逐行校对,ORC识别后,将原文的图片按行切割后和识别后的文本以一行对一行的格式排列。方便横向校对。所述纵向校对为逐一选择书本中所有不同的字,寻找这些词语在文中出现的位置,--对比确认这些文字在文中的出现是否正确;步骤5.TXT排版并进行JPG插图索引;步骤6.目录制作,根据规则编制目录并完成目录标引,完成的文件生成目录;步骤7.XML文件制作, 根据编制的目录文本和校对后的文本生成XML文件;步骤8.XML质检。
优选的,所述步骤7中的XML文件制作过程为:将XML文件里所有标题字段都遵照书本客观录入,是简体字体的录入简体字体,是繁体字体的录入繁体字体;如果书本封面标题和题名页标题不一致,则取题名页标题;书本内容有“〈>”字符,在XML里采用“O”代替;书本内有注释内容,注入规则为:-(本页注释开始)-注释内容-(本页注释完)-有无法录入的生僻汉字用黑色实心方框“■”代替;正文里的数学公式、化学分子式或方程式按插图处理,给出图片索引地址;有无法录入的特殊符号,如能用中文描述的,采用用中文文字表达;一份表格内容在第一页没有结束,在第二页有续表,如第二页上没有“续表” 二字,则增加“续表” 二字并录入在正文里,后加该表格的索引地址;书本的目录标题与正文标题不一致,录入目录标题。实施例1:< xml version="l.0"encoding="gbk" ><!DOCTYPE TRS[
<!ELEMENT TRS(REC)><REC><图书中文名称 > 浙江省少数民族志〈/图书中文名称Xbr/Xbr/>< 馆藏标识 >F426.21214.21563</ 馆藏标识 >〈br/>〈br/><目录次序>28〈/目录次序Xbr/Xbr/><目录页码>161〈/目录页码Xbr/Xbr/〉< 一级目录 > 第一编畲族〈/ 一级目录Xbr/Xbr/〉〈二级目录〉第四章经济生活〈/ 二级目录Xbr/Xbr/>〈名称〉第八节物质生活〈/名称Xbr/Xbr/>< 存放目录 >F426.21214.21563</ 存放目录 >〈br/>〈br/>〈正文〉第八节物质生活<br/>经济收入<br/>建国前,帝国主义、封建主义、官僚资本主义的反动统治极其严重地束缚了畲族地区生产&lt;imgsrc=http://digldata.zjlib.cn/dfz/F426.21214.21563/1-4-8-5.jpg&gt;〈br/>&lt; imgsrc=http://di gl data, zjlib.cn/dfz/F426.21214.21563/1-4-8-6.jpg&gt;〈br/>&lt; imgsrc=http://di gl data, zjlib.cn/dfz/F426.21214.21563/1-4-8-7.jpg&gt;〈br/>居住条件<br/>
建国前,畲村分散,规模较小,基本上分布在山岙里、山腰上。半数农房为土木结构平房,半数为茅草房或杉树皮铺盖屋顶的简陋矮房,少数富裕户有庭院结构楼房。<br/>温州畲民1949年居住在潮湿阴暗不通风的草寮的,占30 40%。80年代,平阳县青街盖瓦房239间7130平方米,苍南县鹤山村建新房79间,半宫村建新房68间。莒溪镇有畲民3100多人,是全省畲族最多的一个乡镇,旧时住草寮茅屋,现全住上瓦房、新房。到1990年,仍住草寮的畲民全市只剩19户。丽水畲民住房条件改变见表4-9。<br/>&lt; imgsrc=http://di gl data, zjlib.cn/dfz/F426.21214.21563/1-4-8-8.jpg&gt;〈br/>80年代后期,家用电器进入畲家。温州4县8个村620户,有电视机119台,平均6户有I台。丽水地区畲民每千户拥有彩电11台,黑白电视机215台,洗衣机10台,电冰箱5台,电风扇279台,电饭煲208只,缝纫机501台,自行车880辆,摩托车3辆。见表4_10。
<br/>&lt;img src=/dfz/F426.21214.21563/1-4-8-9.jpg&gt;<br/></ 正文 >〈br/>〈br/>〈PDF 文件名 >1-4-8.pdf〈/PDF 文件名 Xbr/Xbr/></REC></TRS>通过这样定义后,当检索到“物质生活”等关键词时,就能找到该文本。XML的目录级别只制作到三级,即一级目录、二级目录和名称。成套出版物在所述单本文件做完步骤8的质检工作后,还需要进行总检,并生成总目录。这样进一步确保制作结果准确方便检索。通常总质检包括:在目录制作的同时需要对PDF文件做质检,质检PDF文件是否有漏页或多页或前后颠倒现象,内容是否按照目录最小组织结构封装;XML文件内馆藏符要正确,要注意将馆藏标识符中改为“O ”改为“()”,XML文件命名是否正确;质检一、二、三级目录是否准确;目录标题是“附录”的标题要附上前面一级的标题;四级目录标题前要附上三级目录的标题,要与三级目录同级;一个REC结点的内容要完整,排版要正确,标题、小节与小节之间应有<br>和</br>隔开,内容与TOF图像文件相对应;XML文件内目录次序的最大值与PDF个数要相对应;图片的链接地址要正确,链接地址个数要与JPG图片个数相对应,否则导入数据库后将链接不到对应插片的现象,检查JPG质量是否符合规范;将OTIFF文件夹、PDF文件及XML文件以馆藏符命名;OTIFF文件夹内TIFF个数与整本书的PDF页数要一致,如不一致找原因并修改;检查流程单后有没有返工纪录,有返工纪录则需检查返工是否完成,及根据返工纪录修改整本书的PDF文件。通过本发明的方法,能快速、高效、准确地将地方志文献转为电子版本,而且转换速度快,误差低,起到了非常好的效果。
对于不需要进行校验,仅仅是扫描保存的现代地方文献电子图书制作方法,包括以下步骤:步骤1.图像扫描,通过专业扫描仪将文本扫描到电脑中,这样将纸件文本转化成图像;步骤2.图像处理,所述图像处理步骤包括校对信息完整性,确保没有遗漏文本的注释等信息,对图像进行纠偏,确保图像位置正,以及图片去污处理;步骤3.PDF转换,整本书直接进行封装。这样的电子版文本通常用于备份,保存价值不高。封装后只要在图像处理时确保图像清晰即可,不需要后续质检。所述图像处理和PDF转换工作完成后,将图像的有效信息部分进行投影,该投影覆盖了图像所有有效信息区域,该区域可以按比例放大和缩小,将该投影区域的四个顶点和原稿位置一一校对,看是否能同时重合,然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。这样能确保HF文件和原始图像完全一致,没有遗漏原始图像有效信息。这样的操作简化,但是确保扫描留底的文件中没有遗漏任何信息。
权利要求
1.现代地方文献电子图书制作方法,其特征在于:包括以下步骤: 步骤1.图像扫描,通过专业扫描仪将纸本地方文献扫描到电脑中,这样将纸件文献转化成电子图像; 步骤2.图像处理,所述图像处理步骤包括校对信息完整性,确保没有遗漏文本的文字、图片、注释等信息,对图像进行纠偏,确保图像位置正,以及图片去污处理,确保图片整洁美观; 步骤3.PDF转换,按目录最小组织结构采用TOF图像格式进行封装; 步骤4.版面分析识别校对,包括图像版面分析、文本OCR识别,文本校对,所述文本校对包括了横向校对和纵向校对,所述横向校对即逐行校对,所述纵向校对为逐一选择书本中所有不同的字,寻找这些字在文中出现的所有位置,一一对比确认这些文字校对的是否正确; 步骤5.TXT排版并进行JPG插图索引,包括对经所述步骤4识别产生的文本的TXT文件进行排版以及对文本中间的插图进行索引,确保JPG插图嵌套在文本中正确位置,并且索引准确; 步骤6.目录制作,根据规则编制目录并完成目录标弓I,完成的文件生成目录文件; 步骤7.XML文件制作,根据编制的目录文本和所述步骤5的TXT文本生成描述每本地方文献用于入库的XML文件; 步骤8.XML质检。检查针对每本文献生成的XML文件格式,包括书名、作者、出版社、正文、PDF路径等所有字段的检查,确保与原纸本文献的内容完全对应。
2.如权利要求1所述 的现代地方文献电子图书制作方法,其特征在于:所述步骤2中的纠偏工序中包括对文字的初步辨识;确认是扫描导致的倾斜后进行纠偏,纠偏后文字和水平方向的夹角不超过3度。
3.如权利要求1所述的现代地方文献电子图书制作方法,其特征在于:其特征在于:所述纠偏工作完成后,将文字部分进行投影,该投影覆盖了一定的区域,该区域可以按比例放大和缩小,将该投影区域调整到和原稿等比大小后,将其四个顶点和原稿位置一一校对,看是否能同时重合,然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。
4.如权利要求1所述的现代地方文献电子图书制作方法,其特征在于:所述步骤3中所述采用PDF图像格式进行封装;即封面后的插图封装成一个节点,命名为“冠图”,冠图之间允许插入有序、前言,冠图分为冠图1、冠图2 ;封底前的插图封装成一个节点,命名为“附图”;封面、冠图、目录、序、前言、题名页、版权页、扉页、编纂委员会等正文前面的内容按其标题单独封装TOF ;对于封面、冠图、目录、题名页、版权页、扉页按照每个页面作为整张图片处理不需要OCR识别,用专业图像处理软件转成JPG上传至每本书相对应的JPG文件夹;对于序、前言、编纂委员会内容需要识别校对。
5.如权利要求1所述的现代地方文献电子图书制作方法,其特征在于:所述步骤4中版面分析识别校对,即首先将原文的图片中的文字段落和图片分别进行版面分析,画上代表不同识别类型的区域框,所述版面分析工作完成后,进行OCR识别,所述OCR识别工作完成后,须将识别后的文本内容逐行进行横向校对,所述横向校对工作完成后,再进行纵向校对,即逐一选择书本中所有不同的字,寻找这些字在文中出现的所有位置,一一对比确认这些文字在文中的出现是否正确,确保文字的识别错误率要低于万分之一。
6.如权利要求1所述的现代地方文献电子图书制作方法,其特征在于:所述步骤7中的XML文件制作过程为:将XML文件里图书中文名称、馆藏标识、一级目录、二级目录、名称、正文、PDF等所有字段都遵照书本客观录入,是简体字体的录入简体字体,是繁体字体的录入繁体字体;如果书本封面标题和题名页标题不一致,则取题名页标题;书本内容有“O”字符,在XML里采用“O”代替;书本内有注释内容,著录规则为: -(本页注释开始)- 注释内容 -(本页注释完)- 有无法录入的生僻汉字用黑色实心方框代替; 正文里的数学公式、化学分子式或方程式按插图处理,给出图片索引地址;有无法录入的特殊符号,如能用中文描述的,采用用中文文字表达;一份表格内容在第一页没有结束,在第二页有续表,如第二页上没有“续表” 二字,则增加“续表” 二字并录入在正文里,后加该表格的索引地址;书本的目录标题与正文标题不一致,录入目录标题。
7.如权利要求6所述的现代地方文献电子图书制作方法,其特征在于:XML的目录级别只制作到三级,即一级目录、二级目录和名称。
8.如权利要求1所述的现代地方文献电子图书制作方法,其特征在于:成套出版物在所述单本文件做完步骤8的质检工作后,还需要进行总检,并生成xml文件。
9.对于不需要进行校验,仅仅是扫描保存的现代地方文献电子图书制作方法,其特征在于:包括以下步骤: 步骤1.图像扫描,通过专业扫描仪将纸质地方文献扫描到电脑中,这样将纸件文本转化成图像; 步骤2.图像处理,所述图像处理步骤包括校对信息完整性,确保没有遗漏文本的注释等信息,对图像进行纠偏,确保图像位置正,以及图片去污处理; 步骤3.PDF转换,整本书直接进行封装。
10.如权利要求9所述的现代地方文献电子图书制作方法,其特征在于:所述纠偏工作完成后,将文字部分进行投影,该投影覆盖了一定的区域,该区域可以按比例放大和缩小,将该投影区域调整到和原稿等比大小后,将其四个顶点和原稿位置一一校对,看是否能同时重合,然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。
全文摘要
为了实现对具有复杂内容的现代地方志由纸质转为电子,并且能根据客户需求进行检索,本发明提供了一种现代地方文献电子图书制作方法,包括以下步骤图像扫描,图像处理,PDF转换,版面分析识别校对,TXT排版并进行JPG插图索引,目录制作,XML文件制作,生成XML文件,XML质检。通过科学的步骤,提高了将纸质文本转化成电子文本的效率。通常情况下一本十万字的地方志由一个20人小组在一个星期内能完成。错误率在万分之一左右。完成的文稿都已经通过XML文件制成目录,方便查阅和检索。
文档编号G06F17/25GK103218351SQ20131008531
公开日2013年7月24日 申请日期2013年3月15日 优先权日2013年3月15日
发明者周小芳, 朱国明, 戚凌均 申请人:杭州中元数据科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1