一种双层PDF生成及校对方法和装置与流程

文档序号:30089524发布日期:2022-05-18 08:18阅读:410来源:国知局
一种双层pdf生成及校对方法和装置
技术领域
:1.本发明涉及计算机信息处理
技术领域
:,尤其涉及双层pdf生成制作以及校对相关技术。
背景技术
::2.双层pdf(portabledocumentformat,便携文件格式)文件是一种具有多层结构的pdf格式文件,其文件内容既包含文本层,也包含图像层,且文本层与图像层的位置上下一一相对应。它是在扫描版pdf的基础上,经过去污、纠偏和ocr(光学字符识别,即用软件把扫描图像识别成文字),然后把ocr出来的文字做成透明文字层,蒙到原始扫描图像层上,所以称为“双层pdf”。与纯扫描版pdf相比,这种pdf可以进行文字检索、复制、导出,因此又被称为“可检索扫描pdf”。这样可以基于文字建立索引数据库,进行科学管理。3.然而ocr识别结果存在一定的错误率,ocr效果都不太好,经常出现的情况是扫描版pdf上有某个词,但搜索的时候却没有;或者从双层pdf复制、粘贴出来的内容错字较多。这都是ocr识别结果不精确导致的。技术实现要素:4.本发明的目的在于提供一种双层pdf生成及校对方法和装置,提高双层pdf文本准确率。5.为了达到上述的目的,本发明提供一种双层pdf生成及校对方法,针对ocr引擎识别结果进行二次处理,将识别结果整理成逻辑完整的段落,再以段落为单位,针对段落句子从字粒度和词粒度两方面进行错误检测和错误纠错,最后根据纠错结果进一步生成双层pdf文档。6.上述双层pdf生成及校对方法,其中,包括:1)ocr识别引擎模块识别图片,输出识别结果;2)对识别结果进行过滤获取识别结果元信息;识别结果元信息包括所有文本块的文本块内容、文本块外接矩形坐标、文本块得分;3)识别文本块合成文本段落;根据文本块外接矩形坐标将各文本块合并成文本段落,生成新的文本段落及该段落的外接矩形坐标;4)对文本段落进行错误检测;4.1)错误检测先通过中文分词器切词,从字粒度和词粒度两方面检测错误,整合这两种粒度的疑似错误结果,形成疑似错误位置候选集;4.2)错误检测结果存库持久化,为后续人工介入纠错提供错误位置信息;4.3)读取错误检测结果,遍历所有的疑似错误位置,并使用音似、形似词典替换错误位置的词,然后通过语言模型计算句子困惑度,对候选集中所有疑似错误位置替换结果比较并排序,得到最优纠正词;4.4)错误纠正结果和排序信息存库持久化,为后续人工介入纠错提供纠错建议;5)纠错;包括自动纠错和/或人工介入纠错;6)根据纠错结果生成双层pdf文件。7.上述双层pdf生成及校对方法,其中,包括:所述步骤2)包括:2.1)获取文档md5值:根据识别图片文档路径,读取文档内容,根据文档内容计算该文档md5值;2.2)识别结果是一个json数组,对识别结果进行过滤,获取所有文本块的文本块内容、文本块外接矩形坐标、文本块得分,以步骤2.1获取的文档md5值作为主键,将识别结果元信息存储入库;以某文本块外接矩形的左上角作为原点(0,0),向右延伸线作为x轴,向下延伸线作为y轴,建立坐标系,过滤后文本块外接矩形坐标以该矩形左上角和右下角在该坐标系下的坐标表示。8.上述双层pdf生成及校对方法,其中,所述步骤3)包括:3.1)找到最左侧文本块外接矩形左上角坐标的x值,记为x1;3.2)找到最右侧文本块外接矩形左上角坐标的x值,记为x2;3.3)遍历所有识别结果,取每个文本块外接矩形左上角坐标的x值,在y值相同的情况下,x值介于x1与x2之间的文本块组装为一行,将所有行按文本块外接矩形左上角坐标的y值升序排序;3.4)找到存在段落头的行;3.5)依据段落文档排版样式,段落的首字符会缩进两个的原则,将行组装成段落。9.上述双层pdf生成及校对方法,其中,包括:所述步骤3.4)中,遍历所有行,计算每行的开始文本块外接矩形左上角坐标的x值与x1的差,若差值非零则标识该行为段落头,否则标识该行为普通行。10.上述双层pdf生成及校对方法,其中,所述步骤3.5)中,遍历所有行,若当前行为段落头则向后继续遍历,直到下一行为段落头,将所有这些行组装成一个段落,然后再重新开始下一轮循环,直到将所有的行处理完成。11.上述双层pdf生成及校对方法,其中,所述步骤5)中,若系统设置自动纠错程序,系统自动纠正检测到的出错的地方。12.上述双层pdf生成及校对方法,其中,所述步骤5)中,若系统设置人工介入文本纠错,则显示校对页面进行人工纠错;校对页面划分为两部分,一部分为原图片,另一部分为基于识别文本外接矩形坐标和检测错误文本外接矩形坐标所恢复出来的文档,其中含有检测错误文本的区域会被以不同的颜色高亮显示,使用户可立即发现出错文本区域并检查,当用户单击出错文本区域时系统会给出纠错建议,用户双击纠错建议即可更新出错文本区域;用户单击出错文本区域时,原图相应坐标区域也以高亮显示,以方便用户进行原图和识别结果进行区域对比。13.上述双层pdf生成及校对方法,其中,所述步骤6)包括:6.1)将用户修改正确的所有文本段落内容和文本段落外接矩形坐标更新到数据库持久化;6.2)读取当前识别文档最新的所有文本段落内容和文本段落外接矩形坐标,结合系统设定文字大小输出双层pdf文件。14.本发明提供的另一技术方案是一种双层pdf生成及校对装置,包括以下模块:ocr识别引擎模块,对图片进行识别并输出识别结果;存储模块,存储识别结果元信息和错误检测结果;段落合成模块,根据ocr识别文档的各文本块内容及其外接矩形坐标将各文本块合并成文本段落,并生成新的文本段落及该段落的外接矩形坐标;错误检测纠正模块,对合成的文本段落应用中文词法分析检测存在词法错误的文本段落,存储相关文本段落信息,并进一步对存在词法错误的文本段落进行纠正;输出模块,根据原图片、识别文本段落内容、识别文本段落外接矩形坐标和字体大小输出双层pdf文件。15.与现有技术相比,本发明的有益技术效果是:16.ocr识别过程中,存在少量文字识别错误,传统的校对方式只能是以人工读取原文,一点点检查,在校对之前无法确定文档本身哪里有错,人工查错校对方式效率低下。本发明一种双层pdf生成及校对方法和装置的优点在于:对ocr输出的文本进行二次处理,进行中文词法分析,自动检查识别文本中存在的错误,也支持人工介入检查修正,以可视化对比的形式将原文和识别结果显示出来,文本识别错误一目了然;同时可根据出错检测结果给出相关修改建议,极大的提升了校对效率;最后再根据校对的结果输出双层pdf,使输出的双层pdf文件和该装置校对时的效果达到所见即所得的效果,提高了校对效率和输出精度。附图说明17.图1是本发明实施例的双层pdf生成及校对方法流程图。具体实施方式18.以下将结合图1对本发明的双层pdf生成及校对方法和装置作进一步的详细描述。19.本发明的双层pdf生成及校对方法,针对ocr引擎识别结果进行二次处理,将识别结果整理成逻辑完整的段落,再以段落为单位,针对段落语句从字粒度和词粒度两方面进行错误检测和错误纠正,最后根据纠正结果进一步生成双层pdf文档。20.图1是本发明实施例的双层pdf生成及校对方法流程图。21.参见图1,本实施例的双层pdf生成及校对方法包括以下步骤:22.步骤1:ocr识别引擎模块识别图片;23.将需要进行识别的图片输入ocr识别引擎模块,ocr识别引擎模块调用已训练好的中文、字母和数字模型进行检测、识别等处理,并输出识别结果;24.步骤2:存储识别结果元信息;25.将识别结果进行过滤并存库持久化,该步骤又可划分为两步:26.步骤2.1:获取文档md5值:根据识别图片文档路径,读取文档内容,根据文档内容计算该文档md5值,该值会作为后续所有信息存储时用到的主键;27.步骤2.2:识别结果是一个json数组,对识别结果进行过滤,获取所有文本块的文本块内容、文本块外接矩形坐标、文本块得分,这些信息元素称为识别结果元信息,以步骤2.1获取的文档md5值作为主键,将识别结果元信息存储入库;28.以某文本块外接矩形的左上角作为原点(0,0),向右延伸线作为x轴,向下延伸线作为y轴,建立坐标系,过滤后文本块外接矩形坐标以该矩形左上角和右下角在该坐标系下的坐标表示;29.步骤3:识别文本块合成文本段落;30.根据文本块外接矩形坐标将各文本块合并成文本段落,生成新的文本段落及该段落的外接矩形坐标,这一步的目的是为了让识别出的文本块组成具有语义相关性的一个整体,从而为下一步错误检测做好准备,具体如下:31.步骤3.1:找到最左侧文本块外接矩形左上角坐标的x值,记为x1;32.由于识别结果数组本身是升序排列的,获取识别结果中前20项(若识别结果小于20项则取全部),从该数据集(前20项组成的数据集)扫描找出x的最小值,则该值是最左侧文本块外接矩形左上角坐标的x值;33.步骤3.2:找到最右侧文本块外接矩形左上角坐标的x值,记为x2;34.由于识别结果数组本身是升序排列的,获取识别结果中后20项(若识别结果小于20项则取全部),从该数据集扫描找出x的最大值,则该值是最右侧文本块外接矩形左上角坐标的x值;35.步骤3.3:将文本块组装成行;36.遍历所有识别结果,取每个文本块外接矩形左上角坐标的x值,在y值相同的情况下,x值介于最左侧值x1与最右侧值x2之间的文本块组装为一行,将所有同行数据存入行数组,行数组按文本块外接矩形左上角坐标的y值升序排序;37.步骤3.4:找到存在段落头的行;38.遍历所有行,计算每行的开始文本块的x值与步骤3.1中得到的最左侧值x1的差,若差值非零则标识该行为段落头,否则标识该行为普通行;39.步骤3.5:依据段落文档排版样式,段落的首字符会缩进两个的原则,将行组装成段落;40.遍历所有行,若当前行为段落头则向后继续遍历,直到下一行为段落头,将所有这些行组装成一个段落,然后再重新开始下一轮循环,直到将所有的行处理完成;41.步骤4:对文本段落进行错误检测;42.对合成的文本段落进行文本纠错,获取检测结果,本步骤主要是进一步提升文本识别的准确率;若系统设置自动进行文本纠错则系统会自动纠正检测到的出错的地方;该步骤分两步:43.步骤4.1:错误检测;44.错误检测先通过中文分词器切词,若段落的句子中含有错别字,则切词结果会有切分错误的情况,这样可以从字粒度和词粒度两方面检测错误,整合这两种粒度的疑似错误结果,形成疑似错误位置候选集;45.步骤4.2:错误检测结果存库持久化,为后续人工介入纠错提供错误位置信息;46.步骤4.3:错误纠正;47.错误纠正是从系统中读取错误检测结果,并遍历所有的疑似错误位置,并使用音似、形似词典替换错误位置的词,然后通过语言模型计算句子困惑度,对所有候选集替换结果比较并排序,得到最优纠正词;48.步骤4.4:错误纠正结果和排序信息存库持久化,为后续人工介入纠错提供纠错建议;49.步骤5:文本校对;50.若系统设置人工介入文本纠错,则显示校对页面进行人工纠错;校对页面划分为两部分,一部分为原图片,另一部分为基于识别文本外接矩形坐标和检测错误文本外接矩形坐标所恢复出来的文档,其中含有检测错误文本的区域会被以不同的颜色高亮显示,使用户可立即发现出错文本区域并检查,当用户单击出错文本区域时系统会给出纠错建议,用户双击纠错建议即可更新出错文本区域;用户单击出错文本区域时,原图片相应坐标区域也以高亮显示,以方便用户进行原图和识别结果进行区域对比;51.若系统设置自动进行文本纠错则系统会自动纠正检测到的出错的地方,步骤5可省略,或者系统同时设置自动进行文本纠错和文本校对;52.步骤6:生成双层pdf文件;53.根据经过用户校对后的所有文本段落内容、文本段落外接矩形坐标和设定的字体大小输出双层pdf文件;具体包括:54.步骤6.1:将用户修改正确的所有文本段落内容和文本段落外接矩形坐标更新到数据库持久化;55.步骤6.2:读取当前识别文档最新的所有文本段落内容和文本段落外接矩形坐标,结合系统设定文字大小输出双层pdf文件。56.本发明还公开了一种双层pdf生成及校对装置,包括以下模块:57.ocr识别引擎模块,该模块基于现有市场成熟技术对图片进行识别,输出识别结果;58.存储模块,该模块主要存储文档识别结果元信息和错误检测结果信息,在进行文档展示、校对和双层pdf生成阶段都需要应用这些信息;59.段落合成模块,该模块将从ocr识别文档的每个文本块及其外接矩形依据坐标位置关系将相邻矩形中的文本合并成文本段落,并生成新的文本段落及该段落的外接矩形坐标;60.错误检测纠正模块,对合成的文本段落应用中文词法分析检测存在词法错误的文本段落,并存储相关文本段落信息,并进一步对文本段落进行纠正;61.输出模块,根据原图片、识别文本段落内容、识别文本段落外接矩形坐标和字体大小输出双层pdf文件。62.通过上述方法实现了高效率ocr校对和输出高精度的双层pdf文档,使输出的双层pdf文件和该装置校对时的效果达到所见即所得的效果,提高了校对效率和输出精度。63.显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1