一种pdf文件的光学字符识别方法及装置的制作方法

文档序号:6613843阅读:176来源:国知局

专利名称::一种pdf文件的光学字符识别方法及装置的制作方法
技术领域
:本发明涉及光学字符识别领域,特别涉及一种PDF文件的光学字符识别方法及一种PDF文件的光学字符识别装置。
背景技术
:光学字符识别技术,简称OCR(OpticalCharacterRecognition)技术,是一种利用字符识别技术将字符的图像转换为字符计算机内码的技术。目前,OCR技术所能识别的文件格式仅限于图像文件格式,即tif、bmp或jpg等格式的文件。PDF(PortableDocumentFromat,可移才直文件格式)文件,是一种用来描述页面内容的电子文档格式,PDF文件具有与操作系统平台无关性(即不管是在Windows,Unix还是在MacOS操作系统中都是通用的)的特点,目前已成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。然而,由于PDF文件并不是一种图像格式文件,所以现有的OCR系统并不能直接识别PDF文件,而必须通过第三方软件将PDF文件预先转换为OCR系统可识别的图像文件格式后,再采用OCR系统进行OCR识别,例如用PDF文件处理软件(如Acrobat)中的快照工具,选中需要识别的区域,通过复制粘贴操作,将其保存为图像格式文件。显然,采用上述方法对PDF文件进行OCR识别,都需要在不同软件中来回切换,操作复杂,占用时间长,用户体验较差。因而,本领域技术人员迫切需要发展出一种不需要在多个软件之间重复切换,可以直接对PDF文件进行识别的OCR处理方法和装置。
发明内容本发明所要解决的技术问题是提供一种可以直接识别PDF文件的光学字符识别方法,使用该方法能对PDF文件进行简单、快捷的OCR识别5操作,使用户获得较好的使用体验。本发明还提供了一种可以识别PDF文件的光学字符识别装置,用以保证上述方法在实际中的实现及应用。为解决上述4支术问题,本发明实施例/>开了一种PDF文件的光学字符识别方法,包括在PDF文件中确定目标页面,并获取所述目标页面的页面大小信息;根据所述页面大小信息和预置分辨率信息,在内存中生成相应大小的图像区域;获取所述目标页面的页面描述指令,提取所述页面描述指令中的页面内容数据及位置信息;根据所述位置信息在所述图像区域的相应位置绘制所述页面内容数据;对所述页面内容数据进行光学字符识别,获得识别结果。优选的是,所述页面内容数据包括图像数据、图形数据和/或字符数据,所述绘制步骤进一步包括将所述图像数据解码转换成位图,在所述图像区域的相应位置绘制所述位和/或,直接在所述图像区域的相应位置绘制所述图形数据;和/或,根据所述字符数据的属性信息生成字符图像,在所述图像区域的相应位置绘制所述字符图像。优选的是,所述页面描述指令具有多条,所述绘制步骤进一步包括如果所述目标页面还有下一条页面描述指令,则继续提取下一条页面描述指令中的页面内容数据及位置信息。优选的是,在提取页面内容数据及位置信息的步骤前,还包括如果所述页面描述指令经过压缩编码,则对所述页面描述指令进行数据解码处理。优选的是,在确定目标页面以前,还包^r:确定目标PDF文件。优选的是,通过以下步骤确定目标页面获取所述PDF文件的页码信息;如果当前指定的页码在所述页码信息的范围内,则确定所述页码对应的页面为目一示页面。优选的是,所述的方法,还包括'将所述图像区域内的页面内容数据保存为图像文件。优选的是,所述的方法,还包括;将所述识别结果输出为指定文件格式。本发明实施例还公开了一种PDF文件的光学字符识别装置,包括目标页面确定单元,用于在PDF文Y牛中确定目标页面;第一获取单元,用于获取所述目标页面的页面大小信息;内存分配单元,用于根据所述页面大小信息和预置分辨率信息,在内存中生成相应大小的图像区域;第二获取单元,用于获取所述目标页面的页面描述指令;提取单元,用于提取所述页面描述指令中的页面内容数据及位置信自绘制执行单元,用于根据所述位置信息在所述图像区域的相应位置绘制所述页面内容数据;识别单元,用于对所述页面内容数据进行光学字符识别,获得识别结果。优选的是,所述页面内容数据包括图像数据、图形数据和/或字符数据,所述绘制执行单元进一步包括图像绘制子单元,用于将所述图像数据解码转换成位图,在所述图像区域的相应位置绘制所述位和/或,图形绘制子单元,用于直接在所述图像区域的相应位置绘制所述图形数据;和/或,字符绘制子单元,用于根据所述字符数据的属性信息生成字符图像,在所述图像区域的相应位置绘制所述字符图像。优选的是,所述页面描述指令具有多条,所述绘制执行单元进一步包括循环子单元,用于在所述目标页面还有下一条页面描述指令时,继续提取下一条页面描述指令中的页面内容数据及位置信息。优选的是,所述的装置,还包括数据解码单元,用于在所述页面描述指令经过压缩编码时,对所述页面描述指-令进行数据解码处理。优选的是,所述的装置,还包括目标文件确定单元,用于确定目标PDF文件。优选的是,所述目标文件确定单元进一步包括页码获取子单元,用于获取所述PDF文件的页码信息;定位子单元,用于在当前指定的页码在所述页码信息的范围内时,确定所述页码对应的页面为目标页面。优选的是,所述的装置,还包括保存单元,用于将所述图像区域内的页面内容数据保存为图像文件。优选的是,所述的装置,还包括;指定输出单元,用于将所述识别结果输出为指定文件格式。与现有技术相比,本发明实施例具有以下优点首先,本发明通过解析获得的PDF文件页面的页面大小信息,根据该页面大小信息和预置分辨率信息计算输出图像的像素高度和宽度,然后在内存中为该输出图像分配相应大小的图像存储空间,再通过解析获得目标页面的页面描述指令,将页面内容数据描绘在该分配的图像存储空间中,从而实现对PDF文件的直接OCR识别操作,无需在多种软件之间重复切换,简化了用户操作,减少了操作时间,并使用户获得较好的使用体验;再者,本发明可以将处理后的识别结果输出为指定文件格式,从而在相应的文件格式中可以对PDF文件的内容进行编辑处理,有效提高了PDF文件内容编辑的灵活度,进一步使用户获得较好的使用体验。图1是一个PDF文件的层次结构图2是本发明的一种PDF文件的光学字符识别方法实施例1的流程图3是本发明的一种PDF文件的图像转换绘制过程的流程8图4是一种PDF文件的光学字符识别方法实施例2的流程图;图5是本发明的一种PDF文件的光学字符识别装置实施例1的结构框图6是本发明的一种PDF文件的光学字符识别装置实施例2的结构框图7是应用图6所示的优选实施例进行PDF文件的OCR识别过程的流程图。具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。从PDF文件生成的角度来看,有两种生成PDF文件的方法第一种是利用光学扫描技术将已有的纸质文献、书籍等预先转换为图像,再由图像生成PDF文件,其中的字符、图形等数据以图像形式存在;第二种是利用应用程序以及PDF打印机(一种虚拟打印软件),将计算机中字符和图形数据的计算机内码转换为PDF的内部表示形式。其中的字符、图形等数据以PDF编码的形式存在。从PDF文件的数据结构来看,PDF文件中的数据是以PDF对象的形式进行组织的。具体而言,PDF对象可分为直接对象(directobject)和间接对象(indirectobject)两类,其中,直接对象包含布尔类型(Boolean)、数字类型(Number)、字符串类型(String)、名称类型(Name)、数组类型(Array)、字典类型(Dictionary)、数据流类型(Stream)以及空值类型(Null);间接对象是在直接对象的基础上加以标识,提供其他对象引用。从PDF文件的逻辑结构来看,PDF文件可以描述为一个由PDF对象组成的层次结构,这个结构中包含唯一的根对象(Catalog),参考图1,示出了一个PDF文件的层次结构图。其中,根对象包含PDF文档的书签树和页面树,其中,书签树包含多个书签项,页面项是PDF中最重要的对象,包含页面描述指令,即如何显示该页面的信息,例如使用的字体,包含的内容(文字,图片等),页面的大小信息等。当然其中的子项也可以是其他对象的引用。从PDF文件的存储结构来看,规范的PDF文件由四部分构成文件头(Header)、文件体(Body)、交叉引用表(Cross-referenceTable)和文件尾(Trailer)组成。其中,文件头(Header)指明文件遵从的PDF规范的版本号,如"。/。PDF-1.3"表示当前版本号为1.3;文件体(Body)包含一系列描述文件页面的间接对象;交叉引用表(Cross-referenceTable)记录了各间接对象在文件中的位置;文件尾(Trailer)记录交叉引用表在文件中的开始位置、根对象(Catalog)的间接对象序号以及文件结束标志。例如,一个PDF文件的示意表为<table>tableseeoriginaldocumentpage10</column></row><table><table>tableseeoriginaldocumentpage11</column></row><table><table>tableseeoriginaldocumentpage12</column></row><table><table>tableseeoriginaldocumentpage13</column></row><table>\基于上述PDF文件的结构分析,可以获得本发明实施例的核心构思之一在于,根据解析获得的PDF文件目标页面的页面大小信息,和预置分辨率信息(通常表示为一英寸中包含的像素数),计算输出图像的像素高度和宽度,然后在计算机内存中为该输出图像分配相应大小的图像存储空间,再按照解析获得的目标页面的页面描述指令,将字符、图形及图像数据描绘在该分配的图像存储空间中。以使对PDF文件的OCR识别操作可以简单、快捷实现,使用户获得较好的使用体验。参考图2,示出了本发明的一种PDF文件的光学字符识别方法实施例l的流程图,具体可以包括以下步骤步骤201、在PDF文件中确定目标页面,并获取所述目标页面的页面大小4言息;步骤202、根据所述页面大小信息和预置分辨率信息,在内存中生成相应大小的图像区域;步骤203、获取所述目标页面的页面描述指令,提取所述页面描述指令中的页面内容数据及位置信息;步骤204、根据所述位置信息在所述图像区域的相应位置绘制所述页面内容数据;步骤205、对所述页面内容数据进行光学字符识别,获得识别结果。可以理解的是,在本实施例中,对于PDF文件相关页面的页面大小信息及页面描述指令的获取,可以通过解析PDF文件的逻辑结构和存储结构获得。具体而言,PDF文件的解析原理为,由文件尾开始,通过提取根对象的间接对象序号,以及交叉引用表的位置(即交叉引用表开头在文件中的字节位置),利用交叉引用表的对象索引功能,由根对象开始逐层解析。在实际中,所述预置分辨率信息可以由用户设置,也可以是系统默认设置,还可以采用其它方法获得,本发明对此不作限制。目前的PDF格式规范中包含七十多个页面描述指令,包含了对字符、图形、图像等数据对象有关内容、样式、位置、大小信息的描述,因而,在本实施例中,所述页面内容数据可以包括图像数据、图形数据和/或字符数据,在这种情况下,所述绘制页面内容数据的步骤204进一步可以包括以下子步骤子步骤S41、将所述图像数据解码转换成位图,在所述图像区域的相应位置绘制所述位和/或,子步骤S42、直接在所述图像区域的相应位置绘制所述图形数据;和/或,子步骤S43、根据所述字符数据的属性信息生成字符图像,在所述图像区域的相应位置绘制所述字符图像。为寸吏本领域4支术人员更好地理解本实施例,以下通过对上述PDF文件的示意表中的具体页面描述指令解析过程为例进行说明。假设获得所述示意表中60obj的PDF页面描述指令如下'BT/F048.000Tf72細576.000Td(HelloWorld)TjET解析上述页面描述指令为(一)"BT"表示开始字符对象操作,处理中需要完成回复初始坐标变换参数等初始化操作;(二)"/F048.000Tf,表示选用在本文件中标识名称为F0的字体,字体缩放系数为48.0。文件中标识名称F0的字体名称为"Times-Roman",字符编码名称为"WinAns正ncoding",处理中将才艮据字体名称加载对应的字体文件;(三)"72.000576.000Td,,表示以PDF页面左下角作为坐标原点,将当前坐标移动到横向距离72.0磅,纵向距离576.0磅的位置;(四)"(HelloWorld)Tj,,表示输出字符序列"HelloWorld"。针对不同的字符,在加载的字体文件中找到对应的字符表示项,生成字符图像并将其存储到内存中的页面图像区域中;(五)"ET"表示字符对象操作结束。如上例所示,一个页面中所包含的页面描述指令可能具有多条,在这种情况下,所述绘制页面内容数据的步骤204还可以包括以下子步骤子步骤S44、如果所述目标页面还有下一条页面描述指令,则继续提取下一条页面描述指令中的页面内容数据及位置信息。此外,PDF格式规范指明,可以采用多种数据编码压缩方式对PDF对象进行压缩,目前,PDF支持的编码压缩方式包括ASCIIHex、ASCI185、LZW、RunLength、CCITTGroup3,CCITTGroup4、JPEG、JPEG2000、Flate等,因此,在解析PDF页面描述指令之前,如果所述页面描述指令是经过压缩编码的,那么本发明还可包括对所述页面描述指令进行数据解码处理的步骤。相应地,可以参考图3,示出了本发明的一种PDF文件的图像转换绘制过程的流程图,具体可以包括以下步骤步骤301、在PDF文件中确定目标页面,并获取所述目标页面的页面大小信息;步骤302、根据所述页面大小信息和预置分辨率信息,在内存中生成相应大小的图像区域;步骤303、获取所述目标页面的页面描述指令,判断所述页面描述指令是否经过压缩编码,如果是,则执行步骤304;如果否,则执行步骤305;步骤304、对所述页面描述指令进行数据解码处理后,执行步骤305;步骤305、提取第一条页面描述指令中的页面内容数据及位置信息;步骤306、判断所述页面内容数据是否为图像数据,如果是,则执行步骤307;如果否,则执行步骤308;步骤307、将所述图像数据解码转换成位图,在所述图像区域的相应位置绘制所述位图后,执行步骤308;步骤308、判断所述页面内容数据是否为图形数据,如果是,则执行步骤309;如果否,则执行步骤310;步骤309、直接在所述图像区域的相应位置绘制所述图形数据后,执行步骤310;步骤310、判断所述页面内容数据是否为字符数据,如果是,则执行步骤311;如果否,则执行步骤312;步骤311、根据所述字符数据的属性信息生成字符图像,在所述图像区域的相应位置绘制所述字符图像后,执行步骤312;步骤312、判断是否还有下一条页面描述指令,如果是,则执行步骤313;如果否,则结束当前页面的图像绘制;步骤313、继续提取下一条页面描述指令中的页面内容数据及位置信息,并重新进入步骤306。参考图4,示出了一种PDF文件的光学字符识别方法实施例2的流程图,具体可以包括以下步骤步骤401、确定目标PDF文件;在实际中,通过获得用户请求识别的文件名,即可定位到相应的PDF文件。步骤402、在所述PDF文件中确定目标页面,并获耳又所述目标页面的页面大小信息;PDF作为一种结构化的文件格式,其页面与页面之间具有不相关性,通过PDF文件的页码,即可以对PDF文件中的页面进行随才几的访问。因此,可以根据用户指定的页码即可确定PDF文件中的相应页面,在这种情况下,所述步骤402还可以包括以下子步骤子步骤4021、获取所述PDF文件的页码信息;子步骤4022、判断当前指定的页码在所述页码信息的范围内,如果是,则执行子步骤4023;如果否,则执行步骤4024;子步骤4023、确定所述页码对应的页面为目标页面。子步骤4024、提示用户出错。步骤403、根据所述页面大小信息和预置分辨率信息,在内存中生成相应大小的图像区域;步骤404、获取所述目标页面的页面描述指令,提取所述页面描述指令中的页面内容数据及位置信息;步骤405、根据所述位置信息在所述图像区域的相应位置绘制所述页面内容数据;至此,所述内存中的PDF页面内容数据已转化为相应的图像数据。步骤406、对所述页面内容数据进行光学字符识别,获得识别结果;由于通过上述步骤已将所述页面内容数据处理为图像数据,因而,在本实施例中,采用现有技术中的任一种光学字符识别方法都是可行的,例如,一种光学字符识别的方法为(1)图像数据预处理过程通过对PDF页面转换得到的图像数据进行倾斜校正、形变校正、二值化等处理,以保证后期识别操作的有效性;(2)版面分析17主要进行文本图像区域定位、表格识别、页面信息理解等操作;(3)字符识别将图像中的字符图像转换为字符的计算机内部编码表示形式,除中英文字符识别外,还可根据需要加入繁体、日文、韩文的支持;(4)用户校对用户可以对识别过程中出现的错识进行纠正。当然,上述处理方法仅仅限于举例,本领域技术人员采用其它光学字符识别方法也是可行的,本发明对此不需要进行限定。公知的是,PDF文件具有只读性,然而,在某些情况下,是需要对PDF文件中的内容进行编辑的,因而,本实施例还可以包括步骤407、将所述识别结果输出为指定文件格式。根据OCR形成的识别结果,首先进行版面复原处理,即将识别数据重新组织为文本段落、表格等结构,然后导出为指定格式的文件,如RTF、DOC、TXT、EXCEL、WPS、UOML等可编辑的文件格式。在这种情况下,无论对于扫描图像生成的PDF文件,还是使用应用软件由计算机内码转换生成的PDF文件,都可以按照字符、图形、图像等数据在原有页面中的尺寸、位置、样式,转换为各种便于编辑的文件格式,从而有效解决了PDF文件内容难以获取和复用的难题,极大地减少了人工文件录入、页面排版以及文件校对的工作量。当然,上述输出指定文件格式的方法可以采用现有技术中的任一种方法实现,本发明对此不作限制。优选的是,在本实施例中,还可以包括以下步骤将所述图像区域内的页面内容数据保存为图像文件。所述保存的方法可以采用内存数据的形式,也可以采用任意一种图像格式保存在硬盘或其它存储设备上,以提供给其它程序使用,本发明对此不作限制。对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。参考图5,示出了本发明的一种PDF文件的光学字符识'别装置实施例1的结构框图,具体可以包括以下单元目标页面确定单元501,用于在PDF文件中确定目标页面;第一获取单元502,用于获取所述目标页面的页面大小信息;内存分配单元503,用于根据所述页面大小信息和预置分辨率信息,在内存中生成相应大小的图像区域;第二获取单元504,用于获取所述目标页面的页面描述指令;提取单元505,用于提取所述页面描述指令中的页面内容数据及位置化息5绘制执行单元506,用于根据所述位置信息在所述图像区域的相应位置绘制所述页面内容数据;识别单元507,用于对所述页面内容数据进行光学字符识别,获得识别结果。优选的是,所述页面内容数据可以包括图像数据、图形数据和/或字符数据,在这种情况下所述绘制执行单元506可以包括以下子单元(附图中无S561-S564,是否要增加有关S561-S564的图示)图像绘制子单元S561,用于将所述图像数据解码转换成位图,在所述图像区域的相应位置绘制所述位和/或,图形绘制子单元S562,用于直接在所述图像区域的相应位置绘制所述图形数据;和/或,字符绘制子单元S563,用于根据所述字符数据的属性信息生成字符图像,在所述图像区域的相应位置绘制所述字符图像。在实际中,所述目标页面中的页面描述指令可能具有多条,在这种情况下所述绘制执行单元506还可以包括循环子单元S564,用于在所述目标页面还有下一条页面描述指令时,继续提取下一条页面描述指令中的页面内容数据及位置信息。此外,如果所述页面描述指令是经过压缩编码的,那么本实施例还可以包括数据解码单元,用于在所述页面描述指令经过压缩编码时,对所述页面描述指令进行数据解码处理。参考图6,示出了本发—明的一种PDF文件的光学字符识别装置实施例2的结构框图,具体可以包括以下单元目标文件确定单元601,用于确定目标PDF文件;目标页面确定单元602,用于在所述PDF文件中确定目标页面;无S621-S622)页码获取子单元6021,用于获取所述PDF文件的页码信息;定位子单元6022,用于在当前指定的页码在所述页码信息的范围内时,确定所述页码对应的页面为目标页面。第一获取单元603,用于获取所述目标页面的页面大小信息;内存分配单元604,用于根据所述页面大小信息和预置分辨率信息,在内存中生成相应大小的图像区域;第二获取单元605,用于获取所述目标页面的页面描述指令;提取单元606,用于提取所述页面描述指令中的页面内容数据及位置"息5绘制执行单元607,用于根据所述位置信息在所述图像区域的相应位置绘制所述页面内容数据;识别单元608,用于对所述页面内容数据进行光学字符识别,获得识别结果;指定输出单元609,用于将所述识别结果输出为指定文件格式。优选的是,在本实施例中,还可以包括保存单元,用于将所述图像区域内的页面内容数据保存为图像文件。参考图7,示出了应用图6所示的优选实施例进行PDF文件的OCR识别过程的流程图,具体可以包括以下步骤步骤701、目标文件确定单元确定目标PDF文件;步骤702、目标页面确定单元在所述PDF文件中确定目标页面,第一获取单元获取所述目标页面的页面大小信息;步骤703、内存分配单元根据所述页面大小信息和预置分辨率信息,20在内存中生成相应大小的图像区域;步骤704、第二获取单元获取所述目标页面的页面描述指令,提取单元提取第一条页面描述指令中的页面内容数据及位置信息;步骤705、绘制执行单元根据所述位置信息在所述图像区域的相应位置绘制所述页面内容数据;步骤706、识别单元对所述页面内容数据进行光学字符识别,获得识别结果;步骤707、指定输出单元将所述识别结果输出为指定文件格式。对于装置实施例而言,由于其基本相应于方法实施例,相关之处可以参见方法实施例的部分说明,在此不赘述。此外,在本发明的实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。本发明可以用于众多通用或专用的计算系统环境或配置中。例如个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明还可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通讯网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。以上对本发明所提供的一种PDF文件的光学字符识别方法及一种PDF文件的光学字符识别装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。权利要求1、一种PDF文件的光学字符识别方法,其特征在于,包括在PDF文件中确定目标页面,并获取所述目标页面的页面大小信息;根据所述页面大小信息和预置分辨率信息,在内存中生成相应大小的图像区域;获取所述目标页面的页面描述指令,提取所述页面描述指令中的页面内容数据及位置信息;根据所述位置信息在所述图像区域的相应位置绘制所述页面内容数据;对所述页面内容数据进行光学字符识别,获得识别结果。2、如权利要求l所述的方法,其特征在于,所述页面内容数据包括图像数据、图形数据和/或字符数据,所述绘制步骤进一步包括将所述图像数据解码转换成位图,在所述图像区域的相应位置绘制所述位图;和/或,直接在所述图像区域的相应位置绘制所述图形数据;和/或,根据所述字符数据的属性信息生成字符图像,在所述图像区域的相应位置绘制所述字符图像。3、如权利要求2所述的方法,其特征在于,所述页面描述指令具有多条,所述绘制步骤进一步包括如果所述目标页面还有下一条页面描述指令,则继续提取下一条页面描述指令中的页面内容数据及位置信息。4、如权利要求1、2或3所述的方法,其特征在于,在提取页面内容数据及位置信息的步骤前,还包括如果所述页面描述指令经过压缩编码,则对所述页面描述指令进行数据解码处理。5、如权利要求1、2或3所述的方法,其特征在于,在确定目标页面以前,还包4舌确定目标PDF文件。6、如权利要求5所述的方法,其特征在于,通过以下步骤确定目标页面获取所述PDF文件的页码信息;如果当前指定的页码在所述页码信息的范围内,则确定所述页码对应的页面为目标页面。7、如权利要求2所述的方法,其特征在于,还包括将所述图像区域内的页面内容数据保存为图像文件。8、如权利要求1或7所述的方法,其特征在于,还包括;将所述识别结果输出为指定文件格式。9、一种PDF文件的光学字符识别装置,其特征在于,包括目标页面确定单元,用于在PDF文件中确定目标页面;第一获取单元,用于获取所述目标页面的页面大小信息;内存分配单元,用于根据所述页面大小信息和预置分辨率信息,在内存中生成相应大小的图像区域;第二获取单元,用于获取所述目标页面的页面描述指令;提取单元,用于提取所述页面描述指令中的页面内容数据及位置信自.绘制执行单元,用于根据所述位置信息在所述图像区域的相应位置绘制所述页面内容数据;识别单元,用于对所述页面内容数据进行光学字符识别,获得识别结果。10、如权利要求9所述的装置,其特征在于,所述页面内容数据包括图像数据、图形数据和/或字符数据,所述绘制执行单元进一步包括图像绘制子单元,用于将所述图像数据解码转换成位图,在所述图像区域的相应位置绘制所述位图;和/或,图形绘制子单元,用于直接在所述图像区域的相应位置绘制所述图形数据;和/或,字符绘制子单元,用于根据所述字符数据的属性信息生成字符图像,在所述图像区域的相应位置绘制所述字符图像。11、如权利要求IO所述的装置,其特征在于,所述页面描述指令具有多条,所述绘制执行单元进一步包括循环子单元,用于在所述目标页面还有下一条页面描述指令时,继续提取下一条页面描述指令中的页面内容数据及位置信息。12、如权利要求9、10或11所述的装置,其特征在于,还包括数据解码单元,用于在所述页面描述指令经过压缩编码时,对所述页面描述指令进行数据解码处理。13、如权利要求9、10或11所述的装置,其特征在于,还包括目标文件确定单元,用于确定目标PDF文件。14、如权利要求13所述的装置,其特征在于,所述目标文件确定单元进一步包括页码获取子单元,用于获取所述PDF文件的页码信息;定位子单元,用于在当前指定的页码在所述页码信息的范围内时,确定所述页码对应的页面为目标页面。15、如权利要求IO所述的装置,其特征在于,还包括保存单元,用于将所述图像区域内的页面内容数据保存为图像文件。16、如权利要求9或15所述的装置,其特征在于,还包括;指定输出单元,用于将所述识别结果输出为指定文件格式。全文摘要本发明公开了一种PDF文件的光学字符识别方法,包括在PDF文件中确定目标页面,并获取所述目标页面的页面大小信息;根据所述页面大小信息和预置分辨率信息,在内存中生成相应大小的图像区域;获取所述目标页面的页面描述指令,提取所述页面描述指令中的页面内容数据及位置信息;根据所述位置信息在所述图像区域的相应位置绘制所述页面内容数据;对所述页面内容数据进行光学字符识别,获得识别结果。应用本发明可以实现对PDF文件的直接OCR识别操作,无需在多种软件之间重复切换,简化了用户操作,减少了操作时间,并使用户获得较好的使用体验。文档编号G06K9/34GK101441713SQ20071017767公开日2009年5月27日申请日期2007年11月19日优先权日2007年11月19日发明者迎丁,强刘,刘昌平,刘迎建,江世盛申请人:汉王科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1