图像处理装置以及电子文件生成方法与流程

文档序号:12183348阅读:162来源:国知局
本发明涉及作为具备复印功能、打印功能、传真功能、扫描功能等的多功能数字图像形成装置的MFP(MultiFunctionPeripherals,多功能外设)等图像处理装置、以及该装置中的电子文件生成方法。
背景技术
::如果将例如通过扫描仪读取字符原稿而得到的图像数据那样的包含字符的图像数据变换为JPEG(JointPhotographicExpertsGroup,联合图像专家组)、PDF(PortableDocumentFormat,可移植文档格式)等电子文件来输出,则文件尺寸(文件大小)变大。因此,在专利文献1或者专利文献2中,公开了根据包含字符的图像数据而生成尺寸(大小)小的电子文件的被称为紧凑PDF(compactPDF)的技术。该技术是指如下技术:将图像数据分离为字符区域和非字符区域,关于字符区域,在结合相同的字符颜色彼此的区域而构成1个层(layer)之后进行二值化,并且对头部信息分配一个颜色来减小字符的信息量,关于非字符区域,在删除字符之后进行JPEG压缩从而提高JPEG压缩率,减小文件尺寸。另外,在专利文献3中,提出了以收敛于规定的文件尺寸的方式使分辨率变动的方法。【专利文献1】日本特开2007-318520号公报【专利文献2】日本特开2008-42325号公报【专利文献3】日本特开2010-278948号公报技术实现要素:但是,在上述专利文献1以及2记载的技术中,如果用户为了减小文件尺寸而进行低分辨率设定,则存在小尺寸的字符、复杂的字符(汉字等)发生变形而可读性变差这样的问题。相反地,如果设定为高分辨率,则发生虽然能够确保字符的可读性但文件尺寸变庞大这样的其他问题。此外,通过组合各种画质校正处理、例如背景去除水平校正、字符清晰度水平校正、边缘强调水平校正等,从而具有即便是相同的分辨率也能够提高字符品质的可能性,但需要图像处理的知识和反复试验,并不现实。另外,在有多个页面的图像数据的情况下,例如如果能够以使大尺寸的字符、字母的页面成为低分辨率、并使小尺寸的字符、日语成为高分辨率的方式改变设定则是较好的,但一般无法进行这样的设定变更。另外,通过专利文献3记载的方法,也仍无法解决如果降低分辨率则小尺寸的字符、复杂的字符(汉字等)的可读性变差这样的上述问题。本发明是鉴于这样的技术背景而完成的,其课题在于提供一种能够自动地生成将文件尺寸维持得较小的同时即便是小尺寸的字符、复杂的字符也能够确保充分的可读性的电子文件的图像处理装置以及电子文件生成方法。上述课题通过以下的方案来解决。(1)一种图像处理装置,其特征在于,具备:字符区域抽出单元,从包含字符的图像数据抽出多个字符区域;字符尺寸计算单元,计算由所述字符区域抽出单元抽出的所述字符区域中的字符尺寸;复杂度计算单元,计算由所述字符区域抽出单元抽出的所述字符区域中的字符的复杂度;必要分辨率计算单元,根据由所述字符尺寸计算单元计算出的字符尺寸和由所述复杂度计算单元计算出的字符的复杂度,计算每个所述字符区域的必要分辨率;分辨率决定单元,将由所述必要分辨率计算单元计算出的必要分辨率的差为规定值以内的字符区域进行结合而构成为1个层,并且根据各层中包含的各字符区域的所述必要分辨率,来决定各层中的每一层的必要分辨率;以及分辨率变换单元,针对所述各层中的每一层,将该层中包含的字符区域的字符的分辨率变换为由所述分辨率决定单元所决定的该层的必要分辨率。(2)根据前项(1)所述的图像处理装置,其中,所述分辨率决定单元结合所述字符区域之间的空间距离或者字符颜色空间距离中的至少某一个为规定值以内的字符区域。(3)根据前项(1)或者(2)所述的图像处理装置,其中,具备判定单元,该判定单元判定由所述分辨率决定单元结合字符区域而构成的层的数量是否超过预先设定的阈值,所述分辨率决定单元在由所述判定单元判定为层的数量超过预先设定的阈值的情况下,增大所述字符区域的必要分辨率的差的规定值,结合必要分辨率的差为该规定值以内的字符区域。(4)根据前项(2)或者(3)所述的图像处理装置,其中,具备判定单元,该判定单元判定由所述分辨率决定单元结合字符区域而构成的层的数量是否超过预先设定的阈值,所述分辨率决定单元在由所述判定单元判定为层的数量超过预先设定的阈值的情况下,增大所述字符区域之间的空间距离或者字符颜色空间距离中的至少某一个的规定值,结合字符区域之间的空间距离或者颜色空间距离中的至少某一个为该规定值以内的字符区域。(5)根据前项(1)~(4)中的任意一项所述的图像处理装置,其中,所述复杂度是字符的边缘比例。(6)根据前项(1)~(4)中的任意一项所述的图像处理装置,其中,所述复杂度是字符的分支点的数量。(7)根据前项(1)~(6)中的任意一项所述的图像处理装置,其中,所述分辨率决定单元将在构成1个层的字符区域中最高的必要分辨率决定为该层的必要分辨率。(8)根据前项(2)~(7)中的任意一项所述的图像处理装置,其中,所述字符区域的必要分辨率的差的规定值随着字符区域之间的空间距离变大而被设定为小的值。(9)根据前项(2)~(8)中的任意一项所述的图像处理装置,其中,所述字符区域的必要分辨率的差的规定值随着字符区域之间的字符颜色空间距离变大而被设定为小的值。(10)根据前项(1)~(9)中的任意一项所述的图像处理装置,其中,所述字符区域抽出单元根据所抽出的字符区域中的字符的边缘比例的计算结果,从所述字符区域分离边缘比例相对高的区域或者相对低的区域,将所分离的各区域设为不同的字符区域。(11)根据前项(1)~(10)中的任意一项所述的图像处理装置,其中,所述必要分辨率计算单元根据作为输出设定的原稿模式设定,调整所述字符区域的必要分辨率。(12)根据前项(1)~(10)中的任意一项所述的图像处理装置,其中,所述必要分辨率计算单元根据作为输出设定的字符品质模式设定,调整所述字符区域的必要分辨率。(13)一种电子文件生成方法,是图像处理装置中的电子文件生成方法,其特征在于,具备:字符区域抽出步骤,从包含字符的图像数据抽出多个字符区域;字符尺寸计算步骤,计算通过所述字符区域抽出步骤抽出的所述字符区域中的字符尺寸;复杂度计算步骤,计算通过所述字符区域抽出步骤抽出的所述字符区域中的字符的复杂度;必要分辨率计算步骤,根据通过所述字符尺寸计算步骤计算出的字符尺寸和通过所述复杂度计算步骤计算出的字符的复杂度,计算每个所述字符区域的必要分辨率;分辨率决定步骤,将通过所述必要分辨率计算步骤计算出的必要分辨率的差为规定值以内的字符区域进行结合而构成为1个层,并且根据各层中包含的各字符区域的所述必要分辨率,来决定各层中的每一层的必要分辨率;以及分辨率变换步骤,针对所述各层中的每一层,将该层中包含的字符区域的字符的分辨率变换为通过所述分辨率决定步骤所决定的该层的必要分辨率。(14)根据前项(13)所述的电子文件生成方法,其中,在所述分辨率决定步骤中,结合所述字符区域之间的空间距离或者字符颜色空间距离中的至少某一个为规定值以内的字符区域。(15)根据前项(13)或者(14)所述的电子文件生成方法,其中,具备判定步骤,在该判定步骤中,判定通过所述分辨率决定步骤来结合字符区域而构成的层的数量是否超过预先设定的阈值,在所述分辨率决定步骤中,在通过所述判定步骤判定为层的数量超过预先设定的阈值的情况下,增大所述字符区域的必要分辨率的差的规定值,结合必要分辨率的差为该规定值以内的字符区域。(16)根据前项(14)或者(15)所述的电子文件生成方法,其中,具备判定步骤,在该判定步骤中,判定通过所述分辨率决定步骤来结合字符区域而构成的层的数量是否超过预先设定的阈值,在所述分辨率决定步骤中,在通过所述判定步骤判定为层的数量超过预先设定的阈值的情况下,增大所述字符区域之间的空间距离或者字符颜色空间距离中的至少某一个的规定值,结合字符区域之间的空间距离或者颜色空间距离中的至少某一个为该规定值以内的字符区域。根据前项(1)以及(13)记载的发明,从包含字符的图像数据抽出多个字符区域,并且计算所抽出的字符区域中的字符尺寸和字符的复杂度,进而根据字符尺寸和字符的复杂度来计算每个字符区域的必要分辨率。结合计算出的必要分辨率的差为规定值以内的字符区域而构成为1个层,根据各层中包含的各字符区域的必要分辨率,来决定各层中的每一层的必要分辨率。然后,将各层中包含的字符区域的字符的分辨率变换为所述决定的该层的必要分辨率。即,根据字符尺寸和字符的复杂度来决定字符区域的必要分辨率,所以通过将即便是包括小尺寸的字符、复杂的字符的字符区域也能够确保可读性的分辨率决定为必要分辨率,从而各层中包含的字符被变换为能够确保可读性的分辨率,因此能够防止小尺寸的字符、复杂的字符变形而无法读取,能够自动地生成具有充分的可读性的电子文件。而且,结合必要分辨率的差为规定值以内的字符区域而构成1个层,所以能够将电子文件的整体尺寸维持为小尺寸。根据前项(2)记载的发明,在字符区域之间的空间距离大的情况下,结合时的区域变大而使各层之间的重叠区域变大,在文件的印刷时的栅格化处理中花费时间。另外,如果字符颜色空间距离大,则无法进行如下处理:如上述紧凑PDF那样结合相同的字符颜色彼此的区域来构成1个层,进行二值化并对头部信息分配一个颜色来减小字符的信息量。因此,通过结合字符区域之间的空间距离或者字符颜色空间距离中的至少某一个为规定值以内的字符区域,能够解决上述那样的问题。根据前项(3)记载的发明,判定结合字符区域而构成的层的数量是否超过预先设定的阈值,在判定为超过阈值的情况下,放宽增大字符区域的必要分辨率的差的规定值而将字符区域结合为1个层时的基准,所以能够将更多的字符区域结合为1个层,其结果能够抑制层的数量的增加以及文件尺寸的扩大。根据前项(4)记载的发明,判定结合字符区域而构成的层的数量是否超过预先设定的阈值,在判定为超过阈值的情况下,放宽增大字符区域之间的空间距离或者字符颜色空间距离中的至少某一个的规定值而结合字符区域时的基准,所以能够将更多的字符区域结合为1个层,其结果能够抑制层的数量的增加以及文件尺寸的扩大。根据前项(5)记载的发明,能够根据字符的边缘比例和字符尺寸而高精度地计算字符的复杂度。根据前项(6)记载的发明,能够根据字符的分支点的数量和字符尺寸而高精度地计算字符的复杂度。根据前项(7)记载的发明,将在构成1个层的字符区域中最高的必要分辨率决定为该层的必要分辨率,所以能够可靠地确保层中包含的字符的可读性。根据前项(8)记载的发明,字符区域的必要分辨率的差的规定值随着字符区域之间的空间距离变大而被设定为小的值,所以随着字符区域之间的空间距离变大而使所结合的字符区域的基准变得严格,从而能够在防止层的数量的增加的同时,防止空间距离大的字符区域被结合为1个层。根据前项(9)记载的发明,字符区域的必要分辨率的差的规定值随着字符区域之间的字符颜色空间距离变大而被设定为小的值,所以随着字符区域之间的字符颜色空间距离变大而使所结合的字符区域的基准变得严格,从而能够在防止层的数量的增加的同时,防止不是近似颜色的字符区域被结合为1个层。根据前项(10)记载的发明,从字符区域分离边缘比例相对高的区域、相对低的区域,并处理为不同的字符区域,所以能够抽出与字符的复杂度对应的字符区域。根据前项(11)记载的发明,根据作为输出设定的原稿模式设定来调整字符区域的必要分辨率,所以能够使各层中的字符的分辨率与原稿模式设定匹配而成为最佳的分辨率。根据前项(12)记载的发明,根据作为输出设定的字符品质模式设定来调整字符区域的必要分辨率,所以能够使各层中的字符的分辨率与字符品质模式设定匹配而成为最佳的分辨率。附图说明图1是示出本发明的一个实施方式的图像形成装置的基本结构的框图。图2是示出由图像处理装置的CPU实现的功能结构的框图。图3的(A)~(D)是比较将4个字符区域的字符串分别变换为300dpi、200dpi、100dpi、50dpi这样的不同的4个分辨率之后进行了二值化时的字符可读性的图。图4是关于汉字“覆”的边缘比例的说明图,该图的(A)是字符尺寸15pt的状态,该图的(B)是仅抽出了其边缘的边缘图像。图5是关于字母“A”的边缘比例的说明图,该图的(A)是字符尺寸15pt的状态,该图的(B)是仅抽出了其边缘的边缘图像。图6是关于汉字“覆”的边缘比例的说明图,该图的(A)是字符尺寸6pt的状态,该图的(B)是仅抽出了其边缘的边缘图像。图7是关于字母“A”的边缘比例的说明图,该图的(A)是字符尺寸6pt的状态,该图的(B)是仅抽出了其边缘的边缘图像。图8是示出关于汉字“覆”和字母“A”将字符尺寸与边缘比例进行相乘得到的值的表。图9是示出1/字符尺寸^1.25的图表的图。图10是关于汉字“覆”和字母“A”根据从图9所示的图表求出的字符尺寸系数来求出字符尺寸×边缘比例×字符尺寸系数的表。图11是示出关于汉字“覆”针对每个其字符尺寸通过运算来求出的必要分辨率的表。图12是示出关于字母“A”针对每个其字符尺寸通过运算来求出的必要分辨率的表。图13的(A)是示出关于汉字“覆”的分支点的图,(B)是示出关于字母“A”的分支点的图。图14是示出具有字符串的原稿的一个例子的图。图15是示出生成以往的紧凑PDF文件时的对多个字符区域进行了分组的状态的图。图16是示出通过本发明的实施方式所示的处理来生成紧凑PDF文件时的对多个字符区域进行了分组的状态的图。图17是示出图像处理装置的动作的流程图。(符号说明)1:图像处理装置;11:CPU;12:ROM;14:扫描部;19:字符识别部;20:图像处理部;21:字符区域抽出部;22:字符尺寸/复杂度计算部;23:字符区域必要分辨率计算部;24:分辨率决定部;25:分辨率变换部;301~310:字符区域;501~506:组(group)。具体实施方式以下,根据附图,说明本发明的实施方式。图1是示出本发明的一个实施方式的图像处理装置1的基本结构的框图。在本实施方式中,作为图像处理装置,使用具备复印功能、打印功能、扫描功能等的上述MFP。图像处理装置1具备CPU11、ROM12、RAM13、扫描部14、存储部15、打印部16、操作面板17、网络控制器18、字符识别处理部19、以及图像处理部20等。所述CPU11对图像处理装置1的整体进行总体控制,控制为可使用复印功能、打印功能、扫描功能、传真功能等基本功能。另外,进行如下处理等,即,对于由扫描部14读取的从包含字符的原稿得到的图像数据,通过字符识别处理部19来实施字符识别处理,并且通过图像处理部20抽出作为字符串的区域的字符区域,或者抽出字符的尺寸、复杂度,或者决定必要的分辨率,在后面进行详细的说明。所述ROM12是储存CPU11的动作程序等的存储器。所述RAM13是提供CPU11根据动作程序进行动作时的作业区域的存储器。所述扫描部14是读取放置于原稿台(未图示)的原稿的图像,并变换为作为电子数据的图像数据的读取单元。所述存储部15由例如硬盘驱动器(HDD)等非易失性的存储设备构成,存储有由扫描部24读取的原稿的图像数据、对该图像数据进行分辨率变换而生成的电子文件、从其他图像处理装置或者用户终端等发送来的数据、各种应用等。所述打印部16依照所指示的模式,印刷由所述扫描部14读取的原稿的图像数据、根据该图像数据生成的电子文件、来自用户终端的打印数据等。所述操作面板17被用于各种输入操作等,具备:由对消息、操作画面等进行显示的触摸面板式液晶等构成的显示部17a、以及具有数字键、启动键、停止键等的硬键部17b。所述网络控制器18通过控制与网络上的其他图像形成装置、其他外部机器例如用户终端等之间的通信,进行数据的发送接收。所述字符识别处理部19进行如下处理:对由扫描部14读取的从包含字符的原稿得到的图像数据进行字符识别处理(OCR),将字符图像变换为文本数据。该字符识别处理部19构成为CPU11的功能的一部分。所述图像处理部20针对由扫描部14读取的从包含字符的原稿得到的图像数据,抽出字符区域。图2是示出通过图像处理装置1的CPU11而实现的功能结构的框图,包括字符区域抽出部21、字符尺寸/复杂度计算部22、字符区域必要分辨率计算部23、分辨率决定部24、以及分辨率变换部25等。字符区域抽出部21基于公知的字符区域的抽出方法,从图像数据抽出多个组的字符区域。例如,在1行中无间隔地存在字符串的情况下,将该字符串设为1个字符区域,在1行中隔着间隔而存在多个字符串的情况下,针对多个字符串的每一个,设为多个字符区域。另外,在1行中存在字符颜色不同的字符串的情况下,将该字符颜色不同的字符串设为1个字符区域。字符尺寸/复杂度计算部22计算由字符区域抽出部21抽出的各字符区域中的字符的尺寸和复杂度。字符尺寸的计算方法是公知的,所以说明省略。关于字符的复杂度,在后面叙述。字符区域必要分辨率计算部23根据由字符尺寸/复杂度计算部22计算出的字符尺寸和字符的复杂度,计算各字符区域的每一个的必要分辨率。此处,说明字符的复杂度和字符区域的必要分辨率。图3的(A)~(D)是比较将4个字符区域的字符串分别变换为300dpi、200dpi、100dpi、50dpi这样的不同的4个分辨率之后进行了二值化时的字符可读性的图。在任意图中,都在各字符串的左侧标注了该字符串的字符尺寸。具体而言,最上位的字符串是字符尺寸为15pt的汉字,其下方的字符串是字符尺寸为15pt的字母,其下方的字符串是字符尺寸为6pt的汉字,最下位的字符串是字符尺寸为6pt的字母。各图的右旁示出的记号分别表示对应的左侧的字符串的可读性,○表示可读性没有问题,△表示在一部分中有字符变形/破坏,×表示无法读取字符。关于字符尺寸为15pt的汉字,在分辨率300dpi、200dpi、100dpi中的任一种情况下可读性都没有问题,但在分辨率50dpi的情况下成为无法读取字符的状态。关于字符尺寸为15pt的字母,在分辨率300dpi、200dpi、100dpi、50dpi中的任一种情况下可读性都没有问题。关于字符尺寸为6pt的汉字,如果分辨率是300dpi则可读性没有问题,但在分辨率200dpi、100dpi以及50dpi的情况下,成为无法读取字符的状态。关于字符尺寸为6pt的字母,如果分辨率是300dpi以及200dpi则可读性没有问题,在分辨率100dpi下,在一部分中发生字符变形、破坏。如果成为50dpi,则成为无法读取字符的状态。从图3的结果可知,字符由于(1)字符尺寸小、(2)字符的复杂度高(汉字的复杂度比字母更高),在分辨率下降时可读性变差。即,能够根据字符尺寸和字符的复杂度这2个指标,决定能够保持字符的可读性的最低分辨率。字符尺寸是针对每个字符或者每个字符串而检测出的纵、横尺寸,能够通过公知的方法来计算。另外,认为边缘、各边的分支越多则字符越复杂,所以在本实施方式中,将字符的复杂度设为每1个字符的边缘比例或者每1个字符的分支数。图4是关于汉字“覆”的边缘比例的说明图,该图的(A)是字符尺寸15pt的状态,该图的(B)是仅抽出了其边缘的边缘图像。字符的边缘比例是字符的边缘区域像素比例,如果定义为边缘比例=字符的外切矩形内边缘像素数/外切矩形像素数,则边缘比例是15.53%。另外,能够确保可读性的最低分辨率是100dpi。图5是关于字母“A”的边缘比例的说明图,该图的(A)是字符尺寸15pt的状态,该图的(B)是仅抽出了其边缘的边缘图像。边缘比例是7.24%,能够确保可读性的最低分辨率是50dpi。图6是关于汉字“覆”的边缘比例的说明图,该图的(A)是字符尺寸6pt的状态,该图的(B)是仅抽出了其边缘的边缘图像。边缘比例是38.81%,能够确保可读性的最低分辨率是300dpi。图7是关于字母“A”的边缘比例的说明图,该图的(A)是字符尺寸6pt的状态,该图的(B)是仅抽出了其边缘的边缘图像。边缘比例是17.85%,能够确保可读性的最低分辨率是150dpi。考虑如下方法:根据在图4~图7中得到的结果,通过运算来求出用于确保针对汉字“覆”和字母“A”的各字符的可读性的必要分辨率。图8是关于汉字“覆”和字母“A”示出将字符尺寸(X)和边缘比例(Y)相乘得到的值(X*Y)的表。从图8可知,对于相同的字符,字符尺寸*边缘比例是大致相同的值。即,边缘比例和字符尺寸处于反比例的关系。但是,可知即便是相同的字符,如果字符尺寸不同则必要分辨率不同,所以还考虑用于计算必要分辨率的相乘系数。作为其一个例子,使用作为以实验方式可得到正确的必要分辨率的相乘系数而求出的1/(字符尺寸的1.25乘方)。图9示出了1/(字符尺寸的1.25乘方)的图表。图9的图表表示存在如下特性:在字符尺寸小的情况下需要高分辨率,但随着字符尺寸变大,必要分辨率急剧地降低。如果根据从图9所示的图表求出的字符尺寸系数,针对汉字“覆”和字母“A”,求出将字符尺寸(X)、边缘比例(Y)以及字符尺寸系数(Z)相乘得到的值(X*Y*Z),则成为如图10所示。此外,在图10中,还一并示出了从图像求出的必要分辨率。在图10的表中,可知如果将字符尺寸15pt的“覆”中的X*Y*Z的值设为1,将其必要分辨率设为100dpi,并根据其他字符中的X*Y*Z的值而通过运算来计算必要分辨率,则成为15pt的“覆”1:100dpi15pt的“A”0.47:47dpi6pt的“覆”3.14:314dpi6pt的“A”1.44:144dpi,得到从图像求出的必要分辨率的近似值。在图11的表中,示出关于汉字“覆”针对其每个字符尺寸通过运算而求出的必要分辨率,在图12的表中,示出关于字母“A”针对其每个字符尺寸通过运算而求出的必要分辨率。可知这样关于各字符,通过字符尺寸和边缘比例以及适合的系数的选择,可得到能够确保可读性的必要分辨率。如上所述,字符的复杂度也可以并非是边缘比例,而是字符的分支数、换言之是构成字符的边的交点之中的在至少3个方向上分支的交点(分支点)的数量。在图13的(A)中,用白圈表示关于汉字“覆”的分支点,在该图的(B)中,用白圈表示关于字母“A”的分支点。关于汉字“覆”的分支点数是13,关于字母“A”的分支点数是2。一般,关于复杂的字符,与边缘比例同样地具有分支点数增加的倾向,所以与字符尺寸和边缘比例的情况同样地,决定适合的相乘系数,从而能够通过运算来计算能够确保最低限的可读性的必要分辨率。图2所示的字符区域必要分辨率计算部23在计算出关于上述字符的必要分辨率之后,针对各字符区域的每一个而计算必要分辨率。在本实施方式中,也可以针对字符区域中的代表字符、例如字符区域中的字符串的开头的字符而计算必要分辨率,并将其决定为该字符区域的必要分辨率。或者,也可以针对字符串中的所有字符而计算必要分辨率,并将其中最高的必要分辨率、平均值等决定为该字符区域的必要分辨率。另外,也可以构成为在1个字符区域的字符串中包括不同的尺寸的字符串的情况下,将不同的尺寸的字符串作为不同的字符区域来分离,分别决定必要分辨率。另外,也可以构成为根据1个字符区域中的各字符的边缘比例的计算结果,从所述字符区域中将边缘比例相对高的区域或相对低的区域从其他区域分离,将所分离的区域作为不同的字符区域来决定必要分辨率。例如是在由1行的字符串构成的1个字符串中部分地包含复杂的字符串那样的情况、且是通过将复杂的字符串部分作为1个字符串来分离从而将1行的字符串分割为2个以上的字符串那样的情况。另外,也可以根据作为文件印刷时等的输出设定的原稿模式设定、字符品质模式设定等,调整字符区域的必要分辨率。例如,在由用户并非设定照片优先模式而是设定字符优先模式作为原稿模式那样的情况、设定高品质模式作为字符品质模式那样的情况下,也可以将各字符区域的必要分辨率设为比根据各字符的尺寸和复杂度计算出的值更高的值。分辨率决定部24根据由字符区域必要分辨率计算部23计算出的各字符区域的必要分辨率,将具有相同程度的必要分辨率的字符区域彼此汇总到相同的组。换言之,结合必要分辨率的差在预先设定的规定值以内的字符区域彼此来构成1个层。此时,在作为字符区域之间的最小距离的空间距离大的情况下,进行了结合时的区域变大而使各层之间的重叠区域变大,在文件的印刷时的栅格化处理中花费时间。因此,也可以构成为在不仅是必要分辨率的差在预先设定的规定值以内,而且字符区域之间的空间距离在规定值以内的情况下,结合字符区域。作为成为向1个层的结合对象的字符区域的判定条件,在除了必要分辨率的差以外还加上字符区域之间的空间距离的情况下,字符区域之间的必要分辨率的差的规定值优选为随着字符区域之间的空间距离变大而被设定为小的值。随着字符区域之间的空间距离变大,使结合为1个层的字符区域的基准变得严格,从而能够在防止层的数量的增加的同时,防止空间距离大的字符区域被结合为1个层。另外,在与以往的紧凑PDF同样地生成彩色电子文件的情况下,需要在1个层中用一个颜色来构成字符。因此,也可以是除了必要分辨率的差为预先设定的规定值以内这样的条件以外,还在各字符区域的字符颜色空间距离是规定值以内的情况下,结合字符区域彼此来设为1个层。另外,也可以构成为除了必要分辨率的差为预先设定的规定值以内的条件以外,还在字符区域之间的空间距离以及字符颜色空间距离中的任意一个都分别是规定值以内的字符区域的情况下,结合为1个层。作为成为向1个层的结合对象的字符区域的判定条件,在除了必要分辨率的差以外还加上字符区域之间的字符颜色空间距离的情况下,字符区域之间的必要分辨率的差的规定值优选为随着字符区域之间的字符颜色空间距离变大而被设定为小的值。随着字符区域之间的字符颜色空间距离变大,使结合为1个层的字符区域的基准变得严格,从而能够在防止层的数量的增加的同时,防止不是近似颜色的字符区域被结合为1个层。这样,对多个字符区域进行分组,针对各组的每一个,结合字符区域来构成各个层,但在本实施方式中,判定组的数量换言之层的数量是否超过预先设定的阈值,在判定为超过阈值的情况下,增大字符区域的必要分辨率的差的规定值而增加在1个组中包含的字符区域的数量。由此,防止因层的数量过度增加所致的文件尺寸的扩大。此外,也可以构成为如下:作为成为向1个层的结合对象的字符区域的判定条件,在除了必要分辨率的差以外还加上字符区域之间的空间距离和/或字符颜色空间距离的情况下,在层的数量超过预先设定的阈值时,通过增大字符区域之间的空间距离或者字符颜色空间距离中的至少某一个的规定值,从而增加在1个组中包含的字符区域的数量。在针对各组的每一组结合多个字符区域而构成层之后,分辨率决定部24针对各层而决定必要分辨率。关于层的必要分辨率,从能够可靠地确保可读性的观点出发,优选将构成该层的字符区域的必要分辨率之中的最高的必要分辨率决定为该层的必要分辨率,但也可以利用各字符区域的必要分辨率的平均值等来决定。分辨率变换部25将各层中包含的字符区域的分辨率变换为由分辨率决定部24所决定的各层的必要分辨率。以使用了具有图14所示那样的字符串的原稿的情况为例,具体地说明针对每个组结合字符区域而构成各层、并且决定各层的必要分辨率并对分辨率进行变换的处理。图14所示的原稿300被扫描部14所读取,并由字符识别处理部19进行字符识别处理,通过字符区域抽出部21抽出到各个字符区域301~310。在各字符区域的左侧,示出其字符区域的字符尺寸。字符区域301的字符尺寸为20pt,字符区域302~305以及310的字符尺寸为10pt,字符区域306、307以及309的字符尺寸为6pt,字符区域308的字符尺寸为5.5pt。另外,字符区域305以及309的字符是红色,其他字符串的字符是黑色。另外,图14示出由字符区域必要分辨率计算部23计算出的各字符区域301~310的必要分辨率。字符区域301的必要分辨率为70dpi,字符区域302~305以及310的必要分辨率为166dpi,字符区域306、307以及309的必要分辨率为314dpi,字符区域308的必要分辨率为112dpi。此处,在以往的紧凑PDF文件中,根据字符颜色以及空间距离来决定结合为1个层的字符区域的组。因此,如图15所示,将空间距离近且字符颜色是黑色的字符区域301~304、306~308设为1个组401,将空间距离近且字符颜色是红色的字符区域305以及309设为另一个组402,将剩余的字符区域310设为又一个组403,对组401以及403的层分配黑色,对组402的层分配红色。另外,对于任意组,都将字符区域的分辨率变换为例如200dpi、300dpi并进行了二值化。相对于此,在本实施方式中,在必要分辨率相同或者接近的字符区域中进行分组,更优选为将字符区域的空间距离、字符颜色空间距离追加到判定要素来进行分组,从而例如如图16所示,由字符区域301构成1个组501,由字符区域302~304以及308构成组502,由字符区域306以及307构成组503,由字符区域305构成组504,由字符区域309构成组505,由字符区域310构成组506。此外,关于组502,字符尺寸10pt的字符区域302~304和字符尺寸5.5pt的字符区域308的必要分辨率分别与166dpi、162dpi大致相同,所以成为相同的结合对象。这样,在将各字符区域分为各组之后,针对各组的每一组,将字符区域变换为各层的必要分辨率之后进行二值化。在本实施方式中,关于各层的必要分辨率,组501是70dpi,组502是166dpi,组503是314dpi,组504是166dpi,组505是314dpi,组506是166dpi。这样,能够自动地生成针对预定的每个字符区域按照最佳分辨率进行了变换的紧凑PDF文件。这样,在本实施方式中,根据字符尺寸和字符的复杂度来决定字符区域301~310的必要分辨率,所以通过将即便是包括小尺寸的字符、复杂的字符的字符区域也能够确保可读性的分辨率决定为必要分辨率,从而各层501~506中包含的字符被变换为能够确保可读性的分辨率,其结果,能够防止小尺寸的字符、复杂的字符变形而无法读取,能够自动地生成具有充分的可读性的电子文件。而且,结合必要分辨率的差在规定值以内的字符区域而构成1个层,所以能够将电子文件的整体尺寸维持为小尺寸。图17是示出图像处理装置1的动作的流程图。该动作是通过图像处理装置的CPU11依照储存在ROM12等中的动作程序进行动作而执行的。在步骤S01中从读取原稿而得到的图像数据中抽出第1个字符区域之后,在步骤S02中检测字符区域的字符尺寸。接下来,在步骤S03中检测字符区域的字符颜色,在步骤S04中计算各字符的边缘比例,在步骤S05中计算各字符的复杂度之后,在步骤S06中计算该字符区域的必要分辨率。对于所有的字符区域,直至计算出必要分辨率为止反复进行以上的步骤S01~S06的处理(步骤S00、S07)。接下来,在步骤S11中,生成字符区域的组合(组)。具体而言,在步骤S12中,针对第1个字符区域,判定与其他第1个字符区域之间的字符颜色空间距离的差是否为规定值以下。如果不是规定值以下(在步骤S12中“否”),则进入到步骤S16。如果是规定值以下(在步骤S12中“是”),则在步骤S13中判定字符区域的空间距离的差是否为规定值以下。如果不是规定值以下(在步骤S13中“否”),则进入到步骤S16。如果是规定值以下(在步骤S13中“是”),则在步骤S14中判定字符区域的必要分辨率的差是否为规定值以下。如果不是规定值以下(在步骤S14中“否”),则进入到步骤S16。如果是规定值以下(在步骤S14中“是”),则在步骤S15中设定了表示是同一组的结合标志之后,进入到步骤S16。针对1个字符区域,直至在与其他所有字符区域之间的关系中判定结束为止反复进行以上的步骤S11~S15的处理,而且,针对其他各字符区域,直至在与其他所有字符区域之间的关系中判定结束为止反复进行以上的步骤S11~S15的处理。这样,如果生成字符区域的组合,则在步骤S17中将设定有同一结合标志的字符区域彼此分别作为1个组来结合而构成各层。接下来,在步骤S18中,针对各层中的每一层而决定必要分辨率,并且将各字符串的分辨率变换为所决定的各层的必要分辨率,进而在步骤S19中执行二值化处理,结束处理。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1