文字识别装置、文字识别方法及文字识别程序的制作方法

文档序号:6538305阅读:123来源:国知局
专利名称:文字识别装置、文字识别方法及文字识别程序的制作方法
技术领域
本发明关于一种文件的文字识别装置、文字识别方法及文字识别程序,特别是关于一种可提高混合有活字和手写文字的文件中的手写文字之识别率的文字识别装置、文字识别方法及文字识别程序。
背景技术
近年来,电子邮件等利用电子之文书的流通不断增加,但另一方面,以纸的形式被输出的文书也大量存在。其原因之一是,利用在纸面上的手写而进行补写的方式容易实现。例如,常常发生利用手写进行对个人电脑(PC)等所制作的草案原稿之追加修正,和对会议等所发布的文件之补写的情况。另外,也存在将补写有手写文字的文件利用扫描设备等进行扫描,并利用OCR(Optical Character Reader,光学文字识别)进行文字识别,且用于含有该手写文字的识别结果之文件的再构成这样的需求。
但是,在习知技术中,以手写记述的文字信息如果对分量指定、只是数字等条件不严格地进行限制,则无法得到可实用的识别率,形成联机/脱机信息转换的障碍。因此,为了提高活字/手写文字两者的识别精度,可将活字部和手写部进行分离,并分别对应地执行OCR。
作为将活字部和手写部分离并进行文字识别的习知技术,已知有一种从读取数据中以字段(文字列)单位分离出文字数据并在字段缓冲中进行存储,且以文字种类判定部判定文字数据的种类,并根据该判定结果,利用识别部,参照手写词典或活字词典对字段缓冲内的文字数据进行识别之光学文字读取装置(例如参照日本专利早期公开之特开平5-189604号公报( ~ 、图1))。
而且,已知还有一种具有印刷文字识别装置和手写文字识别装置,并藉由它们个别进行文字数据的OCR,且采用确率(准确度)高的一方之光学式文字读取装置(例如参照日本专利早期公开之特开平7-37034号公报( ~ 、图1~图3))。
而且,已知还有一种在双值化的文字信息的周围,分别追加1点白画素而形成带有白框的图案,并使由2×2点的4画素构成且由白画素和黑画素不同的组合构成的16种2×2图案分别与该带有白框的图案相对应,对带有白框的图案中的每一2×2图案的产生频次进行计数,并利用各2×2图案的非直线成分和直线成分的比例判别文字种类,且通常可利用适用文字种类的词典而进行识别之文字种类判别装置(例如参照日本专利早期公开之特开平7-93466号公报( ~ 、图4))。
而且,已知还有一种在进行文字分离的前阶段的文字行的状态下进行手写文字·活字文字的判别,并在文字判别后进行每文字的图像分离,且根据纵写·横写的区别,变更文字识别的方法,并可无视文字分割的错误,高速且高精度地进行手写文字·活字的判别之收件人姓名文字识别方法(例如参照日本专利早期公开之特开平9-212579号公报( ~ 、图1))。
但是,如利用习知的文字识别装置,在日本专利早期公开之特开平5-189604号公报( ~ 、图1)的情况下,因字体的种类和人的书写习惯,会在判定阈值上产生差异的情况,使手写文字的识别率低下。而且,如利用日本专利早期公开之特开平7-37034号公报( ~ 、图1~图3),要进行2种文字的识别,所以在处理上需要时间。另外,如利用日本专利早期公开之特开平7-93466号公报( ~ 、图4)与日本专利早期公开之特开平9-212579号公报( ~ 、图1),因字体的种类,活字/手写文字的直线比例会产生较大的变动,所以使手写文字的识别率下降。

发明内容
因此,本发明的目的是提供一种可提高混合有活字和手写文字的文件中的手写文字之识别率的文字识别装置、文字识别方法及文字识别程序。
本发明为了达成上述目的,提供一种文字识别装置,其特征在于包括对混合有活字和手写文字的文件的输入图像进行解析并将前述输入图像划分为一定的文章区域之文件构造解析部、对利用前述文件构造解析部所划分的各文章区域进行1个文字单位的文字切割之文字切割部、在每一前述文章区域对所切割出的文字计算特征量之特征量计算部、将所计算出的前述特征量在前述输入图像的一定范围内进行统计之特征量统计部以及根据利用前述特征量统计部的统计结果,将关于前述输入图像的文字分离为前述活字和前述手写文字之活字手写文字分离部。
藉由对每一文章区域计算特征量并将它们进行统计,可得到例如用于分离活字和手写文字的分离系数,且藉此可精度良好地进行活字和手写文字的分离。
上述文件构造解析部也可采用在前部连接对输入图像进行倾斜修正、去除干扰等歪斜修正之歪斜修正部的构成。文件一般以活字为主体构成,可利用倾斜修正对活字的行写入方向进行修正,而留下手写文字的行写入方向的倾斜,所以藉由将行写入方向作为特征量进行计算,可轻松地将活字和手写文字进行分离。
上述文件构造解析部也可利用基于段落或行的文章分割,或基于文章/图/照片等区域类别的分割,划分为上述一定的文章区域。
上述特征量计算部对每一文章区域计算多数个特征量为佳。在这种情况下,可利用例如文字大小的均匀性、文字浓度的均匀性、文字位置的周期性、重心位置·外接矩形中心位置的差异、行和列的写入方向及画素值的直方图中的至少一个来计算特征量。藉此,可得到精度高的统计结果。
上述特征量统计部也可在输入图像全体中对每一文章区域的特征量进行统计。藉此,可得到精度高的统计结果。
上述特征量统计部也可采用根据特征量的统计结果,计算用于分离活字和手写文字的分离系数之构成。
也可使上述特征量计算部对每一文章区域计算多数个特征量,并使上述特征量统计部关于以及数个特征量,分别包括似乎为活字或似乎为手写文字这样的多数个中间评价而作为分离系数,且使上述活字手写分离部根据多数个中间评价进行活字和手写文字的分离。藉此,即使在利用阈值无法分离活字和手写文字的情况下,也可进行分离。例如,在由多数个特征量的统计结果而产生多数个似乎为手写文字这样的中间评价之情况下,可决定为手写文字。
上述活字手写文字分离部也可对输入图像或将输入图像双值化了的图像,进行活字或手写文字的分离。
而且,本发明为了达成上述目的,提供一种文字识别方法,其特征在于对混合有活字和手写文字之文件的输入图像进行解析,并将前述输入图像划分为一定的文章区域,且对所划分的各文章区域进行1个文字单位的文字切割,并关于所切割出的文字对每一前述文章区域计算特征量,且在前述输入图像的一定范围内统计所计算的前述特征量,并根据前述特征量的统计结果,将关于前述输入图像的文字分离为前述活字和前述手写文字。
而且,本发明为了达成上述目的,提供一种文字识别程序,用于使计算机执行对混合有活字和手写文字的文件的输入图像进行解析,并将前述输入图像划分为一定的文章区域之文件构造解析装置、对利用前述文件构造解析装置所划分的各文章区域进行1个文字单位的文字切割之文字切割装置、在每一前述文章区域对所切割出的文字计算特征量之特征量计算装置、将所计算出的前述特征量在前述输入图像的一定范围内进行统计之特征量统计装置以及根据利用前述特征量统计装置的统计结果,将关于前述输入图像的文字分离为前述活字和前述手写文字之活字手写文字分离装置。
如利用本发明,可提高混合有活字和手写文字之文件中的手写文字的识别率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。


图1所示为关于本发明的实施形态之文字识别装置的框图。
图2所示为图1的特征量计算部之特征量的计算原理,(a)为活字情况下的文字间隔-度数特性图,(b)为手写文字的文字间隔-度数特性图。
图3所示为在图1的文字识别装置之各部的图像,(a)为原稿内容图,(b)为歪斜修正部的输入图像图,(c)为利用歪斜修正部的修正图像图。
图4所示为文章构造解析结果之一个例子的说明图。
图5所示为文章行及文字的分离,(a)为正文部的说明图,(b)为行分离部的说明图,(c)为文字分离部的说明图。
图6所示为特征量计算,(a)为基于文字高度、文字宽度、文字间隔之特征量,(b)为基于重心位置之特征量计算说明图,(c)为基于行写入方向之特征量计算说明图。
图7所示为基于活字手写文字分离部的抽出图像,(a)为活字文字抽出图像的图像图,(b)为手写文字抽出图像的图像图。
符号的说明1文字识别装置11图像输入部12歪斜修正部13双值化部14文件构造解析部15、52文字切割部16特征量计算部17特征量统计部18活字手写文字分离部19活字识别部20手写识别部21活字词典
22手写词典23合成部30输入原稿31活字32手写文字33输入图像40标题部41著者部42目录部43非活字部44正文部51切割部60重心位置61、62行写入方向71活字文字抽出图像72手写文字抽出图像d文字间隔h文字高度w文字宽度具体实施方式
以下结合附图及较佳实施例,对依据本发明提出的文字识别装置、文字识别方法及文字识别程序其特征及其功效,详细说明如后。
图1所示为关于本发明之实施形态的文字识别装置。文字识别装置1具有读取原稿等文件的图像输入部11、对利用图像输入部11之全体的图像数据进行倾斜修正,除去干扰等的歪斜修正部12、将歪斜修正部12的输出图像进行双值化之双值化部13、对双值化图像进行文件构造(版面)的解析之文件构造解析部14、对版面的解析结果进行文字的切割之文字切割部15、在每一文章区域计算所切割的文字的特征量之特征量计算部16、对输入图像全体统计每一文章区域的特征量之特征量统计部17、根据特征量计算部16所计算的特征量计算结果及文件构造解析部14的解析结果,将图像输入部11或歪斜修正部12的输出图像,又或者是未图示的双值化部13的输出图像分离为活字部和手写部之活字手写文字分离部18、对由活字手写文字分离部18所分离的活字部执行OCR处理之活字识别部19、对由活字手写文字分离部18所分离的手写部执行OCR处理之手写识别部20、活字识别部19的识别处理中所使用之活字词典21、手写识别部20的识别处理中所使用之手写词典22以及将活字识别部19的识别结果和手写识别部20的识别结果合成1个文件或1张图像之合成部23。
图像输入部11包括载置原稿之由透明的玻璃台板构成的原稿台以及由原稿台上所载置的原稿将图像光学读取之CCD(Charge CoupledDevice,电荷耦合器件)等固体摄像元件。
歪斜修正部12除了上述的修正以外,在原稿为彩色图像的情况下,还具有将R、G、B转换为灰色的处理机能。在将R、G、B转换为灰色时,利用以下的某一种方法。
(a)使上述灰度的值为彩色图像的G的值。
(b)使灰度的值=0.30r+0.59g+0.11b。这里,r、g、b分别为彩色图像R、G、B的值。
(c)使灰度的值=α×r+β×g+γ×b。这里,α、β、γ为系数,且该α、β、γ依据伴随颜色判定的判定颜色而进行变化。
双值化部13具有将由图像输入部11所输入的图像数据,藉由利用例如对浓度的固定的阈值、周围画素的平均值之动态阈值等,进行双值化的机能。
文件构造解析部14具有依据双值化图像内的文字等的分布状态和内容,将输入图像内分割为作为多数个文章区域的区块上的分布状态和内容之机能。具体地说,藉由利用段落和行将图像内的文章区域进行分割,或利用文章/图/照片等区域类别进行分割,而将图像内划分为多数个区块并进行版面解析。
文字切割部15具有对文件构造解析部14的结果以行单位进行切割后,再以1个文字单位进行切割之机能。
特征量计算部16具有利用文件构造解析结果和1个文字分割结果,在每一文章区域关于以下的要素计算特征量之机能。
(1)因所切割出的文字的宽度和高度所造成之大小的差异。在活字的情况下,只要不改变点数,高度和宽度大体是一定的,与此相对,手写文字则不均匀。
(2)文字间隔的差异(文字位置的周期性)。在活字的情况下大致一定,而在手写文字的情况下则产生差异。
(3)重心位置或外接矩形中心位置的差异。文字因线和点的数、排列状况等,其重心位置或外接矩形中心位置会从中心偏离,而该偏离在手写文字的情况下变得显著。
(4)行或列的写入方向(角度)。在活字的情况下,文字列形成一横列或一纵列,与此相对,手写文字的文字列容易形成倾斜、曲面状、波状等。
(5)画素值的差异(直方图)。在活字的情况下是一定的,且容易形成峰值,与此相对,在手写文字的情况下会产生差异,形成宽特性。
特征量统计部17具有将利用特征量计算部16对每一文章区域所计算的特征量,在图像全体中进行统计,并计算用于将活字和手写文字进行分离的分离系数之机能。
活字手写文字分离部18具有根据特征量统计部17所计算的分离系数及文件构造解析部14的解析结果,对来自图像输入部11或歪斜修正部12,又或是未图示的双值化部13的图像,在每一文章区域分离为活字部和手写部之机能。
活字识别部19将所切割出的活字的文字图案和在活字词典21中所登记的活字图案,利用例如图形配比法进行比较,并将近似度最高的作为活字的识别结果(文字代码)进行输出。
手写识别部20将所切割出的手写字的文字图案和在手写词典22中所登记的手写文字图案,利用例如图形配比法进行比较,并将近似度最高的作为活字的识别结果(文字代码)进行输出。
活字词典21和手写词典22可利用例如在硬盘等存储媒体中所存储的电子词典。
合成部23将活字识别部19的识别结果和手写识别部20的识别结果,合成为例如1个文件和1个图像。
图2所示为特征量计算部16中的特征量的计算原理。这里,对特征量中的文字间隔进行说明。在活字的情况下,只要不中途变更文字点数和文字间隔,文字间隔大致一定。因此,如图2(a)所示,文字间隔一度数特性形成具有峰值之尖锐的山形。另一方面,因为手写文字难以形成一定间隔,所以如图2(b)所示,文字间隔—度数特性形成平缓的山形。可将图2(a)、图2(b)之特性的差异作为特征量使用,并可藉此进行活字和手写文字的判别。在这里,关于文字间隔进行了说明,但对其它的特征量,也可同样地进行计算。特征量统计部17将多数个特征量中的,如图2(a)和图2(b)所示在每文章区域呈现明显的差异之特征量,用于分离系数的计算。
(文字识别装置的动作)图3所示为图1的各部中的图像。而且,图4~图7表示图1的各部中的处理内容,图4表示文件构造解析结果的一个例子,图5表示文章区域、行及一文字的分离,图6表示特征量计算,图7表示利用活字手写文字分离部18的抽出图像。下面参照图1~图7,对文字识别装置1的动作进行说明。
首先,利用图像输入部11,读取在以活字31作为主体的文件中写入手写文字32之如图3(a)所示的输入原稿30,得到图3(b)所示的输入图像33。在输入原稿30被端正地置放于图像输入部11的未图示的扫描设备之原稿载置面上的情况下,输入图像33收纳在图3(b)的实线框所示的位置。但是,当输入原稿30以倾斜的状态被置放在扫描设备的原稿载置面上时,输入图像33如虚线框如示,形成一种图像整体倾斜的状态。如输入图像33倾斜,则版面解析和特征量的计算无法正确地进行。因此,利用歪斜修正部12对输入图像33的倾斜进行修正,得到图3(c)所示的歪斜修正图像34。
而且,歪斜修正部12在输入原稿30的内容为彩色的情况下,实施将其R、G、B转换为灰色的处理,降低图像数据的量,使后工程中的双值化处理容易进行。
接着,利用双值化部13将图3(c)的图像进行双值化。对该双值化图像,利用文件构造解析部14,实施文章区域分割、文章/图/照片等的区域类别、文章的行分离等版面解析。
图4所示为版面解析的结果,显示了一种划分为标题部40、著者的姓名等著者部41、摘要和正文的目录部42、手写文字,图等活字以外的非活字部43、正文部44等,并将图像内粗略分割为对应的区块之状态。
另外,文件构造解析部14对将图4的正文部44抽出表示之图5(a)的正文部44,如图5(b)所示,以行单位进行文章的切割。
接着,对由文件构造解析部14所切割之行单位的文章,利用文字切割部15按1文字单位进行文字切割。例如,对图5(b)的行单位的切割部51,如图5(c)所示,按1个文字单位生成文字切割部52。
接着,参照文件构造解析部14的解析结果及歪斜修正部12的输出图像的浓度值、由文件切割部15所切割出的结果,利用特征量计算部16在每文章区域计算上述的5种特征量。
如参照图6对特征量的计算进行说明,在图6(a)所示之文字排列的情况下,分别按1文字单位或1文字间隔单位分别计算[あ]、[か]、[さ]各文字的高度h、文字宽w及文字间隔d。例如在活字的情况下,可计算具有图2(a)那样的特性之特征量。将文字彼此进行比较,如h1h2h3、w1w2w3、d1d2d3,则形成图2(a)所示的特性,所以可将[あ]、[か]、[さ]的文字判定为活字。
而且,当从重心位置计算特征量时,可对如图6(b)所示,在活字的情况下重心位置60的差异少,但在手写文字的情况下差异(变化)变得显著这样的特征量进行计算。
而且,当从行写入方向(角度)计算特征量时,如图6(c)所示,利用活字之标题部40的行写入方向61为水平,与此相对,利用手写文字之非活字部43的行写入方向62具有某些角度,所以可计算活字/手写文字的特征量。
在图4所示的每区块利用特征量计算部16所计算的特征量,由特征量统计部在图像全体中进行统计,并求用于分离活字和手写文字的分离系数。
接着,活字手写文字分离部18根据特征量统计部17所求得的分离系数,以图4所示的区块单位进行是活字还是手写文字的判定,并分离为图7(a)所示之只由活字构成的活字文字抽出图像71、图7(b)所示的手写文字抽出图像72。在这种情况下,从上述的多数个种类的特征量中,将如图2(a)那样显示明确特征的作为特征量采用,并执行分离。
接着,活字识别部19和手写识别部20利用活字词典21及手写词典22,对如图7那样被分离的活字文字抽出图像71及手写文字抽出图像72进行OCR处理,并分别生成识别结果和识别图像。
对活字文字抽出图像71和手写文字抽出图像72的OCR结果,利用合成部23,按照与图3(a)的输入原稿30同样的版面被合成为1张图像。如将该合成图像利用打印机等打印出来,则可得到在基于活字的文件中使手写文字形成活字被写入的原稿。
(实施形态的效果)如利用该实施形态,可达到下述效果。
(1)因为利用文件构造解析部14对图像内的每一区块计算多数个特征量,并统计参照该多数个特征量而求分离系数,且根据该分离系数进行活字/手写文字的分离判定,所以能够提高分离精确度。
(2)因为利用不同内容的多数个特征量,所以可确实地计算文章的特征量,并可确实地进行活字/手写文字的分离判定。
(3)因为对特征量利用特征量统计部17在图像全体中进行统计,并据此进行活字/手写文字的分离,所以可提高手写文字的文字识别率。
(4)因为利用歪斜修正部12进行输入图像33的倾斜修正,所以即使在文章中存在倾斜,也可计算特征量,从而能够提高文字识别率。
(其它的实施形态)
另外,本发明并不限定于上述实施形态,在不变更其要旨的范围内可进行各种各样的变形。例如,也可使图像输入部11具有判定原稿尺寸的机能,并针对识别尺寸,使利用活字手写文字分离部18之输出图像的尺寸,依据预先所设定的条件,自动地进行收放。而且,在由文件构造解析部14判定为含有照片和图的情况下,也可将对该区块的抽出图像分离为活字部和手写部而进行输出。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的结构及技术内容作出些许的更动或修饰为等同变化的等效实施例,但是凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
权利要求
1.一种文字识别装置,其特征在于所述文字识别装置包括对混合有活字和手写文字的文件的输入图像进行解析,并将前述输入图像划分为一定的文章区之文件构造解析部;对利用前述文件构造解析部所划分的各文章区域进行1个文字单位的文字切割之文字切割部;在每一前述文章区域对所切割出的文字计算特征量之特征量计算部;将所计算出的前述特征量在前述输入图像的一定范围内进行统计之特征量统计部;以及根据利用前述特征量统计部的统计结果,将关于前述输入图像的文字分离为前述活字和前述手写文字之活字手写文字分离部。
2.如权利要求1所述的文字识别装置,其特征在于前述文件构造解析部在前部连接对前述输入图像进行倾斜修正、去除干扰等歪斜修正之歪斜修正部。
3.如权利要求1所述的文字识别装置,其特征在于前述文件构造解析部利用基于段落或行的文章分割,或基于文章/图/照片等区域类别的分割,划分为前述一定的文章区域。
4.如权利要求1所述的文字识别装置,其特征在于前述特征量计算部对每一前述文章区域计算多数个前述特征量。
5.如权利要求1所述的文字识别装置,其特征在于前述特征量计算部利用文字大小的均匀性、文字浓度的均匀性、文字位置的周期性、重心位置·外接矩形中心位置的差异、行和列的写入方向及画素值的直方图中的至少一个来计算前述特征量。
6.如权利要求1所述的文字识别装置,其特征在于前述特征量统计部在前述输入图像全体中对每一前述文章区域的前述特征量进行统计。
7.如权利要求1所述的文字识别装置,其特征在于前述特征量统计部根据前述特征量的统计结果,计算用于分离活字和手写文字的分离系数。
8.如权利要求7所述的文字识别装置,其特征在于前述特征量计算部对每一前述文章区域计算多数个前述特征量,前述特征量统计部关于前述多数个特征量,分别包括似乎为活字或似乎为手写文字这样的多数个中间评价而作为前述分离系数,前述活字手写文字分离部根据前述多数个中间评价进行活字和手写文字的分离。
9.如权利要求1所述的文字识别装置,其特征在于前述活字手写文字分离部对前述输入图像或将前述输入图像双值化的图像,进行活字或手写文字的分离。
10.一种文字识别方法,其特征在于对混合有活字和手写文字之文件的输入图像进行解析,并将前述输入图像划分为一定的文章区域;对所划分的各文章区域进行1个文字单位的文字切割;在每一前述文章区域对所切割出的文字计算特征量;在前述输入图像的一定范围内统计所计算的前述特征量;以及根据前述特征量的统计结果,将关于前述输入图像的文字分离为前述活字和前述手写文字。
11.一种文字识别程序,适于在计算机执行,其特征在于所述文字识别程序包括对混合有活字和手写文字的文件的输入图像进行解析,并将前述输入图像划分为一定的文章区域之文件构造解析装置;对利用前述文件构造解析装置所划分的各文章区域进行1个文字单位的文字切割之文字切割装置;在每一前述文章区域对所切割出的文字计算特征量之特征量计算装置;将所计算出的前述特征量在前述输入图像的一定范围内进行统计之特征量统计装置;以及根据利用前述特征量统计装置的统计结果,将关于前述输入图像的文字分离为前述活字和前述手写文字之活字手写文字分离装置。
全文摘要
本发明提供一种可提高混合有活字和手写文字之文件中的手写文字的识别率之文字识别装置、文字识别方法及文字识别程序。利用图像输入部11生成混合有活字和手写文字之文件的输入图像,并将其由双值化部12进行双值化。对双值化图像,利用文件构造解析部14,根据段落和行划分为多数个文章区域而区块化,并对各文章区域分别利用文字分离部15进行1个文字单位的文字分离。而且,利用文件构造解析及文字分离的结果,对每一文章区域利用特征量计算部16计算特征量。特征量统计部统计特征量,并求用于分离活字和手写文字的分离系数。活字手写文字分离部18根据分离系数,对输入图像或文件构造解析部14的输出图像进行活字和手写文字的分离,并分别得到抽出图像。
文档编号G06K9/00GK1752991SQ20051005356
公开日2006年3月29日 申请日期2005年3月8日 优先权日2004年9月24日
发明者小山俊哉, 斋藤照花, 馆野昌一, 田中圭, 榊原正义, 中村浩太郎 申请人:富士施乐株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1