图像词典作成装置、编码装置、图像词典作成方法

文档序号:7616108阅读:94来源:国知局
专利名称:图像词典作成装置、编码装置、图像词典作成方法
技术领域
本发明涉及在作成将构成输入图像的图像图形与该图像图形的识别信息相互对应的图像词典、对作成的图像词典进行编码处理中所使用的编码装置。
背景技术
例如,在专利文献1中公开了一种图像记录装置,该图像记录装置输入具有由照片图像、图形所构成的第1图像和由文字构成的第2图像的图像信息,检测出该图像信息中的第2图像的区域,从图像信息当中抽出第2图像的区域并进行记录。这样,将第2图像的区域内的文字转换为文字代码并进行记录,可以作为检索用关键字来使用。另外,专利文献2公开了一种具有编码侧和解码侧共用的字体数据库,对文字代码及字体种类等进行编码的文字区域编码方法。
专利文献1发明专利第2895834号公报专利文献2特开平10-178638号公报发明内容本发明是根据上述的背景而产生的,其目的在于提供一种作成实现高效率编码的图像词典、采用该图像词典进行编码的编码装置。
为了达到上述目的,本发明的图像词典作成装置具有信息取得单元,取得对输入图像进行的文字识别处理的处理结果;文字分类单元,根据由所述信息取得单元所取得的文字识别处理的结果,将在输入图像中所包含的文字图像分类为多个文字图像组;类型决定单元,根据被所述文字分类单元分类到各文字图像组内的文字图像,决定构成输入图像的类似的图像图形;
识别信息赋予单元,将识别各图像图形的识别信息赋予由所述类型决定单元所决定的图像图形。
理想的是,所述信息取得单元取得作为文字识别处理的结果的用于识别各个文字图像所表示的文字的文字识别信息,所述文字分类单元根据所述信息取得单元所取得的文字识别信息,将在输入图像中所包含的文字图像分类为多个文字图像组。
理想的是,在文字识别信息内包含文字代码,所述文字分类单元按照每个文字代码对在输入图像中所包含的文字图像进行分类,所述类型决定单元根据被分类为同一文字代码的文字图像,决定与这些文字图像相对应的图像图形。
理想的是,所述信息取得单元进一步包括文字图像抽出单元,该文字图像抽出单元取得表示输入图像中的各个文字图像的区域的文字区域信息,根据所述信息取得单元所取得的文字区域信息,从输入图像中抽出文字图像,所述文字分类单元将所述文字图像抽出单元所抽出的文字图像分类为多个文字图像组,所述类型决定单元通过对由所述文字图像抽出单元抽出的文字图像进行相互比较来决定图像图形。
理想的是,还具有一致判断单元,将由所述文字图像抽出单元所抽出的多个文字图像在多个相对位置进行相互比较,判断文字图像的一致程度;区域校正单元,根据由所述一致判断单元在各个相对位置判断出的一致程度,校正各文字图像的文字区域信息;和输出单元,与各图像图形的识别信息对应起来,输出与各图像图形相对应的各个文字图像的文字区域信息。
理想的是,还具有将由所述文字分类单元分类到各文字图像组内的多个文字图像进行相互比较,判断文字图像的一致程度的一致判断单元,所述类型决定单元根据所述一致判断单元所判断出的一致程度,对被分类到同一文字图像组内的多个文字图像决定一个或一个以上的图像图形,所述识别信息赋予单元,将识别各个图像图形的识别信息,赋予由所述类型决定单元对同一文字图像组所决定的一个或一个以上的图像图形。
理想的是,还具有将由所述文字分类单元分类到各个文字图像组内的多个文字图像进行相互比较,判断出在文字图像中所包含的每个区域的一致程度的一致判断单元,所述类型决定单元根据所述一致判断单元对每个区域所判断的一致程度,决定构成文字图像的多个图像图形。
理想的是,所述信息取得单元,将文字识别处理的识别准确度信息与各个文字识别信息或文字区域信息相互对应,并取得该识别准确度信息,所述文字分类单元,根据识别准确度信息和与其相对应的文字识别信息或文字区域信息,将在输入图像中所包含的文字图像分类为多个文字图像组。
另外,本发明的图像词典作成装置,具有图形存储单元,存储构成输入图像的类似的图像图形;一致判断单元,将新输入的文字图像与被存储在所述图形存储单元中的图像图形进行比较,判断一致程度;类型决定单元,根据所述一致判断单元所判断的一致判断程度,将该新输入的文字图像作为图像图形存储到所述图形存储单元内。
理想的是,所述图形存储单元进一步包括加权单元,该加权单元对应各个图像图形,存储这些图像图形所表示的文字的识别信息,并且根据输入的文字图像所表示的文字的识别信息和存储在所述图形存储单元中的图像图形的识别信息,对由所述一致程度判断单元对各个图像图形所判断出的一致程度进行加权,所述类型决定单元根据所述加权单元所加权后的一致程度,决定是否许可登录基于该输入的文字图像的图像图形。
理想的是,文字的识别信息是文字代码,所述加权单元在所输入的文字图像的文字代码与任何一个图像图形的文字代码相一致的情况下,进行使一致程度比在文字代码不一致的情况下高的加权,所述类型决定单元在一致程度高于基准的情况下,禁止登录基于该文字图像的图像图形,在一致程度低于基准的情况下,许可登录该文字图像的图像图形。
理想的是,通过对输入图像进行文字识别处理来判断出文字代码,所述加权单元根据对输入的文字图像进行的文字识别处理的识别准确度,进行识别准确度越高,一致程度就越高的加权。
另外,本发明的图像词典作成装置,具有信息取得单元,取得在输入图像中所包含的文字图像和识别该文字图像所表示的文字的文字识别信息;文字分类单元,根据所述信息取得单元所取得的文字识别信息,将输入图像中所包含的文字图像分类为多个文字图像组;类型决定单元,根据由所述文字分类单元分类到各个文字图像组内的文字图像,决定构成输入图像的类似的图像图形;和识别信息赋予单元,将用于识别各个图像图形的识别信息赋予由所述类型决定单元所决定的图像图形。
另外,本发明的图像词典作成装置具有信息取得单元,取得表示输入图像中的各个文字图像的区域的文字区域信息;文字图像抽出单元,根据所述信息取得单元取得的文字区域信息,从输入图像中抽出文字图像;类型决定单元,根据所述文字图像抽出单元所抽出的文字图像,决定构成输入图像的类似的图像图形;识别信息赋予单元,将用于识别各个图像图形的识别信息赋予由所述类型决定单元所决定的图像图形。
另外,本发明的编码装置具有信息取得单元,取得输入图像中所包含的文字图像和用于识别该文字图像所表示的文字的文字识别信息;文字分类单元,根据所述取得单元所取得的文字识别信息,将输入图像中所包含的文字图像分类为多个文字图像组;类型决定单元,根据由所述文字分类单元分类到各个文字图像组内的文字图像,决定构成输入图像的类似的图像图形;识别信息赋予单元,将用于识别各个图像图形的识别信息赋予由所述类型决定单元所决定的图像图形;编码单元,将表示输入图像中所包含的文字图像的区域的文字区域信息和与该文字图像相对应的图像图形的识别信息相互对应起来进行编码。
另外,本发明的编码装置具有信息取得单元,取得表示输入图像中的各个文字图像的区域的文字区域信息;文字图像抽出单元,根据所述信息取得单元所取得的文字区域信息,从输入图像中抽出文字图像;文字分类单元,将由所述文字图像抽出单元所抽出的文字图像分类为多个文字图像组;类型决定单元,根据由所述文字分类单元分类到各文字图像组内的文字图像,决定构成输入图像的类似的图像图形;识别信息赋予单元,将用于识别各图像图形的识别信息赋予由所述类型决定单元所决定的图像图形;一致判断单元,将由所述文字分类单元分类到各文字图像组内的多个文字图像在多个相对位置进行相互比较,判断文字图像的一致程度;区域校正单元,根据由所述一致判断单元在各个相对位置所判断的一致程度,校正各个文字图像的文字区域信息;和编码单元,至少将由所述区域校正单元所校正的各文字图像的文字区域信息、和根据该文字图像类属的文字图像组所决定的图像图形的识别信息进行编码。
另外,本发明的图像词典作成方法取得输入图像中所包含的文字图像、和识别该文字图像所表示的文字的文字识别信息,根据所取得的文字识别信息,将输入图像中所包含的文字图像分类为多个文字图像组,根据被分类到各个文字图像组的文字图像,决定构成输入图像的类似的图像图形,将识别各个图像图形的识别信息赋予所决定的图像图形。
另外,本发明的程序,在包含计算机的图像词典作成装置中,使所述图像词典作成装置的计算机执行取得输入图像中所包含的文字图像、和识别该文字图像所表示的文字的文字识别信息的步骤;根据所取得的文字识别信息,将输入图像中所包含的文字图像分类为多个文字图像组的步骤;根据被分类到各文字图像组的文字图像,决定构成输入图像的类似的图像图形的步骤;将识别各图像图形的识别信息赋予所决定的图像图形的步骤。
另外,本发明的程序,在包含计算机的图像词典作成装置中,使所述图像词典作成装置的计算机执行取得表示输入图像中的各个文字图像的区域的文字区域信息的步骤;根据所取得的文字区域信息,从输入图像中抽出文字图像的步骤;将所抽出的文字图像分类为多个文字图像组的步骤;根据被分类到各文字图像组内的文字图像,决定构成输入图像的类似的图像图形的步骤;将识别各图像图形的识别信息赋予所决定的图像图形的步骤。
根据本发明的编码装置,可以保持文字的可读性,实现高压缩率。


图1(A)是说明以存在共用字体数据库为前提的编码方法的图,(B)为说明以附加图像词典为前提的编码方法的图。
图2(A)表示图像词典的示例,(B)表示图像图形的示例。
图3是以控制装置20为中心示例表示适合运用本发明的图像词典作成方法的图像处理装置2的硬件构造的图。
图4是示例表示实现控制装置21(图3)所执行的、本发明的图像词典作成方法的编码程序5的功能的图。
图5是进一步详细说明第1图像词典作成部50的功能的图。
图6是进一步详细说明编码部60的功能的图。
图7是表示编码程序5的第1动作(S1)的流程图。
图8是进一步详细说明第1图像图形决定处理(S40)的流程图。
图9是进一步详细说明编码处(S60)的流程图。
图10是示例表示可以通过文字识别处理被判断为相同的文字代码的文字图像的图。
图11是第2图像图形决定处理(S42)的流程图。
图12是示意说明第1变形例的图像图形的决定方法的图。
图13是示例表示可以被判断为相同的文字代码的多个文字图像的相同形状及差量形状的图。
图14是第3图像图形决定处(S44)的流程图。
图15是示意说明第2变形例的图像图形的决定方法的图。
图16是第2变形例的编码处理(S64)的流程图。
图17是示例表示对应每个文字识别处理的准确度所作成的图像词典的图。
图18是说明第2图像词典作成部52的功能构造的图。
图19是表示第2实施方式的编码程序5的第2的动作(S2)的流程图。
图20是进一步详细说明第2实施方式的图像图形登录判断处理(S46)的流程图。
图21(A)是示例表示基于文字代码的加权处理的加权系数的图,(B)是示例表示基于文字识别处理的准确度的加权处理的加权系数的图。
图22是说明本变形例的图像词典作成部52的动作(S48)的流程图。
图中2-图像处理装置,5-编码程序,40-图像输入部,410-文字识别部,420-PDL分解部,50、52-图像词典作成部,500-存储部,510-文字图像抽出部,520-文字分类部,530-一致判断部,540-词典决定部,550-位置校正部,560-索引赋予部,570-登录控制部,60-编码部,610-图形判断部,620-位置信息编码部,630-索引编码部,640-图像编码部,650-词典编码部,660-选择部,670-编码输出部。
具体实施例方式首先,为了帮助理解本发明,对其背景及概要进行说明。
图像处理装置2例如不是对在输入图像中所包含的文字图像进行编码、而是通过对各个文字图像的识别信息及其出现位置等进行编码,来实现高压缩率。
图1(A)是说明以存在共用字体数据库为前提的编码方法的图,图1(B)是说明以附加图像词典为前提的编码方法的图。
如图1(A)所示,在编码侧及解码侧都存在将文字图像与识别信息(文字代码及字体的种类)对应存储的相同的字体数据库的情况下,编码侧的图像处理装置通过将文字图像的识别信息(文字代码及字体的种类)和文字图像的出现位置进行编码,能够以高压缩率将图像数据发送到解码侧的图像处理装置。在该情况下,解码侧的图像处理装置将所接收到的编码数据(文字代码及字体的种类)进行解码,根据所解码的文字代码及字体的种类、以及字体数据库所登录的字体图像,生成文字图像。
但是,在以字体数据库的存在为前提的编码方法中,在编码侧及解码侧需要分别设置字体数据库,存储区域被字体数据库所挤占。另外,当编码侧的字体数据库被更新时,与此相对应,解码侧的字体数据库也需要进行更新。另外,将手写文字等置换为字体图像时,其再现性变低,以及手写文字被作为非文字图像进行处理,不能减少编码量等,总之不能充分对应手写文字等的处理。
因此,本实施方式的图像处理装置2,如图1(B)所示,在解码侧中,将在输入图像内分类型存在的图像图形与索引对应起来进行登录(图像词典化),将输入图像所包含的图像图形置换为所对应的索引及其出现位置来进行编码。编码侧将把图像图形及索引相互对应起来的图像词典和被实施了编码的索引及出现位置发送到解码侧。解码侧将索引及出现位置进行解码,从图像词典中选择出与被解码后的索引相对应的图像图形,并把其配置在被解码后的出现位置上。
这样,图像处理装置2根据输入图像,通过作成图像词典并进行收发,可以不用以相同的数据库为前提来实现高压缩率。还有,没有必要使字体数据库在编码侧及解码侧同步。并且,对手写文字等也可以在维持其充分的再现性的同时减少编码量。另外,为了减少编码量,最好也将图像词典进行编码。
图2(A)是示例表示图像词典的图,(B)是示例表示图像图形的图。
如图2(A)所示,在图像词典内包含输入图像中所包含的多个图像图形和为了识别该图像图形而被赋予的索引。图像图形是输入图像中所包含的一部分图像数据,在本实施例中是在输入图像(2值)中出现预定次数以上(多次)的类似图形(2值数据)。另外,索引例如是对应每个输入图像独立生成的识别信息,也可以是按照从输入图像中抽出图像图形的顺序被赋予给该图像图形的顺序编号等。
接下来的问题是,以什么样的基准从输入图像中抽出图像图形、如何作为图像词典对其进行登录。这是由于输入图像的编码量因被抽出的图像图形的大小及出现频度的不同而不同。例如,如图2(B)所例示的那样,要考虑以文字图像为单位来抽出图像图形的情况和以比文字图像还要小的单位来抽出图像图形的情况。
在以比文字图像还要小的单位来抽出图像图形的情况下,各图像图形出现频度高的情况很多(例如,「1」的纵棒部分,作为「山」及「川」的一部分出现),应登录到图像词典内的图像图形的数量会变多,图像词典的数据量会变大。
另一方面,在以文字图像为单位来抽出图像图形的情况下,在同一文档内,由于在同一种语言中,相同的字体种类及相同的字体尺寸的文字会多次出现,因而虽然图像图形的尺寸大,但可期待其出现的频度高。
另外,在允许某种程度的非可逆性来达到高压缩率的情况下,编码侧的图像处理装置不仅将与图像图形相同的部分图像,而且将与图像图形类似的部分图像也置换为索引进行编码。在这种情况下,当将文字图像的各部分置换为类似的图像图形时,会有作为文字图像整体被解码为完全不同的图像数据而失去可读性的可能。但在以文字图像为单位来抽出图像图形的情况下,由于文字图像的整体的形状被置换为类似的图像图形(例如,数字的「1」和字母的「I」等),因而维持了某种程度的可读性。
因此,本实施方式的图像处理装置2以文字图像为单位从输入图像中抽出图像图形,登录到图像词典内。
下面,对图像处理装置2的硬件构造进行说明。
图3是以控制装置20为中心举例说明适合应用本发明的图像词典作成方法的图像处理装置2的硬件构造的图。
如图3所示,图像处理装置2是由包括CPU202及存储器204等的控制装置20、通信装置22、HDD·CD装置等记录装置24、以及包含LCD显示装置或CRT显示装置及键盘·触摸屏等的用户接口装置(UI装置)26构成。
图像处理装置2例如是安装有作为打印机驱动程序的一部分的编码程序5(后述)的通用计算机,通过通信装置22或记录装置24等取得图像数据,将取得的图像数据进行编码并发送到打印机装置10。另外,图像处理装置2取得通过利用打印机装置10的扫描仪功能而光学读出的图像数据,将所取得的图像数据进行编码。
图4是示例表示控制装置20(图3)所执行的、实现本发明的图像词典作成方法的编码程序5的功能构造的图。
如图4所示,编码程序5具有图像输入部40、图像词典作成部50及编码部60。
在编码程序5中,图像输入部40(信息取得单元)取得通过打印机装置10的扫描功能所读出的图像数据,或取得通过通信装置22或记录装置24等所取得的PDL(Page Discription Language)形式的图像数据,将所取得的图像数据转换为光栅数据,输出到图像词典作成部50。另外,图像输入部40具有从光学读出的图像数据等中识别文字图像的文字识别部410;和通过解释PDL形式的图像数据而生成光栅数据的PDL分解部420。
文字识别部410对在输入的图像数据(以下称为输入图像)中所包含的文字进行识别,将被识别文字的文字识别信息及被识别文字的文字区域信息作为文字识别处理的结果输出到图像词典作成部50。在这里,所谓文字识别信息,是识别文字的信息,例如是具有通用性的文字代码(ASCII代码或位移(shift)JIS代码等)、或文字代码和字体的种类的组合等。另外,所谓文字区域信息,是表示输入图像的文字图像的区域的信息,例如是文字图像的位置、大小、范围、或这些的组合。
PDL分解部420解释PDL形式的图像数据,生成光栅化的图像数据(光栅数据),将生成的图像数据的文字图像的文字识别信息及文字区域信息和所生成的图像数据一起输出到图像词典作成部50。
图像词典作成部50根据图像输入部40所输入的输入图像,作成该输入图像的编码处理所使用的图像词典,将作成的图像词典和输入图像输出到编码部60。更具体地来讲,图像词典作成部50根据从文字识别部410或PDL分解部420输入的文字识别信息及文字区域信息,以文字图像为单位从输入图像中抽出图像图形,将索引赋予所抽出的图像图形,作为图像词典输出到编码部60。
编码部60(编码单元)根据图像词典作成部50所输入的图像词典,将输入图像进行编码,并将编码后的输入图像和图像词典输出到记录装置24(图3)或打印机装置10(图3)。更具体地来讲,编码部60将登录在图像词典中的图像图形和在输入图像中包含的部分图像进行比较,将与其中任何一个图像图形相一致或类似的部分图像的数据置换为与该图像图形相对应的索引及该部分图像的位置信息。而且,编码部60也可以通过将部分图像和被置换后的索引及位置信息、图像词典等进行平均信息量编码(霍夫曼编码,算术编码或LZ编码等)来进行编码。
图5是进一步详细说明第1图像词典作成部50的功能的图。
如图5所示,图像词典作成部50具有存储部500、文字图像抽出部510、文字分类部520、一致判断部530、词典决定部540(类型决定单元)、位置校正部550(区域校正单元)及索引赋予部560(识别信息赋予单元)。存储部500控制存储器204(图3)及记录装置24(图3),将图像输入部40(图4)所输入的输入图像、文字识别信息及文字区域信息进行存储。另外,以下,将文字代码作为文字识别信息的具体例,将文字的位置信息作为文字区域信息的具体例来进行说明。
文字图像抽出部510根据文字的位置信息,从输入图像中提取文字图像。即、文字图像抽出部510,把文字区域信息所表示的区域作为文字图像从输入图像中抽出。所抽出的文字图像是被文字识别部410判断为文字图像的区域。另外,文字识别部410或PDL分解部420也可以在将文字图像从输入图像中提取出的状态下输出到图像词典作成部50。
文字分类部520根据文字代码,将从输入图像中提取的文字图像分类为多个文字图像组。例如,文字分类部520将文字代码一致的文字图像分类为相同的文字图像组。
一致判断部530对从输入图像中提取的多个文字图像进行相互比较,判断一致程度。在这里,所谓一致程度是表示多个图像相互一致的程度的信息,例如,在比较2值图像的情况下,是将两个文字图像重叠时的相互重叠的像素的数量(以下称为一致像素数)、将该一致像素数规一化后的一致像素率(例如,一致像素数除以全部像素数)、或在将多个文字图像重叠时的像素分布(直方图)等。
另外,一致判断部530通过对多个文字图像在多个相对位置进行比较来判断一致程度。即、一致判断部530为了计算出最大的一致程度,一边将多个文字图像相互错开,一边进行比较。
例如,一致判断部530一边将被分类到相同的文字图像组内的两个文字图像(文字代码为一致的文字图像)相互错开,一边计算一致像素率,将一致像素率的最大值及为该最大值时的移动矢量输出到存储部500。
词典决定部540根据各文字图像组所包含的文字图像,决定应登录到图像词典内的图像图形。即、词典决定部540根据文字代码一致的多个文字图像,决定应登录的图像图形。例如,词典决定部540将文字代码一致的多个文字图像(被实施了后面所述的位置校正的文字图像)的合并图形作为应登录的图像图形。另外,所谓合并图形是在多个图像相互重叠的情况下的集合形状。
位置校正部550根据一致判断部530输出的移动矢量,校正文字图像的位置信息。即、位置校正部550校正图像输入部40所输入的位置信息,使文字代码一致的多个文字图像的一致程度为最大。
索引赋予部560对根据输入图像所决定的图像图形赋予识别这些图像图形的索引,将所赋予的索引和图像图形对应起来输出到存储部500。
图6为进一步详细说明编码部60的功能的图。
如图6所示,编码部60具有图形判断部610、位置信息编码部620、索引编码部630、图像编码部640、词典编码部650、选择部660及编码输出部670。
图形判断部610将图像词典所登录的各图像图形与输入图像所包含的部分图像进行比较,判断与该部分图像相对应的图像图形(相同或类似的图像图形)。更具体地来讲,图形判断部610将以文字图像为单位从输入图像中提取的部分图像(被位置校正部550所校正的部分图像)和图像图形重叠起来,通过和一致判断部530(图5)相同的方法来计算一致程度,根据所计算出的一致程度是否为大于等于基准值,来判断是否相对应。
图形判断部610在发现了相对应的图像图形的情况下,将该部分图像的位置信息输出到位置信息编码部620,并将该图像图形的索引输出到索引编码部630,在没有发现相对应的图像图形的情况下,将该部分图像输出到图像编码部640。
位置信息编码部620对从图形判断部610输入的位置信息〔即、被位置校正部550所校正的部分图像(文字图像)的位置信息〕进行编码,并输出到选择部660。例如,位置信息编码部620采用LZ编码或算术编码等将位置信息进行编码。
索引编码部630对从图形判断部610输入的索引进行编码,并输出到选择部660。例如,索引编码部630根据索引的出现频度,将编码长不同的编码赋予各个索引。
图像编码部640采用适合图像的编码方式,对从图形判断部610输入的部分图像进行编码,并输出到选择部660。
词典编码部650对从图像词典作成部50(图4、图5)输入的图像词典(将图像图形和索引相互对应起来的图像词典)进行编码,并输出到编码输出部670。
选择部660在图形判断部610发现了与部分图像相对应的图像图形的情况下,将位置信息编码部620所输入的位置信息的编码数据和索引编码部630所输入的索引的编码数据相互对应起来,输出到编码输出部670,在图形判断部610没有发现与部分图像相对应的图像图形的情况下,将被图像编码部640进行了编码的部分图像的编码数据输出到编码输出部670。
编码输出部670将选择部660所输入的编码数据(位置信息、索引及部分图像的编码数据)和词典编码部650所输入的索引的编码数据(图像词典的编码数据)相互对应起来,输出到打印机装置10(图3)、记录装置24(图3)、或通信装置22(图3)。
下面,对图像处理装置2的编码处理的整体动作进行说明。
图7是表示编码程序5的第1动作(S1)的流程图。另外,在本流程图中,作为具体例,对利用打印机装置10的扫描仪功能输入的被光学读出的2值的图像数据的情况进行说明。
如图7所示,在步骤10(S10)中,当从打印机装置10(图3)输入了图像数据(2值)时,图像输入部40将输入的图像数据(输入图像)输出到图像词典作成部50。另外,图像输入部40的文字识别部410(图4)对输入图像进行文字识别处理,判断输入图像中所包含的文字图像的文字代码及位置信息,并将所判断的文字代码及位置信息输出到图像词典作成部50。
在步骤20(S20)中,图像词典作成部50的存储部500将图像输入部40所输入的输入图像、文字代码及位置信息存储到存储器204内(图3)。
文字图像抽出部510根据存储部500所存储的位置信息来确定输入图像的文字图像的范围,从所确定的范围中提取文字图像,存储到存储部500。另外,文字图像的提取,是对成为编码对象的全部输入图像(例如,一页或一个文件)进行的。
在步骤30(S30)中,文字分类部520对文字图像抽出部510所抽出的文字图像按照从文字识别部410(图4)输入的每个文字代码进行分类。
在步骤40(S40)中,一致判断部530、词典决定部540及位置校正部550协作动作,根据文字分类部520所分类的文字图像,决定登录到图像词典的图像图形,并将所决定的图像图形作为图像词典存储到存储部500内。
在步骤50(S50)中,索引赋予部560将索引赋予所决定的图像图形,并将所赋予的索引与图像图形对应起来,存储到存储部500内。被赋予的索引是至少对作为编码对象被输入的全部输入图像可唯一识别各图像图形的。
当对作为编码对象被输入的全部输入图像完成了图像图形的决定及索引的赋予时,这些图像图形及索引被作为图像词典输入到编码部60。
在步骤60(S60)中,编码部60对图像词典所登录的图像图形和输入图像所包含的部分图像进行比较,在存在与图像图形相一致的部分图像的情况下,将该部分图像置换为索引及位置信息,进行编码,将与图像图形不一致的部分图像按原样进行编码。另外,编码部60将图像词典进行编码。
在步骤70(S70)中,编码部60将索引、位置信息及部分图像的编码数据和图像词典的编码数据输出到打印机装置10等中。
图8是进一步详细说明第1图像图形决定处理(S40)的流程图。
如图8所示,在步骤402(S402)中,一致判断部530对按每个文字代码进行分类的文字图像进行相互比较,判断多个相对位置的一致程度。具体来讲,一致判断部530作成文字图像组的黑色像素的像素分布(直方图),一边将作成的像素分布和该文字图像组中所包含的文字图像相互错开一边计算黑色像素的一致像素数。另外,像素分布是在使属于文字图像组的文字图像的黑色像素中的一致像素数最多的相对位置上,对每个区域按顺序加上了像素值的直方图。
即、在将文字图像组的像素分布设为Q(x)、各文字图像的像素值定为P(i,x)、位置矢量设为x、属于文字图像组的各文字图像设为i(1~NN为属于文字图像组的文字图像的数)、文字图像i的移动矢量设为vi的情况下,一致判断部530根据以下的公式来计算一致像素数。
(一致像素数K)=∑〔Q(x)*P(i,x-vi)〕(「∑」表示变量x的总和)另外,在i=1的情况下,成为Q(x)=P(1,x),在i>1的情况下,成为Q(x)=P(1,x)+P(2,x-v2)+…+P〔i-1,x-v(i-1)〕。
在步骤404(S404)中,位置校正部550根据由一致判断部530在多个相对位置所计算出的一致像素数(一致程度),来决定文字识别部410所输入的位置信息的校正矢量。具体来讲,位置校正部550将由一致判断部530计算出的一致像素数K为最大时的移动矢量vi(以从文字识别部410所输入的位置信息为基准、使文字图像位移的2维矢量)作为校正矢量。
在步骤406(S406)中,一致判断部530对被分类到同一文字图像组内的多个文字图像(被校正矢量校正了位置的文字图像)进行比较,计算出各区域的像素值的一致程度。具体来讲,一致判断部530在一致像素数成为最大的相对位置上,将该文字图像组所包含的全部文字图像重叠起来,将各区域的黑色像素相加,作成像素分布(直方图)。即、一致判断部530根据以下的公式,对各文字图像组所包含的全部文字图像(1~N)计算出Q(x)。
Q(x)=∑P(i,x-vi)在步骤408(S408)中,词典决定部540对由一致判断部530计算出的一致程度(像素分布)实施除去阈值以下的分布数的阈值处理。具体来讲,词典决定部540将由一致判断部530计算出的Q(x)规一化,计算出Q’(x),并对所计算出的Q’(x)实施阈值处理。即、词典决定部540根据以下的公式来计算分布概率Q’(x)。
Q’(x)=Q(x)/N然后,一致判断部530根据以下的条件公式,将分布概率Q’(x)小于基准值的部分除去,计算Q”(x)。
在Q’(x)>阈值A的情况下,Q”(x)=1。
在上述以外的情况下,Q”(x)=0。
在步骤410(S410)中,词典决定部540对阈值处理后的像素分布判断分布数不是为0的区域(黑色像素的区域)是否大于基准,在大于等于基准的情况下,进入到步骤S412的处理,在小于基准的情况下,不对该文字图像组实施图像图形的登录,结束图像图形决定处理(S40)。
具体来讲,词典决定部540判断上述Q”(x)为1的像素的数是否大于等于基准值,在大于等于基准值的情况下,进行图像图形的登录,在小于基准值的情况下,不进行图像图形的登录。
在步骤412(S412)中,词典决定部540根据像素分布来决定图像图形。具体来讲,词典决定部540将Q”(x)的图形决定为登录到图像词典内的图像图形。
图9是进一步详细说明编码处理(S60)的流程图。另外,在本流程图中,根据在图8中所决定的图像图形,作为具体例,对进行编码处理的情况进行说明。
如图9所示,在步骤602(S602)中,图形判断部610根据校正后的位置信息,对从输入图像中提取的部分图像(即、文字图像)和图像词典所登录的图像图形进行比较,计算一致像素数。另外,图形判断部610也可以从一致判断部530中取得一致像素数。
在步骤604(S604)中,图形判断部610判断是否存在相一致的图像图形。具体来讲,图形判断部610判断针对各图像图形所计算出的一致像素数是否在允许范围(例如,对部分图像的全部像素大于等于90%)内,在允许范围内的情况下,进入到步骤S606的处理,在允许范围以外的情况下,进入S610的处理。
在步骤606(S606)中,图形判断部610从图像词典中读出在一致像素数为允许范围内的图像图形中、一致像素数为最大的图像图形的索引,将所读出的索引输出到索引编码部630,将该文字图像的位置信息(被位置校正部550所校正的位置信息)输出到位置信息编码部620。
索引编码部630将从图形判断部610输入的索引进行编码,将索引的编码数据输出到选择部660。
在步骤608(S608)中,位置信息编码部620对从图形判断部610输入的位置信息进行编码,将位置信息的编码数据输出到选择部660。
选择部660将索引编码部630所输入的索引的编码数据和位置信息编码部620所输入的位置信息的编码数据相互对应起来,输出到编码输出部670。即、选择部660对每个部分图像将索引和位置信息相互对应起来,输出到编码输出部670。
在步骤610(S610)中,图形判断部610将该部分图像(即、在图像词典中不存在所对应的图像图形的文字图像)输出到图像编码部640。
图像编码部640将图形判断部610输入的部分图像的图像数据进行编码,将部分图像的编码数据输出到选择部660。
选择部660将图像编码部640所输入的部分图像的编码数据输出到编码输出部670。
在步骤612(S612)中,图形判断部610判断是否对所有的部分图像完成了编码处理,在存在没有进行编码的部分图像的情况下,返回到S602的处理,进行下一个部分图像的编码处理,在所有的部分图像进行了编码的情况下,进入到步骤S614的处理。
在步骤614(S614)中,词典编码部650将图像词典作成部50输入的图像词典(与图像图形和索引相对应的图像词典)进行编码,并将图像词典的编码数据输出到编码输出部670。
如以上说明的那样,本实施方式的图像处理装置2由于根据基于文字代码所分类的各文字图像组来决定图像图形,并登录到图像词典内,因而维持了文件图像的可读性,实现了有效的编码(高压缩率的编码)。
另外,本图像处理装置2由于将属于相同的文字图像组的文字图像进行相互比较来校正文字图像的提取位置(文字图像的位置信息),因而可以修正因文字图像的提取误差或字体的不同所产生的文字图像的分歧,以高精度再现文字的配置。另外,在本实施方式中,图像处理装置2根据文字代码,将文字图像分类为文字图像组,但也可以采用字体的种类及文字图像的大小等的其他的文字识别信息来将文字图像进行分类。也可以通过将文字代码、字体的种类及文字图像的大小中的其中任何两个进行组合来对文字图像进行分类。
下面,对上述实施方式的第1变形例进行说明。
图10是表示可以被文字识别处理判断为相同的文字代码的文字图像的例子图。
如图10(A)例示的那样,字体种类不同的数据「1」可以被文字识别部410判断为相同的文字代码。因此,在上述实施方式中,将这些字体不同的多个数字「1」分类到相同的文字图像组内,根据这些文字图像登录一个图像图形。但是,这些数字「1」具有相互不同的形状,在解码后的图像中,也有想再现这些形状的不同的情况。另外,只是大小不同的文字也被判断为相同的文字代码,也有想再现这些大小的不同的情况。
另外,如图10(B)例示的那样,由于文字识别处理的错误,将形状类似的文字(例如、数字「1」和字母大写「I」)判断为相同的文字代码。在该情况下,由于至少形状相似,因而对可读性的影响并没有那么大,但也有希望能够区别这些进行再现的情况。
因此,第1实施方式的图像处理装置2,在被按每个文字代码分类的文字图像组中混有形状不同的文字图像的情况下,可以对该文字图像组决定两个或两个以上的图像图形,将各图像图形登录到图像词典中。
图11为第2图像图形决定处理(S42)的流程图。另外,在本图的各处理中,在实质上与图8所示的处理相同的处理被附以相同的符号。
如图11所示,在步骤S410中,词典决定部540对阈值处理后的像素分布判断分布数不为0的区域(黑色像素的区域)是否大于基准,在存在大于等于基准的区域的情况下,进入到步骤S422的处理,在小于基准的情况下,不对该文字图像组实施图像图形的登录,结束图像图形决定处理(S42)。
在步骤422(S422)中,词典决定部540根据像素分布来决定合并图形Q”(x)。
在步骤424(S424)中,词典决定部540将合并图形Q”(x)和属于该文字图像组的文字图像的相同部分(积集)作为相同图形抽出,并将抽出的相同图形决定为图像图形。另外,词典决定部540不是将根据各文字图像抽出的所有的相同图形登录到图像词典内,而是在排除了重复的相同图形后再登录到图像词典内。另外,词典决定部540在根据各文字图像抽出的多个相同图形中,即使在黑色像素区域的不同小于等于阈值的情况下,也可以把该相同图形作为重复的图形将其排除。
图12是示意说明第1变形例的图像图形的决定方法的图。
如图12所示,根据文字代码分类的文字图像的黑色像素的分布概率Q’(x),是表示因像素位置x不同而不同的数值。这是因为,在文字图像组中混有形状不同的文字图像。分布概率Q’(x)通过阈值B实施阈值处理,将分布概率低的部分除去。这样,可以将出现频度低的文字的差量形状(和出现频度高的文字的差量)及噪声部分等排除,而只将类似的形状作为图像图形。
词典决定部540在上述S422中,生成将大于等于阈值B的部分设为1、将小于阈值B的部分设为0的合并图形Q”(x)。
接下来,词典决定部540在步骤S424中,将合并图形Q”(x)和属于文字图像组的各文字图像的相同部分作为相同图形抽出。即、词典决定部540对合并图形Q”(x)和各文字图像的像素分布P(i,x-vi)进行累计运算。这样,在文字图像组中存在的多个类似的文字图像的图像图形#1及图像图形#2被抽出。
如以上说明那样,第1实施方式的图像处理装置2根据基于相同的文字代码分类的多个文字图像,可以决定类似的多个图像图形。这样,出现频度如果高的话,字体或大小等不同的文字图像也会分别被作为图像图形登录到图像词典内,在解码后的图像中,这些文字图像会被分别再现。
下面,对上述实施方式的第2变形例进行说明。
图13是示例表示被判断为相同的文字代码的多个文字图像的相同形状及差量形状的图。
如图13例示的那样,字体种类不同的数据「1」被文字识别部410判断为相同的文字代码。这样,按文字代码分类的文字图像组,在大部分上具有相同形状。以下,将属于文字图像组的多个文字图像所共同具有的部分图像称为相同形状,将成为各文字图像与该相同形状的差量的部分图像称为差量形状。
如图13(B)例示的那样,在构成这些文字图像的部分形状中,第1级图形由于是这些文字图像的相同形状,所以出现频度特别高。另外,第2级图形a及第2级图形b由于是在各文字图像中固有的部分形状,其出现频度比第1级图形低。
因此,第2变形例的图像处理装置2在按每个文字代码分类的文字图像组中混有形状不同的多个文字图像的情况下,将这些文字图像的相同形状及差量形状分别作为图像图形,分级登录到图像词典中。
图14是第3图像图形决定处理(S44)的流程图。另外,在本图的各处理中,在实质上和图8所示的处理为相同的处理被赋予相同的符号。
如图14所示,在步骤S410中,词典决定部540对阈值处理后的像素分布判断分布数不为0的区域(黑色像素的区域)是否大于基准,在存在大于等于基准的区域的情况下,进入到步骤S442的处理,在小于基准的情况下,不对该文字图像组实施图像图形的登录,结束图像图形决定处理(S44)。
在步骤442(S442)中,词典决定部540在分布概率Q’(x)中,将大于第1级阈值的部分作为相同形状的图像图形(即、第1级图形)抽出。在这里,所谓第1级阈值,是为了将属于文字图像组的文字图像共同具有的相同形状和其他的形状进行分离的基准,在本例中,是在属于文字图像组的几乎所有的文字图像中存在黑色像素的情况下的分布概率(0.95等)。
在步骤444(S444)中,词典决定部540将分布概率Q’(x)中相当于第1级图形的部分设为0,生成除去了相当于第1级图形的部分的分布概率Q1(x)。
接下来,词典决定部540将在该分布概率Q1(x)中大于等于第2级阈值的部分设为1,将小于第2级阈值的部分设为0,生成除去了第1级图形的合并图形Q1”(x)。在这里,所谓第2级阈值,是用于在文字图像组中分离出出现频率高的差量形状的基准,该差量形状作为相同形状的差量而构成各文字图像,该基准被设定得比第1级阈值低,例如根据目标编码量及画面质量来设定。
然后,词典决定部540将该合并图形Q1”和各文字图像的像素分布P(i,x-vi)进行累计运算,抽出作为这些的相同部分的Ri(x),并将所抽出的Ri(x)决定为差量形状的图像图形(即、第2级图形)。
在步骤446(S446)中,词典决定部540将从相同的文字图像组生成的第1级图形及第2级图形相互对应起来,登录到图像词典中。更具体地来讲,词典决定部540将第1级图形及第2级图形根据各个索引分级地对应起来登录到图像词典中。
图15是示意说明第2变形例的图像图形的决定方法的图。
如图15所示,按文字代码分类的文字图像的黑色像素的分布概率Q’(x),表示因像素位置x不同而不同的数值。其中,分布概率最高的部分被认为是属于该文字图像组的文字图像中的相同形状(即、相同形状)。并且,存在分布概率的其他区域被认为是相当于各文字图像和相同形状的差量的形状(即、差量形状)。
因此,词典决定部540具有用于抽出相同形状(分布概率几乎为最大的区域)的第1级阈值、和用于抽出出现频度高的差量形状的第2级阈值。
首先,词典决定部540根据第1级阈值,对分布概率Q’(x)实施阈值处理,抽出相当于第1级图形(相同形状)的部分。然后,从分布概率Q’(x),将相当于被抽出的第1级图形的部分除去,以第2级阈值为基准,通过转换为「1」或「0」,生成第2级合并图形Q1”(x)。
词典决定部540通过将该第2级合并图形Q1”(x)和各文字图像i的像素分布P(i,x)进行累计运算,抽出作为这些的相同部分的第2级图形。在本例中,第2级合并图形Q1”(x)和「文字图像#1」的相同部分,为第2级图形a,第2级合并图形Q1”(x)和「文字图像#2」的相同的部分,为第2级图形b。
这样,「文字图像#1」作为第1级图形和第2级图形a的和,可以置换为各个索引,「文字图像#2」作为第1级图形和第2级图形b的和,可以置换为索引。
图16是第2变形例的编码处理(S64)的流程图。另外,在本图的各处理当中,在实质上和图9所示的处理为相同的处理被附以相同的符号。
如图16所示,在步骤S602中,图形判断部610将根据校正后的位置信息从输入图像中被提取的部分图像(即、文字图像)与登录在图像词典中的第1级图形相比较,计算一致像素数。
在步骤S642(S642)中,图形判断部610判断是否存在与所输入的部分图像相一致的第1级图形。具体来讲,图形判断部610判断对各第1级图形所计算出的一致像素数是否在允许范围(例如,对部分图像的全部像素为90%以上)内,在为允许范围内的情况下,进入到步骤S644的处理,在为允许范围外的情况下,进入到步骤S610的处理。
在步骤S644(S644)中,图形判断部610从图像词典中读出在一致像素数为允许范围内的第1级图形中、一致像素数为最大的第1级图形的索引,并将所读出的索引输出到索引编码部630,将该文字图像的位置信息(被位置校正部550所校正的位置信息)输出到位置信息编码部620。
在步骤S646(S646)中,图形判断部610抽出该第1级图形的形状和所输入的部分图像的差量形状。
在步骤S648(S648)中,图形判断部610从图像词典中读出与该第1级图形相对应的第2级图形,将所读出的第2级图形和所抽出的差量形状相比较,计算出一致像素数。图形判断部610判断对各第2级图形所计算出的一致像素数是否为允许范围(例如,对差量形状的全部像素为90%以上)内,在为允许范围内的情况下,进入到步骤S650的处理,在为允许范围外的情况下,进入到步骤S608的处理。
在步骤S650(S650)中,图形判断部610从图像词典中读出在一致像素数为允许范围内的第2级图形当中、一致像素数为最大的第2级图形的索引,并将所读出的索引与上述第1级图形的索引对应起来,输出到索引编码部630。
另外,在本例中,将与第1级图形及第2级图形中的任何一方都不一致的黑色像素作为噪声等进行除去,但也可以将这些黑色像素另行编码。
如以上说明那样,第2变形例的图像处理装置2,将由相同的文字代码所分类的多个文字图像相互进行比较,抽出相同形状和差量形状,并将所抽出的相同形状和差量形状分级地对应起来,登录到图像词典中。这样,可以实现高压缩率,提高文字图像的再现性。
另外,图像处理装置2通过将相同形状和差量形状进行分级,根据相同形状的编码数据按顺序进行输出,在解码侧可以根据所解码的编码数据的量,实现逐渐改善图像质量的循序传送。
下面,对上述实施方式的第3变形例进行说明。
文字识别部410的文字识别的正确性(准确度),对输入图像所包含的每个文字图像有不同的情况。因此,在根据文字识别结果(文字代码)所分类的文字图像组内,会有混有形状不类似的文字图像的可能。这样,当在文字图像组内混有形状不类似的文字图像时,会发生图像词典所登录的图像图形扭曲等的弊病。
因此,第3变形例的图像处理装置2,按每个文字识别处理的准确度作成图像词典。
图17是示例表示按每个文字识别处理的准确度所作成的图像词典的图。
如图17例示的那样,第3变形例的文字分类部520,从文字识别部410中取得文字识别处理的准确度,根据所取得的准确度,将在输入图像中包含的文字图像进行分类。本例的文字分类部520根据准确度的范围,将文字图像分类为「准确度大于等于90%」的文字图像组、「准确度大于等于70%小于90%」的文字图像组、及「准确度小于70%」的文字图像组。
还有,文字分类部520按照文字代码将各文字图像组进一步进行分类。
一致判断部530对于根据准确度及文字代码分类的文字图像组,将在这些文字图像组中所包含的文字图像相互进行比较,判断一致程度。词典决定部540对根据准确度及文字代码分类的各文字图像组决定图像图形。另外,词典决定部540在对准确度低的文字图像组决定图像图形的情况下,首先,将对准确度高的文字图像组所决定的图像图形、和属于该文字图像组(准确度低的文字图像组)的各文字图像进行比较,判断是否一致,在一致的情况下,将该文字图像从文字图像组中排除。
如以上说明那样,第3变形例的图像处理装置2通过对每个文字识别处理的准确度作成图像词典,可以将因文字识别处理的错误对图像词典的影响抑制在最小限度。
下面,对第2实施方式进行说明。
在上述第1实施方式中,图像词典作成部50是采用一页或一个文件等的全部文字图像来作成图像词典的,但本实施方式的第2图像词典作成部52是逐字地比较文字图像,登录到图像词典中。
图18是说明第2图像词典作成部52的功能构造的图。
如图18所示,第2实施方式的图像词典作成部52,在具有图5所示的第1图像词典作成部50的各构造的基础上,还具有登录控制部570。
登录控制部570判断是否将由文字图像抽出部510所抽出的文字图像作为图像图形登录到图像词典内,控制对图像词典的新的登录。更具体地来讲,登录控制部570根据新输入的文字图像和图像词典所登录的图像图形的一致程度,判断是否将新输入的文字图像作为图像图形输入到图像词典内。例如,登录控制部570在已登录的图像图形和新输入的文字图像的一致程度中任何一方都在基准以下的情况下,指示词典决定部540将该文字图像作为图像图形登录到图像词典内。
图19是表示第2实施方式的编码程序5的第2动作(S2)的流程图。另外,在本流程图中,将文字识别部410(图4)逐字地判断输入图像所包含的文字图像的位置及其文字代码、逐字地提取各文字图像(2值)的情况作为具体例来进行说明。另外,在本图所示的各处理中,在实质上和图7所示的处理相同的处理被附以相同的符号。
如图19所示,在步骤S10中,当从打印机装置10(图3)输入图像数据(2值)时,图像输入部40将所输入的图像数据(输入图像)输出到图像词典作成部50。另外,图像输入部40的文字识别部410(图4)对输入图像进行文字识别处理,逐字地判断输入图像所包含的文字图像的文字代码及位置信息,将所判断的文字代码、位置信息及文字图像(2值)逐字地输出到图像词典作成部50。
在步骤S22(S22)中,图像词典作成部50的存储部500将由图像输入部40逐字地输入的文字图像、文字代码及位置信息存储到存储器204内(图3)。另外,在从图像输入部40不是输入被提取的文字图像、而是输入整个输入图像的情况下,文字图像抽出部510根据逐字地输入的文字代码及位置信息,将文字图像从输入图像中逐字地提取,输出到存储部500。
在步骤S46(S46)中,登录控制部570和一致判断部530及位置校正部550协作动作,判断是否将新输入的文字图像作为图像图形登录到图像词典内。
在步骤S52(S52)中,登录控制部570在判断为将所输入的文字图像作为图像图形登录到图像词典内的情况下,进入到步骤S54的处理,在判断为不将所输入的文字图像作为图像图形进行登录的情况下,进入到步骤S62的处理。另外,将被判断为不进行登录的文字图像的位置信息与和该文字图像最近似的图像图形的索引对应起来,输出到编码部60。
在步骤S54(S54)中,索引赋予部560将索引赋予新输入的文字图像(作为图像图形登录的文字图像),将该文字图像及索引输出到存储部500,将该文字图像的位置信息及索引输出到编码部60。
在步骤S62(S62)中,编码部60将由图像词典作成部52(图18)逐字输入的索引及位置信息进行编码,输出到打印机装置10等。
在步骤S80(S80)中,编码程序5判断对输入图像所包含的全部文字图像的处理是否结束,在判断为已结束的情况下,将图像词典进行编码并输出到打印机装置10等,结束动作(S2),在判断为没有结束的情况下,返回到S22的处理,对下一个文字图像实施处理。
图20为进一步详细说明第2实施方式的图像图形登录判断处理(S46)的流程图。另外,在本图的各处理当中,在实质上和图8所示的处理为相同的处理被赋予相同的号码。
如图20所示,在步骤S462(S462)中,一致判断部530将新输入的文字图像和被作为图像词典存储到存储部500内的图像图形进行比较,判断多个相对位置的一致程度。具体来讲,一致判断部530一边将图像词典所登录的各图像图形和新输入的文字图像相互错开,一边计算黑色像素的一致像素数K。
根据以下的公式来计算一致像素数K。
(一致像素数K)=∑〔S(x)*P(i,x-vi)〕S(x)图像图形的像素分布接下来,一致判断部530将所计算出的一致像素数K规一化,计算出一致像素率K’。
根据以下的公式来计算一致像素率K’。
(一致像素率K’)=K/MM构成文字图像的像素数在步骤404中,位置校正部550根据由一致判断部530在多个相对位置所计算出的一致程度,决定从文字识别部410输入的位置信息的校正矢量。具体来讲,位置校正部550将由一致判断部530计算出的一致像素率K’为最大时的移动矢量vi作为校正矢量。
在步骤S464(S464)中,登录控制部570将由一致判断部530判断出的一致像素率K’和用于决定图像图形的登录/不登录的基准值进行比较,在一致像素率K’为大于等于基准值的情况下,进入到步骤S466的处理,在一致像素率K’小于基准值的情况下,进入到步骤S470的处理。
在步骤S466(S466)中,登录控制部570禁止该文字图像登录到图像词典。还有,登录控制部570从图像词典中读出和该文字图像最近似的图像图形(即、一致像素率K’为最大的图像图形)的索引。
在步骤S467(S467)中,登录控制部570将所读出的索引和该文字图像的位置信息(被位置校正部550校正的位置信息)输出到编码部60。
在步骤S470(S470)中,登录控制部570对词典决定部540发出将新输入的文字图像作为图像图形登录到图像词典中的指示。
词典决定部540将所输入的文字图像(被位置校正部550实施了位置校正的文字图像)作为图像图形登录到存储部500(图像图形存储单元)。
如以上说明那样,第2实施方式的图像处理装置2,根据文字图像的位置信息,将文字图像逐字地提取,判断是否将被提取的文字图像逐字地登录到图像词典内,根据判断结果来进行编码。这样,可以依次进行编码处理。
下面,对第2实施方式的变形例进行说明。
图像词典作成部52将被作为图像图形登录到图像词典内的文字图像与文字代码对应起来进行存储,优先对新输入的文字图像和文字代码一致的图像图形进行比较,判断一致程度。例如,词典决定部540在将文字图像作为图像图形登录到图像词典内的情况下,将该文字图像的文字代码与图像图形对应起来进行登录。一致判断部530从图像词典中只读出与新输入的文字图像的文字代码一致的图像图形,将读出的图像图形与输入的文字图像进行比较,计算出一致像素率K’。登录控制部570只根据文字代码为一致的图像图形和输入的文字图像的一致像素率K’,来判断是否将输入的文字图像作为图像图形登录到图像词典内。
这样,图像词典作成部52可以减少一致程度的判断处理的次数。
另外,图像词典作成部52也可以根据所输入的文字图像的文字代码,对所判断的一致程度进行加权。另外,图像词典作成部52也可以根据文字识别部410的文字识别处理的准确度,对所判断的一致程度进行加权。
图21(A)是示例表示基于文字代码的加权处理的加权系数的图,图21(B)是示例表示基于文字识别处理的准确度的加权处理的加权系数的图。
如图21(A)例示的那样,登录控制部570(加权单元)根据所输入的文字图像的文字代码和图像图形的文字代码是否一致,具有不同的加权系数,对由一致判断部530所判断的一致程度(例如一致像素率K’)进行加权。更具体地来讲,登录控制部570在所输入的文字图像的文字代码和图像图形的文字代码相一致的情况下,将一致像素率K’加权为大于这些文字代码不相一致的情况。即、图像词典作成部52在文字代码一致的情况下,由于推断为文字图像作为文字和图像图形相同,因而判断为即使作为图像也是一致或近似的,来加大一致程度。
另外,根据文字代码的加权处理,并不限定于文字代码为一致/不一致,例如也可以设定与特定的文字代码的组合(如数字「1」和字母「I」那样形状类似的组合等)相对应的加权系数,根据文字代码的组合来实施加权,也可以设定根据可读性的要求的加权系数(例如,依据汉字的文字代码和平假名的文字代码而不同的加权)来实施加权。
另外,如图21(B)例示的那样,登录控制部570(加权单元)根据所输入的文字图像的文字识别处理的准确度,具有不同的加权系数,对一致判断部530所判断的一致程度(例如一致像素率K’)进行加权。更具体地来讲,如果文字识别处理的准确度越高,则登录控制部570将一致像素率K’加权越大。即、由于在文字识别处理的准确度低的情况下,也有文字图像的提取位置不正确的情况,因而,图像词典作成部52提高判断和图像图形一致或近似的基准来进行加权。另外,登录控制部570在以实施基于文字代码为一致/不一致的加权处理为前提的情况下,最好根据文字识别处理的准确度来进行加权。
图22是说明本变形例的图像词典作成部52的动作(S48)的流程图。另外,在本图的各处理中,在实质上和图20所示的处理为相同的处理被附以相同的符号。
如图22所示,在步骤S462及步骤S404中,一致判断部530一边将图像词典所登录的各图像图形和新输入的文字图像相互错开一边计算黑色像素的一致像素率K’,位置校正部550根据一致判断部530所计算出的一致像素率K’,计算校正矢量。
在步骤S482(S482)中,登录控制部570根据文字代码是否一致,将加权系数与对各图像图形所计算出的一致像素率K’相乘。
还有,登录控制部570从文字识别部410中取得对该文字图像的文字识别处理的准确度,根据所取得的文字识别处理的准确度,将加权系数与一致像素率K’相乘。
在步骤S464中,登录控制部570将根据文字代码的一致/不一致、及文字识别处理的准确度被实施了加权的一致像素率K’和基准值进行比较,判断是否将该文字图像作为图像图形登录到图像词典内。
这样,图像词典作成部52根据文字代码的一致/不一致、及文字识别处理的准确度,通过对所判断的一致程度进行加权,可以将更适当的图像图形登录到图像词典内。
权利要求
1.一种图像词典作成装置,具有信息取得单元,取得对输入图像进行的文字识别处理的处理结果;文字分类单元,根据由所述信息取得单元所取得的文字识别处理的结果,将在输入图像中所包含的文字图像分类为多个文字图像组;类型决定单元,根据被所述文字分类单元分类到各文字图像组内的文字图像,决定构成输入图像的类似的图像图形;识别信息赋予单元,将识别各图像图形的识别信息赋予由所述类型决定单元所决定的图像图形。
2.根据权利要求1所述的图像词典作成装置,所述信息取得单元取得作为文字识别处理的结果的用于识别各个文字图像所表示的文字的文字识别信息,所述文字分类单元根据所述信息取得单元所取得的文字识别信息,将在输入图像中所包含的文字图像分类为多个文字图像组。
3.根据权利要求2所述的图像词典作成装置,在文字识别信息内包含文字代码,所述文字分类单元按照每个文字代码对在输入图像中所包含的文字图像进行分类,所述类型决定单元根据被分类为同一文字代码的文字图像,决定与这些文字图像相对应的图像图形。
4.根据权利要求1所述的图像词典作成装置,所述信息取得单元进一步包括文字图像抽出单元,该文字图像抽出单元取得表示输入图像中的各个文字图像的区域的文字区域信息,根据所述信息取得单元所取得的文字区域信息,从输入图像中抽出文字图像,所述文字分类单元将所述文字图像抽出单元所抽出的文字图像分类为多个文字图像组,所述类型决定单元通过对由所述文字图像抽出单元抽出的文字图像进行相互比较来决定图像图形。
5.根据权利要求4所述的图像词典作成装置,还具有一致判断单元,将由所述文字图像抽出单元所抽出的多个文字图像在多个相对位置进行相互比较,判断文字图像的一致程度;区域校正单元,根据由所述一致判断单元在各个相对位置判断出的一致程度,校正各文字图像的文字区域信息;和输出单元,与各图像图形的识别信息对应起来,输出与各图像图形相对应的各个文字图像的文字区域信息。
6.根据权利要求1至4中任意一项所述的图像词典作成装置,还具有将由所述文字分类单元分类到各文字图像组内的多个文字图像进行相互比较,判断文字图像的一致程度的一致判断单元,所述类型决定单元根据所述一致判断单元所判断出的一致程度,对被分类到同一文字图像组内的多个文字图像决定一个或一个以上的图像图形,所述识别信息赋予单元,将识别各个图像图形的识别信息,赋予由所述类型决定单元对同一文字图像组所决定的一个或一个以上的图像图形。
7.根据权利要求1至4中任意一项所述的图像词典作成装置,还具有将由所述文字分类单元分类到各个文字图像组内的多个文字图像进行相互比较,判断出在文字图像中所包含的每个区域的一致程度的一致判断单元,所述类型决定单元根据所述一致判断单元对每个区域所判断的一致程度,决定构成文字图像的多个图像图形。
8.根据权利要求1至7中的任意一项所述的图像词典作成装置,所述信息取得单元,将文字识别处理的识别准确度信息与各个文字识别信息或文字区域信息相互对应,并取得该识别准确度信息,所述文字分类单元,根据识别准确度信息和与其相对应的文字识别信息或文字区域信息,将在输入图像中所包含的文字图像分类为多个文字图像组。
9.一种图像词典作成装置,具有图形存储单元,存储构成输入图像的类似的图像图形;一致判断单元,将新输入的文字图像与被存储在所述图形存储单元中的图像图形进行比较,判断一致程度;类型决定单元,根据所述一致判断单元所判断的一致判断程度,将该新输入的文字图像作为图像图形存储到所述图形存储单元内。
10.根据权利要求9所述的图像词典作成装置,所述图形存储单元进一步包括加权单元,该加权单元对应各个图像图形,存储这些图像图形所表示的文字的识别信息,并且根据输入的文字图像所表示的文字的识别信息和存储在所述图形存储单元中的图像图形的识别信息,对由所述一致程度判断单元对各个图像图形所判断出的一致程度进行加权,所述类型决定单元根据所述加权单元所加权后的一致程度,决定是否许可登录基于该输入的文字图像的图像图形。
11.根据权利要求10所述的图像词典作成装置,文字的识别信息是文字代码,所述加权单元在所输入的文字图像的文字代码与任何一个图像图形的文字代码相一致的情况下,进行使一致程度比在文字代码不一致的情况下高的加权,所述类型决定单元在一致程度高于基准的情况下,禁止登录基于该文字图像的图像图形,在一致程度低于基准的情况下,许可登录该文字图像的图像图形。
12.根据权利要求11所述的图像词典作成装置,通过对输入图像进行文字识别处理来判断出文字代码,所述加权单元根据对输入的文字图像进行的文字识别处理的识别准确度,进行识别准确度越高,一致程度就越高的加权。
13.一种图像词典作成装置,具有信息取得单元,取得在输入图像中所包含的文字图像和识别该文字图像所表示的文字的文字识别信息;文字分类单元,根据所述信息取得单元所取得的文字识别信息,将输入图像中所包含的文字图像分类为多个文字图像组;类型决定单元,根据由所述文字分类单元分类到各个文字图像组内的文字图像,决定构成输入图像的类似的图像图形;和识别信息赋予单元,将用于识别各个图像图形的识别信息赋予由所述类型决定单元所决定的图像图形。
14.一种图像词典作成装置,具有信息取得单元,取得表示输入图像中的各个文字图像的区域的文字区域信息;文字图像抽出单元,根据所述信息取得单元取得的文字区域信息,从输入图像中抽出文字图像;类型决定单元,根据所述文字图像抽出单元所抽出的文字图像,决定构成输入图像的类似的图像图形;识别信息赋予单元,将用于识别各个图像图形的识别信息赋予由所述类型决定单元所决定的图像图形。
15.一种编码装置,具有信息取得单元,取得输入图像中所包含的文字图像和用于识别该文字图像所表示的文字的文字识别信息;文字分类单元,根据所述取得单元所取得的文字识别信息,将输入图像中所包含的文字图像分类为多个文字图像组;类型决定单元,根据由所述文字分类单元分类到各个文字图像组内的文字图像,决定构成输入图像的类似的图像图形;识别信息赋予单元,将用于识别各个图像图形的识别信息赋予由所述类型决定单元所决定的图像图形;编码单元,将表示输入图像中所包含的文字图像的区域的文字区域信息和与该文字图像相对应的图像图形的识别信息相互对应起来进行编码。
16.一种编码装置,具有信息取得单元,取得表示输入图像中的各个文字图像的区域的文字区域信息;文字图像抽出单元,根据所述信息取得单元所取得的文字区域信息,从输入图像中抽出文字图像;文字分类单元,将由所述文字图像抽出单元所抽出的文字图像分类为多个文字图像组;类型决定单元,根据由所述文字分类单元分类到各文字图像组内的文字图像,决定构成输入图像的类似的图像图形;识别信息赋予单元,将用于识别各图像图形的识别信息赋予由所述类型决定单元所决定的图像图形;一致判断单元,将由所述文字分类单元分类到各文字图像组内的多个文字图像在多个相对位置进行相互比较,判断文字图像的一致程度;区域校正单元,根据由所述一致判断单元在各个相对位置所判断的一致程度,校正各个文字图像的文字区域信息;和编码单元,至少将由所述区域校正单元所校正的各文字图像的文字区域信息、和根据该文字图像类属的文字图像组所决定的图像图形的识别信息进行编码。
17.一种图像词典作成方法,取得输入图像中所包含的文字图像、和识别该文字图像所表示的文字的文字识别信息,根据所取得的文字识别信息,将输入图像中所包含的文字图像分类为多个文字图像组,根据被分类到各个文字图像组的文字图像,决定构成输入图像的类似的图像图形,将识别各个图像图形的识别信息赋予所决定的图像图形。
全文摘要
本发明提供一种编码装置,能够作成实现高编码效率的图像词典,并采用该图像词典进行编码。图像处理装置(2)取得输入图像中所包含的文字图像和用于识别该文字图像所表示的文字的文字代码,根据所取得的文字代码,将输入图像中所包含的文字图像分类为多个文字图像组,根据被分类到各文字图像组内的文字图像,决定构成输入图像的类似的图像图形,将用于识别各个图像图形的索引赋予所决定的图像图形,将输入图像中所包含的文字图像的出现位置信息、和与该文字图像相对应的图像图形的索引相互对应起来进行编码。
文档编号H04N1/41GK1684492SQ20051005387
公开日2005年10月19日 申请日期2005年3月14日 优先权日2004年4月12日
发明者木村俊一, 越裕 申请人:富士施乐株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1