信息处理装置、信息处理方法、存储介质及程序的制作方法

文档序号:6400631阅读:147来源:国知局
专利名称:信息处理装置、信息处理方法、存储介质及程序的制作方法
技术领域
本发明涉及从数据库检索与扫描仪等输入装置所读取的图像类似的图像数据的图像检索技术。
背景技术
近年,办公室的无纸化迅速得到普及,不仅是在PC上形成的文档,连以前用文件夹等保存的过去的纸文档也通过扫描仪变换为图像数据等电子文档,并存储在数据库上。
另一方面,在会议时散发资料等时依然希望采用纸文档,将存储在数据库中的电子文档打印成纸文档后传递给用户手中的机会也很多。
在此,收到了纸文档的用户希望电子保管、发送该文档,或提取内容后再利用时,如果代替采用再次电子化该纸文档的数据,而可以从数据库中取得并利用源数据,可以消除因经纸文档带来的信息损失,提高便利性。
为了满足这样的要求,如专利第3017851号公报,提出了可以用扫描仪读取纸文档,并从数据库检索与该内容类似的数据的系统。
本申请人为了进一步提高检索精度,考虑将读取的文档(输入图像)采用区域识别技术(区域识别技术可以采用公知的。例如美国专利第5680478号说明书记载的技术等)分为文字信息和非文字信息(照片和图像等),采用对应各特性的类似度计算处理。
具体说来,利用区域识别处理,从读取的文档的页面图像和登记文档的页面图像分别抽出文字区域和照片区域,对于文字区域取得利用进行了文字识别处理的文字串的特征而求出的类似度,对于照片区域取得采用颜色、边缘等图像特征量的类似度。
特别是,包含在文档页中的照片和图画等由于较大程度上表示该页的特征,所以可以期待像这样高精度地求出照片和图画的类似度对于提高检索系统的性能有很大贡献。
另一方面,在这样的检索系统中,在采用图像特征量求出输入图像和登记图像的类似度时,两方图像必须是同一朝向,若朝向不同则不能期待得到高的检索精度。
但是,在用扫描仪等读取纸文档时,取得的输入图像的朝向可以根据纸放置在原稿台上的方向而朝4个方向变化。为了避免有关的问题,对用户强制正确的纸的放置方向会影响系统的便利性。另外,根据纸的大小,因原稿台和自动原稿递送装置的结构,有时不能在所希望的方向扫描。
对此,虽然提出了通过在计算出图像特征量的类似度时,考虑图像的朝向不同,准备对输入侧的图像旋转0度、90度、180度、270度的4种图像,或在进行特征量的系数变换后生成4种特征量的基础上求出类似度,采用类似度最大的图像,来避免图像的朝向问题的方法,但无论采用哪个方法,求出类似度的处理一般都要进行4次,通常处理时间耗费4倍,具有处理时间增加的问题。

发明内容
本发明是鉴于上述问题而提出的,其目的在于提供一种求出输入图像和登记图像的类似度,在检索与输入图像类似的登记图像时,与输入图像的朝向无关地在短时间内高精度地检索登记图像的技术。
为了达到上述目的,本发明的信息处理装置具有以下结构。即是一种从登记的图像数据中检索与输入的输入图像数据的类似度高的图像数据的信息处理装置,其特征在于包括区域识别单元,识别上述输入图像数据的文字区域和非文字区域;方向识别单元,识别上述所识别的文字区域内的文字,并基于该识别文字的朝向来识别上述输入图像数据的朝向;旋转单元,基于上述识别的朝向将上述识别的输入图像数据旋转到规定方向;检索单元,从上述登记的图像数据中检索与上述旋转后的输入图像数据的类似度高的图像数据。
根据本发明,求出输入图像与登记图像的类似度,在检索与输入图像类似的登记图像时,可以与输入图像的朝向无关地在短时间内高精度地检索登记图像。
通过根据附图进行的说明可以更清楚本发明的其他特征和优点,其中,对相似或相同的部分附上同一标号。


根据构成本说明书的一部分的附图,具体说明本发明的实施例,以便解释本发明。
图1是表示实现本发明的信息处理方法的图像处理系统的结构的图。
图2是表示MFP的具体内容的图。
图3是表示实现本发明的信息处理方法的图像处理系统中的处理(登记处理)的流程图。
图4是表示实现本发明的信息处理方法的图像处理系统结构中的处理(检索处理)的流程图。
图5是表示对页面图像进行区域分割处理的一例的图。
具体实施例方式
下面根据附图具体说明本发明的优选实施例。
图1是表示实现本发明的信息处理方法的图像处理系统的结构的图。如该图所示,本实施例中构筑了在用因特网104连接办公室10和办公室20的环境下实现本发明的信息处理方法的图像处理系统。
在办公室10内构筑的LAN11分别连接有MFP100、控制MFP100的管理PC101、文档管理服务器106及其数据库105、代理服务器12。同样,在办公室20内构筑的LAN21内连接有用户PC107和代理服务器22。另外,办公室10内的LAN11和办公室20内的LAN21经代理服务器12、22连接到因特网104。
具有相关结构的图像处理系统没有特别限定存储作为检索对象的登记图像的场所。可以存储在MFP100内的存储装置(后述)中,也可以存储在管理PC101内的硬盘(未图示)中,还可以存储在文档管理服务器106的数据库(105)中。但是,为了可以检索该存储的登记图像,存储场所成为可经LAN11或22从外部进行访问的状态。
另外,本发明的信息处理方法(检索功能)可以在图1所示的图像处理系统内的任一装置上实现。例如,可以是MFP100内的数据处理装置(后述)具有该检索功能,也可以是管理PC101具有检索功能,还可以是文档管理服务器106具有检索功能。
MFP100承担纸文档的图像读取处理和对读取的图像信号进行图像处理的一部分,采用LAN13将图像信号输入给管理PC101。管理PC是一般的PC,在内部具有图像存储单元、图像处理单元、显示单元、输入单元,但其中一部分与MFP100一体构成。
图2是MFP100的结构图。图2中,利用包含文档自动传递器(以后,记为ADF)的图像读取部210,用未图示的光源照射堆叠状或1张纸文档(原稿),用透镜将原稿反射像成像在固体摄像元件上,从固体摄像元件取得线栅状的图像信号作为600DPI密度的图像信息。
在通常的复印处理时,用数据处理装置215将该图像信号变换为记录信号,在需要复印多页时,在存储装置211暂时存储一页部分的记录数据之后,利用记录装置212依次输出并在纸上形成图像。另外,在进行发送处理时,将上述图像信息变换为TIFF或JPEG等压缩图像文件格式、或PDF等网络文件格式,并从网络IF214输出。输出的文件经图1中的LAN11发送给文档管理服务器106,再进一步经由因特网104发送给另一用户PC107。另外,在进行打印处理时,经由网络IF214接收从用户PC107发送的打印数据等,并可由数据处理装置215变换为可记录的线栅数据之后,利用记录装置212作为记录图像形成在纸上。对MFP100的操作者的指示通过MFP100上安装的键操作部、和具有向管理PC进行输入的键盘和鼠标的输入装置213进行,这些一系列动作由数据处理装置215内的未图示的控制部控制。另一方面,在显示装置216进行操作输入的状态显示和处理中的图像显示。另外,存储装置211还被管理PC101控制,采用网络IF217和直接连接的LAN13进行这些MFP100和管理PC101的数据收发和控制。
下面,说明图1所示的图像处理系统中的、包含本发明的信息处理方法的处理的整个处理。另外,为了简化说明,以后假设在管理PC内的硬盘(未图示)构筑具有登记图像的数据库,另外,假设本发明的信息处理方法是通过使管理PC101和MFP100一体工作来实现。
本实施例中进行的处理分为2个处理,即登记处理和检索处理。登记处理中对登记图像进行检索所需的特征量的抽出处理、和进行将这些特征量与数据相关联地保存到数据库105中的处理。以下,采用图3依次进行说明。
首先,利用登记对象为纸文档还是由PC软件等生成的电子文档来进行分支处理(步骤S301)。
在登记对象为纸文档时,进入步骤S302,采用MFP100的图像读取部,将纸文档变换为页面图像。
接着,在步骤S303对页面图像进行区域分割处理,抽出文字区域、和具有照片、图画的非文字区域。具体说来,取得各区域的外接矩形坐标。在此,区域分割处理是将文档的页面图像分割为持有文档特性的对象的处理,图5示出其情况(其中(A)所示的图像中,通过区域分割处理识别为文字区域的区域表示为(B)中的“TEXT”。另外,(B)中的“TABLE”、“PHOTO”、“PICTURE”表示识别为非文字区域的区域)。另外,由于有关区域分割处理的处理方法在美国专利第5680478号说明书为例的各种公知文献中公开,所以在此不作说明。
接着,在步骤S304判断为从页面图像中抽出了文字区域时,进入步骤S305。在没有抽出文字区域时,原样进入步骤S308。在步骤S305进行识别页面图像的原始上下方向的处理。
简单说明步骤S305的识别上下方向的处理。首先,通过从文字区域内选择并剪切多个文字来取得文字图像,再对将各文字图像朝0、90、180、270度方向旋转后的图像,在各方向进行文字识别处理。另外,该文字识别处理是公知处理,作为一例可以举出从文字图像中取出边缘分量等后将其特征矢量化,求出与预先登记有字符种类的词典内的特征矢量的类似度,将类似度最高的字符作为识别结果的处理。再将多个字符部分在各4方向累积的该类似度作为各方向的得分,将最终得分最高的方向判断为原始方向。
在步骤S306中当步骤S305求出的方向为0度以外时,进入步骤S307,对页面图像进行将其校正到正放置方向的旋转处理。同时,对在步骤S303抽出的区域的矩形坐标也进行旋转变换。另外,为了使区域分割的精度更高,也可以代替旋转区域的矩形坐标,而丢弃该区域,对已被旋转的页面图像再次进行区域分割,得到新的区域。
在步骤S308将页面图像中的非文字区域分别作为1个非文字图像信息,抽出用于以后检索的特征量。对图像的特征量抽出采用公知的处理方法,在此不作具体说明,但作为一例可以举出网格分割图像,将各区域的平均色作为元素进行矢量化的方式。
在步骤S309对页面图像中的所有文字区域内进行文字识别后作为文字代码串,将它们作为登记图像的文字特征量。对于文字识别采用与上述同样的公知技术。
另一方面,在步骤S301判断为输入为纸文档以外时,在步骤S311判断是否可以直接从电子文档中抽出非文字部分的图像对象或文本部分的文字串对象。作为可以抽出的例子可以举出从用HTML记述的数据中分析内部文本并抽出图像或文本的场合。另一方面,由于是否可以从字处理软件等应用程序数据中抽出对象在很大程度上依赖于各应用程序,所以在此不能具体说明,但在存在图像抽出用的程序等时,认为可以抽出。
在判断为可以抽出对象时,进入步骤S312进行对象的抽出。接着,进入步骤S308从文字对象中抽出文字特征量,在步骤S309将图像对象作为非文字区域抽出图像特征量。
在判断为不能抽出对象时,进入步骤S313,从电子文档变换为页面图像。该处理例如作为MFP100的打印功能,可以通过利用在数据处理装置215内进行的处理的一部分,即从电子文档变换为可纸面记录的线栅数据的处理来进行。或者,在电子文档由特定应用程序生成时,且应用程序自身或附加软件持有电子文档的线栅数据化功能时,也可以利用它们。以后,对从该电子文档变换的页面图像,与扫描图像同样进行步骤S303~步骤S310。
最后,在步骤S310将以登记图像、文字特征量、图像特征量3个为一组的数据作为有关登记数据的信息登记到数据库105。在此,原数据在扫描了纸文档时是指该页面图像,或者在登记对象为原电子文档时是指该数据本身。
在检索处理中,从扫描了作为检索密钥的纸文档的页面图像中抽出作为检索密钥的特征量,与数据库105内的特征组相比较后,将类似度最高的数据作为结果输出,或作为用户的所希望的处理,例如发送、打印、保存等处理的对象。以下,采用图4依次进行说明。
首先,在步骤S401利用MFP100的图像读取部,将作为检索密钥的纸文档变换为页面图像。
接着,在步骤S402对页面图像进行区域分割处理,抽出文字区域、和具有照片、图画的非文字区域。该处理内容与图3中的步骤S303相同。
在步骤S403利用从页面图像取得的文字·非文字区域的个数进行分支处理。
在发现了文字区域和非文字区域双方时,进入步骤S404。另外,在发现了非文字区域而没有发现文字区域时进入步骤S410。另外,只发现了文字区域而没有发现非文字区域时进入步骤S412。另外,在没有发现任一区域时,作为不能进行检索而结束处理。
在发现了文字区域和非文字区域双方时,在步骤S404利用发现的文字区域来识别页面图像的原始上下方向。
在步骤S405中,当识别出上下方向为0度以外时,进入步骤S406,进行将页面图像和矩形坐标校正为正放置方向的旋转处理。也可以不对整个页面图像进行旋转,而只对各区域的矩形坐标内部的图像进行旋转。
在步骤S407求出非文字区域图像的特征量并作为检索密钥数据的图像特征量。在步骤S408将在文字区域内进行文字识别后得到的文字串作为检索密钥数据的文字特征量。
在步骤S409在检索密钥数据的各特征量和登记到数据库105的多个数据的特征量之间逐个进行匹配,将类似度高的数据作为检索候补。
在计算有关各特征量的类似度时采用各种公知方法即可。作为一例,在图像特征量的场合下,可以采用对特征矢量间的距离的远近、以及页面内的图像个数的相关性进行数值化后得到的类似度的方法等。在文字特征量的场合下,采用从检索密钥数据内的整个文字串中,利用其名词分析和出现频率选择几个成为密钥字的单词,将这些单词出现在登记数据侧的个数作为类似度的方法等。
另外,为了根据这2个特征量来确定总类似度,将采用图像特征量的类似度设为N、将采用文字特征量的类似度设为M,确定适当的系数(a、b)后计算出a×N+b×M即可。对于系数(a、b)的值可以采用固定值,或随原稿内的文字和图像的分配而变化,或可以是用户任意确定其分配。
在分支步骤S403,当只发现了非文字区域时进入步骤S410,从向0、90、180、270度4个方向旋转后的图像中分别抽出非文字区域的图像特征量。或者也可以仅执行一次从图像中抽出特征量,对该特征量进行适当的变换后,通过计算求出与从旋转90、180、270度的图像中取得的特征量相同的特征量。
在步骤S411在检索密钥数据的图像特征量和登记到数据库105的多个数据的图像特征量之间逐个进行匹配。此时,求出上述4个方向的特征量之间的4个类似度,采用类似度最高的值。对于图像特征量的类似度计算方法与步骤S409相同。然后,将进行了匹配的数据中的类似度最高的数据作为检索候补。
在分支步骤S403,当只发现了文字区域时进入步骤S412,识别页面图像的原始上下方向。在步骤S413,在识别出上述上下方向为0度以外时进入步骤S414,进行将页面图像和矩形坐标校正成正放置方向的旋转处理。也可以不旋转整个页面图像,而只旋转各文字区域的矩形坐标内部的图像。
在步骤S415在检索密钥数据的文字特征量和登记到数据库105的多个数据的文字特征量之间逐个进行匹配,将类似度高的数据作为检索候补输出。对于文字特征量的类似度计算方法与步骤S409相同。
在步骤S417显示检索结果。也可以只显示类似度最高的数据,也可以作为候补显示具有规定阈值以上的类似度的数据,并委托用户进行最终的选择。
在步骤S418对检索结果、即原数据进行发送、打印等用户所希望的操作。
从以上说明可知,根据本实施例,从登记纸文档和电子文档的数据库105中检索与通过扫描已打印的文档而取得的输入图像类似的数据时,用户无须考虑扫描纸文档时的原稿放置方向,自动进行考虑了方向的类似度计算,只要是至少包含文字的文档,就可以防止与图像特征量的类似度计算有关的处理时间增加,提高作为检索系统的便利性。
另外,本发明可以适用于由多个设备(例如主机、接口设备、读取器、打印机等)构成的系统,也可以适用于由1个设备构成的装置(例如复写机、传真机等)。
另外,本发明的目的在于将存储有实现上述实施例的功能的软件的程序代码的存储介质提供给系统或装置,当然通过该系统或装置的计算机(或CPU、MPU)读取并执行存储介质上存储的程序代码也可以达成。
在此,从存储介质读取的程序代码本身实现上述实施例的功能,存储了该程序代码的存储介质构成本发明。
作为用于提供程序代码的存储介质例如可以采用软(登记商标)盘、硬盘、光盘、磁光盘、CD-ROM、CD-R、磁带、非易失性存储卡、ROM等。
另外,通过执行计算机读取的程序代码,不仅包含实现上述实施例的功能,还包含基于该程序代码的指示,在计算机上运行的OS(操作系统)等进行实际处理的一部分或全部,利用该处理实现上述实施例的功能的场合。
另外,当然还包含从存储介质读取的程序代码写入计算机上插入的功能扩展板或计算机上连接的功能扩展单元具有的存储器之后,基于该程序代码的指示,该功能扩展板或功能扩展单元具有的CPU等进行实际处理的一部分或全部,通过该处理实现上述实施例的功能的场合。
本发明不限于上述实施例,在本发明的精神范围内可以进行各种变更和修改。因此,本发明的公开范围是以下的权利要求所述的。
权利要求
1.一种从登记的图像数据中检索与输入的输入图像数据的类似度高的图像数据的信息处理装置,其特征在于包括区域识别单元,识别上述输入图像数据的文字区域和非文字区域;方向识别单元,识别上述所识别的文字区域内的文字,并基于该识别文字的朝向来识别上述输入图像数据的朝向;旋转单元,基于上述识别的朝向将上述识别的输入图像数据旋转到规定方向;检索单元,从上述登记的图像数据中检索与上述旋转后的输入图像数据的类似度高的图像数据。
2.如权利要求1所述的信息处理装置,其特征在于上述区域识别单元识别出上述输入图像数据包含文字区域和非文字区域两者时,上述检索单元基于该文字区域和该非文字区域双方的特征量,来计算类似度。
3.如权利要求1所述的信息处理装置,其特征在于上述区域识别单元识别出上述输入图像数据不包含非文字区域时,上述检索单元基于文字区域的特征量,计算出类似度。
4.如权利要求1所述的信息处理装置,其特征在于上述区域识别单元识别出上述输入图像数据不包含文字区域时,上述检索单元在多个方向求出非文字区域的特征量,基于该多个方向的特征量,计算出类似度。
5.如权利要求4所述的信息处理装置,其特征在于上述多个方向是指在将上述输入图像数据的方向设为0度时,按0度、90度、180度、270度旋转的方向。
6.如权利要求1所述的信息处理装置,其特征在于上述登记的图像数据在上述区域识别单元识别出文字区域和非文字区域、上述方向识别单元基于该文字区域内的文字识别出方向、且通过上述旋转单元旋转到规定方向的状态下被登记。
7.一种从登记的图像数据中检索与输入的输入图像数据的类似度高的图像数据的信息处理方法,其特征在于包括识别上述输入图像数据的文字区域和非文字区域的区域识别步骤;识别上述所识别的文字区域内的文字,并基于该识别文字的朝向来识别上述输入图像数据的朝向的方向识别步骤;基于上述识别的朝向,将上述识别的输入图像数据旋转到规定方向的旋转步骤;从上述登记的图像数据中检索与上述旋转后的输入图像数据的类似度高的图像数据的检索步骤。
8.如权利要求7所述的信息处理方法,其特征在于上述区域识别步骤识别出上述输入图像数据包含文字区域和非文字区域双方时,上述检索步骤基于该文字区域和该非文字区域双方的特征量,计算出类似度。
9.如权利要求7所述的信息处理方法,其特征在于上述区域识别步骤识别出上述输入图像数据不包含非文字区域时,上述检索步骤基于文字区域的特征量,计算出类似度。
10.如权利要求7所述的信息处理方法,其特征在于上述区域识别步骤识别出上述输入图像数据不包含文字区域时,上述检索步骤在多个方向求出非文字区域的特征量,基于该多个方向的特征量,计算出类似度。
11.如权利要求10所述的信息处理方法,其特征在于上述多个方向是指在将上述输入图像数据的方向设为0度时,按0度、90度、180度、270度旋转的方向。
12.如权利要求7所述的信息处理方法,其特征在于上述登记的图像数据在上述区域识别步骤识别出文字区域和非文字区域、上述方向识别步骤基于该文字区域内的文字识别出方向、且通过上述旋转步骤旋转到规定方向的状态下被登记。
13.一种存储有利用计算机实现权利要求7至12的任一项所述的信息处理方法的控制程序的存储媒体。
14.一种利用计算机实现权利要求7至12的任一项所述的信息处理方法的控制程序。
全文摘要
本发明提供一种信息处理装置、信息处理方法、存储介质及程序。在检索与输入图像类似的登记图像时,可以与输入图像的方向无关地在短时间内高精度地检索。一种从登记图像数据中检索与输入图像数据的类似度高的图像数据的信息处理方法,具有识别上述输入图像数据的文字区域和非文字区域的区域识别步骤(步骤S402);识别上述识别的文字区域内的文字,基于该识别的文字朝向识别上述输入图像数据的朝向的方向识别步骤(步骤S404);将上述识别的输入图像数据基于上述识别的朝向朝规定方向旋转的旋转步骤(步骤S406);从上述登记的图像数据中检索与上述旋转后的输入图像数据的类似度高的图像数据的检索步骤(步骤S409)。
文档编号G06T7/40GK1542656SQ200410038690
公开日2004年11月3日 申请日期2004年4月27日 优先权日2003年4月30日
发明者金津知俊 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1