图像处理设备与图像处理方法

文档序号：6608604阅读：158来源：国知局

专利名称：图像处理设备与图像处理方法
技术领域：
本发明涉及一种具有考虑图像文档的布局特征的相似图像搜索功能的图像处理设备、以及用于此类图像处理设备的图像处理方法，具体地，本发明涉及一种适合于多功能外设、文件服务器、或者图像处理程序的技术。
背景技术：
众所周知，利用扫描仪或者其他输入设备，可以将在纸张上打印的文档转换为数字数据。例如，在相关技术中，用于电子归档(filing)的设备可以用于此目的；但是所述电子归档设备专用于处理大量纸质文档的工业目的。
近年来，随着扫描仪价格的下降、多功能外设(MFP)用途的扩展、以及电子文档的规则制定(rulemaking)的进步，即使在一般办公室中，电子归档技术也被广泛接受，这是由于其良好的处理性能(handing performance)以及便利性，并且人们越来越频繁地使用电子归档技术来将纸质文档转换为电子数据。另外，人们越来越频繁地以数据库(图像数据库)的形式存储图像文档的电子数据，以供管理。例如，即使当必须存储原始纸质文档时，为了容易管理的目的，人们一般还要构造数据库。
在图像文档数据库中，存在在服务器设备中提供的、供许多用户访问的大规模数据库，也有在个人计算机中构造的、用于个人用途的小规模数据库。最近的多功能外设具有在内置硬盘驱动器(HDD)中存储文档的功能，由此，可以在多功能外设中构造图像文档数据库。
某些图像文档数据库具有搜索功能，其允许用户从大量图像文档中找到所希望的图像文档。例如，在当前，人们频繁使用的搜索技术涉及通过利用由光学字符读取卡(OCR)处理给出的字符识别结果作为关键词来搜索整个文本，或者涉及概念搜索。
但是，上述搜索技术是基于文本的，并且具有以下问题(1)搜索的准确度依赖于OCR的准确度；(2)必须使用关键词来进行搜索；(3)当具有大量命中(即候选)时，不容易缩窄命中的范围。
对于问题(1)，因为目前不保证OCR识别的字符百分之百正确，所以如果输入的搜索关键词(其由OCR获得)由于OCR的误识别而包含不正确的字符，则不能找到所希望的图像文档。
对于问题(2)，在基于文本的搜索中，必须使用关键词。当用户知道适当的关键词时，没有任何不方便，但是例如当要搜索对于用户而言完全未知的目标时，诸如因特网上的某类站点，或者当要搜索几年前创建的文档时，如果用户忘记了适当的关键词，若用户不能想到好的关键词，则他不能适当地执行搜索。
另外，文档只具有图片或者图形，但是没有文本，则利用关键词的搜索当然就没用了。
对于问题(3)，在基于文本的搜索中，难于对关键词进行分级，并且满足关键词的候选被平等地对待。因此，当有大量命中(候选)时，必须逐一确认大量的命中图像文档，而这是很麻烦的。
在搜索图像文档的方法中，存在涉及搜索相似图像的方法、以及图像分类方法，其中将图像文档分类为多个类别，以逐步缩窄要搜索的图像文档的范围。
例如，日本公开专利申请第2000-285141(此后称为“参考文献1”)号公开了相似图像搜索方法。具体地，参考文献1公开了一种图像搜索方法，其中根据颜色、轮廓、或者模式、或者其他图像属性来计算要查询的图像的特征量；然后将权重因子分别赋予所述特征量，并且计算且对特征量与要查询的图像之间的相似性进行分级。
相似图像搜索方法的问题在于需要使用要查询的图像作为搜索关键词。如果使用手头上的图像作为要查询的图像，则没有任何不方便，但是当使用图像数据库中的图像作为要查询的图像时，必须首先搜索要查询的图像，而这是不方便的。
图像分类方法具有良好的操作性，这是因为只需要选择一个分类的图像类别。例如，日本公开专利申请第10-162020(此后称为“参考文献2”)号公开了一项发明，其中将图像分类方法用于图像文档。具体地，在参考文献2公开的发明中，根据从输入图像中提取的特征，将图像分类为多个类别，并且将不同类别的典型图像呈现给用户。当用户选择图像时，进一步地，将子类别的图像呈现给用户。通过这种方式，逐步地缩窄图像范围，并且可以仅用少量的步骤来确定所希望的图像。
但是，在具有各种属性的图像文档的图像分类中，在涉及被唯一定义并且固定的分类关键词(classification key)(特征量)的分类顺序中，有时无法适当地执行子类别中的分类。因为图像文档有大量的种类，所以依赖于文档类型，有时利用图像布局的图像分类是有效的，而有时利用图像的颜色或者背景颜色的图像分类是有效的。例如，对于每个图像文档都有白色背景颜色的多个图像文档的图像组，利用颜色执行图像分类是不适当的，而对于具有相同格式的票据，利用图像形状或者布局执行图像分类是不适当的。

发明内容
本发明的实施例可以解决相关技术的一个或多个问题。
本发明的优选实施例可以提供图像处理设备与图像处理方法，其对图像数据库中的图像进行分类，并且显示分类后的图像用于搜索目标图像，并且能够容易地缩窄候选图像的范围，提高可操作性，允许用户选择所希望的分类关键词，并且使得能够在任何搜索条件下选择最优分类关键词。
根据本发明的一方面，提供了一种能够搜索在图像数据库中存储的图像文档的图像处理设备，包括第一分类单元，其将图像数据库中的图像文档分类为多个类别；显示图像控制器，其生成用于显示由第一分类单元执行的分类的状态的显示图像；第二分类单元，其使得用户能够从在显示图像中包含的多个类别中选择一个或多个类别，并且对在用户选择的类别中包含的图像文档进行分类；检测单元，其检测搜索状态；以及分类关键词选择单元，其响应于检测单元的检测结果，选择用于第二分类单元的分类关键词。
根据本实施例，例如依靠用户的模糊记忆，该图像处理设备对来自图像文档数据库的已知图像进行分类，并且显示分类后的图像，以搜索图像。即，本发明的图像处理设备具有文档分类的功能。本发明的图像处理设备检测搜索状态，并且响应于检测结果，通过利用有效的分类关键词来执行分类，由此可以有效地缩窄候选图像文档，并且迅速找到所希望的图像文档。结果，提高了可操作性，并且可以执行对用户友好的图像搜索。
从以下参照附图给出的对优选实施例的详细描述，可以看出本发明的这些以及其他目的、特征、以及优点。

图1为图示根据本发明第一实施例的图像处理系统的配置的方框图；图2为图示服务器设备110的配置例子的方框图；图3为图示在注册图像文档时的操作的流程图；图4为图示在搜索图像文档时的操作的流程图；图5为图示本实施例中显示缩略图尺寸图像的汇总的图形图像的例子的图；图6为图示本实施例中显示文档分类的图形图像的例子的图；图7为图示本实施例中按照颜色显示文档分类的图形图像的例子的图；图8为图示根据本实施例的特征量计算单元112的配置的方框图；图9A为图示本实施例中先前分类关键词与所选类别中文档的数目之间的关系的表格；图9B为图示本实施例中所选分类关键词与所选类别中文档的数目之间的关系的表格；图10为图示根据本实施例的分类单元115的配置的方框图；图11为图示被划分为多个类别的特征空间中的图像组的图；图12为图示本发明第二实施例中显示缩略图尺寸图像的汇总的图形图像的例子的图；图13为图示根据本发明第三实施例的图像处理系统的配置的方框图；图14为图示根据本实施例的状态检测单元117的配置的方框图；图15A与图15B为每个分类关键词的类别标识数据的直方图。
具体实施例方式
以下参照附图描述本发明的优选实施例。
第一实施例图1为图示根据本发明第一实施例的图像处理系统的配置的方框图。
图1所示的图像处理系统包括个人计算机(PC)100，其为PDA(个人数字助理)、移动电话、或者其他移动终端的客户端设备；以及服务器设备110，其响应于来自客户端设备100的命令而对文档进行分类，并将分类结果输出到客户端设备100。
个人计算机(PC)100包括显示设备101，诸如监视器；应用程序102，其执行对用户命令的解释、与服务器110的通信、或者对显示设备101的控制；输入设备103，其为用户输入指令的键盘或者鼠标；以及外部通信路径104，例如LAN或者因特网。
服务器设备110包括具有通信路径104的外部接口(I/F)111；特征量计算单元112，其根据输入图像文档计算特征量；图像文档数据库(DB)113，其存储注册图像119；特征量数据库(DB)114，其存储在图像文档数据库(DB)113中存储(注册)的图像的特征量；分类单元115，其根据在特征量数据库(DB)114中存储的特征量，对图像文档进行分类；显示图像控制器116，其根据分类单元115的分类结果，生成要显示到客户端设备100的图像；状态检测单元117，其保持或者检测当前显示条件、分类关键词、以及用户选择的分类类别；以及分类关键词选择单元118，其根据状态检测单元117的检测结果，选择分类关键词。
注册图像数据119表示要注册到图像文档数据库(DB)113的图像数据。显示图像数据120表示要在客户端设备100的显示设备101上显示的图像数据。
在图1中，虚箭头线表示在图像注册期间的数据流，实线表示在文档分类以及显示图像生成期间的数据流。
图2为图示服务器设备110的配置例子的方框图。
如图2所示，服务器设备110包括CPU 201，用来执行与正在执行的程序相对应的计算和处理；易失性存储器202，其作为用来暂时存储与保持程序代码、图像的编码数据等等的工作区域；硬盘驱动器203，其存储图像数据或程序，诸如图像数据库118、特征量数据库117；视频存储器204，其作为用于在监视器205上显示图像的数据缓冲器；输入设备206，其为键盘或者鼠标；以及外部接口(I/F)207，用来通过外部通信路径104(例如LAN或者因特网)来发送或者接收数据；以及总线208，其连接以上组件。
在本实施例中，例如，服务器设备110由计算机形成，并且由软件执行图像文档分类或者其他处理。即，在服务器设备110中执行的处理由未图示的应用程序实现。应该注意本实施例不限于此。例如，可以由在MFP或者其他设备中安装的硬件来执行图像文档分类和其他处理。可替换地，即使没有服务器一客户端配置，例如也可以将图1所示的配置包含在一个PC或者一个MFP中。
以下将解释图1所示的系统的操作。
首先，在两类操作中涉及图像文档数据库113。一类操作为图像文档的注册，另一类操作为搜索、察看、以及获取所希望的图像文档，换言之，使用图像文档数据库113中的图像文档。此处，获取所希望的图像文档意味着从服务器设备110下载所希望的图像文档。
在使用图像文档数据库113中的图像文档时，搜索所希望的图像文档是必不可少的，并且在搜索之后，使用察看应用程序来察看所希望的图像文档，并且将所希望的图像文档存储在用户的PC中。
以下将解释注册与搜索图像文档的操作。
图3为图示在注册图像文档时的操作的流程图。
以下，将参照图1与图3进行解释，在图1中，虚箭头线表示在图像注册期间的数据流。
如图3所示，在步骤S001，用户通过应用程序102，从客户端设备100发出命令，以在服务器设备110中注册图像数据，另外，用户指定要注册的注册图像数据119。
在步骤S002中，通过外部通信路径104，将所指定的注册图像数据119输入到服务器设备110，并且通过外部接口111将所指定的注册图像数据119在图像文档数据库113中注册。同时，特征量计算单元112计算注册图像数据119的特征量，并且将所获得的特征量存储在特征量数据库114中。在该步骤中，通过利用ID号或者其他方式，将图像文档数据库113中的注册图像数据119与特征量数据库114中的特征量相互关联地存储。另外，只要图像文档数据库113与特征量数据库114具有以上功能，就可以例如通过利用XML(可扩展标记语言)语言，将图像文档数据库113与特征量数据库114安排在相同的数据库中，该数据库被配置为具有分层数据结构。可替换地，可以将图像文档数据库113与特征量数据库114安排在在不同服务器中提供的不同的数据库中。另外，可以通过从扫描仪或者数字相机或者其他图像输入设备直接向服务器设备110注册图像数据，来执行图像数据的注册。
图4为图示在搜索图像文档时的操作的流程图。
以下将参照图1与图4进行解释。
如图4所示，在步骤S101，用户在客户端设备100上执行应用程序102，并且指示服务器设备110进行文档分类。例如，可以在客户端设备100的显示设备101上显示如图5所示的图形图像，其包括缩略图尺寸图像的汇总，并且用户可以通过在显示设备101上显示的图形图像发出命令。
图5为图示本实施例中显示缩略图尺寸图像的汇总的图形图像的例子的图。
如图5所示，有分类单选按钮1，其指示文档分类操作；缩略图单选按钮2，其显示缩略图显示屏幕；框3，其指示文档图像；以及文档图像的缩略图尺寸图像4。
在图5中，在框3中以矩阵方式显示多个缩略图尺寸图像4。该技术被频繁用于图像数据库。
通常，在图像文档数据库113中注册了许多图像。当所注册的图像的全部缩略图尺寸图像不能一次显示时，例如，可以在框3的上侧或者下侧上提供滑动块，以在察看屏幕时滚动显示，并且提供页馈送(page feeding)功能以改变要显示的缩略图尺寸图像。
用户可以使用定点设备，诸如输入设备103的鼠标，来点击分类单选按钮1，由此通过外部通信路径104向服务器设备110发送文档分类命令。
返回到图4，在步骤S102中，当服务器设备110接收到文档分类命令时，状态检测单元117检测显示屏幕的当前状态或者用户作出的选择状态。
在步骤S103中，将状态检测单元117检测到的状态输入到分类关键词选择单元118，并且分类关键词选择单元118选择对应于所检测状态的分类关键词。分类关键词指示文档分类的方式。
在步骤S104中，分类单元115从特征量数据库114接收特征量，并且输出对应于所选分类关键词的相应注册图像的类别标识数据。
在步骤S105中，显示图像控制器116从分类单元115接收分类结果(即，每个注册图像的类别标识数据)以及分类关键词选择数据，并且对每个类别的图像文档的数目进行计数，并且由此确定显示屏幕或者要显示的图像数据的布局。
接着，显示图像控制器116从图像文档数据库113接收要显示的图像或者要显示的图像的缩略图尺寸图像的数据，生成用于显示分类结果的显示图像数据120，并且通过外部接口111与通信路径104将显示图像数据120发送给客户端设备100。
显示图像控制器116也可以保持搜索状态数据，例如分类关键词的历史数据、每个类别的文档的数目、或者用户选择的类别。
图6为图示本实施例中显示文档分类的图形图像的例子的图。
为了说明性的目的，图6显示指示第一分类的结果的屏幕，换言之，显示图像文档数据库113中的所有注册图像文档。另外，在图6所示的分类中，使用文档类型作为分类关键词。
如图6所示，附图标记5表示分类类别。在图6中，图像文档被分类为5个类别，即文章(Article)、绘图(Drawing)、杂志(Journal)、票据(Bill)、以及报告(Presentation)，并且椭圆尺寸示意性地指示每个类别的文档的数目，并且每个类别中的缩略图尺寸图像与该类别中包含的图像文档相关联。应该注意每个类别的文档的数目也可以直接由数字指示。
当在图像文档数据库113中注册的图像文档的数目较少时，显示所有图像文档；当在图像文档数据库113中注册的图像文档的数目较多时，显示每个类别的典型图像。
以这种方式，通过调整要显示的图像文档的数目，可以减少客户端设备100上的显示时间以及通过外部通信路径104的传送时间，并且减少了服务器设备110上的处理时间。当可以获得足够高的处理速度时，可以通过重叠图像、或者通过提供滑动块、或者通过其他方式，来显示所有图像文档。
对于生成显示屏幕或者服务器设备与客户端设备之间的通信，存在各种方法。例如，作为被频繁使用的技术，服务器设备110可以为网络服务器(Webserver)，并且通过利用基于万维网(World Wide Web)的技术来实现。另外，显示图像数据120可以由HTML(超文本标记语言)描述，并且应用程序102可以为常用的网络浏览器。
返回到图4，在步骤S106中，客户端设备100在显示设备101上显示图像120。
在步骤S107中，用户通过利用输入设备103，选择接近要搜索的图像文档的类别。所选的类别数据被发送给服务器设备110。例如，假定选择了图6所示的“报告材料(presentation materials)”的类别。例如，可以使用定点设备(诸如鼠标)来点击图6“报告”类别的内部，由此选择“报告”类别。另外，可以将每个类别设置为可选择的或者不可选择的，并且可以将多个类别设置为可选择的。
在步骤S108中，在服务器设备110中，显示图像控制器116接收类别选择命令，生成所选类别的缩略图尺寸图像的汇总的显示图像，并且将显示图像数据120发送给客户端设备100。
在步骤S109中，客户端设备100在显示设备101上显示如图5所示的显示图像数据120。
在步骤S110中，用户搜索如图5所示的缩略图尺寸图像的汇总以寻找所希望的图像，并且当用户找到所希望的图像时，该例程结束。但是，当图像文档数据库113中的注册图像文档的数目较多时，预计会在缩略图尺寸图像的汇总中显示许多图像，即，有许多已注册的报告材料图像，并且通常难于找到所希望的图像。当用户无法找到所希望的图像时，重复步骤S101到S109。
以下，将解释第二文档分类的操作，重点在于与第一文档分类的差异。在第二分类中，对在第一分类中选择的类别中包含的文档进行分类。即，对在步骤S109中显示的文档进行分类。由于这一点，可以逐步缩窄要搜索的图像文档的范围，从而允许用户找到目标文档。
状态检测单元117检测所选类别的信息、要分类的文档的数目、以及分类关键词的历史数据。分类关键词选择单元118选择用于第二分类的分类关键词。此处，假定选择图6所示的“报告材料”类别。因为报告材料一般在其背景颜色中具有特性，所以此处选择颜色的分类关键词。
图7为图示本实施例中按照颜色显示文档分类的图形图像的例子的图。
以这种方式，通过递归地执行分类显示，可以逐步缩窄要显示的图像文档的范围，并且用户可以在确认图像的外观(appearance)或者其他特征的同时逐步缩窄要搜索的图像文档的范围，即使在包含大量注册图像文档的图像数据库中也如此。
在本实施例中，示例说明了通过在选择要分类的类别之后，显示所选类别的缩略图尺寸图像，来执行到下一分类屏幕的转变。当然，当该类别包含大量文档时，可以自动执行到下一分类屏幕的转变。
图8为图示根据本实施例的特征量计算单元112的配置的方框图。
如图8所示，特征量计算单元112包括颜色特征量计算部分301，其从注册图像数据119计算颜色特征量；形状特征量计算部分302，其从注册图像数据119计算形状特征量；以及布局特征量计算部分303，其从注册图像数据119计算布局特征量。
颜色特征量计算部分301从注册图像数据119计算颜色特征量，诸如图像文档的背景颜色、颜色分布、以及其他颜色相关的量。
形状特征量计算部分302从注册图像数据119计算形状特征量，诸如图像文档的边沿与纹理，以及与图像文档的形状相关的其他量。
布局特征量计算部分303按图像元素单位将图像划分为多个对象，确定对象的属性以获得布局信息，然后计算对应于对象属性(诸如标题、字符、图表、相片、或者表格)的位置或者区域。以上特征量可以用公知方法计算。
以下解释状态检测与分类关键词选择的操作。
图9A为图示本实施例中先前分类关键词与所选类别中文档的数目之间的关系的表格。
图9B为图示本实施例中所选分类关键词与所选类别中文档的数目之间的关系的表格。
在图9A与图9B所示的例子中，首先对应于当前分类处理之前的分类关键词和文档的数目，来选择下一分类关键词，如图9A所示。当没有先前分类关键词时，即，当前分类为第一分类时，选择文档类型作为分类关键词。当先前分类关键词为布局、并且文档数目较大时，选择形状作为分类关键词。当先前分类关键词为文档类型时，对应于用户选择的类别的内容以及文档的数目，如图9A所示，选择分类关键词适合于所选类别的文档类型。用户重复显示分类屏幕与类别选择，由此逐步缩窄图像文档的范围，并且最终可以找到目标图像文档。
以这种方式，对应于搜索条件，充分利用文档分类关键词进行分类，由此可以迅速在早期找到目标图像文档。
即使在递归分类中，也可以使用与图9A与图9B所示的相同的方式，但是在这种情况下，很可能会再次选择已经被选择的分类关键词。因为再次选择已经被选择的分类关键词没有用处，所以在这种情况下可以根据预定的优先级次序来改变图9A与图9B的分类关键词。例如，确定优先级次序为“文档类型”、“布局”、“形状”、以及“颜色”，当再次选择已经被选择的分类关键词时，可以根据以上优先级次序，从那些未使用的分类关键词中选择高优先级的分类关键词。
应该注意分类关键词选择方法不限于以上例子，而是可以具有许多修改。另外，在以上例子中，为了解释方便，使用“布局”作为一个分类关键词，但是本实施例不限于此；例如，可以根据所指定的属性(存在照片或者图表属性、只包含字符的文档等等)是否存在、或者根据属性在页面上的位置，将布局划分为多个子分类关键词。
图10为图示根据本实施例的分类单元115的配置的方框图。
如图10所示，分类单元115包括颜色类别标识部分401，其接收颜色特征量，并且标识颜色类别；形状类别标识部分402，其接收形状特征量，并且标识形状类别；布局类别标识部分403，其接收布局特征量，并且标识布局类别；文档类型类别标识部分404，其接收布局特征量，并且标识文档类型类别；以及选择器405，其根据从分类关键词选择单元118输出的分类关键词选择数据，选择从以上各类别标识部分输出的类别标识数据。
分类单元115从特征量数据库(DB)114接收注册图像数据119的特征量，颜色类别标识部分401、形状类别标识部分402、布局类别标识部分403、以及文档类型类别标识部分404进行类别标识，并且输出对应于所选分类关键词的注册图像数据119的类别标识数据。
以下示例说明类别标识的方法。应该注意可以各种方式执行类别标识，而不限于此例子。
颜色类别标识数据可以具有颜色特征量，其中背景颜色或者最常用颜色被定义为典型颜色，并且覆盖红色、蓝色、绿色、黄色、白色、或者其他颜色的多个类别，以分类为相似颜色。
形状类别标识数据根据多个特征量(诸如图像文档的边沿、或者纹理)的相似性执行分类。
图11为图示被划分为多个类别的特征空间中的图像组的图。
具体地，在图11中，根据三个特征量X、Y、Z执行分类，并且在以特征量X、Y、Z为坐标轴的空间中，绘制每组注册图像数据119的特征量。将相互接近的那些特征编组为一个类别。在图11中，示例说明将特征空间分类为三个类别501、502、以及503。落入类别501与类别502两者中的那些特征被定义为属于类别501与类别502两者。优选地，预先确定类别的中心，这是因为类别的中心成为该类别的采样的图像数据的特征点。另外，可以向特征量赋予权重因子，由此，通过修改特征量轴X、Y、Z，可以容易地执行特定的分类，其中特定特征具有较大的权重。
可以与形状类别标识数据相同的方式，来对布局类别标识数据进行分类。
可以通过利用来自布局特征量的多个特征量的文档类型属性(诸如文档的栏设置)，通过二叉试探分类(biantennary exploratory classification)，来对文档类型类别标识数据进行分类，可替换地，可以由学习机预先记住一对布局特征量数据与对要标识的文档类型的正确答案作为训练数据，并且可以由学习数据根据布局特征量来标识文档类型。
应该注意在本实施例中，虽然示例说明了将图像特征量安排到数据库中，并且当生成分类屏幕时执行文档分类，但是本实施例不限于此。例如，可以在图像文档注册时执行直到文档分类的处理，并且可以将不同分类关键词的类别标识数据安排到数据库中。
根据本实施例，利用图像文档数据库中的基于图像文档分类的图像搜索方法，检测搜索条件，并且通过利用有效的文档分类关键词，相应地执行分类，由此可以有效地缩窄图像文档的范围，并且在早期迅速地找到目标图像文档。由此，可以提供一种图像处理设备，其具有改进的可操作性并且对用户友好。另外，当显示分类屏幕时通过呈现要分类的类别以及该类别中包含的文档的数目，可以了解在所选类别或者图像文档数据库中包含的全部文档的大概，并且提高图像文档组的可视性。
第二实施例在该实施例中，用户能够将所希望的分类关键词设置为可选择的。
图12为图示根据本发明第二实施例的呈现缩略图尺寸图像的汇总的图形图像的例子的图。
在前一实施例中，如图5所示，只有一个分类单选按钮1，其指示文档分类操作。在本实施例中，存在自动分类按钮601，其具有与图5的分类单选按钮1相同的功能；文档类型分类按钮602；布局分类按钮603；形状分类按钮604；以及颜色分类按钮605。另外，用户能够将所希望的分类关键词设置为可选择的。由于这一点，例如用户可以使用分类关键词进行搜索，在搜索的早期状态，关于要搜索的目标图像的该分类关键词给用户留下深刻印象。另外，通过选择自动分类按钮601，可以选择适合于当前搜索条件的分类关键词。
第三实施例在该实施例中，对应于每个分类关键词，检测用户选择的类别中的所有图像文档的数据波动，以选择分类关键词。
图13为图示根据本发明第三实施例的图像处理系统的配置的方框图。
在该实施例中，替代在数据库中存储特征量，可以将类别标识数据安排到数据库中。可替换地，可以采用前者也可以采用后者。在本实施例中，省略了第一实施例中的、图1所示的分类单元115中的选择器405中的选择操作，而是输出关于每个图像文档的所有分类关键词的类别标识数据，并且将其存储在类别标识数据库121中。由于这一点，在生成显示图像的阶段，不必执行分类，并且这可以提高处理速度。
根据本实施例的图像处理系统的除以上之外的其他组件与第一实施例的相同。以下只解释本实施例与第一实施例之间的差别。
在本实施例中，状态检测单元117从显示图像控制器116接收要分类的注册图像数据的信息，并且检测可选分类关键词的数据波动。
例如，“要分类的注册图像数据的信息”可以为用户选择的类别中的注册图像数据的标识数据。当在搜索处理期间生成第一分类屏幕时，“要分类的注册图像数据”对应于在图像文档数据库(DB)113中注册的所有图像文档，在利用文档类型分类之后，并且当用户选择报告材料类别时，“要分类的注册图像数据”对应于在报告材料类别中包含的注册图像数据。
另外，“可选择的分类关键词”指没有在文档分类中使用的分类关键词。例如，当在搜索处理期间生成第一分类屏幕时，“可选择的分类关键词”对应于所有分类关键词；当只执行了文档类型分类关键词时，“可选择的分类关键词”对应于除文档类型分类关键词之外的分类关键词。
可以各种方式定量地测量每个分类关键词的数据波动的幅度。在本实施例中，作为例子，计算信息熵以测量数据波动。
图14为图示根据本实施例的状态检测单元117的配置的方框图。
如图14所示，状态检测单元117包括直方图生成部分701与熵计算部分702。
在该实施例中，状态检测单元117接收关于每个可选择的分类关键词的、要分类的相关注册图像的类别标识数据，并且直方图生成部分701创建直方图，并且收集每个类别的归类的图像(categorized images)的计数(每个类别的归类的图像的频率)。在创建直方图之后，熵计算部分702根据直方图的数据，计算熵，并且将得到的熵输出到分类关键词选择单元118。对于所有可选择的分类关键词，以相同方式计算熵，并且将熵输出到分类关键词选择单元118。
根据以下公式(1)计算熵H。
H=-Σi=1Npilogpi---(1)]]>其中，N指示对应分类关键词的类别的数目，pi指示对应类别在所有类别中的百分比(类别的归类的图像的频率)。
将每个分类关键词的熵输出到分类关键词选择单元118，并且分类关键词选择单元118选择对应于最大熵的分类关键词，并且将所选择的分类关键词输入到显示图像控制器116。
与第一实施例中一样，通过利用所选择的分类关键词，显示图像控制器116从类别标识数据库121接收要显示的注册图像的类别标识数据，并且生成显示图像。
图15A与图15B为每个分类关键词的类别标识数据的直方图。
在图15A与图15B中，横轴指示类别，纵轴指示对应类别的归类的图像的相应计数。
如图15A所示，虽然多个类别的归类的图像的计数没有多少差别，但是分类关键词具有较大的波动。而在图15B中，虽然多个类别的归类的图像的计数很不平坦，但是分类关键词具有较小的波动。
对应于图15A中的状态的熵H大于对应于图15B中的状态的熵H。
因为在图15A所示的情况下、根据各种分类关键词来对图像文档进行分类，所以不管选择哪个类别，都可以将文档数目减少到近似1/5*(1/类别数目)。但是，当选择具有较少计数的类别时，可以大大减少文档的数目，但当选择具有较大计数的类别时，文档的数目减少不多，因此总体的减少效果不大。
换言之，通过选择具有较大熵的分类关键词，可以在要选择的分类关键词中选择具有较大数据波动的分类关键词。
根据本实施例，利用图像文档数据库中的基于图像文档分类的图像搜索方法，可以在要选择的分类关键词中选择具有较大数据波动的分类关键词，并且通过利用具有较大数据波动的分类关键词的文档分类，可以有效地缩窄图像文档的范围。另外，本实施例的方法使得能够在任何搜索条件下选择最优分类关键词，由此使之能够有效地缩窄文档范围，并且提高可操作性。
应该注意虽然示例说明了可以在生成显示图像时计算熵，但是也可以在图像文档注册时计算熵。
根据本实施例，例如依靠用户的模糊记忆，图像处理设备对来自图像文档数据库的已知图像进行分类，并且显示分类后的图像，以搜索图像。即，本发明的图像处理设备具有文档分类的功能。本发明的图像处理设备检测搜索状态，并且响应于检测结果，通过利用有效的分类关键词来执行分类，由此可以有效地缩窄候选图像文档，并且迅速找到所希望的图像文档。结果，提高了可操作性，并且可以执行对用户友好的图像搜索。
另外，在本实施例中，因为允许用户选择分类关键词，所以可以使用用户所希望的分类关键词，例如用户可以利用在搜索过程的早期状态给用户留下深刻印象的候选图像的分类关键词，进行搜索。
根据本实施例，可以从候选分类关键词中选择具有较大数据波动的分类关键词。由此，通过利用具有较大数据波动的分类关键词进行文档分类，可以有效地缩窄候选图像文档。
根据本实施例，可以在任何搜索条件下选择最优分类关键词，因此可以有效地缩窄候选图像文档，并且提高图像文档搜索的可操作性。
虽然参照被选择用于说明目的的具体实施例描述了本发明，但是显然本发明不限于这些实施例，本领域技术人员在不脱离本发明的基本构思与范围的前提下，可以对这些实施例进行各种修改。
本专利申请基于2006年4月17目提交的日本优先权专利申请第2006-112912号，其全部内容通过引用融入本文。
权利要求
1.一种能够搜索在图像数据库中存储的图像文档的图像处理设备，包括第一分类单元，其将图像数据库中的图像文档分类为多个类别；显示图像控制器，其生成用于显示由所述第一分类单元执行的分类的状态的显示图像；第二分类单元，其使得用户能够从在显示图像中包含的多个类别中选择一或多个类别，并且对在用户选择的类别中包含的图像文档进行分类；检测单元，其检测搜索状态；以及分类关键词选择单元，其响应于所述检测单元的检测结果，选择用于所述第二分类单元的分类关键词。
2.如权利要求1所述的图像处理设备，进一步包括关键词选择单元，其使得用户能够选择分类关键词。
3.如权利要求1所述的图像处理设备，其中由所述检测单元检测的搜索状态包括类别中文档的数目。
4.如权利要求1所述的图像处理设备，其中由所述检测单元检测的搜索状态包括分类关键词选择单元选择的类别的类型。
5.如权利要求1所述的图像处理设备，其中由所述检测单元检测的搜索状态包括由所述关键词选择单元选择的分类关键词。
6.如权利要求1所述的图像处理设备，其中由所述检测单元检测的搜索状态包括该类别中的文档对于每个分类关键词的波动。
7.如权利要求1所述的图像处理设备，其中所述第一分类单元与所述第二分类单元中的分类关键词至少包含文档的类型。
8.如权利要求1所述的图像处理设备，其中所述第一分类单元与所述第二分类单元中的分类关键词至少包含文档的颜色。
9.如权利要求1所述的图像处理设备，其中所述第一分类单元与所述第二分类单元中的分类关键词至少包含文档的形状。
10.如权利要求1所述的图像处理设备，其中所述第一分类单元与所述第二分类单元中的分类关键词至少包含文档的布局。
11.如权利要求1所述的图像处理设备，其中所述第二分类单元被递归地重复操作。
12.一种能够搜索在图像数据库中存储的图像文档的图像处理方法，包括第一分类步骤，将图像数据库中的图像文档分类为多个类别；显示图像控制步骤，生成用来显示在所述第一分类步骤中执行的分类的状态的显示图像；第二分类步骤，使得用户能够从在显示图像中包含的多个类别中选择一或多个类别，并且对在用户选择的类别中包含的图像文档进行分类；检测步骤，检测搜索状态；以及分类关键词选择步骤，响应于所述检测步骤的检测结果，选择用于所述第二分类步骤的分类关键词。
13.如权利要求12所述的图像处理方法，进一步包括关键词选择步骤，使得用户能够选择分类关键词。
全文摘要
公开了一种图像处理设备，其对图像数据库中的图像进行分类，并且显示分类后的图像用于搜索，并且能够容易地缩窄候选图像的范围以及提高可操作性。该图像处理设备包括第一分类单元；显示图像控制器，其生成用于显示由第一分类单元执行的分类的状态的显示图像；第二分类单元，其使得用户能够选择在显示图像中包含的一个或多个类别，并且对在所选择的类别中包含的图像文档进行分类；检测单元，其检测搜索状态；以及分类关键词选择单元，其响应于检测单元的检测结果，选择用于第二分类单元的分类关键词。
文档编号G06F17/30GK101059814SQ20071009710
公开日2007年10月24日申请日期2007年4月17日优先权日2006年4月17日
发明者小林幸二, 山崎由希子, 稻本浩久申请人:株式会社理光

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：小林幸二;山崎由希子;稻本浩久
技术所有人：株式会社理光
我是此专利的发明人

上一篇：学习装置和方法
上一篇：用于分析和编辑ecg形态和时间序列的方法和设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。