原稿提取方法和原稿提取装置的制作方法

文档序号:6465618阅读:181来源:国知局
专利名称:原稿提取方法和原稿提取装置的制作方法
技术领域
本发明涉及从原稿的数据库中检索特定的原稿的技术,更详细地说,涉 及基于由扫描仪读取原稿后的图像等原稿数据,从数据库中检索与读取了的 原稿对应的原稿数据的原稿提取方法和原稿提取装置。
背景技术
以往,利用将使用扫描仪读取文本或照片等构成的原稿而得的数据,或 使用个人计算机(PC)等电子式生成的原稿数据存储在数据库中,新读取原 稿,并从数据库中提取与读取了的原稿对应的原稿数据的技术。作为提取原
稿数据的方法,例如提出使用OCR ( Optical Character Reader,光学字符识别) 从读取的原稿中提取关键字(keyword)并基于关键字判定原稿的类似度的方 法、将原稿限定于有格线的票据原稿并提取格线的特征来判定原稿的类似度 的方法等。
在(日本)特开平7-282088号公报中,公开了将对原稿(文本)赋予特 征的描述符(descriptor)和由描述符赋予特征的原稿的列表相关联,从读取 了的原稿(输入文本)生成描述符,并使用生成了的描述符进行原稿的核对 的技术。原稿的描述符被规定为相对于伴随原稿的读取而产生的失真等不变。 对一个原稿生成多个描述符,对与从读取了的原稿生成的描述符分别相关联 的原稿进行投票,选择得到最高得票数的原稿或得票数超过规定的阈值的原牙咼。
特开平5-37748号公报中公开了预先存储原稿的图像数据,在读取的原 稿的位图数据(bitmap data)和预先存储的原稿的位图数据之间,以1比特为 单位进行图形匹配,从而进行原稿的检索的技术。此外,特开平5-37748号 公报中,记载了在由多页构成的原稿的情况下,也可以为检索用而仅读取封 面的页,通过对读取的页的图像数据和存储的各原稿的第一页的图像数据进 行比较,从而纟全索原稿。
在特开2006-31181号公报中,公开了预先存储文本图像,对读取的原稿
图像的特征量和存储的文本图像的全部页的特征量进行比较,从而求类似度, 提取类似度比阔值高的文本图像,从而检索文本图像的技术。在该技术中, 在多个文本图像成为候选的情况下,显示文本图像从而接受用户选择,而且 在文本图像中包含的页的类似度的平均低于阈值的情况下,将该文本图像从 候选中删除从而缩小范围。
通常,文本等原稿由多页构成的情况较多。以特开平7-282088号公报所 公开的技术为首的以往的技术能够进行与扫描仪所读取的原稿的核对从而从 数据库中提取所需的原稿数据,但对于由多页构成的原稿需要对每页进行核 对从而提取原稿数据。从而,在因丢失或污浊等而在核对基础的原稿中产生 了缺失的情况下,存在不能在全部页中提取由多页构成的原稿相关的原稿数 据的问题。在特开平7-282088号公报中关于该问题的解决手段没有任何公开。
而且如特开平5-37748号公报中记载的这样的对由多页构成的原稿的位 图数据进行比较的技术中,由于对每页进行比较,所以存在原稿中包含的页 数和原稿数越多,则比较处理越花费时间的问题。此外,在进行位图数据的 比较的情况下,需要高精度地进行比较的两个图像数据的定位。但是,实际 上难以准确地进行定位,其结果,存在难以高精度地^r索原稿的问题。
此外,在特开2006-31181号公报所记载的技术中,作为文本图像的字符 区域中的特征量,由于使用OCR提取字符码,所以根据提取的字符码,产生 类似判定的精度降低的问题。为了弥补该精度降低,考虑提取多个字符码, 但在该情况下,存在存储字符码的存储器容量增大,而且由于使用很多数据 进行检索,所以处理消耗时间的问题。此外,.在特开平5-37748号公报和特 开2006-31181号公报中,由于没有考虑包含秘密信息的原稿被检索的情况, 所以存在包含秘密信息的原稿被容易地输出的担心。

发明内容
本发明鉴于这样的情况而完成,其目的在于提供一种通过使得基于原稿 的 一部分也能够提取原稿的其它部分的数据,从而能够容易地从数据库中提 取与由多页构成的原稿相关的原稿数据的原稿提取方法和原稿提取装置。
本发明的其它目的在于提供一种在提取原稿数据时,能够避免错误地提 取与目的不同的原稿数据的情况的原稿提取方法和原稿提取装置。
此外本发明的其它目的在于通过规定用于输出原稿的条件从而能够保护 秘密信息的原稿4是取方法和原稿提取装置。
本发明的原稿提取装置包括用于存储原稿数据的原稿存储部件,从原稿
存储单元所存储的原稿数据中提取特定的原稿数据,其特征在于,包括将
表示由多页构成的原稿的原稿索引与对应于包含在原稿中的各页的原稿数据
相关联地存储的部件;特征数据存储部件,将基于从原稿数据中提取的特征
点计算的、表示所述原稿数据的特征的特征数据与原稿数据相关联地存储;
取得部件,取得作为新的原稿数据的输入原稿数据;从取得部件所取得了的
输入原稿数据中提取特征点的部件;生成部件,基于该部件所提取出的特征
点生成表示输入原稿数据的特征的特征数据;判定部件,通过将生成部件所
生成了的特征数据和特征数据存储单元所存储的特征数据进行比较,从而判 定与特征数据存储单元所存储的特征数据相关联的原稿数据和输入原稿数据
的类似度;取得与被判定部件判定为是与输入原稿数据的类似度高的原稿数 据的原稿数据相关联的原稿索引的部件;以及提取部件,提取与该部件所取 得了的原稿索引所表示的原稿中包含的多页对应的多个原稿数据。
在本发明中,预先存储与原稿中包含的各页对应的原稿数据,进而将基 于从原稿数据中提取的特征点计算的、表示原稿数据的特征的特征数据,和 表示原稿的原稿索引与原稿数据相关联地存储。原稿提取装置在取得了输入 原稿数据的情况下,从输入原稿数据生成特征数据,基于特征数据判定与原 稿数据的类似度,取得与输入原稿数据的类似度高的原稿数据相关联的原稿 索引,提取与取得了的原稿索引相关联的多个原稿数据。由此,包含与被判 定为类似于输入原稿数据的原稿数据对应的页的原稿被确定,而且与被确定 了的原稿中包含的全部页对应的原稿数据被提取。
本发明中,基于对应于由多页构成的原稿的一部分的输入原稿数据,能 够提取与原稿的全部页对应的原稿数据。从而,即使在由多页构成的原稿中 因丟失或污染等而产生了缺失的情况下,也能够从预先存储了原稿数据的数 据库中容易地提取全部页中的原稿数据。
本发明的原稿提取装置中,特征数据存储部件构成为与一个原稿数据相 关联地存储表示该原稿数据的特征的多个特征数据,生成部件被构成为生成 表示输入原稿数据的特征的多个特征数据,判定部件具有对于生成部件所 生成了的多个特征数据的每一个,对与该特征数据一致的特征数据相关联的 原稿数据进行投票的部件;以及将原稿存储部件所存储的原稿的数据内、得
票数最大的原稿数据或得票数为规定量以上的原稿数据判断为与输入原稿数 据的类似度高的原稿数据的部件。
本发明中,原稿提取装置为了判定原稿数据的类似度,对一个原稿数据 预先存储多个特征数据,对输入原稿数据生成的每个特征数据,对同一特征 数据相关联的原稿数据进行投票,并将得到最大得票数或规定量以上的得票 数的原稿数据作为与输入原稿数据的类似度高的原稿数据。由于将多个特征 数据内多个特征数据一致的原稿数据判定为类似度高,所以能够进行更精确 的类似度判定。在进行原稿数据的类似度判定时,由于能够基于多个特征数 据进行更精确的类似度判定,所以能够抑制将不类似于输入原稿数据的原稿 数据错误地判定为类似度高的原稿数据。
本发明的原稿4是取装置中,取得部件具有取得多个输入原稿数据的部件, 判定部件具有对于多个输入原稿数据的每一个,判定原稿存储部件所存储的 原稿数据和输入原稿数据的类似度的部件,提取部件具有在与多个输入原稿 数据的每一个的类似度高的原稿数据相关联的原稿索引互相 一致的情况下, 提取与该原稿索引所表示的原稿中包含的多页对应的多个原稿数据的部件。
在本发明中,原稿提取装置取得多个输入原稿数据,在与各输入原稿数 据的类似度高的原稿数据相关联的原稿索引 一致的情况下,提取与 一致的原 稿索引相关联的多个原稿数据。由此,能够基于多页提取一个原稿。从而, 能够进一步降低错误地提取与目的不同的原稿数据的可能性。例如,即^f吏存 在互相类似的原稿的情况下,也能够提取目的的原稿数据。
本发明的原稿提取装置中,还具有在取得了多个与输入原稿数据的类似 度高的原稿数据相关联的原稿索引的情况下,或者在与多个输入原稿数据的 每一个的类似度高的原稿数据相关联的原稿索引内,取得了多个对多个输入 原稿数据共同的原稿索引的情况下,请求更多的输入原稿数据的部件。
在本发明中,原稿提取装置在存在多个与输入原稿数据的类似度高的原 稿数据相关联的原稿索引的情况下,进一 步请求与原稿的其它页对应的输入 原稿数据。由此,进一步取得与原稿的其它页对应的输入原稿数据,并且也 利用原稿的其它页缩小原稿索引的范围。通过利用多页能够进行更精确的类 似度判定,并且能够高精度地提取所需的原稿数据。
本发明的原稿提取装置中,取得部件被构成为通过光学式读取原稿从而 取得输入原稿数据。
在本发明中,原稿提取装置作为取得输入原稿数据的取得部件,具有光 学式读取原稿的扫描仪,从而通过用扫描仪读取原稿的一部分从而进行原稿 数据的提取。通过用扫描仪读取原稿的一部分,从而例如能够提取存储在经 由通信网络连接的服务器装置中的原稿数据,并且能够从照片或文本等构成 的原稿的 一部分轻松地取得原稿整体的数据。
本发明的原稿提取装置还包括与原稿索引相关联地存储用于输出该原 稿索引所表示的原稿中包含的各页所对应的原稿数据所需的规定的输出条件 的部件;判定与原稿索引相关联的输出条件是否被满足,所述原稿索引与原 稿数据提取单元所提取出的原稿数据相关联的部件;在判定为输出条件被满 足了的情况下,输出与原稿索引所表示的原稿中包含的多页对应的多个原稿 数据的部件;以及在判定为输出条件未被满足了的情况,禁止输出与原稿索 引所表示的原稿中包含的多页对应的多个原稿数据的部件。
在本发明中,原稿提取装置对各原稿索引预先决定输出条件,在输出条 件被满足了的情况下输出原稿数据,在数据条件未被满足的情况下禁止输出 原稿数据,从而仅输出对应于满足输出条件的原稿索引的原稿。在输出条件 被满足了的情况下能够输出原稿,所以通过对重要度高的原稿确定输出条件, 从而能够防止重要度高的原稿被容易地输出的情况下,能够保护原稿中含有 的秘密信息。
本发明的原稿提取装置还包括形成基于提取部件所提取了的多个原稿数 据的多个图像的部件。
在本发明中,原稿提取装置包括基于原稿数据形成图像的部件,从而能 够形成基于提取了的原稿数据的图像。使用包括数字复印机或扫描仪的复合 机等图像形成装置,能够形成基于存储在图像形成装置中的原稿数据或经由 通信网络连接到图像形成装置的服务器装置中存储的原稿数据中提取出的原 稿数据的图像,所以通过图像形成而能够轻易地取得由照片或文本等构成的 原稿。
本发明的计算机程序是用于通过计算机实现上述原稿提取装置的控制程序。
本发明的计算机可读取的记录介质记录了上述计算机程序。


图1是表示原稿提取装置的内部的功能结构的方框图。 图2是表示原稿提取处理单元的结构的方框图。 图3是表示特征点提取单元的结构的方框图。
图4是表示滤波处理单元所利用的空间滤波器的例子的说明图。
图5是表示连接区域的特征点的例子的说明图。
图6是表示对于字符串的特征点的提取结果的例子的说明图。
图7是表示关注特征点和提取出的特征点的说明图。
图8A -图8D是表示对关注特征点Pl提取3个周边特征点,并计算特 征数据的例子的说明图。
图9A-图9D是表示对关注特征点P2提取3个周边特征点,并计算特 征数据的例子的说明图。
图IO是表示存储单元所存储的原稿数据的概念图。
图11是表示将存储单元所存储的原稿数据和原稿相对应的原稿表的内 容例子的概念图。
图12是表示将存储单元所存储的原稿数据和特征数据相对应的原稿表 的内容例子的概念图。
图13是表示注册原稿数据的处理的步骤的流程图。
图14是表示提取原稿数据的处理的步骤的流程图。
图15是表示提取原稿数据的处理的步骤的流程图。
图16是表示提取原稿数据的处理的步骤的流程图。
图17是表示将存储单元所存储的原稿数据和原稿相对应的原稿表的内 容例子的概念图。
图18是表示原稿输出处理的步骤的流程图。
图19是表示原稿提取装置的内部的功能结构的方框图。
图20是表示原稿提取装置的内部结构的方框图。
具体实施例方式
以下,对于本发明,基于表示其实施方式的附图来具体进行说明。 (实施方式1 )
在实施方式1中,表示本发明的原稿提取装置为形成彩色图像的图像形 成装置的方式。图1是表示实施方式1的本发明的原稿提取装置100的内部
的功能结构的方框图。本发明的原稿提取装置100包括控制构成原稿提取装
置100的各部分的动作的控制单元11、由半导体存储器或硬盘等构成的存储 单元12、以及光学读取彩色图像的彩色图像输入单元13。彩色图像输入单元 13上连接有彩色图像处理单元2,用于进行生成与读取的彩色图像对应的图 像数据的处理。彩色图像输入单元13读取由照片或文本等构成的原稿作为彩 色图像,存储单元12存储由彩色图像输入单元13读取原稿后由彩色图形处 理单元2生成的图像数据即原稿数据。存储单元12作为本发明中的原稿存储 单元起作用,彩色图像输入单元13作为本发明中的原稿数据取得单元起作 用。此外,彩色图形处理单元2上连接有彩色图像形成单元14,用于根据由 彩色图形处理单元2生成的图像数据来形成彩色图像。彩色图像输入单元13、 彩色图形处理单元2以及彩色图像形成单元14上连接有用于接受来自使用者 的操作的操作面板15。
彩色图像输入单元13由具有CCD ( Charge Coupled Device,电荷耦合元 件)的扫描仪构成,将来自形成于纸等记录介质上的彩色图像即原稿的反射 光像分解为R (红)G (绿)B (蓝)并由CCD读取,变换为RGB的模拟信 号之后输出到彩色图形处理单元2。彩色图形处理单元2对从彩色图像输入 单元13输入的RGB的模拟信号进行后述的图像处理从而生成数字的图像数 据,进而生成由数字的C (青)M (品红)Y (黄)K (黑)信号构成的图像 数据后输出到彩色图像形成单元14。彩色图像形成单元14基于从彩色图形 处理单元2输入的图像数据,通过热转印、电子照片或喷墨等方式形成彩色 图像。操作面板15包含显示原稿提取装置100的操作所需的信息的液晶显示 器等显示单元、通过使用者的操作而接受用于控制原稿提取装置100的动作 的指示的触摸面板或数字键盘等接受单元。
彩色图形处理单元2通过A/D变换单元20将从彩色图像输入单元13输 入的模拟信号变换为数字信号,按照黑斑(shading)校正单元21、输入色阶 校正单元22、区域分离处理单元23、原稿提取处理单元24、颜色校正单元 25、 黑X反生成底色除去(black generation and under color removal)单元26、 空间滤波处理单元27、输出色阶校正单元28、色阶再现处理单元29的顺序 传送,并对彩色图像形成单元14输出由数字的CMYK信号构成的图像数据。
A/D变换单元20接受从彩色图像输入单元13输入到彩色图形处理单元 2的RGB的模拟信号,将RGB的模拟信号变换为数字的RGB信号,并将RGB信号输出到黑斑校正单元21。黑斑校正单元21对从A/D变换单元20 输入的RGB信号进行用于消除彩色图像输入单元13的照明系统、成像系统、 摄像系统中产生的各种失真的处理。黑斑校正单元21将除去了失真之后的 RGB信号输出到输入色阶校正单元22。
输入色阶校正单元22对从黑斑校正单元21输入的RGB信号调整色彩平 衡。进而,从黑斑校正单元21输入到输入色阶校正单元22的RGB信号为 RGB的反射率信号,输入色阶校正单元22将从黑斑校正单元21输入的RGB 信号变换为彩色图形处理单元2容易处理的浓度(像素值)信号等信号。输 入色阶校正单元22将进行了处理的RGB信号输出到区域分离处理单元23。
区域分离处理单元23将从输入色阶;f交正单元22输入的RGB信号所表示 的图像中的各像素分离为字符区域、网点区域、或照片(连续色阶)区域的 任一个,基于分离结果,将用于表示各像素属于哪个区域的区域识别信号输 出到黑版生成底色除去单元26、空间滤波处理单元27、色阶再现处理单元 29。区域分离处理单元23再将从输入色阶校正单元22输入的RGB信号输出 到原稿提取处理单元24。
原稿提取处理单元24与存储单元12连接并执行以下处理在与存储单 元12之间输入输出由RGB信号构成的图像数据即原稿数据的处理、以及后 述的本发明的原稿提取方法相关的处理。原稿提取处理单元24再将从区域分 离处理单元23输入的RGB信号构成的图像数据或从存储单元12输入的原稿 数据即图像数据输出到颜色校正单元25。另外,原稿提取装置IOO也可以是 不将原稿提取处理单元24设置在区域分离处理单元23的后级,而与输入色 阶校正单元22并行设置的形式。
颜色校正单元25将从原稿提取处理单元24输入的RGB信号变换为CMY 信号,为了实现色再现的忠实性,而进行将基于包含不需要吸收分量的CMY 色材的分光特性的色浊从CMY信号中除去的处理。颜色校正单元25接着将 进行了颜色校正的CMY信号输出到黑版生成底色除去单元26。
黑版生成底色除去单元26进行从颜色校正单元25输入的CMY的三色 信号生成K信号的黑版生成处理,从原来的CMY信号中减去由黑版生成处 理得到的K信号从而将CMY的三色信号变换为CMYK的四色信号。作为黑 版生成处理的一例,有通过骨架黑版(skeleton black)进行黑版生成的方法。 在该方法中,将骨架曲线的输入输出特性设为y = f (x),将变换前的数据设 为C、 M、 Y,将UCR ( Under Color Removal)率设为oc (0<oc<l),则通过 下述式子表示变换后的数据C,、 M,、 Y,、 K,。
K, = f(min(C, M, Y))
C, = CiK,
M, =M - aK,
Y, = Y - ccK'
这里,UCR率a (0<a<l )表示将CMY重叠的部分置换为K后将CMY 削减多大程度。上述第一式表示根据CMY的各信号强度内的最小的信号强 度生成K信号。黑版生成底色除去单元26将CMY信号变换后的CMYK信 号输出到空间滤波处理单元27。
空间滤波处理单元27对从黑版生成底色除去单元26输入的CMYK信号 所表示的图像,根据从区域分离处理单元23输入的区域识别信号,进行基于 数字滤波器的空间滤波处理,从而改善图像的模糊或粒状劣化。例如,空间 滤波处理单元27对于在区域分离处理单元23中分离为字符的区域,为了提 高字符的再现性,使用高频分量的强调量大的滤波器进行空间滤波处理。此 外,空间滤波处理单元27对由区域分离处理单元23分离为网点的区域进行 用于除去输入网点分量的低通滤波处理。空间滤波处理单元27接着将处理后 的CMYK信号输出到输出色阶校正单元28。
输出色阶校正单元28对从空间滤波处理单元27输入的CMYK信号进行 变换为彩色图像形成单元14的特性值即网点面积率的输出色阶校正处理,并 将输出色阶^f交正处理后的CMYK信号输出到色阶再现处理单元29。
色阶再现处理单元29基于从区域分离处理单元23输入的区域识别信号, 对从输出色阶校正单元28输入的CMYK信号进行处理,以^更能够表现对应 于区域的色阶。例如,色阶再现处理单元29对于在区域分离处理单元23中 分离为字符的区域,进行基于适于高频分量的再现的高分辨率的网板(screen ) 的二值化或多电平振动(lever dither)处理。此外,色阶再现处理单元29对 于由区域分离处理单元23分离为网点的区域,最终将图像分离为像素,从而 进行色阶再现处理,以便能够再现各个色阶。色阶再现处理单元29将处理后 的图像数据输出到彩色图像形成单元14。
彩色图像形成单元14基于从彩色图形处理单元2输入的CMYK信号构 成的图像数据,在纸等记录介质上形成CMYK的彩色图像。通过基于原稿数
据即图像数据来形成图像,从而彩色图像形成单元14输出由照片或文本等构 成的原稿。
接着,说明原稿提取处理单元24的结构以及原稿提取处理单元24所进 行的处理。图2是表示原稿提取处理单元24的结构的方框图。原稿提取处理 单元24包括提取输入的原稿数据所表示的原稿上的字符或图形等所对应的 特征点的特征点提取单元241、由特征点计算表示原稿数据的特征的特征数 据的特征(特征向量)数据计算单元242、基于特征数据对存储单元12所存 储的原稿数据进行投票的投票处理单元243、基于投票结果判定原稿数据的
原稿提取单元245。
图3是表示特征点提取单元241的结构的方框图。特征点提取单元241 包括将原稿lt据无色化的信号变换处理单元2410、将原稿lt据的分辨率变换 为规定的分辨率的分辨率变换单元2411 、对原稿数据的空间频率特性进行校 正的滤波处理单元2412、将原稿数据进行二值化的二值化处理单元2413、以 及提取字符等的重心的重心提取单元2414。
在输入的原稿数据为彩色图像数据的情况下,信号变换处理单元2410将 彩色图像无色化,变换为亮度信号或明度信号,并将变换后的原稿数据输出 到分辨率变换单元2411。例如,将各像素RGB的颜色分量的强度分别设为 Rj、 Gj、 Bj,并将各像素的亮度信号设为Yj,从而亮度信号Y可表示为Yj =0.30 xRj +0.59 xQj +0.11 xBj。另夕卜,作为其它的方法,也可以利用通过 将RGB信号变换为C正(Commission International de 1, Eclairage ) 1976L*a*b* 信号,从而使彩色图像无色化的方法。
分辨率变换单元2411为了使输入的原稿数据的分辨率成为规定的分辨 率而对原稿数据进行变倍,从而变换原稿数据的分辨率,并将原稿数据输出 到滤波处理单元2412。由此,即使在由彩色图像输入装置13将原稿进行光 学变倍而使原稿数据的分辨率变化的情况下,也可以进行特征点的提取而不 会受到其影响。此外,分辨率变换单元2411变换为比彩色图像输入装置13 以等倍时读入的分辨率小的分辨率。例如,将在彩色图像输入装置13中以 600dpi (dot per inch)读入的原稿数据变换为300dpi。由此,可以减轻后级的 处理量。
滤波处理单元2412通过图像的强调化处理和平滑化处理等对输入的原
稿数据的空间频率特性进行校正,并将校正后的图像输出到二值化处理单元
2413。为了吸收彩色图像输入单元13的空间频率特性在每个机种中的不同而 进行滤波处理单元2412中的处理。彩色图像输入单元13所包括的CCD输出 的图像信号中产生由于透镜或镜子等光学类部件、CCD的光接收面的孔径、 传送效率、残像、物理扫描的积分效果以及扫描不均等而产生图像模糊的裂 化。滤波处理单元2412通过进行边界或边缘等的强调处理,从而修复原稿数 据中产生的裂化。此外,滤波处理单元2412进行平滑处理,以抑制在后级处 理的特征点的提取处理中所不需要的高频分量。
图4是表示滤波处理单元2412所利用的空间滤波器的例子的说明图。如 图所示,空间滤波器例如具有7x7的大小,是用于进行强调处理和平滑化处 理的混合滤波器。扫描输入的原稿数据的像素,并对所有像素进行通过空间 滤波器的运算处理。另外,空间滤波器的大小不限定于7x7的大小,也可以 3x3、 5x5等大小。此外,滤波系数的数值为一例,不应限定于此,可以根 据彩色图像输入单元13的机种或特性来适当设定。
二值化处理单元2413通过将输入的原稿数据中包含的各像素的亮度值 或明度值与规定的阈值进行比较从而将原稿数据二值化,并将二值化后的原 稿数据输出到重心提取单元2414。
重心提取单元2414对从二值化处理单元2413输入的原稿数据的各像素 进行附加与二值化后的像素值对应的标签(label)的标示(labeling)。即,标 签中有两种标签,在像素值以0或1表示的情况下,对0的像素附加一种标 签,对1的像素附加另一种标签。重心提取单元2414接着确定被附加了同一 标签的像素连接的连接区域,并提取确定的连接区域的重心作为特征点,将 提取的特征点输出到特征数据计算单元242。另外,特征点可以由原稿数据 所表示的二值图像上的坐标值来表示。
图5是表示连接区域的特征点的例子的说明图。在图5中,确定了的连 接区域为字符'A,,并且被确定为被附加了同一标签的像素的集合。该字符 "A"的重心的位置为图5中黑点所示的位置,该重心为特征点。图6是表 示对于字符串的特征点的提取结果的例子的说明图。在由多个字符构成的字 符串的情况下,根据字符的种类而分别在不同的位置提取特征点。特征点不 仅可以对字符提取,同样也可以对图形或照片部分提取。另外,这里所示的 特征点的4是取方法为一例,也可以^使用其它方法4是取特4i点。例如,也可以
进行将字符串分解为单词,并提取各单词的重心作为特征点的处理。
特征数据计算单元242进行基于从特征点提取单元241输入的特征点, 计算表示输入的原稿数据的特征的特征数据的处理。这里,表示特征数据的
计算例子。特征数据计算单元242将从特征点提取单元241输入的各个特征 点按顺序作为关注特征点,并提取接近关注特征点的四个其它的特征点。
图7是表示关注特征点和提取出的特征点的说明图。特征数据计算单元 242如图7所示,将一个特征点作为关注特征点,将接近该关注特征点周边 的特征点从离关注特征点的距离近的特征点开始,依次提取规定数(这里为 4点)作为周边特征点。在图7所示的例子中,在以特征点a作为关注特征点 P的情况下,由图中的闭曲线Cl包围的特征点b、 c、 d、 e的4点被作为周 边特征点提取,在以特征点b作为关注特征点P2的情况下,由图中的闭曲线 C2包围的特征点a、 c、 e、 f的4点被作为周边特征点提取。
此外,特征数据计算单元242从提取出的周边特征点4点中提取3点的 组合。图8A-图8D是表示对关注特征点Pl提取3点的周边特征点并计算 特征数据的例子的说明图。如图8A-图8D所示,在以图7所示的特征点a 作为关注特征点Pl的情况下,提取从周边特征点b、 c、 d、 e中选择了3点 的全部组合,即,周边特征点b、 c、 d、周边特征点b、 c、 e、周边特征点b、 d、 e、周边特征点c、 d、 e的各组合。
接着,特征数据计算单元242对于提取出的各组合,计算对于几何学变 形的不变量(特征量之一)Hij。这里,i为表示关注特征点的数(i为1以上 的整数),j为表示周边特征点3点的组合的数(j为1以上的整数)。在本实 施方式中,将连接周边特征点之间的线段的长度中的两个长度之比设为不变 量Hij。另外,上述线段的长度只要基于各个周边特征点的坐标值来计算即可。
例如,图8A所示的例子中,设连接特征点b和特征点c的线段长度为 Al 1 、连接特征点b和特征点d的线段长度为B11时,不变量Hl 1由Hl 1=Al 1/ Bll求出。此外,在图8B所示的例子中,设连接特征点b和特征点c的线段 长度为A12、连接特征点b和特征点e的线段长度为B12时,不变量H12由 H12=A12/B12求出。此外,在图8C所示的例子中,设连接特征点b和特征 点d的线段长度为A13、连接特征点b和特征点e的线段长度为B13时,不 变量H13由H13= A13/B13求出。此外,在图8D所示的例子中,设连接特 征点c和特征点d的线段长度为A14、连接特征点c和特征点e的线段长度为B14时,不变量H14由H14-A14/B14求出。
这样,在图8A-图8D的例子中,不变量Hll、 H12、 H13、 H14被计算 出。在以上的例子中,将离关注特征点第l近、第2近、第3近的周边特征 点3点的组合设为j = 1,将离关注特征点第1近、第2近、第4近的周边特 征点3点的组合设为j = 2,将离关注特征点第l近、第3近、第4近的周边 特征点3点的组合设为j = 3,将离关注特征点第2近、第3近、第4近的周 边特征点3点的组合设为j = 4。此外,将3点的周边特征点中离关注特征点 最近的周边特征点和第2近的周边特征点连接的线賴:设为Aij,将离关注特征 点最近的周边特征点和第3近的周边特征点连接的线段设为Bij。另外,为了 决定周边特征点3点的组合的顺序或不变量Hij的计算所使用的线段,不限 于以上例子所使用的方法,也可以使用以连接周边特征点之间的线段的长度 为基准而决定的方法等任意的方法来决定。
接着,特征数据计算单元242计算下述式子的余数的值作为散列(hash) 值(特征数据)Hi,并存储在存储单元12中。另外,下述式子的D是根据 将余数能够取的值的范围设定为什么程度而预先设定的常数。 (Hi 1 x 103+ Hi2x 102+Hi3x 10'+ Hi4x 10。 ) /D
此外,特征数据计算单元242在对于一个关注特征点的周边特征点的提 取以及散列值Hi的计算结束之后,将其它的特征点作为下一个关注特征点, 对下一个关注特征点进行周边特征点的计算以及散列值的计算,并计算以各 特征点作为关注特征点的散列值。
在图7所示的例子中,特征数据计算单元242在以特征点a作为关注特 征点P1的周边特征点的提取以及散列值H1的计算结束之后,进行以特征点 b作为关注特征点P2的周边特征点的提取以及散列值H2的计算。如图7所 示,在以特征点b作为关注特征点P2的情况下,特征点a、 c、 e、 f的4点 被作为周边特征点而提取。
图9A-图9D是表示对关注特征点P2提取3点的周边特征点并计算特 征数据的例子的说明图。如图9A -图9D所示,特征数据计算单元242提取 周边特征点a、 c、 e、 f内的3点的组合,即,周边特征点a、 e、 f、周边特征 点a、 c、 e、周边特征点a、 f、 c、周边特征点e、 f、 c的各组合,并对各组 合计算不变量Hij。
与图8A -图8D所示的关注特征点Pl的情况同样,在关注特征点P2的
情况下,如图9A所示,通过H21二A21/B21计算不变量H21,如图9B所示, 通过H22-A22/B22计算不变量H22,如图9C所示,通过H23= A23/B23计 算不变量H23,如图9D所示,通过H24二A24/B24计算不变量H24。此外, 特征数据计算单元242由不变量H21、 H22、 H23、 H24计算散列值H2,并 存储在存储单元12中。进而,特征数据计算单元242以各特征点作为关注特 征点而重复同样的处理,并分别求以各特征点作为关注特征点的情况下的散 列值Hi,并且存储在存储单元12中。
如以上这样,特征数据计算单元242对各个特征点计算作为散列值Hi 的特征数据,并将计算出的多个特征数据作为原稿数据的特征数据。特征数 据计算单元242作为本发明中的生成单元起作用。
另外,这里所示的特征数据的计算方法为一例,也可以使用其它方法计 算特征数据。例如,也可以使用其它的规定的散列函数计算特征数据。此外, 在提取接近关注特征点的特征点时,也可以提取5点或6点等4点以外的数 的特征点来计算特征数据。此外,也可以进行从提取出的5个特征点中再提 取3个特征点,基于3点之间的距离来计算特征数据,相应于从5个特征点 中能够再提取3个特征点的组合数来计算特征数据等,对一个关注特征点计 算多个特征数据的处理。
特征数据计算单元242所计算的特征数据与原稿数据相关联由存储单元 12存储。存储单元12分别对由多页构成的每个原稿,存储与各页对应的原 稿数据,进而存储将原稿数据和原稿对应的原稿表、以及将原稿数据和特征 数据对应的特征表。存储单元12作为本发明中的特征数据存储单元起作用。
图IO是表示存储单元12所存储的原稿数据的概念图。存储了原稿中包 含的各页所对应的多个原稿数据,对各原稿数据附加了单独表示原稿数据的 ID1、 ID2、...的页索引。图11是表示存储单元12所存储的将原稿数据和原 稿对应的原稿表的内容例子的概念图。记录了单独表示原稿的Docl、Doc2、... 的原稿索引,表示原稿中包含的各页所对应的原稿数据的页索引与原稿索引 相关联记录。表中还记录了各原稿页数,与页数相同数的页索引被与原稿索 引相关联。通过页索引与原稿索引相关联,从而如图10所示,存储单元12 将原稿索引和原稿数据相互关联地存储。
图12是表示存储单元12所存储的将原稿数据和特征数据相对应的特征 表的内容例子的概念图。在图中,表示将作为散列值的特征数据作为E= 127 计算的情况下的例子。记录了 0 126的各个特征数据,原稿数据的页索引与 对该原稿数据计算出的特征数据相关联记录。由于有时在多个原稿数据中计 算出同一特征数据,所以对各特征数据关联了多个页索引。此外,由于对一 个原稿数据计算多个特征数据,所以一个原稿数据的页索引与多个特征数据 相关联。通过将页索引与特征数据相关联,从而存储单元12将特征数据以及 原稿数据互相关联地存储。
投票处理单元243基于特征数据计算单元242计算出的特征数据,;险索 存储单元12所存储的特征表,对与计算出的特征数据一致的特征数据相关联 的页索引所表示的原稿数据进行投票。在对一个特征数据关联了多个页索引 的情况下,对与该特征数据相关联的全部原稿数据进行投票。由于特征数据 计算单元242对输入的原稿数据计算多个特征数据,所以对各特征数据进行 投票,并对与输入的原稿数据类似的原稿数据进行多次投票。投票处理单元 243将对特征数据计算单元242计算出的多个特征数据进行投票的结果输出 到类似度判定处理单元244。
类似度判定处理单元244基于从投票处理单元243输入的投票结果,判 定输入的原稿数据与存储在存储单元12中的原稿数据的哪个类似,并将判定 结果输出到原稿提取单元245。具体来说,类似度判定处理单元244检查存 储单元12中存储的各原稿数据的得票数,将得票数最大的原稿数据判定为与 输入的原稿数据类似的原稿数据。或者,类似度判定处理单元244也可以将 各原稿数据的得票数除以特征数据计算单元242计算出的特征数据的数即最 大可能得票数而将得票数归 一化,将归 一化后的得票数为规定的阈值以上的 原稿数据判定为与输入的原稿数据类似的原稿数据。在存在与输入的原稿数 据类似的原稿数据的情况下,类似度判定处理单元244输出的判定结果中含 有类似的原稿数据的页索引。投票处理单元243和类似度判定处理单元244 作为本发明中的判定单元起作用。
原稿提取单元245基于从类似度判定处理单元244输入的判定结果中包 含的页索引,检索存储单元12所存储的原稿表,并取得与页索引相关联的原 稿索引。由此,确定含有被判定为与输入的原稿数据类似的原稿数据所对应 的页的原稿。原稿提取单元245接着提取与取得了的原稿索引相关联的多个 页索引所表示的多个原稿数据,并将提取出的多个原稿数据输出到颜色校正 单元25。由此,与确定了的原稿中包含的全部页对应的原稿数据被提取。原
稿提取单元245作为本发明中的提取单元起作用。
接着,说明以上的结构所构成的本发明的原稿提取装置100所执行的处 理。原稿提取装置100执行读取由多页构成的原稿从而注册原稿数据的处理、 读取原稿的 一部分从而提取与原稿的全部页对应的原稿数据的处理。从原稿
的 一部分中提取与原稿的全部页对应的原稿数据的处理是有关本发明的原稿 提取方法的处理。图13是表示注册原稿数据的处理的步骤的流程图。
原稿提取装置100的控制单元11随时等待接受用户操作操作面板15而 产生的原稿凄t据的注册指示(S11 )。在没有收到注册指示情况下(Sll:否), 控制单元11继续等待注册指示的接受。在接受了原稿数据的注册指示的情况 下(Sll:是),使用者将多页构成的原稿设置到原稿提取装置100中,彩色 图像输入单元13通过光学读取各页,从而取得由RGB信号构成的图像数据 即多个原稿数据(S12 )。彩色图像输入单元13将原稿数据输出到彩色图像处 理单元2,在彩色图像处理单元2中,按照A/D变换单元20、黑斑4交正单元 21、输入色阶校正单元22以及区域分离处理单元23的顺序来处理原稿数据, 控制单元11在存储单元12中存储原稿数据(S13 )。
在原稿提取处理单元24中,特征点提取单元241通过前述的处理对一个 原稿数据提取多个特征点(S14),特征数据计算单元242通过前述的处理对 各个特征点计算特征数据,从而计算表示一个原稿数据的特征的多个特征数 据(S15 )。控制单元11接着生成表示一个原稿数据的页索引,通过对存储单 元12中存储的原稿数据附加页索引,从而设定页索引(S16)。此时,控制单 元11根据原稿数据被输入的顺序或日期时间等,生成唯一的页索引。控制单 元11接着通过将特征数据计算单元242所计算的特征数据和原稿数据的页索 引相关联,从而如图12所示这样来更新特征表(S17)。
控制单元11接着判定对输入了的全部原稿数据关联特征数据的处理是 否结束(S18)。在还存在未进行关联特征数据的处理的原稿数据的情况下 (S18:否),控制单元11将处理返回到步骤S14,特征点提取单元241对还 未进行特征点的提取的原稿数据提取特征点。在对全部的原稿数据结束了处 理的情况下(S18:是),通过生成用于表示由与取得了的多个原稿数据对应 的多页所构成的原稿的原稿索引,从而设定原稿索引(S19)。这里,控制单 元11由日期时间等生成原稿索引。另外,控制单元11也可以进行通过操作 面板15接受使用者所希望的原稿索引的处理。
控制单元ll接着通过将生成的原稿索引和原稿数据的页索引相关联,从
而更新存储单元12所存储的原稿表(S20),并结束处理。通过以上的处理, 由多页构成的原稿的原稿数据4皮存储在存储单元12中。
图14是表示用于提取原稿数据的处理的步骤的流程图。原稿提取装置 100的控制单元11随时等待接受用户操作操作面板15而产生的原稿数据的 提取指示(S31 )。在没有收到提取指示的情况下(S31:否),控制单元11继 续等待收到提取指示。在接受了图像数据的提取指示的情况下(S31:是), 使用者将多页构成的原稿中包含的一部分页设置到原稿提取装置100中,彩 色图像输入单元13通过光学读取设置的页,从而取得由RGB信号构成的图 像数据即输入原稿数据(S32)。
彩色图像输入单元13将输入原稿数据输出到彩色图像处理单元2,在彩 色图像处理单元2中,按照A/D变换单元20、黑斑校正单元21、输入色阶 才交正单元22以及区域分离处理单元23的顺序来处理输入原稿数据,在原稿 提取处理单元24中,特征点提取单元241对输入原稿数据提取多个特征点 (S33 )。特征数据计算单元242通过对特征点提取单元241提取出的各特征 点计算特征数据,从而计算表示输入原稿数据的特征的多个特征数据(S34 )。
投票处理单元243接着对特征数据计算单元242计算出的各特征数据, 检索存储单元12所存储的特征表,并进行对与计算出的特征数据相关联的页 索引所表示的原稿数据投票的投票处理(S35)。类似度判定处理单元244基 于投票处理单元243中的投票结果,判定输入原稿数据与存储单元12中存储 的原稿数据的哪一个类似(S36)。此时,类似度判定处理单元244将得到最 低限的得票数的原稿数据内得票数最大的原稿数据,或归一化后的得票数为 规定的阈值以上原稿数据判定为与输入原稿数据的类似度高的原稿数据。
在类似度高的原稿数据(S37)。在判定结果表示没有类似度高的原稿数据的 情况下(S37:否),控制单元ll输出表示没有与使用者使彩色图像输入单元 13读取的原稿类似的原稿的信息(S38)。具体来说,控制单元11在操作面 板15的显示单元中显示表示没有类似的原稿的字符信息,或者在彩色图像形 成单元14中形成以字符表示没有类似的原稿的图像。在步骤S38结束之后, 原稿提取装置100结束提取原稿数据的处理。
在步骤S37中,在判定结果表示存在类似度高的原稿数据的情况下(S37: 是),原稿提取单元245检索存储单元12所存储的原稿表,并取得由类似度 判定处理单元244判定为与输入原稿数据的类似度高的原稿数据的页索引相 关联的原稿索引(S39)。控制单元ll接着判定是否取得了与多页对应的多个 输入原稿数据(S40 )。在取得了的输入原稿数据是与一页对应的输入原稿数 据的情况下(S40:否),原稿提取单元245提取通过原稿表与取得了的原稿 索引相关联的多个页索引所表示的多个原稿数据(S43)。由此,含有与输入 原稿数据的类似度高的原稿数据所对应的页的原稿相关的原稿数据全部被提 取。
原稿提取单元245将提取出的原稿数据输出到颜色校正单元25,按照颜 色校正单元25、黑版生成底色除去单元26、空间滤波处理单元27、输出色 阶校正单元28、色阶再现处理单元29的顺序处理原稿数据,彩色图像处理 单元2对彩色图像形成单元14输出原稿数据。彩色图像形成单元14通过形 成基于作为图像数据的多个原稿数据的图像,从而进行原稿输出处理,即输 出由与多个原稿数据对应的多页构成的原稿(S44)。在步骤S44结束之后, 原稿提取装置100结束提取原稿数据的处理。
在步骤S40中取得了与多页对应的多个输入原稿数据的情况下(S40: 是),控制单元11判定对各输入原稿数据取得了的原稿索引是否一致(S41 )。 在原稿索引不一致的情况下(S41:否),控制单元11将处理进至步骤S38, 并输出没有类似的原稿的情况。
在步骤S41中原稿索引一致的情况下(S41:是),控制单元ll判定对于 全部输入原稿数据判定类似度的处理是否结束(S42)。在还存在未进行判定 类似度的处理的输入原稿数据的情况下(S42:否),控制单元ll将处理返回 到步骤S33,特征点提取单元241对还未进行特征点的提取的输入原稿数据 提取特征点。在对全部输入原稿数据结束了处理的情况下(S42:是),原稿 提取装置100将处理进至步骤S43,提取含有与输入原稿数据的类似度高的 原稿数据对应的页的原稿相关的原稿数据并输出原稿。
另外,在以上的处理中,假设与输入原稿数据的类似度高的原稿数据为 一个,但原稿提取装置100也可以在归一化后的得票数为规定的阈值以上的 原稿数据存在多个的情况下,进行判定多个原稿数据是与输入原稿数据的类 似度高的原稿数据的处理。在该情况下,也可以进行将与多个原稿数据的每 个相关的原稿一同输出的处理,或者也可以进行在操作面板15的显示单元中
显示与被判定为类似度高的各原稿数据对应的页的图像,并让使用者选择正 当的原稿数据的处理。
如以上详细叙述的,在本发明中,原稿提取装置100将与原稿中包含的
各页对应的原稿数据存储在存储单元12中,进而,将表示原稿数据的特征的
特征数据以及表示原稿的原稿索引与原稿数据相关联地存储。原稿提取装置
100在取得了输入原稿数据的情况下,由输入原稿数据生成特征数据,基于 特征数据判定与原稿数据的类似度,取得与输入原稿数据的类似度高的原稿 数据相关联的原稿索引,并提取与取得了的原稿索引相关联的多个原稿数据。 由此,含有与被判定为与输入原稿数据类似的原稿数据对应的页的原稿被确
定,此外,与确定了的原稿中包含的所有页对应的原稿数据被提取。即,可 以基于由多页构成的原稿的一部分对应的输入原稿数据,提取与原稿的全部 页对应的原稿数据。从而,即使在由多页构成的原稿中因丢失或污染等而产 生了缺失的情况下,也能够从预先存储了原稿数据的数据库中容易地提取原 稿全部页中的原稿数据。
此外,本发明的原稿提取装置100为了判定原稿数据的类似度,预先对 一个原稿数据存储多个特征数据,对于对输入原稿数据生成的各特征数据, 对与同 一特征数据相关联的原稿数据进行投票,并将得到最大得票数或规定 量以上的投票数的原稿数据作为与输入原稿数据的类似度高的原稿数据。由 于将多个特征数据内大部分特征数据一致的原稿凄t据判定为类似度高,所以 能够进行更精确的类似度判定。从而,能够尽可能地避免由于错误地将与输 入原稿数据不类似的原稿数据判定为类似度高的原稿数据而提取出与目的不 同的原稿数据的情况。
此外,本发明的原稿提取装置取得多个输入原稿数据,在与各输入原稿 数据的类似度高的原稿数据相关联的原稿索引 一致的情况下,提取与 一致的 原稿索引相关联的多个原稿数据。由此,能够基于多页来提取原稿,并且能 够进一步降低错误地提取与目的不同的原稿数据的可能性。例如,即使在存 在互相类似的原稿的情况下也能够可靠地提取目的的原稿数据。
此外,在本发明中,从原稿数据中提取与原稿数据所表示的原稿上的字 符、图形以及照片等的重心对应的特征点,基于提取出的多个特征点的相对 的位置关系计算由数值表示的特征数据。由于通过在原稿数据之间比较这样 计算出的特征数据从而进行原稿数据的检索,所以与以往的通过比较位图数
据来进行的^r索、或者通过比较从原稿提取出的多个字符码即特征量从而进 行的检索相比,大幅地削减了进行原稿数据的4企索处理所需的数据量。从而, 在本发明中,与以往技术相比,削减了检索原稿数据的处理所需的时间。此 外,在本发明中,由于通过比较基于多个特征点的相对的位置关系求出的特 征数据,从而进行原稿数据的检索,所以不必在原稿数据之间进行图像的定 位。从而,在本发明中,与以往技术相比能够高精度地检索原稿数据。
另外,在本实施方式中,示出了处理彩色图像数据即原稿数据的方式, 但不限于此,本发明的原稿提取装置100也可以是处理单色的原稿数据的方 式。
此外,在本实施方式中,示出了作为本发明中的原稿数据取得单元而使 用了扫描仪即彩色图像输入单元13的方式,但不限于此,本发明的原稿提取 装置100也可以是包括从外部扫描仪或PC接收原稿数据的接口来作为原稿 数据取得单元的方式。此外,本发明的原稿数据不限于光学读取原稿的图像 数据,也可以是由利用应用程序的PC生成的文本数据等应用数据。在该情 况下,原稿提取装置100通过作为原稿数据取得单元的接口接受作为应用数 据的原稿数据,并执行本发明的处理。
此外,在本实施方式中,示出了进行注册取得了的原稿数据,并从注册 了的原稿数据中提取必要的原稿数据的处理的方式,但不限于此,本发明的 原稿提取装置IOO也可以是通过安装预先存储了原稿数据的存储单元12等方 法,从而不进行注册处理而进行提取原稿数据的处理的方式。此外在本实施 方式中,示出了进行从原稿提取装置100中内置的存储单元12中存储的原稿 数据中提取必要的原稿数据的处理的方式,但不限于此,本发明的原稿提取 装置100也可以是进行从由通信网络连接的存储装置或服务器装置等外部的 原稿存储单元中存储的原稿数据中提取必要的原稿数据的处理的方式。 (实施方式2)
在实施方式2中,表示在存在多个与输入图像数据的类似度高的原稿的 情况下,还取得输入图像数据从而进行图像数据的范围缩小(絞込&)的形 式。本实施方式的原稿提取装置的内部结构与使用图1~图3说明的实施方 式1的情况同样。此外,本实施方式的存储单元12中的存储内容与使用图 11和图12说明的实施方式1的情况相同。此外,本实施方式的原稿」提取装 置注册原稿数据的处理与使用图13的流程图说明的实施方式1的情况相同。
图15以及图16是表示由实施方式2的原稿提取装置进行的提取原稿数 据的处理的步骤的流程图。原稿提取装置100的控制单元11随时等待接受用 户操作操作面板15而产生的原稿数据的提取指示(S501)。在没有收到提取 指示情况下(S501:否),控制单元11继续等待收到提取指示。在接受了图 像数据的提取指示的情况下(S501:是),使用者将多页构成的原稿中包含的 一部分页设置到原稿提取装置100中,彩色图像输入单元13通过光学读取设 置的一页,从而取得由RGB信号构成的图像数据即输入原稿数据(S502)。
彩色图像输入装置13将输入原稿数据输出到彩色图像处理单元2,在彩 色图像处理单元2中,按照A/D变换单元20、黑斑校正单元21、输入色阶 -艮正单元22以及区域分离处理单元23的顺序处理输入原稿it据,在原稿提 取处理单元24中,特征点提取单元241对输入原稿数据4是取多个特征点 (S503 )。特征数据计算单元242通过对特征点提取单元241提取出的各特征 点计算特征数据,从而计算表示输入原稿数据的特征的多个特征数据(S504 )。
投票处理单元243接着对特征数据计算单元242计算出的各特征数据, ^f企索存储单元12存储的特征表,进行对与计算出的特征数据相关联的页索引 所表示的原稿数据进行投票的投票处理(S505 )。类似度判定处理单元244基 于投票处理单元243中的投票结果,判定输入原稿数据与存储单元12中存储 的原稿数据的哪一个类似(S506)。步骤S506中,类似度判定处理单元244 将被归一化后的得票数为规定的阈值以上的原稿数据判定为与输入原稿数据 的类似度高的原稿数据。
控制单元11接着判定类似度判定处理单元244中的判定结果是否表示存 在与输入原稿数据的类似度高的原稿数据(S507 )。在判定结果表示没有类似 度高的原稿数据的情况下(S507:否),控制单元11输出表示没有与使用者 使彩色图像输入单元13读取的原稿类似的原稿的信息(S508 )。在步骤S508 结束之后,原稿提取装置100结束提取原稿数据的处理。
在步骤S507中,在判定结果表示存在与输入原稿数据的类似度高的原稿 数据的情况下(S507:是),原稿提取单元245检索存储单元12所存储的原 稿表,并取得由类似度判定处理单元244判定为与输入原稿数据的类似度高 的原稿数据的页索引相关联的原稿索引(S509)。在存在多个与输入原稿数据 的类似度高的原稿数据的情况下,在步骤S509中取得多个原稿索引。控制单 元11接着判定当前处理中的输入原稿数据是否是读取了由多页构成的原稿
内第2页以后的页而得的输入原稿数据(S510)。在当前处理中的输入原稿数 据为读取原稿的第1页而得的输入原稿数据的情况下(S510:否),控制单元 11判定在步骤S509中取得的原稿索引是否存在多个(S515)。在步骤S509 中取得的原稿索引为一个的情况下(S515:否),原稿提取单元245提取通过 原稿表与取得了的原稿索引相关联的多个页索引所表示的多个原稿数据 (S516)。
原稿提取单元245将提取出的原稿数据输出到颜色校正单元25,按照颜 色校正单元25、黑版生成底色除去单元26、空间滤波处理单元27、输出色 阶校正单元28、色阶再现处理单元29的顺序处理原稿数据,彩色图像处理 单元2对彩色图像形成单元14输出原稿数据。彩色图像形成单元14通过形 成基于作为图像数据的多个原稿数据的图像,从而进行原稿输出处理,即输 出由与多个原稿数据对应的多页构成的原稿(S517 )。在步骤S517结束之后, 原稿提取装置100结束提取原稿数据的处理。
在步骤S510中,在当前处理中的输入原稿数据为读取原稿的第2页以后 的页所得的输入原稿数据的情况下(S510:是),控制单元11判定关于目前 为止从原稿读取的页所对应的输入原稿数据取得的原稿索引内是否存在目前 为止读取的全页相同的原稿索引(S511)。在没有对全页相同的原稿索引的情 况下(S511:否),控制单元11将处理进至步骤S508,输出没有类似的原稿 的情况。
在存在目前为止读取的全页相同的原稿索引的情况下(S511:是),控制 单元11判定是否存在多个全页相同的原稿索引(S512)。在对全页相同的原 稿索引为一个的情况下(S512:否),控制单元11将处理进至步骤S516,原 稿提取单元245提取与取得了的原稿索引相关联的多个页索引所表示的多个 原稿数据(S516),彩色图像形成单元14进行将与多个原稿数据对应的多页 所构成的原稿进行输出的原稿输出处理(S517 ),原稿提取装置100结束处理。
在步骤S515中,在存在多个取得了的原稿索引的情况下(S515:是), 或者在步骤S512中,存在多个到目前为止读取的全页相同的原稿索引的情况 下(S512:是),控制单元11进行将表示提供原稿的其它页的信息输出的处 理(S513 )。具体来说,控制单元11在操作面板15的显示单元中显示请求读 取原稿中包含的新的页的字符信息。
控制单元11接着判定用户是否将原稿中包含的其它页设置在原稿提取
装置100中(S514)。在原稿中包含的其它页被设置在原稿提取装置100中的 情况下(S514:是),控制单元11将处理返回到步骤S502,彩色图像输入单 元13取得与原稿中包含的其它页对应的输入原稿数据。
在原稿中包含的其它页未被设置在原稿提取装置100中的情况下(S514: 否),控制单元11将处理进至步骤S516。另外,在步骤S514中,也可以在 步骤S513的处理结束后,即使经过规定时间,原稿的其它页也未被设置的情 况下,或者通过用户操作操作面板15而接受了原稿读取的结束指示的情况 下,控制单元11进行判定为未设置原稿的其它页的处理。控制单元11通过 将处理进至步骤S516,从而原稿提取单元245提取与对目前为止读取的全页 相同的多个原稿索引分别相关联的各页索引所示的原稿数据(S516),彩色图 像形成装置14进行将与提取出的原稿数据对应的原稿输出的原稿输出处理 (S517)。由此,原稿提取装置IOO输出与多个原稿索引对应的多个原稿。步 骤S517结束之后,原稿提取装置100结束处理。
如上面详细所述的,本实施方式的原稿提取装置中,在与对应于原稿内 读取的页的输入原稿数据的类似度高的原稿数据相关联的原稿索引存在多个 的情况下,请求与原稿的其它页对应的输入原稿数据,并取得读取原稿的其 它页所得的输入图像数据。进而,本实施方式的原稿提取装置取得对读取的 全部页共同地取得与输入原稿数据的类似度高的原稿数据相关联的原稿索 引,并提取与取得了的原稿索引相关联的多个原稿数据。由此,在被判定为 与输入原稿数据类似的原稿数据的原稿索引存在多个的情况下,也利用原稿 的其它页进行原稿索引的范围压缩,并重复进行范围压缩直到确定与输入原 稿数据类似的原稿数据的原稿索引为止。从而,通过利用多页从而能够进行 更精确的类似度判定,并且能够高精度地提取所需的原稿数据。 (实施方式3 )
在实施方式1和2中,示出了基于与一页对应的输入原稿数据能够输出 任何一个原稿的方式,但在实施方式3中,示出对特定的原稿使输出条件更 加严格的方式。本实施方式的原稿提取装置的内部结构与使用图1~图3说 明的实施方式1的情况相同。
图17是表示实施方式3的存储单元12所存储的、将原稿数据和原稿对 应的原稿表的内容例子的概念图。与单独表示原稿的Docl、 Doc2、...的原稿 索引相关联地记录了页索引和页数,而且为了输出原稿所需的输出条件与原
稿索引相关联地被记录。在图17所示的例子中,对于Docl Doc4的原稿索 引没有关联输出条件,对于Doc21以及Doc51的原稿索引关联了输出条件。 对于Doc21的原稿索引,作为输出条件,关联了与原稿索引相关联的ID21 ~ ID28的页索引内ID21以及ID25对应的原稿数据都与输入原稿数据类似的情 况。而且,对于Doc51的原稿索引,作为输出条件,关联了与原稿索引相关 联的ID51-ID55的页索引内三个以上的页索引对应的原稿数据与输入原稿 数据类似的情况。此外,本实施方式的存储单元12存储的将原稿数据和特征 数据相对应的特征表的内容与使用图12说明的实施方式1的情况相同。
此外,本实施方式的原稿提取装置注册原稿数据的处理与使用图13的流 程图说明的实施方式1的情况同样。此外,本实施方式的原稿提取装置进行 的提取原稿数据的处理与使用图14的流程图说明的实施方式1的情况,或者 使用图15和图16说明的实施方式2的情况大致同样,但是步骤S44或步骤 S517的原稿输出处理的内容与实施方式1或2不同。
图18是表示实施方式3的原稿提取装置所进行的原稿输出处理的步骤的 流程图。本实施方式的原稿提取装置100在提取原稿数据的处理中,执行图 14所示的步骤S31 ~S43、或者图15以及图16所示的步骤S501 S516的处 理。在步骤S44或步骤S517的原稿输出处理中,控制单元11首先选择与原 稿提取单元245在步骤S43或步骤S516中提取的原稿数据内 一个原稿数据相 关联的原稿索引(S61 )。控制单元11接着检索存储单元12中存储的原稿表, 判定选择了的原稿索引上是否关联有输出条件(S62)。在选择了的原稿索引 上关联有输出条件的情况下(S62:是),控制单元11判定与原稿索引相关联 的输出条件是否被满足(S63)。
例如,在图17所示的Doc21的原稿索引被选择了的情况下,在步骤S37 或步骤S507中,与ID21以及ID25对应的原稿数据都被判定为与输入原稿数 据类似的原稿数据时,判定为输出条件被满足。在与ID21以及ID25的任何 一个对应的原稿数据未被判定为与输入原稿数据类似的原稿数据时,判定为 输出条件未被满足。此外,在Doc51的原稿索引被选择了的情况下,在步骤 S37或步骤S507中,与ID51 -ID55的页索引内三个以上的页索引对应的原 稿数据都被判定为与输入原稿数据类似的原稿数据时,判定为输出条件被满 足。在仅小于三个的页索引所对应的原稿数据被判定为与输入原稿数据类似 的原稿数据时,判定为输出条件未被满足。
在步骤S62中,在原稿索引上未关联输出条件的情况下(S62:否),或 者在步骤S63中在原稿索引上关联的输出条件被满足的情况下(S63:是), 彩色图像形成单元14通过形成基于与选择了的原稿索引相关联的各页索引 所表示的原稿数据的图像,从而输出与选择了的原稿索引对应的原稿(S64)。 例如,与图17所示的Docl -Doc4的原稿索引对应的原稿未被决定输出条件, 所以被无条件输出。此外,与Doc21以及Doc51的原稿索引对应的原稿在满 足了输出条件的情况下被输出。在步骤S64结束之后,控制单元ll将处理进 至下一步骤S65。在步骤S63中,在与原稿索引相关联的输出条件未被满足 的情况下(S63:否),不输出与选择了的原稿索引对应的原稿,而由控制单 元11将处理进至下一步骤S65。这样,控制单元11禁止输出未满足输出条 件的原稿数据。
控制单元11接着判定对步骤S43或步骤S516中提取的全部原稿数据的 处理是否结束(S65)。在还有尚未结束处理的原稿lt据的情况下(S65:否), 控制单元11将处理返回至步骤S61,并选"t奪在与步骤S43或步骤S516中提 取的原稿数据相关联的原稿索引内尚未被选择的原稿索引。在对步骤S43或 步骤S516中提取的全部原稿数据的处理结束了的情况下(S65:是),控制单 元11结束原稿输出处理并将处理返回到提取原稿数据的处理。在原稿输出处 理结束之后,原稿提取装置100结束提取原稿数据的处理。
如以上所详细叙述的,本实施方式的原稿提取装置对各原稿索引预先决 定输出条件,在进行原稿输出处理时,仅输出满足输出条件的原稿索引所对 应的原稿。在实施方式1和2中,由于能够基于与一页对应的输入原稿数据 输出原稿,所以即使是包含秘密信息这样的重要度高的原稿,也可能根据原 稿的一页而容易地输出全部原稿页。在本实施方式中,原稿提取装置对于被 决定了输出条件的原稿,在满足输出条件的情况下进行输出,所以通过对重 要度高的原稿决定输出条件,从而能够防止重要度高的原稿被容易地输出。
例如,作为输出条件,需要在多页中判定为输入原稿数据和原稿数据类 似,从而能够防止基于原稿的一页输出重要度高的原稿的全部页。此外,作 为输出条件,需要判定为输入原稿数据和特定原稿数据类似,从而未具有原 稿的特定页的使用者不能从原稿提取装置中提取原稿。作为特定的原稿数据, 注册用于表示与由多页构成的原稿的主要内容没有关联性的用于核对的内容 的原稿数据即可。作为用于核对的内容,在原稿的主要内容为日文的情况下,
最好将用于核对的内容设为英文等,与原稿的主要内容完全不同的格式。
通过以上,本实施方式的原稿提取装置对于具有用于核对的特定的原稿 数据的特定的使用者能够提取被决定了输出条件的原稿,不具有用于核对的 特定的原稿数据的其它使用者不能输出重要度高的原稿。从而,在本实施方 式中,通过对含有秘密信息的重要度高的原稿预先决定输出条件,从而能够 保护原稿中包含的秘密信息。 (实施方式4)
在实施方式1-3中,示出了本发明的原稿提取装置为图像形成装置的方 式,但在实施方式4中,示出本发明的原稿提取装置为扫描仪装置的方式。 图19是表示实施方式4的本发明的原稿提取装置300的内部功能结构的方框 图。本发明的原稿提取装置300包括控制构成原稿提取装置300的各部分的 动作的控制单元31、由半导体存储器或硬盘等构成的存储单元32、以及光学 读取彩色图像的彩色图像输入单元33。彩色图像输入单元33上连接有A/D 变换单元34, A/D变换单元34上连接有黑斑校正单元35,黑斑校正单元35 上连接有原稿提取处理单元36。原稿提取处理单元36上连接有将原稿数据 发送到外部的发送单元37。存储单元32、彩色图像输入单元33、 A/D变换 单元34、黑斑校正单元35、原稿提取处理单元36以及发送单元37连接到控 制单元31,而且控制单元31上连接有用于接受来自使用者的操:作的操作单 元38。
存储单元32与实施方式1 ~3中说明的原稿提取装置100所包括的存储 单元12同样,对分别由多页构成的每个原稿存储与各页对应的原稿数据,而 且存储了将原稿数据和原稿对应的原稿表,以及将原稿数据和特征数据对应 的特征表。此外,发送单元37上连接有外部的PC或图像形成装置等。
彩色图像输入单元33由具有CCD的扫描仪构成,将来自原稿的反射光 像分解为RGB并由CCD读取,变换为RGB的模拟信号之后输出到A/D变 换单元34。 A/D变换单元34将RGB的模拟信号变换为数字的RGB信号, 并将RGB信号输出到黑斑校正单元35。
黑斑校正单元35对从A/D变换单元34输入的RGB信号进行用于消除 彩色图像输入单元33的照明系统、成像系统、摄像系统中产生的各种失真的 处理。黑斑校正单元35进行调整RGB信号的色彩平衡的处理,并进行将RGB 的反射率信号变换为浓度信号的处理。黑斑校正单元35接着将处理后的RGB
信号构成的图像数据即原稿数据输出到原稿提取处理单元36。
原稿提取处理单元36被构成为与实施方式1 ~ 3所说明的原稿提取装置 100所包括的原稿提取处理单元24相同,并且与原稿提取处理单元24执行 同样的处理。即,原稿提取处理单元36将从黑斑校正单元35输入的原稿数 据作为输入原稿数据,进行与图14或图15和图16的流程图所示的处理同样 的处理,从存储单元32提取包含与输入原稿数据类似度高的原稿数据对应的 页的原稿相关的多个原稿数据。
控制单元31通过将原稿提取处理单元36提取出的多个原稿数据通过发 送单元37发送到外部,从而输出提取出的原稿数据。发送单元37对外部的 PC或图像形成装置等装置发送多个原稿数据,外部的装置执行基于多个原稿 数据形成图像等处理。
如上面所详细叙述的,在本实施方式中,也与实施方式l-3同样,基于 与多页所构成的原稿的一部分对应的输入原稿数据,能够提取与原稿的全部 页对应的原稿数据。从而,在本实施方式中,即使在由多页构成的原稿中因 丟失或污染等而产生缺失的情况下,也能够从预先存储了原稿数据的数据库 中容易地提取原稿的全部页中的原稿数据。 (实施方式5)
在实施方式5中,示出使用通用的计算机实现本发明的原稿提取装置的 方式。图20是表示实施方式5的本发明的原稿提取装置400的内部结构的方 框图。本实施方式的本发明的原稿提取装置400使用PC等通用计算机构成, 包括进行运算的CPU41、存储伴随运算而产生的临时信息的RAM42、从光 盘等本发明的记录介质5中读取信息的CD-ROM驱动器等驱动单元43、硬 盘等存储单元44。 CPU41使驱动单元43从本发明的存4诸介质5读出本发明 的计算机程序51 ,并将读取的计算机程序51存储在存储单元44中。计算机 程序51根据需要而从存储单元44被加载到RAM42, CPU41基于加载的计 算机程序51对原稿提取装置400执行必要的处理。
此外,原稿提取装置400包括输入由用户操作而产生的各种处理指示等 信息的键盘或指示装置等输入单元45、显示各种信息的液晶显示器等显示单 元46。而且,原稿提取装置400包括与图像形成装置等输出原稿的外部的输 出装置61连接的发送单元47、与扫描器装置等输入原稿数据的外部的输入 装置62连接的接收单元48。发送单元47将原稿数据发送到输出装置61,输 出装置61基于原稿数据输出原稿。输入装置62光学读取原稿并生成原稿数 据,将生成的原稿数据发送到原稿提取装置400,接收单元48接收从输入装 置62发送的原稿数据。接收单元48作为本发明中的原稿数据取得单元而起 作用。
存储单元44与实施方式1-3中说明的原稿提取装置100所包括的存储 单元12同样,对分别由多页构成的每个原稿存储与各页对应的原稿数据,而 且,存储了将原稿数据和原稿对应的原稿表,以及将原稿数据和特征数据对 应的特征表。
CPU41将本发明的计算机程序51载入RAM42中,并按照载入了的计算 机程序51执行本发明的原稿提取方法的处理。即,在通过接收单元48从输 入装置62输入了原稿数据的情况下,将输入的原稿数据作为输入原稿数据, CPU41进行与图14、或图15和图16的流程图所示的处理同样的处理,并从 存储单元44中提取含有与输入原稿数据类似度高的原稿数据对应的页的原 稿相关的多个原稿数据。CPU41将提取出的多个原稿数据从发送单元47发送 到输出装置61,输出装置61基于原稿数据输出由多页构成的原稿。另外, CPU41也可以进行作为原稿数据来处理利用应用程序而生成的文本数据等应 用数据的处理。
如以上所详细叙述的,在本实施方式中,也与实施方式1 4同样,基于 与由多页构成的原稿的一部分对应的输入原稿数据,能够提取与原稿的全部 页对应的原稿数据。从而,在本实施方式中,即使在由多页构成的原稿中因 丟失或污染等而产生缺失的情况下,也能够从预先存储了原稿数据的数据库 中容易地提取原稿的全部页中的原稿数据。
另外,在本实施方式中,示出了进行从原稿提取装置400中内置的存储 单元44中存储的原稿数据中提取必要的原稿数据的处理的方式,但不限于 此,本发明的原稿提取装置400也可以是从由通信网络连接的存储装置或服 务器装置等未图示的外部的原稿存储单元中存储的原稿数据中提取必要的原 稿数据的处理的方式。
另夕卜,记录了本发明的计算机程序51的本发明的记录介质5可以是磁带、 磁盘、移动型硬盘、CD - ROM/MO/MD/DVD等光盘、或IC卡(包含存储卡) /光卡等卡型记录介质的任何一种方式。此外,本发明的记录介质5也可以是 安装在原稿提取装置400中,CPU41能够读出记录介质5的记录内容的半导
体存储器、即掩才莫ROM、EPROM( Erasable Programmable Read Only Memory )、 EEPROM ( Electrically Erasable Programmable Read Only Memory )、闪存ROM等。
此外,本发明的计算机程序51也可以是从经由互联网或LAN等通信网 络连接到原稿提取装置400的未图示的外部的服务器装置下载到原稿提取装 置400并存储在存储单元44中的方式。在该方式的情况下,下载计算^L程序 51所需的程序预先存储在存储单元44中,或者从规定的记录介质使用驱动 单元43读出后存储在存储单元44中,并根据需要而载入到RAM42中即可。
权利要求
1.一种原稿提取方法,从存储的原稿数据中提取特定的原稿数据,其特征在于,具有将表示由多页构成的原稿的原稿索引与对应于包含在所述原稿中的各页的原稿数据相关联地存储的步骤;将基于从原稿数据中提取的特征点计算的、表示所述原稿数据的特征的特征数据,与所述原稿数据相关联地存储的步骤;取得作为新的原稿数据的输入原稿数据的步骤;从取得了的输入原稿数据中提取特征点的步骤;基于提取出的特征点生成表示输入原稿数据的特征的特征数据的步骤;通过将生成了的特征数据和存储的特征数据进行比较,从而判定与存储的特征数据相关联的原稿数据和输入原稿数据的类似度的步骤;取得与被判定为是与输入原稿数据的类似度高的原稿数据的原稿数据相关联的原稿索引的步骤;以及提取与取得了的原稿索引所表示的原稿中包含的多页对应的多个原稿数据的步骤。
2. —种原稿提取装置,包括用于存储原稿数据的原稿存储单元,从该原稿 存储单元所存储的原稿数据中提取特定的原稿数据,其特征在于,包括原稿索引存储单元,将表示由多页构成的原稿的原稿索引与对应于包含 在所述原稿中的各页的原稿数据相关联地存储;特征数据存储单元,将基于从原稿数据中提取的特征点计算的、表示所 述原稿数据的特征的特征数据,与所述原稿数据相关联地存储;原稿数据取得单元,取得作为新的原稿数据的输入原稿数据;特征点提取单元,从该原稿数据取得单元所取得了的输入原稿数据中提 取特征点;生成单元,基于该特征点提取单元所提取出的特征点生成表示输入原稿 数据的特征的特征数据;判定单元,通过将该生成单元所生成了的特征数据和所述特征数据存储 单元所存储的特征数据进行比较,从而判定与所述特征数据存储单元所存储 的特征数据相关^:的原稿数据和输入原稿数据的类似度; 原稿索引取得单元,取得与被所述判定单元判定为是与输入原稿数据的类似度高的原稿数据的原稿数据相关联的原稿索引;以及原稿数据提取单元,提取与该原稿索引取得单元所取得了的原稿索引所 表示的原稿中包含的多页对应的多个原稿数据。
3. 如权利要求2所述的原稿提取装置,其特征在于, 所述特征数据存储单元与一个原稿数据相关联地存储表示该原稿数据的特征的多个特征数据,所述生成单元生成表示输入原稿数据的特征的多个特征数据, 所述判定单元具有投票单元,对于所述生成单元所生成了的多个特征数据的每一个,对与 该特征数据一致的特征数据相关联的原稿数据进行投票;以及判断单元,将所述原稿存储单元所存储的原稿数据内、得票数最大的原 稿数据或得票数为规定量以上的原稿数据判断为与输入原稿数据的类似度高 的原稿数据。
4. 如权利要求2或3所述的原稿提取装置,其特征在于, 所述原稿数据取得单元取得多个输入原稿数据,所述判定单元对于多个输入原稿数据的每一个,判定所述原稿存储单元 所存储的原稿数据和输入原稿数据的类似度,在与多个输入原稿数据的每一个的类似度高的原稿数据相关联的原稿索 引互相一致的情况下,所述原稿数据提取单元提取与该原稿索引所表示的原 稿中包含的多页对应的多个原稿数据。
5. 如权利要求4所述的原稿提取装置,其特征在于, 还包括请求单元,在取得了多个与输入原稿数据的类似度高的原稿数据相关联的原稿索引的情况下,或者在与多个输入原稿数据的每一个的类似度 高的原稿数据相关联的原稿索引内,取得了多个对所述多个输入原稿数据共 同的原稿索引的情况下,请求更多的输入原稿凝:据。
6. 如权利要求2或3所述的原稿提取装置,其特征在于, 所述原稿数据取得单元通过光学读取原稿从而取得输入原稿数据。
7. 如权利要求2所述的原稿提取装置,其特征在于,还包括输出条件存储单元,与原稿索引相关联地存储用于输出该原稿索引所表 示的原稿中包含的各页所对应的原稿数据所需的规定的输出条件;输出条件判定单元,判定与原稿索引相关联的输出条件是否被满足,所述原稿索引与所述原稿数据提取单元所提取出的原稿数据相关联;输出单元,在判定为所述输出条件被满足了的情况下,输出与原稿索引 所表示的原稿中包含的多页对应的多个原稿数据;以及禁止单元,在判定为所述输出条件未被满足了的情况下,禁止输出与原 稿索引所表示的原稿中包含的多页对应的多个原稿数据。
8.如权利要求2所述的原稿提取装置,其特征在于,还包括图像形成单元,形成基于所述原稿数据提取单元所提取出的多个 原稿数据的多个图像。
全文摘要
存储与原稿中包含的各页对应的原稿数据,进而将表示原稿数据的特征的特征数据以及表示原稿的原稿索引与原稿数据相关联。原稿提取装置取得输入原稿数据,从输入原稿数据计算特征数据,基于特征数据判定与原稿数据的类似度,取得与输入原稿数据类似的原稿数据相关联的原稿索引,并提取与原稿索引相关联的多个原稿数据。在多页中提取原稿有关的原稿数据,所述原稿包含对应于与输入原稿数据类似的原稿数据的页。
文档编号G06K9/20GK101354717SQ20081013169
公开日2009年1月28日 申请日期2008年7月23日 优先权日2007年7月24日
发明者广畑仁志 申请人:夏普株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1