文档分析系统、图像处理装置以及分析服务器的制造方法

文档序号:10724894阅读:375来源:国知局
文档分析系统、图像处理装置以及分析服务器的制造方法
【专利摘要】本发明提供一种文档分析系统、图像处理装置以及分析服务器。图像处理装置被构造为从通过扫描文档而获得的图像数据提取文本数据,并向分析服务器顺次发送所提取的文本数据的分割片段,直到从分析服务器接收到针对图像数据的候选存储位置为止。分析服务器被构造为基于所发送的文本数据的分割片段进行分析,并根据候选存储位置的确定,向图像处理装置返回候选存储位置。
【专利说明】
文档分析系统、图像处理装置以及分析服务器
技术领域
[0001]本发明涉及将通过扫描而获得的图像数据存储到预定的存储位置中的技术。【背景技术】
[0002]近年来,在诸如法律事务所等的、处理大量纸质文档的商业领域中,已考虑过如下的系统,该系统利用配备有扫描功能的图像处理装置,将纸质文档转换为电子图像数据,并在与纸质文档的图像数据相关的存储位置中对纸质文档的图像数据进行分类和管理。为了选择用于存储所扫描的纸质文档的图像数据的存储位置,已经采用了如下的方法,在该方法中,用户手动指定存储位置,或者通过利用诸如过去使用的历史存储位置、预先登记的书签等来选择存储位置。
[0003]同样,也考虑过如下的方法,该方法包括通过使用从文档数据提取的字符串来搜索关于存储位置的属性信息,并将基于搜索结果识别的存储位置作为候选存储位置呈现给用户(参见日本特开2008-234078号公报)。
[0004]在此,图像处理装置可以将通过扫描而获得的纸质文档的文本数据,发送到如日本特开2008-234078号公报中所描述的信息处理装置,并且该信息处理装置可以向发送者通知候选存储位置。然而,在该方法中,上述处理可能会花费时间。例如,在所扫描的纸质文档有很多页的情况下,信息处理装置可能只能在等待所有文本数据被接收之后才进行搜索处理,或者可能需要时间来进行基于大量文本数据的搜索处理。因此,存在如下的问题,即, 在向用户呈现合适的存储位置之前需要花费时间。
【发明内容】

[0005]根据本发明的文档分析系统是包括图像处理装置和分析服务器的文档分析系统, 其中,所述图像处理装置包括:提取单元,其被构造为从通过扫描文档而获得的图像数据提取文本数据;第一发送单元,其被构造为向所述分析服务器顺次发送文本数据的分割片段, 直到从所述分析服务器接收到针对所述图像数据的候选存储位置为止;选择单元,其被构造为呈现从所述分析服务器接收到的所述候选存储位置,并提示用户选择存储位置;以及第二发送单元,其被构造为向由用户选择的所述存储位置发送所述图像数据,并且,其中, 所述分析服务器包括:分析单元,其被构造为通过对从所述第一发送单元顺次发送的文本数据的分割片段顺次进行分析,来获得候选存储位置;以及返回单元,其被构造为在所述分析单元获得了候选存储位置时,向所述图像处理装置返回候选存储位置。
[0006]根据以下(参照附图)对示例性实施例的描述,本发明的其他特征将变得清楚。【附图说明】
[0007]图1是示出根据实施例的系统的构造示例的图。
[0008]图2是示出实施例中的图像处理装置的硬件构造的框图。
[0009]图3是示出实施例中的分析服务器和文件服务器中的各个的硬件构造的图。
[0010]图4是用于描述实施例中的分析服务器的软件构造的图。
[0011]图5是用于描述实施例中的向图像处理装置提供的应用的软件构造的图。
[0012]图6是实施例中的图像处理装置的操作显示单元的示例。[〇〇13]图7是实施例中的图像处理装置的操作显示单元的示例。[〇〇14]图8是示出图8A和图8B之间的关系的图。[0〇15]图8A和图8B是实施例中的处理的整体序列图。
[0016]图9是用于提示用户从候选存储位置中选择合适的存储位置信息的窗口的示例。 [〇〇17]图10是示出图10A和图10B之间的关系的图。[〇〇18]图10A和图10B是实施例中的文本分析处理的整体流程图。
[0019]图11示出图11A和图11B之间的关系的图。
[0020]图11A和图11B是示出在要发送的数据基于文本大小被改变的另一实施例中的处理的整体流程图。【具体实施方式】
[0021]下面将参照附图详细描述本发明的实施例。请注意,在下面的实施例中要示出的构造仅仅是示例,本发明不限于所示的构造。[〇〇22][实施例1]
[0023]图1是示出本实施例中的文档分析系统的示例的构造示例。该系统包括经由网络 100相互连接的图像处理装置101、分析服务器102以及文档服务器103。网络100是用于在该些装置之间进行通信的基础设施,可以是局域网、因特网或者不同的网络系统。[〇〇24]图像处理装置101被构成为例如配备有web浏览器功能等的多功能外围设备 (MFP)。同样地,图像处理装置101可以通过本地IP地址来管理。在这种情况下,在网络100和图像处理装置101之间存在网关(未示出),并且网关进行地址转译。网关例如包括路由器等。同样地,网关或图像处理装置101可以配备有防火墙功能。分析服务器102用以获得存储在文件服务器103中的文件,从其中提取关键字,并将其存储在数据库(DB)中。分析服务器 102还用以将DB中存储的关键字和从比较对象文本数据中提取的关键字进行比较,并呈现存储有与文本数据相似的文件的候选存储位置。文件服务器103用以保存诸如通过扫描纸质文档而获得的图像数据等的文件。文件服务器103根据来自图像处理装置101或分析服务器102的请求来存储文件,或者获得并发送所存储的文件。[〇〇25]图2是示出图像处理装置101的硬件构造的示例性框图。图像处理装置101包括控制单元218、网络单元216、图像存储器217、HDD 219、操作显示单元212、扫描器单元213、以及打印机单元214。控制单元218包括CPU 220、R0M 221、以及RAM 222。[〇〇26]控制单元218被构造为对图像处理装置101的整体操作进行控制。CPU 220被构造为读出在ROM 221中存储的控制程序,并进行诸如读出控制和发送控制等的各种控制处理。 RAM 222被用作针对CPU 220的、诸如主存储器或工作区域的临时存储区域。控制单元218也被构造为对操作显示单元212、扫描器单元213、打印机单元214以及网络单元216的操作进行控制。控制单元218还被构造为从图像存储器217和HDD 219读出各种类型的数据,并将各种类型的数据写到图像存储器217和HDD 219。[〇〇27]在操作显示单元212中,配置有诸如配备了触摸屏功能的液晶显示器、键盘以及其他相关部件等的显示单元。操作显示单元212在操作显示单元212上显示操作窗口。扫描器单元213被构造为通过扫描原稿的图像来生成图像数据,并向控制单元218输出该图像数据。打印机单元214被构造为将从控制单元218输出的图像数据打印到片材上。
[0028]网络单元216被构造为向指定位置发送从由扫描器单元213读取的所保存的图像数据中提取的文本数据。网络单元216也被构造为从外部信息处理装置(未示出)接收打印图像数据,并通过将控制单元218连接到网络100来接收要在操作显示单元212上显示的图像数据。[〇〇29] HDD 219被构造为存储图像数据和各种程序。本实施例中的各种程序也存储在HDD 219中。请注意,从外部信息处理装置接收到的打印图像数据被临时存储在图像存储器217 中,并经由控制单元218通过打印机单元214进行打印。
[0030]图3是本实施例中的分析服务器102和文件服务器103中的各个的示例性硬件构造图。分析服务器102和文件服务器103中的各个包括:CPU 301,其被构造为控制服务器;RAM 302,为CPU 301提供工作区域;存储单元303,其被构造为存储在服务器上运行的程序及设定;以及网络单元304,其被构造为经由网络100与其他装置进行通信;以及主总线300。 [〇〇31] 请注意,除非另外注明,对本实施例进行实施,使得CPU 301经由主总线300对RAM 302、存储单元303以及网络单元304进行控制。
[0032]图4是用于描述本实施例中的分析服务器102的软件构造的图。图4中示出的各功能单元通过由分析服务器102的CPU 301运行的控制程序来实施。[0〇33] 分析服务器102包括通信单元401、分析请求接收处理单元402、分析请求处理单元 403、爬行器单元404、爬行器结果处理单元405、关键字提取单元406、以及文件信息DB单元 407 〇[〇〇34] 爬行器单元404被构造为经由通信单元401,对文件服务器103中存储的文件(电子数据)以及表示文件的存储位置的信息进行收集。各存储位置例如是存储文件的文件夹等。 表示该存储位置的信息是文件夹的名称、关于指向文件夹的路径的信息等。爬行器单元404 被构造为对关于要存储在文件服务器103中的新文件或更新的文件的信息进行收集。爬行器单元404不对关于已收集的文件的信息进行收集。爬行器单元404被构造为将收集到的文件及它们的存储位置信息传递到爬行器结果处理单元405。[〇〇35] 爬行器结果处理单元405被构造为将从爬行器单元404接收到的文件传递到关键字提取单元406,并接收作为响应的、从文件提取的关键字提取结果。爬行器结果处理单元 405被构造为随后将从关键字提取单元406接收到的关键字提取结果、以及相应的存储位置信息保存到文件信息DB单元407中。因此,在文件信息DB单元407中,与存储在它们各自存储位置中的文件相对应的合适关键字,与文件的存储位置信息相关联地被保存。
[0036]关键字提取单元406被构造为进行从文本数据或所接收到的文件提取关键字信息的处理。关键字提取单元406也被构造为进行对关键字等出现的数量进行计数的处理。例如,关键字提取单元406从文件的属性信息提取关键字,或对文档文件的文本数据进行分析。然后,关键字提取单元406通过利用诸如出现频率等的统计的指标(statistical index),进行对频繁出现在技术术语中的复合名词等作为关键字进行提取的处理。关键字提取单元406也进行分析文本数据、并根据来自稍后将描述的分析请求处理单元403的请求来提取关键字的处理。[0〇37]分析请求接收处理单元402被构造为经由通信单元401,接收对来自图像处理装置 101的文本数据进行分析的请求。该来自图像处理装置101的文本数据是通过字符识别处理 (OCR处理)、从由图像处理装置101扫描的图像中提取的文本数据。总之,分析请求接收处理单元402对从由图像处理装置101扫描的图像中、由图像处理装置101通过OCR处理提取的文本数据进行接收。分析请求接收处理单元402也被构造为进行如下的处理,S卩,向图像处理装置101发送通过由下面将描述的分析请求处理单元403进行的处理而获得的分析结果,作为响应。[0〇38]分析请求处理单元403被构造为将由分析请求接收处理单元402接收到的文本数据传到关键字提取单元406,并接收针对文本数据的关键字提取结果。分析请求处理单元 403也被构造为进行如下的处理,S卩,获得诸如文件信息DB单元407中存储的文件中的关键字等的信息,并将其与针对所接收到的文本数据的关键字提取结果进行比较。分析请求处理单元403被构造为在比较之后,将列表作为分析结果传到分析请求接收处理单元402,该列表表示用于将文件与所接收到的文本数据中的关键字相似的关键字相关联地进行存储的候选存储位置。
[0039]图5是用于描述本实施例中的针对配设给图像处理装置101的分析服务器102的应用500的软件构造的图。在图像处理装置101中,应用500存储在ROM 221中,并由CPU 220运行。应用500包括通信单元501、处理单元502以及窗口显示单元503。[〇〇4〇] 处理单元502被构造为经由通信单元501与分析服务器102和文件服务器103进行通信。请注意,稍后将参照图8A和图8B描述主要包含处理单元502的一系列处理的序列。作为主处理,首先,处理单元502经由图像处理装置101的控制单元218指示扫描器单元213进行扫描。然后,处理单元502将从由扫描器单元213通过扫描纸质文档等而获得的所扫描的图像数据(电子数据)、通过OCR处理提取的文本数据,发送到分析服务器102。然后,处理单元502接收分析结果作为响应。如上所述,分析结果是候选存储位置信息。然后,处理单元 502将通过由扫描器单元213扫描而获得的所扫描的图像数据,发送到基于候选存储位置信息选择的文件服务器103中的存储位置,并指示文件服务器103将文件存储在该位置。下文中,将所扫描的图像数据简称为扫描数据。
[0041] 窗口显示单元503被构造为进行将操作显示单元212上的窗口显示给用户的处理。 具体而言,窗口显示单元503显示操作窗口,并根据用户对操作窗口的操作,向处理单元502 做出处理请求。[〇〇42]图6是本实施例中的图像处理装置101的操作显示单元212上显示的操作窗口 600 的示例。在该操作窗口 600中,显示有能够对图像处理装置101上可用的应用进行访问的按钮。用户一按下按钮,则启动所按下的应用。请注意,该操作窗口 600是根据按下配设给图像处理装置101的主菜单键(未示出)而显示的主菜单窗口。例如,一按下按钮601,则显示“扫描并发送”应用。[〇〇43]图7是本实施例中的图像处理装置101的操作显示单元212的示例,并且是针对用户用来扫描原稿并发送所扫描的原稿的应用500的窗口的示例。在扫描器单元213上放置了原稿的状态下,用户按下了开始键701时,进行扫描。[〇〇44]图8A和图8B是本实施例中的、根据用户使用应用500的操作窗口(图7中所示)以将扫描数据存储到文件服务器103的、从对原稿进行扫描的整体序列图。下面将根据如下的要点来描述该处理,即,在用户按下图像处理装置101的主菜单键(未示出)时,显示图6所示的操作窗口 600。[〇〇45] 在步骤S801中,操作显示单元212显示图6中所示的主菜单窗口。在所显示的窗口上通过用户操作按下了与应用500相对应的按钮时,操作显示单元212在步骤S802中通知应用500选择了该应用。在步骤S803中,响应于该通知,应用500将关于应用500的初始窗口的信息发送到操作显示单元212,并指示操作显示单元212显示初始窗口。在步骤S804中,操作显示单元212显示所接收到的初始窗口。然后,在扫描器单元213上放置了原稿的状态下,在通过用户操作按下了应用500的开始键时,操作显示单元212在步骤S805中通知应用500按下了开始键。在步骤S806中,响应于按下了开始键的通知,应用500指示扫描器单元213进行扫描。在步骤S807中,扫描器单元213扫描原稿以生成扫描数据(电子数据)。在步骤S808中, 扫描器单元213通知应用500完成了扫描。在步骤S809中,响应于完成了扫描的通知,应用 500从步骤S807中由扫描器单元213生成的扫描数据中进行文本提取。具体而言,在步骤 S809中,应用500通过对扫描数据进行字符识别处理(OCR处理)来提取文本数据。
[0046]在步骤S810中,应用500将所提取的文本数据发送到分析服务器102,并获得作为响应的分析结果(针对扫描数据的候选存储位置信息)。请注意,稍后将参照图10A和图10B 来描述步骤S810中的处理的详细内容。[〇〇47]在步骤S811中,应用500基于步骤S810中获得的候选存储位置信息,生成关于用来提示用户选择存储位置的窗口的信息。在步骤S812中,应用500指示操作显示单元212显示该窗口。在步骤S813中,操作显示单元212显示该窗口。下面将参照图9来描述基于候选存储位置信息而生成的窗口的示例。
[0048]图9是示出本实施例中的、基于作为分析服务器102进行的分析结果的候选存储位置信息而生成的窗口的示例的图。窗口900是用于提示用户从候选存储位置中选择合适的存储位置的窗口。在窗口900中,显示候选存储位置901。在该示例中,存储了存储位置的文件夹名称。用户从候选存储位置901中选择期望的存储位置,并按下发送按钮902。结果是, 步骤S808中获得的扫描数据被发送到文件服务器103。[〇〇49]返回参照图8A和图8B,将进一步描述序列。在用户操作选择了候选位置并按下了发送按钮时,操作显示单元212在步骤S814中通知应用500按下了发送按钮。在步骤S815中, 响应于该通知,应用500指示网络单元216发送扫描数据,该指令包括存储位置的指定。在步骤S816中,响应于该指令,网络单元216将由扫描器单元213生成的扫描数据发送到文件服务器103。在步骤S817中,在接收到扫描数据时,文件服务器103将扫描数据存储到指定的保存位置中。在步骤S818中,文件服务器103返回表示完成了保存处理的响应。在步骤S819中, 网络单元216向应用500返回响应。在步骤S820中,应用500指示操作显示单元212显示发送完成窗口。在步骤S821中,操作显示单元212显示完成窗口,并结束处理。
[0050]图10A和图10B是示出本实施例中的、图9中的步骤S810中的文本分析处理的整体流程图。
[0051]在描述流程图之前,将简单描述文本分析处理的概述。在本实施例中的文本分析处理中,不将由图像处理装置101提取的整个文本数据发送到分析服务器102。而是根据需要选择文本数据的片段并顺次发送该文本数据的片段。首先,分析服务器102通过利用文本数据的第一选择片段来查找第一分析结果。然后,分析服务器102将文本数据的第一片段、与在第一片段之后发送的、作为文本数据的所选择片段的文本数据的第二片段进行组合, 并通过利用所组合的文本数据来查找第二分析结果。在第一分析结果与第二分析结果相似的情况下,不做进一步的分析,并将第二分析结果发送到图像处理装置101。通常,原稿往往在简介部分和/或前几页中包含重要的关键字,而在特定页之后往往提取到相似的关键字。 考虑到这个方面,在本实施例中,图像处理装置101进行向分析服务器102发送根据需要所提取的文本数据的片段的处理,而不是发送整个文本数据,并接收分析结果。如上所述,通过避免发送整个文本数据并且避免基于整个文本数据的分析处理,能够向用户快速呈现分析结果。下面将随着流程图来具体描述文本分析处理。[〇〇52]首先,在步骤S1001中,图像处理装置101进行初始化处理。在初始化处理中,将部分编号N(part number)初始化为1,并将要用来选择由图像处理装置101提取的文本的片段的选择开始位置,初始化为头位置。部分编号代表分配给文本的所选择的片段的序列号。在本实施例中,图像处理装置101将所提取的文本数据的片段发送到分析服务器102,而不是发送整个所提取的文本数据。为此,部分编号用作标识符,以识别要发送的文本数据的所选择的片段。
[0053]在步骤S1002中,从所提取的文本数据中,图像处理装置101从选择开始位置选择特定大小的文本数据的片段。下文中将特定大小的文本数据的片段称为“文本数据的分割片段”。请注意,特定大小可以是特定的文本字符数或文本数据的特定数据大小。选择的大小和设置大小的方法可以视情况而定。在步骤S1003中,图像处理装置101将步骤S1002中选择的文本数据的分割片段与部分编号相关联,并将它们发送到分析服务器102。[〇〇54]在步骤S1004中,分析服务器102接收从图像处理装置101发送的文本数据的分割片段。在步骤S1005中,分析服务器102确定所接收到的文本数据的分割片段是否为空。例如,在文本数据的分割片段中包含的文本字符数为零的情况下,在文本数据的分割片段的数据大小是小于预定值的情况下,或者在其他相似的情况下,文本数据的分割片段为空。
[0055]在步骤S1005中确定所接收到的文本数据的分割片段为空的情况下,分析服务器 102在步骤S1006中确定N是否等于1,即,文本数据的分割片段是否已经根据第一发送请求被发送。在步骤S1006中确定N=1的情况下,由于没有要分析的文本,所以分析服务器102在步骤S1007中向图像处理装置101返回分析失败错误通知作为响应。另一方面,在步骤S1006 中确定N#1的情况下,分析服务器102确定不存在图像处理装置101能够选择的文本。然后, 在步骤S1008中,分析服务器102向图像处理装置101返回关于前一部分编号的分析结果 (即,一直到部分编号N-1的分析结果)作为响应。
[0056]在步骤S1005中确定文本数据的分割片段不为空的情况下,分析服务器102对步骤 S1009中组合文本数据进行分析,该组合文本数据通过将一直到部分编号N的文本数据的所有分割片段进行组合而获得。在步骤S1010中确定N=1的情况下,S卩,文本数据的分割片段是第一文本数据的分割片段,则分析服务器102在步骤S1011中将部分编号为1的文本数据的片段和分析结果保存到文件信息DB单元407中。然后,在步骤S1012中,分析服务器102将用于发送文本数据的另一分割片段的请求发送到图像处理装置101作为响应。在本实施例中,根据需要,从图像处理装置101顺次发送文本数据的分割片段。为此,不将关于作为文本数据的第一分割片段的、部分编号为1的文本数据的片段的分析结果发送到图像处理装置 101,而是保存到文件信息DB单元407中。
[0057]在已经存在一直到最后一轮(部分编号N-1)文本数据的有效片段、并且也已经保存了关于一直到部分编号N-1的文本数据的片段的分析结果的情况下,分析服务器102在步骤S1010中确定N辛1。因此,在步骤S1010中确定N辛1的情况下,分析服务器102在步骤S1013 中将一直到部分编号N的分析结果、与文件信息DB单元407中保存的一直到部分编号N-1的分析结果(即,一直到最后一轮分析结果)进行比较。在步骤S1014中,在比较结果是小于阈值的结果的情况下,必须进行额外的分析,因此处理从步骤S1011继续。具体而言,如上所述,在步骤S1011中对一直到部分编号N的组合文本数据及其分析结果进行保存,并在步骤 S1012中,将用于发送文本数据的另一分割片段的请求,发送到图像处理装置101作为响应。 [〇〇58]另一方面,在步骤S1014中,在比较结果是大于或等于阈值的结果的情况下,分析服务器102将步骤S1008中的、作为响应的关于部分编号N的分析结果,发送到图像处理装置 101。如前所述,分析结果是表示候选存储位置的信息。更具体而言,分析结果可以是以相似度递减的顺序排列的存储位置的列表。在此,具有高相似度的文件夹可以是“包含多个与文本数据相关的文件”的文件夹、“包含与文本数据高度相关的文件”的文件夹等。在步骤 S1014中,例如,在关于列表的候选存储位置的项目和顺序依然保持是大于或等于阈值的相似度的情况下(即,实质上未改变),将关于部分编号N的分析结果发送到客户端。简言之,如上所述,由于实际上无需针对文本数据的任何进一步分析,所以此时终止分析处理。另一方面,在最后分析结果和当前分析结果之间的比较结果是小于阈值的情况下(在候选存储位置列表的内容在最后一者与当前一者之间是不同的情况下),进一步进行分析处理。换句话说,在获得稳定的分析结果之前,通过添加文本数据的片段来进行分析。[〇〇59]在步骤S1015中,图像处理装置101接收来自分析服务器102的响应。在步骤S1016 中,图像处理装置101分析所接收到的响应的内容。在步骤S1016中确定响应的内容是发送文本数据的另一分割片段的请求的情况下,图像处理装置101在步骤S1017中进行使部分编号递增的处理、以及将选择开始位置移动到完成了最后选择的位置的处理。在步骤S1017的处理之后,图像处理装置101从步骤S1002继续文本分析处理。在步骤S1016中确定响应的内容是分析结果或分析失败错误的情况下,图像处理装置101结束文本分析处理,并从图8B中的步骤S811继续处理。
[0060]如上所述,在本实施例中,从由图像处理装置101通过扫描获得的扫描数据而提取的文本数据中选择的文本数据的片段,根据需要被顺次发送到分析服务器102。然后,在由分析服务器102进行的分析结果实质上未改变时,将该分析结果作为候选存储位置信息发送到图像处理装置101。以此方式,能够缩短向用户呈现候选存储位置所花费的时间。
[0061][实施例2][〇〇62]在实施例1中,已经给出了如下实例的描述,S卩,将关于一直到部分编号N的文本数据的分割片段(由应用500发送)的分析结果、与一直到部分编号N-1的文本数据的分割片段的分析结果进行相互比较,并且在二者之间的相似度是大于或等于阈值(% )的情况下(即, 实质上未改变),返回前者的分析结果。然而,在从电子数据提取的文本数据的大小、或者由此选择的文本数据的分割片段的大小很小的情况下,由分析服务器102进行的关于这样的文本数据的分析很有可能无法提供预期的结果。在本实施例中,将会给出在所提取的文本数据的大小或者文本数据的分割片段的大小是小于基准值的情况下进行的处理的描述。具体而言,将会给出如下实例的描述,g卩,在所提取的文本数据的大小或者文本数据的分割片段的大小是小于基准值的情况下,图像处理装置101将代表通过扫描获得的图像的扫描数据,而不是文本数据,发送到分析服务器102;并且分析服务器102基于关于图像数据的分析,而不是关于文本数据的分析,来返回分析结果。请注意,图像处理装置101和分析服务器 102的构造以及处理的序列,总体上与实施例1中的相似,因而省略其描述。[〇〇63]图11A和图11B是示出本实施例中的处理的整体流程图,在该处理中,基于文本大小,改变步骤S810的文本分析处理中的、要从图像处理装置101发送到分析服务器102的数据。
[0064]首先,步骤S1101和步骤S1102与步骤S1001和步骤S1002相似。在步骤S1103中,图像处理装置101确定在步骤S1102中选择的分析对象文本数据的片段的大小是否是大于或等于基准值。例如,在基准值表示诸如100个字符的特定字符数的情况下,图像处理装置101 确定文本数据的分割片段中的字符数是否是大于或等于100。请注意,基准值可以是文本数据的数据大小。
[0065]在步骤S1103中确定文本数据的分割片段的大小是大于或等于基准值的情况下, 如实施例1中,图像处理装置101将文本数据的分割片段与部分编号相关联,并在步骤S1104 中将其发送到分析服务器102。在步骤S1103中确定文本数据的分割片段的大小是小于基准值的情况下,图像处理装置101在步骤S1105中将扫描数据发送到分析服务器102,而不是从扫描数据中提取的文本数据的片段。
[0066]在步骤S1106中,分析服务器102接收从图像处理装置101发送的数据。在步骤 S1107中,分析服务器102确定所接收到的数据是否是扫描数据。在步骤S1107中确定所接收到的数据是扫描数据的情况下,分析服务器102在步骤S1108中对扫描数据进行分析。在步骤S1108中,分析服务器102对通过扫描获得的图像数据(扫描数据)进行分析,而不是如实施例1中所描述的基于文本数据进行分析。在本实施例中,爬行器单元404收集图像数据文件,而分析服务器102的分析单元(未示出)计算图像数据片段的特征点。将特征点与图像数据片段的存储位置相关联地保存到文件信息DB单元407中。在步骤S1108中,分析服务器102 计算从图像处理装置101发送的扫描数据的特征点,并将其与所存储的特征点进行比较,以获得存储了具有高相似度的文件的候选存储位置,作为分析结果。[〇〇67] 在步骤S1109中,分析服务器102向图像处理装置101返回关于步骤S1106中获得的扫描数据的分析结果。
[0068]另一方面,在步骤S1107中确定所接收到的数据是文本数据的片段的情况下,分析服务器102进行到步骤S1110。步骤S1110至S1115的处理与实施例1中的步骤S1009至S1014 的处理相似,因而省略其描述。
[0069]如上所述,在本实施例中,在对具有不太多的字符的文档进行扫描的情况下,基于通过扫描获得的图像数据,而不是文本数据来进行分析。以此方式,能够向用户呈现精确的候选存储位置。
[0070][其他实施例]
[0071]还可以通过读出并执行记录在存储介质(例如非临时性计算机可读存储介质等) 上的计算机可执行指令(例如,一个或更多程序)以执行上述实施例中的一个或更多的功能、并且/或者包括用于执行上述实施例中的一个或更多的功能的一个或更多电路(例如, 专用集成电路(ASIC))的系统或装置的计算机,来实现本发明的实施例,并且,可以利用通过由所述系统或装置的所述计算机例如读出并执行来自所述存储介质的所述计算机可执行指令以执行上述实施例中的一个或更多的功能、并且/或者控制所述一个或更多电路执行上述实施例中的一个或更多的功能的方法,来实现本发明的实施例。所述计算机可以包括一个或更多处理器(例如,中央处理单元(CPU),微处理单元(MPU)),并且可以包括分开的计算机或分开的处理器的网络,以读出并执行所述计算机可执行指令。所述计算机可执行指令可以例如从网络或所述存储介质被提供给计算机。所述存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘(DVD)或蓝光光盘(BD)?)、闪存设备以及存储卡等中的一者或更多。
[0072]本发明的实施例还可以通过如下的方法来实现,S卩,通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置,该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。
[0073]利用本发明,在图像处理装置上开始扫描之后,能够缩短在图像处理装置上呈现候选存储位置所花费的时间。
[0074]虽然参照示例性实施例对本发明进行了描述,但是应当理解,本发明并不限于所公开的示例性实施例。应当对所附权利要求的范围给予最宽的解释,以使其涵盖所有这些变型例以及等同的结构和功能。
【主权项】
1.一种文档分析系统,所述文档分析系统包括:图像处理装置;以及分析服务器,其中 所述图像处理装置包括:提取单元,其被构造为从通过扫描文档而获得的图像数据提取文本数据;第一发送单元,其被构造为向所述分析服务器顺次发送文本数据的分割片段,直到从 所述分析服务器接收到针对所述图像数据的候选存储位置为止;选择单元,其被构造为呈现从所述分析服务器接收到的候选存储位置,并提示用户选 择存储位置;以及第二发送单元,其被构造为向由用户所选择的存储位置发送所述图像数据,并且 所述分析服务器包括:分析单元,其被构造为通过对从所述第一发送单元顺次发送的文本数据的分割片段顺 次进行分析,来获得候选存储位置;以及返回单元,其被构造为在所述分析单元获得候选存储位置时,向所述图像处理装置返 回候选存储位置。2.根据权利要求1所述的文档分析系统,其中,所述分析单元将第一分析结果与第二分 析结果相互比较,并在比较结果是大于或等于阈值的情况下,确定所述第二分析结果为候 选存储位置,所述第一分析结果通过使用文本数据的第一分割片段来获得,所述第二分析 结果通过使用包括所述文本数据的第一分割片段、与在所述文本数据的第一分割片段之后 从所述第一发送单元发送的文本数据的第二分割片段的组合文本数据来获得。3.根据权利要求2所述的文档分析系统,其中,在所述比较结果不是大于或等于所述阈 值的情况下,所述返回单元向所述图像处理装置发送用于额外发送文本数据的一个分割片 段的请求。4.根据权利要求3所述的文档分析系统,其中,在每接收到发送请求时,所述第一发送 单元就发送从所提取的文本数据上的不同位置选择的文本数据的分割片段中的一个。5.根据权利要求1至4中任一项所述的文档分析系统,其中,所述分析单元通过从文本 数据提取关键字,并将所提取的关键字与对应于存储位置的关键字比较,来确定候选存储 位置作为分析结果。6.根据权利要求1至4中任一项所述的文档分析系统,其中,在文本数据的分割片段是 小于基准值的情况下,所述第一发送单元发送通过扫描所述文档而获得的所述图像数据, 并且所述分析单元使用所述图像数据进行分析。7.根据权利要求6所述的文档分析系统,其中,所述分析单元基于所述图像数据表示的 图像的特征点,确定候选存储位置作为分析结果。8.—种图像处理装置,所述图像处理装置包括:提取单元,其被构造为从通过扫描文档而获得的图像数据提取文本数据;第一发送单元,其被构造为向分析服务器顺次发送文本数据的分割片段,直到从分析 服务器接收到针对所述图像数据的候选存储位置为止;选择单元,其被构造为呈现从所述分析服务器接收到的候选存储位置,并提示用户选 择存储位置;以及第二发送单元,其被构造为向由用户选择的所述存储位置发送所述图像数据。9.一种分析服务器,所述分析服务器包括:接收单元,其被构造为从图像处理装置顺次接收文本数据的分割片段,该文本数据的 分割片段由所述图像处理装置通过扫描文档以获得图像数据、从所述图像数据提取文本数 据、并对所述文本数据进行分割而获得;分析单元,其被构造为通过对所接收到的文本数据的分割片段顺次进行分析,来获得 候选存储位置;以及返回单元,其被构造为在所述分析单元获得候选存储位置时,向所述图像处理装置返 回针对所述图像数据的候选存储位置。
【文档编号】G06F17/30GK106095765SQ201610269573
【公开日】2016年11月9日
【申请日】2016年4月27日 公开号201610269573.3, CN 106095765 A, CN 106095765A, CN 201610269573, CN-A-106095765, CN106095765 A, CN106095765A, CN201610269573, CN201610269573.3
【发明人】鸨田宪
【申请人】佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1