电子文件生成装置及其控制方法、电子文件生成系统的制作方法

文档序号:9649152阅读:381来源:国知局
电子文件生成装置及其控制方法、电子文件生成系统的制作方法【
技术领域
】[0001]本发明涉及生成电子文件的电子文件生成装置以及与该电子文件生成装置相关的技术。【
背景技术
】[0002]在MFP(多功能数码复合一体机(Mult1-Funct1nalPeripheral))等图像形成装置中,存在一种对原稿进行扫描来生成电子文件的技术。[0003]在这样的技术中,除了原样获取原稿的扫描图像来生成电子文件的技术之外,还存在生成带文本数据的电子文件(下述)的技术(参照专利文献1等)。具体而言,针对原稿的扫描图像(特别是表示文字的图像)实施光学文字识别处理(以下,也称为OCR(OpticalCharacterRecognit1n)处理),该扫描图像内的文字的文本数据被自动识别,该文本数据以非显示状态被叠加嵌入到该扫描图像。这样一来,例如可生成带透明文本的被称为FOF(PortableDocumentFormat)(或者带即时搜索功能的FOF)文件等的规定形式的电子文件(带文本数据的电子文件)。[0004]另外,还存在一种使用云服务器来提供通用的OCR处理服务的技术。[0005]专利文献1:日本特开2012—73749号公报[0006]可以考虑使用上述技术来进行以下那样的动作。例如,从电子文件生成装置向云服务器发送扫描图像,由云服务器执行与扫描图像整体相关的OCR处理。然后,其处理结果(文本数据)从云服务器回信给电子文件生成装置,电子文件生成装置将从云服务器接收到的文本数据嵌入到原来的扫描图像而生成带文本数据的电子文件(带即时搜索功能的H)F(带透明文本的TOF)文件等)。其中,由于通过利用通用OCR处理服务,能够由与电子文件生成装置独立的装置进行OCR处理,所以可降低该电子文件生成装置的处理负荷。[0007]这里,在通用OCR处理服务之中,存在将扫描图像内的文字区域以规定单位的区域(可包含比一行的行区域大的区域的区域)(例如段落区域)划分并执行OCR处理,作为OCR处理结果而生成在该规定单位的区域内的字符串的末尾带有分割码(换行码等)的文本数据的通用OCR处理服务。电子文件生成装置若从云服务器接收到文本数据,则基于文本数据内的分割码将该文本数据内的字符串划分为多个并将各字符串分别配置到扫描图像内的该规定单位的区域(段落区域等),生成电子文件。[0008]然而,在这样的通用OCR处理服务中,通常包含多行的字符串的区域被识别为一个段落区域等,生成仅对该多行的字符串整体中的末尾赋予了分割码的文本数据。换言之,构成段落的多行中的各行(除了段落的最终行之外)的文字识别结果的末尾未被赋予分割码,以针对该多行的字符串的文字识别结果(OCR处理结果)的每一个连续的状态输出文本数据。因此,电子文件生成装置无法掌握扫描图像内的各行的文字图像与各行的文字识别结果的对应关系,结果,存在该各行的文字识别结果未被配置到扫描图像内的适当的位置(与各行的文字识别结果对应的各行的文字图像的位置)的可能性。例如,若以第一行的文字识别结果与第2行的文字识别结果连续的状态输出文本数据,则该第2行的文字识别结果在扫描图像内的第一行的文字图像的行末附近,以紧接着第一行的文字识别结果的状态(未被换行地)配置,未被配置到本来的位置(扫描图像内的第2行的文字图像的位置)。【
发明内容】[0009]鉴于此,本发明的课题在于,提供一种能够生成在扫描图像内的适当的位置配置了OCR处理结果的电子文件的技术。[0010]为了解决上述技术问题,第1方面的发明涉及的电子文件生成装置与云服务器合作来生成电子文件,所述云服务器将光学文字识别处理的处理对象图像内的文字区域划分为能分别包含比一行的行区域大的区域的多个单位识别区域,并且针对所述多个单位识别区域的每一个执行所述光学文字识别处理,而且,所述云服务器生成包括针对所述多个单位识别区域的每一个的文字识别结果并且在针对各单位识别区域的文字识别结果的末尾分别附加了分割码的文本数据来作为针对所述处理对象图像的所述光学文字识别处理的处理结果,该电子文件生成装置的特征在于,具备:提取单元,其从原稿的扫描图像的文字区域分别提取多个行区域;图像生成单元,其以所述多个行区域的每一个被所述云服务器判定为单位识别区域的方式,针对所述扫描图像实施图像加工处理来生成识别对象图像;发送单元,其将所述识别对象图像作为所述光学文字识别处理的所述处理对象图像发送给所述云服务器;接收单元,其从所述云服务器接收作为针对所述识别对象图像的所述光学文字识别处理的处理结果的所述文本数据;以及文件生成单元,其基于所述文本数据所含的所述分割码来将所述文本数据划分为多个字符串数据并且决定所述多个行区域与所述多个字符串数据的对应关系,在与各字符串数据对应的各行区域分别配置该各字符串数据来生成所述电子文件。[0011]第2方面的发明基于第1方面的发明涉及的电子文件生成装置而提出,其特征在于,还具备对所述多个行区域的在所述扫描图像内的位置分别进行检测的检测单元,所述文件生成单元在与所述各字符串数据对应的所述各行区域的检测位置分别配置所述各字符串数据来生成所述电子文件。[0012]第3方面的发明基于第1方面或者第2方面的发明涉及的电子文件生成装置而提出,其特征在于,所述图像加工处理包括:检测所述多个行区域各自的高度,并将所述多个行区域的相互间的分离间隔分别设定为所述多个行区域中最高的行区域的高度以上的大小的处理。[0013]第4方面的发明基于第1方面或者第2方面的发明涉及的电子文件生成装置而提出,其特征在于,所述图像加工处理包括:检测所述多个行区域各自的高度,并将所述多个行区域中最终行以外的各行区域与该各行区域各自的下一行区域的相互间的分离间隔,分别设定为所述各行区域各自的高度以上的大小的处理。[0014]第5方面的发明基于第1方面或者第2方面的发明涉及的电子文件生成装置而提出,其特征在于,所述图像加工处理包括:对所述多个行区域的相互间的行间区域分别附加分割线的处理。[0015]第6方面的发明基于第1方面或者第2方面的发明涉及的电子文件生成装置而提出,其特征在于,所述图像加工处理包括:在所述多个行区域中至少最终行以外的各行区域各自的末尾附加表示是所述单位识别区域的末尾的末尾识别图像的处理。[0016]第7方面的发明基于第1方面或者第2方面的发明涉及的电子文件生成装置而提出,其特征在于,所述图像加工处理包括:将各行区域的文字颜色设定为与和所述各行区域分别邻接的邻接行区域的文字颜色不同的文字颜色的处理。[0017]第8方面的发明基于第1方面或者第2方面的发明涉及的电子文件生成装置而提出,其特征在于,所述图像加工处理包括:将各行区域的行头位置设定在与和所述各行区域分别邻接的邻接行区域的行头位置不同的位置的处理。[0018]第9方面的发明基于第1方面或者第2方面的发明涉及的电子文件生成装置而提出,其特征在于,所述图像加工处理包括:将各行区域的文字尺寸设定为与和所述各行区域分别邻接的邻接行区域的文字尺寸不同的文字尺寸的处理。[0019]第10方面的发明基于第1方面或者第2方面的发明涉及的电子文件生成装置而提出,其特征在于,所述发送单元在所述识别对象图像的生成之前向所述云服务器查询由所述云服务器在所述单位识别区域的判定中使用的判定手法,所述接收单元从所述云服务器接收与所述判定手法相关的信息,所述图像生成单元针对所述扫描图像实施与所述判定手法对应的图像加工处理来生成所述识别对象图像。[0020]第11方面的发明基于第1方面或者第2方面的发明涉及的电子文件生成装置而提出,其特征在于,所述图像生成单元生成相互不同的多个测试图像,所述多个测试图像被分别实施了相互不同的多个图像加工处理且分别包含所述多个行区域中的一部分的行区域,所述发送单元将所述多个测试图像发送给所述云服务器,所述接收单元从所述云服务器接收作为针对所述多个测试图像分别执行的所述光学文字识别处理的处理结果的多个测试结果,所述图像生成单元基于所述多个测试结果的每一个所含的分割码,来检测所述多个测试结果的每一个所含的字符串数据的个数即字符串数据数,所述图像生成单元针对所述多个测试结果的每一个求出其字符串数据数与所述一部分的行区域的个数之差即个数差,并且求出所述多个测试结果中所述个数差最小的测试结果作为最佳测试结果,将所述多个图像加工处理中与所述最佳测试结果对应的图像加工处理决定为最适加工处理,所述图像生成单元关于所述多个行区域中除了所述一部分的行区域之外的剩余的行区域,实施所述最适加工处理来生成所述识别对象图像,所述文件生成单元基于所述最佳测试结果所含的分割码和所述文本数据所含的分割码,来将由所述最佳测试结果和所述文本数据构成的数据划分为多个字符串数据,并且决定所述多个行区域与所述多个字符串数据的对应关系,在与各字符串数据对应的各行区域分别配置该各字符串数据来生成所述电子文件。[0021]第12方面的发明基于第1方面或者第2方面的发明涉及的电子文件生成装置而提出,其特征在于,所述发送单元将针对样本图像分别实施相互不同的多个图像加工处理而生成的多个测试图像发送给所述云服务器,所述接收单元从所述云服务器接收作为针对所述多个测试图像分别执行的所述光学文字识别处理的处理结果的多个测试结果,所述图像生成单元基于所述多个测试结果的每一个所含的分割码,来检测所述多个测试结果的每一个所含的字符串数据的个数即字符串数据数,所述图像生成单元针对所述多个测试结果的每一个求出其字符串数据数与所述样本图像所含的行区域的个数之差即个数差,并且求出所述多个测试结果中所述个数差最小的测试结果作为最佳测试结果,将所述多个图像加工处理中与所述最佳测试结果对应的图像加工处理决定为最适加工处理,所述图像生成单元针对所述扫描图像实施所述最适加工处理来生成所述识别对象图像。[0022]第13方面的发明涉及的电子文件生成装置的控制方法是与云服务器合作来生成电子文件的电子文件生成装置的控制方法,所述云服务器将光学文字识别处理的处理对象图像内的文字区域划分为能分别包含比一行的行区域大的区域的多个单位识别区域,并且针对所述多个单位识别区域的每一个执行所述光学文字识别处理,所述云服务器生成包括针对所述多个单位识别区域的每一个的文字识别结果并且在针对各单位识别区域的文字识别结果的末尾分别附加了分割码的文本数据来作为针对所述处理对象图像的所述光学文字识别处理的处理结果,该电子文件生成装置的控制方法的特征在于,具备:a)从原稿的扫描图像的文字区域分别提取多个行区域的步骤;b)以所述多个行区域的每一个被所述云服务器判定为单位识别区域的方式,针对所述扫描图像实施图像加工处理来生成识别对象图像的步骤;c)将所述识别对象图像作为所述光学文字识别处理的所述处理对象图像发送给所述云服务器的步骤;d)从所述云服务器接收作为针对所述识别对象图像的所述光学文字识别处理的处理结果的所述文本数据的步骤;e)基于所述文本数据所含的所述分割码将所述文本数据划分为多个字符串数据,并且决定所述多个行区域与所述多个字符串数据的对应关系的步骤;以及f)在与各字符串数据对应的各行区域分别配置该各字符串数据来生成所述电子文件的步骤。[0023]第14方面的发明基于第13方面的发明涉及的控制方法而提出,其特征在于,所述电子文件生成装置的控制方法还具备:g)分别检测所述多个行区域的在所述扫描图像内的位置的步骤,在所述步骤f)中,基于所述步骤g)中的检测位置,在与所述各字符串数据对应的所述各行区域的检测位置分别配置所述各字符串数据来生成所述电子文件。[0024]第15方面的发明基于第13方面或者第14方面的发明涉及的控制方法而提出,其特征在于,所述图像加工处理包括:检测所述多个行区域各自的高度,并将所述多个行区域的相互间的分离间隔分别设定为所述多个行区域中最高的行区域的高度以上的大小的处理。[0025]第16方面的发明基于第13方面或者第14方面的发明涉及的控制方法而提出,其特征在于,所述图像加工处理包括:检测所述多个行区域各自的高度,并将所述多个行区域中最终行以外的各行区域与该各行区域各自的下一行区域的相互间的分离间隔,分别设定为所述各行区域各自的高度以上的大小的处理。[0026]第17方面的发明基于第13方面或者第14方面的发明涉及的控制方法而提出,其特征在于,所述图像加工处理包括:对所述多个行区域的相互间的行间区域分别附加分割线的处理。[0027]第18方面的发明基于第13方面或者第14方面的发明涉及的控制方法而提出,其特征在于,所述图像加工处理包括:在所述多个行区域中至少最终行以外的各行区域各自的末尾附加表示是所述单位识别区域的末尾的末尾识别图像的处理。[0028]第19方面的发明基于第13方面或者第14方面的发明涉及的控制方法而提出,其特征在于,所述图像加工处理包括:将各行区域的文字颜色设定为与和所述各行区域分别邻接的邻接行区域的文字颜色不同的文字颜色的处理。[0029]第20方面的发明基于第13方面或者第14方面的发明涉及的控制方法而提出,其特征在于,所述图像加工处理包括:将各行区域的行头位置设定在与和所述各行区域分别邻接的邻接行区域的行头位置不同的位置的处理。[0030]第21方面的发明基于第13方面或者第14方面的发明涉及的控制方法而提出,其特征在于,所述图像加工处理包括:将各行区域的文字尺寸设定为与和所述各行区域分别邻接的邻接行区域的文字尺寸不同的文字尺寸的处理。[0031]第22方面的发明基于第13方面或者第14方面的发明涉及的控制方法而提出,其特征在于,所述电子文件生成装置的控制方法还具备:h)在所述步骤b)之前向所述云服务器查询由所述云服务器在所述单位识别区域的判定中使用的判定手法的步骤;和i)从所述云服务器接收与所述判定手法相关的信息的步骤,在所述步骤b)中,针对所述扫描图像实施与所述判定手法对应的图像加工处理来生成所述识别对象图像。[0032]第23方面的发明基于第13方面或者第14方面的发明涉及的控制方法而提出,其特征在于,所述电子文件生成装置的控制方法还具备:h)在所述步骤b)之前,生成相互不同的多个测试图像的步骤,所述多个测试图像被分别实施了相互不同的多个图像加工处理且分别包含所述多个行区域中的一部分的行区域;i)将所述多个测试图像发送给所述云服务器的步骤;j)从所述云服务器接收作为针对所述多个测试图像分别执行的所述光学文字识别处理的处理结果的多个测试结果的步骤;k)基于从所述云服务器接收到的所述多个测试结果的每一个所含的分割码,来检测所述多个测试结果的每一个所含的字符串数据的个数即字符串数据数的步骤;以及1)针对所述多个测试结果的每一个求出其字符串数据数与所述一部分的行区域的个数之差即个数差,并且求出所述多个测试结果中所述个数差最小的测试结果作为最佳测试结果,将所述多个图像加工处理中与所述最佳测试结果对应的图像加工处理决定为最适加工处理的步骤,在所述步骤b)中,关于所述多个行区域中除了所述一部分的行区域之外的剩余的行区域,实施所述最适加工处理来生成所述识别对象图像,在所述步骤e)中,基于所述最佳测试结果所含的分割码和所述文本数据所含的分割码,来将由所述最佳测试结果和所述文本数据构成的数据划分为多个字符串数据,并且决定所述多个行区域与所述多个字符串数据的对应关系。[0033]第24方面的发明基于第13方面或者第14方面的发明涉及的控制方法而提出,其特征在于,所述电子文件生成装置的控制方法还具备:h)在所述步骤b)之前,将针对样本图像分别实施相互不同的多个图像加工处理而生成的多个测试图像发送给所述云服务器的步骤;i)从所述云服务器接收作为针对所述多个测试图像分别执行的所述光学文字识别处理的处理结果的多个测试结果的步骤;j)基于从所述云服务器接收到的所述多个测试结果的每一个所含的分割码,来检测所述多个测试结果的每一个所含的字符串数据的个数即字符串数据数的步骤;以及k)针对所述多个测试结果的每一个求出其字符串数据数与所述样本图像所含的行区域的个数之差即个数差,并且求出所述多个测试结果中所述个数差最小的测试结果作为最佳测试结果,将所述多个图像加工处理中与所述最佳测试结果对应的图像加工处理决定为最适加工处理的步骤,在所述步骤b)中,针对所述扫描图像实施所述最适加工处理来生成所述识别对象图像。[0034]第25方面的发明涉及一种电子文件生成系统,其特征在于,该电子文件生成系统具备:生成原稿的扫描图像的图像形成装置、和与云服务器合作来生成基于所述扫描图像的电子文件的电子文件生成装置,所述云服务器将光学文字识别处理的处理对象图像内的文字区域划分为能分别包含比一行的行区域大的区域的多个单位识别区域,并且针对所述多个单位识别区域的每一个执行所述光学文字识别处理,所述云服务器生成包括针对所述多个单位识别区域的每一个的文字识别结果并且在针对各单位识别区域的文字识别结果的末尾分别附加了分割码的文本数据来作为针对所述处理对象图像的所述光学文字识别处理的处理结果,所述图像形成装置具有将所述扫描图像发送给所述电子文件生成装置的通信单元,所述电子文件生成装置具有:提取单元,其从自所述图像形成装当前第1页1 2 3 4 5 6 
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1