文档处理设备、图像处理装置和文档处理方法

文档序号:7779273阅读:114来源:国知局
文档处理设备、图像处理装置和文档处理方法
【专利摘要】本申请公开了文档处理设备、图像处理装置和文档处理方法。一种文档处理设备包括:字符信息提取单元,从文档图像数据提取字符信息;特征字符串提取单元,从由字符信息提取单元提取的字符信息中,提取指示所述文档图像数据的特征的给定数量的字符串作为文档名称候选字符串;输出条件获取单元,当由涉及所述文档图像数据的文档名称的输出的多个处理方法之一处理所述文档图像数据时,输出条件获取单元获取所述文档图像数据的文档名称的输出所需的输出条件;以及文档名称生成单元,从所述文档名称候选字符串生成与对应于所述输出条件的字符条件相一致的文档名称。
【专利说明】文档处理设备、图像处理装置和文档处理方法
[0001]相关申请的交叉引用
[0002]本申请要求于2012年12月7日在日本提交的日本专利申请N0.2012-267869的优先权权益,其全部内容通过引用方式并入到本文中。
【技术领域】
[0003]本发明涉及文档处理设备、图像处理装置和文档处理方法,并且更具体地涉及如下这样的文档处理设备、图像处理装置和文档处理方法,所述文档处理设备、图像处理装置和文档处理方法为文档图像数据创建适合于如下输出条件的样式的文档名称,所述输出条件不仅依赖于所述文档图像数据被输出的时间并且还依赖于所述文档图像数据被输出到的目的地。
【背景技术】
[0004]外部加载的文档图像数据包括并未向其给出文档名称的文档图像数据,并且特别是,需要向通过扫描设备从纸质文档加载的文档图像数据给出文档名称以用于存储管理,从而能够更有效地使用文档数据。
[0005]存在向这样加载的图像数据给出文档名称的常规方法,其中自动创建并给出加载日期、预定序列号等。然而,存在这样的问题,其中无法仅从日期或序列号确定文档图像数据的文档内容,这导致文档图像数据的不良使用性。
[0006]通常,用户将与加载的文档图像数据的内容相对应的文档名称输入给文档图像数据。这允许其他的用户根据文档名称知晓文档图像数据的内容,这改善了其使用性。然而,如果存在大量的文档图像数据,就降低了操作性,这种情况需要被改进。
[0007]因此,已经提出了从文档图像数据自身提取与文档图像数据的内容相对应的标题的各种技术。例如,存在这样的方法,即从通过对文档图像数据执行光学字符识别(OCR)扫描的文档提取每个候选标题语句的特征量并且随后提取标题,从而特征量包括相似度信息,所述相似度信息是相对于文档中的多个语句的候选标题语句的相似度的函数(参见专利文献I);还存在这样的方法,即从文档图像数据的字符区域属性和线区域布局特征来提取布局相似性以便提取标题(参见专利文献2);还存在这样的方法,即从与标题字符串附近所示的关键字字符串和标题字符串之间的相对位置相关的信息提取标题(参见专利文献3)。
[0008]上述常规技术中的每一个是这样的技术,其中从文档图像数据提取的字符串适合作为文档图像数据的内容的标题(文档名称);然而,并不考虑所提取的文档名称要被输出到的输出目的地装置,这意味着需要改进。
[0009]通过各种设备来存储和使用文档图像数据,或通过使用各种类型的软件来传输和使用文档图像数据,并且给出文档名称,以基于文档名称指明文档图像数据,从而改进文档图像数据的使用性。
[0010]然而,对输出所显示或记录的文档名称存在各种限制,例如字符代码可以根据设备、用于通过传输来输出文档图像数据的软件等而不同,对在一个传输中能够传输的数据量存在限制,或者对文档名称中的字符的数量可以存在限制。因此,文档名称的给出字符可能变为被破损,并且可能无法被准确地输出,或者期望的文档名称可能无法被输出,因此需要对给出文档名称的改进。
[0011]存在这样的需求,即根据文档名称输出条件创建表示文档图像的内容的文档名称。

【发明内容】

[0012]本发明的一个目的在于至少部分解决现有技术中的问题。
[0013]一种文档处理设备包括:字符信息提取单元,从文档图像数据提取字符信息;特征字符串提取单元,从由所述字符信息提取单元提取的字符信息中,提取指示所述文档图像数据的特征的给定数量的字符串作为文档名称候选字符串;输出条件获取单元,当由涉及所述文档图像数据的文档名称的输出的多个处理方法之一处理所述文档图像数据时,所述输出条件获取单元获取所述文档图像数据的文档名称的输出所需的输出条件;以及文档名称生成单元,从所述文档名称候选字符串生成与对应于所述输出条件的字符条件相一致的文档名称。
[0014]一种文档处理方法包括如下步骤:字符信息提取处理,从文档图像数据提取字符信息;特征字符串提取处理,从在所述字符信息提取处理步骤处提取的字符信息中,提取指示所述文档图像数据的特征的给定数量的字符串作为文档名称候选字符串;输出条件获取处理,当由涉及所述文档图像数据的文档名称的输出的多个处理方法之一处理所述文档图像数据时,所述输出条件获取处理获取所述文档图像数据的文档名称的输出所需的输出条件;以及文档名称生成处理,从所述文档名称候选字符串生成与对应于所述输出条件的字符条件相一致的文档名称。
[0015]通过结合附图阅读本发明当前优选实施例的【具体实施方式】,将更好地理解本发明的上述和其他目的、特征、优势以及技术和工业重要性。
【专利附图】

【附图说明】
[0016]图1是应用了本发明一个实施例的文档处理设备的主单元框配置图;
[0017]图2是文档名称创建单元的框配置图;
[0018]图3是基本文档处理的流程图;
[0019]图4是指明每个输出方法的屏幕的示例性输出目的地的图示;
[0020]图5是用于发送电子邮件的文档名称生成过程的流程图;
[0021]图6是执行文档处理的计算机设备的主单元框配置图;以及
[0022]图7是多个设备共享文档处理的文档处理系统的示意性配置图。
【具体实施方式】
[0023]在下文中,将参照附图详细描述本发明的优选实施例。尽管在下文中所描述的实施例是本发明的优选实施例,并且对其施加了相应的技术上的优选的各种限制,但本发明的范围并不因此不适当地受以下描述的限制,并且进一步地,并非实施例中描述的所有部分都是本发明的必要部分。
[0024]第一实施例
[0025]图1到图7是本发明的文档处理设备、图像处理装置、文档处理方法和文档处理程序的实施例的图示。图1是应用到本发明的文档处理设备、图像处理装置、文档处理方法和文档处理程序的实施例的文档处理设备I的主单元框图。
[0026]图1中所示的文档处理设备I是由处理文档图像数据的各种设备(例如复印设备、复合设备、扫描设备、计算机设备和图书阅读器)使用的。至少用于实现本发明的文档处理方法的文档处理程序被加载到文档处理设备I的非易失性存储器中,并且由控制处理器(例如中央处理单元(CPU))执行,从而创建文档馈送单元11、文档读取单元12、OCR单元13、标题创建单元14、文档名称创建单元15、文档存储单元16等。
[0027]换言之,文档处理设备11被创建为这样的文档处理设备,其实施文档处理方法,在所述文档处理方法中,根据输出条件设置用于表示在下文中要描述的加载的文档图像数据的内容的文档名称的字符代码。还通过读取用于实现本发明的文档处理方法的文档处理程序并将所述程序加载到非易失性存储器(例如ROM或硬盘)中来实现文档处理方法,所述程序是存储在计算机可读存储介质中的文档处理程序,所述计算机可读存储介质例如是ROM、电可擦可编程只读存储器(EEPPROM)、EPR0M、闪存、柔性盘、密制盘只读存储器(CDROM)、可重写密制盘(⑶-RW)、数字多用途盘(DVD)、安全数字(SD)卡或磁光盘(MO)。文档处理程序是以传统编程语目或面向对象的编程语目(例如汇编语目、C、C++、C#、JAVA (商标))编写的计算机可执行程序,并且其可以被存储在上文中列示的介质中并被分发。
[0028]多个纸质文档可以被放置在文档馈送单元11上,并且文档馈送单元11将放置的纸质文档逐个地发送到文档读取单元12。
[0029]对于文档读取单元12,例如使用图像扫描仪,所述图像扫描仪使用电荷耦合器件(CXD)或互补金属氧化物半导体(CMOS)。文档读取单元12对从文档馈送单元11发送的纸质文档执行主扫描和副扫描,以给定的分辨率读取纸质文档上的图像,对图像进行二值化,并将其发送到文档存储单元16和OCR单元13。
[0030]OCR单元13从由文档读取单元12读取的纸质文档的图像数据读取字符数据,将额外的信息(例如字符图像位置、字符识别得分和语言处理结果(字符所属的单词的位置和诸如口语部分之类的语法信息))增加到字符数据,并且将其发送到标题创建单元14。换言之,OCR单元13用作字符信息提取单元,所述字符信息提取单元从由文档读取单元12加载的文档图像数据、连接网络的不同设备加载的文档图像数据等提取字符信息。
[0031]尽管实施例的文档处理设备I通过利用文档读取单元12读取纸质文档来加载文档图像数据,但加载文档图像数据的方法并不限于上述方法。例如,文档处理设备I可以通过经由网络和网络I/F从读取纸质文档的扫描设备、从存储文档图像数据的复印设备、从复合设备、从计算机设备等接收文档图像数据来加载该文档图像数据。
[0032]标题创建单元14从字符数据和从OCR单元13输入的额外信息中逐页地提取区分性地表示文档图像数据的页面内容的文本(下文中,“标题字符串”),并且将文本输出到文档名称创建单元15。
[0033]换言之,标题创建单元14用作这样的特征字符串提取单元,其从作为字符信息并且由OCR单元13提取的字符数据和额外信息提取预定数量的表示文档图像数据的特征的字符串作为标题字符串(文档名称候选字符串)。
[0034]可以由标题创建单元14使用传统的标题提取方法(例如在上述专利文献中描述的方法)来提取标题。例如,标题创建单元14可以使用这样的方法,即通过使用页面的标题(title)或说明文字(caption)存在于页面的上部分的事实(如果标题或说明文字包括水平方向的大字符的话)或者标题或说明文字存在于页面的右侧的事实(如果标题或说明文字包括垂直方向的大字符的话),参考来自OCR单元13的额外信息的文本存在的位置信息来确定标题相似性或说明文字相似性;这样的方法,其中,由于在很多情形中包括单词(其具有含义,而不是无意义的字符串)的文本有用,因此对通过OCR获取的文本进行语法分析,并且使用具有较小语法偏离的文本;这样的方法,即大致评估多个元素(例如文本位置信息和语法分析结果),并创建仅表示页面的短文本。标题创建单元14对文档图像数据逐页地执行特征字符串提取过程。
[0035]本实施例的标题创建单元14通过基础地使用由OCR单元13执行的OCR处理获取的字符串的特征码来创建文档名称候选字符串作为标题字符串。
[0036]当文档图像数据被输出并处于文档图像数据被输出到的目的地中时,文档名称创建单元15将字符条件(例如字符串和字符代码)适当地设置到输出条件,从由标题创建单元14创建的标题字符串创建文档名称,并且将文档名称输出到文档存储单元16。换言之,文档名称创建单元15用作文档名称生成单元,当文档图像数据被输出并处于文档图像数据被输出到的目的地中时,所述文档名称创建单元15将字符条件(例如字符串和字符代码)适当地设置到输出条件,并且从由标题创建单元14提取的标题字符串创建文档名称。
[0037]文档存储单元16包括诸如硬盘之类的大容量非易失性存储器。文档存储单元16彼此关联地在非易失性存储器中存储并管理从文档读取单元12输入的文档图像数据和由文档名称创建单元15创建的文档名称。
[0038]如上所述,文档处理设备I被应用到诸如扫描、复印、和多功能设备之类的图像处理装置。响应于用户在图像处理装置的操作显示单元上的操作,文档处理设备I输出在文档存储单元16中存储的文档图像数据的文档名称以显示在操作显示单元的显示器上。当用户根据在显示器上显示的文档名称理解文档图像数据的内容并对操作显示单元进行操作以选择所选文档名称的文档图像数据时,图像处理装置以与在操作显示单元上的操作对应的输出样式输出所选择的文档图像数据,例如到不同设备的显示输出、打印输出和传输输出、作为附加到电子邮件并被发送到不同设备的附件文档的电子邮件输出、或电介质写入输出(其是到电子介质(例如通用串行总线(USB)或SD卡)的写入输出),从而文档图像数据能够通过参考文档名称被搜索到并被用于输出目的地中。
[0039]然而,对于由文档处理设备I执行的文档图像数据和文档名称的输出,文档处理设备I中的用于输出文档图像数据和文档名称的条件(例如字符代码或字符的数量)可以根据用于输出的输出目的地设备或软件(例如电子邮件软件)而变化。在这样的情形中,如果出现字符破损并且无法准确地输出文档名称、或者如果字符的数量被限制到比所生成的文档名称中的字符数量少的数量,则无法输出所期望的文档名称。因此,可能无法使用文档名称或其使用性可能会受损。
[0040]因此,如图2中所示,本实施例的文档处理设备I的文档名称创建单元15包括标题候选输入单元21、文档名称字符串确定单元22、字符串调整单元23和文档名称字符串输出单元24。文档名称创建单元15基于输出条件设置文档名称字符代码。
[0041]将标题字符串从标题创建单元14输入到标题候选输入单元21,并且标题候选输入单元21将标题字符串输入到文档名称字符串确定单元22。
[0042]从标题候选输入单元21输入的标题字符串中,文档名称字符串确定单元22选择实质上代表文档图像数据的内容的文档名称候选字符串。
[0043]字符串调整器23包括基于输出目的地的文档名称生成单元23a、文件名称规则应用单元23b和基于输出的规则应用单元23c。字符串调整单元23将相同涵义的字符调整到字符代码和字符的数量中以与输出条件相一致。
[0044]基于输出的规则应用单元23c先前设置和登记与文档图像数据被输出到的各个目的地相对应的字符串调整规则。文档处理设备I通过使用输出方法输出文档图像数据,所述输出方法例如是文件夹传输(其中文档图像数据被经由有线或无线网络传输到例如不同的设备并存储在设备的存储单元的文件夹中)、电子邮件发送(其中文档图像数据被作为附件文档附加并且被通过使用服务器消息块(SMB)通过电子邮件发送到不同的设备)、电子介质写入输出(其中文档图像数据被写入到与文档处理设备I可分离地附接的电子介质(例如通用串行总线(USB)或SD存储器冲)、或由图像处理装置进行的打印输出或输出到显示单元的显示输出。使用文件夹传输和主传输的输出方法必须考虑在输出目的地设备中哪个字符代码是可使用的以便适当地输出文档名称。与之形成对比的是,由于电子介质写入输出被写入附加到文档处理设备I上的电子介质并且因此过程在文档处理设备I中结束,因此无需考虑字符代码。
[0045]输出规则应用单元23c先前存储在输出目的地设备中可用的字符代码作为字符串调整规则,针对该输出目的地装置,输出方法被指明为文件夹传输和电子邮件传输。如果输出方法是文件夹传输或电子邮件传输,则基于输出目的地的文档名称生成单兀23a从输出规则应用单元23c获取在输出目的地设备中可用的字符代码,并且将在输出目的地中可用的字符代码设置作为文档名称字符代码。特别是,当在输出目的地设备中可用的字符未知时,基于输出目的地的文档名称生成单元23a将能够由每个设备输出的ASCII码设置到字符代码。
[0046]当输出方法是电子介质写入时,输出规则应用单元23c先前存储各个字符代码作为字符串调整规则,从而能够应用通过OCR处理获取的字符代码。如果输出方法是电子介质写入,则基于输出目的地的文档名称生成单元23a从输出规则应用单元23c获取通过OCR处理获取的字符代码,并且将该字符代码设置作为文档名称字符代码。
[0047]换言之,如果输出目的地设备仅能够显示西方语言并且使得目的地设备显示日文SJIS的文档名称,则通过2个字节表示一个字符的SJIS字符串被显示为在该上下文中无意义的I个字节的符号串,并且由于这样的字符破损,无法适当地显示文档名称。如果输出目的地设备是能够显示日文SJIS码的设备并且文档处理设备I发送包括Θ-重音符号的西班牙语文档名称“t6l6phone”,符号被破损到诸如“t駘駱hone”之类的字符,并且无法适当地显示文档名称。出现这样的西班牙语字符破损的原因在于,e-重音符号(0xE9)对应于SJIS第一字节,并且接下来的I (0xE9)和e (0xE9)是SJIS第二字节,并且根据SJIS日语汉字字符,el (0xE9 0x6C)被转换为“駘”,并且印(0xE9 0x70)被转换为“駘”。
[0048]文件名称规则应用单元23b存储用于执行过程的禁止规则,用于将调节施加到(如果适用于文档名称中的话)由输出目的地设备对文档名称的错误识别并限制字符串。
[0049]例如,尽管在MS-DOS (商标)中缺省使用SJISdS SJIS在诸如日语汉字“表”、片假名字符之类的一些情形中使用“Y”作为第二字节。然而,由于在Windows (商标)中“Y”被用作通行分隔符(pass breaker)等,因此如果“Y”被用于文档名称中,则会出现这样的问题,即在路径中错误识别分隔,并且路径在不期望被分隔的位置处被分隔。换言之,如果文档名称包含“ Y ”,则文档处理设备可以将其作为非现有的子目录,这导致不正确的文档名称并致使输出过程失败。例如,Windows在文档名称(文件名称)中禁止使用"Y,Λ:,*,?,",〈,>和 I”。
[0050]文件名称规则应用单元23b因此先前存储在文档名称中禁止使用的字符和符号作为被禁止的字符/符号。
[0051]如果在文件名称规则应用单元23b中存储的被禁止的字符/符号包含在从文档名称字符串确定单元22传递的文档名称候选字符串中,则基于输出目的地的文档名称生成单元23a禁止使用字符/符号,并且将其自动替换为不被禁止的适当的、不同的字符,或通知用户该事实并使得用户将字符/符号改变为不同的字符。
[0052]设备的操作系统(OS)对文件名称的长度施加限制,并且无法使用超过该长度的文档名称。
[0053]文件名称规则应用单元23b先前存储用于调节作为文档名称的字符串的长度的调节字符串长度。
[0054]如果从文档名称字符串确定单元22传递的文档名称候选字符串超过在文件名称规则应用单元23b中存储的调节字符串长度,则基于输出目的地的文档名称生成单元23a对其进行调节,使得其变为调节字符串长度。具体而言,基于输出目的地的文档名称生成单元23a禁止使用这样的字符串,自动剪切文档名称候选字符串的最后部分使得其变为调节字符串长度,并向用户通知该事实,请求用户将字符串改变为包括具有调节字符串长度的字符串的文档名称。
[0055]此外,对于电子邮件传输,可以根据接收设备的软件对附件文档的数据大小施加限制。
[0056]在这样的情形中,文档处理设备I将要被传输的文档图像数据分割为多组分割文档图像数据,并且将它们通过电子邮件进行发送,并且接收设备将多组分割的文档图像数据恢复为单组的文档图像数据。
[0057]然而,当这样的多组分割的文档图像数据被通过多个电子邮件发送并且如果作为附件文档的多组分割的文档图像数据被分别给出不同的文档名称并且被发送时,接收设备在将多组分割的文档图像数据恢复为单组的文档图像数据时在识别分割的文档图像数据之间的关系上存在困难,这对于使用性是不利的。
[0058]因此,当文档图像数据被作为多组分割的文档图像数据传输时,基于输出目的地的文档名称生成单元23a向所有组的分割的文档图像数据给出相同的文档名称,并且生成这样的文档名称,所述文档名称被按照发送数据组的顺序给出数字值或符号(例如序列号或序列符号)作为顺序信息,所述数字值或符号指示原始文档图像数据中的多组分割的文档图像数据的顺序。
[0059]当已经生成与输出规则应用单元23c、文件名称规则应用单元23b和分割文档图像数据相对应的文档名称时,基于输出目的地的文档名称生成单元23a将所生成的文档名称传递到文档名称字符串输出单元24。
[0060]文档名称字符串输出单元24将由字符串调整单元23创建的文档名称输出到文档存储单元16。
[0061]换言之,在实施例的文档名称创建单元15中,标题候选输入单元21从标题创建单元14接收标题字符串,将其传递到文档名称字符串确定单元22,并且文档名称字符串确定单元22从输入标题字符串中选择实质上表示文档图像数据的内容的文档名称候选字符串,并且随后将文档名称候选字符串输入到字符串调节单元23。
[0062]在字符串调节单元23中,基于输出目的地的文档名称生成单元23a根据基于输出的规则应用单元23c的基于目的地的字符代码等以及文件名称规则应用单元23b的禁止规贝U,执行分割文档图像数据文档名称给出过程,从而适当地执行显示和传输并创建具有良好使用性的文档名称。
[0063]将描述实施例的效果。根据实施例的文档处理设备I根据输出条件来创建表示所加载的文档图像数据的内容的文档名称,其中所述输出条件是根据文档名称输出条件而设置的。
[0064]首先,将参照图3描述由文档处理设备I执行的基本文档处理。在文档处理设备I中,如图3中所示,检查在文档馈送单元11上是否存在要被读取的纸质文档(步骤S101)。当在文档馈送单元11上存在纸质文档时(步骤SlOl处的“是”),仅一个页面被从文档馈送单元11发送到文档读取单元12。文档读取单元12执行文档加载过程,以对纸质文档执行主扫描和副扫描来以给定的分辨率读取纸质文档上的图像、对所述图像进行二值化、并且将所述图像输出到文档存储单元16和OCR单元13 (步骤S102)。
[0065]OCR单元13执行字符信息提取过程(OCR处理),以从由文档读取单元12读取的纸质文档图像数据读取字符数据、将诸如字符图像位置、字符识别得分和语言处理结果(诸如字符所归属的单词的位置和诸如口语部分之类的语法信息)之类的额外信息增加到字符数据、并且将字符数据输出到标题创建单元14 (步骤S103)。
[0066]标题创建单元14执行特征字符串提取过程,以从OCR单元13输入的字符数据和额外信息提取在文本上区分性地表示文档图像数据的页面的内容的标题字符串,并且将标题字符串输出到文档名称创建单元15 (步骤S104)。
[0067]在执行1-页面文档加载过程、字符信息提取过程和特征字符串提取过程之后,文档处理设备I返回到步骤SlOl以检查在文档馈送单元11上是否存在要被读取的纸质文档(步骤S101)。如果在文档馈送单元11上存在要被读取的纸质文档,则只要存在要被读取的纸质文档,文档处理设备I就对下一个纸质文档重复地顺序执行文档加载过程、字符信息提取过程和特征字符串提取过程(步骤SlOl到S104)。
[0068]当不存在要被读取的纸质文档(在步骤SlOl处的“否”)时,文档处理设备I执行文档名称创建过程,在该文档名称创建过程中,文档名称创建单元15根据由标题创建单元14创建的标题字符串来创建与预先设置的输出条件相一致的字符串(例如与字符代码相一致的字符串、与对用于输出方法的字符数量的限制相一致的字符串、以及与用于输出目的地的可用字符限制等相一致的字符串)作为文档名称,并且将字符串输出到文档存储单元16(步骤 S105)。[0069]文档存储单元16在非易失性存储器中与由文档名称创建单元15创建的文档名称相关联地存储并管理从文档读取单元12输入的文档图像数据(如果数据包括多个页面,则文档图像是多个页面的集合)。
[0070]在文档处理设备I中,如果在由文档名称创建单元15执行的步骤S105处的文档名称创建过程中文档图像数据包括多个页面,则文档名称创建单元15通过使用从所有页面提取特征字符串的结果来创建更适当的文档名称。
[0071]当创建包括多个页面的文档图像数据的文档名称时,可以假定顶部页面的标题字符串表示整个文档,这是因为通常假定顶部页面是前页面,但前页面具有与主体页面不同的趋势,并且如果前页面是无法被适当地处理为文本的页面(例如如果文档名称是通过装饰性的字母写入的或者整个页面是图片而没有字符),则无法从由OCR单元13执行的字符信息提取过程中的顶部页面获取标题字符串。如果插入白纸作为书签,则OCR单元13无法获取标题字符。
[0072]标题创建单元14根据诸如字符信息提取过程的结果的可靠性、字符大小和字符存在位置之类的要素来总体评估标题以对标题进行评级。
[0073]当由OCR单元13执行的字符信息提取过程的可靠性较低时,对提取特征字符串的结果的评估值也降低。
[0074]文档名称创建单元15因此使用从所有页面提取特征字符串的结果以顺序执行例如这样的过程,在所述过程中,获取对从每个页面提取特征字符串的结果的评估值,并且将该评估值与来自顶部页面的给定阈值进行比较,并且如果评估值低于阈值,则将对从下一个页面提取特征字符串的结果的评估值与阈值进行比较。如果存在具有超过阈值的对从页面提取特征字符串的结果的评估值的页面,则文档创建单元15使用来自页面的标题字符串作为文档名称。
[0075]相应地,即使如果字符信息提取过程功能性较低,也能够创建适当的文档名称。
[0076]在步骤S105处的文档名称创建过程中,文档处理设备I的文档名称创建单元15的字符串调整单元23根据如上所述的文档名称输出条件来创建表示文档图像数据的内容的文档名称。
[0077]换言之,如果文档处理设备I执行如上所述的电子邮件发送、文件夹传输和电子介质写入中的任何一个作为文档图像数据输出方法,则文档处理设备I读取并数字化(扫描)纸质文档、生成和给定文档名称、并且在操作显示单元的显示器上显示指明用于选择或输入输出方法和输出目的地的屏幕的输出目的地,以允许用户指明输出方法和输出目的地。
[0078]例如,分别地,图4 Ca)示出了输出目的地指明屏幕(其中选择邮件传输作为输出方法),图4 (b)示出了输出目的地指明屏幕(其中选择文件夹传输作为输出方法),并且图4(C)示出了输出目的地指明屏幕(其中选择电子介质写入作为输出方法)。
[0079]如果输出方法是电子介质写入,则由于过程在文档处理设备I中结束,因此无需考虑字符代码并且从而字符串调整单元23生成由标题创建单元14创建的标题字符串(即具有与文档图像数据的字符代码相同的字符代码的字符串)作为文档名称。
[0080]然而,如果输出方法是电子邮件发送或文件夹传输并且如果由标题创建单元14创建的标题字符串被用作文档名称,则由于根据输出目的地设备的字符代码或文档名称的字符长度,可能无法准确地显示文档名称。出于这个原因,如上所述,字符串调整单元23获取在输出目的地设备中可用的被先前存储作为基于输出的规则应用单元23c中的字符串调节规则的字符代码,并通过将其改变为文档名称字符代码来创建文档名称或通过使用不造成字符破损的ASCII代码来创建文档名称。
[0081]字符串调整单元23读取先前存储在文件名称规则应用单元23b中的禁止规则,以执行这样的过程,所述过程用于将调节施加到(如果在文档名称中使用的话)由输出目的地设备对文档名称的错误识别并限制字符串,并利用替代的字符自动替换禁止规则的字符/符号等或使得用户改变它们。
[0082]此外,字符串调整单元23获取在文件名称规则应用单元23b中存储的规则字符串长度,以调节用作文档名称的字符串的长度,并且如果字符串超过调节字符串的长度,则字符串调整单元23禁止使用字符串,将文档名称候选字符串的最后部分自动剪切为调节字符串的长度,并且向用户通知该事实以将字符串改变为比调节字符串长度短的文档名称。
[0083]对于电子邮件传输,可以根据软件或接收设备对附件文档的数据大小施加限制。
[0084]在这样的情形中,文档处理设备I将要被发送的文档图像数据分割为多组分割的文档图像数据并且通过电子邮件发送它们,并且接收设备将所述多组分割的文档图像数据恢复为单组的文档图像数据。
[0085]然而,当这样的多组分割的文档图像数据被通过多个电子邮件发送并且如果作为附件文档的多组分割的文档图像数据被分别给出不同的文档名称并且被发送时,接收设备在将多组分割的文档图像数据恢复为单组的文档图像数据时在识别分割的文档图像数据之间的关系上存在困难,这不利于使用性。
[0086]因此,当文档图像数据被作为多组分割的文档图像数据传输时,基于输出目的地的文档名称生成单元23a向所有组的分割的文档图像数据给出相同的文档名称,并且生成这样的文档名称,所述文档名称被按照发送数据组的顺序给出数字值或符号(例如序列号或序列符号)作为顺序信息,所述数字值或符号指示原始文档图像数据中的多组分割的文档图像数据的顺序。
[0087]如图5中所示,当输出方法是电子邮件发送时,字符串调整单元23获取对被附加到电子邮件的附件文档的大小限制(步骤S201),获取如上所述生成的文档名称(步骤S202),并且获取要被附加的文档图像数据的文档大小(步骤S203)。
[0088]当已经获取了文档图像数据的文档大小时,字符串调整单元23将其与大小限制进行比较,以检查文档大小是否大于大小限制(步骤S204)。
[0089]当文档大小大于大小限制时(步骤S204处的“是”),字符串调整单元23确定文档分割模式(步骤S205 ),并且通过使用文档分割模式来分割文档图像数据(步骤S206 )。
[0090]字符串调整单元23能够使用各种类型的分割模式(例如,将文件从顶部分割为均匀文件长度的连续区域的简单分割模式算法;逐页地分割数据以使得通过使用页面分隔不超过大小限制的分割模式;以及作为分散文件布置(连续的区域并不被输入到一个文件中而是被分散到多个文件中)和文件压缩算法的组合的分割方法)作为文档分割模式。字符串调整单元23以预设的分割模式或由用户从这样的各种类型的分割模式中适当选择的分割模式执行文档划分。
[0091]字符串调整单元23执行过程以创建附件文件并利用文件名称对附件文件进行命名,即当已经分割了文档图像数据时,字符串调整单元23创建多个邮件,根据发送多组分割的文档图像数据的顺序向所述多个邮件附加所述多组分割的文档图像数据,并且将文件名称给出到所述多组分割的文档图像数据(步骤S207)。字符串调整单元23将相同的名称给出到所有组的分割的文档图像数据,并且生成被给出顺序信息(例如数字值或符号)的文档名称,所述顺序信息阐明所述多组分割的文档图像数据的顺序以对它们进行命名。
[0092]当文档图像数据的文档大小等于或小于大小限制时(在步骤S204处的“否”),所述字符串调整单元23执行过程以创建附件文件并利用文件名称对其进行命名而不分割文档图像数据(步骤S207)。当不分割文档图像数据时,字符串调整单元23将图像数据作为附件文件附加到电子邮件并使用文档名称对文件进行命名以作为文件名称。
[0093]由字符串调整单元23和文档名称字符串输出单元23协作地具体执行附件文件创建和命名过程。
[0094]文档名称字符串输出单元24将如上所述命名的附件文件附加到电子邮件(步骤S208)并且将附加有附件文件的电子邮件发送到邮件地址,并且过程结束(步骤S209)。当文档图像数据被分割时,文档名称字符串输出单元24按照通过顺序信息指示的次序顺序地发送电子邮件。
[0095]相应地,即使对于电子邮件发送,也能够给出考虑了发送目的地的字符代码的文档名称,并且如果对数据量存在限制,文档图像数据能够被分割为多组的文档图像数据(所述多组的文档图像数据的大小等于或小于大小限制),将阐明了顺序的顺序信息的相同文档名称文档名称作为文件名称给出到数据集并且能够通过电子邮件发送数据集,可以由传输目的地设备准确地显示文档名称,并且能够准确和容易地恢复原始文档图像数据。
[0096]尽管根据以上描述单个的文档处理设备I执行从加载文档图像数据到创建文档名称和存储文档的处理,但是文档处理并不限于由单个的文档处理设备I执行的处理。例如,对于文档处理,由文档读取单元12加载的文档图像数据可以被发送到图6中所示的计算机设备30,并且计算机设备30可以执行软件处理以执行文档处理,例如字符信息提取过程、特征字符串提取过程和文档名称创建过程。在这个情形中,计算机设备30还可以执行文档存储过程。
[0097]计算机设备30包括CPU31、存储器32、通信单元33、显示器34、硬盘35、键盘36、⑶-ROM驱动器37和柔性盘(FD)驱动器38。这些单元经由总线39以接口连接。本发明的文档处理程序被加载到计算机设备30的硬盘35等中,从而创建OCR单元、标题创建单元、文档名称创建单元、以及文档存储单元(在还执行文档存储的情况下)。
[0098]在计算机设备30中,根据被加载到硬盘35等中的文档处理程序,CPU31通过对由通信单元33从扫描设备等经由通信线路(例如局域网(LAN)或互联网)加载的文档图像数据执行文档处理(例如字符信息提取过程、特征字符串提取过程和文档名称创建过程)来创建文档名称,并且将所创建的文档名称与文档图像数据相关联地存储在硬盘35中或将其存储在被插入到⑶-ROM驱动器37的⑶-ROM中或被插入到FD驱动器38的FD中。
[0099]文档处理并不限于由单个设备所执行的处理。例如,如图7中所示,可以通过使用与通信线路NW (例如互联网或LAN)连接的多(图7中为三)个设备SI到S3来创建文档处理系统BS,以利用通过其创建文档处理系统BS的设备SI到S3执行文档处理。
[0100]在这个情形中,例如,设备SI具有用于字符信息提取过程的文档处理程序,对从不同的设备或扫描设备(未示出)等加载或由设备Si通过执行扫描过程加载的文档图像数据执行字符信息提取过程,并且将至少字符信息提取过程的结果经由通信线路NW发送到设备S2。
[0101]设备S2具有用于创建标题的文档处理程序,根据从设备SI发送的字符信息提取过程的结果执行特征字符串提取过程,并且将从提取得到的标题字符串经由通信线路NW发送到设备S3。
[0102]设备S3具有用于创建文档名称的文档处理程序,根据从设备S2发送的标题字符串创建文档名称,并且将从设备SI发送的文档图像数据或从设备S2发送的文档图像数据与文档名称相关联地存储在设备3的非易失性存储器中或通信线路NW上的存储设备中。
[0103]如上所述,文档处理设备I包括OCR单元(字符信息提取单元)13,用于从文档图像数据提取字符信息;标题创建单元(特征字符串提取装置)14,用于从由OCR单元13提取的字符信息中提取用于指示文档图像数据的特征的给定数量的字符串作为标题字符串(文档名称候选字符串);文档名称创建单元(输出条件获取单元)15,用于当由涉及文档图像数据的文档名称的输出的多个处理方法之一来处理文档图像数据时获取文档图像数据的文档名称的输出所需的输出条件;以及文档名称创建单元(文档名称生成单元)15,用于根据文档名称候选字符串生成与对应于输出条件的字符条件相一致的文档名称。
[0104]因此,可以通过使用与适合于如下输出条件的字符条件相一致的字符串来创建表示文档图像数据的内容的文档名称,所述输出条件是当将文档名称输出到文档名称将被输出到的目的地中时所使用的输出方法所需的输出条件,并且相应地,在输出目的地中可以正确地输出文档名称。
[0105]实施例的文档处理设备I执行包括如下步骤的文档处理方法:字符信息提取处理,用于从文档图像数据提取字符信息;特征字符串提取处理,用于从在字符信息提取处理步骤处提取的字符信息中提取用于指示文档图像数据的特征的给定数量的字符串作为文档名称候选字符串;输出条件获取处理,用于当由涉及文档图像数据的文档名称的输出的多个处理方法之一来处理文档图像数据时,获取文档图像数据的文档名称的输出所需的输出条件;以及文档名称生成处理,用于从文档名称候选字符串生成与对应于输出条件的字符条件相一致的文档名称。
[0106]因此,可以通过使用与适合于如下输出条件的字符条件相一致的字符串来创建表示文档图像数据的内容的文档名称,所述输出条件是当将文档名称输出到文档名称将被输出到的目的地中时所使用的输出方法所需的输出条件,并且相应地,在输出目的地中可以正确地输出文档名称。
[0107]实施例的文档处理设备I具有文档处理程序,所述文档处理程序使得控制处理器执行:字符信息提取处理,用于从文档图像数据提取字符信息;特征字符串提取处理,用于从通过字符信息提取处理所提取的字符信息中提取用于指示文档图像数据的特征的给定数量的字符串作为文档名称候选字符串;输出条件获取处理,用于当由涉及文档图像数据的文档名称的输出的多个处理方法之一来处理文档图像数据时,获取文档图像数据的文档名称的输出所需的输出条件;以及文档名称生成处理,用于从文档名称候选字符串生成与对应于输出条件的字符条件相一致的文档名称。
[0108]因此,可以通过使用与适合于如下输出条件的字符条件相一致的字符串来创建表示文档图像数据的内容的文档名称,所述输出条件是当将文档名称输出到文档名称将被输出到的目的地中时所使用的输出方法所需的输出条件,并且相应地,在输出目的地中可以正确地输出文档名称。
[0109]在实施例的文档处理设备I中,用作输出条件获取单元的文档名称创建单元15获取字符代码作为输出条件,并且用作文档名称生成单元的文档名称创建单元15使用作为输出条件的字符代码作为字符条件,并且生成字符代码形式的文档名称。
[0110]相应地,通过使用在包括用于指示文档图像数据特征的给定数量的字符串的标题字符串当中适合于如下输出条件的字符代码中的字符串,其中所述输出条件基于输出所述文档图像数据的时间和所述文档图像数据要被输出到的目的地,根据用作文档名称输出条件的字符代码来创建表示文档图像数据的内容的文档名称,并且相应地,能够在输出目的地处更准确地输出文档名称。
[0111]在实施例的文档处理设备I中,当文档名称创建单元15获取将文档名称要被输出到的目的地存储在存储介质中的输出条件时,文档名称创建单元15使用用于文档图像数据的字符代码作为字符条件,并且生成字符代码形式的文档名称。
[0112]相应地,对于在文档处理设备I中完成的处理,可以使用能够由文档处理设备I表示的字符代码以生成文档名称,并且相应地,能够准确地输出文档名称。
[0113]在实施例的文档处理设备I中,当文档名称创建单元15获取通过电子邮件发送或数据传输将文档名称输出到的目的地是不同设备的输出条件时,文档名称创建单元15生成ASCII字符代码形式的文档名称作为字符条件。
[0114]相应地,即使如果在通过电子邮件发送或数据传输将文档名称输出到的目的地设备中可使用的字符代码未知,也能够准确地输出文档名称。
[0115]此外,在文档处理设备I中,当文档名称创建单元15获取通过电子邮件发送将文档名称输出到的目的地是不同的设备并且获取对电子邮件发送的附件文档的数据容量限制作为输出条件时,文档名称创建单元15为根据数据容量限制通过分割文档图像数据获取的多组分割的文档数据生成文档名称,针对所述文档名称给出所述多组分割的文档数据之间的相同名称以及表示对应的文档中的顺序的顺序信息。
[0116]相应地,即使如果当传输文档图像数据作为附加到电子邮件上的文档时需要分割文档图像数据,在输出目的地中也能够准确地输出文档名称,并且能够给出文档名称,使得能够理解多组分割的文档图像数据之间的关系,从而这改善了使用性。
[0117]根据本实施例的一个方面,可以根据文档名称输出条件来创建用于表示文档图像数据的内容的文档名称。
[0118]尽管出于完整和清楚公开的目的已经参照具体实施例描述了本发明,但所附权利要求并不因此受限,而是应被构造为体现对于本领域技术人员而言完全落在在本文中阐述的基本教诲中的所有修改和替换构造。
【权利要求】
1.一种文档处理设备,包括: 字符信息提取单元,用于从文档图像数据提取字符信息; 特征字符串提取单元,用于从由所述字符信息提取单元提取的字符信息中,提取指示所述文档图像数据的特征的给定数量的字符串作为文档名称候选字符串; 输出条件获取单元,当由涉及所述文档图像数据的文档名称的输出的多个处理方法之一处理所述文档图像数据时,所述输出条件获取单元获取所述文档图像数据的文档名称的输出所需的输出条件;以及 文档名称生成单元,用于从所述文档名称候选字符串生成与对应于所述输出条件的字符条件相一致的文档名称。
2.如权利要求1所述的文档处理设备,其中, 所述输出条件获取单元获取字符代码作为所述输出条件,并且 所述文档名称生成单元使用作为所述输出条件的字符代码作为所述字符条件,并且使用所述字符代码生成所述文档名称。
3.如权利要求1或2所述的文档处理设备,其中, 当所述输出条件获取单元获取将所述文档名称被输出到的目的地存储在存储介质中的输出条件时,所述文档名称生成单元使用在所述文档图像数据中使用的字符代码作为所述字符条件,并且使用所述字符代码生成所述文档名称。
4.如权利要求1或2所述的文档处理设备,其中, 当所述输出条件获取单元获取通过电子邮件发送或数据传输输出所述文档名称到的目的地是不同的设备的输出条件时,所`述文档名称生成单元使用ASCII字符代码作为所述字符条件生成文档名称。
5.如权利要求1至4中的任一项所述的文档处理设备,其中, 当所述输出条件获取单元获取通过电子邮件发送将所述文档名称输出到的目的地是不同的设备的输出条件并且获取对电子邮件发送的附件文档的数据容量限制作为输出条件时,所述文档名称生成单元为根据所述数据容量限制通过分割所述文档图像数据获取的多组分割的文档数据生成文档名称,所述文档名称在所述多组分割的文档数据之间被给出相同的名称,并且向所述文档名称增加表示对应文档的顺序的顺序信息。
6.一种图像处理装置,在所述图像处理装置中加载有文档图像数据,文档处理器向所述文档图像数据给出文档名称并且存储所述文档名称,并且响应于对输出所存储的文档图像数据的请求而输出所述文档图像数据,其中, 如权利要求1至5中的任一项所述的文档处理设备被安装作为所述文档处理器。
7.一种文档处理方法,包括如下步骤: 字符信息提取处理,从文档图像数据提取字符信息; 特征字符串提取处理,从在所述字符信息提取处理步骤处提取的字符信息中,提取指示所述文档图像数据的特征的给定数量的字符串作为文档名称候选字符串; 输出条件获取处理,当由涉及所述文档图像数据的文档名称的输出的多个处理方法之一处理所述文档图像数据时,所述输出条件获取处理获取所述文档图像数据的文档名称的输出所需的输出条件;以及 文档名称生成处理,从所述文档名称候选字符串生成与对应于所述输出条件的字符条件相一致的文档名称。`
【文档编号】H04N1/32GK103873719SQ201310652235
【公开日】2014年6月18日 申请日期:2013年12月5日 优先权日:2012年12月7日
【发明者】大黑庆久 申请人:株式会社理光
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1