文档扫描仪的制作方法

文档序号:6491699阅读:274来源:国知局
专利名称:文档扫描仪的制作方法
技术领域
本发明一般涉及文档扫描,更具体地说,涉及一种将文档图像转换成包括像素的图像数据的方法,每个像素具有表示图像元素的亮度和/或颜色的值,其中,所述文档图像包括诸如字词或成组字词的文本布局元素。本发明也涉及适用于执行所述方法的扫描设备和用于在处理器中执行时执行所述方法的计算机程序产品。
图像数据的扫描文件由扫描仪生成时,文件名称必须定义为使该文件可以被检索。通常,在扫描仪是连接到网络的独立设备的大型系统中,扫描仪自动为扫描文件生成文件名。文件名从设备可获得的变量合成,如扫描id、日期和时间,但系统无法生成实质上与扫描文档相关的文件名。此外,独立扫描仪常常不具有完整的键盘,因而操作员不可能在扫描过程中在扫描仪位置键入有意义的文件名。因此,以后可能难以识别扫描文件,特别是在扫描了大量文档的情况下。
本发明的目的是提供一种为扫描文件定义有意义文件名的简单方式。对于能够生成包括扫描文件(例如,作为附件)的电子邮件消息的高级扫描仪设备,本发明还有一个目的是提供一种同样简单的方式,在电子邮件消息的“主题”字段中定义文件标志符,以便消息到达时可轻松地识别出在传送扫描文件。
此目的由如权利要求1所述的方法实现。根据本发明,扫描的图像在显示屏幕上向操作员显示,并且操作员能够根据其意愿指向可更好地描述文档内容的字词或字词组合(通常称为文本布局元素),例如,标题、作者、文档类型、关键字、内容(简短)摘要等。
根据操作员的选择,系统从扫描图像提取选定的图像信息,并通过OCR将它转换为编码的文本。提取的文本随后由系统自动转换成文件标志符,如文件名或包含扫描文件的电子邮件消息的主题名。
要用作文件标志符的布局元素是已从文档图像提取的元素,由于它源于文档的图像数据,并且专门用作例如有意义的文件名等有关文档的信息,因此也将称为“元数据”。
文档为数字编码形式时,如MS WORDTM文档,元数据可由扫描文档并提取预编程关键字的专用程序自动识别。然而,可作为图像、即黑色(有色)和白色像素组合来提供的文档必须先由OCR转换成数字编码形式,这是需要大量计算能力但不能始终适当地工作的过程。此外,索引程序处理文档需要相当长的时间。
自动解释文档图像对于严格结构化的文档、如专利文档是已知的。此类文档具有严格规定的形式,并且计算机可编程为在文档图像中查找和处理特殊的预定信息项目。然而,自由形式文档无法以此方式处理。
人类操作员具有的优点是他们可以轻松地检查文档图像并查找其中的相关项目。因此,让操作员在文档图像中选择元数据是有利的,而元数据随后由计算机系统自动提取并作为标志符与扫描文件相关联。
提取元数据的方法本身(即,不是用于组成相关联扫描文件的文件名,而是用于编辑目的)在先有技术中已为人知。
从EP 1136938可了解一种从文档提取元数据的方法。使用连接到计算机的扫描仪,先扫描文档以生成像素图像。扫描的文档具有结构化布局,在该布局中,表示元数据的文本串位于框中,而这些框用画出的线条围住了文本串。具体而言,技术绘图具有包含诸如标题、日期、版本等元数据的此类框。用户操作计算机的定点构件指定文档的至少一个框中的任意点。在用户指定点后,通过检测周围的线条识别包含该点的框。随后,所述框中的字符由光学字符识别(OCR)识别以便检索元数据,并在连接到计算机的数据库中存储它,从而使以此方式扫描的文档能够被编索引。因此,采取元数据的加框结构用于识别元数据。在EP 1 256 900和NEWMAN W等人的“Camworks一种从纸件源文档进行有效捕捉的基于视频的工具”(Multimedia Computing and Systems,1999,IEEE InternationalConference on Florence,Italy,7-11 June 1999,Los Alamitos,CA,USA,IEEE Comp.Soc.,pp.647-653)中,公开了为编辑或索引目的而从扫描的文档图像提取文本的其它方法。
根据操作员指示扫描图像内选择点,自动确定提取区域可以几种方式完成。
此类过程的第一个示例是基于图像(或至少其一部分)的初步自动分割成诸如字词或行等布局元素的结果。将文档图像分割成布局元素的方法本身为人所知,例如,在申请人的专利US 5856877中公开的方法或在上面引用的Newman等人中公开的方法。分割结果存储在设备的存储器中,而不是向操作员显示,以免使其迷惑。
经由诸如触摸屏或鼠标等用户接口,用户在文档图像的显示部分中指明要用作文件标志符的字词。作为响应,所指明的布局元素被自动选定,并且完全覆盖布局元素的对应建议提取区域得以确定和显示。
操作员可调整最初自动确定的提取区域,例如,通过指明又一元数据元素中的至少又一选择点要包括在提取区域中,这种情况下,系统自动增大提取区域以另外包括所述又一元数据元素及其间的任何元素。
提取区域确定过程的第二示例开始是基于具有前景属性的像素值,自动将像素分类为前景像素,然后基于以预定连接距离连接到选择点所示前景像素的前景像素来确定提取区域。具体而言,此方法包括包括选择点所示的前景像素;逐渐包括距连接区中包括的其它前景像素在连接距离以内的其它前景像素;以及将提取区域设为完全包含连接区的区域。
操作员同样可调整自动确定的提取区域,例如,指明又一选择点,或者执行诸如单击鼠标按钮或操作鼠标滚轮等补充用户控制事件。在后一情况下,连接距离可以被增大,例如,每次单击增大一个像素。
虽然上面详述了两种提取方法,但是本发明并不限于使用这些方法。产生类似结果的其它方法也可在本发明中使用并可产生满意的结果。
在此说明中,文档图像可包括多个物理文档页面。一般来说,显示器上所示的部分文档是第一页面图像,因为通常那是包含对于元数据提取相关的最多信息的页面。然而,本发明者考虑了提供具有浏览功能的设备以导航通过整个文档图像,即,通过多个物理文档页面。
其它权利要求中提供了根据本发明的设备的其它优选实施例。
通过参照下述说明中以示例方式描述的实施例并参照附图,本发明的这些和其它方面将变得明白并得以阐明,其中

图1示出扫描的文档和元数据提取区域;图2示出用于处理文档和提取元数据的设备;图3示出根据第一示范方法提取元数据的过程的流程图;图4a示出分割结果;图4b示出分割结果的详情;图5示出根据第二示范方法提取元数据的过程的流程图;图6a、6b和6c示出从选择点增大区域;图7示出调整元数据提取区域;以及图8示出调整非矩形提取区域的形状。这些图是示意图,未按比例绘制。在图中,与已经描述的元素对应的元素具有相同的标号。
图1示出扫描的文档和元数据提取区域。文档13已扫描以生成像素图像。像素(图像元素的简称)是文档的数字表示,并且具有表示图像元素的亮度和/或颜色的值。部分图像在显示器12上显示(示意地画出),以便用户交互式确定要用于生成例如文件名等文件标志符的元数据。文档的图像文件可包含文档的每个页面的分开的图像。通常为第一页的标题页包含有关文档内容的相关信息,如标题、文档类型、作者、出版日期等。此类信息在此说明中称为元数据。用户可选择操作显示器以显示图像或图像文件的相关部分,例如通过滚动。或者,显示器可显示单页文档的完整页面。
元数据元素的一个示例是文档编号11,这是文档类型的一部分。在应用限制内,元数据元素可以是单个字词,如文档编号11,也可以是多个字词,或者甚至可以是一个或多个文本行。例如,图1所示的摘要包含大约6行文本。
在显示器12上,提取区域14显示为围绕包括文档编号11的文档类型。提取区域是查找元数据并识别元数据的处理单元要使用的图像区域。在本发明的上下文中,元数据是文本,并且提取区域被分析以便识别字符或字词,这通常称为光学字符识别(OCR)。
为构建提取区域,用户在其认为相关的元数据元素中指明选择点,例如,文档编号11。指明选择点是选择命令的第一步。要指明选择点,必须在诸如触摸屏等敏感屏幕上容纳该显示。用户可使用手指或者使用专用定点棒指明选择点。或者,显示器可显示由用户通过例如鼠标、轨迹球等等控制的光标。随后,通过定位光标并激活按钮、诸如鼠标点击,可指示选择点。
在用户指示了选择点后,提取区域由包含选择点或与选择点最近的布局元素(字词)确定。许多方式可找到布局元素,并且下面详细描述了其中的两种方式。然而,本发明并不限于本文所述确定由操作员所指示的布局元素的方法。
如果选择点的位置在背景区域,则系统可判定用户不想选择布局元素。在一个实施例中,如果到最近布局元素的距离在预定限制内,系统可判定用户要选择最近的布局元素。如果选择点在远离前景点的背景像素上,则系统可将此选择视为取消当前选定元数据提取区域的命令。
基于选择点所确定的布局元素(字词),提取区域在布局元素周围画出并向用户显示,例如,框或彩色区域。用户可确认建议的区域,或者可如下所述改变建议的提取区域。最后,通过处理提取区域中的像素而提取元数据。扫描文件的文件名随后可以提取的一个或多个字词的形式或以提取的一个或多个字词和自动添加的系统信息、如日期和/或时间等的组合的形式自动生成。
图2示出根据本发明用于处理文档和提取元数据的设备。设备具有用于输入数字图像的输入单元21,包括用于从物理文档扫描图像的扫描单元,如电光扫描仪。输入单元21连接到与存储单元22协作的处理单元24。存储单元可包括用于在象磁带或光盘等记录载体上存储图像和/或元数据的记录单元。处理单元可包括通用计算机中央处理器(CPU)和支持电路,使用用于执行如上所述元数据提取的软件进行操作。处理单元连接到至少配备定点单元以指示图像上选择点的用户接口25。用户接口可包括诸如键盘、鼠标设备或操作员按钮等控制工具。处理单元连接到显示单元23。显示单元包括如上面参照图1所述,用于显示图像和提取区域的显示屏。特别是,显示单元和定点单元可由触摸屏实现,它对用户使用手指指向显示图像中的元数据元素以指示选择点敏感。处理单元可连接到打印单元,用以在纸张上输出处理的图像或元数据。由输入单元21生成的扫描文件可基于提取的元数据被给予文件名,并例如可存储在数据库中,例如,在存储单元22或在分开的计算机系统中。
要注意,设备可使用标准计算机硬件组件和用于执行如下所述元数据提取过程的计算机程序来构建。或者,设备可以是包含扫描单元、处理单元和容许元数据提取的显示器的专用硬件设备。此外,扫描过程可与元数据提取的交互过程分离,例如,在邮件接收室的扫描单元可经LAN连接到具有显示器和操作员的编索引位置。
图3示出根据第一示范方法提取元数据的过程的流程图。此方法先基于像素值将图像分成多个布局元素,如字词和行,并在布局元素级处理提取区域的完全确定。
根据此方法,基于具有前景属性的值,通常为表示白色背景文档上黑色的值,将像素分类为前景像素。在彩色图像中,前景属性可以是表示特定颜色的值,例如,从选择点所指示的像素的颜色交互确定的颜色。
将图像分割为布局元素是图像处理中本身已知的步骤。例如,在US 5856877中,描述了一种用于分割图像的方法。分割可在向用户显示图像之前执行,或者可在系统中具有处理能力时立即启动,例如,作为向用户显示文档期间的后台进程。分割也可响应用户对选择点的指示来执行,然后只局限于与所指示点相对较近的区域。注意,分割结果不向用户显示。因此,分割无需完成,并且用户在扫描文档后将体验系统提供的快速文档显示。此外,在整个显示的文档图像上,用户不会受到框或其它划界元素的干扰。
在一个实施例中,分割过程集中在选择点周围的区域,例如,只在向用户实际显示的图像区域上执行。注意,用户可先通过滚动文档而选择感兴趣的区域。或者,可在用户指示选择点后选择性执行分割。
转到图3,在第一步骤“准备输入图像S31”中,从扫描设备接收作为像素值的数字文件的图像。该步骤可以还包括基于预定知识或检测到的图像属性进行的图像处理,诸如增强对比度,从图像的全局统计数据确定前景和或背景属性,旋转图像等。另外,该步骤可包括将图像分割为布局元素。然而,注意,分割无需在图像显示前完成,而是可作为后台过程继续,直至在步骤“查找布局元素S34”中需要布局元素。或者,可作为分开的图像处理系统中的准备步骤确定分割结果。
在下一步骤“显示图像S32”中,在显示器上向用户显示图像。该步骤可包括例如从以大的白色区域开始的页面查找要显示的图像的相关部分,显示具有第一文本行的部分。在下一步骤“选择点S33”中,预期用户动作在图像中,具体而言是在元数据元素中指示选择点。图中的符号等待环L33指示系统在等待用户动作。
在下一步骤“查找布局元素S34”中,处理分割的图像以查找用户要提取元数据的布局元素。如下参照图4所述,选择点指示已选择的布局元素。在下一步骤“显示提取区域S35”中,显示覆盖选定布局元素的提取区域。提取区域可显示为正好包含布局元素的矩形、突出显示区域或任何其它合适的显示特征。
注意,用户可主动输入选择点,例如,通过在光标位于所需元数据元素时单击鼠标按钮,或者把手指放在触摸屏上。然而,系统也可在用户将定点器元素(如光标)置于前景对象附近时立即自动显示建议的提取区域,或在预定(短)等待时间之后自动显示。在自动模式中,步骤“选择点S33”、“查找布局元素S34”和“显示提取区域S35”组合在一起。光标可显示为表明自动模式的特定符号,例如,通过添加小的矩形到光标符号上。用户可基于建议的提取区域的可见反馈而确定选择点。
基于所显示的提取区域,用户可检查提取区域覆盖其所需的元数据元素。在下一步骤“最终区域S36”中,用户确认显示的提取区域,例如,通过鼠标命令确认或者通过输入下一文档隐含地确认。
如随符号环L36所示,用户也可如参照图7或图8所述调整建议的提取区域。例如,用户可指示提取区域中也必须包括的第二点,或者用户通过从选择点按其所需扩展提取区域的方向拖动定点元素而指示所建议提取区域的扩展。显示器可响应调整而显示最终区域。
在下一步骤“提取元数据S37”中,处理最终确认的提取区域以检测和识别元数据元素,如经OCR检测和识别的字词。结果转换为扫描文件标志符,如文件名,这可在显示器上的文本字段中显示。扫描文件随后可使用文件标志符存储在存储单元22中。
图4a示出分割结果。注意,分割结果不向用户显示,但只在处理系统内部可用。图1所示图像用作示例。分割导致检测到许多布局元素。该过程基本上检测各个字词,例如矩形41和43所指示的字词,并且还检测如行等字词的所有组合,例如矩形42所示的行,以及检测文本块,例如矩形44所示的文本块。
实际上只具有背景像素的中间区域分类为背景45。如黑线条46等预定的“非文本”元素也可分类为背景,或至少分类为不可选元素。用户通过在其要提取的元数据元素附近或上面定位诸如光标等定点元素而指示选择点。随后,确定完全覆盖该布局元素的提取区域。提取区域向可确认建议的提取区域的用户显示。用户可判定提取区域太小、太大等。在该情况下,用户可如下所述补充其选择命令。
图4b示出分割结果的详情。它包括对应于第一字词,由第一矩形47所示的第一布局元素;对应于第二字词,由第二矩形48所示的第二布局元素;以及由第三矩形49所示分割的第三布局元素,即,对应于文档类型中的编号。
此外,分割过程检测到三个字词元素的组合,即,矩形42所示的行。
在用户指示第三矩形49中的选择点后,系统将显示只围绕文档编号的小提取区域。
在用户现在在建议的提取区域上单击(鼠标)或点触(触摸屏)时,过程自动选择下一较高级布局元素,在此示例中为矩形42中的“行”。另外更高级将是文本块(段落),但在此特定示例中未显示。或者,单击可导致通过添加字词而逐渐扩展选择区域,例如,在读取方向上扩展。在图4b的示例中,用户通过指向矩形47中的字词而开始,并且相继的单击(点触)将分别相继地添加矩形48和49中的字词。
不同的鼠标单击(例如,使用鼠标上的右键而不是左键)可按级或按字词逐渐减小选定区域。
在扩展选择区域的备选方式中,用户可指示图像中又一布局元素中的第二选择点,例如,通过指向矩形48中的新位置。新的布局元素可能只是添加到原布局元素。如果有中间布局元素,则用户最可能希望也包括中间元素。例如,如果第二选择点是在第一矩形47中,则所有三个矩形47、48和49组合在提取区域中。
用户也可通过在第一矩形47的方向上(朝纸张的左缘)拖动光标而改变提取区域。系统从此移动得出另外连接布局元素的命令,并且连接下一矩形48以构成围绕相邻矩形48、49的新提取区域。连接可应用于在连接距离以内的布局元素。连接距离用于选择要组合为选定布局元素的布局元素,即,在布局元素之间的背景小于连接距离。连接距离可定义为布局元素边界之间的最短欧几里得距离,或者水平(x)或垂直(y)方向上具有最近x或y坐标的布局元素点之间的距离。连接布局元素的阈值距离可以是预定距离,例如,稍微大于在分割期间使用的距离,以便加入具有中间背景像素的图像元素。对选择命令的补充也可转换为用户定义的连接距离,例如,可从用户移动光标的距离以交互方式得出连接距离。在一个实施例中,用户可重复单击或指向同一位置以将连接距离增大预定量,或者可操作鼠标滚轮以逐渐增大或减小连接距离。
对于不同方向,连接距离可以不同。例如,水平方向上的连接距离可大于垂直方向上的连接距离。对于普通文本文档,这会导致将字符稳固地连接为字词,将字词连接为文本行,而不将文本行连接到下一或上一行。在预处理步骤中,可例如通过分析背景像素的布局而确定读取方向。连接距离可基于读取方向,例如,从左到右,并且从选择点到右,连接距离可较大。
在连接过程的一个实施例中,连接距离可依据经由对选择命令的补充接收的选择方向进行调整。建议的提取区域向用户显示,并且用户将轻松地检测到提取区域要在特定方向上扩展。用户可通过沿选择方向从选择点拖动选择项目(光标或触摸屏上的手指)而指示选择方向。
图5示出根据第二示范方法提取元数据的过程的流程图。在此方法中,操作员所指示的布局元素的确定及随后的提取区域完全是在像素级执行的。
像素基于具有前景属性的值,通常为表示白色背景文档上黑色的值而分类为前景像素。在彩色图像中,前景属性可以是表示特定颜色的值,例如,从选择点所指示的像素的颜色交互确定的颜色,或不同于背景颜色的颜色。区分前景和背景像素的方法在本领域中为人所知。
发现的第一前景像素由选择点指示,即,对应于选择点的位置或者若选择点在元数据元素中的背景像素上、则靠近选择点的前景像素。如果选择点在前景点的预定距离以内的背景像素上,则系统可将所指示的像素视为前景像素,以便查找构成所需元数据元素的像素,即,由于选择点已被用户指示的原因而将选择点(重新)分类为前景像素。或者,系统可将最近的前景像素选择为选择点。如果选择点在远离前景点的背景像素上,则系统可将此选择视为取消当前选定的元数据提取区域的命令。
基于第一前景像素,检测到像素区并将其假定为元数据的一部分,并且围绕该区画出提取区域并向用户显示。元数据通过处理提取区域中的像素来提取,并转换成扫描文件标志符。
转到图5,在第一步骤“准备输入图像S131”中,从扫描设备接收作为像素值的数字文件的图像。该步骤可以还包括基于预定知识或检测到的图像属性进行的图像处理,诸如增强对比度,从图像的全局统计数据确定前景和或背景属性,旋转图像等。此外,此步骤可包括准备具有较低分辨率的其它输入图像,以便在步骤S134(在下面解释)的图像分析中使用。由于扫描图像具有相当高的分辨率,因此,适当降低分辨率通常不会损害分析,例如将因数从2改为4,而这减少所需的处理能力。原来的高分辨率输入图像将仍用于显示和数据提取。
在下一步骤“显示图像S132”中,在显示器上向用户显示图像。该步骤可包括例如从以大的白色区域开始的页面查找要显示的图像的相关部分,显示具有第一文本行的部分。在下一步骤“选择点S133”中,预期的用户动作是在图像中,具体而言是在元数据元素中指示选择点。图中的符号等待环L133指明系统在等待用户动作。
在下一步骤“查找连接区S134”中,如下面参照图6所述,分析选择点周围的像素以查找在连接范围以内的前景像素。在下一步骤“显示提取区域S135”中,显示了覆盖连接区的提取区域。提取区域可显示为正好包含连接区的矩形区域、突出显示的区域或任何其它合适的显示特征。
注意,用户可主动输入选择点,例如,通过在光标位于所需元数据元素时单击鼠标按钮,或者把手指放在触摸屏上。然而,系统也可在用户将定点器元素(如光标)置于前景对象附近时立即自动显示建议的提取区域,或在预定(短)等待时间之后自动显示。在自动模式中,步骤“选择点S133”、“查找连接区S134”和“显示提取区域S135”组合在一起。光标可显示为表明自动模式的特定符号,例如,通过添加小的矩形到光标符号上。用户可基于建议的提取区域的可见反馈而确定选择点。
基于所显示的提取区域,用户可检查提取区域覆盖其所需的元数据元素。在下一步骤“最终区域S136”中,用户确认显示的提取区域,例如,通过鼠标命令确认或者通过输入下一文档隐含地确认。
如随符号环L136所示,用户也可如参照图7或图8所述调整建议的提取区域。例如,用户可指示提取区域中也必须包括的第二点,或者用户通过从选择点按其所需扩展提取区域的方向拖动定点元素而指示建议的提取区域的扩展。显示器可响应调整而显示最终区域。
在下一步骤“提取元数据S137”中,处理最终确认的提取区域以检测和识别元数据元素,如经OCR检测和识别的字词。结果可在显示器上在文本字段中显示。结果转换为扫描文件标志符,如文件名,这可在显示器上在文本字段中显示。扫描文件随后可使用文件标志符存储在存储单元22中。
图6a、6b和6c示出从选择点增大区域。用户指示图像中的选择点,然后如下所述形成区域。在选择点选择起始前景像素。如果选择点在背景像素上,但在距某前景像素的预定距离以内,则该前景像素可用作起始像素。
图6a示出以一个像素的连接距离增长的区域。图像81的详细部分在四个区域增长阶段中示出,各个像素显示为白色(背景)或灰色(前景)。用户指示了由黑点表示的选择点80。区域增长从对应于选择点80的像素开始,并且最初显示只一个像素的起始区域82。用于增长的连接距离假定为一个像素,即,不允许中间背景像素。在第二增长阶段,显示的第二区域83朝下扩展以包括直接连接的像素。在第三增长阶段,显示的第三区域84向右扩展以包括直接连接的像素。在第四增长阶段,显示的第四区域85同样向右扩展以包括直接连接的像素。由于无其它前景像素在连接距离(等于1)以内,因此区域增长停止。注意,在增长区域82、83、84和85周围以虚线画出矩形区域。该区域也包括背景像素。在结束区域增长过程后,画出的区域可成为建议的提取区域。
图6b示出以两个像素的连接距离增长的区域。它示出如图6a中所示的相同图像详情。连接距离增加为2个像素,因此,单个中间背景像素将被跨过。结果得到的矩形区域86包含具有2个像素连接距离的前景像素。用户可确认结果区域,或者可判定该矩形区域太小。在该情况下,用户可补充其选择命令。此外,用户可在图像的又一前景部分中指示第二选择点87,例如,通过指向新位置或从选择点86拖到第二选择点87。对选择命令的补充由处理单元24转换为正好适合将第二选择点87添加到选择区域的更大连接距离。这可导致选择区域在其它方向上也扩大。
在一个实施例中,用户可重复单击或指向同一位置以增大连接距离。对于每次鼠标单击或触摸屏上的点触,连接距离会增大一个像素,或增大预定的多个像素。此外,连接距离的增大可以在具有实际增大提取区域的效果的步骤中进行。在使用鼠标的情况下,单击鼠标上的不同按钮可分别与增大和减小连接距离相关联。
图6c示出以三个像素的连接距离增长的区域。它示出如图6b中所示的相同图像详情。连接距离增加为3个像素,因此多达两个中间背景像素将被跨过。结果得到的矩形区域88包含第二选择点87。注意,区域增长过程也可调整到实现的结果,或者可包括了解选项,例如,在多数情况下用户需要增大区域时使用更大的连接距离。此外,如果发现小于预定大小的连接区,则过程可包括自动增大连接距离以至少达到预定大小。
在区域增长过程的又一实施例中,连接距离对于不同的方向不同。例如,水平方向上的连接距离可大于垂直方向上的连接距离。对于普通文本文档,这会导致稳固地连接文本行中的字词,而不将文本行连接到下一或上一行。在预处理步骤中,可例如通过分析背景像素的布局而确定读取方向。连接距离可基于读取方向,例如,从左到右,并且从选择点到右,连接距离可较大。
在区域增长过程的一个实施例中,连接距离依据经由对选择命令的补充接收的选择方向进行调整。建议的提取区域向用户显示,并且用户将轻松地检测到提取区域要在特定方向上扩展。用户可通过沿选择方向从选择点拖动选择项目(光标或触摸屏上的手指)而指示选择方向。注意,连接距离的增大可根据从第一选择点拖动的距离得出。
设备可提供其它选项以调整以上所述的任一示范方法中确定的提取区域的形状。
图7示出调整元数据提取区域。最初,矩形提取区域50向用户显示。提取区域的形状可通过建议的提取区域的可控元素52、53改变。用户现在可移动可控元素之一。可控元素通过附加符号向用户显示,例如,添加到提取区域50各侧和边缘的小方形。例如,用户可拖动提取区域50的上侧。结果可能只是向上扩展提取区。通过操作可控边缘53,移动对应的左侧和下侧。各侧和边缘的可能新位置可在操作期间显示为虚线51。在最终选择区域后,各侧和边缘的新位置将显示为实线。注意,可应用其它可见元素以显示控制选项,如颜色、闪烁等。
图8示出调整非矩形提取区域的形状。它示出为选择部分文本段而构建的提取区域60。选择从行中间的一个字词开始,并也在行中间结束。假定文本的列布局。垂直侧可轻松地检测到,并且可能甚至是用户不可控制的。底侧61具有两个水平部分和一个中间垂直部分。底部行61可拖到虚线所示的新位置62。具体而言,中间垂直部分可拖到要包括在元数据中的最后字词之后的文本行中的位置。
在最终设置提取区域后,元数据可被抽取并由光学字符识别(OCR)处理。随后,提取的元数据用于确定附加到扫描文档的文件名。提取区域可受文件名的任何要求影响,例如,具有最小和最大长度。提取过程可包括调整文本字符串以符合文件命名规则,诸如去除禁止的字符并禁止再次使用相同的文件名。可添加象日期或时间的其它标识数据。扫描的文档可使用形成的文件名自动存储。
虽然主要通过使用表示数字图像中元数据的文本元素的实施例描述了本发明,但是本发明也适用于元数据信息的任何表示,诸如符号、徽标或可分类的其它图形元素,如肖像。注意,在本文档中,动词‘包括’及其变化形式的使用并不排除所列元素或步骤外其它元素或步骤的存在,并且元素前的数词‘一’并不排除存在多个此类元素;任一参考符号并不限制权利要求的范围;所述本发明和每个单元或工具可由适合的硬件和/或软件实现;以及几个‘工具’或‘单元’可由同一项目表示。此外,本发明的范围并不限于所述实施例,并且本发明在于每一个新颖的特征或上述特征的组合。
权利要求
1.将文档图像转换为包括像素的图像数据的方法,每个像素具有表示图像元素的亮度和/或颜色的值,其中,所述文档图像包括诸如字词或成组字词的文本布局元素,所述方法包括-通过扫描仪设备扫描文档,并由此生成图像数据的扫描文件,-为用户显示至少部分所述扫描图像,-从所述用户接收选择命令,所述选择命令包括在所述图像中的布局元素中指示选择点,-基于所述选择点所指示的所述布局元素,自动确定所述扫描图像内的提取区域,-通过处理所述提取区域中的像素来提取所述布局元素,以及其特征在于以下步骤-在所述扫描文件的标志符中包括所述提取的布局元素。
2.如权利要求1所述的方法,其特征在于,所述标志符是文件名。
3.如权利要求1所述的方法,其特征在于,所述标志符是用于包含所述扫描文件的电子邮件消息的主题名称。
4.如权利要求1到3中任一项所述的方法,其特征在于,还包括基于具有前景属性或背景属性的像素的值自动将至少部分所述扫描图像分割成布局元素、但不显示分割结果的预处理步骤,并且其中自动确定所述扫描图像内的提取区域的步骤是基于所述分割步骤的结果。
5.如权利要求4所述的方法,其特征在于,还包括接收对所述选择命令的补充,以便调整所述提取区域,具体是通过用户指示又一元数据元素中的至少又一选择点要包括在所述提取区域中。
6.如权利要求4所述的方法,其特征在于,还包括在诸如单击鼠标按钮或操作鼠标滚轮之类的补充用户控制事件时,通过自动增大或减小提取区域的大小来调整所述提取区域。
7.如权利要求1到3中任一项所述的方法,其特征在于,还包括基于具有前景属性的像素值自动将像素分类为前景像素的步骤,其中自动确定所述图像内的提取区域的步骤是基于以预定连接距离连接到所述选择点所指示的前景像素的前景像素。
8.如权利要求7所述的方法,其特征在于,确定所述提取区域包括通过以下步骤自动生成连接区-包括所述选择点所指示的所述前景像素,-逐渐包括距所述连接区中包括的其它前景像素在所述连接距离以内的其它前景像素,以及-将所述提取区域设为完全包含所述连接区的区域。
9.如权利要求8所述的方法,其特征在于,所述连接距离是依据连接方向而设置的,具体而言,所述连接方向为水平、垂直或所采取的读取方向。
10.如权利要求7、8或9所述的方法,其特征在于,所述输入文档图像转换为较低分辨率,并且将像素分类和确定提取区域的步骤在所述较低分辨率图像上执行。
11.如权利要求8所述的方法,其特征在于,还包括响应对所述选择命令的补充而自动调整所述连接距离,其中,对所述选择命令的所述补充包括用户指示又一选择点。
12.如权利要求8所述的方法,其特征在于,还包括响应诸如单击鼠标按钮或操作鼠标滚轮之类的补充用户控制事件,自动增大或减小所述连接距离。
13.扫描设备,用于扫描包括诸如字词或成组字词的文本布局元素的文档图像,由此生成包括像素的图像数据的扫描文件,每个像素具有表示图像元素的亮度和/或颜色的值,所述设备包括-用于扫描所述文档图像并生成所述扫描文件的扫描仪(21),-用于向用户显示至少部分所述图像的显示器(23),-用于从所述用户接收选择命令的用户接口(25),所述选择命令包括在所述图像中的元数据元素中的选择点,以及-处理单元(24),可用于-基于所述选择点指示的所述布局元素,自动确定所述扫描图像内的提取区域,-通过处理所述提取区域中的像素来提取所述布局元素,特征在于所述处理单元(24)也可用于-在所述扫描文件的标志符中包括所述提取的布局元素。
14.如权利要求13所述的设备,其特征在于,所述处理单元(24)自动为包括所述提取的布局元素的所述扫描文件生成文件名。
15.如权利要求13或14所述的设备,其特征在于,所述处理单元(24)自动生成包括所述扫描文件的电子邮件消息,并且在所述消息的“主题”字段中包括所述提取的布局元素。
16.如权利要求13所述的设备,其特征在于,所述处理单元(24)包括用于基于具有前景属性或背景属性的像素值将至少部分所述扫描图像自动分割成布局元素的预处理模块,并且其中,所述处理单元(24)基于所述预处理模块的分割结果确定所述扫描图像内的所述提取区域。
17.如权利要求13所述的设备,其特征在于,所述处理单元(24)基于具有前景属性的像素值自动将像素分类为前景像素,以及基于以预定连接距离连接到所述选择点所指示的前景像素的前景像素来确定所述图像内的所述提取区域。
18.计算机程序,用于结合文档扫描仪设备,执行如权利要求1到12中任一项所述的方法。
19.存储在载体上的计算机程序,用于结合文档扫描仪设备,执行如权利要求1到12中任一项所述的方法。
全文摘要
描述了用于扫描文档和通过提取操作员指定的如字词或成组字词的文本布局元素并在扫描文件的标志符中包括后者处理在过程中生成的图像数据的方法和设备。至少部分文档图像在显示器上向用户显示。诸如鼠标或触摸屏的用户接口中的定点控制元素由用户操作以生成选择命令,这包括图像布局元素中的选择点。提取区域随后自动围绕包含选择点的布局元素构建。建议的提取区域向用户显示,而用户可确认该提取区域或调整它。最后,通过处理提取区域中的像素而提取所需的布局元素。文件标志符可以是扫描文件的文件名或包括扫描文件的电子邮件消息的“主题”字符串。
文档编号G06F17/30GK1839396SQ200480023729
公开日2006年9月27日 申请日期2004年4月26日 优先权日2003年8月20日
发明者J·F·杰格 申请人:奥西-技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1