从指定的文档区域提取元数据的制作方法

文档序号:6420554阅读:118来源:国知局
专利名称:从指定的文档区域提取元数据的制作方法
技术领域
本发明涉及从像素的文档图像中提取元数据的方法和装置,所述像素具有表示图像元素的亮度和/或色彩的值。
本发明还涉及计算机程序产品。
背景技术
在处理大量数字文档的环境中,常常需要产生描述性数据,它们可与文档相关以便于进一步处理。这类描述性数据又称作“元数据”,可包含描述文档的任何数据,例如标题、作者、文档类型、关键字、内容摘要等。
元数据可例如用作检索数据库中存储的文档的条目。另外,它们还可用于在扫描应用中产生文件名以及用于其它许多情况中。
元数据可由操作人员来撰写,他们读取文档并用一些有意义的字描述它。这是高级、但极耗时的产生元数据的方式。然而在许多情况下,可使用的元数据已经包含在文档本身中,例如标题、作者等,并且采用其中之一作为描述性标记通常是完全可接受的。
当文档是数字编码形式、如MS WORDTM文档时,它们可通过扫描文档并提取预先编程的关键字的专用程序来自动索引。但是,可用作图像、即黑(彩色)和白像素的组合的文档必须首先通过OCR转换成数字编码形式,OCR是一种需要较多计算能力但不会一直正常工作的过程。另外,索引程序耗费相当长的时间来处理文档。
对于严重结构化的文档、如专利文档,已知自动解释文档图像。这类文档具有严格规定的形式,以及可对计算机编程以便查找和处理文档图像中的特定预定信息项。但是,自由形式文档无法以这种方式来处理。
操作人员的优势在于,他们能够轻易地监视文档图像并查找其中的相关项。因此,让操作人员选择文档图像中的元数据,然后通过计算机系统自动提取并与文档相关,这是有利的。
从EP 1136938已知一种用于从文档中提取元数据的方法和装置。首先采用连接到计算机的扫描仪扫描文档以产生像素图像。所述先有技术文档中经扫描的文档具有结构化布局,其中表示元数据的文本串位于方框中,这些方框通过绘制的线条包围文本串。具体来讲,技术制图具有这类包含诸如标题、日期、版本等元数据的方框。用户操作计算机的指示构件,在文档的至少一个方框中指定任意点。在用户指定该点之后,通过检测轮廓线来标识包含该点的方框。随后,通过光学字符识别(OCR)来识别所述方框中的字符,以便检索元数据并将它存储在连接到计算机的数据库中,从而使以这种方式扫描的文档能够被索引。因此,采取元数据的方框结构来识别元数据。已知方法的问题在于,该方法只能从具有包含元数据文本串的结构化方框的文档中提取元数据。
在EP 1256900中公开的、用于把数字文档输入数据库以及提取元数据用于检索的另一种已知系统中,操作人员必须用鼠标等在图像中的元数据项周围绘制“包迹线”。然后,系统通过OCR把包迹线中包含的位像信息转换成文本格式。在此公开中,操作人员指定提取区域,这要求细心操作,即使这样,通过不精确的鼠标移动也可能易于出错。

发明内容
本发明的一个目的是提供一种从文档中提取元数据的方法和装置,该方法和装置不要求元数据包含在结构化方框或者外部定义的区域定界符内。
根据本发明的第一方面,此目的通过如开头段落所述的方法来实现,所述方法包括在显示屏幕上为用户显示图像的至少一部分;接收来自用户的选择命令,该选择命令包括指明图像中的元数据元素的选择点;根据具有前景属性的像素值自动把像素分类为前景像素;根据就一定连接距离而言、连接到选择点所指明的前景像素的一些前景像素来自动确定图像内的提取区域;以及通过处理提取区域中的像素来提取元数据。
根据本发明的第二方面,此目的通过如开头段落所述的装置来实现,其中包括输入部件,用于接收图像;显示器,用于为用户显示图像的至少一部分;接口部件,用于接收来自用户的选择命令,该选择命令包含图像中的元数据元素的选择点;以及处理部件,用于根据具有前景属性的值把像素分类为前景像素,根据就一定连接距离而言、连接到选择点所指明的前景像素的一些前景像素来确定图像内的提取区域,以及通过处理提取区域中的像素来提取元数据。
根据本发明的第三方面,此目的通过用于执行所述方法的计算机程序产品来实现。
经由用户接口、如触摸屏或鼠标,用户指明他要提取的元数据元素中的选择点。第一前景像素由选择点所指明,即,对应于选择点位置的前景像素或者在选择点处于元数据元素中的背景像素上时接近选择点的前景像素。对应于元数据元素的提取区域则通过以所指明的第一前景像素开始、把一些前景像素连接到所述第一前景像素来构建。为了忽略不重要的背景像素而引入连接距离,以便确定提取区域可覆盖整个字,而不管字符间的间距如何。
然后根据所连接区域来确定提取区域。提取区域的优点在于,它仅基于元数据元素本身、通常为文本元素。不需要图像中的预定义结构、如围绕文本的方框来指导元数据提取过程。
在该方法的一个实施例中,确定提取区域包括通过以下步骤自动产生连接区域包含选择点所指明的前景像素,逐步包含与连接区域中包含的其它前景像素相隔的距离在所述连接距离之内的其它前景像素,以及把提取区域设置为完全包围连接区域的一个区域。其优点在于,根据连接距离扩大连接区域是计算提取区域的估算值的一种健壮且简易的方法。要注意,提取区域通常具有平行边,但不一定是矩形的。在文本文档中,矩形形状是最实用的,但在较大的文本段中,提取区域的形状可被修改。对于符号或图形元素,可使用不同形状的提取区域。
在该方法的一个实施例中,产生连接区域包括根据连接方向来设置连接距离,具体来讲,连接方向为水平、垂直或者假定的读取方向。通过把连接距离设置为跨接预期元数据元素、例如字中的字符或者句子中的字之间距离的值,提取区域将覆盖用户可能希望指明的元数据元素。通过假设或导出读取方向,该方法允许用户容易地指明较大文本部分中的文本段的开始,因为这种扩大将以所述读取方向连接文本元素。
在该方法的又一个实施例中,输入文档图像首先被转换成较低分辨率,然后对较低分辨率图像执行像素分类以及确定提取区域的步骤。其优点在于,需要较少计算能力,同时分辨率的适当降低一般不会降低该方法的准确度。
在该方法的一个实施例中,确定提取区域包括显示所建议的提取区域。其优点在于,用户具有对所计算的提取区域的视觉反馈。
在另一个实施例中,该方法还包括接收对选择命令的补充,用于修改连接距离。其优点在于,用户可方便地确认、拒绝或改变所建议的提取区域。
在又一个实施例中,该方法还包括响应对选择命令的补充而自动修改连接距离,其中对选择命令的补充包括用户指明另一个选择点。用户通过指明要连接的另一个点来控制连接距离。其优点在于,用户可直观地把提取区域扩展到所需大小。
在又一个实施例中,该方法还包括根据经由对选择命令的补充而接收的选择方向自动修改连接距离,所述选择方向通过用户在显示屏幕上拖曳选择项来定义。用户通过拖曳象鼠标控制的光标之类的指针来控制连接距离。其优点在于,用户可直观地把提取区域扩展到所需大小。
在该方法的又一个实施例中,提取区域的确定还包括根据用户命令调整所建议的提取区域。其优点在于,用户可方便地选择元数据元素。例如,调整提取区域的形状包括提供所建议提取区域的可控元素、特别是边和/或边缘,以及从用于移动可控元素之一的指示部件接收作为补充的拖曳命令。通过移动可控元素,用户可方便地修改提取区域的形状。或者,调整提取区域的形状包括经由补充用户控制事件、如单击鼠标按钮或操作鼠标滚轮来增大或减小提取区域的大小。通过单击,例如通过增加连接距离可将大小增加预定量,从而显示更大的提取区域。鼠标滚轮或类似的连续控制机构可逐步改变大小。通过修改文本文档中的连接距离,提取区域的大小可在视觉上从包含一个字增大到包含一个句子或段落。
在该方法的一个实施例中,选择命令包括用于向所提取的元数据分配元数据类型的补充。其优点在于,用户可直接控制要分配的元数据类型。使用户能够提供这种补充命令的一种有效方式是通过显示至少一个控制项,具体来说,是让用户选择元数据类型的按钮或下拉菜单。
或者,系统可假定或实施输入不同类型的元数据的预定次序,这提高了使用速度。系统可从用户的优选项中学习输入的次序。
在该方法的一个实施例中,提取的元数据及所分配的类型被输入数据库,作为文档的索引数据。其优点在于,文档可根据提取的元数据从数据库中检索。
在一个实施例中,该方法包括提取文本串作为元数据,以及指定文本串以构成文件名或包含图像的消息。按照传统方式,在扫描过程中,自动分配文件名、例如编号顺序,或者要求手动输入。通过使用元数据,产生连接到文档本身的名称。基于元数据的文件名使得检索文件更容易。另外,扫描的文件还可通过电子邮件、例如作为附件发送。根据本发明的元数据提取过程可顺利地用来产生电子邮件消息的“主题”,从而易于识别其内容。
在本描述中,“文档图像”可理解为包括各个物理文档页面的一组图像。一般来讲,显示器上显示的文档的部分是第一页图像,因为通常这是包含元数据提取所用的最相关信息的页面。但是,本发明人考虑提供具有浏览功能的设备来浏览整个文档图像,即浏览这组物理文档页面图像。
根据本发明的装置的其它优选实施例在其它权利要求中提供。


参照以下描述中通过举例来说明的实施例以及参照附图,本发明的这些及其它方面将会非常明显,附图中图1表示扫描的文档图像和元数据提取区域,图2表示用于处理文档和提取元数据的装置,图3表示用于提取元数据的方法,图4a、4b和4c表示从选择点扩大区域,其中图4a表示采用一个像素的连接距离进行扩大的区域,图4b表示采用两个像素的连接距离进行扩大的区域,图4c表示采用三个像素的连接距离进行扩大的区域,图5表示修改元数据提取区域,图6表示修改非矩形提取区域的形状,以及图7表示图像、提取区域和菜单的显示。
这些附图是示意性的而不是按比例绘制的。附图中,与已经描述的元素对应的元素具有相同的参考标号。
具体实施例方式
图1表示扫描的文档图像和元数据提取区域。已经扫描文档13而产生了像素的图像。像素(图像元素的简称)是文档的数字表示,并且具有表示图像元素的亮度和/或色彩的值。图像的一部分表示在显示12上(示意绘制),让用户以交互方式确定元数据。文档的图像文件可包含各页文档的独立图像。通常为首页的标题页包含关于文档内容的相关信息,例如标题、文档类型作者、出版日期等等。这种信息在本描述中被称作元数据。用户可具有操作显示的选项,用于例如通过滚动来显示图像或图像文件的相关部分。或者,显示器可显示单页文档的整个页面。
元数据元素的一个实例是文档编号11,它是文档类型的一部分。元数据元素可以是单个字、如文档编号11,或者可以是一个或多个文本行。例如,图中所示的摘要包含大约6行文本。
在显示12上,提取区域14表示为围绕包含文档编号11的文档类型。提取区域是图像中将由处理单元用于查找元数据以及识别元数据的区域。元数据通常为文本,分析提取区域,以便识别字符或字,这一般称作光学字符识别(OCR)。元数据也可以是特定图像元素、如符号或标志,它们可被分类以用作元数据。
为了构建提取区域,用户首先在元数据元素中指明他认为相关的选择点、例如文档编号11。指明选择点是选择命令中的第一步骤。为了指明选择点,可把显示设置在敏感屏幕、如触摸屏上。用户可用手指或使用专用指示笔来指明选择点。或者,显示器可显示光标,它可由用户例如通过鼠标、轨迹球等来控制。选择点则可通过定位光标并激活按钮、如鼠标单击来指明。
然后,处理单元分析选择点附近的像素,查找属于元数据元素的组成部分的像素,下面将详细描述。像素根据具有前景属性的值被分类为前景像素,该值通常表示白色背景文档中的黑色。在彩色图像中,前景属性可以是表示特定色彩的值,例如从选择点指明的像素的颜色中以交互方式确定的色彩,或者不同于背景颜色的色彩。用于区分前景和背景像素的方法是本领域众所周知的,例如EP 1182605A。
第一前景像素由选择点指明,即对应于选择点的位置的前景像素或者在选择点处于元数据元素中的背景像素上时接近选择点的前景像素。如果选择点处于前景点的预定距离之内的背景像素上,则系统可把所指明的像素看作前景像素,以便查找组成预期元数据元素的像素,也就是说,由于已经由用户指明这一事实而把选择点分类(重新分类)为前景像素。或者,系统可选择最接近的前景像素作为选择点。如果选择点处于远离前景点的背景像素上,则系统可把这个选择看作是取消当前选取的元数据提取区域的命令。
根据第一前景像素,像素的区域被检测并被假定为元数据的一部分,以及围绕该区域绘制提取区域并向用户显示。通过处理提取区域中的像素来提取元数据。
在一个实施例中,检测到单一类型的元数据,例如用于构成扫描文档的文件名的文本。文件名可在用户已经指明选择点之后自动产生。或者,可为用户显示已识别的元数据和/或所建议的文件名,以及可要求确认命令来最后接受该元数据。
图2表示用于处理文档以及提取元数据的装置。该装置具有输入单元21,用于输入数字图像。输入单元可包括用于扫描物理文档的图像的扫描单元、如光电扫描仪和/或用于从网络、如局域网(LAN)或互联网接收图像的数字通信单元,和/或用于从记录载体、如光盘驱动器检索数字信息的重放单元。输入单元21耦合到处理单元24,处理单元24与存储单元22配置工作。存储单元可包括用于在记录载体、如磁带或光盘上存储图像和/或元数据的记录单元。处理单元可包括通用计算机中央处理器(CPU)以及支持电路,它采用软件来工作,用于执行元数据提取,如上所述。处理单元耦合到用户接口25,用户接口25至少配备了指示单元,用于指明图像上的选择点。用户接口可包括控制部件、如键盘、鼠标装置或操作员按钮。处理单元耦合到显示单元23。显示单元包括用于显示图像和提取区域的显示屏幕,如以上参照图1所述。具体来讲,显示单元和指示单元可以包含在触摸屏中,该触摸屏容易感知用户用手指指向显示图像中的元数据元素以便指明选择点。处理单元可耦合到打印单元,用于在纸张上输出经处理的图像或元数据。所提取的元数据可以与图像共同存储在数据库中、例如在存储单元22中,或者存储在分离的计算机系统中。
注意,该装置可采用标准计算机硬件组件以及如以下所述用于执行元数据提取过程的计算机程序来构成。或者,该装置可以是专用硬件装置,其中包含扫描单元、处理单元和显示器,以便提供元数据提取。此外,扫描过程可与元数据提取的交互过程分离,例如,邮件接收室中的扫描单元可经由LAN连接到包含显示器和操作员的索引场所。
图3表示用于提取元数据的方法。在第一步骤S31“准备输入图像”中,例如从扫描装置接收图像,作为像素值的数字文件。该步骤可包括根据图像的预定知识或所检测属性的进一步图像处理,例如增强对比度、根据图像的全局统计结果来确定前景和/或背景属性、旋转图像等。另外,这个步骤还可包括准备具有较低分辨率的附加输入图像,用于步骤34的图像分析(下面将说明)。由于扫描图像具有较高分辨率,因此例如采取系数2到4适当降低分辨率一般不会使分析恶化,同时它还降低了所需的处理能力。原始的高分辨率输入图像仍然被用于显示和数据提取。
在下一个步骤S32“显示图像”,在显示器上向用户显示图像。该步骤可包括例如从某页、从显示具有前几行文本的部分的大白色区域开始查找要显示的图像的相关部分。在下一个步骤S33“选择点”,预期用户动作是在图像中、具体为元数据元素中指明选择点。附图中的符号等待循环L33表明系统等待用户动作。
在下一个步骤S34“查找所连接区域”中,分析选择点周围的像素,以便查找处于连接范围内的前景像素,如以下结合图4a、4b和4c所述。在下一个步骤S35“显示提取区域”中,提取区域被显示为覆盖连接区域。提取区域可表示为正好包含连接区域的矩形区域、加亮显示区域或者其它任何适当的显示特征。提取区域也可适合元数据的类型,例如较大文本段中的字上的边界,如参照图6所述。
注意,当光标处于预期元数据元素上时通过点击鼠标按钮,或者通过把手指放于触摸屏上,用户可主动输入选择点。但是,系统也可在用户把指针元素(例如光标)定位在前景对象附近时立即或者在预定(较短)等待时间之后自动显示所建议的提取区域。在自动模式下,步骤S33 “选择点”、S34“查找所连接区域”以及S35“显示提取区域”被结合起来。例如通过把小矩形添加到光标符号上,光标可被显示为指示自动模式的特定符号。用户可根据所建议的提取区域的视觉反馈来确定选择点。
根据所显示的提取区域,用户可检查提取区域是否覆盖他预期的元数据元素。在下一个步骤S36“最终区域”中,用户例如通过鼠标命令来确认所显示的提取区域或者通过输入下一个文件来默许所显示的提取区域。
如符号循环L36所示,用户也可修改所建议的提取区域,如结合图5或图6所述。例如,用户可指明同样必须包含在提取区域中的第二点,或者用户通过从选择点以他打算扩展提取区域的方向拖曳指示元素来指明所建议提取区域的扩展。显示器可响应此修改而显示最终区域。
在下一个步骤S37“提取元数据”中,处理最后确认的提取区域,从而经由OCR检测和识别元数据元素、如字。结果可显示在显示器上的文本区中。步骤S37“提取元数据”可包括接收对选择命令的补充,其中,用户指明要分配的特定元数据类型、如“标题”、“作者”、“摘要”等。例如,用户可激活特定按钮,在提取区域中输入元数据,作为文档的标题。
图4a、b和c表示从选择点扩大区域。用户在图像中指明选择点,然后按照如下方式形成区域。在选择点选择起始前景像素。如果选择点在背景像素上,但与前景像素相隔的距离在预定距离之内,则那个前景像素可用作起始像素。
图4a表示采用一个像素的连接距离进行扩大的区域。图像41的详细部分以四个区域扩大阶段来表示,各像素表示为白色(背景)或灰色(前景)。用户已经指明黑点所示的选择点40。区域扩大在对应于选择点40的像素处开始,最初是只有一个像素的起始区域42。用于扩大的连接距离假定为一个像素,即不允许任何中间背景像素。在第二扩大阶段,第二区域43表示为向下延伸,以便直接包含所连接像素。在第三扩大阶段,第三区域44表示为向右延伸,以便直接包含所连接像素。在第四扩大阶段,第四区域45表示为再次向右延伸,以便直接包含所连接像素。由于没有其它前景像素在连接距离(=1)以内,因此区域扩大停止。要注意,矩形区域被绘制成围绕扩大区域42、43、44和45的虚线。该区域还包括背景像素。在完成区域扩大过程之后,绘制的区域可以是所建议的提取区域。
图4b表示采用两个像素的连接距离进行扩大的区域。表示了与图4a中同样的图像细节。连接距离增大到2个像素,因此单一的中间背景像素将居于其间。所得矩形区域46包含连接距离为二的前景像素。用户可确认所得区域,或者可决定该矩形区域过小。在该情况下,用户补充他的选择命令。为此,用户可例如通过指向新的位置或者从选择点46拖曳到第二选择点47,在图像的另一个前景部分中指明第二选择点47。对选择命令的补充由处理单元24转换为较大的连接距离,它正好适合于把第二选择点47添加到选择区域中。这也可产生以其它方向放大的选择区域。
在一个实施例中,用户可反复点击或指向同一个位置,以便增加连接距离。
图4c表示采用三个像素的连接距离进行扩大的区域。表示了与图4b中同样的图像细节。连接距离增加到3个像素,因此最多两个中间背景像素将居于其间。所得矩形区域48包括第二选择点47。要注意,当用户在大多数情况下需要增加区域时,例如采用较大的连接距离,区域扩大过程也可适合于所获得的结果,或者可包括学习选项。另外,如果发现小于预定大小的连接区域,则过程还可包括自动增加连接距离,从而取得至少预定大小。
在区域扩大过程的又一个实施例中,连接距离对于不同的方向是不同的。例如,水平方向的连接距离可以大于垂直方向的连接距离。对于一般的文本文档,这在文本行中产生稳固连接的字,而不把文本行连接到下一行或前一行。在预处理步骤中,例如通过分析背景像素的布局可确定读取方向。连接距离可基于读取方向,例如从左到右,以及从选择点向右,连接距离可能更大。
在区域扩大过程的实施例中,连接距离根据经由对选择命令的补充所接收的选择方向来修改。对用户显示所建议的提取区域,用户将容易地检测到提取区域要以特定方向扩展。用户可通过从选择点以选择方向拖曳选择项(光标或触摸屏上的手指)指明选择方向。注意,连接距离的增加可从自第一选择点拖曳的距离得出。
除了根据区域扩大对提取区域的控制之外,该装置还可提供其它用于修改提取区域的选项。选择提取区域可包括按照如下方式经由对选择命令的补充来修改提取区域的形状。
图5表示修改元数据提取区域。最初为用户显示矩形提取区域50。提取区域的形状可通过所建议的提取区域的可控元素52、53来改变。用户通过移动可控元素之一来提供对选择命令的补充。通过其它符号、例如添加到提取区域50的边和边缘的小正方形对用户显示可控元素。用户可以例如拖曳提取区域50的上边。结果可以是正好向上延伸提取区域。通过操作可控边缘53,移动相应的左和下边。边和边缘的可能的新位置可在操作过程中显示为虚线51。在最后选取区域之后,边和边缘的新位置表示为实线。注意,其它可视元素、如彩色、闪烁等可用于显示控制选项。
在一个实施例中,所有4条边可例如通过操作专用符号同时被扩展或缩小。提取区域的形状可通过经由补充用户控制事件、如单击鼠标按钮以增大或减小提取区域大小来修改。
图6表示修改非矩形提取区域的形状。图中表示了提取区域60,构建它以选择文本段的部分。选择从一行中间的字开始,也在一行中间结束。假定文本的列布局。垂直边可方便地检测,甚至可以是非用户可控的。底边61具有两个水平部分和一个中间垂直部分。底线61可被拖曳到虚线所示的新位置62。具体来讲,中间垂直部分可在上一个字包含在元数据中之后被拖曳到文本行的某个位置。
在最后设置提取区域之后,元数据可通过OCR(光学字符识别)来提取及处理。用户可通过操作按钮或选择如图7所示的菜单选项来分配元数据的类型,下面将进行说明。所提取的元数据及所分配的类型被输入数据库,并且可用于索引和/或识别数据库中的文档。
在一个实施例中,设置提取区域以及提取元数据是用于确定要附加到扫描文档的文件名。提取区域可采用例如具有最小和最大长度的文件名要求来提出。提取过程可包括把文本串修改为符合文件命名规则,例如消除禁用字符以及防止再次使用相同的文件名。可添加其它标识数据,如日期或时间。可采用所构造的文件名自动存储扫描文档。
图7表示图像、提取区域和菜单的显示。为用户显示扫描文档的图像70。已经选取提取区域71,具体来讲,被认为是“摘要”的文本段已经被包含在提取区域71中。用户已经确认提取区域,这时显示控制项,例如通过点击鼠标右键来激活的下拉菜单72。除了其它命令、如取消选择之外,菜单还提供几种可被分配的元数据类型。另外,通过采用键盘上的<Control>键还可提供快捷命令。选择元数据类型的操作结束了元数据提取的交互过程。元数据在这时可用于进一步处理、如存储在数据库中。
虽然主要通过采用表示数字图像中元数据的文本元素的实施例说明了本发明,但本发明也适合于元数据信息的任何表示、如符号、标志或例如画像之类的其它可分类的图像元素。注意,在本文件中,动词“包括”及其动词变化的使用不排除存在所列元素或步骤以外的元素或步骤的情况,元素之前的词“一个”不排除存在多个这类元素的情况,任何参考符号不限制权利要求的范围,本发明以及所述每个单元或部件可以通过适当的硬件和/或软件来实现,以及若干“部件”或“单元”可由同一项来表示。此外,本发明的范围不限于这些实施例,以及本发明在于上述各个新颖特征或这些特征的组合。
权利要求
1.从像素的文档图像中提取元数据的方法,所述像素具有表示图像元素的亮度和/或色彩的值,所述方法包括在显示屏幕上为用户显示所述图像的至少一部分,接收来自用户的选择命令,所述选择命令包括指明所述图像中的元数据元素中的选择点,根据具有前景属性的像素值把像素自动分类为前景像素,根据就连接距离而言连接到所述选择点所指明的前景像素的一些前景像素来自动确定所述图像内的提取区域,以及通过处理所述提取区域中的像素来提取所述元数据。
2.如权利要求1所述的方法,其特征在于,确定所述提取区域包括通过以下步骤自动产生连接区域包含所述选择点所指明的所述前景像素,逐步包含与所述连接区域中包含的其它前景像素的距离在所述连接距离之内的其它前景像素,以及把所述提取区域设置成完全包围所述连接区域的区域。
3.如权利要求2所述的方法,其特征在于,所述连接距离根据连接方向来设置,具体来讲,所述连接方向为水平、垂直或者假定的读取方向。
4.如权利要求1、2或3所述的方法,其特征在于,所述输入文档图像被转换成较低分辨率,以及对所述较低分辨率图像执行像素分类和确定提取区域的步骤。
5.如权利要求1、2、3或4所述的方法,其特征在于,确定所述提取区域包括显示所建议的提取区域。
6.如权利要求1或2所述的方法,其特征在于还包括接收对所述选择命令的补充,用于修改所述连接距离。
7.如权利要求6所述的方法,其特征在于还包括响应对所述选择命令的所述补充而自动修改所述连接距离,其中对所述选择命令的所述补充包括用户指明另一个选择点。
8.如权利要求7所述的方法,其特征在于还包括根据经由对所述选择命令的所述补充而接收的选择方向自动修改所述连接距离,所述选择方向通过用户在所述显示屏幕上拖曳选择项来定义。
9.如权利要求5所述的方法,其特征在于,提取区域的确定还包括根据用户命令调整所述建议的提取区域。
10.如权利要求9所述的方法,其特征在于还包括提供所述建议的提取区域的可控元素、具体为边和/或边缘,所述用户命令包括移动所述可控元素之一。
11.如权利要求9所述的方法,其特征在于,调整所述建议的提取区域包括经由补充用户控制事件、如单击鼠标按钮或操作鼠标滚轮来增大或减小所述提取区域的大小。
12.如权利要求1所述的方法,其特征在于,所述选择命令包括用于向所述提取的元数据分配元数据类型的对所述选择命令的补充。
13.如权利要求12所述的方法,其特征在于,所述提取的元数据和所分配的类型被输入数据库,作为文档的索引数据。
14.如权利要求1所述的方法,其特征在于,所述方法包括提取文本串作为元数据,以及分配所述文本串以构成文件的文件名或者包含所述图像的电子邮件消息的主题名称。
15.用于从像素的文档图像中提供元数据的计算机程序产品,其中的程序可用于使处理器执行如权利要求1到14中任一项所述的方法。
16.用于从像素的文档图像中提取元数据的装置,所述像素具有表示图像元素的亮度和/或色彩的值,所述装置包括用于接收所述图像的输入部件(21),用于为用户显示所述图像的至少一部分的显示器(23),用于接收来自所述用户的选择命令的用户接口(25),所述选择命令包括所述图像中的元数据元素中的选择点,以及用于以下操作的处理单元(24)根据具有前景属性的值把像素分类为前景像素,根据就连接距离而言连接到所述选择点所指明的前景像素的一些前景像素来确定所述图像内的提取区域,以及通过处理所述提取区域中的像素来提取所述元数据。
17.如权利要求16所述的装置,其特征在于,所述处理单元(24)适合于通过以下步骤产生连接区域来确定所述提取区域包含所述选择点所指明的所述前景像素,逐步包含与所述连接区域中包含的其它前景像素的距离在所述连接距离之内的其它前景像素,以及把所述提取区域设置成完全包围所述连接区域的区域。
18.如权利要求17所述的装置,其特征在于,所述处理单元(24)适合于根据连接方向来设置所述连接距离,具体来讲,所述连接方向为水平、垂直或者假定的读取方向。
19.如权利要求16、17或18所述的装置,其特征在于,所述处理单元(24)适合于把所述输入文档图像转换成较低分辨率,以及对所述较低分辨率图像执行像素的分类和提取区域的确定。
20.如权利要求16、17、18或19所述的装置,其特征在于,所述处理单元(24)适合于通过在所述显示器(23)上显示所建议的提取区域来确定所述提取区域。
21.如权利要求16所述的装置,其特征在于,所述处理单元(24)适合于接收用于修改所述连接距离的对所述选择命令的补充。
22.如权利要求21所述的装置,其特征在于,所述处理单元(24)响应对所述选择命令的所述补充、具体为所述用户所指明的另一个选择点,修改所述连接距离。
23.如权利要求22所述的装置,其特征在于,所述处理单元(24)根据经由对所述选择命令的所述补充而接收的选择方向来修改所述连接距离,所述选择方向通过所述用户在所述显示屏幕上拖曳选择项来定义。
24.如权利要求20所述的装置,其特征在于,所述处理单元(24)还根据用户命令调整所述建议的提取区域的形状。
25.如权利要求24所述的装置,其特征在于,所述处理单元(24)为所述显示器(23)上的所述建议的提取区域提供可控元素、具体为边和/或边缘,使用户能够调整所述建议的提取区域的形状。
26.如权利要求24所述的装置,其特征在于,所述处理单元(24)响应补充用户控制事件、如单击鼠标按钮来增大或减小所述提取区域的大小。
27.如权利要求16所述的装置,其特征在于,所述用户接口(25)适合于接收对所述选择命令的补充,用于把元数据的类型分配给所述提取的元数据。
28.如权利要求27所述的装置,其特征在于,所述处理单元(24)适合于把所述提取的元数据和所分配的类型输入数据库,作为文档的索引数据。
29.如权利要求16所述的装置,其特征在于,所述处理单元(24)适合于提取文本串作为元数据,以及分配所述文本串以构成所述图像的文件名。
全文摘要
描述了用于从像素的图像(13)中提取元数据、如文档的标题或作者的方法和装置。在显示屏(12)上为用户显示图像的至少一部分。用户接口中的指示控制元件、如鼠标或触摸屏由用户操作以产生选择命令。选择命令包括图像中的元数据元素(11)中的选择点。确定前景像素的区域,该区域包含连接到选择点的像素。围绕该区域构造提取区域(14)。最后通过处理提取区域中的像素来提取元数据。
文档编号G06K9/20GK1604120SQ20041006427
公开日2005年4月6日 申请日期2004年8月20日 优先权日2003年8月20日
发明者J·F·贾格 申请人:奥西-技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1