移动通信设备的文本检测的制作方法

文档序号:2520839阅读:408来源:国知局
专利名称:移动通信设备的文本检测的制作方法
技术领域
本说明书一般涉及使用数字照相机来在移动通信设备上检测文本。
扭旦 冃足
诸如移动电话和个人数字助理(PDA)等移动通信设备因缺少良好的 文本输入界面而蒙受损害,这限制了许多应用程序在这样的设备上的可用 性。例如,考虑使用移动电话来浏览因特网;因为移动电话上通常可用的 键的数量少且尺寸小,所以用户难以手动地输入搜索串和HTTP地址。
用于在这样的移动通信设备上输入文本的其它方式涉及在触摸屏上使 用指示笔。然而,这要求提供昂贵的触摸屏,并且因为指示笔的小尺寸和 移动设备上的显示屏的小尺寸,所以其通常难以使用。另外,任何基于指 示笔的用户交互都要求同时使用双手。因此,移动电话和其它手持式通信 设备通常不具有触摸屏。
釆取笔的形式并通过在打印的文本上移动扫描仪的尖端来捕捉单词的 扫描仪设备也是已知的。然而,这些设备是通过电缆装置连接到固定计算 机的并且因而不适于与移动通信设备一起使用。笔扫描仪未与计算机集成, 所以可能很容易地放错地方。同样,笔扫描仪与移动电话相比不是可广泛 获得的。
概述
下面提供本发明的简化概要以便为读者提供基本的理解。本概要不是 本发明的详尽概观,并且既不标识本发明的关键/决定性要素也不描绘本发 明的范围。其唯一目的是以简化形式提供在此公开一些概念作为稍后提供 的更详细描述的序言。
具有集成照相机的移动通信设备被定向到文本以检测该文本的一些或 全部。实时地分析视频流来检测各视频帧的指定区域中的一个或多个单词,用户可以选择视频流中的单词,并且然 后移动或扩展初始选择。因此,选择多个单词是可能的。视频帧的包括所 检测到的单词的子区域在被发送到可以集成在诸如在线搜索服务等在线服 务中的远程光学字符识别(OCR)功能之前被预处理和压縮。
许多附带特征将随着参考下面的详细描述并结合附图进行理解而得到 更好的认识。


从结合附图的下列详细描述中将更好地理解本说明书,在附图中 图1是使用照相机来在移动通信设备上检测文本的方法的流程图2a到图2c示出经由照相机提供文本检测的移动通信设备上的示例 不意显不;
图3是在手持式设备上从实况视频流中选择单词组的方法的流程图4是文本检测的方法的流程图5是自适应取阈值过程的流程图6是另一自适应取阈值过程的流程图7是示出所选单词的经延迟的移动的两个显示的示意图8是延迟文本选择的移动的方法的流程图9是被安排成从文本文档中检测文本并向通信网络传递关于所检测 到的文本的信息的移动通信设备的示意图; 图IO是移动通信设备的示意图。 附图中使用相同的附图标记来指代相同的部分。
详细描述
下面结合附图提供的详细描述旨在作为对本发明的示例的描述,而不 旨在表示用于构造或利用本发明的示例的唯一形式。本说明书阐述该示例 的功能以及用于构造和操作该示例的步骤序列。然而,相同或等价的功能 与序列可由不同的示例来实现。
虽然此处将各示例描述并示出为在集成了光学字符识别(OCR)技术的在线搜索系统中实现,但是所描述的系统只是作为示例而非限制来提供 的。本领域的技术人员将会认识到,本发明的示例适于在各种不同类型的 文本检测系统中应用。并非必须向在线服务发送所检测到的文本。同样, 如果提供,则任何OCR技术可以与任何在线服务或要使用的其它服务分开。
图1是使用照相机来在移动通信设备上检测文本的方法的流程图。激 活移动通信设备上的照相机应用程序(框10)以使得该照相机所査看的场 景的视频流显示在该移动通信设备的显示器上。照相机还可任选地被安排 成在显示屏幕的指定位置(如显示屏幕的中心)处显示十字准线或其它标 记(框ll)。该十字准线或标记在一些示例中被用来指示定义的指定显示 区域。该定义的指定显示区域是要在其中检测文本的视频帧或图像的区域。 该十字准线或标记例如通过总是靠近或在该指定的显示区域内,以与该指 定的显示区域相关联。
将照相机的视野定向到要求从中检测一个或多个单词的文本(其可以 是打印的或手写的或以任何其它形式提供的)(框12)。文本本身可以存 在于任何合适的介质上,如纸张、电子显示器、建筑物、物体、衣物、机 械显示器、投影的图像或其它介质。自动地强调指定的显示区域中的任何 单词的图像(框13)。例如,该单词在显示器上被加亮、划出轮廓、加下 划线、加阴影或以某种方式标记。所发生的检测图像的包含单词的子区域
并对其进行强调的处理可以在进行中(on-the-fly—)发生。以此方式,有可 能对用户所进行的照相机的移动做出反应,以使得所检测到的文本适当地 对应于用户将照相机定向到的文本。通过实时地进行视频流的实况处理, 文本检测框能够平稳地逐字移动而非以分散注意且不愉快的方式在视频帧 之间"跳跃"。
如果所强调的单词是所需要的,则用户进行输入(框14)。随后冻结 当前视频帧并作为静止图像来显示(框15)。用户随后可任选地通过进行 用户输入来在静止图像上改变或扩展文本选择16。这使得在用户处于选择 单词的过程中的同时向他们给出反馈,并改进系统的可用性。随后预处理 并压縮包括所选文本的所选图像子集并将其发送到在线服务或与该移动通 信设备通信的任何合适的处理器(框17)。例如,在线服务是基于web的搜索引擎、字典、翻译工具、数据库或其它服务。在线服务包括从图像子
集中提取文本的光学字符识别(OCR)技术,并能够使用OCR过程的结果 来启动诸如在线搜索等服务(框18)。搜索结果随后可被发送回移动通信 设备并显示给用户(框19)。例如,浏览器在该移动通信设备上启动并显 示在线服务的结果(框20)。
以此方式,光学字符识别可以使用独立于移动通信设备的资源来提供。 这使移动通信设备的通常十分有限的资源能够用于其它用途。同样,该方 法能够与视频流一起使用,因为文本在当前视频帧上被快速检测并强调。 随着视频帧改变,所强调的文本也可取决于照相机相对于照相机视野中的 文本的任何移动而改变。用户具有在接收到视频流时改变和/或扩展所选文 本的选项。这使用户能够以简单和易于使用的方式获得对选择哪一文本的 更大的控制。 一旦用户对选择满意,则可以在静止图像上执行该选择的预 处理和压縮。这提供了比在存在流视频的情况下更多的用于执行这些过程 的时间。预处理和压縮使得信息能够以高效和稳健的方式传递到OCR能力。
通过以此方式使用移动通信设备检测文本,将显示文本的真实对象链 接到在线或其它服务是可能的。因为此处的环境中的许多对象已经显示文 本,所以这提供一种更全面地利用该信息而无需更改此处的环境中的对象 的方式。
图2a-c示出经由照相机提供文本检测的移动通信设备上的示例示意显 示。在图2a中,示出了移动电话照相机的显示屏幕,其呈现示出打印的文 档的一部分的图像的视频流的帧。如上所述,十字准线20在显示器上示出。 单词"the"位于十字准线20下,并如图所示被划出轮廓21。单词"the" 被检测到但未被移动通信设备识别,因为该移动通信设备上未提供光学字 符识别设施。并非识别单词,而是确定单词的位置和轮廓。图2b示出对应 于图2a的视频帧的静止图像。在此,不存在十字准线并且这可以向用户指 示该图像是静止图像。图2c示出图2b的静止图像,但具有已被手动扩展 以包括两个单词"the function"的所选文本22。频流示出照相机所査看的场景,并且其随照相机的移动和/或该场景中的对 象移动而移动。如上所述,检测并选择单词31,并且随后在该移动通信设 备上显示静止图像。如上所述,在该静止图像中划出单个单词的轮廓(框
32)或以其它方式对其进行强调。如果用户随后任选地例如通过进行手动 输入移动选择33,则在显示器上指示新选择的单词(框34)。该选择随后 可作为用户输入的结果而被扩展(框35),且在显示器上指示所得所选单 词组(框36)。
图4是文本检测的方法的流程图。从照相机接收输入视频帧并将其呈 现在与该照相机相关联的、移动通信设备所提供的输出显示器上。例如, 这通过将所接收到的帧复制到输出显示器来实现。随后可任选地在输出显 示器上绘制标记,以指示该显示器上的指定位置,如该显示器的中央或其 它位置。该标记可以是十字准线、框、加亮或其它指示。随后从所接收到 的视频帧的定义的指定显示区域中提取信息(框43)。例如,该信息包括 该视频帧的指定区域内的图像元素的亮度值。该信息还可以是灰度值、强 度值、色调值或任何其它合适的信息。取决于被检测的文本的类型、照相 机的操作模式(横向或纵向)或其它因素,该视频帧的指定显示区域可以 是其纵轴被安排为基本上与显示器上所描绘的文本平行(在文本是水平地 书写的情况下)的矩形,或可以是任何其它合适的形状和方位。如果使用 了十字准线或其它标记,则指定显示区域的位置可以由它们来指示或与它 们相关联。例如,在图2a中,十字准线指示在屏幕上水平扩展的、包含或 靠近十字准线的矩形区域内的单词要被检测。
将第一黑白转换过程应用于所提取的信息(框44),以给出黑白图像 元素。例如,存储以十字准线为中心的水平矩形内的像素的亮度值并将其 转换为黑白像素值。这些图像元素可以是像素、像素组、或其它合适的图 像元素。各黑白图像元素可以使用诸如0和1或其它整数值等任何合适的 方法来表示。该转换过程可以包括如以下参考图5所描述的自适应取阈值 过程。这使得能够适应不同的光照条件,并且能够处理与照相机晃动、差 的照相机分辨率和相关问题等问题。
随后将相同色彩(例如全黑或全白)的相连的图像元素标识为可能的文本元素(框45)。例如,在各对或各组文本元素相连的情况下,它们可 以是可能的字母、字符或符号,或可以是这种文本元素的对或组。随后可 以计算可能的文本元素的属性46,如每一文本元素中的像素或图像元素的 数量和每一可能的文本元素的最大高度。这些属性可被用作如下所述的自 适应取阈值过程的一部分。
随后在可能的文本元素和/或所计算的属性的基础上计算至少一个可
能的单词的轮廓(参见框47)。在视频帧的输出显示器上显示该轮廓(参 见框48)。对每一接收到的视频帧(或每隔一个视频帧,或指定时间间隔 后的每一视频帧)重复该过程,直到接收到确认所显示的轮廓的用户输入 为止。使用完整表示或通过例如只存储亮度值来存储所接收到的输入视频 帧的、在所计算的轮廓内的部分(框49)。随后使用输入视频帧的所存储 的部分来执行第二黑白转换过程(框50)。第二黑白转换过程与第一黑白 转换过程不同。该第二黑白转换过程可以在静止图像而非在视频流上执行。
如参考图4所示,执行第一黑白转换过程(图4的框44,其在图5中 重复)。在一些实施例中,该黑白转换过程是取阈值过程,藉此固定色彩 阈值被用来决定给定的帧或静止图像中的每一图像元素被转换为黑还是 白。这在光照条件良好并跨视频帧相对恒定的情况下给出可使用的结果。 还可能改变各帧之间所使用的阈值,以便可以考虑在各帧之间发生改变的 光照条件。即,阈值可以在各帧或各静止图像之间动态地自适应。
在其它实施例中,自适应取阈值过程被用于第一黑白转换过程。这使 得能够处理其中跨单个视频帧发生了不同的光照条件的情况。同样,使用 自适应取阈值可以更容易地适应不同的文本字体和照相机的类型或型号。 自适应取阈值过程考虑图像元素的上下文。例如,取决于图像元素的亮度 值与其邻近的图像元素的亮度值的差有多大,其被设为黑或白。需要多大 亮度值来区分的阈值可以基于所捕捉的当前文本来动态地自适应。在此不 必要使用亮度值,也可使用诸如强度或色彩等其它值。
图5是用于动态地调整第一黑白转换步骤的阈值的方法的流程图。首 先选择默认阈值并在从视频帧中所提取的信息上执行黑白转换(框44)。 例如,所提取的信息包括图像元素的亮度值。寻找相同色彩的相连的图像元素并将其标识为可能的文本元素(框45)。任选地,计算这些相连的图
像元素的属性(框46),如其大小和高度。属性还可以是被用来向图像或
图像区域分配值的二价矩。对所标识的可能的文本元素的数量进行计数,
并在该计数的基础上接受或者拒绝阈值(框52)。如果阈值被拒绝,则调
整阈值并且对下一视频帧或静止图像重复该方法。还可能只对那些在特定
大小限制或高度范围内的、或具有所计算的属性中的其它指定的几个属性
的可能的文本元素进行计数。随后可以按任何合适的组合在该信息的全部
或部分的基础上接受或拒绝阈值。
例如,在一实施例中,首先使用低默认阈值。如果结果是多个小区域,
则在处理下一视频帧之前增加该阈值。该过程试图选择不产生或产生很少
的小的可能的文本元素的最小阈值。例如,包括少于用来形成典型文本字
符的图像元素数量的50%的可能的文本元素。这种小的可能的文本元素可
能包括噪声而非真实文本字符的图像。
第一黑白转换过程被设计成产生适于检测文本字符或文本字符组而非
用于精确的光学字符识别(OCR)的黑白图像。第二黑白转换过程因而被 用来提供最适宜提供给OCR过程的输出。需要选择阈值来用于黑白取阈值 操作中,该取阈值操作可以是自适应的或是如上对于第一黑白转换过程所 描述的其它方式。例如,参考图6描述了选择该阈值的过程。光照条件、 所使用的照相机的分辨率、所使用的文本字体的特性和OCR过程本身的细 节都是影响阈值选择的因素。
参考图6,从照相机获得了静止图像并且用户接受系统所建议的文本 选择。该静止图像随后以比图5中可能对视频帧使用的方法更复杂的方式 来处理。这是因为图像是静止的,并且在呈现下一视频帧之前完成处理的 任何要求都是可任选的。使用指定(例如默认)阈值在输入视频帧的所存 储的部分上执行黑白转换(框60)。寻找相同色彩的相连的图像元素并将 其标识为可能的文本元素(框61)。确定并存储可能的文本元素的数量和 大小(框62),并且对若干阈值重复这些步骤(框60、 61、 62)。随后在 所存储的关于可能的文本元素的数量和大小的信息的基础上选择阈值(框 63)。随后使用用所选阈值所形成的转换(框64)。例如,选择产生相对高的高度的最大量的可能的文本元素的阈值。此处的高度可以与文本的字 体大小相关联。
如上所述,在通常是手持式的移动通信设备中提供照相机。随着照相 机被定向来査看文档或其它对象上的文本,通常发生无意的照相机移动。 例如,用户的手可能抖动或移动,尤其在用户在移动的车辆中或在走路时。 这种无意的照相机移动将影响上述文本检测过程的结果,并且为减少或减 轻这一点,在一些实施例中使用经延迟的文本选择过程。照相机的焦距在 此可能有影响。焦距越大,用户选择特定单词就必须越稳定,并且照相机 的微小移动就越相关。如果照相机需要从文本移开,例如使得能够査看更 多文本,则用户必须更稳定来保持十字准线(或其它标记)在特定单词上。
图7a示出显示在具有査看文本的照相机的通信设备处的视频帧。如上 所述,十字准线71显示在视频帧的中央。在该示例中,检测到单词"result" 并划出其轮廓70。假定在图7a的情况下照相机向右移动一点。在这种情况 下,单词"result"将不再被划出轮廓,因为其将不再落入十字准线周围的 中央区域。(在该示例中,只有十字准线周围的指定的中央区域内的文本 被检测到。)如果照相机向右的移动是无意的,则丢失对单词"result"的 检测是有问题的。为解决这一点,考虑关于在先前的视频帧中所检测到的 文本的信息是可能的。可以考虑关于先前选择的图像区域的数据。
图7b示出图7a中的视频帧之后的视频帧。其可以是紧接其后的或可 以在图7a的视频帧之后的若干视频帧后。同样,如上所述,十字准线显示 在视频帧的中央。因为照相机相对图7a的照相机位置向右移动了,所以视 频帧中可视的文本与图7a中的文本相比移位了。在这种情况下,单词"but" 现在最接近十字准线,并且如上所述,文本检测过程检测到单词"but"。 然而,取代划出单词"but"的轮廓,继续划出单词"result"的轮廓。这通 过移动十字准线的逻辑位置(但不是其在显示器中央的位置)来实现。这 现在参考图8来描述。
对于当前视频帧(如图7a的视频帧),计算当前所选单词的边界框的 中心(框80)。在图7a的示例中,这是划出单词"result"的框的中心, 而在该示例中是中央十字准线的左侧。在后续视频帧(如图7b的视频帧)选的单词"result"移开指定显示区域(框 81)。指定显示区域是接近或包含十字准线的、其内的文本被检测的指定 区域。在后续视频帧(如图7b的视频帧)中,在从一个或多个先前视频帧 计算的边界框中心的基础上移动或平移指定显示区域(框82)。因此,在 后续视频帧中仍然检测到单词"result"并划出其轮廓,并且用户察觉到划 出轮廓的单词的经延迟的移动。
计算边界框的中心不是必须的。在该方法中可以计算并使用关于边界
框的任何其它合适的信息。例如,边界框的两个对角顶点的位置、边界框 的尺寸和位置、边界框的一个或多个二价矩、或边界框的任何其它指定的 特性和/或其相对十字准线或图像中的其它定义位置的位置。
如上参考图1所述,包含所选文本的所选图像子集在被发送到提供 OCR功能的在线服务引擎或其它设施之前被预处理并压縮。现在给出关于 预处理和压縮的更多细节。
移动通信设备上的视频帧通常以YUV格式提供。在这种情况下,为减 少需要处理的数据量,此处所描述的方法可以只使用亮度通道信息。然而, 这是可任选的。还可能使用所有可用YUV格式信息。另外,只处理图像(视 频帧或静止图像)的子集。该子集被预指定为例如作为包含十字准线位置 或其它定义的位置的矩形区域。同样,作为黑白转换过程(图4的框50) 的结果,进一步减少表示该图像的子集所需要的信息。另外,可以使用图 像压縮技术来进一步压縮该信息。
通过预处理和压縮该信息,快速、高效地并以不昂贵的方式向另一位 置处的OCR功能发送该信息是可能的。以此方式,在移动通信设备本身上 提供OCR功能不是必须的。因为OCR功能是相对地资源密集和复杂的, 这对资源有限的移动通信设备而言是有益的。
以上的图4给出文本检测算法的示例。现在讨论另一示例,并且以下 现在给出高级结构
VOID Transform
(IMediaSample *pln,IMediaSample *pOut)
RECTrcOut;
7:CopyVideoFrame (pin, pOut); 8:DrawCrosshair (pOut); 9:CopyYInternal (pin, m_rgCopy,
COPY—RECT);
12: AdaptiveThresholding (m—rgCopy);
13: FindConnectedRegions (m一rgCopy);
14: CalculateRegionProperties ();
15: if (GetWordOutlineAt (m_ptCross,&rcOut))
17: D匿Outline (pOut, rcOut);
18: CopyRectRegion (m—rgRes, pin, rcOut);
在一些编程框架中,视频帧流过所谓的过滤器图。因此,在该示例中, 输入视频帧(IMediaSample *pln)被转换为输出视频帧(IMediaSample *pOut)。首先,输入样本被复制到输出样本,并且十字准线被画到输出样 本(参见以上高级代码结构的7-8行)。视频通常以YUV格式提供。这是 该文本检测算法的优点,因为其只要求亮度分量(即Y分量),而色彩分 量可被忽略。因此,在该算法的9行,只复制Y分量以用于进一步处理。 这意味着可以应用两个试探来改进该算法的性能。第一,只考虑亮度分量。 第二,因为典型的视频帧示出水平地对齐的多行文本,所以只将帧的水平
子集复制到内部缓冲区。实际的文本复制检测发生在该内部缓冲区上 (m一rgCopy)。为执行实际的文本检测,首先通过应用自适应取阈值算法来将该内部 缓冲区转换为黑白图像。用来寻找用于取阈值算法的适当阈值的反馈循环 的细节已在上文中参考图5和图6给出。
在黑白转换之后,标识所复制的图像区域内部的所有区域,并且向不 同的区域分配简单属性。这些属性可以包括区域中的像素的数量以及其最
小和最大x和y坐标。假定每一字符是图像中的单个区域,现在计算最接 近所显示的十字准线的单词的轮廓是可能的(参见高级代码结构的15行)。
给出该轮廓,在该单词的周围绘制矩形以向用户发出已经检测到对应的单 词的信号。同样,包含该单词的区域被复制到内部缓冲区,以供该应用程
序的其它部分处理(参见高级代码结构的18行)。
图9是具有照相机并具有显示屏幕92的移动通信设备91的示意图。 该照相机可被用来接收文本文档卯或呈现在一场景中的任何对象上的文本 的图像。移动通信设备91能够与通信网络93或包括OCR功能的其它实体 通信。此处所描述的文本检测方法和系统可以集成在依赖文本输入的各种 移动应用程序中。例如,移动在线搜索。用户可能在阅读一本书或报纸, 并需要关于他或她不熟悉的术语的附加信息。使用移动通信设备91来捕捉 视频帧,实时地处理这些视频帧,选择所捕捉的视频帧中包含文本元素的 区域,并修改和扩展所选择的图像区域。此外,使用移动通信设备来预处 理所标识的图像区域,并在通过通信链路将其发送到通信网络93中的服务 器或其它实体之前将其压縮。服务器或其它实体处的OCR功能在该图像上 执行OCR分析,并可以使用结果来启动在线搜索。OCR功能可以集成到 在线搜索引擎中或可以是独立的。在线搜索的结果随后被返回给移动通信 设备92。
图IO是移动通信设备100的示意图。例如,这是基于Windows Mobile (商标)的智能电话、PDA、或其它移动通信设备。该移动通信设备包含 适用于产生显示文本的对象的视频流的照相机40。例如,照相机可以是自 动聚焦照相机,可以是具有拍摄特写图像模式的照相机,或可以是具有用 于拍摄附近的对象的照片的可移动附加镜头的照相机。还提供了视频流显 示器106,如液晶显示屏幕或其它显示设备。该通信设备具有任何合适类型的操作系统108,并包括存储器107和用于实现此处所描述的方法的软件应
用程序109。例如,操作系统可以是Windows Mobile 5.0 (商标)或任何其 它合适的操作系统。软件应用程序109可被实现为DirectShow (商标)或 任何其它合适的环境中的转换过滤器。
移动通信设备100还包含提供用于该设备与诸如因特网或内联网等通 信网络通信的功能的装置。例如,提供了无线发射器102和无线接收器103, 其可以是任何合适的类型。提供了诸如键盘、触摸屏、话筒、显示屏幕105 或其它用户接口设备等用户接口 104。另外,还有任何合适类型的处理器 101。
在此描述的各方法可由存储介质上的机器可读形式的软件执行。软件 可适于在并行处理器或串行处理器上执行以使得各方法步骤可以按任何合 适的次序或同时执行。
这确认了软件可以是有价值的、可单独交易的商品。它旨在包含运行 于或者控制"哑"或标准硬件以实现所需功能的软件。它还旨在包含例如 用于设计硅芯片,或者用于配置通用可编程芯片的HDL (硬件描述语言) 软件等"描述"或者定义硬件配置以实现期望的功能的软件。
本领域的技术人员将认识到用于存储程序指令的存储设备可分布在网 络上。例如,远程计算机可存储描述为软件的该过程的示例。本地或终端 计算机可访问远程计算机并下载该软件的一部分或全部以运行该程序。或
者,本地计算机可按需下载软件的片断,或可以在本地终端处执行一些软 件指令而在远程计算机(或计算机网络)处执行一些软件指令。本领域的 技术人员将认识到,通过使用本领域技术人员已知的常规技术,软件指令 的全部或部分可由专用电路,如DSP、可编程逻辑阵列等来执行。
如本领域的技术人员将清楚的,此处给出的任何范围或者设备值都可 以被扩展或者改变而不失去所寻求的效果。
可以理解,上述各好处和优点可涉及一个实施例或者可涉及若干实施 例。还可以理解,对'一个,项目的引用指的是这些项目中的一个或多个。
本文中描述的各方法步骤可以在适当时按任何合适的次序或同时执行。可以理解,上面对一较佳实施例的描述只是作为示例给出并且本领域 的技术人员可以做出各种修改。以上说明、示例和数据提供了对本发明的 各示例性实施例的结构和使用的全面描述。尽管以上带着一定程度的特殊 性或对一个或多个单独实施例的参考描述了本发明的各实施例,但是本领 域的技术人员能够对所公开的实施例做出多种更改而不背离本发明的精神 或范围。
权利要求
1.一种方法,包括(i)在与移动通信设备(91)相关联的照相机(40)处接收至少一个图像,所述图像包括文本;(ii)在所述图像中定义指定显示区域;(iii)检测所述指定显示区域中的所述图像的包括单词的子区域(70),所述检测子区域的过程包括使用第一取阈值过程;(iv)在所述移动通信设备上显示所接收到的图像并在所述图像的显示上指示所检测到的子区域;(v)将第二取阈值过程应用于所检测到的子区域来产生经处理的子区域,所述第二取阈值过程与所述第一取阈值过程不同;(vi)将关于所述经处理的子区域的信息发送到包括光学字符识别功能的远程实体(93)。
2. 如权利要求1所述的方法,其特征在于,还包括在所述照相机(40) 处接收视频流,所述视频流包括至少一个图像。
3. 如权利要求2所述的方法,其特征在于,还包括对于所述视频流的 后续帧,实时地重复检测子区域的步骤(iii)和显示所接收到的图像并在所述 图像的显示上指示所检测到的子区域的步骤(iv)。
4. 如权利要求1所述的方法,其特征在于,所述第二取阈值过程是在 静止图像的子区域上而非在实时视频流的视频帧上执行的。
5. 如权利要求1所述的方法,其特征在于,在所述移动通信设备上显 示所接收到的图像并在所述图像的显示上指示所检测到的子区域的步骤(iv) 还包括接收指示对所检测到的子区域的接受的用户输入,并且另外监控指 示修改所检测到的子区域的要求的用户输入。
6. 如权利要求3所述的方法,其特征在于,检测指定显示区域中的所 述图像的包括单词的子区域的步骤(iii)包括计算关于当前视频帧中的所述 子区域的边界框的信息,并且其中所述方法还包括,对于后续视频帧,在 所计算的关于所述边界框的信息的基础上移动所述指定显示区域。
7. 如权利要求6所述的方法,其特征在于,所计算的关于所述边界框的信息包括所述边界框的中心的位置。
8. 如权利要求3所述的方法,其特征在于,所述第一取阈值过程包括 使用指定阈值,所述指定阈值是对于每一视频帧在关于该视频帧的所检测 到的子区域的信息的基础上来调整的。
9. 如权利要求1所述的方法,其特征在于,所述第一取阈值过程包括相对于一图像元素的邻近图像元素来评估该图像元素。
10. 如权利要求1所述的方法,其特征在于,所述第二取阈值过程包括使用在关于使用各个阈值之后检测到的可能的文本元素的信息的基础上 动态地选择的阈值。
11. 一种移动通信设备(91、 100),包括(i) 被安排成接收至少一个包括文本的图像的照相机(40);(ii) 被安排成在所述图像中定义指定显示区域的处理器(101);(iii) 所述处理器(101)被安排成检测所述指定显示区域中的所述图像 的包括单词的子区域,所述检测子区域的过程包括使用第一取阈值过程;(iv) 被安排成显示所接收到的图像并在所述图像的显示上指示所检测 到的子区域的显示器(106);(v) 所述处理器(101)被安排成将第二取阈值过程应用于所检测到的 子区域来产生经处理的子区域,所述第二取阈值过程与所述第一取阈值过 程不同;(vi) 被安排成将关于所述经处理的子区域的信息发送到包括光学字符 识别功能的远程实体的输出(102)。
12. 如权利要求11所述的移动通信设备(100),其特征在于,所述 照相机(40)被安排成接收视频流,所述视频流包括所述至少一个图像。
13. 如权利要求12所述的移动通信设备(100),其特征在于,所述 处理器(101)被安排成对于所述视频流的后续帧,实时地重复检测子区域 的步骤(iii)和显示所接收到的图像并在所述图像的显示上指示所检测到的 子区域的步骤(iv)。
14. 如权利要求11所述的移动通信设备(100),其特征在于,所述 处理器(101)被安排成在静止图像的子区域上而非在实时视频流的视频帧上执行所述第二取阈值过程。
15. 如权利要求ll所述的移动通信设备(100),其特征在于,还包 括被安排成接收指示对所检测到的子区域的接受的用户输入的用户接口(104),并且其中所述处理器(101)被安排成监控指示修改所检测到的 子区域的要求的用户输入。
16. 如权利要求13所述的移动通信设备(100),其特征在于,所述处理器被安排成计算关于当前视频帧中的所述子区域的边界框的信息,并 且其中对于后续视频帧,所述处理器被安排成在所计算的关于所述边界框的信息的基础上移动所述指定显示区域。
17. 如权利要求16所述的移动通信设备(100),其特征在于,所述 处理器被安排成对于每一视频帧,在关于该视频帧的所检测到的子区域的 信息的基础上调整所述第一取阈值过程中使用的指定阈值。
18. —种或多种具有用于执行以下步骤的设备可执行指令的设备可 读介质,所述步骤包括(i) 在与移动通信设备(100)相关联的照相机(40)处接收至少一个 图像,所述图像包括文本;(ii) 在所述图像中定义指定显示区域;(iii) 检测所述指定显示区域中的所述图像的包括单词的子区域,所述 检测子区域的过程包括使用第一取阈值过程;(iv) 在所述移动通信设备上显示所接收到的图像并在所述图像的显示 上指示所检测到的子区域;(v) 将第二取阈值过程应用于所检测到的子区域来产生经处理的子区 域,所述第二取阈值过程与所述第一取阈值过程不同;(vi) 将关于所述经处理的子区域的信息发送到包括光学字符识别功能 的远程实体。
19. 如权利要求18所述的一个或多个设备可读介质,其特征在于, 具有用于执行包括在所述照相机处接收视频流的步骤的设备可执行指令, 所述视频流包括至少一个图像。
20. 如权利要求19所述的一个或多个设备可读介质,其特征在于,具有用于执行包括对所述视频流的后续帧,实时地重复检测子区域的步骤 (iii)和显示所接收到的图像并在所述图像的显示上指示所检测到的子区域的步骤(iv)的步骤的设备可执行指令。
全文摘要
具有集成照相机的移动通信设备被定向到文本。实时地分析视频流来检测各视频帧的指定区域中的一个或多个单词,并在显示器上指示所检测的单词。用户可以选择视频流中的单词,并且然后移动或扩展初始选择。因此,选择多个单词是可能的。视频帧的包括所检测到的单词的子区域在被发送到可以集成在诸如在线搜索服务等在线服务中的远程光学字符识别(OCR)功能之前被预处理和压缩。
文档编号G09B21/00GK101558416SQ200780042822
公开日2009年10月14日 申请日期2007年10月29日 优先权日2006年11月20日
发明者F·西格蒙德 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1