用于图像辨识的自适应阈值处理的制作方法

文档序号:8367440阅读:423来源:国知局
用于图像辨识的自适应阈值处理的制作方法
【专利说明】用于图像辨识的自适应阈值处理
[0001] 发明背景
[0002] 随着人们越来越多地利用各种计算设备(包括如平板计算机和智能电话的便携 式设备),适应人们与这些设备交互的方式可为有利的。用户习惯于手动输入电话号码以进 行电话呼叫,手动键入电子邮件地址以发送电子邮件,将网址手动键入网络浏览器中以查 看网页等等。这些任务常常是乏味并且耗时的。在各种设备上已提供节省用户时间的各种 方法,如将电话号码分配到收藏夹列表和对网址加书签。随着技术发展并且随着便携式计 算设备上所提供的特征和服务发展并扩充,提供快捷方式和其它节省时间的方法的方式正 在改变。
[0003] 附图简述
[0004] 将参照附图描述根据本公开的各个实施方案,在附图中:
[0005] 图1A、图IB和图IC示出根据一个实施方案的示例性实现方式,其中拿着便携式计 算设备的用户将文本提供给地图应用程序;
[0006] 图2A、图2B和图2C示出根据一个实施方案的示例性实现方式,其中拿着便携式计 算设备的用户将电话号码提供给电话应用程序;
[0007] 图3A和图3B示出根据一个实施方案的示例性实现方式,其中拿着便携式计算设 备的用户将文本提供给浏览器;
[0008] 图4示出根据各个实施方案的用于将文本提供给便携式计算设备上的应用程序 的示例性过程;
[0009] 图5示出根据各个实施方案的预处理图像来进行文本检测的示例性实现方式;
[0010] 图6示出根据各个实施方案的像素区域的示例性放大图;
[0011] 图7A、图7B和图7C示出根据各个实施方案的示例性距离对梯度强度图;
[0012] 图8示出根据各个实施方案的用于文本检测的示例性过程;
[0013] 图9示出根据各个实施方案的预处理图像来进行文本检测的示例性实现方式;
[0014] 图IOA和图IOB示出根据各个实施方案可以利用的计算设备的前视图和后视图实 例;
[0015] 图11示出根据各个实施方案可以利用的计算设备的组件级实例;以及
[0016] 图12示出可实现各个实施方案的示例性环境。
【具体实施方式】
[0017] 根据本公开的各个实施方案的系统和方法可以克服在用于将文本信息提供给应 用程序、系统或服务的常规方法中经历的前述缺点和其它缺点中的一个或多个。具体来说, 各个实施方案允许便携式计算设备执行如下任务,如获得包括文本的图像信息、在图像中 定位文本、识别文本的类型或模式(例如,电子邮件、电话号码、URL等等)、确定与文本相关 联的功能或应用程序(例如,呼叫号码、打开互联网浏览器等等),和/或执行与文本相关联 的功能或应用程序。也可以使用在网络上可利用的至少一个资源来执行这些任务中的至少 --止匕 -、O
[0018] 各个实施方案允许用户将照相机对准包括文本的对象,以便捕获所述对象的图 像。照相机可与能够拍摄图像并处理图像(或提供图像用于处理)的便携式计算设备集成 以辨识、识别和/或隔离文本,以便将文本发送到应用程序或功能。应用程序或功能接着可 利用文本来大致上实时地执行动作。例如,沿街行走的用户可看见包括电话号码的广告。用 户可使用本文中所述的教义,通过以下操作来呼叫所述电话号码:例如将智能电话的照相 机对准号码以将号码输入至电话应用程序中,而不需要手动输入号码。在一个实例中,设备 可输入来自图像的号码并且等待用户指示以开始呼叫,或在另一个实例中,可由设备自动 进行呼叫。这个实施例可以扩展到在网络浏览器中输入网址或URL、用于打开新消息窗口的 电子邮件地址、用于打开地图应用程序以显示路线的物理地址和各种其它可动作的数据类 型。
[0019] 各个实施方案可使用对于照明、阴影遮蔽、对比度或其它此类方面的变化具有稳 健性的方法来检测并辨识图像中的文本。例如,照相机可能捕获部分被阴影覆盖的标志的 图像。至少部分由于阴影效果,文本字符的颜色值与背景区域的颜色值之间的间隔在阴影 区域与非阴影区域之间将会不同。此外,阴影效果中可能存在也可以影响所述间隔的变化。 因此,图像的单个阈值可能不足以基于如像素颜色值的方面来将背景区域与文本区域分 离。本文所述的方法可分析图像上各个位置处的间隔值,以便确定每个位置的适合阈值。所 述阈值可因此在图像上改变并且适应照明条件、对比度等等的变化。这种方法在一些情况 下可改进文本检测的准确度,并且在其它情况下至少可增加文本辨识过程的速度和效率。
[0020] 下文参照各个实施方案来呈现各种其它应用、过程和用途。
[0021] 图1示出示例性情况100,其展示用户将便携式计算设备102放在事件宣传单106 上方。事件宣传单106含有事件位置的物理地址,并且在这个实施例中,用户正在寻找到所 述位置的路线。为了获得路线,用户可将设备102的照相机对准宣传单含有地址的那一部 分以捕获或获得所述地址的图像,如通过图IA的屏幕104可看见。在一个实施方案中,在 获得图像和/或识别图像中具有指示文本的存在的性质的一个或多个部分后,设备102上 的应用程序自动运行光学字符辨识(OCR)算法来辨识宣传单的成像文本。在各个实施方案 中,OCR算法可以包括机器视觉算法和利用各种技术的其它图像预处理算法。OCR算法运行 以识别并分析图像中可包括文本串或字符串的一个或多个区域。分析任何已识别的串以进 一步识别模式,模式将指示感兴趣的数据对象或类型的存在,所述数据对象或类型如电子 邮件地址、URL/网址、电话号码等等。返回参照图1,已识别指示物理地址的存在的串。在 这个实施例中,如图IB中所示,提示用户确认用户要执行与物理地址相关联的特定动作或 运行预先确定的例程或工作流程的意图。在这个实施例中,预先确定的例程使得地图应用 程序被打开并且到所述地址的路线被显示。在这个实施例中,用户可以首先通过按压'是' 按钮来确认意图,由此在便携式计算设备102的屏幕104上显示具有到所述事件的路线的 地图,如图IC中所示。
[0022] 图2示出示例性情况200,其展示用户将便携式计算设备202放在名片206上方, 如图2A中所示。如上所述,设备202或与所述设备通信的服务在名片的所捕获图像中定位 文本,识别文本的类型或模式(例如,电子邮件地址、电话号码、URL等等),确定与文本的类 型相关联的功能或应用程序(例如,呼叫号码、打开互联网浏览器等等),并且给所述应用 程序或功能发送所定位文本的至少一部分以执行与它相关联的操作。在这个实施例中,名 片206含有多个感兴趣的数据对象,这些数据对象是电话号码、电子邮件和物理地址。在一 个实例中,在识别出多种数据类型的情况下,用户可将优先级分配到各个功能或应用程序, 以便一种数据类型比另一种数据类型居先。在另一实例中,设备202可利用各个可利用的 功能或应用程序之间或之中的选择来提示用户。
[0023] 返回参照图2,识别出两个或更多个数据对象的设备可利用如图2B中所示的选项 来提示用户启动通讯簿应用程序,以便将对象保存为联系人信息。或者,可经由显示器204 利用如"按1拨号、按2查找路线、按3发电子邮件或按4保存联系人"的消息来提示用户。 在一个实施例中,可将数据类型的文本自动填充到相应数据字段类型中。此外,在各个实 施方案中,设备202可被编程、预加载或包括可下载的插件来辨识类似名片的对象并且使 默认工作流程与所述对象关联,在一些实例中所述默认工作流程可以是将数据保存为联系 人。在图2的实施例中,如图2B中所示,提示用户保存与名片206相关联的联系人。然而, 在此状况下,用户想要呼叫名片上的电话号码并且选择'否'。在一个实例中,设备202可利 用各个选项再次提示用户,或者用户可能已经设置应用程序优先级来自动运行预先确定的 例程或执行预先确定的操作。现在参照图2C,用户已选择呼叫电话号码的选项,或者用户已 将拨打电话号码分配为优先操作,并且展示设备202正在呼叫号码。
[0024] 图3示出示例性情况300,其展示用户将便携式计算设备302对准窗户308。在这 个实施例中,窗户308上印刷有网址,如图3A中所示。根据各个实施方案,沿街行走的用户 可将与设备302相关联的照相机对准或瞄准网址来作为导航到所述网址的快捷方式,而不 是将所述地址手动键入到网络浏览器中。在这个实施例中,用户必须选择屏幕304上的图 标306或提供另一个此类输入,以便手动捕获含有网址的窗户的图像。在先前实施例中,照 相机可包括例如陀螺仪、加速计、光传感器或其组合,以便预测用户要捕获图像并开始例程 或执行操作、与特定数据对象关联的意图。在这个实施例中,用户拿起设备302,将照相机瞄 准窗户308,并且按压图标306以捕获网址的图像。接着,如上所述,设备或服务将OCR算法 运行一次以在图像中定位文本,从而识别所述文本中的类型或模式(在这个实施例中是网 址);启动浏览器应用程序,并且将用户导航到饭店的网址,如图3B中所示。
[0025] 图4示出根据各个实施方案的用于将文本信息提供给计算设备上的应用程序或 功能的示例性过程400。应当理解,在各个实施方案的范围内,对于本文所述的任何过程都 可以存在按类似或替代次序执行或者并行地执行的另外步骤、更少步骤或替代步骤,除非 另外说明。在这个实施例中,获得图像或图像信息(例如,视频流)402。在各个实施方案 中,从便携式计算设备的照相机应用程序获得图像或图像信息。在一个实例中,将设备悬停 在面对照相机的对象上将使照相机自动捕获至少一个图像或记录图像序列。在另一个实例 中,为了捕获图像,照相机需要来自用户的输入,例如,如通过用户选择触摸屏上的图标。处 理所获得的图像信息来定位具有文本串或字符串的性质的至少一个区域404。在一个实例 中,在接收图像信息后自动开始所述处理。照相机也可处于连续图像捕获模式。然而,这可 能消耗大量能量,因此用户可以选择使设备在图像捕获和处理模式下连续运行或何时将设 备禁用的各个选项或情况。例如,可选择在电池耗尽到特定等级时自动关闭连续捕获和处 理模式的设置。在这个实施例中,使用光学字符辨识算法分析文本串以辨识文本串中的文 本406。OCR算法可包括机器视觉算法和其它图像预处理技术或算法。识别出对应于所辨 识文本的文本模式(例如,电子邮件、电话号码、URL等等)408。在这个实施例中,确定与文 本模式相关联的应用程序4
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1