用于图像辨识的自适应阈值处理的制作方法

文档序号：8367440阅读：423来源：国知局

用于图像辨识的自适应阈值处理的制作方法
【专利说明】用于图像辨识的自适应阈值处理
[0001] 发明背景
[0002] 随着人们越来越多地利用各种计算设备（包括如平板计算机和智能电话的便携式设备），适应人们与这些设备交互的方式可为有利的。用户习惯于手动输入电话号码以进行电话呼叫，手动键入电子邮件地址以发送电子邮件，将网址手动键入网络浏览器中以查看网页等等。这些任务常常是乏味并且耗时的。在各种设备上已提供节省用户时间的各种方法，如将电话号码分配到收藏夹列表和对网址加书签。随着技术发展并且随着便携式计算设备上所提供的特征和服务发展并扩充，提供快捷方式和其它节省时间的方法的方式正在改变。
[0003] 附图简述
[0004] 将参照附图描述根据本公开的各个实施方案，在附图中：
[0005] 图1A、图IB和图IC示出根据一个实施方案的示例性实现方式，其中拿着便携式计算设备的用户将文本提供给地图应用程序；
[0006] 图2A、图2B和图2C示出根据一个实施方案的示例性实现方式，其中拿着便携式计算设备的用户将电话号码提供给电话应用程序；
[0007] 图3A和图3B示出根据一个实施方案的示例性实现方式，其中拿着便携式计算设备的用户将文本提供给浏览器；
[0008] 图4示出根据各个实施方案的用于将文本提供给便携式计算设备上的应用程序的示例性过程；
[0009] 图5示出根据各个实施方案的预处理图像来进行文本检测的示例性实现方式；
[0010] 图6示出根据各个实施方案的像素区域的示例性放大图；
[0011] 图7A、图7B和图7C示出根据各个实施方案的示例性距离对梯度强度图；
[0012] 图8示出根据各个实施方案的用于文本检测的示例性过程；
[0013] 图9示出根据各个实施方案的预处理图像来进行文本检测的示例性实现方式；
[0014] 图IOA和图IOB示出根据各个实施方案可以利用的计算设备的前视图和后视图实例；
[0015] 图11示出根据各个实施方案可以利用的计算设备的组件级实例；以及
[0016] 图12示出可实现各个实施方案的示例性环境。
【具体实施方式】
[0017] 根据本公开的各个实施方案的系统和方法可以克服在用于将文本信息提供给应用程序、系统或服务的常规方法中经历的前述缺点和其它缺点中的一个或多个。具体来说，各个实施方案允许便携式计算设备执行如下任务，如获得包括文本的图像信息、在图像中定位文本、识别文本的类型或模式（例如，电子邮件、电话号码、URL等等）、确定与文本相关联的功能或应用程序（例如，呼叫号码、打开互联网浏览器等等），和/或执行与文本相关联的功能或应用程序。也可以使用在网络上可利用的至少一个资源来执行这些任务中的至少 --止匕 -、O
[0018] 各个实施方案允许用户将照相机对准包括文本的对象，以便捕获所述对象的图像。照相机可与能够拍摄图像并处理图像（或提供图像用于处理）的便携式计算设备集成以辨识、识别和/或隔离文本，以便将文本发送到应用程序或功能。应用程序或功能接着可利用文本来大致上实时地执行动作。例如，沿街行走的用户可看见包括电话号码的广告。用户可使用本文中所述的教义，通过以下操作来呼叫所述电话号码：例如将智能电话的照相机对准号码以将号码输入至电话应用程序中，而不需要手动输入号码。在一个实例中，设备可输入来自图像的号码并且等待用户指示以开始呼叫，或在另一个实例中，可由设备自动进行呼叫。这个实施例可以扩展到在网络浏览器中输入网址或URL、用于打开新消息窗口的电子邮件地址、用于打开地图应用程序以显示路线的物理地址和各种其它可动作的数据类型。
[0019] 各个实施方案可使用对于照明、阴影遮蔽、对比度或其它此类方面的变化具有稳健性的方法来检测并辨识图像中的文本。例如，照相机可能捕获部分被阴影覆盖的标志的图像。至少部分由于阴影效果，文本字符的颜色值与背景区域的颜色值之间的间隔在阴影区域与非阴影区域之间将会不同。此外，阴影效果中可能存在也可以影响所述间隔的变化。因此，图像的单个阈值可能不足以基于如像素颜色值的方面来将背景区域与文本区域分离。本文所述的方法可分析图像上各个位置处的间隔值，以便确定每个位置的适合阈值。所述阈值可因此在图像上改变并且适应照明条件、对比度等等的变化。这种方法在一些情况下可改进文本检测的准确度，并且在其它情况下至少可增加文本辨识过程的速度和效率。
[0020] 下文参照各个实施方案来呈现各种其它应用、过程和用途。
[0021] 图1示出示例性情况100,其展示用户将便携式计算设备102放在事件宣传单106 上方。事件宣传单106含有事件位置的物理地址，并且在这个实施例中，用户正在寻找到所述位置的路线。为了获得路线，用户可将设备102的照相机对准宣传单含有地址的那一部分以捕获或获得所述地址的图像，如通过图IA的屏幕104可看见。在一个实施方案中，在获得图像和/或识别图像中具有指示文本的存在的性质的一个或多个部分后，设备102上的应用程序自动运行光学字符辨识（OCR)算法来辨识宣传单的成像文本。在各个实施方案中，OCR算法可以包括机器视觉算法和利用各种技术的其它图像预处理算法。OCR算法运行以识别并分析图像中可包括文本串或字符串的一个或多个区域。分析任何已识别的串以进一步识别模式，模式将指示感兴趣的数据对象或类型的存在，所述数据对象或类型如电子邮件地址、URL/网址、电话号码等等。返回参照图1，已识别指示物理地址的存在的串。在这个实施例中，如图IB中所示，提示用户确认用户要执行与物理地址相关联的特定动作或运行预先确定的例程或工作流程的意图。在这个实施例中，预先确定的例程使得地图应用程序被打开并且到所述地址的路线被显示。在这个实施例中，用户可以首先通过按压'是' 按钮来确认意图，由此在便携式计算设备102的屏幕104上显示具有到所述事件的路线的地图，如图IC中所示。
[0022] 图2示出示例性情况200,其展示用户将便携式计算设备202放在名片206上方，如图2A中所示。如上所述，设备202或与所述设备通信的服务在名片的所捕获图像中定位文本，识别文本的类型或模式（例如，电子邮件地址、电话号码、URL等等），确定与文本的类型相关联的功能或应用程序（例如，呼叫号码、打开互联网浏览器等等），并且给所述应用程序或功能发送所定位文本的至少一部分以执行与它相关联的操作。在这个实施例中，名片206含有多个感兴趣的数据对象，这些数据对象是电话号码、电子邮件和物理地址。在一个实例中，在识别出多种数据类型的情况下，用户可将优先级分配到各个功能或应用程序，以便一种数据类型比另一种数据类型居先。在另一实例中，设备202可利用各个可利用的功能或应用程序之间或之中的选择来提示用户。
[0023] 返回参照图2,识别出两个或更多个数据对象的设备可利用如图2B中所示的选项来提示用户启动通讯簿应用程序，以便将对象保存为联系人信息。或者，可经由显示器204 利用如"按1拨号、按2查找路线、按3发电子邮件或按4保存联系人"的消息来提示用户。在一个实施例中，可将数据类型的文本自动填充到相应数据字段类型中。此外，在各个实施方案中，设备202可被编程、预加载或包括可下载的插件来辨识类似名片的对象并且使默认工作流程与所述对象关联，在一些实例中所述默认工作流程可以是将数据保存为联系人。在图2的实施例中，如图2B中所示，提示用户保存与名片206相关联的联系人。然而，在此状况下，用户想要呼叫名片上的电话号码并且选择'否'。在一个实例中，设备202可利用各个选项再次提示用户，或者用户可能已经设置应用程序优先级来自动运行预先确定的例程或执行预先确定的操作。现在参照图2C，用户已选择呼叫电话号码的选项，或者用户已将拨打电话号码分配为优先操作，并且展示设备202正在呼叫号码。
[0024] 图3示出示例性情况300,其展示用户将便携式计算设备302对准窗户308。在这个实施例中，窗户308上印刷有网址，如图3A中所示。根据各个实施方案，沿街行走的用户可将与设备302相关联的照相机对准或瞄准网址来作为导航到所述网址的快捷方式，而不是将所述地址手动键入到网络浏览器中。在这个实施例中，用户必须选择屏幕304上的图标306或提供另一个此类输入，以便手动捕获含有网址的窗户的图像。在先前实施例中，照相机可包括例如陀螺仪、加速计、光传感器或其组合，以便预测用户要捕获图像并开始例程或执行操作、与特定数据对象关联的意图。在这个实施例中，用户拿起设备302,将照相机瞄准窗户308,并且按压图标306以捕获网址的图像。接着，如上所述，设备或服务将OCR算法运行一次以在图像中定位文本，从而识别所述文本中的类型或模式（在这个实施例中是网址）；启动浏览器应用程序，并且将用户导航到饭店的网址，如图3B中所示。
[0025] 图4示出根据各个实施方案的用于将文本信息提供给计算设备上的应用程序或功能的示例性过程400。应当理解，在各个实施方案的范围内，对于本文所述的任何过程都可以存在按类似或替代次序执行或者并行地执行的另外步骤、更少步骤或替代步骤，除非另外说明。在这个实施例中，获得图像或图像信息（例如，视频流）402。在各个实施方案中，从便携式计算设备的照相机应用程序获得图像或图像信息。在一个实例中，将设备悬停在面对照相机的对象上将使照相机自动捕获至少一个图像或记录图像序列。在另一个实例中，为了捕获图像，照相机需要来自用户的输入，例如，如通过用户选择触摸屏上的图标。处理所获得的图像信息来定位具有文本串或字符串的性质的至少一个区域404。在一个实例中，在接收图像信息后自动开始所述处理。照相机也可处于连续图像捕获模式。然而，这可能消耗大量能量，因此用户可以选择使设备在图像捕获和处理模式下连续运行或何时将设备禁用的各个选项或情况。例如，可选择在电池耗尽到特定等级时自动关闭连续捕获和处理模式的设置。在这个实施例中，使用光学字符辨识算法分析文本串以辨识文本串中的文本406。OCR算法可包括机器视觉算法和其它图像预处理技术或算法。识别出对应于所辨识文本的文本模式（例如，电子邮件、电话号码、URL等等）408。在这个实施例中，确定与文本模式相关联的应用程序4

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沃洛季米尔·V.·伊万琴科;杰弗里-斯科特·海勒;理查德-霍华德·苏普利三世;丹尼尔·毕比里塔;
技术所有人：亚马逊技术公司;
我是此专利的发明人

上一篇：用于力感测触摸板的自动使用的设备和方法
上一篇：使用来自被控制的设备的输入模式数据的输入设备的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。