用于上下文相关的工作流的智能光学输入/输出(I/O)扩展的制作方法

文档序号:11814749阅读:297来源:国知局
用于上下文相关的工作流的智能光学输入/输出(I/O)扩展的制作方法与工艺

本申请要求于2015年4月14日提交的序列号为14/686,644的美国专利申请的优先权,其要求于2014年4月15日提交的、序列号为61/979,949的美国临时专利申请的优先权,其全部内容通过引用并入本文。

技术领域

本发明的公开涉及移动设备的使用一个或多个光学元件的输入/输出(I/O)。更具体地,本概念涉及将移动设备的光学输入功能集成到该移动设备的输出功能,并且甚至更具体地,针对手机的工作流或应用执行从移动设备摄像头的光学输入到文本输出的整合。



背景技术:

移动设备在发展的市场领域中占据着越来越突出的地位,充当着指导看似无限数目的活动的多个阶段的接入点。随着这一趋势的继续,移动设备和其提供的网络能力被用于与日俱增的数目和宽度的场景中。最近的例子包括对移动技术的扩展提供了大量的金融服务,例如支票存款、分期付款、金融管理等。此外,通过移动设备汇集的位置数据被用于越来越多的应用中,例如提供定向广告、环境感知等等。

随着移动开发界发现设备的新功用,呈现给用户越来越多、复杂并且特殊的机会以提供被要求或有利于移动设备被用来执行的潜在进程的输入。此外,用户可能与之交互或向其提供输入的程序中的环境的上下文持续多样化。

当从用户的观点来看,被实现的技术可能未必是最佳的或甚至是可接受的方法,这一多样化自然包括市场地位的扩展。在转瞬间就决定一定的挑战的可接受和不可接受的解决方案的差别的文化中,开发人员寻求每个有利于实现上级技术的每个可能的性能。

例如,关于用户经由移动设备接收输入,存在着几个众所周知的低效性。第一个低效性是移动设备典型的小屏幕尺寸,尤其是移动电话。因为传统的“智能手机”排除了物理键盘和指针设备,而是依靠触摸屏技术,在移动设备屏幕上显示的虚拟“键盘”上分配给一个给定键的实体空间的大小远小于人类的手指精确地以及准确地调用的可能。因此,当考虑到用户经由移动设备接收的输入的文本时,打字错误是常见的。

为了打破这一限制,典型的移动设备采用强大的预测性分析学和词典以“学习”一个给定用户的输入习惯。基于该开发的预测模型,移动设备能够在用户实际的输入相当于不符合其中定义的标准、模式等的文本时预测用户打算输入的文本。使用这种预测分析和词典的最明显的例子体现在多数典型的移动设备可用的传统的“自动修正”功能中。

然而,这些“自动修正”方法在移动界因为制造错误的,甚至不恰当的预测而声名狼藉。而在一些上下文中这些不准确是可笑的,错误预测的普遍性导致词不达意和错误,挫败了潜在进程,用户,并最终击败了移动设备在移动设备本可以用于巨大好处的多种上下文中的可采纳性和实用性。

结果是,一些开发人员已转向了输入的替代来源,以及通过移动设备聚集输入的技术。例如,多数解决方案集中于利用音频输入作为文本输入(也就是通过移动设备显示屏上显示的虚拟键盘所得到的触觉输入)的替换物或补充。在实际中,这种技术已经照惯例被呈现为移动设备语音识别功能的综合(例如通过“虚拟助手”被授予,例如苹果移动设备(IOS 5.0或以上)中的“Siri”)。

这一被加入到手机键盘的音频输入扩展在下面的附图中被例示。而这一图片显示了使用苹果IOS操作系统生成的界面,类似的功能也可以被发现于其他的平台,例如ANDROID、MICROSOFT SURFACE RT等。

音频输入可以通过整合扩展到手机虚拟键盘中而被接收,其辅助用户提供提供移动设备显示器接收的典型的触觉输入以外的输入。在一种方法中,音频扩展表现为描绘麦克风图标或符号的按钮,直接临近于空格键(在左侧)。用户可以与配置为接收文本输入的域交互,例如在线表单上的一个域、PDF等等。移动设备利用操作系统调用移动虚拟键盘用户界面以响应用户与域的交互。接着用户可选地提供触觉输入以输入想要的文本,或与音频扩展交互以调用音频输入界面。在本领域中,这一技术通常被称为“语音转文字”功能,其接受音频输入并将接收到的音频输入转换为文本信息。

一经调用音频输入界面,以及可选地响应经由移动设备显示器接收来自用户的附加输入(例如再次点击音频扩展以指示开启音频输入),用户提供音频输入,其被移动设备语音识别组件分析,转换为文本并输入到用户与之交互的域以调用移动虚拟键盘。

通过整合音频输入到移动设备的文本输入/输出能力,用户能够以免手动的方法输入文本信息,其将设备可接受的功用扩大到原本不可能的大量上下文。例如,根据这些方法,用户可以仅使用音频输入生成文本信息。然而,这些方法也被目前存在的语音识别技术中众所周知的相似的令人沮丧的性能退化误差和矛盾所困扰。结果是,现有的补充和替代文本输入的语音识别方法并不令人满意。

当前可用的语音识别因受制于错误而闻名-通常语音识别软件简单地不能识别独特个体所展现的独特发音。类似的,语音识别易于出现“声音图示”错误(即类似于音频输入的“打字错误”的错误,例如错误地识别被发声的单词)。

进一步的,语音识别天生被预定的规则组所制约(例如可能基于被说的语言所定义的一组假定或条件)。进一步地,因为同一语言的说法和写法版本之间的惯例通常明显不同,也许甚至不可能利用音频输入作为文本输入的补充或替代。例如,在预期的表达形式和/或用法(其通常定义了声音识别所依赖的“规则”)相当于一种语言的写法形式的情况下,音频输入通常是触觉输入的不切实际的替代物。

用于获取或验证对应于非典型的或不能够用语言表达的信息的用户输入时,语音识别是一种劣质的使用工具。从用户输入包括符号,例如通常用于标记计量的单位的角度看,这些限制的典型例子是显而易见的。即使这些计量单位有着公认的发声(例如被称为“美元”的货币单位对应着符号“$”),但这些发声并不一定是相应单词的唯一用法(例如“镑”可能对应着一个重量的计量单位即“lbs”,也可能是货币的单位,即“£”,这取决于上下文)。

语音识别也不适于接收和处理包含语法符号(例如用于传达语法信息的一个或多个“符号”,如逗号“,”分号“;”句号“。”等)的文本输入,或包含在语言表达中不一定有相应的物理表示的符号(例如回车、制表符、空格、尤其是文本对齐方式等)的格式化的表达。

其它现有的方法包括使用光学输入作为文本输入的补充,但这些技术仅仅呈现出结合文本输入与图像或视频剪辑的能力,并通过用户偏爱的通信方式(即短信,电子邮件,视频聊天等)来分配这些结合的输入。这些传统的方法代表性地包括一个结合的的输入界面,以移动设备虚拟键盘来辅助通过移动装置虚拟键盘的触觉输入、以及通过置于输入界面上的单独的按钮(但是在上述的音频输入功能中它并不必包含于虚拟键盘上)的光学输入的接收。

一旦用户与该单独的按钮交互,设备辅助包括预先捕捉的光学输入或可选地调用捕捉界面以捕捉新的光学输入,并且除了用户输入的任意文本信息输入之外,包括预先或最近捕捉的光学输入提供触觉输入到手机虚拟键盘。

作为前述事项的结果,目前通过移动设备的光学和音频输入整合严重受限为接收和处理用户经由移动装置的输入的补充或可选的方法。现存的策略允许语音识别的累赘的声音的输入,或图像的输入以补充文本输入。然而,这些技术不能够将这些不同的输入能力整合为提供智能的替代物和/或补充经由移动设备的文本输入的上下文相关的方法。

确保额外的输入能力在帮助而非降低设备性能的生产方法中被调用以及用户与其交互是一项复杂的工作,这要求认真考虑光学输入可能有用的不同的上下文,以及捕捉和/或分析所述光学输入以完成上下文相关的智能整合移动设备摄像头作为输入的来源以接收来自用户的文本信息所提供的效益的适当的条件。

因此,提供被配置为补充和/或替代触觉和语音输入的新的方法、系统和/或计算机程序产品技术以作为接收用户输入和生成输出的机制是极其有益的,特别是全部或部分基于接收的输入和输入所接收的状态的上下文或输入被提供的目的而决定的输出。

附图说明

图1A例示了与一个实施例一致的、配置为接收用户输入的移动设备用户界面。

图1B例示了与一个实施例一致的、配置为接收用户输入的移动设备用户界面。

图2是根据一个实施例的一种方法的流程图。

图3是根据一个实施例的一种方法的流程图。

发明综述

在一个实施例中,一种方法包括调用移动设备上的用户输入界面;调用用户输入界面的光学输入扩展;通过移动设备的一个或多个光学传感器捕捉光学输入;从所捕捉的光学输入中确定文本信息;以及向用户输入界面提供所确定的文本信息。

在另一个实施例中,一种方法包括通过移动设备的一个或多个光学传感器接收光学输入;使用移动设备的处理器分析所述光学输入以确定所述光学输入的上下文;以及基于所述光学输入的上下文自动地调用上下文适用的工作流。

在另一个实施例中,计算机程序产品包括具有体现于其上的程序代码的计算机可读存储介质。所述程序代码可被处理器读取/执行以:调用移动设备的用户输入界面;调用该用户输入界面的光学输入扩展;通过所述移动设备的一个或多个光学传感器捕捉光学输入;从所捕捉的光学输入中确定文本信息;以及提供所确定的文本信息到用户输入界面。

本发明的另外的方面和实施例将从下述详细描述中变得明显,其在结合附图时通过例示本发明的原理的方式来阐述。

详细描述

下列描述是用于说明本发明的一般原理,并且不意味着限制此处要求的发明构思。进一步,此处描述的具体特征可以用于与其它描述的特征以各种可能的组合和置换中的每一种进行组合。

除非在此处另有特别的定义,所有的术语都被给出它们最广泛的可能的解释,包括说明书中隐含的解释以及本领域技术人员所能理解的含义和/或在辞典、论文等中所定义的。

还应该注意的是,在用于说明书和附加的权利要求书中时,除非另有说明,单数形式“一(a)”、“一个(an)”、“那个(the)”包括复数的参照对象。

本申请指由照相机,特别是移动设备的照相机捕捉的图像(例如图片、图形、图示的图表、电影的单帧、视频、电影、剪辑等)的图像处理。此处所理解的是,移动设备是任何能够接受数据而不具有经由物理连接的电力供应(例如电线、绳、电缆等)以及能够无需物理数据连接(例如电线、绳、电缆等)而接收数据的设备。在本公开中的范围内的移动设备包括典型的设备例如移动电话、智能手机、平板电脑、个人数字助理、设备等。

当然、此处提出的不同实施例可以利用硬件、软件、或其需要的任意结合来实现。就此而言,任意类型的能够实现此处提出的不同功能的逻辑都可被使用。

使用移动设备的一个优点是,具有了数据计划,相对曾经依赖扫描仪的方法而言,基于被捕捉的图像的图像处理和信息处理可以以更加方便、流线型以及整合的方式来完成。然而,因为多种原因,移动设备作为一个或多个文档捕捉和/或处理设备迄今为止一直被认为难以实施。

在一种方法中,图像可以由移动设备的照相机来捕捉。“照相机”这一词语应该被广泛地解释为任意类型的能够捕捉设备以外的物理对象,例如一张纸的图像的设备。“照相机”这一词语并不包含外部的扫描仪或多功能设备。任意类型的照相机都可以被使用。优选的实施例可以使用较高分辨率的照相机,例如8MP或更高,理想地12MP或更高。图像可以被捕捉为彩色的、灰度的、黑白的、或任何其他已知的光学效应。术语“图像”在此处被提及是意味着包括任意类型的对应于照相机输出数据,包括原始数据、被处理后的数据等。

如此处所讨论的,术语“语音识别”被认为是相当于或包含一些移动设备提供的允许音频输入向文本输出转换的所谓的“语音转文本”功能(再次例如“Siri”)。相比之下,此处讨论的创新的技术可以被称为“图像转文本”或“视频转文本”功能。

本领域的技术人员将领会的是,本发明的方面可以被呈现为系统、方法或计算机程序产品。相应地,本发明的方法可以表现为全部硬件的实施例、全部软件的实施例(包括固件、常驻软件、微代码等)或结合了软件和硬件方面的实施例的形式,其全部一般地在此处被称为“逻辑”、“电路”、“模块”、或系统。进一步地,本发明的方面可以表现为计算机程序产品的形式,具体为一个或多个具有计算机可读程序代码实施于其上的计算机可读介质。

所述一个或多个计算机可读介质的任意结合都可被利用。所述计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是,例如而不限于电子的、磁性的、光学的、电磁的、红外线的、或半导体系统、装置或设备,或上述的任意合适的结合。计算机可读存储介质的更具体的例子(非穷举的列表)可以包括下述的:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或前述的任意合适的结合。在本文档的文本中,计算机可读存储介质可以是任何能够包含或存储程序以便指令执行系统、装置、处理器或设备执行或与之结合的有形的介质。

计算机可读信号介质可以包括具有计算机可读程序代码执行于其中的数据信号的传播,例如,在基带中、作为载波的一部分、具有一根或更多电线的电气连接、光纤等等。这样的传播信号可以采取任意多种形式,包括而不限于电磁的、光学的、或其任意合适的结合。计算机可读信号介质可以是不是计算机可读存储介质并可以通信、传播、传输程序以便使用或与指令执行系统、装置或设备结合的任意计算机可读介质。

可以使用任何适当的介质传输实施于计算机可读介质上的程序代码,包括而不限于无线的、有线的、光纤电缆、RF等,或任意前述的合适的结合。

用于实施本发明的方面的操作的计算机程序代码可以写为一种或多种编程语言的任意结合,包括面向对象编程语言,例如Java、Smalltalk、C++或类似的以及传统的过程化编程语言,例如“C”编程语言或类似的编程语言。程序代码可以完全在用户的计算机上、部分在用户的计算机上、作为独立的软件包、部分在用户的计算机上以及部分在远程的计算机上或完全在远程的计算机或服务器上执行。在后一种方案中,远程计算机可以通过任意类型的网络与用户的计算机连接,包括本地局域网(LAN)或广域网(WAN),或可以与外部的计算机连接(例如,通过使用互联网服务提供商的互联网)。

根据本发明的实施例,本发明的方面在下文中参照方法、装置(系统)和计算机程序产品的流程图和/或框图进行描述。可以理解的是,流程图中的每个块和/或框图可以由计算机程序指令来执行。这些计算机程序指令可以用于通用计算机或专用计算机的处理器,或其他可编程的数据处理装置以生产机器,如此通过计算机的处理器或其他可编程的数据处理装置执行的指令创造实施流程图和/或框图或块中指定的功能/动作。

这些计算机程序指令还可以存储在能够指导计算机、其他可编程的数据处理装置、或其他设备以独特的方式运行的计算机可读介质中,如此存储于计算机可读介质中的指令生产一件包括实施在流程图和/或框图或块中指定的功能/动作的指令的产品。

计算机程序指令还可以加载于计算机、其它可编程的数据处理装置、或其他设备上以引起一系列操作的步骤在计算机、其它可编程的数据处理装置、或其他设备上执行以产生计算机实施的进程,如此在计算机或其他可编程的装置上执行的指令提供用于实施在流程图和/或框图或块中指定的功能/动作。

根据本发明的不同实施例,附图中的流程图和框图例示了系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。就这一点而言,流程图中的每个块或框图可以代表一个模块、段或代码的一部分,其包含一个或多个可执行的指令用于执行指定的一个或多个逻辑功能。还应该注意的是,在一些可选的实现中,标注在框图中的功能可能不以图中标注的顺序发生。例如,连续显示的两个块可能实际上同时被执行,或块有时可能以逆序被执行,取决于涉及的功能。还应该注意的是框图中的每个块和/或流程图,以及框图中的每个块和/或流程图的结合可以由专用的执行特定功能或动作的基于硬件的系统、或专用的硬件和计算机指令的结合来执行。

应用程序可以安装于移动设备中,例如存储于设备的非易失性存储器中。在一种方法中,应用程序可以包括执行移动设备上图像的处理的指令。在另一种方法中,应用程序包括发送图像到例如网络服务器的远程服务器的指令。在另一种方法中,应用程序可以包括决定是否在该移动设备上执行部分或全部处理和/或发送图像到远程站点的指令。

在一个一般的实施例中,一种方法包括调用移动设备上的用户输入界面;调用所述用户输入界面的光学输入扩展;通过所述移动设备的一个或多个光学传感器捕捉光学输入;从被捕捉的光学输入中确定文本信息;以及向所述用户输入界面提供确定的文本信息。

在另一个一般的实施例中,一种方法包括通过移动设备的一个或多个光学传感器接收光学输入;使用移动设备的处理器分析所述光学输入以确定所述光学输入的上下文;以及基于所述光学输入的上下文自动地调用上下文适用的工作流。

在另一个实施例中,计算机程序产品包括具有随之呈现的程序代码的计算机可读存储介质。所述程序代码可被处理器读取/执行以:调用移动设备的用户输入界面;调用该用户输入界面的光学输入扩展;通过所述移动设备的一个或多个光学传感器捕捉光学输入;从被捕捉的光学输入中确定文本信息;以及提供所确定的文本信息到用户输入界面。

在不同的实施例中,目前公开的方法、系统和/或计算机程序产品可以可选地利用和/或包括相关的2013年1月11日提交的美国专利No.8,855,375;2013年7月22日提交的美国专利No.13/948,046;2013年3月13日提交的美国专利出版物No.2014/0270349;2014年3月13日提交的美国专利出版物No.2014/0270536;2014年5月2日提交的美国专利No.8,885,229;和/或2014年3月19日提交的美国专利申请No.14/220,029中公开的任意功能。任意前述的专利申请通过引用合并于此。例如,在几个例示的实施例中,可以优选地分类从中获得文本信息的文档以在文档上执行数据析取;验证从文档中提取的文档或信息;在捕捉操作之前、之中或之后使图像数据经历额外的处理(例如提高图像质量)等,如本领域技术人员通过阅读本说明书所能理解的那样。

根据目前公开的算法,适合于处理的数字图像可以经受在上述专利申请中公开的任何图像处理操作,例如页面检测、矩形化、照度不匀的检测、光照补偿、分辨率计算、模糊检测、分类、数据析取、文档验证等。

在更多的方法中,目前公开的方法、系统、和/或计算机程序产品可以被利用、实施和/或包括一个或多个配置为辅助执行任何此处公开的和/或在前述的相关的专利申请中的功能的用户界面,例如在多个实施例中的图像处理移动应用程序、事件管理应用程序、分类应用程序、和/或数据析取应用程序。

在更多的方法中,目前公开的系统、方法和/或计算机程序产品可以优选地适用于一个或多个前述相关专利申请中公开的使用方法论和/或脚本,其将被本领域的技术人员通过阅读这些说明而领会。

将进一步被领会的是此处提出的实施例可以被提供为为了顾客提供自选服务而部署的服务的形式。

目前公开的发明构思涉及以一种智能的方式将光学输入整合到移动设备I/O的能力中,辅助对文本信息的精确和灵活的输入。这些构思将最为适用的典型的情景包括输入文本信息到文档、窗口、网页等,如本领域技术人员通过阅读本说明书所将理解的那样。有益地,目前公开的技术完成了文本信息的输入而无需忍受音频输入的固有的劣势(例如语音识别的低精确度)或通过虚拟移动键盘的触觉输入的固有的劣势(例如小的“键”尺寸导致的错误输入,使用预测性词典的不正确“修正”或自动更正功能等)。

最显著的是,本技术为用户提供优越的性能和便利性。优越的性能包括例如通过移动设备提供文本输入的提高的精确性和缩短的输入时间等特征(特别是当光学输入适用于多种上下文或域时)。在某种程度上,性能的优势归因于此处公开的发明方法配置为捕捉、分析以及提供来自光学输入的文本信息而无需依赖来自用户的触觉反馈。结果是,这些技术免受上述利用小型虚拟键盘的输入界面所常见的缺点。

同时,本技术提供超越目前的光学输入用于与文本输入结合的整合的优越性能。例如,参照上述包括构成和派遣包括文本输入和光学输入的信息的传统的方案,本技术有利地整合了移动设备的光学输入能力与文本I/O,如此用户不需要提供触觉输入以传达文本信息。

此外,光学输入可以以上下文相关的方式被捕捉、分析以及转换至文本信息。光学输入的上下文相关的调用、捕捉和分析将在下文以进一步的细节进行讨论。

移动虚拟键盘用户界面(UI)的光学输入扩展

根据包括功能的具体的移动操作系统,本公开的光学输入功能通过利用本地工具、程序、呼叫、部件、库等被提供以捕捉光学输入和触觉输入。通过这种方式,本技术代表了光学输入向文本的无缝集成,代表性地限于通过触觉或音频输入捕捉文本信息。

这种无缝集成显示了超越现有的原产自移动操作系统的光学和触觉输入捕捉能力的优点,因为这些现有的能力没有构想为了捕捉和提供文本信息的目的使用光学输入作为触觉输入的替换或补充。

最显著的是,即便传统的移动操作系统可以提供独立的光学输入捕捉能力和触觉输入捕捉能力,也不存在目前已知的技术能够整合光学输入作为通过移动设备接收、确定和/或利用文本信息的补充的和/或可选的技术。

而罕见的是,一些移动操作系统可以进一步提供分析被捕捉的图像数据和识别、定位和/或解释其中描述的文本信息的能力(例如通过光学字符标识(OCR)或其他类似的功能,如本领域技术人员所认识到的那样)。然而,这些罕见的实施例没有提出任何允许用户利用光学输入和分析结合的能力以有效地完成通过捕捉光学输入而输入文本信息的本地OS能力的整合。

例如,没有目前已知的技术允许用户输入文本信息例如以一种形式的域,直接通过捕捉光学输入描绘包含期望的文本信息或其他信息的可能被用于确定或获得期望的文本信息的标识符。“其他”信息可以包括本领域技术人员通过阅读本说明书所能理解的对获得或确定期望的文本信息有用的任意类型的信息。

一般而言,在本光学输入扩展和对文本敏感的调用应用程序中适于提取的标识符可以包括可能对执行商业工作流的进程例如保险索赔或申请;账单支付进程例如开发票;导航进程;通信进程;追踪进程;金融交易或工作流例如税务申报或结单回顾;浏览进程;许可或顾客车载进程等有用的任意类型的识别信息(优选地为文本信息),如本领域技术人员通过阅读本说明书所能理解的。而合适的标识符可以一般地包括任意类型的识别适用于上述典型的实施例的信息,应该理解的是几种类型的信息特别有助于选择应用程序,例如访问某一特定资源或完成特定工作流所必要的唯一标识符。

因此,不同的实施例中提取的标识符优选地包含任意一个或多个电话号码、完整的或部分的地址、全球资源定位符(URL)、车辆识别号码(VIN)、车辆制造/型号/和/或年份、社会安全号码(SSN)、产品名称或编码(例如通用产品代码(UPC)或库存单位(SKU)或其他类似的通常描述在发票上的文本信息;保险集团数量或保单号码、保险提供者姓名、人的姓名、日期(例如出生日期或到期日)、(优选为手写的)署名等,如本领域技术人员通过阅读本说明书所能理解的。

类似地,可以使用任何合适的技术获得或确定“其他信息”,包括已知技术例如查找操作、反向搜索、身份验证等,如本领域技术人员通过阅读本说明书所能理解的。

当然,为了使用当前可获得的技术完成这一结果,用户将需要通过手动调用本地OS的分离的功能来执行一系列单独的步骤(例如下述关于使用当前的技术所需要的十二步的常规程序)。

通过“扩展”,本公开涉及包括于移动设备的另外存在的特征中的一种功能。再次根据接收音频输入结合或代替触觉输入的典型方案,上述描述为图形的扩音器“按钮”可以被认为是移动虚拟键盘用户界面的音频扩展。与此相反,要求被用户独立调用的独立应用程序、功能或特征(例如调用所述应用程序、功能或特征而不与具有移动操作系统的标准用户界面之一交互)不被认为是现存功能的扩展。

在优选的实施例中,所述光学输入扩展配置为辅助用户在捕捉光学输入期间无缝地贯穿用户界面提供的复数域(例如网页、应用程序、窗口、域等)操纵。在一些方法中,这一功能可以被体现为包括于光学输入捕捉界面的“下一个”或“结束”按钮、手势、符号、选项等。

实际上,根据一个示例性的方案,用户可以希望捕捉对应于文本信息的数据用来输入到窗口、网页等的多个不同域。响应用户的“焦点”在数据输入域(可以是呈现于用户界面上的多个这种数据输入域中的第一用户输入域)上,例如通过点击、敲击、悬停、选择、标记所表明的,以与数据输入域交互,包括光学输入扩展的本地的用户输入/虚拟键盘界面被调用。

用户可以与第一数据输入域交互、调用所述光学输入扩展,例如通过点击虚拟键盘上显示的“照相机”按钮。响应所述光学输入扩展的调用,用户可以被呈现包含被捕捉的光学输入的“预览”的捕捉界面(例如实质上表示照相机或其他光学输入设备的“取景器”)。优选地,光学输入扩展的“预览”和捕捉能力可以被利用而无需根据用户与之交互的数据输入域的显示从浏览器、应用程序等转换移动设备的焦距。

换言之,此处描述的虚拟键盘界面的光学输入扩展优选地为一种允许用户定位数据输入域、调用光学输入扩展、通过所述光学输入扩展捕捉光学输入、以及使用从被捕捉的光学输入中确定的文本信息填充一个或多个光学输入域的无缝集成功能。优选地,前述进程的全部是“无缝的”,由于用户可以完成所有组成的功能而无需利用例如通过移动设备的多重任务处理能力或使用配置为在移动设备上可执行的独立的应用程序之间“复制和粘贴”数据的剪贴板等,如本领域技术人员通过阅读本说明书所能理解的。

在用户与之交互的浏览器页面、应用程序等包括多个数据输入域的场景中,用户可以优选地利用通过光学输入扩展提供的额外的功能操纵于所述多个数据输入域之间。以这种方式,用户可以通过针对所提供的数据域的全部数目的期望的子集捕捉光学输入而有选择地利用光学输入扩展输入文本信息。类似地,用户可以利用所述光学输入扩展连续地输入多个数据输入域的任意数目的文本信息。

优选地,在多个数据输入域之中的用户导航通过光学输入配置的按钮或手势来完成。示例性的实施例可以使用例如“下一个”或“前一个”按钮,以配置为解释一个或多个滑动或多点触摸手势以在多个数据输入域之间导航。甚至更优选地,所述光学输入界面还包括用户可以用来终止或表明光学输入捕捉进程完结的功能。例如,在一些实施例中用户输入界面可以包括“最终”按钮、“结束”或“完成”按钮等,以允许用户终止光学输入捕捉进程,以及优选地重新开始与浏览器页面、应用界面等的交互。

因此,在至少一些实施例中,目前公开的发明构思是将光学输入能力直接整合到移动操作系统具有的现存的界面中。光学输入能力作为该虚拟键盘用户界面的一个扩展被特别地整合到移动操作系统具有的本地虚拟键盘用户界面之中。

本技术因此不同于可能试图低效地将现有的例如通过分离的(即非整合的)移动设备照相机传输的能力与虚拟键盘用户界面部件“缝合”在一起的方法。简单地利用将触觉输入与通过完全分离的界面、功能、应用程序等接受的光学输入结合的技术使输入复杂化而非促进了输入的简单化和准确性。

例如,一种配置为捕捉光学输入和分析该光学输入以确定文本信息的存在(以及可选地确定和/或输出所描述的文本)的独立的应用程序或功能不能以上下文相关的方式执行这种光学输入的捕捉和/或分析。例如,所述独立的应用程序、功能等不配置为产生特定的域的上下文中的期望的文本信息或形成显示于,例如所述独立的应用程序、功能、特征等不配置为首先实施的网页上。

结果是,用户可能不得不调用几种独立的进程,并参与每个进程所需要的全过程。例如,没有本公开的光学输入和触觉输入的整合,用户尝试一项使用传统技术的类似的进程将需要从事一项调用执行使用多个分别被用户安装、配置、调用以及执行的独立进程的分离的功能的过于累赘的和相当差的进程。

上述示例性的传统进程实质上如下所述进行:

(1)调用一项移动网页浏览器应用程序(例如iOS的Safari);

(2)使用该移动设备网页浏览器导航到需要文本信息的网页;

(3)关闭或暂停该手机浏览器应用程序;

(4)调用一项分离的光学输入功能(例如“照相机”功能);

(5)通过该分离的光学输入应用程序捕捉包含期望的文本信息的光学输入;

(6)关闭或暂停所述光学捕捉应用程序;

(7)调用一项分离的光学分析功能(例如OCR应用程序);

(8)使用该分离的光学分析应用程序分析被捕捉的光学信息以确定其中描述的文本信息;

(7)从被确定的文本信息中定位期望的文本信息;

(8)从被确定的文本信息中选择期望的文本信息(或等效地取消选择、删除或相反放弃所有不想要的文本信息);

(9)复制期望的文本信息(例如使用移动设备的“剪贴板”或等效地简单地通过用户记住期望的文本信息);以及

(10)关闭或暂停该光学分析应用程序;

(11)调用或重新开始关闭的/暂停的网页浏览器应用程序(如果该网页浏览器被关闭而不是暂停,必须如上述步骤(2)中的重复导航到网页浏览器);以及

(12)以来自步骤(2)中的网页的合适的域粘贴(或也可以再现)期望的文本信息,以上。

前述的涉及多个独立进程的使用的方案也许甚至不可能,例如,如果特定的移动设备不支持必备的多重任务处理能力或不具有足够的系统资源以有效地在完成期望的结果所需要的独立的应用程序之间“转换”。

相比而言,利用整合的光学输入和通过虚拟键盘用户界面的光学输入扩展的触觉输入功能的示例性进程将有效得多(既有关于系统资源的消耗还有从用户的便利和时间的视角来看,如根据图2中方法200中的一个实施例所述。

方法200可以在任何环境中执行,包括图1A-1B中所描绘的那些,以及本领域技术人员通过阅读本说明书所能领会到的任何其他合适的环境。

在操作202中,在移动设备上调用一个用户输入用户界面(UI)。

在操作204中,调用所述用户输入UI的一种光学输入扩展。

在操作206中,通过移动设备的一个或多个光学传感器捕捉光学输入。

在操作208中,从被捕捉的光学输入中确定文本信息。

在操作210中,被确定的文本信息被提供给用户输入UI。

方法200可以包括此处公开的任意一个或多个附加的或可选的特征。在不同的方法中,方法200可以额外地或可选地包括功能例如从光学输入到用户输入UI的选择性的识别、标准化、验证以及提供。

所述用户输入界面优选地调用于对发现用户与配置为接收文本信息的用户界面元素交互的响应。在这种方法中,所述方法可以有利地包括分析所述光学输入以确定文本信息。因此,所述分析可以包括一个或多个光学字符识别(OCR)的执行;在基于所述OCR确定的文本信息中识别期望的文本信息;以及有选择地向用户输入界面提供期望的文本信息。

优选地,期望的文本信息包括多个标识符,并且每个标识符相当于多个配置为接收文本信息的用户界面元素中的一个。在一些实施例中,部分或全部的标识符包括所述用户界面元素中的一个所要求的文本信息。因此,其有利于确定标识符中的哪一个包括这种要求的文本信息以及有选择地向适当的用户界面元素提供每个相应的标识符,优选地以适当的格式。

这非常有利于全部的用户体验,以提供自动纠正OCR错误的功能,例如,以确保被捕捉的内容的精确的复制,以及确保信息以被工作流期望的方式适当的格式化。因此,在一些方法中,所述方法包括一个或多个验证和标准化至少一个所述标识符以符合一个或多个期望的期望的文本信息的预期格式以及期望的文本信息的预期的值的范围是有有利的。

在不同的方法中,验证可以包括从适用于所述一个或多个标识符的补充文档到商业规则中确定一个或多个参考内容。这一判定优选地基于对应于所述一个或多个标识符的元素,并且所述验证基于一个或多个参考内容和商业规则。类似地,标准化可以包括包括从用户所调用的补充文档、商业规则、和/或元素中确定格式。

在更多的实施例中,所述方法还可以包括一个或多个验证(即校核内容和/或格式的精确度,例如针对参考内容)以及标准化(即修正格式或显示以匹配期望的格式或其他商业规则等)期望的文本信息以符合期望的文本信息的某一或全部的格式以及期望的文本信息的期望的数值范围。这辅助修正了OCR错误,以确保被捕捉的文本的精确的复制以及信息以工作流所期望的方式适当的格式化。在一些实施例中,验证和标准化是基于来自补充文档和商业规则的一个或多个参考内容。因此,所述方法还可以包括基于用户与之交互的元素来确定所述一个或多个补充文档和商业规则。

在一些方法中,光学输入扩展与被调用的输入界面的呈现同时呈现。优选地,所述用户输入界面包含显示于移动设备上的虚拟键盘,其包括显示在所述虚拟键盘上的照相机按钮。

所述方法可以附加地或可选地包括自动地调用光学输入捕捉界面以响应检测到光学输入扩展的调用。

在不同的实施例中,所述方法可以附加地或可选地包括在捕捉光学输入之前预分析光学输入。预分析包括的操作例如:检测在所述光学输入中描述的对象;确定在所述光学输入中描绘的对象的一个或多个特征;以及至少部分基于所确定的特征确定一个或多个分析参数。所述一个或多个分析参数优选地包括OCR参数。

虽然上述例子参照用户与手机浏览器交互提出,本领域的技术人员将领会的是,原则上本公开的发明构思适用于任何用户与任何数据输入域交互,在不同的实施例中,无论是通过手机浏览器、移动设备操作系统功能、第三方应用程序、本地OS应用程序等呈现。

如根据上述示例性的方案所演示的,本公开的技术可以将完成一个优秀的结果所要求的单独的动作的数目减少了至少两倍。当考虑到下述关于上下文独立的调用、光学输入的捕捉和分析所讨论的额外的优点时,熟练的技术人员将领会到此处讨论的发明技术相反于利用传统技术所带来的显著的优点,即能够完成本公开中描述的一个或多个组成的动作但绝不能带有将这些功能整合为具有出众能力和性能特点的统一的程序所获得的的性能优点。

光学输入的上下文相关的调用、捕捉和分析

在优选的方法中,本公开的发明的光学输入技术可以利用关于数据将要被输入到的光学或文本信息、数据输入操作、格式、自动等的的上下文信息,如本领域的技术人员通过阅读本说明书所能理解的。

尤其有利的是,使用光学输入而非文本输入来捕捉特定类型的文本信息。光学输入的上下文相关的有利的选择作为数据输入的优选形式可以包括在触觉或音频输入可能有问题的情况下优先地捕捉光学输入。

例如,当文本信息不遵循任何确定的协定或规则组时(例如代表性地被预测性的词典所利用)则尝试通过触觉或音频输入来输入文本信息(例如在移动设备虚拟键盘界面上“键入”、读或背诵所述文本信息等)易于出错的。预测性的词典或声音识别功能可能为了执行一个或多个不适用的约定或规则而错误地“纠正”或翻译用户提供的输入。

在更多的实施例中,在光学输入可以优选地要求文本信息的大量的和/或复杂的收集。例如,如果通过他们的移动装置参与一项活动的用户希望完成具有要求不同类型的文本信息的几个域的窗口,并且部分或全部文本信息被描绘于一个或多个文档上,则通过捕捉包含描绘该文本信息的文件的图像的光学输入来确定或获得所述文本信息可能比要求用户手动地输入期望的文本信息的每一单独片段更为有利。

类似地,根据其上下文来分析光学输入可能是有利的。例如,在一种方法中,用户可以利用一个文档作为将要通过光学输入提供的文本信息的来源。所述文档可以采用任意形式,并且可以显示独特的特征,象征该文档术语一个预先确定的文档的分类(例如信用卡、信用报告、驾驶员的执照、财政报表、税务单等,如本领域技术人员通过阅读本说明书所能理解的)。进一步的,全部或部分由于这些独特的特征,使用预先确定的已知的分析参数、设置、技术、假定来分析描绘属于所述预先确定的分类的文档的光学输入以为了该文档的分类产生理想的分析结果可以是有利的。

例如,使用预先确定的已知的设置来分析光学输入以针对描述具有独特颜色轮廓的文本信息的或具有独特颜色轮廓的背景的文档产生特别优异的结果可以是有利的,特别是如果这种颜色轮廓是不标准的(即不是黑色和白色)颜色轮廓时。

类似地,如果一个文档分类是由文本信息的已知的维度、已知的方位、已知的布局或组织等来定义,则利用配置为为这些布局、组织、方向等产生优秀的分析结果的分析参数、设置等可以是有利的。

此外,利用配置为分析代表为独特的字体或类型的独特分析参数可以是有利的,例如,利用该字体的已知的特征,例如每个可能的字符的平均字符宽度、高度、预期的大小等,如本领域技术人员通过阅读本公开所理解的。

在不同的实施例中,所使用的预先确定的分析参数、设置、技术等,优选地包括一个或多个OCR参数、设置、技术等。

因此,更为优选地是在一些方案中包括配置为在捕捉所述光学输入前执行呈现给一个或多个移动设备光学传感器的光学输入的预分析的功能。例如,在优选的实施例中一旦调用了一个捕捉界面(不论是自动地、响应命令捕捉界面的调用的用户输入、还是其他的),移送设备可以确定所述光学输入的特征,包括但不限于是否所述光学输入包含可识别的对象或多个对象,并且理想地是任意这种被检测到的一个或多个对象的身份或分类。基于这种预分析所达成的确定,预先确定的已知的捕捉设置为随后可能采用的分析产生理想的光学输入。

在更多的方法中,可以基于判定自或基于用户与之交互以调用用户输入界面(例如其虚拟键盘和/或光学输入扩展,在不同的实施例中)的网页、应用程序、窗口、域等的上下文的信息分析光学输入。例如,以及将被本领域技术人员所理解的是,现存的技术允许用户界面限制用户可能为该用户界面提供的输入,例如,通过有选择地调用受限的输入界面(例如,用于输入出生日期或社会安全号码的由数值的特征组成的界面、用于输入“名字”的由字母的特征组成的界面等)。

在一种类似的方式中,此处描述的光学输入扩展可以影响、确定或限制用于分析使用该扩展捕捉的光学输入的分析参数。在示例性的方案中分析包括光学特征识别,例如,用于域只接收数字的参数的分析参数可以包括限制为数字符号的OCR字母表,或相反地限制为字母的OCR字母表使域只接受字母的特征。在优选的方法中,所述光学输入扩展可以自动地以及透明地基于所述可接受的输入的类型、格式等为一个给定的数据输入域定义分析参数,并且可以直接执行所述定义以响应接收为该特定域识别一类可接受的输入的指令,一旦用户与所述数据输入域交互。举例而言,在一种方案中,例如,用户与一个期待电话号码作为输入的可填充的数据输入域交互。然而按照传统的例子,与这一数据输入域交互的用户被提供了由数字0-9组成的键盘,根据此处公开的发明构思,与同一数据输入域交互并利用此处所述的光学输入扩展的用户可以使用包括限于数字0-9的OCR字母表的分析参数。

在根据前述的实施例的说明性方案中,用户可以使用移动设备导航到网页、窗口、手机应用程序等。用户可以与呈现在网页上的一个或多个可填充的域、网页浏览器的导航栏或用户与之交互的接受文本信息作为合适的输入的介质的任意其他元素交互。作为对检测到这一交互的响应,和/或对来自用户的输入的响应,移动设备可以调用实质上代表了“照相机”应用程序的光学捕捉界面,例如,如代表性地在传统的移动设备中包括的本地OS功能。

一旦调用了光学捕捉界面,移动设备显示器表现描绘移动设备光学传感器的视野的“取景器”,优选地在实时或近实时。所述移动设备可以对用户输入作出响应或(优选地)以对用户透明的自动方式执行上述的利用移动设备光学传感器接收的光学输入的预分析(例如,用于生成取景器显示器的光学输入)。

在特别优选的方法中,所述预分析可以包括识别光学传感器的视野的一部分中描述的任意文本信息(例如一个限位框)并显示任意被识别的文本信息的预览。甚至更优选地,被识别的文本可以显示在用户与之交互以调用用户输入界面和/或其光学输入扩展的数据输入域中。

在更多的方法中,目前公开的方法、系统、和/或计算机程序产品可以与之一起使用、在其中实施和/或包括一个或多个配置为促进接收用户输入和产生相应的输出的用户界面。所述一个或多个用户输入UI可以以标准的UI的形式包括于移动设备操作系统,例如与标准的SMS信息传送功能和应用程序一同使用的键盘界面、浏览器应用程序等;一个例如与标准的电话功能和应用程序一同使用的数字键盘界面,或任意其他配置为接收用户输入的标准的操作系统UI,特别是包含或对应于文本信息的输入(即包含在屏幕的不同位置轻敲或可以转换为文本信息的讲话的用户输入)。

例如在图1A中所示,用户输入UI 100包括导航UI 110、窗口或页面120、以及键盘UI 130。每个UI 110、120、130可以是通过移动设备操作系统、或移动设备操作系统中包括的标准的浏览器或手机应用程序提供的标准的UI,或者也可以通过单独安装的独立的应用程序提供。独立的应用程序实施例优选地应归于有效地将上下文相关的功能和捕捉/提取功能的能力整合整合为无缝的工作流和用户体验。

继续参考图1A,在本申请的上下文中,通过用户输入UI 100所辅助的工作流、导航UI 110包括导航元件112,例如手机浏览器的地址栏、前进和/后退按钮(未示出)以帮助在工作流的各个阶段之间导航等,如本领域技术人员通过阅读本发明书所能理解的。

工作流的窗口/页面120包括多个域122-128,其优选地配置为接收多个标识符(可选地如文中所述标准化的和/或经过验证的)从工作流的捕捉和提取操作中输出。如图1A所示,域包括城市域122、邮政编码域124、电话号码域126和州域128。当然,在窗口/页面120中也可以包括额外的域并且用户可以使用本领域技术人员通过阅读本发明书所将领会的任意合适的技术航行于窗口/页面120周围以有选择地显示其不同的域。

此外,每个域可以为了作为对其输入的接收的文本信息与期望的格式和/或数值或数值范围相关联。例如,城市域122可以期待一串以大写字母开头并跟着多个小写字母的字母字符,可选地包括一个或多个空格或连字符,但不包括数字或其他特殊的字符。相反地,邮政编码域124可以期待包括数字以及可选的连字符或空格的一串五个数字或十个字符。邮政编码域124可以进一步期待十个字符的字符串服从一种特定的格式,例如“#####-####”。类似地,电话号码域126可以期待七个数字以及可选地一个或多个空格、括号、句号、逗号和/或连字符。电话号码域126还可以期待输入其中的文本信息服从对应于几种标准的电话号码格式之一的掩饰,例如美国的“(XXX)###-####”,或其他根据该设备所使用的区域的相应的一直管理。州域128可以期待两个字符的字符串的大写字母。当然,其他域可以类似地关联期待的格式和/或数值或数值范围,根据已知的惯例、标准等,关联于用于接收到其中的输入的信息。

用户可以使用任意方式与域122-128之一交互,例如通过轻敲对应于该域的移动设备显示器上的区域,以及作为响应键盘界面130可能被调用。可选地,如果所述域不接受用户定义的文本信息,键盘界面可能不被调用,例如,在下拉菜单域的情况下,例如州域128。对于不接受用户定义的文本信息的域来说,用户与该域的交互可以由光标121来指示。用户与一个特定域的交互还可以调用或安排工作流的上下文相关的元件,例如,配置为应用特定商业规则、执行校验、文件分类等的元件,在这里描述进一步的细节。

键盘界面130可以有选择地包括字母字符集(例如图1A中显示的对用户与城市域122的交互的响应)或数字/符号字符集(例如图1B中显示的对用户与邮政编码域124的交互的响应),基于与用户交互的域的上下文(例如输入到该域的文本信息的期望的数值或数值范围)。优选地,键盘界面130包括配置为辅助用户将文本信息“键入”域中的多个键132,以及配置为使用移动设备的I/O元件执行一个或多个操作的功能按钮134,例如移动设备的麦克风和/或照相机。

一旦调用了键盘界面130,并且如图1A中所表现的,所述键盘界面130的功能按钮134(例如一般地与声音捕捉或语音转文本功能关联的按钮,如图1B所示)可以与用户交互以调用手机应用程序或工作流的光学输入扩展。实际上,所述光学输入扩展调用一个捕捉界面并启动捕捉和提取操作(可选地包括校验、分类等),如下文描述的进一步细节。

附加地和/或可选地,所述光学输入扩展可以与键盘界面130分开显示,例如,作为在窗口/页面120中的分离的按钮136,一般地如图1B所描述的。

在一种方法中,文档中的图像可以被移动设备捕捉或接收,并且图像处理操作例如光学字符识别(OCR)可以在该图像上执行。在更多的方法中,用户将鼠标悬停于移动设备在一个文档中并且标识符通过OCR直接从视频中提取不需要单独调用的捕捉操作。部分或全部基于OCR结果,标识符,并且优选地为唯一标识符可以从图像中被提取。

标准化、验证

被提取的标识符可以与参考内容对比或鉴于一个或多个商业规则被分析。所述参考内容和/或商业规则优选地本地地存储在移动设备上以辅助有效的比较和/或分析,并可以以任何合适的形式提供。

在大量的方法中,参考内容可以表现为从中提取文档标识符的文档的补充文档的形式。补充文档可能包括文档、文件、或任何其他适当的文本信息的来源,被提取的标识符可能会对其执行一个简单的比较。例如,在一个优选的方法中,手机应用程序包括其中具有一个或多个补充文档的数据存储,每个补充文档对应于至少一个用于所述手机应用程序的一个或多个工作流的标识符或标识符的类型。

所述补充文档可以包含标识符,例如,可以是获得并存储于数据存储中,基于之前的使用移动应用程序的捕捉和提取操作。有利地,所述补充文档可以包含描述标识符的文档的经处理的图像,所述处理配置为针对数据提取的目的改善图像的质量(例如通过基于颜色配置文件、投影效果的修正、方向修正等等的自定义二值化)。文档图像可以作为校验工具以确保从在手机应用程序或特定的工作流的后续调用中成像的文档中提取的标识符准确性。当然,当补充文档只包含经过验证的标识符,例如已知是准确的一串字符、符号、或标识符,类似的功能可以实现。

在附加的和/或可选的实施例中,商业规则可以表明被提取的标识符的期望的格式,并且可以进一步包括关于如何有选择地提取所述标识符的规则(例如使用基于文件的特定颜色轮廓的OCR参数、限制为之搜索标识符的文档中的位置),和/或修改被提取的标识符以匹配期望的格式,例如使用掩蔽(mask)、正规表达式、例如通过改变OCR字母表修饰OCR参数以排除特定的符号或字符集等,如本领域技术人员通过阅读本说明书所将理解的。

在一种方法中,商业规则可以表明,在一个特定的工作流的上下文中,只需要或要求被适当地认为是在本公开的范围中的标识符的信息的一部分。例如,一个工作流可以仅仅要求一个地址的邮政编码、仅仅社会安全号码或信用卡号码的最后四位、仅仅一个日期的月和年、仅仅发票上的行项目的一部分、例如价格或产品代码但非二者兼有,等等,如本领域的技术人员通过阅读本说明书所理解的。

利用商业规则与本公开的发明构思的一个特别的优势是,应用于特定的提取操作的特定的商业规则可以是上下文敏感的,并且因此自动地确定应用于一个提取尝试的商业规则。

为了说明,以及自动地纠正OCR错误,在一些方法中可以纠正被提取标识符。例如,优选地,使用来自补充文件的文本信息和/或预先确定的商业规则来纠正被提取的标识符。

在这一背景下,预先确定的商业规则可以优选地包括用于处理数据的面向商业的标准/条件,例如为可接受的可能应用纠正的错配的数目(例如纠正可以被应用到少于字符数的最大阈值或字符数的最大百分比的错配等,纠正可能只被应用到符合于预定义的一组“可接受的”错误的错配,例如数字“1”代替字母“l”,反之亦然,包括破折号“—”代替连字号“-”等),以及其他的面向商业的标准/条件,如本领域的技术人员通过阅读本说明书所理解的。

附加地和/或可选地,可以修改被提取的标识符。例如,使用本技术可以自动地处理由于OCR错误所引起的差异。在一个实施例中,根据商业规则,标识符以预定的格式被提取。例如,在例如信用卡的投标文件的上下文中,该标识符可以是预期为 16位的数值格式的账号,匹配“####-####-####-####”,如典型地在传统的信用/借记卡上所见到的,或是“MM/YY”格式的截止日期等,如本领域的技术人员通过阅读本说明书所理解的。

在更多的实施例中,被提取的标识符可以被精确地提取,但尽管如此被呈现为与预期不同的格式(例如,所述标识符可以包括或不包括预期的符号或格式化,例如空格、破折号或不允许的字符(例如日期中的月份名称,例如“一月(Jan)”或“一月(January)”包括字母字符,而预期的格式是严格地数字的,例如“01”)。

这一性质的差异可以利用数据标准化功能来自动地解决。在一些方法中被提取的标识符包含日期,存在有限集的合适的格式可以表达该日期,例如01一月,2001;一月 01,2001,01/01/01,一月.1,01等,如本领域的技术人员通过阅读本说明书所理解的。其他类型的标识符日期可以类似地表达为有限数的格式,包括账号(例如格式为####-####-####-####,################,################的传统的16位账号等),持卡者姓名(例如,名,姓;名,姓,中间名首字母(MI);名姓;名MI.姓;等),安全码(例如,三位数字或四位数字,包括字母和数字二者的字母数字字符串,等)等,如本领域的技术人员通过阅读本说明书所理解的。

基于为标志符数据定义预期的格式或有限集的可能的格式的商业规则,本公开的技术可以配置为自动地标准化从图像化的金融文档中所获得的数据(例如通过提取),以一种从金融文档中获得的数据匹配相应数据的例如被包含/描述在补充文件的文本信息中的期望的格式的方式。例如,一旦确定被提取的数据例如一个日期是以一种特定的格式(例如一月 01,2001)而非被期望的格式(例如MM/YY),则将被提取的数据从该特定的格式转换为期望的格式是有利的,允许在来源于图像的标识符数据各来自补充文档的相应的文本信息之间的简便的和精确的匹配。

在其他的例子中,利用迭代方法实现数据标准化是有益的。例如,在一个实施例中,第一迭代如上所述大体地操作—从文档的图像中提取标识符并将提取的标识符与来自一个或多个数据源的相应的数据进行对比(例如,来自补充文档、数据库记录和预定的商业规则的文本信息等)。然而,第一迭代对比没能在被提取的标识符和来自一个或多个数据来源的相应数据之间产生任何匹配。在一些方法中,所述不匹配可能是OCR错误的结果,而不是数据化的文档上的标识符和来自一个或多个来源的相应数据之间真的不匹配。

在一些方法中,该种类的OCR错误可以通过确定对应于该标识符的数据的一个或多个特征来纠正。在一个实施例中,第一OCR迭代可以以不被接受的格式提取标识符(例如,数据没有被正确地标准化)和/或以一种方式执行所述OCR,这样被提取的标识符包含一个或多个OCR错误。结果是,被提取的标识符不能匹配在一个或多个数据来源中的任何相应的数据,尽管事实上如文档上描述的“真正的”标识符实际上匹配至少部分相应的数据。这一多样化的伪阴性结果可以通过基于标识符特征修饰OCR运算的参数、规则和/或假设来减轻或避免。

例如,在一个实施例中一个标识符被提取,并且与来自一个或多个数据来源的相应数据对比。包含被提取的标识符的字符串不匹配任何在相应的数据中的帐号。响应于未能识别数据来源中的任何相应的数据,被提取的标识符被进一步分析来确定其特征。

在一种方法中,被提取的标识符可以与多个预定义的标识符类型(例如“名”、“姓”、“账号”、“截止日期”、“密码”等)进行对比以确定被提取的标识符是否显示了任何符合预定的标识符类型之一的一个或多个特征。例如,可以对比被提取的标识符和预定义的标识符类型以确定关于数据格式和/或数据值的相似之处的存在。

在一些方法种,适合这样的比较的示例性的标识符特征包括字符串长度、字符串字母(即可能会形成标识符的一组字符,如“字母”、“数字”、“字数”、等等),对某一特定类型的标识符常见的一个或多个可识别的模式的存在、或如本领域的技术人员通过阅读本说明书所理解的任何其他特征。在优选的方法中,标识符特征可能包括任何可以使用已知的模式匹配工具,例如正则表达式来识别的模式。

附加地和/或可选地,标识符类型可以全部或部分基于一个或多个文档特征来确定,例如:从中提取该标识符的文档中的位置;从中提取该标识符的文档的分类(例如公开于相关的2013年3月13日提交的美国专利申请No.13/802,226,2014年9月18日出版为美国专利出版物No.2014/0270349,并通过引用被合并于此);和/或位于相邻、以上、以下或相反空间地邻近于该文档上的标识符的数据的特征等,或如本领域的技术人员通过阅读本说明书所理解的。例如,在一个优选的实施例中,标识符特征可以基于从中提取标识符的位置位于描绘相关信息的数据之下而判定,例如一个位于街道地址线之下的标识符,其代表性地符合于城市、州、和/或邮政编码,特别是在描述邮寄地址的文档中。在另一个优选的实施例中,可以基于从水平地临近于相关数据的地址中提取的标识符来确定标识符特征,例如通常是分别如示例性的信用卡和借记卡文档所描述的截止日期或帐号。

在一种说明性的方法中,分析被提取的标识符,并确定其具有“支付金额”标识符类型的特征。特别地,被提取的标识符:展示一个或多个示例性的“支付金额”字符串长度(例如六个字符);字符串字母表(例如字母、数词、以及货币符号);和/或图案(例如货币符号字符例如“$”,“£”,或“€”,接着是两个数字的字符、小数点或句号符号“.”和两个额外的数字的字符,例如“$19.99”“£10.00”或“€01.23”等)。在其他的方法中,所述标识符可以被确定为展示例如只包含由数位表达的字符的特征,例如一个地址的街道或房间号码等。

一旦确定了所述标识符特征,可以分析被提取的标识符以确定是否违反了任何描述所述标识符的一个或多个惯例或特征,其可能表示在不同的实施例中被提取的标识符包括OCR错误、不正确的数据规范化、或二者兼有。在一个例子中,被提取的标识符未能基于其间的第一对比而匹配一个或多个数据源中的任何相应的数据。响应于该匹配失败,分析被提取的标识符并确定其为标识符类型“账号”,至少部分基于被提取的字符串是十六位的长度。进一步分析被提取的字符并确定其违背了“账号”的特征。该分析揭示了账号字符串由数字的字符组成,被提取的字符包括非数字的字符,例如,因为被提取的字符串中的一个字符被错误地确定为字母“B”代替了数字“8”,字母“l”代替了数字“1”,字母“O”代替了数字“0”等等,如本领域技术人员通过阅读本说明书所将理解的。

至少部分基于建立一个或多个字符串特征,所述OCR错误可以使用第二OCR迭代来纠正。在前述的、账号错误地包括字母字符代替了数字的例子中,OCR引擎可以被限制为完全由数位组成的候选字符的字母表。反过来,限制OCR字母表的决定是基于预定的应用于账号格式的商业规则,即账号由数位组成。因此,所述第二迭代适当地识别标识符中的数字“8”,而非错误地从第一迭代中确定的字母“B”。优选地,标识符遵守至少一个商业规则,例如上文所述。更优选地,所述一个或多个商业规则可以表示成至少一个逻辑表达式(例如规则、公式、模式、惯例、结构、组织等,或由此的任意数目或结合)。

本领域的技术人员将领会到,类似地商业规则可以通知OCR进程关于如何在各种情况中定义被提取的字符串不同于上文例示的数字/字符区别。

例如,在一个实施例中一种商业规则可以表明应当使用一个特别的符号的字母表,例如,与更完整的或不同的符号的字母表相反。所述商业规则表明账号遵循包括连字号字符(即“-”),但不包括破折号字符,(即“—”)、下划线字符(即“_”)、和空格符号(即“”)的惯例。因此,如果第一迭代没有成功地提取匹配相应数据的标识符等,在补充文档中,可以根据商业规则中反应的期望使用更受限制的字母表执行第二迭代以标准化提取结果。

示例性的上下文相关的工作流使用案例

例如,在手机应用程序或工作流中工作的用户可以与该应用程序、网页等中的一个域交互,以及可以基于所述特殊的域将独特的商业规则应用到随后的捕捉和提取工作中。例如,要求ZIP码的域(例如图1中的域124)可以表明或调用一种商业规则,其中被提取的标识符应该具有5个(或9个)数字的格式,所有的字符应该是数字化的(或包括连字符),并且临近5个(或9个)数字字符串的字母字符不应该被包括于被提取的标识符中。因此,用户与这一特殊的域的交互可以提供合适的商业规则的上下文敏感的确定以应用在随后的来自文档的标识符的捕捉和提取中。

以这种方式,用户可以有选择地只从描述全街道地址的文档中捕捉ZIP码,并填充相应的手机应用程序或工作流的ZIP码域,不需提供向移动应用程序或工作流提供任何指示以及无需向域输入任何文本信息。

同样地,商业规则可能部分或完全基于考虑到移动应用程序或工作流程的文档的上下文。例如,在与上述类似的情况下用户可能与一个期待邮政编码的窗口或网页页面交互。然而,所述窗口或页面还包括要求不同信息的其他的域,例如电话号码、一个地址的城市或州、名字、社会安全号码、截止日期、信用卡号码等。与用户交互的域可能是在单一文档上(例如驾驶员的执照、账单、信用卡等)要求其他信息的窗口/页面的一部分的这一事实可以调用商业规则凭借随后的捕捉和提取操作试图提取多个标识符并填充单一进程中的窗口的多个域,即便用户可能没有与其他的域交互。为了清晰,这根据上述的例子而不是文档的上下文构成了工作流的上下文。

为了确定文档的上下文,在一种方法中,一旦调用了捕捉界面,可以分析取景器中的文档并确定该文档的类型。基于这一确定,可以执行(例如,如果该文档类型是可能包括对应于多个域的多个标识符的文档的类型)或规避(例如,如果该文档不是适合尝试多提取的文档类型因为该文档类型代表性地不描述对应于该窗口/页面中的信息)多个标识符提取和域全体进程。

以这种方法,可能利用手机应用程序和工作流二者的上下文,例如,如用户与域的交互所表明的,以及从中提取标识符的文档的上下文。有利地,这一双上下文方法允许基于光学输入的自动填充功能,而无需依赖任何在先的数据输入。自动填充可以被执行在近实时的第一捕捉上。

在优选的方法中,用户可以捕捉一个或多个文档的图像。优选地通过调用经由光学I/O扩展(例如分别在图1A和1B中的扩展134或136)的捕捉界面使用移动设备的捕捉元件来捕捉所述图像(例如上述的“照相机”)。被捕捉的图像可以可选地存储于存储器中,例如移动设备的存储器,用于将来使用和/或如此处所述的再使用。尤其是,在被公开的其他实施例中还概述了文档图像未被捕捉,但被接收在一个设备上的情景(优选地是具有处理器的设备,例如移动电话)用于随后在提取和/或验证描述于文档上或与其相关的信息的使用(例如描述于不同的文档上的相应的标识符)。

文档的图像通过执行其上的OCR来分析。所述OCR可以实质上如上所述被利用以从图像中识别和/或提取标识符,尤其是文本字符。甚至更优选地,被提取的字符包括唯一地识别该文档的标识符。所述标识符可以采取现有技术中已知的任何形式,并且在一些方法中可以实现为字符的字母数字字符串,例如招标文件帐号(例如16位的账号,代表性地关联于信用卡/借记卡账号),安全码(例如借记卡/信用卡上的CCV码、粘贴验证代码、个人识别号码(PIN)等等)、截止日期(例如以“MM/YY”的格式)等,如本领域技术人员通过阅读本说明书所将理解的。

本公开的技术可以利用若干有利的特征以向文档所有人提供有用的信息和/或关于他们的文档的服务。例如,以及可选地考虑到上下文信息例如在移动设备上运行的手机应用程序,可以自动地将数据提供给手机应用程序而不需要求用户输入任何文本信息,因此避免了耗时的进程、用户错误、预测性词典的偏差以及其他的传统的用于移动设备的基于用户的文本输入所常见的错误。

示例性地,在一个实施例中一种手机应用程序,其可能是显示特定网页的标准的浏览器、独立的应用程序等,包括配置为帮助用户申请汽车保险的工作流。该工作流可以包括要求例如申请人的姓名、驾驶执照号码、车辆制造、型号和/或年限、居住州等的信息的域。

基于用户调用手机应用程序的一个域,和/或基于用户调用通过移动设备显示的键盘或其他用户输入界面(例如图1A中所示的UI 110、120、130)的一个光学输入扩展(例如图1A中所示的扩展134或图1B中所示的扩展136),例如取景器的捕捉界面在移动设备上被调用。

所述捕捉界面可以包括指导用户去捕捉描绘所述工作流的域所要求的部分或全部信息的一个或多个文档的图像的提示,例如驾驶执照和车辆登记。优选地,所述捕捉界面配置为自动地检测取景器中描绘的文档,并在达到最佳的捕捉状态(例如照明、视角和缩放/分辨率)时捕捉其中的图像。取景器可以包括标线,例如排成矩形样式的四个角以帮助捕捉全部文档的图像,矩形盒子以帮助捕捉文档中描绘的文本信息的线条、域等,如本领域技术人员通过阅读本说明书所将理解的。所述标线优选地配置为帮助用户定向设备和/或文档以获得最佳的捕捉状态。

更优选地,所述捕捉操作是上下文敏感的以促进来自文档的标识符的精确的和精密的捕捉,以及在工作流的域中相应文本信息的精确的和精密的输出。在不同的方法中,相应的文本信息可以与被提取的标识符一致,或者可以根据期望的格式标准化和/或纠正OCR错误。在更多的方法中,标识符可以针对参考内容或商业规则而被验证以促进精确的、精密的提取和输出,如此处描述的进一步的细节。

在一些方法中,文档可以被分析并分类以确定该文档的上下文和/或确定是否尝试多域的提取操作,如此处进一步的描述。

上下文敏感的进程调用

在更多的实施例中,基于通过移动设备光学传感器接收的光学输入来自动地调用一个或多个上下文适当的进程将是有利的。

根据多个实施例,通常,这种进程如图3所示的方法300以图形的方式被描绘。方法300可以执行在任何适当的环境中,包括图1A-1B所示的那些,以及本领域技术人员通过阅读本说明书所将领会的任意其他适当的环境。

如图3所示,方法300包括操作302-306。在操作302中,通过移动设备的一个或多个光学传感器来接收光学输入,例如取景器界面被调用并且一个视频描述了一个或多个移动设备光学传感器显示的视野。

在操作304中,使用移动设备的处理器分析光学输入以确定所述光学输入的上下文。

在操作306中,基于所述光学输入的上下文调用上下文适当的工作流。

所述上下文可以包括关于在相应的工作流中执行操作的任意合适的信息,并且优选地包含下述中的一个或多个:在所述光学输入中表现的文档的类型;以及在所述光学输入中表现的文档的内容。

其中上下文包括文档类型,优选地所述文档的类型选自由下述组成的一组:合同、投标文件、身份证件、保险单据、头衔、报价和车辆登记。其中上下文包含文档内容,优选地所述内容选自:电话号码、社会安全号码、签名、发票目的行项、部分或完整的地址、全球资源定位器、保险集团号码、信用卡号码、追踪号码、照片、和文档上描述的域的分布。

在一种方法中,用户可以在移动设备的光学传感器中定位描绘签名的文档,例如驾驶员的执照、个人或商务发票、合同等。移动设备可以检测签名的存在,优选地结合文档的一个或多个其他的特征(例如驾驶员执照上的照片、特定的字体例如支票上的磁性墨水字符识别字体、窗口上的域的分布等)并自动地或半自动地调用移动设备上的适当的手机应用程序。附加地或可选地,在一个特定的手机应用程序中,上下文相关的商业进程或工作流可以简单地被调用。

不同的信息可以表明将被调用的合适的工作流是保险报价、医疗入院流程、签字仪式、存款或其任意的结合。驾驶执照号码和车辆识别号码可能表明适当的汽车保险报价。医疗保险提供者名称、投保人(患者姓名)和/或组数量可能表明适当的卫生保健许可工作流或健康保险报价工作流程,可选地。包含贷款协议中常见的文本信息,例如抵押贷款或贷款申请,连同签名或署名区的文档可能表明适当的工作流签字仪式。包括签名和帐号或存款数目的文档可能表明适当的存款工作流。当然,目前披露的发明构思可以适用于其他工作流,如本领域技术人员通过阅读本公开所能理解的,而不脱离本说明书的范围。

例如,响应于检测到签名和照片,移动应用程序可以调用保险报价工作流以帮助用户获得车辆保险。响应于检测到签名和特定的字体,可以调用移动支票存款工作流。响应于检测到签名和域的分布,抵押贷款申请程序或文档签字仪式进程可能被调用。类似地,在不同的实施例中,如果没有已经在一个手机应用程序操作,移动设备可以调用配置为促进如前所述的上下文相关的动作的应用程序。

上下文敏感的进程调用的其他例子可以包括任意一个或多个下列项。响应于检测到在移动设备光学传感器的视野中描述的文档是一张支票(例如,通过检测词语“支票”、支票号码、一致的服务提供者实体名、地址等的存在),调用系统、应用程序、产品(SAP)或其他类似的企业应用程序并自动地显示所述支票的状态。

响应于检测到在移动设备光学传感器的视野中描述的文本信息是电话号码,可以调用移动设备操作系统的电话应用程序,并且可以自动地将所述号码输入和/或拨号。

响应于检测到在移动设备光学传感器的视野中描述的文本信息是全球资源定位符,可以调用移动设备的网页浏览器应用程序,并且可以将URL输入到导航或地址栏,和/或浏览器可以自动地指向URL表明的资源。

响应于检测到在移动设备光学传感器的视野中描述的文本信息是信用卡号码,可以调用金融服务应用程序或信用卡公司网站(通过浏览器在网站被调用的情况下)并且可以将信用卡账号声明、余额、到期日等显示给用户。

响应于检测到在移动设备光学传感器的视野中描述的文本信息是社会安全号码,可以调用税务筹划的应用程序或网站。

当然,如本领域的技术人员通过阅读本说明所将理解的,此处公开的发明构思可以应用于调用光学输入的使用作为文本信息的来源的任何合适的方案、实施或应用等。在特别优选的方法中,工作流的用户输入UI可以被根据上下文地调用,基于在移动设备的视野中的光学输入,并且在移动设备视野中的任何合适的信息都被自动地捕捉并以适当的格式输出到被调用的UI的适当的域中,并且任何OCR错误都已被纠正。

尽管几个示例性的方案已在上文被提出以例示此处公开的发明主题的思想和特征,本领域的技术人员将领会到这些思想同样适用于类似的方案、实施、实际应用等。例如,尽管此处描述的一些例子可能已经以用户与网页交互并想要输入文档中描述的文本信息到网页的可填充的域的视角被提出,上文讨论的发明主题同样适用于本领域技术人员通过阅读这些公开所将领会到的任意类似的或等价的方案。例如,本主题可以被等效地应用于任意涉及用户通过虚拟键盘用户界面输入文本信息的情况,例如用户写邮件、与应用程序交互等。

尽管本说明书主要参考方法进行了描述,本领域技术人员将领会到此处描述的发明构思可以同样地执行于或作为系统和/或计算机程序产品。

例如,本说明书的范围内的一种系统可以包括处理器和逻辑在和/或可由处理器执行以引起处理器执行此处描述的方法的步骤。

类似地,本说明书的范围内的一种计算程序产品可以是具有随其执行的程序代码的计算机可读存储介质,所述程序代码可由处理器可读/执行以引起处理器执行此处描述的方法的步骤。

尽管不同的实施例已在上文被描述,应该理解的是它们只以例示的方式被呈现,而非限制性的。例如,本领域技术人员通过阅读本公开所应理解的任意此处公开的实施例的等价物都应被理解为包括在此处描述的发明构思的范围内。类似地,这些发明构思可以合并为本领域技术人员通过阅读本说明书所应理解的其任意合适的方式、置换、合成、修改等。

因此,本发明的实施例的广度和范围不应被上述示例性的实施例所限制,而应该只被下述的权利要求及其等价物所定义。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1