将所呈现的广告与数字内容相关联的制作方法

文档序号:6348661阅读:168来源:国知局
专利名称:将所呈现的广告与数字内容相关联的制作方法
将所呈现的广告与数字内容相关联相关申请的交叉引用
本申请要求2009年3月20日提交的标题为“ADVERTISING SYSTEM AND METH0D(广告系统和方法)”的美国临时专利申请No. 61/162,212、2009年6月4日提交的标题为“DOCUMENT INTERACTION, SUCH AS INTERACTION USING A MOBILE DEVICE (文档交互,比如利用移动装置的交互)”的美国临时专利申请No. 61/184,273以及2009年12月9日提交的标题为 “IMAGE SEARCH USING TEXT-BASED ELEMENTS WITHIN THE CONTENTS OF IMAGES(在图像内容内利用基于文本的元素进行图像搜索)”的美国临时专利申请No. 61/267,936的优先权, 所有这些都被整体合并在此以作参考。本申请是以下专利申请的部分继续申请(CIP):2007年9月17日提交的PCT申请 No. PCT/EP/2007/008075,其标题为"CAPTURE AND DISPLAY OF ANNOTATIONS IN PAPER AND ELECTRONIC DOCUMENTS (捕获并显示纸质和电子文档中的注释)”;2010年2月18日提交的美国专利申请 No. 12/660,146,其标题为"AUTOMATICALLY CAPTURING INFORMATION, SUCH AS CAPTURING INFORMATION USING A DOCUMENT AWARE DEVICE(自动捕获信息,比如利用察知文档的装置捕获信息)”;以及2010年2月18日提交的美国专利申请No. 12/660/151,其标题为"INTERACTING WITH RENDERED DOCUMENTS USING A MULT I-FUNCTI ON MOBILE DEVICE, SUCH AS A MOBILE PHONE (利用诸如移动电话之类的多功能移动装置与所呈现的文档进行交互)”。所有这些都被整体合并在此以作参考。
背景技术
如可以由纸质文档在计算机时代的激增可以看出,纸质文档以及其他呈现的文档具有持久的吸引力。印刷及出版纸质文档从未比今天这般更容易。尽管电子文档常常更容易复制、传送、搜索和编辑,但是纸质文档仍然盛行。鉴于纸质文档的普及性以及电子文档的优点,组合二者的益处将是有用的。


图IA是示出了本系统的一些实施例中的信息流程的数据流程图。图IB是示出了本系统的一些实施例中的信息流程的数据流程图。图2是在典型操作环境的情境中被包括在典型的系统实现方式中的各组件的组件图。图3是示出了与本系统一起使用的适当捕获装置的框图。图4是示出了用作捕获装置的移动装置的框图。图5是示出了利用多功能装置给出与广告的交互体验的例程的流程图。图6A — 6E是示出了与广告交互的多功能装置的示意图。图7是示出了用于为登广告者提供将所呈现的广告与数字内容相关联的入口的计算环境的框图。图8是示出了用于将所呈现的文档与数字内容相关联的例程的流程图。
图9A — 9G是示出了由所述入口给出的各种屏幕的显示。
具体实施例方式总览
描述了利用捕获装置在物理世界中与所呈现的广告和其他信息显示进行交互。在一些实例中,系统从所呈现的广告捕获信息,标识(identify)广告和/或所述广告内的位置,定位与所标识出的广告相关联的可执行动作,并且执行所述动作。在一些实例中,所述系统将所呈现的广告与多项可执行动作相关联。所述系统可以把可执行动作关联到整个所呈现的广告,或者可以将其关联到所呈现的广告的一个部分或区域。因此,捕获来自所呈现的广告的第一区域的信息可以使得系统定位并执行特定动作,而捕获来自第二区域的信息可以使得系统定位并执行不同的动作。在一些实例中,所述系统通过提供去到登广告者或者希望将物理对象与数字内容相关联的其他实体的入口而促进将可执行动作和其他数字内容关联到所呈现的广告。所述入口可以促进物理对象(比如印刷广告的图像)的输入,数字内容的输入,以及标识出物理对象与数字内容之间的所期望的关联的输入。下面将描述所述系统的各个实例或实施例。下面的描述提供了用于透彻理解并实现描述这些实施例的具体细节。但是本领域技术人员将认识到,可以在没有许多这些细节的情况下实践所述系统。此外,可能没有详细示出或描述一些公知的结构或功能,以便避免不必要地模糊对于各个实施例的相关描述。在下面给出的描述中所使用的术语意图以其最广泛的合理方式来解释,尽管其是结合对于本发明的特定具体实施例的详细描述而使用的。在下面甚至可能会强调某些术语;但是意图以任何受限制方式来解释的任何术语都将如在本详细描述章节中那样公开且明确地定义。第一部分——介绍 1、系统及其用户
人们会在视觉上摄取来自所呈现(印刷及显示)的媒体的信息,其中包括以文本、图像、 视频和其他形式给出的信息。举例来说,人们会阅读报纸、杂志、书刊、博客、文本消息、告示牌、收据、字条等等;会注视照片、绘画、物体、广告等等;并且会观看电影、视频、表演、其他人等等。实际上,人们一直都通过简单地观察他们周围的世界而接收并摄取信息。这样的观察或信息摄取可能是主动的(用户察知并且常常从事于信息)或被动的 (用户在未察知的情况下仍然接收信息)。一个人可能会例如通过“拉取”信息而刻意地获得所述信息,或者可能在信息被“推送”给他们时无意中获得信息(被动摄取)。在某种意义上,人会模仿装置(计算机、移动电话和其他装置),其在如何与世界进行交互方面拉取信息并且接收被推送的信息。但是装置并不是人,而且当前的装置在其周围环境中或者与之邻近的环境中捕获信息的表现常常很差。这里所公开的技术描述了实现并促进装置中的察知性的系统和方法。所述技术可以促进关于与装置邻近的基于文本的信息的察知性,关于与装置邻近的基于图像的信息的察知性,关于与装置邻近的信息显示(比如所呈现的文档)的察知性等等。 利用所公开的技术,装置可以在如何与世界进行交互方面模仿人。
1. 1、物理/数字交互
几乎每一项信息的物理显示都与或者可以与附加的数字信息相关联。举例来说,图像可以与描述(例如元数据)、网络(web)页面等等相关联;单个字可以与定义、Wikipedia条目、广告等等相关联;文档可以与其电子对应物、网络页面、放映幻灯片等等相关联;地理位置(或该位置处的对象)可以与关于该位置的元数据、图像、信息相关联;音频流可以与放映幻灯片相关联;等等。在存在信息的物理显示的情况下,所述系统只需要标识出所述信息显示(或者标识出信息显示的部分方面,比如信息显示中的文本)就可以访问相关联的信息。所述系统允许信息的物理显示充当平台,从所述平台产生涵盖用户与内容的丰富的数字三维交互性。1. 2、标识所旱现的文档
在某些情况下,标识所呈现的文档可以为读者提供访问大量附加信息,所述附加信息对文档本身构成补充并且会丰富读者的体验。对于具有电子对应物的每一份所呈现的文档,所呈现的文档中的各信息部分可以被用来标识所述电子对应物。在一些实例中,所述系统捕获并使用来自所呈现的文档的文本样本来标识并定位该文档的电子对应物。在某些情况下,系统所需的文本样本非常小,也就是说来自文档的几个字或部分字常常就可以充当对于所呈现的文档的标识符并且充当去到其电子对应物的链接。此外,所述系统不仅可以使用所述几个字来标识文档,而且还可以标识文档内的位置。因此,利用这里所讨论的系统可以通过许多有用的方式把所呈现的文档与其数字对应物相关联。因此,利用这里所讨论的系统可以通过许多有用的方式把所呈现的文档与其电子对应物相关联。简单来说,当用户扫描所呈现的文档中的几个字、字符或区域时,所述系统可以检索所述电子对应物文档或其某一部分,显示所述电子对应物文档或其某一部分,将所述电子对应物文档或其某一部分用电子邮件发送给某人,购买所述电子对应物文档或其某一部分,打印所述电子对应物文档或其某一部分,将所述电子对应物文档或其某一部分张贴到网络页面上,或者执行使得用户能够与该文档或有关内容进行交互的其他动作。举例来说, 用户将他/她的移动装置(及其摄影机)悬放在报纸或杂志文章的一部分上方,使得该用户的移动装置在该移动装置的触摸屏上显示所述文章的电子版本,并且向用户提供允许该用户与所述文章进行进一步交互的选项。在某些情况下,悬放在所述文章上方可以使得移动装置切换到文档察知或交互模式,比如当移动装置检测到与文章的一定程度的邻近时。所述系统在不需要改变书写、印刷及出版文档和其他信息显示的当前处理的情况下实施“纸张/数字集成”的上述和许多其他实例,从而为所呈现的文档和物理对象给出全新的一层数字功能。一旦所述系统把所呈现的文档中的一段文本与已经建立的特定数字实体相关联, 该系统就能够在该关联上建立大量功能。越来越多的情况是,大多数所呈现的文档具有可以在万维网上访问或者可以从某一其他在线数据库或文档资料库访问的电子对应物,或者例如可以响应于付费或订阅来实现所述访问。于是在最简单的级别下,当用户捕获所呈现的文档中的几个字时,所述系统可以检索该电子文档或其一部分、显示该电子文档或其一部分、通过电子邮件将该电子文档或其一部分发送给某人、购买该电子文档或其一部分、打印该电子文档或其一部分以及/或者将该电子文档或其一部分张贴到网络页面上。作为附加的实例,捕获一个人在早餐时正在阅读的书刊的几个字可以使得他/她车中的有声书版本在他/她开始驾车上班时从该点开始阅读,或者捕获印刷机墨盒上的序列号可以开始订购替换的处理。对于所述系统的典型使用开始于使用捕获装置从所呈现的文档中捕获文本,但是很重要的是应当注意到,从其他类型的对象进行捕获的其他方法同样适用。因此,所述系统有时被描述为从所呈现的文档捕获或扫描文本,其中所述术语被如下定义
所呈现的文档是印刷的文档或者在显示器或监视器上示出的文档。其是人类可感知到的文档,不管其具有永久形式还是暂时显示。其是通过表示层提供信息的物理对象。所呈现的文档包括纸质文档、告示牌、符号、由计算装置的表示层提供的信息、通过波传播的信息(比如音频或视频信息流)以及/或者表示或显示信息的其他物理对象。捕获或扫描是进行系统性检查以便从所呈现的文档获得信息的处理。所述处理可以涉及例如使用蜂窝电话或手持式光学扫描器中的摄影机进行光学捕获,或者其可以涉及从文档出声阅读到音频捕获装置中或者在小键盘或键盘上将其键入。关于更多实例参见第 15节。除了从所呈现的文档捕获文本之外,所述系统还可以从其他源捕获信息,比如射频标识(RFID)标签、QR代码、条形码、其他物理对象(例如绘画、雕塑)、直接来自计算装置的表示层的信息等等。其他源可以包括基于音频和/或视频的文档,比如无线电广播节目和无线电频道上的其他内容;视频和视频频道上的其他内容,其中包括TV节目、TV商业广告、 电影等等,不管其是从本地介质(比如视频盘)呈现的还是从远程服务器等等流送的。作为一个实例,所述系统可以从音频源捕获信息,并且显示与所述音频源相关联的信息或补充内容或者由该源产生的音频流的内容。2、系统介绍
本节描述构成一个用于纸张/数字集成的系统的其中一些装置、处理和系统。在各个实例中,所述系统在提供基本功能的该底层核心上建立各种各样的服务和应用。2. 1、处理
图IA是示出了适当系统的一些实例中的信息流程的数据流程图。其他实例可能不会使用这里所示出的所有阶段或元件,同时一些实例将使用许多更多的阶段或元件。比如具有摄影机和/或话音记录器的移动装置之类的捕获装置从所呈现的文档或者从在该装置附近显示的信息捕获100文本和/或其他信息。所述装置可以对所捕获的数据进行处理102,以便例如去除所述捕获处理的伪像,改进信噪比,标识或定位所述数据内的所期望的信息等等。所述系统随后通过识别组件(比如OCR装置、语音识别装置、自相关装置或者这里所描述的其他技术)可选地将所述数据转换104成一个或多个签名,比如文本片段、文本偏移或者其他符号或字符。可替换地,所述系统执行从所呈现的文档中提取一个或多个文档签名的一种替换形式。在某些情况下,所述签名代表一个可能的文本转录集合。在某些情况下,所述处理可能会受到来自其他之前或之后执行的步骤的反馈的影响或约束。举例来说,如果所述系统之前已经标识出所述捕获可能源自其中的候选文档,其就能够收窄原始捕获的可能解释。后处理组件可以接收来自识别处理的数据并且对所述数据进行过滤106,或者按照期望执行其他操作。在一些实例中,所述系统可以例如在其捕获到包含足以推知用户意图的信息的短语或符号时立即推断、确定、标识和/或执行直接动作107而无须继续到例程中的后续步骤。在这些情况下,所述系统可能不需要标识或参考数字对应物文档来实现用户的希望。在步骤108中,所述系统随后可以构造一条查询或者一个查询集合,以用于搜索与所述捕获相关联的电子对应物或其他内容。所述查询构造的某些方面可以取决于所使用的搜索处理,并且可以由所述系统在后面的步骤中来执行(比如在执行搜索之后)它们,但是通常将有一些操作可以由系统提前执行,比如去除明显错误识别的或者不相关的字符。所述系统把所述一条或多条查询传递110到搜索和情境分析组件。所述系统可以尝试标识从中捕获了原始数据的文档。为此,所述系统可以使用搜索索引和搜索引擎112、 关于用户的知识114以及/或者关于用户情境或者其中发生捕获的情境的知识116。举例来说,所述系统可以与搜索引擎112进行交互,所述搜索引擎采用和/或索引特别关于所呈现的文档的信息、关于其数字对应物文档的信息以及/或者关于具有网络(互联网)存在的文档的信息。所述系统可以与这些信息源来回传送信息,并且可以将所标识出的信息馈送到所述例程的各个其他步骤中。举例来说,所述系统可以基于在步骤110期间接收关于候选文档的知识来接收关于捕获的语言、字体、渲染以及可能的接下来的一些字的信息。在步骤120中,所述系统可以检索早前被标识为所呈现的文档的电子对应物的一份或多份文档的拷贝。所述系统可能直接访问文档源和存储库124 (例如本地归档系统或数据库或者网络服务器),或者所述系统可以联系访问服务122以检索一份或多份文档。访问服务122可以实施针对文档的认证、安全性或付费,或者可以提供其他服务,例如将文档转换成所期望的格式或语言,除了别的之外。所述系统的应用可以利用额外的功能或数据与文档的一部分或全部的关联。举例来说,广告应用可以把特定广告消息或主题与文档的各部分相关联,比如关键字、短语或者与特定内容的邻近度。这种额外关联的功能或数据表明其应当可以结合所述文档的特定部分而可用,其可以被视为所述文档上的一个或多个覆盖,并且在这里被称作标记。因此,在步骤130中,所述系统标识出与所捕获的数据和/或所标识出的电子对应物相关的任何标记。在某些情况下,所述标记由用户、创作者、文档的出版者、文档的其他用户等等提供,并且可以被存储在直接可访问源132处,或者由标记服务134动态地生成。在一些实例中,所述标记可以与所呈现的文档和/或所呈现的文档的数字对应物相关联并且将所述标记应用于所呈现的文档和/或所呈现的文档的数字对应物,或者可以将所述标记应用于由这些文档当中的任一种或全部两种构成的群组。作为前面提到的某些或所有步骤的结果,所述系统可以采取或执行140动作。所述动作可以是系统默认动作,比如简单地记录所找到的信息,其可以取决于数据或文档,或者可以从所述标记分析导出。在某些情况下,所述系统可以简单地将数据传递到另一个系统。在某些情况下,适合于所呈现的文档中的特定点处的捕获的可能动作将作为相关联的显示器(比如捕获装置的显示器(移动装置的触摸屏))或相关联的显示器(用户的膝上型计算机屏幕)上的菜单被给予用户。所述系统可以响应于捕获、响应于用户针对执行一项或多项动作的请求或者在以后的时间标识或执行一项或多项动作。作为关于可以如何使用捕获装置的一个实例,读者可以利用与其移动装置相关联的摄影机从报纸文章中捕获文本。所述文本通过摄影机被捕获为位像。逻辑将所述位
8像存储在存储器中并且对图像加时间戳,以及记录与捕获相关联的其他数据(比如装置的位置、地理位置数据等等)。所述逻辑还执行光学字符识别(OCR),并且将图像转换成文本。所述系统将所述文本上传到与所述报纸相关联的内容索引,并且标识及检索对于所述文章的电子对应物。捕获装置随后通过相关联的触摸屏显示所述电子对应物以及将要执行的一项或更多项动作,比如下载及观看有关文章或者提供附加的背景信息的文章,高亮显示文章内的各个术语并且提供去到这些术语的定义的链接,或者针对在文章中或其周围所讨论的项目观看广告或购买信息。在被合并在此以作参考的申请中可以找到关于系统处理、组件和/或装置方面的其他细节。图IB是示出了适当系统的一个实例中的信息流程的数据流程图。捕获装置155从信息源150和其他源(比如与所述装置进行无线通信的源(未示出))捕获所给出的信息,比如文本、音频、视频、GPS坐标、用户姿态、条形码等等。在步骤160中,信息保存器组件收集并存储由捕获装置155所捕获的信息。在步骤165中,所述系统将从捕获装置收集的信息传递到捕获信息处理组件。捕获信息处理组件165被配置成检测所呈现的文档的存在、从文档中提取文本区域以及分析文档信息,以便识别出文档和文本特征,比如绝对和相对布局信息、段落、线条和字的阴影或轮廓、与图示符有关的特征以及字符编码。在一些实例中, 捕获信息处理组件可以被配置成处理不同于文本的数据类型,比如音频、罗盘数据、GPS、加速度、历史、温度、湿度、体热等等。在一些实例中,所述捕获信息处理单元将随着时间累积信息并且复合所累积的信息,以便例如在捕获装置捕获或发送更多信息时形成信息源的更大和/或分辨率更高的图像。在一些实例中,捕获信息处理组件可以利用情境(参见第13 和14节)(比如是先前由用户捕获的信息)例如通过限制或扩展所执行的处理的数量以及引导关于正在处理的内容的假设来引导捕获信息处理。举例来说,如果所述系统最近标识出用户已从特定源捕获了的信息,则后面可能需要较少的处理来获得关于新捕获的信息的类似水平的确定度,这是因为有限可能性空间内的搜索可以快速得到匹配,如果期望的话然后可以进一步确认所述匹配。所述捕获信息处理组件可以验证所标识的信息,比如通过基于试探性结论自动确认或拒绝所述信息中的预测,或者通过利用门房服务170 (参见第 19. 8节),或者通过请求用户反馈。在步骤175中,所述系统存储所捕获并处理的信息以作为系统历史和情境的一部分。在步骤180中,所述系统基于所处理的信息和情境来执行搜索(参见第4. 2. 2、13 和14节)。在一些实例中,可以随着时间累积搜索结果并对其进行相关,例如基于随着时间捕获的信息子集交叉搜索结果,以便解决不定性(比如所记录的音频的多个部分、来自多个频带的音频、多幅图像等等)。在一些实例中,可以由捕获信息处理组件例如基于图像处理组件可以对搜索结果(或者由文档管理器组件185检索的信息)和所捕获的信息执行附加分析的原理来进一步验证搜索结果。举例来说,如果搜索组件生成10个可能的结果,则捕获信息处理组件可以确定其中的6个不太可能与搜索结果相匹配,比如文本中的垂直笔划的样式。在步骤185中,如果标识出文档,则所述系统的文档管理器组件可以检索所述文档的表示。在步骤190中,所述系统的标记组件可以计算和/或检索与输出自捕获信息处理步骤的文本和/或所标识出的文档或者所检索的文档表示有关的动态和/或静态标记。关于静态和动态标记的更多信息,参见第5节。在一些实例中,一旦识别出文本,标记组件就基于所标识出的文本与文档标识并行地产生标记。在步骤195中,可以将信息给予用户。在一些实例中,该信息可以包括反馈,比如针对移动捕获装置以便更好地聚焦的建议;在所捕获的图像上覆盖高亮显示以表明可能的感兴趣区域,其中可能包括在用户把捕获装置悬放在感兴趣区域上时将被隐含地选择的所述区域;所成像的文本的新呈现的清晰版本,其与图像尺度、布局相匹配,并且对捕获装置的当前视场等等进行建模;基于当前感兴趣区域的可用动作列表;基于当前感兴趣区域采取单项动作的结果,比如自动拨打电话号码;利用适合于由用户表明为其感兴趣区域的一种或多种类型的信息的模板所给出的音频一视觉材料;基于感兴趣区域给出信息显示和 /或音频。在一些实例中,感兴趣区域可以由用户隐含地或明确地表明的一个区域以及围绕中心感兴趣区域的渐次更大的区域(比如短语、从句、行、段、列、文章、页、期刊、出版物等等)构成。在一些实例中,主要的感兴趣区域由系统基于图像中的位置(比如捕获装置的屏幕中心)来建议,并且可以通过明确的用户交互来选择,或者通过靠近所述区域悬放较短时间段来选择,或者通过与屏幕的用户交互来选择,比如用手指扫过感兴趣区域,或者敲击所建议的感兴趣区域内的某处。2. 2、组件
正如这里所讨论的那样,适当的系统或操作环境包括许多不同组件。举例来说,所述系统可以包括一个或多个光学捕获装置或话音捕获装置(比如移动电话和其他多功能移动计算装置、手持式扫描装置等等)。捕获装置利用有线或无线连接或者通过网络与系统的其他组件(比如计算机或其他移动装置)进行通信。捕获装置、计算机以及网络上的其他组件可以包括存储器,其包含用于处理所接收到的数据或者从所呈现的文档和其他源捕获的信息(比如显示在屏幕或监视器上的信息)的计算机可执行指令。图2是包括在典型的操作环境的情境中的所述系统的典型实现方式中的各组件的组件图。如图所示,所述操作环境包括一个或多个捕获装置216。在一些实例中,捕获装置支持光学捕获或者利用“音频”拷贝。每一个捕获装置能够利用直接有线或无线连接或者通过网络220与系统的其他部件(比如计算机212)进行通信,所述捕获装置可以利用有线或无线连接与网络进行通信,后者通常涉及到无线基站214。在一些实例中,捕获装置通过蜂窝电信网络(例如GSM或CDMA)与系统的其他组件进行通信。在一些实例中,捕获装置被集成到移动装置中,并且可选地共享在用于话音通信和拍照的装置中使用的某些音频和 /或光学组件。计算机212可以包括存储器,其包含用于处理来自捕获装置216的命令的计算机可执行指令。作为一个实例,命令可以包括标识符(比如捕获装置216的序列号或者部分地或唯一地标识捕获装置的用户的标识符)、捕获情境信息(例如捕获时间、捕获位置等等)和 /或被用来唯一地标识正在从其捕获数据的源的所捕获的信息(比如文本串)。在替换的实例中,所述操作环境可以包括更多或更少组件。此外在网络220上还可以使用搜索引擎232、文档源234、用户帐户服务236、标记服务238以及其他网络服务239。网络220可以是企业内联网、公共因特网、移动电话网或某种其他网络,或者是任何前述网络的互连。不管所述装置和组件彼此耦合的方式如何,它们所有都可以根据公知的商业交易和通信协议(比如传输控制协议(TCP)、互联网协议(IP))来操作。在一些实例中,所述系统的许多功能和能力可以被合并或集成到捕获装置中。在各个实例中,捕获装置216和计算机212的各项功能和能力可以被完全或部分地集成到一个装置中。因此,术语捕获装置和计算机可以指代相同的装置,这取决于是否该装置合并了捕获装置216和计算机212的功能或能力。此外,搜索引擎232、文档源234、用户帐户服务236、标记服务238以及其他网络服务239的某些或所有功能可以被实施在任何所述装置和/或未示出的其他装置上。2. 3、捕获装置
捕获装置可以利用光学或成像组件或者利用音频记录装置或者其他方法来捕获文本, 其中所述光学或成像组件捕获来自对象、信息显示和/或所呈现的文档的图像数据,所述音频记录装置捕获用户对所显示文本的口头阅读。在一些实例中,捕获装置还可以捕获图像、电影、图形符号和图标等等,其中包括诸如条形码、QR代码、RFID标签等之类的机器可读代码,尽管通常不需要这些来识别文档或者执行与所述文档或所捕获的文本相关联的动作。在某些情况下,捕获装置还可以捕获装置的环境的图像,其中包括围绕装置的各个对象的图像。所述装置可以极为简单,并且依赖于驻留在系统中的别处的其他功能可以只是包括换能器、某种存储装置以及数据接口,或者其可以是诸如智能电话之类的特征更加全面的装置。在某些情况下,所述装置可以是移动装置,其具有图像和音频捕获以及重放能力, 从而在存储器中存储并运行或执行一个或多个应用,所述应用执行这里所描述的某些或全部功能。捕获装置包括从所呈现的文档以及其他信息显示捕获文本、符号、图形等等的捕获元件。所述捕获元件可以包括成像组件,比如光学扫描头、摄影机、光学传感器等等。在一些实例中,捕获装置是被用来从所呈现的文档扫描文本、图形或符号的便携式扫描器。所述便携式扫描器包括从所呈现的文档捕获文本、符号、图形等等的扫描元件。 除了被打印在纸张上的文档之外,在一些实例中,所呈现的文档还包括被显示在诸如CRT 监视器或IXD显示器之类的屏幕上的文档。图3是示出了捕获装置300的一个实例的框图。捕获装置300 (其可以是移动电话和/或其他移动或便携式装置或者通信装置集合,其中包括膝上型计算机、图形输入本或上网本、由人佩戴的制品(眼镜、衣物、帽子、饰品等等))可以包括捕获组件310,比如摄影机、成像组件、扫描头、麦克风或其他音频记录器等等。在当捕获装置300是移动电话时的情况下,捕获组件310可以是与该电话相关联的摄影机,比如用在许多可以商业上可获得的电话中的基于CMOS图像的传感器。在其中捕获装置300是数字摄影机的情况下,捕获组件310可以包括所述摄影机的反射镜系统、棱镜、透镜和/或取景器。在其他情况下,所述捕获组件可以是单独组件或者未与电话的摄影机集成的附加组件(未示出),其在某些情况下包括非光学组件。捕获装置300还可以包括显示器组件320,比如用户界面、触摸屏和/或能够向装置300的用户显示信息的其他组件。所显示的信息可以包括由捕获组件310捕获的图像、 捕获组件310的视野内的图像、与所捕获的信息相关联的内容(比如所捕获的文档的电子对应物或者对所捕获的信息构成补充的内容)、高亮显示或覆盖针对捕获组件310的视野内的内容的标记和其他信息的内容、表明响应于从所捕获的信息进行捕获而将要执行的动作的选项菜单等等。显示器组件320还可以例如通过由该显示器所给出的用户可选的选项而接收来自用户的信息。在所述系统的一些实例中,捕获装置300包括能够对捕获装置300和/或其他计算装置和系统的操作进行变换的一个或多个组件。捕获装置300还可以包括检测组件330, 其检测所述装置何时最邻近于能够由该装置300捕获的信息。检测组件330可以是捕获组件310 (比如用于标识由成像组件捕获的图像内的文本的组件)的一部分或者与所述捕获组件310集成,可以是测量捕获装置300与围绕该装置的各个对象(文档、告示牌等等)之间的距离的邻近度传感器,可以是测量捕获装置300的取向(关于x、y或ζ轴的倾角等等)的取向传感器等等。这里将描述关于捕获组件310、显示器组件和/或检测组件330之间的交互的进一步细节,其中包括由这些组件执行的例程。检测组件330还可以包括测量捕获装置的特定状态的持续时间的定时组件(未示出)或者接收来自所述定时组件的信息。举例来说,定时组件可以是检测组件330的一部分,其可以测量捕获装置300被保持与由放置在桌面上的所呈现的文档所定义的轴平行多长时间,或者可以测量捕获装置300处在街道名牌等等的特定邻近范围之内多长时间。捕获装置300还可以包括操作调节组件340,其改变捕获装置300的操作或模式。 在所述系统的一些实例中,操作调节组件340在接收到来自检测组件330的表明捕获装置 300邻近于将要捕获的信息的指示或信号时,(自动)将捕获装置300的操作模式从标准模式改变到信息捕获模式(比如文本捕获模式)。此外,操作调节组件可以在接收到来自检测组件330的表明捕获装置300不再邻近于任何信息的指示或信号时,将捕获装置300的操作模式改变回到标准或先前操作模式。在某些情况下,操作调节组件340在不改变装置的操作模式的情况下启动应用,比如被配置成为捕获装置300的用户捕获信息并且执行动作的应用。举例来说,当操作在信息捕获模式下或者当由操作调节组件340启动的运行中的应用控制时,捕获装置300可以执行这里所描述的其中一些或所有例程和方法,其中包括标识与所捕获的信息相关联的文档和信息、执行与所捕获的信息相关联的动作(例如购买产品、显示广告、给出补充信息、更新博客等等)。捕获装置300可以通过存储在该捕获装置 300的存储器内的程序来执行其中一些或所有所述例程和方法,比如下载到捕获装置300 的程序,集成到捕获装置300的操作系统中的程序等等。捕获装置300还可以包括其他组件,比如与装置的操作相关联的装置操作组件 350 (处理组件、存储器组件、电力组件、SIM和其他安全性组件、诸如键盘和按钮之类的输入组件等等),用于与外部网络和/或其他计算装置进行通信的通信组件360 (无线电装置、 GSM/蜂窝组件、SMS/MMS和其他消息传送组件、Bluetooth 组件、RFID组件等等),为装置提供情境信息的组件370 (GPS和其他地理位置传感器、加速度计和其他移动传感器、取向传感器、温度和其他环境测量组件等等),以及其他组件380,除了别的之外所述其他组件比如在这里所描述的用于向用户提供反馈的音频换能器、外部灯或振动组件,以及/或者用于接收来自用户的输入的按钮、滚轮或触觉传感器,或者用于向用户传送信息以及接收来自用户的输入的触摸屏。捕获装置300还可以包括用于与各个其他组件进行交互的逻辑组件(未示出),其可能将所接收到的信号处理成不同格式和/或解释。所述逻辑组件可以操作用来读取及写入存储在相关联的存储装置(未示出)中的数据和程序指令,所述存储装置比如是RAM、R0M、
12闪存或者其他适当的存储器。捕获装置300可以在存储器或其他存储组件(比如计算机可读介质)中存储或包含具有数据结构、例程、算法、脚本等等形式的信息。所述逻辑组件可以读取来自时钟单元(未示出)的时间信号。在一些实例中,捕获装置可以具有板载电源(未示出)。在其他实例中,扫描器302可以从去到另一个装置的系绳连接供电,比如通用串行总线(USB)连接。在一些实例中,捕获装置300可以被分布在多个单独的装置上。2. 3. 1信息察知捕获装置
所述系统可以包括用于确定捕获装置邻近于信息(比如所呈现的文档)并且基于所述确定改变捕获装置的操作的组件。在一些实例中,捕获装置包括摄影机和邻近度组件,所述摄影机捕获所呈现的文档或其他信息显示的图像,所述邻近度组件检测与所呈现的文档或其他信息显示的邻近度。邻近度组件可以是或者可以利用摄影机内的光学组件,或者可以是诸如邻近度传感器之类的独立组件。所述系统在确定捕获装置与信息邻近之后,可以使得捕获装置改变到一种察知文本、文档和/或其他信息显示(比如显示文本的对象)并且与文本、文档和/或其他信息显示(比如显示文本的对象)进行交互的模式。举例来说,在文档捕获模式下,所述系统通过捕获装置可以发起捕获所呈现的文档或信息显示的图像并且基于这样的捕获而执行动作的一项或多项处理。第二部分——系统的各个方面的总览
随着纸张一数字集成变得更加普遍,可以对现有技术的许多方面做出改变,以便更好地利用这种集成或者使得能够更加有效地实现这种集成。本节将强调其中一些问题。3、搜索
对于普通用户来说,搜索文档资料库(即使是比如万维网这样大的资料库)已经变得司空见惯,用户使用键盘来构造被发送到搜索引擎的搜索查询。本节和下一节将讨论通过从所呈现的文档进行捕获而产生的查询的构造,以及处理这种查询的搜索引擎二者的各方3. 1、捕获/讲话/打字以作为捭索杳询
对于所描述的系统的使用通常开始于利用几种方法当中的任一种从所呈现的文档捕获几个字,其中包括前面所提到的那些方法。在需要对输入进行某种解释以便将其转换成文本的情况下,例如在OCR或语音输入的情况下,在所述系统中可以有端到端反馈,从而可以使用文档资料库来增强识别处理。可以通过以下内容来应用端到端反馈对所述识别或解释执行近似,标识由一个或多个候选匹配文档构成的集合,并且随后利用来自候选文档中的可能匹配的信息来进一步细化或限制所述识别或解释。可以根据其可能的相关性来对候选文档进行加权(于是例如基于已经从这些文档捕获过信息的其他用户数目或者其在因特网上的受欢迎度),并且可以在该迭代识别处理中应用这些权重。3. 2、短语搜索
由于在知晓几个字的相对位置的情况下会大大增强基于这些字的搜索查询的选择能力,因此对于所述系统只需要捕获少量文本就能标识所述文本在资料库中的位置。最常见的情况是,输入文本将是一个连续的字序列,比如一个短语。3. 2. 1、从短的捕获寻找文档和文档中的位置
除了定位短语所源自的文档之外,所述系统还可以标识该文档中的位置并且可以基于这一知识采取动作。3. 2. 2、寻找位置的其他方法
所述系统还可以采用发现文档和位置的其他方法,比如通过利用所呈现的文档上的水印或其他特殊标记。3. 3、在捭索杳询中合并其他因素
除了所捕获的文本之外,其他因素(即关于用户身份、简档和情境的信息)也可以形成搜索查询的一部分,比如捕获时间、用户的身份和地理位置、关于用户的习惯和近期活动的知识等等。文档标识以及与先前的捕获(特别在其是十分近期的情况下)有关的其他信息可以形成搜索查询的一部分。可以从与捕获装置相关联的唯一标识符以及/或者生物测定或其他补充信息(语音模式、指纹等等)确定用户的身份。3. 4、#〒__Φ白杯龍十牛_颇_)龍白彻R
在构造搜索查询时可以考虑到在所使用的特定捕获方法中可能发生的错误的类型。这方面的一个实例是关于具体字符的识别中的怀疑错误的指示;在这种情况下,搜索引擎可以将这些字符作为通配符来对待,或者为其指定较低优先级。3. 5、#Χ棚Ρ匕 /撞弓斷■碰_
有时候,在数据捕获时捕获装置可能无法与搜索引擎或资料库进行通信。为此,可以提前把对装置的离线使用的有帮助的信息下载到所述装置,或者下载到所述装置可以与之进行通信的某一实体。在某些情况下,可以下载与资料库相关联的索引的全部或一大部分。在第15. 3节中将进一步讨论这一论题。3. 6、可以按照任何形式记录杳询并且在后面采取动作
如果可能有与传送查询或接收结果相关联的延迟或成本,则这一预先加载的信息可以改进本地装置的性能、降低通信成本以及提供有帮助且及时的用户反馈。在没有通信可用的情况下(本地装置“离线”),则可以保存所述查询并且在通信恢复时的那一时间将其发送到系统的其余部分。在这些情况下,可能很重要的是随着每一条查询发送时间戳。捕获时间在对查询进行解释时可能是一个很重要的因素。举例来说,第13. 1节讨论了捕获时间关于较早前的捕获的重要性。很重要的是应当注意到,捕获时间将不总是与执行查询的时间相同。3. 7、并行搜索
出于性能原因,可能会响应于单次捕获而顺序地或并行地启动多条查询。可以响应于单次捕获发送几条查询,这例如是因为在捕获中添加了新的字,或者是为了并行地查询多个搜索引擎。举例来说,在一些实例中,所述系统向对于当前文档的特殊索引发送查询,向本地机器上的搜索引擎发送查询,向企业网络上的搜索引擎发送查询,以及向因特网上的远程搜索引擎发送查询。可以为特定搜索的结果给出比来自其他搜索的那些更高的优先级。针对给定查询的响应可能表明其他待定查询是多余的;可以在完成之前取消这些多余查询。
4、纸张和捭索引擎
常常希望处理传统在线查询的搜索引擎也处理源自所呈现的文档的查询。可以按照多种方式增强或修改传统的搜索引擎,以使其更适用于与所描述的系统一起使用。搜索引擎和/或系统的其他组件可以产生并维持具有不同的或额外的特征的索引。所述系统可以修改所输入的来源于纸张的查询或者改变在所得到的搜索中处理查询的方式,从而将这些来源于纸张的查询与来自键入网络浏览器的和其他源的那些查询进行区分。与来自其他源的那些相比,在由源自纸张的搜索返回结果时,所述系统可以采取不同的动作或者提供不同的选项。下面将讨论这些方法当中的每一种。4. 1、索引
常常可能会利用源自纸张的或传统的查询来搜索相同的索引,但是可以通过多种方式增强所述索引以便用在当前的系统中。4. 1. 1、关于纸张形式的知识
可以向所述索引添加额外的字段,这将在基于纸张的搜索的情况下提供帮助。表I纸m白W当刺_弓丨IB
第一个实例是表明已知文档以纸张形式存在或被分发的字段。如果查询来自纸张,则所述系统可以为这样的文档给出更高优先级。关于纸张形式的警欢迎度的知识
在这一实例中,关于纸质文档(以及可选地关于这些文档内的子区域)的受欢迎度的统计数据(例如捕获活动的数量、由出版者或其他源提供的发行数等等)被用来为这样的文档给出更高优先级,以便提升数字对应物文档(其例如用于基于浏览器的查询或网络搜索)的优先级等等。关于所呈现的格式的知识
另一个重要实例可以是记录关于文档的特定呈现的布局的信息。例如对于书刊的特定版本,所述索引可以包括关于分行和分页在何处发生、使用了哪些字体、任何不寻常的大写字母的信息。所述索引还可以包括关于页面上的其他项目的邻近度的信息,比如图像、文本框、 表格和广告。使用原始语义信息
最后,还可以在索引中记录可以从源标记推断出但是没有出现在纸质文档中的语义信息,比如一段特定文本涉及供销售的项目或者特定段落包含程序代码的事实。4. 1. 2、捕获方法的知识中的索引
可以修改索引的性质的第二个因素是关于可能将要使用的捕获类型的知识。如果索引考虑到在OCR处理中很容易被混淆的字符或者包括关于用在文档中的字体的某种知识,则由所捕获的文本图像所发起的搜索可能会是有益的。举例来说,字母“r”后面跟着字母“η” 的序列在OCR处理中可能会与字母“m”混淆。相应地,字符串“m”或“rn”在索引中可能与相同的文档集合相关联。类似地,如果所述查询是来自语音识别,则基于听起来相似的音素的索引可以被更高效得多地搜索。作为另一个实例,所述系统可以在对文档进行检索之前人工模糊所述文档,以便反映用户通过在文档上方移动捕获装置来捕获文档图像时可能发生的模糊。类似的技术可以使得系统对于较差的光学情况、噪声等等具有承受力。可能会影响索引在所描述的模型中的使用的一个附加因素是在识别处理期间的迭代反馈的重要性。 如果搜索引擎能够在正在捕获文本时提供来自索引的反馈,则可以大大提高捕获精度。利用偏移量的索引
如果可能利用在第9节描述的基于偏移量的/自相关OCR方法来搜索索引,则在一些实例中,所述系统将适当的偏移量或签名信息存储在索引中。4. 1. 3、多个索引
最后,在所描述的系统中,可能常见的是在许多索引上实施搜索。可以在企业网络中的几台机器上保持索引。可以将部分索引下载到捕获装置上,或者下载到与捕获装置靠近的机器上。可以为具有特定兴趣、习惯或许可的用户或用户群组创建单独的索引。可以对于用户硬盘上的每一个文件系统、每一个目录、甚至每一个文件存在一个索引。索引由用户和系统公布及订阅。于是很重要的将是构造可以高效地分发、更新、合并以及分离的索引。4. 2、处理杳询
4. 2. 1、知晓捕获是来自纸张
当识别出搜索查询是源自纸质文档时,搜索引擎可以采取不同的动作。所述引擎例如可以按照比可能出现在特定捕获方法中的错误类型容忍度更高的方式来处理所述查询。搜索引擎可能从被包括在查询中的某种指示符(例如表明捕获的性质的标志)来推断出搜索查询是源自纸质文档,或者可以从所述查询本身推断出这一点(例如其可以识别出OCR处理的典型错误或不确定性)。可替换地,来自捕获装置的查询可以通过不同于来自其他源的信道或端口或连接类型的那些信道或端口或连接类型而到达引擎,并且可以通过这一点而被区分。举例来说, 所述系统的一些实例将通过专用网关把查询路由到搜索引擎。搜索引擎从而知晓经过该专用网关的所有查询都是源自纸质文档。4. 2. 2、情境的使用
下面的第13节描述了所捕获的文本本身外部的多种不同因素,但是其可以非常有助于标识文档。这些因素例如包括近期的捕获历史、特定用户的更加长期的阅读习惯、用户的地理位置以及用户近期对特定电子文档的使用。这样的因素在这里被称作“情境”。其中一些情境可以由搜索引擎本身处理,并且可以被反映在搜索结果中。举例来说,搜索引擎可以跟踪用户的捕获历史,并且还可以将该捕获历史与传统的基于键盘的查询交叉参考。在这样的情况下,所述搜索引擎保持并使用比大多数传统搜索引擎所做的更多的关于每一个单独用户的状态信息,并且与搜索引擎的每一项交互可以被考虑扩展到几项搜索上并且扩展到比当今所典型的时间段更长的时间段。其中一些情境可以在搜索查询中被发送到搜索引擎(第3. 3节),并且可能被存储在所述引擎处以便在未来的查询中起到一定作用。最后,其中一些情境将最好在别处被处理,并且从而变成被应用于来自搜索引擎的结果的过滤器或二次搜索。对搜索的数据流输入
到搜索处理中的一项很重要的输入是关于用户社区如何与文档的所呈现的版本进行交互的更加宽泛的情境,例如哪些文档被最为广泛地阅读以及由谁阅读。这些方面类似于网络搜索返回最频繁地被链接到的页面,或者从过去的搜索结果中最频繁地被选择的页面。针对这一论题的进一步讨论参见第13. 4和14. 2节。
16
4. 2. 3、文档子区域
所描述的系统不仅可以发出及使用关于整体文档的信息,而且还可以发出及使用关于文档的子区域的信息,甚至小到单独的字。许多现有的搜索引擎简单地集中于定位与特定查询相关的文档或文件。可以在更加精细的粒度上工作并且标识出文档内的某一位置的搜索引擎将为所描述的系统提供相当的益处。4. 3、返回结果
搜索引擎可以使用另外一些其现在保持的信息来影响所返回的结果。所述系统还可以只作为用户拥有纸质拷贝的结果才返回所述用户可以访问的特定文档(第7.4节)。除了简单的文本检索之外,搜索引擎还可以提供适合于所描述的系统的新的动作或选项。5、标记、沣释、增强、元数据
除了执行捕获一搜索一检索处理之外,所描述的系统还把额外的功能与文档相关联, 并且特别与文档内的文本的特定位置或片段相关联。所述额外功能常常(但非排他地)通过与其电子对应物相关联而与所呈现的文档相关联。作为一个实例,当捕获网络页面的打印输出时,所述网络页面中的超链接具有相同的功能。在某些情况下,所述功能没有被定义在电子文档中,而是在别处被存储或生成。这层所添加的功能在这里被称作“标记”。5. 1、覆盖、静杰和动杰
考虑标记的一种方式是作为文档上的“覆盖”,其提供关于所述文档或其某一部分的另外的信息,并且可以指定与所述文档或其某一部分相关联的动作。所述标记可以包括人类可读的内容,但是常常对于用户来说不可见并且/或者是意图用于机器使用。实例包括在用户从所呈现的文档中的特定区域捕获文本时将被显示在附近显示器上的弹出菜单中的选项,或者说明特定短语的发音的音频样本。作为另一个实例,所述系统可以在用户从所呈现的文档捕获广告时播放与所述广告相关联的广告短歌。5. 1. 1、可能来自几个源的几个层
任何文档都可以同时具有多个覆盖,并且这些覆盖可以源自多个位置。可以由文档的作者、用户或者其他某一方创建或补充标记数据。标记数据可以被附着到电子文档或者被嵌入其中。可以在传统的位置处找到标记数据(比如在与文档相同的地方但是具有不同的文件名后缀)。标记数据可以被包括在定位了原始文档的查询的搜索结果中,或者可以通过针对同一个或另一个搜索引擎的单独查询而找到。可以利用所捕获的原始文本以及其他捕获信息或情境信息找到标记数据,或者可以利用关于文档和捕获位置的已经推断出的信息来找到标记数据。可以在文档中指定的位置处找到标记数据,即使在所述标记本身未被包括在文档中时也是如此。所述标记可以在很大程度上是静态的并且特定于文档(类似于常常把传统上的 html的网络页面上的链接作为静态数据嵌入在html文档中的方式),但是也可以动态地生成标记并且/或者将其应用于大量文档。动态标记的一个实例是被附着到文档上的包括在该文档内所提到的公司的最新股价的信息。被广泛应用的标记的一个实例是在特定语言的多个文档或文档段上自动可用的翻译信息。
5. 1.2、个人“插入”层
用户还可以安装或订阅特定的标记数据源,从而个人化系统对特定捕获的响应。5. 2、关键字和短语、商标以及徽标
文档中的某些元素可能具有与之相关联的特定“标记”或功能,所述特定“标记”或功能是基于所述元素本身的特性而不是基于其在特定文档中的位置。实例包括纯粹为了被捕获的目的而印刷在文档中的特殊标记,以及可以把用户链接到关于所涉及的组织的进一步信息的徽标和商标。这一点对于文本中的“关键字”或“关键短语”同样适用。各组织可能会注册与其相关联或者其想要与之相关联的特定短语,并且将特定标记附着到其上,每当该短语被捕获时所述标记就将可用。任何字、短语等等都可以具有相关联的标记。举例来说,每当用户捕获到“书”字或者一本书的标题或者与书有关的论题时,所述系统可以向弹出菜单添加特定项目(例如去到在线书店的链接)。在所述系统的一些实例中,对数字对应物文档或索引进行咨询以便确定捕获是否发生在“书”字或者一本书的标题或者与书有关的论题附近,并且根据与关键字元素的这一邻近度来修改系统行为。在前面的实例中,应当注意到标记使得从非商业文本或文档捕获的数据能够触发商业交易。5. 3、用户提供的内容
5. 3. 1、用户意见和沣释,包括多媒体
注释是可以与文档相关联的另一种类型的电子信息。举例来说,用户可以附着他/她关于特定文档的想法的音频文件以供后来作为话音注释而检索。作为多媒体注释的另一个实例,用户可以附着在文档中所提到的地点的照片。用户通常为文档提供注释,但是所述系统可以关联来自其他源的注释(例如一个工作群组内的其他用户可以共享注释)。5. 3. 2、来自校阅的标注
源自用户的标记的一个重要实例是作为校阅、编辑或评论处理的一部分的纸质文档的注释。5. 4、第三方内容
如前所述,第三方可能常常会提供标记数据,比如由文档的其他读者提供。在线讨论和评论是一个很好的实例,与特定著作有关的社区管理的信息、自愿贡献的翻译和解释也是很好的实例。第三方标记的另一个实例是由登广告者提供的标记。5. 5、基于其他用户的数据流的动杰标记
通过分析由所述系统的几个或所有用户从文档捕获的数据,可以基于一个社区的活动和兴趣而生成标记。一个实例可能是在线书店,其创建告诉用户的标记或注释,实际上“喜欢这本书的人还喜欢…”。所述标记的匿名性可以较低,并且可以告诉用户他/她的联系人列表中的哪些人最近也阅读过该文档。数据流分析的其他实例被包括在第14节中。5. 6、基于外部事件和数据源的标记
标记将常常是基于外部事件和数据源,比如来自企业数据库的输入、来自公共因特网的信息或者由本地操作系统收集的统计。数据源也可以更加本地化,并且特别地可以提供关于用户的情境的信息,即他/ 她的身份、位置和活动。举例来说,所述系统可能与用户捕获装置的移动电话组件进行通信并且提供标记层,从而为用户给出向该用户最近在电话上与其有过通话的某人发送文档的选项。5. 7、图像增强和补偿
在一些实例中,所述系统提供文档的增强视图,这是通过利用各种显示元素覆盖示出文档的显示而实现的。增强的视图可以利用与文档相关联的各种显示元素覆盖捕获装置视场内的所述文档的一部分的实时图像,或者可以利用与文档相关联的各种显示元素给出并覆盖由所述系统检索或生成的所述文档的相关联的电子版本或图像。在一些实例中,所述系统提供对捕获装置的各种硬件配置进行补偿的文档交互技术,比如摄影机和其他成像组件关于显示器或文档中心点的位置、捕获装置的尺寸以及/或者捕获装置的显示器。所述系统可以提供使得用户能够操纵纸质文档、标识与文档相关联的标记、对纸质文档进行放大或缩小等等的文档交互技术。举例来说,所述系统可以对捕获装置的用户的姿态做出响应,比如在关于纸质文档的各个方向上移动捕获装置的姿态。因此,所述系统使得用户能够利用多功能移动装置与纸质文档、目标对象以及其他信息显示进行交互,其中所述多功能移动装置不一定被制造成除了其他的好处之外仅仅与信息进行交互或者从装置周围的环境捕获信息。6、认证、个人化和安全件
在许多情况下,用户的身份将是已知的。有些时候所述身份将是“匿名身份”,例如在仅通过捕获装置的序列号来标识用户的情况下。但是通常来说,预期系统将会具有关于用户的详细得多的知识,其可以被用来对所述系统进行个人化,并且允许以该用户的名义执行活动和交易。6. 1、用户历史和“生活库”
所述系统可以执行的其中一种最简单但是又最有用的功能是为用户保持他/她所捕获过的文本以及关于该捕获的任何其他信息的记录,其中包括所找到的任何文档的细节、 该文档内的位置以及作为结果所采取的任何行动。在一些实例中,所述系统可以向用户指定的电子邮件地址发送所捕获的信息,用户可以经由诸如P0P3、IMAP等电子邮件协议通过电子邮件客户端在该地址处访问所捕获的信息。此外,被存储为电子邮件的所捕获的信息可以包括去到更加全面的生活库经历的链接,正如在第16. 1节中所描述的那些。该所存储的历史对于用户和系统二者都是有益的。6. 1. 1、对于用户
可以为用户给出“生活库”,即对于他/她所阅读及捕获过的所有内容的记录。这可以简单地是出于个人兴趣,但是例如也可以在一个库中被正为其下一篇文章的参考书目收集材料的学者使用。在某些情况下,用户可能希望公开所述库,比如通过按照类似于博客的方式将其公布在网络上,从而使得其他人可以看到他/她正在阅读并且发现感兴趣的内容。最后,在其中用户捕获一些文本并且系统无法立即对所述捕获采取动作的情况下 (例如因为该文档的电子版本尚不可用),可以将所述捕获存储在库中并且可以在后面自动地或者响应于用户请求进行处理。用户还可以订阅新的标记服务并且将其应用于先前的捕6. 1. 2、对于系统用户的过去捕获的记录对于所述系统也是有用的。通过知晓用户的阅读习惯和历史可以增强系统操作的许多方面。最简单的实例是,用户所做的任何捕获都更有可能是来自该用户在近期过去已经从中捕获过信息的文档,并且特别在前一次捕获是在最近几分钟内进行的话,则其非常有可能是来自同一份文档。类似地,更有可能的情况是正按照从头至尾的顺序阅读文档。因此,对于英语文档来说,还更有可能的情况是后面的捕获将在文档中的更深处发生。这样的因素可以在不定性的情况下帮助确立捕获的位置,并且还可以减少需要被捕获的文本数量。6. 2、捕获装置作为付费、标识和认证装置
由于捕获处理通常开始于某种装置,因此所述装置可以被用作标识用户并授权特定动作的关键。6. 2. 1、将捕获装置与用户帐户相关联
可以将捕获装置与移动电话帐户相关联。举例来说,可以通过把与移动电话帐户相关联的SIM卡插入到捕获装置中而把捕获装置与所述帐户相关联。类似地,可以把所述装置嵌入到信用卡或其他支付卡中,或者令其具有用于将这样的卡与之相连的设施。因此,所述装置可以被用作付费令牌,并且可以通过从所呈现的文档进行捕获而发起商业交易。6. 2. 2、利用捕获讲行认证
捕获装置还可以与特定用户或帐户相关联,这是通过捕获与该用户或帐户相关联的令牌、符号或文本的处理而实现的。此外,捕获装置可以被用于生物测定标识,比如通过捕获用户的指纹。在基于音频的捕获装置的情况下,所述系统可以通过匹配用户的话音模式或者通过要求用户说出特定口令或短语来标识用户。举例来说,在用户从一本书捕获引文并且被提供从在线零售商购买该书的选项的情况下,用户可以选择该选项并且随后被提示捕获他/她的指纹以确认交易。还参见第15. 5和15. 6节。6. 2. 3、安全捕获装置
当捕获装置被用来标识并认证用户以及代表用户发起交易时,很重要的是确保所述装置和系统的其他部分之间的通信是安全的。还很重要的是针对以下这样的情况提供保护 当另一个装置装扮成捕获装置时,以及所谓的“中间人”攻击(其中所述装置与其他组件之间的通信被拦截)。用于提供这种安全性的技术在本领域内是公知的;在各个实例中,所述装置以及系统中的别处的硬件和软件被配置成实施这样的技术。7、出版模型和元素
所描述的系统的一个优点在于,不需要改变传统的创建、印刷或出版文档的处理来获得所述系统的许多好处。但是文档的创作者或出版者(在下文中简单地称作“出版者”)有理由可能希望创建用以支持所描述的系统的功能。本节主要涉及所出版的文档本身。对于关于其他有关的商业交易的信息(比如广告),参见标题为“P商务”的第10节。7. 1、印刷文档的电子伴侣
所述系统允许印刷文档具有相关联的电子存在。在传统上,出版者常常与书刊一同装运CD-ROM,其包含另外的数字信息、教学影片以及其他多媒体数据、样本代码或文档或者另外的参考材料。此外,有些出版者保持与特定出版物相关联的网络站点,其提供所述材料以及可以在出版时间之后更新的信息,比如勘误表、另外的意见、更新后的参考材料、参考书目和相关数据的其它源以及其他语言的翻译。在线论坛允许读者贡献其关于所述出版物的 JaL ο所描述的系统允许将所述材料比之前更加紧密地联系到所呈现的文档,并且允许用户更加容易地发现所述材料并且与之进行交互。通过从文档捕获一部分文本,所述系统可以自动将用户连接到与文档相关联的数字材料(并且更加特别地是与所述文档的该特定部分相关联),并且在捕获装置上显示这些材料。类似地,用户可以通过捕获装置连接到讨论该节文本的在线社区,或者连接到其他读者的注释和评注。在过去,通常将需要通过搜索特定页号或章节来找到这样的信息。这方面的一种示例性应用是学术教科书的领域(第17. 5节)。7.2、“订阅”到印刷文档
如果读者希望被通知新的相关事项或者书刊的新版本的出版时间,一些出版者可以具有所述读者能够订阅的邮寄列表。利用所描述的系统,用户可以更加容易地登记对于特定文档或文档部分的兴趣,在某些情况下甚至在出版者考虑提供任何此类功能之前就可以这么做。读者的兴趣可以被馈送给出版者,从而可能会影响其关于在何时何地提供更新、另外的信息、新版本或者甚至关于已被证明在现有书刊中成为感兴趣的论题的全新出版物的决定。7. 3、具有特殊含义或包含特殊数据的印刷标记
通过使用已经存在于文档中的文本可以简单地实现所述系统的许多方面。但是如果所述文档是在知晓其可能与所述系统相结合地被使用的情况下产生的,则可以通过以特殊标记的形式印刷额外的信息来添加额外的功能,所述特殊标记可以被用来更加紧密地标识文本或所需动作,或者以其他方式增强文档与系统的交互。最简单也最重要的实例是向读者表明肯定可以通过所述系统来访问文档。例如可能使用特殊图标来表明该文档具有与之相关联的在线讨论论坛。这样的符号可以纯粹是针对读者,或者其可以在被捕获时由系统识别并且被用来发起某种动作。可以在所述符号中编码足够的数据以便不仅标识该符号其还可以存储例如关于文档、版本以及符号位置的信息,所述信息可以由系统识别并读取。7. 4、通过拥有纸质文档而授权
在某些情况下,拥有或具有印刷文档的使用权将允许用户具有特定特权,例如对于所述文档的电子拷贝或者附加材料的使用权。对于所描述的系统,可以简单地作为用户从文档捕获各文本部分或者捕获特别印刷的符号的结果而授予这样的特权。在需要所述系统确保用户拥有整个文档的情况下,其可以提示用户从特定页面捕获特定项目或短语,例如“第 46页第二行”。7. 5、过期的文档
如果印刷文档是通往额外的材料和功能的途径,则对于这样的特征的使用权还可以是受到时间限制的。在过期日期之后,可能要求用户支付费用或者获得文档的更新版本以便能够再次具有所述特征的使用权。纸质文档当然仍将可用,但是将失去其某些增强的电子功能。这种情况可能是合乎期望的,这例如是因为对出版者来说在接收针对电子材料的使用权的费用方面或者在要求用户不时地购买新版本方面有利可得,或者是因为存在与印刷文档的过期版本保持流通相关联的缺陷。优惠券是可能具有过期日期的商业文档类型的一个实例。7. 6、警欢迎度分析和出版决定
第10. 5节讨论使用所述系统的统计来影响对于作者的补偿和广告的定价。在一些实例中,所述系统从与之相关联的电子社区的活动以及从纸质文档的使用推断出版物的受欢迎度。这些因素可以帮助出版者做出关于其在未来将出版什么的决定。 如果例如证明现有的一本书中的章节是极为受欢迎,则可能值得将其扩展成单独的出版物。8、文档访问服各
所描述的系统的一个很重要的方面是为对于文档的所呈现的拷贝具有使用权的用户提供对于该文档的电子版本的访问的能力。在某些情况下,文档在用户可以访问的公共网络或私有网络上免费可用。所述系统使用所捕获的文本来标识、定位及检索文档,并且在某些情况下将其显示在捕获装置上或者存放在其电子邮件收件箱中。在某些情况下,文档将以电子形式可用,但是出于多种原因不能为用户所访问。仅举出几种可能性而言,不存在足够的连接性来检索文档,用户可能无权检索文档,可能存在与获得对于文档的使用权相关联的成本,或者文档可能已被收回并且可能被新的版本所替代。所述系统通常向用户提供关于这些情况的反馈。如在第7. 4节中所提到的那样,如果知道特定用户已经具有对于文档的打印拷贝的使用权,则授予该用户的使用权的程度或性质可以不同。8. 1、经过认证的文档访问
对于文档的访问可以被限制到特定用户,或者被限制到满足特定标准的用户,或者只在特定情况下可用,例如当用户连接到安全的网络时。第6节描述了可以建立用户和捕获装置的资格的其中一些方式。8. 2、文档购买——版权所有者补偿
对于一般公众不免费可用的文档仍然可以在支付费用的情况下来访问,所述费用常常作为对出版者或版权拥有者的补偿。所述系统可以直接实施付费设施或者可以利用与用户相关联的其他付费方法,其中包括在第6. 2节中所描述的那些方法。8. 3、文档第三方保管及主动检索
电子文档常常是暂时性的;所呈现的文档的数字源版本可能现在可用但是将来不可用。所述系统可以代表用户检索并存储现有版本,即使在用户没有请求的情况下也是如此, 从而在用户将来请求的情况下保证其可用性。这也使其可用于系统使用,例如用于进行搜索以作为标识未来捕获的处理的一部分。如果要求付费以访问文档,则受信任的“文档第三方保管”服务可以例如在支付适中费用之后代表用户检索文档,从而在用户总是从所述服务请求文档的情况下确保版权拥有者将来将得到完全补偿。如果在捕获时无法以电子形式获得文档,则可以实施这一主题的变型。用户可以授权所述服务在电子文档于后来的日子变为可用的情况下代表他/她提交针对文档的请求或对该文档付费的请求。
8. 4、与其他订阅和帐户的关联
有时可以基于用户与另一个帐户或订阅的现有关联而免除、减少或满足付费。例如可能对报纸的印刷版本的订户自动给予例如检索电子版本的权利。在其他情况下,所述关联可能不那么直接可以基于由用户的雇主建立的帐户或者基于其对作为订户的朋友所有的印刷拷贝的捕获而授予该用户使用权。8. 5、利用捕获及打印来替代影印
从纸质文档捕获文本、标识电子原件并且打印该原件或者与所述捕获相关联的该原件的某一部分的处理构成针对传统的影印的一种替换方案,其具有许多优点
纸质文档不需要与最终打印输出处于同一位置,并且在任何情况下都不需要同时处在该处
可以避免由影印处理对文档造成的磨损和损坏,特别是对于古老、脆弱和珍贵的文档 拷贝的质量通常高很多
可以保存关于哪些文档或文档部分被最频繁地拷贝的记录 可以向版权所有者付费以作为所述处理的一部分 可以禁止未经授权的拷贝。8. 6、从影印本定位珍贵的原件
当文档特别珍贵时,比如在具有历史意义或者其他特殊意义的法律文书或文档的情况下,人们可以通常在许多年内从这些文档的拷贝进行工作,同时原件则被保存在安全的位置处。所描述的系统可以耦合到记录原始文档(例如在存档仓库中)的位置的数据库,从而使得对拷贝具有使用权的某人很容易定位所存档的原始纸质文档。9、信息处理技术
光学字符识别(OCR)技术在传统上集中于包括大量文本的图像,例如来自捕获整个页面的平板扫描器的图像。OCR技术常常需要由用户进行大量训练和校正以便产生有用的文本。OCR技术常常需要在进行OCR的机器上有相当强的处理能力,并且虽然许多系统都使用字典,但是通常期望这些系统基于实际上无限的词汇表进行操作。在所描述的系统中,所有前面的传统特性都可以得到改进。但是这里所描述的技术(比如文本识别、文档标识、信息检测以及其他技术)当然可以利用典型的OCR技术来实施。所讨论过的许多问题都直接映射到其他识别技术上,特别是语音识别。如在第3. 1 节中所提到的那样,可以通过由用户将文本出声阅读到捕获音频的装置中来实现从纸质进行捕获的处理。本领域技术人员将认识到,这里关于图像、字体和文本片段所讨论的原理常常还应用于音频样本、用户语音模型和音素。用于与所描述的系统一起使用的捕获装置常常将是小型、便携的并且功率较低, 或者并非被制造成仅仅捕获文本。捕获装置可能具有并非理想地适用于OCR的光学元件或者可能缺少有助于OCR的光学元件。捕获装置一次只可以捕获几个字,并且在一些实现方式中甚至不是一次捕获整个字符,而是捕获穿过文本的水平切片,许多这样的切片被缝合在一起从而形成可以从中推断出文本的可识别信号。捕获装置还可能具有非常有限的处理能力或存储能力,因此虽然
23在一些实例中其可以凭自身执行所有的OCR处理,但是许多实例将依赖于可能在后面的时间连接到能力更强的装置,以便将所捕获的信号转换成文本。最后,捕获装置可能具有非常有限的用于用户交互的设施,因此许多捕获装置可能需要将针对用户输入的任何请求推迟到后来,或者在比现今常见的情况更大的程度上操作于“最佳猜测”模式下。在一些实例中,所述系统通过以下操作来处理所捕获的信息首先标识出将要识别的感兴趣信息的存在,比如文本或语音;提取出对应于所捕获的信息内的感兴趣信息的位置的特征,比如字、行、段、列等等在一页内的位置,或者对于人群中的特定讲话人的频率范围;以及识别感兴趣的信息的特性,比如所呈现的文档内的文本布局或者对应于所呈现的文档内的所识别出的字母的Unicode字符的标识,以便例如标识所捕获的图像的源或者在所捕获的图像上方生成并显示标记层。虽然可以对于任何类型的信息执行这些处理,但下面的实例将关于基于文本的所呈现的文档来描述这些处理。9. 1、标识及提取
标识是确定所捕获的图像包含文本的可能性的处理。由于捕获装置可以不断地捕获图像,因此所述系统可以在尝试从所捕获的信息中提取文本特征或者识别文本之前首先确定所捕获的图像是否包含文本。换句话说,所述系统是“文本察知”的,也就是说在任何时间其都可以确定是否有文本存在。一旦所述系统确定存在文本,该系统就可以开始提取处理。所述提取处理标识出文本在捕获中的位置。举例来说,所述提取处理可以生成对应于在所捕获的图像内的字和段落的边界。
有几个因素可能会影响所述标识和提取处理。举例来说,在分析文本时,所述系统可以标识出与文本内的笔划相关联的各种特征,比如高对比度边缘的存在、笔划内缺少颜色变化(例如比较笔划内存在的背景与前景颜色)、一致的宽度(水平的、垂直的或全部两种情况)、直边的存在、平滑边缘曲线的存在等等。作为另一个实例,所述系统可以标识出所捕获的图像内的潜在的文本的特性的周期性或重复,比如笔划边缘、水平和/或垂直笔划的存在、基线、高度线、居主导地位的垂直线与基线之间的角度、图示符或图示符子分量(例如角落、曲线、对角线、图示符的各部分之间的桥接,比如书法字母中的宽笔划之间的窄笔划、 衬线、一致的线帽和斜接等等)的存在。所述系统还可以基于运动方向上的明和暗有色带的存在利用运动模糊来标识文本的存在,比如在极端运动模糊的情况下沿着从左到右稿本的水平文本的背景和前景分带。在文本的标识和提取期间可以考虑的附加因素包括 行
一行内的图示符垂直线一行内的图示符水平线
基线
一行内的图示符或符号的高度图示符、字和/或笔划之间的水平空间行间的垂直空间边缘和余量
密度
24笔划对背景比例行内和行间的密度 图示符序列
N元语法(N-grams ) (N个连续字的序列)

大写字母 标点
句(大写字母、标点、句号) 段落 标题 提要
基于与图像的邻近度
图例
框、图标等等 图形上的文本短文本
比背景图像更高的对比度、周期性等等
徽标
公司/产品/服务名称主营业务徽标从背景划界(例如椭圆边界) 本领域技术人员将会理解,所述系统在执行文本标识和提取以及处在任何分析级别时可以使用前面的任何或所有特征。举例来说,在标识处理期间,所述系统可以仅仅依赖于图示符之间的水平空间的数目,而在提取处理期间则依赖于水平空间之间的距离及其与所捕获的图像内的边缘的关系。所述系统还可以例如基于以下因素对非文本信息执行标识和提取具有平滑梯度的较大区域,随机性(例如高对比度位置的方位、高对比度边缘的长度、高对比度边缘的不均勻性),所捕获的图像内的面部、身体或建筑物的存在,线或连接分量的不一致的尺寸等寸。9. 2、文本识别
基于所提取出的位置信息,所述系统可以尝试识别所捕获的图像内的文本或文本特征。举例来说,所述系统可以将文本发送到OCR组件或者基于所标识出的文本特征生成签名(例如文本内的上形字母和/或下伸字母的模式)。在执行文本识别之前,所述系统可以例如通过将所有斜体或黑体文本转换成标准格式而规范化或规格化文本。所述文本识别处理可以依赖于几种特征来识别文本的特性或者生成对于所呈现的文档的签名,比如图示符特征(例如封闭空间、垂直和水平笔划等等)、标点、大写字母、字符空间、行特征、段落特征、列特征、标题特征、提要特征、关键字/图例特征、徽标特征、图形上文本特征等等。此外,字特征可以有助于文本识别处理,比如字间距和密度。举例来说,所述系统可以使用与印刷在文档上的字之间的空间相关联的信息,比如空间之间的距离(水平、垂直、正交等等)、空间的宽度等等。所述系统还可以把关于分行的知识合并到分析中。举例来说,当知晓分行时,所述系统可以依赖于字位置的垂直对准,而当不知晓分行时,所述系统可以依赖于相对字长度的近似序列。作为另一个例子,所述系统可以使用与字符密度相关联的信息,比如字符之间的相对密度(水平、垂直、正交等等)、成组字符对之间的相对密度或者绝对密度信息。某些特征对于字体、字体尺寸等等可能是不变的,比如点和线对称性(例如图示符内、围绕点和/或线的自相关)。所述系统可以动态地选择在所捕获的图像内要分析哪些特征。举例来说,在存在光学和运动模糊的情况下,所述系统可以使用文本的细节较少的方面,比如相对字宽度。在一些实例中,所述系统可以通过确定未知的或少见的η元语法是噪声还是高信号信息(拼写错误、电子邮件地址、URL等等)来利用唯一的η 元语法,这例如是基于偏离常见η元语法的字符的确定性、偏离的长度、匹配的规则表达法 (例如对于电子邮件地址和URL)等等而实现的。所述系统可以使用所呈现的文档外部的资源来识别所呈现的文档内的文本,比如关于一个字内的图示符的近似数目的知识、字典(例如字频字典)、语法和标点规则、在一个资料库内找到特定的字语法和字符语法的概率、用于匹配各字符串(比如电子邮件地址、 URL等等)的规则表达法。此外,所述系统可以使用诸如DNS服务器、地址簿和电话簿之类的资源来验证所识别出的文本,比如URL、电子邮件地址和电话号码。作为另一个实例,所述系统可以使用字体矩阵来帮助识别及验证各个图示符。可以把给定字体的未识别字符与相同字体的已识别字符进行比较,以便基于反映在字体矩阵中的未识别字符与已识别字符之间的关系来帮助对其进行识别。举例来说,如果字体矩阵表明“d”的表示类似于“C”和 “ 1 ”的组合,则可以基于已识别的“c”和“ 1 ”将未识别的“d”识别为“d”。所述系统可以使用已识别的文本或特征从文档资料库内的文档当中标识出在所捕获的图像中所描绘的文档。被用来进行标识的信息的数量和类型可以基于许多因素而变化,比如文档类型、资料库大小、文档内容等等。举例来说,所捕获的图像内的一个5字或6 字的序列或者字间的空间的相对位置可以唯一地标识相对较大的资料库内的相应文档。在一些实例中,所述系统可以采用转换表来确定关于特定特征的信息或者关于特定特征的信息组合将唯一地标识一份文档的概率。举例来说,所述转换表可以表明,字的一个5字序列唯一地标识一份文档的概率与两个不同的3字序列、相继2行的上形字母/下伸字母模式等等唯一地标识一份文档的概率相同。在一些实例中,所述系统可以将所捕获的各图像自动累积或“缝合”在一起,以便例如生成与各个单独捕获的图像相比更有可能唯一地标识相应文档的所呈现的文档的复合图像。在一些实例中,所述文本识别处理可以影响信息捕获。举例来说,如果文本被识别为失焦或不完整,则所述系统可以调节捕获装置的摄影机的聚焦或者提示用户重定位或调节捕获装置。下面将更加详细地描述所述系统可以用来识别文本的各种技术。9.2.1、“不确定” OCR
所描述的系统中的OCR的主要新特性在于,其一般将检查存在于别处并且可以以数字形式检索的文本的图像的事实。因此,不总是需要从OCR引擎对文本进行精确转录。OCR系统可以输出可能匹配的集合或矩阵(在某些情况下包括概率加权),其仍然可以被用来搜索数字原件。9. 2. 2、迭代OCR——猜想、消除不定性、猜想…如果执行识别的装置能够在进行处理时联系文档索引,则可以在OCR处理进行时通过文档资料库的内容来对该OCR处理进行通知,从而潜在地提供高得相当多的识别精度。这样的连接还将允许装置在已捕获到足以标识数字源的文本时通知用户。9. 2. 3、利用关于可能的旱现的知识
当所述系统具有关于文档的可能印刷呈现的方面的知识(比如在印刷中使用的字体字样或者页面布局或者哪些节是斜体)时,这也可以有助于识别处理(第4. 1. 1节)。9. 2. 4、斜本碰_——在墟卜.辭斜本,Τ·贿;^
随着标识出文档资料库中的候选源文本,可以将字体或其渲染下载到装置以帮助识别。9. 2. 5、自相关和字符偏移量
虽然文本片段的组成字符可以是代表可以被用作文档签名的文本片段的最普遍接受的方式,但是其他文本表示也可以工作得足够好,从而在尝试定位数字文档和/或数据库中的文本片段时或者在消除文本片段表示的不定性从而变为可读形式时,将不需要使用所述文本片段的实际文本。文本片段的其他表示可以提供实际文本表示所缺少的好处。举例来说,与可以被用来搜索和/或重建文本片段而无需采取对于整个片段的光学字符识别的所捕获的文本片段的其他表示不同,文本片段的光学字符识别常常易于出错。这样的方法可能更适合用于与当前系统一起使用的某些装置。本领域技术人员将认识到,存在许多描述文本片段外观的方式。对于文本片段的这种表征可以包括(但不限于)字长度、相对字长度、字符高度、字符宽度、字符形状、字符频率、令牌频率等等。在一些实例中,匹配的文本令牌之间的偏移量(即介于中间的令牌的数目加1)被用来表征文本片段。传统的OCR使用关于字体、字母结构和形状的知识来尝试确定所扫描的文本中的字符。本发明的实例是不同的;其采用利用所呈现的文本本身帮助识别处理的多种方法。 这些方法使用字符(或令牌)来“彼此识别”。称为这种自我识别的一种方式是“模板匹配”, 并且其类似于“卷积”。为了执行这样的自我识别,所述系统在其本身之上水平滑动所述文本的拷贝,并且标注文本图像的匹配区域。先前的模板匹配和卷积技术包含多种有关技术。 用以令牌化和/或识别字符/令牌的这些技术在这里将被统称为“自相关”,这是因为在匹配字符/令牌时使用文本与其自身的各组成部分进行相关。在进行自相关时,对于匹配的完整相连区域感兴趣。这种情况在字符(或字符群组)覆盖相同字符(或字符群组)的其他实例时发生。匹配的完整相连区域自动提供将文本令牌化成组成令牌。随着文本的两份拷贝滑动经过彼此,标注出其中发生完美匹配的区域 (即垂直切片内的所有像素都匹配)。当字符/令牌与其自身匹配时,该匹配的水平范围(例如文本的相连匹配部分)也匹配。应当提到的是,在这一阶段不需要确定每一个令牌的实际身份(即对应于令牌图像的特定字母、数字或符号或其群组),只需要确定与所捕获的文本中的相同令牌的下一次出现的偏移量。偏移量数字是到相同令牌的下一次出现的距离(令牌数)。如果令牌在文本串内是唯一的,则偏移量是零(0)。如此生成的令牌偏移量序列是可以被用来标识所捕获的文本的签名。在一些实例中,把对于所捕获的令牌串所确定的令牌偏移量与基于电子文档的令
27牌偏移量对电子文档资料库进行索引的一个索引进行比较(第4. 1.2节)。在其他实例中, 对于所捕获的令牌串确定的令牌偏移量被转换成文本,并且将其与基于电子文档的内容而对电子文档资料库进行的索引的一个更加传统的索引进行比较。正如前面所提到的那样,当捕获处理包括所说出的字的音频样本时,可以对语音片段应用类似的令牌相关处理。9. 2. 6、字体/字符“自我识别”
传统的模板匹配OCR将扫描图像与字符图像库进行比较。实质上,对于每一种字体存储字母表并且把新扫描的图像与所存储的图像进行比较,以便找到匹配的字符。直到标识出正确的字体为止,所述处理通常具有初始延迟。此后,OCR处理相对较快,这是因为大多数文档都一直使用相同的字体。因此可以通过与最近标识出的字体库进行比较而把后续图像转换成文本。最常用的字体中的字符形状是有关的。举例来说,在大多数字体中,字母“C”和字母“e”在视觉上有关,“t”和“f”也是如此,等等。通过利用这种关系构造对于尚未被扫描的字母的模板,OCR处理得到增强。举例来说,如果读者从纸质文档中捕获到具有先前未遇到过的字体的较短文本串,从而所述系统不具有把所捕获的图像与之相比较的图像模板集合,则所述系统可以利用特定字符之间的可能关系来构造字体模板库,尽管其尚未遇到字母表中的所有字母。所述系统随后可以使用所构造的字体模板库来识别后续捕获的文本并且进一步细化所构造的字体库。9. 2. 7、_#職送傭細另丨請@Φ伺龙瞧)
当无法把图像机器转录成适于用在搜索处理中的形式时,可以保存所述图像本身以供后来由用户用于可能的人工转录,或者用于在所述系统可以获得不同资源时的后来某一天进行处理。10、Ρ 商务
由所述系统使得成为可能的许多动作导致发生某种商业交易。短语P商务在这里被用来描述通过所述系统从纸张发起的商业活动。10. 1、从其物理印刷拷贝销售文档
当用户从文档捕获文本时,可以为该用户提供以纸质或电子形式购买该文档。还可以为用户提供有关文档,比如在所述纸质文档中引用或以其他方式提到的文档,或者关于类似主题的文档,或者来自同一作者的文档。10. 2、通过纸张发起或帮助的任何其他内容的销售
可以通过多种方式将文本的捕获关联到其他商业活动。所捕获的文本可能处在被明确设计成销售商品的目录中,在这种情况下,所述文本将相当直接地与商品的购买相关联(第 18. 2节)。所述文本还可能是广告的一部分,在这种情况下,后面可能发生的是所广告的商品的销售。在其他情况下,用户捕获其他文本,从中可以推断出其对商业交易的潜在兴趣。特定国家中的小说集的读者例如可能对在那渡假感兴趣。正在阅读一款新车的评论的某人可能正考虑购买这款车。用户可以在知晓将作为结果为其给出某种商业机会的情况下捕获特定文本片段,或者这可以是其捕获活动的副作用。10. 3、捕获商品上的标签、图标、序列号、条形码,从而导致销售有时文本或符号被实际印刷在商品或其包装上。一个实例是常常在一件电子装备的背面或底面上的标签找到的序列号或产品id。所述系统可以为用户提供一种通过捕获该文本而购买一件或多件相同商品的便利方式。还可以为用户提供手册、支持或修理服务。
10. 4、情境广告
除了直接从广告捕获文本之外,所述系统还允许一种新的广告类型,其不一定明确处在所呈现的文档中,但是仍然基于人们正在阅读的内容。
10. 4. 1、基于捕获情境和历Φ的广告
在传统的纸质出版物中,广告相对于报纸文章的文本通常占用大量空间,并且围绕特定文章只能放置有限数目的广告。在所描述的系统中,可以把广告与单独的字或短语相关联,并且可以根据用户的具体兴趣进行选择,其中用户的兴趣是通过捕获该文本并且可能考虑到其捕获历史而表现出的。利用所描述的系统,有可能将购买关联到特定印刷文档并且令登广告者获得关于其在特定印刷出版物中的广告的有效性的显著更多的反馈。10. 4. 2、基于用户情境和历Φ的广告
所述系统可以收集关于用户的情境的其他方面的大量信息以供其自身使用(第13节); 对于用户的地理位置的估计是一个很好的实例。这样的数据还可以被用来调整为系统的用户给出的广告。10. 5、补偿的樽型
所述系统实现了针对登广告者和市场商人的补偿的一些新的模型。包含广告的印刷文档的出版者可以从源自其文档的购买接收到一些收入。不管所述广告是否以原始印刷形式存在,这一点都可以成立;所述广告可能是由出版者、登广告者或者某一第三方通过电子方式添加的,并且用户可能已订阅了这种广告的源。10. 5. 1、基于受欢迎度的补偿
对于由所述系统生成的统计的分析可以揭示出版物的特定部分的受欢迎度(第14. 2 节)。例如在报纸中,其可能揭示读者注视特定页面或文章所花费的时间量,或者特定专栏作家的受欢迎度。在某些情况下,可能适当的情况是作者或出版者基于读者的活动而接收到补偿,而不是基于诸如所写字数或所发行的拷贝数之类的更传统的度量。在未来的合约中,与其销售的书刊的拷贝数目相同但是很少被翻开的作者相比,可以按照不同的方式来考虑其著作变为关于某一主题的被频繁阅读的权威的作者(还参见第7. 6节)。10. 5. 2、基于受欢迎度的广告
关于在文档中登广告的决定还可以基于关于读者的统计来做出。围绕最受欢迎的专栏作家的广告空间可以以优惠率售出。在文档出版之后,有时甚至可以基于关于所述文档被接受的情况的知识来对登广告者进行收费或补偿。10. 6、基于生活库的市场营销
在第6. 1和16. 1节中所描述的“生活库”或捕获历史可以是关于用户的兴趣和习惯的极有价值的信息源。在考虑到适当的准许和隐私问题的情况下,这样的数据可以向用户通知关于货品或服务的提供。即使在匿名的形式下,所收集的统计仍然极为有用。10. 7、后来日期(可用时)的销售/信息
可能不会在捕获时立即为用户给出广告和其他商业交易机会。举例来说,在用户正阅读一本小说时可能无法获得购买该小说续集的机会,但是所述系统可以在续集出版时为用户给出这一机会。用户可以捕获与购买或其他商业交易有关的数据,但是在进行所述捕获时也可以选择不发起和/或完成所述交易。在一些实例中,与捕获有关的数据被存储在用户的生活库中,并且这些生活库条目可以保持“活跃”(即能够实施与在进行所述捕获时可用的交互类似的后续交互)。因此,用户可以在后来的某一时间评论捕获,并且可选地基于该捕获完成交易。由于所述系统可以跟踪原始捕获是在何时何地发生的,因此在所述交易中所涉及到的所有各方都可以得到适当的补偿。举例来说,当用户在六个月之后访问其生活库、从历史中选择该特定捕获并且从弹出菜单(其可以类似于在捕获时可选地给出的菜单或者与所述菜单完全相同)中选择“在Amazon购买该商品”时,可以为出现在用户从中捕获数据的广告旁边的写出所述故事的作者(以及出版该故事的出版者)给出补偿。11、操作系统和应用集成
现今的操作系统(OS)和其他软件包具有许多可以被有利地利用来与所描述的系统一起使用的特性,并且还可以按照多种方式对其进行修改以便为其使用提供更好的平台。11.1、漏__港·、辅至丨丨元纖禾口
即将出现的新的文件系统及其相关联的数据库常常具有存储与每一个文件相关联的多项元数据的能力。在传统上,该元数据例如包括了以下各项创建了该文件的用户ID、创建日期、最后一次修改以及最后一次使用。更新的文件系统允许存储诸如关键字、图像特性、文档源以及用户意见之类的额外信息,并且在一些系统中该元数据可以被任意地扩展。 因此,文件系统可以被用来存储将有用于实施当前系统的信息。举例来说,可以由文件系统存储最后一次打印给定文档的日期,并且还可以存储关于由何人在何时利用所描述的系统从纸张捕获了来自该文档的文本的细节。操作系统也开始合并允许用户更容易地找到本地文件的搜索引擎设施。这些设施可以被所述系统有利地使用。这意味着在第3和4节中讨论的许多与搜索有关的概念不仅应用于当今的基于因特网和类似的搜索引擎,而且还应用于每一台个人计算机
在某些情况下,特定的软件应用将还包括高于和超过由OS所提供的设施的对所述系统的支持。11. 2、对于捕获装置的OS支持
随着例如具有集成摄影机和麦克风的移动通信装置之类的捕获装置的使用变得越来越常见,将希望按照与提供对于鼠标和打印机的支持非常相同的方式把对于这种装置的支持构建到操作系统中,这是因为捕获装置的应用性延伸超出单个软件应用。这一点对于系统操作的其他方面同样成立。下面将讨论一些实例。在一些实例中,整个所描述的系统(或其核心)由 OS (例如 Windows、Windows Mobile、Linux、Max OS X、iPhone OS、Android 或 Symbian)提供。在一些实例中,对于所述系统的支持由应用程序接口(API)提供,所述应用程序接口可以被其他软件包使用,其中包括直接实施本系统的各方面的那些软件包。11.2. 1、对于OCR和其他识别技术的支持
大多数从所呈现的文档中捕获文本的方法都需要某种识别软件来把源数据(通常是所捕获的图像或者一些说出的字)解释成适用于所述系统的文本。一些OS包括对于语音或手写识别的支持,但是OS包括对于OCR的支持则不太常见,这是因为在过去对于OCR的使用
30通常被限制到很小的应用范围。随着识别组件变成OS的一部分,其可以更好地利用由OS所提供的其他设施。许多系统例如包括拼写字典、语法分析工具、国际化和本地化设施,例如所有这些设施可以有利地被所描述的系统用于其识别处理,这特别是因为其可能已被针对特定用户定制成包括他/她通常将遇到的字和短语。如果操作系统包括全文本索引设施,则这些设施还可以被用来通知识别处理,正如第9. 3节中所描述的那样。11. 2. 2、对于捕获将采取的动作
如果发生捕获并且将其给到0S,则在没有其他子系统声明对于所述捕获的所有权的那些情况下其可以具有将要采取的默认动作。默认动作的一个实例是为用户给出替换选择, 或者将所捕获的数据提交到OS的内建搜索设施。11. 2. 3、OS Jl有对干特定f档或f档类型的默认云M乍
如果找到了所呈现的文档的数字源,则OS可以具有其在捕获特定文档或该类文档时所将采取的标准动作。应用和其他子系统可以在OS上登记为特定类型的捕获的潜在处理者,其方式类似于由应用宣告其处理特定文件类型的能力。与所呈现的文档或者与来自文档的捕获相关联的标记数据可以包括针对操作系统的指令以便启动特定应用、传递应用自变量、参数或数据等等。11. 2. 4、集成姿杰并映射到标准动作中
在第12. 1.3节中讨论了对于“姿态”的使用,其中利用捕获装置做出的特定移动可能代表标准动作,比如标记文本区域的开始及结束。这与例如在利用光标键选择一个文本区域的同时按下键盘上的换档键或者利用鼠标上的滚轮来滚动文档之类的动作类似。用户的此类动作足够标准,从而可以由捕获装置的OS以宽泛系统的方式对其进行解释,进而确保一致的行为。对于其他与捕获装置有关的动作同样希望实现这一点。11. 2. 5、设定对标准(及非标准)图标/文本打印菜单项的响应
按照类似的方式,在被捕获时,特定文本或其他符号项可以导致发生标准动作,并且OS 可以提供对于这些标准动作的选择。一个实例可能是捕获任何文档中的文本“ [print] ”将导致OS检索并打印该文档的一份拷贝。OS还可以提供一种登记此类动作并且将其与特定捕获相关联的方式。11. 3、系统图形用户界面(user interface)组件中对于典型的捕获发起的活动的支持
大多数软件应用基本上是基于由OS提供的标准图形用户界面(GUI)组件。由开发者使用这些组件有助于确保多个软件包上的一致行为,例如在任何文本编辑情境中按下左光标键都应当把光标向左移动,而无需每一个程序员独立实施相同的功能。当由所描述的系统的文本捕获或其他方面发起活动时,在这些组件中也希望有类似的一致性。下面给出一些实例。11. 3. 1、用于找到特定文本内容的接口
所述系统的一种典型用途可以是由用户捕获纸质文档的一个区域,并且由所述系统在能够对其进行显示或编辑的软件包中打开电子对应物,以及使得所述包滚动到并且高亮显示所扫描的文本(第12. 2. 1节)。该处理的第一部分(即找到并打开电子文档)通常由OS提供,并且在各软件包上是标准的。但是第二部分(即定位文档内的特定文本段以及使得所述包滚动到并且高亮显示所述文本)尚未被标准化,并且常常由每一个包以不同方式实施。对于这种功能的标准API的可用性可以大大增强所述系统的这方面的操作。11. 3. 2、文本交互
一旦在文档内定位一个文本段,所述系统可能希望对该文本执行多种操作。作为一个实例,所述系统可能会请求周围的文本,从而用户对于几个字的捕获可以导致系统访问包含所述几个字的整个句子或段落。同样地,这种功能可以有用地由OS提供而不是在每一部处理文本的软件中实施。11.3. 3、情境(弹出)菜单
所述系统所实现的一些操作将需要用户反馈,并且这可以最优地在处理数据的应用的情境内请求。在一些实例中,所述系统使用传统上与在某些文本上点击鼠标右键相关联的应用弹出菜单。所述系统将额外的选项插入到这样的菜单中,并且使其作为诸如捕获纸质文档的一部分之类的活动的结果而被显示。11. 4、网络/网络接口
在当今日益联网的世界中,在单独的机器上可用的许多功能也可以通过网络来访问, 并且与所描述的系统相关联的功能也不例外。作为一个实例,在办公室环境中,由一个用户接收到的许多纸质文档可能由同一企业网络上的其他用户的机器打印。在受到适当许可控制的情况下,一台计算机上的系统响应于捕获可能查询那些其他机器以查找可能对应于该捕获的文档。11. 5、打印文档导致保存
纸质文档与数字文档的集成中的一个很重要的因素是保持尽可能多的关于二者之间的转变的信息。在一些实例中,OS保持关于任何文档何时由何人打印的简单记录。在一些实施例中,OS采取将使其更适用于与所述系统一起使用的一项或多项另外的动作。其实例包括
保存打印的每一份文档的数字呈现版本连同关于其打印的源的信息 保存可能帮助未来捕获解释的关于打印版本的有用信息子集,比如所使用的字体以及何处分行
保存与任何打印拷贝相关联的源文档的版本 在打印时自动索引文档并存储结果以供未来搜索。11. 6、我的(所打印/捕获的)文档
OS常常保持具有特别意义的特定类别的文件夹或文件。通过惯例或设计,用户的文档可以例如在“我的文档”文件夹中被找到。标准的文件打开对话可以自动包括最近打开的文档列表。在针对与所描述的系统一起使用而优化的OS中,可以按照考虑到用户与所存储文件的纸质版本的交互的方式来增强或加强所述类别。诸如“我的打印文档”或“我的最近阅读文档”之类的类别可能被有用地标识及合并到其操作中。11. 7、OS级别标记分层结构由于所述系统的重要方面通常是利用在第5节中讨论的“标记”概念来提供的,因此明显有利的将是以下述方式具有针对由OS提供的这种标记的支持,所述方式为使其可由多项应用以及OS本身访问。此外,可以由OS基于其自身的关于其控制下的文档以及其能够提供的设施的知识来提供各标记层。11. 8、OS DRM 设施的使用
越来越多数目的操作系统支持某种形式的“数字权利管理”即根据由特定用户、软件实体或机器授予的权利来控制对于特定数据的使用的能力。其例如可以禁止对于特定文档的未经授权的拷贝或分发。12、用户界面
如果捕获装置非常精密并且自身具有非常强的处理能力(比如移动电话或PDA),则所述系统的用户界面可以完全处在捕获装置上,或者如果捕获装置相对不智能并且通过线缆连接到PC,则所述用户界面可以完全处在PC上。在某些情况下,某些功能驻留在每一个组件中。因此,下面各节的描述是关于在特定实现方式中可能所期望的内容的指示,但是其不一定对于所有实现方式都适用,并且可以通过几种方式进行修改。12. 1、关于捕获装置
对于大多数捕获装置来说,在捕获时用户的注意力通常将在装置和纸张上。于是非常合乎期望的情况是作为捕获处理的一部分所需的任何输入和反馈不需要用户的注意力在别处(比如在计算机屏幕上)超出必要的情况。12. 1. 1、捕获装置上的反馈
捕获装置可以具有多种方式向用户提供关于特定状况的反馈。最明显的类型是直接的视觉(其中捕获装置合并所捕获图像或指示灯的完全显示)和听觉(其中捕获装置可以发出嘟嘟声、滴答声或其他声音)。重要的替换方案包括触觉反馈(其中捕获装置可以振动、发出嗡嗡声或者以其他方式刺激用户的触觉)和投影反馈(其中捕获装置通过在纸张上投影从有色光点到复杂显示的任何内容来表明状态)。可以在捕获装置上提供的重要即时反馈包括
关于捕获处理的反馈一用户移动捕获装置过快、角度过大或者漂移得过高或过低 足够内容一已经捕获了足以在存在匹配的情况下相当确定地找到匹配的内容——对于断开的操作非常重要
情境已知一已经定位了文本的源 唯一情境已知一已经定位了文本的一个唯一源 内容可用性一表明内容免费可用于用户还是需要代价
通常与所述系统的后面各级相关联的许多用户交互也可以发生在捕获装置上,如果捕获装置具有例如足以显示一部分或全部文档的能力的话。12. 1. 2、捕获装置上的控制
除了基本的文本捕获之外,捕获装置可以提供多种方式供用户提供输入,比如按钮、滚动/缓动轮、触敏表面以及/或者用于检测装置移动的加速度计。其中一些方式允许在仍持握捕获装置的同时给出更加丰富的交互集合。举例来说,响应于捕获到一些文本,捕获装置为用户给出由几份可能的匹配文档构成的集合。用户使用捕获装置的触敏表面以从列表中选择一份。12. 1. 3、姿杰
在纸张上移动捕获装置的主要原因是为了捕获文本,但是一些移动可以被装置检测到并且被用来表明其他用户意图。这样的移动在这里被称作“姿态”。作为一个实例,用户可以通过在一次从左到右的运动中捕获前几个字并且在一次从右到左的运动中捕获后几个字来表明一个较大的文本区域。用户还可以通过在页面上把捕获装置向下移动过几行来表明感兴趣的文本的垂直范围。捕获期间的后向运动可能表明取消前一次捕获操作。12. 1. 4、在线/离线行为
所述系统的许多方面可以取决于网络连接性,所述网络连接性或者处于系统的各组件 (比如捕获装置)与无线网络之间,或者是以去到企业数据库的连接和因特网搜索的形式与外部世界的连接。但是该连接性可能并非总是存在,并且因此这将存在所述系统的一部分或全部可以被视为“离线”的场合。希望允许系统在这些情况下继续有用地运作。捕获装置可以被用来在与系统的其他部分失去联系时捕获文本。非常简单的装置可以简单地能够存储与所述捕获相关联的图像或音频数据,理想地是具有表明其何时被捕获的时间戳。当捕获装置接下来与系统具有联系时可以将各个捕获上传到所述系统的其余部分并且在此时进行处理。捕获装置还可以上传与捕获相关联的其他数据,比如话音注释或位置信息。更加精密的装置可能在即使断开的情况下能够由自身执行系统操作的一部分或全部。在第15. 3节中讨论了用于改进其这这样做的能力的各种技术。常常的情况是,可以在离线时执行所期望的动作的一部分但不是全部。举例来说,可以识别文本,但是对源的标识可能取决于去到基于因特网的搜索引擎的连接。因此,在一些实例中,所述装置存储关于每一项操作已经进行到何种程度的足够信息,以供系统的其余部分在恢复连接时高效地继续。所述系统的操作一般将受益于立即可用的连接性,但是存在这样一些情况,即其中执行几项捕获并且随后将其作为一个批次来处理可能是有利的。举例来说,正如下面在第13节中讨论的那样,通过检查由用户在近似相同的时间做出的其他捕获可以大大增强对于特定捕获的源的标识。在其中把现场反馈提供给用户的系统中,所述系统在处理当前捕获时只能使用过去的捕获。但是如果所述捕获是由所述装置在离线时存储的一批的其中之一,则所述系统在进行其分析时将能够考虑到可以从后来的捕获以及早前的捕获获得的任何数据。12. 2、关于主机装置
捕获装置可以与某种其他装置(比如PC)进行通信以便执行所述系统的许多功能,其中包括与用户的更加详细的交互。12. 2. 1、响应于捕获执行的活动
当主机装置接收到捕获时,其可以发起多种活动。下面是在定位了与所述捕获相关联的电子对应物文档和该文档内的位置之后由所述系统执行的可能活动的不完全列表。·可以把捕获的细节存储在用户的历史中。(第6. 1节) 可以从本地存储或者远程位置检索文档。(第8节) 可以更新与文档相关联的操作系统的元数据和其他记录。(第11. 1节) 可以检查与文档相关联的标记以便确定接下来的相关操作。(第5节) 可以启动软件应用以便对文档进行编辑、查看或其他操作。对于应用的选择可以取决于源文档或者捕获的内容或者捕获的某一其他方面。(第11. 2. 2,11. 2. 3节)
所述应用可以滚动到、高亮显示、把插入点移动到或者以其他方式表明捕获位置。(第 11. 3 节)
可以修改所捕获的文本的精确边界,以便例如选择围绕所捕获的文本的整个字、句子或段落。(第11. 3. 2节)
可以向用户给出将所捕获的文本拷贝到剪贴板或者对其执行其他标准操作系统或特定于应用的操作的选项
可以把注释与文档或所捕获的文本相关联。这些注释可以来自即时用户输入,或者可以是较早前捕获的(例如在与所捕获的图像相关联的话音注释的情况下)。(第19. 4节) 可以检查标记以便确定一个未来可能的操作集合以供用户选择。12. 2. 2、情境弹出菜单
由系统采取的适当动作有时将是显而易见的,但是有时将需要由用户做出选择。这样做的一种很好的方式是通过使用靠近内容出现在捕获装置的显示器上的“弹出菜单”或所谓的“情境菜单”。(参见第11. 3.3节)。在一些实例中,捕获装置将弹出菜单投影到纸质文档上。用户可以利用诸如键盘和鼠标之类的传统方法从这样的菜单中进行选择,或者通过使用捕获装置上的控制(第12. 1. 2节)、姿态(第12. 1. 3节)或者通过利用捕获装置与计算机显示器进行交互(第12. 2. 4节)从所述菜单中进行选择。在一些实例中,可以作为捕获的结果出现的弹出菜单包括代表在用户没有做出响应的情况下(例如如果用户忽略该菜单并且进行另一次捕获的话)发生的动作的默认项目。12. 2. 3、关于消除不定性的反馈
当用户开始捕获文本时,最初将有所述文本可以匹配的几份文档或其他文本位置。随着捕获到更多的文本并且考虑到其他因素(第13节),候选位置的数目将减少,直到标识出实际位置为止,或者直到在没有用户输入的情况下不可能进一步消除不定性为止。在一些实例中,所述系统提供对于所找到的文档或位置的实时显示(例如以列表、缩略像或文本片段的形式),并且随着捕获继续使得该显示中的元素数目在数目上减少。在一些实例中,所述系统显示所有候选文档的缩略图,其中所述缩略图的尺寸或位置取决于其作为正确匹配的概率。当明确无疑地标识出捕获时,可以利用例如音频反馈来向用户强调这一事实。有时所捕获的文本将出现在许多文档中,并且将被识别为一段引语。所述系统将在屏幕上表明这一点,例如通过围绕原始的源文档将包含所引用的引文的各文档组成群组。12. 2. 4、从屏幕捕获
某些捕获装置可能能够捕获显示在屏幕以及纸张上的文本。相应地,术语所呈现的文档在这里被用来表明印刷到纸张上不是仅有的呈现形式,并且当文本被显示在电子显示器上时,捕获文本或符号以供所述系统使用可以同样有价值。出于多种其它原因可能需要所描述的系统的用户与计算机屏幕进行交互,以便从一个选项列表进行选择。其他节已经描述了捕获装置上的物理控制(第12. 1. 2节)或姿态 (第12. 1. 3节)以作为输入方法,其即使在从与诸如键盘或鼠标之类的替换输入方法相关联的显示器装置捕获信息时也可能是便利的。在一些实例中,捕获装置可以感测到其在屏幕上的位置而无需处理所捕获的文本,这可能是借助于计算机上的特殊硬件或软件而实现的。13、情境解释
所描述的系统的一个很重要的方面是除了对于文本串的简单捕获之外还使用其他因素来帮助标识所使用的文档。捕获适量文本常常可以唯一地标识文档,但是在许多情况下将标识出几份候选文档。一种解决方案是提示用户确认所捕获的信息的源,但是一种优选的替换方案是利用其他因素来自动收窄可能性。这样的补充信息可以大大减少所需捕获的文本数量,并且/或者提高能够标识电子对应物中的位置的可靠性和速度。这种额外的材料被称作“情境”,并且在第4. 2. 2节中做了简要讨论。现在将对其进行更深的考虑。13. 1、系统和所捕获的文本
这种信息的可能最重要的实例是用户的捕获历史。高度有可能的情况是任何给定捕获来自与前一次捕获相同的文档或者来自相关联的文档,特别在前一次捕获发生在最近几分钟内的情况下尤其是这样(第6. 1. 2节)。相反,如果所述系统检测到字体在两次捕获之间发生了改变,则更有可能的情况是二者来自不同的文档。此外还有用的是用户的长期捕获历史和阅读习惯。这些也可以被用来开发用户的兴趣和关联的模型。13. 2、用户的真实世界情境
有用的情境的另一个实例是用户的地理位置。例如身处巴黎的用户与阅读Seattle Times相比更有可能在阅读Le Monde0因此,文档的印刷版本的定时、尺寸和地理分布可能非常重要,并且可能在某种程度上从系统操作中推断出来。例如对于总是在上班路上阅读一种类型的出版物并且在午餐时间或回家的火车上阅读不同类型的出版物的用户来说,一天的时间也可能是相关的。13. 3、有关的数字情境
用户近期对电子文档(其中包括通过更加传统的方式搜索或检索的那些电子文档)的使用也可以是有用的指示符。在某些情况下,比如在企业网络上,可以有用地考虑其他因素 哪些文档近期被打印?
哪些文档近期在企业文件服务器上被修改? 哪些文档近期通过电子邮件被发送?
所有这些实例都暗示着用户更有可能在阅读这些文档的纸质版本。与此相对,如果文档驻留在其中的存储库可以证实该文档从未被打印或者被发送到其可能在该处被打印的任何地方,则可以在源自纸张的任何搜索中安全地去除该文档。13. 4、其他统计——全局情境
第14节涵盖了从基于纸张的搜索得到的数据流的分析,但是在这里应当提到的是,关于文档对于其他读者的受欢迎度的统计、关于该受欢迎度的定时的统计以及关于最为频繁地被捕获的文档部分的统计都是可以有益于搜索处理的另外的因素的实例。所述系统为纸张的世界带来了 Google类型的页面排序的可能性。对于搜索引擎使用情境的某些其他实现方式还参见第4. 2. 2节。14、数据流分析
作为副作用使用所述系统还生成极为有价值的数据流。该数据流是对于用户何时正在阅读什么的记录,并且在许多情况下是对其在所阅读的事物中找到什么特别有价值的内容的记录。这样的数据之前从未真正可用于纸质文档。在第6. 1节中描述了该数据可用于所述系统以及所述系统的用户的一些方式。本节集中于其在其他方面的用途。当然对于与人们正在阅读的内容有关的数据的任何分发都应当考虑基本的隐私问题,但是诸如保持数据匿名性之类的问题是本领域技术人员所公知的。14. 1、文档跟踪
当系统知晓任何给定用户正在阅读哪些文档时,其还可以推断出谁正在阅读任何给定文档。这就允许通过组织跟踪文档,以便允许例如分析谁何时正在阅读该文档,其被分发的范围有多广,该分发所花费的时间有多长,以及谁看过了当前版本而其他人正在从过期拷贝工作。对于具有更广分发的出版文档,对于各单独拷贝的跟踪更加困难,但是对于读者群的分布的分析仍然是可能的。14. 2、丨词if _序——当禾Π子K M的等欢迎鹿
在用户正捕获其特别感兴趣的文本或其他数据的情况下,所述系统可以推断出特定文档和这些文档的特定子区域的受欢迎度。这就形成了对于所述系统本身的有价值的输入 (第4. 2. 2节)以及用于作者、出版者和登广告者的重要信息源(第7. 6节、第10. 5节)。该数据在被集成到搜索引擎和搜索索引中时也是有用的,例如用于帮助对来自所呈现的文档的查询的搜索结果进行排序,以及/或者用于帮助对被键入网络浏览器的传统查询进行排序。14. 3、对于用户的分析——建立简档
关于用户正在阅读什么的知识使得系统能够创建用户的兴趣和活动的相当详细的模型。这在抽象的统计基础上可能是有用的(购买该报纸的35%的用户还阅读该作者的最近一本书),但是其还可以允许与个别用户进行其他交互,正如下面所讨论的那样。14. 3. 1、社交网络
一个实例是把一个用户与具有相关兴趣的其他人相连。所述其他人可能是该用户已经知晓的人。所述系统可以向一位大学教授询问“您是否知道您在XYZ大学的同事刚刚也阅读了这篇文章? ”所述系统可以向一位用户询问“您是否想要与您住地附近的同样正在阅读《Jane Eyre))的其他人关联? ”这样的关联可以是自动形成读书俱乐部和类似社会结构的基础,不管是在物理世界中还是在线上。14. 3. 2、市场营销
第10. 6节已经提到了基于其与系统的交互来为个别用户提供产品和服务的想法。当前的在线书商例如常常基于其先前与该书商的交互来为用户做出推荐。当这样的推荐基于与实际书刊的交互时,它们变得有用得多。
14. 4、基于数据流的其他方面的市场营销
我们已经讨论过了所述系统可以影响那些出版文档、那些通过文档做的广告以及从纸张发起的其他销售的一些方式(第10节)。某些商业活动可能与纸质文档完全没有直接交互但是仍然可能会受其影响。举例来说,关于一个社区内的人们花在阅读报纸的体育版上的时间要多于他们花在财经版上的时间的知识对于正想设立健身房的某人来说可能会感兴趣。14. 5、可以被捕获的数据类型
除了所讨论的统计(比如谁在何时何地阅读哪些文档的哪些部分)之外,可能令人感兴趣的是检查所捕获的文本的实际内容,而不管所述文档是否被定位。在许多情况下,用户将不仅是捕获一些文本,而是将使得作为结果导致发生某种动作。其例如可能用电子邮件将该文档推介给熟人。即使在没有关于所述用户或电子邮件接收者的身份的信息的情况下,关于某人认为值得用电子邮件发送所述文档的知识也是非常有用的。除了所讨论的用于推断出特定文档或文本段的值的各种方法之外,在某些情况下,用户将通过为其指定评级来明确地表明所述值。最后,当已知特定用户集合形成一个群组时,例如当已知其是特定公司的雇员时, 所聚集的该群组的统计可以被用来推断出特定文档对该群组的重要性。这一点适用于根据关于文档、捕获、用户等等的数据通过机器分类技术(比如Bayesian统计、分类、k最近邻域 (k-rm)、奇异值分解(SVD)等等)所标识出的群组。15、装置特征和功能
在一些实施例中,比如在文本捕获可以通过图像捕获适当地进行并且由移动电话本身处理的情况下,或者在文本捕获可以由移动电话例如通过无线网络连接或蜂窝连接可访问的系统来处理的情况下,或者在文本捕获被存储在移动电话的存储器中以供将来处理的情况下,捕获装置可以与其中电话硬件未被修改成支持所述系统的移动电话集成在一起。许多现今的电话具有下载适于实施所述系统的某些部分的软件的能力。在一些实例中,内建到许多移动电话中的摄影机被用来捕获文本的图像。电话显示器通常将充当所述摄影机的取景器,其可以在现场摄影机图像上覆盖信息,所述信息是关于图像质量及其对于OCR 的适用性、哪些文本片段正被捕获以及甚至在电话上可以执行OCR的话还有所述文本的转录。所述电话显示器还可以提供接口,用户通过该接口可以与所捕获的文本进行交互并且调用相关联的动作。类似地,可以通过移动电话的麦克风捕获话音数据。但是这样的话音捕获在许多情况下可能是次最优的,比如当存在相当大的背景噪声时,并且在最好的情况下精确的话音识别也是一项很难的任务。最好可以使用音频设施来捕获话音注释。在一些实例中,所述电话被修改成添加专用捕获设施,或者在与该电话进行通信的夹装式适配器或单独的Bluetooth 连接的外设中提供这种功能。不管捕获机制的性质如何,所述系统与现今的蜂窝电话的集成都具有许多其他优点。电话具有与更广阔世界的连接性,这意味着可以将查询提交到远程搜索引擎或系统的其他部分,并且可以检索文档拷贝以供即时存储或查看。电话通常具有足够的处理能力以便在本地执行所述系统的许多功能,并且具有足够的存储空间以便捕获合理数量的数据。所述存储量常常还可以由用户扩展。电话具有合理地良好的显示器和音频设施来提供用户反馈,并且常常具有振动功能以用于触觉反馈。其还具有良好的电源。也许最重要的是,许多预期的用户已经携带有移动电话。用于与所述系统一起使用的捕获装置只需要一种从文档的所呈现版本捕获文本的方式而已。如前所述,可以通过多种方法实现这种捕获,其中包括影印文档的一部分或者在小键盘上键入一些字。可以利用具有图像和音频捕获能力的移动电话或者利用还记录话音注释的光学扫描器来实现这种捕获。15. 1、输入和输出
在第12. 1节中已描述了用于所述装置的许多可能有益的附加输入和输出。他们包括用于输入的按钮、滚轮和触摸板,以及用于输出的显示器、指示灯、音频和触觉换能器。所述装置有时将合并这些输入和输出当中的许多,有时非常少。捕获装置有时将能够例如利用无线链接与已经具有所述输入和输出的另一个装置进行通信(第15. 6节),并且有时捕获功能将被合并到所述其他装置中(第15. 7节)。15. 2、连接件
在一些实例中,所述装置本身实施所述系统的大部分。但是在一些实例中,其常常利用通信设施与PC或其他计算装置以及与更广阔的世界进行通信。这些通信设施常常具有通用数据网络的形式,比如以太网、802. 11或UWB,或者具有标准外设连接网络的形式,比如USB、IEEE-1394 (Firewire)、BluetoothTM或红外。当使用诸如Firewire或USB之类的有线连接时,所述装置可以通过相同的连接来接收电力。在某些情况下,捕获装置对所连接的机器看起来可以是诸如USB存储装置之类的传统外设。最后,所述装置在某些情况下可以与另一个装置“对接”,这或者是为了与该装置相结合地使用或者是为了方便的存储。15. 3、高速缓存和其他在线/离线功能
第3. 5和12. 1. 4节提出了断开的操作的论题。当捕获装置具有全部系统功能的有限子集并且不与系统的其他部分通信时,该装置仍然可以是有用的,但是可用功能有时会减少。 在最简单的级别下,所述装置可以记录正在捕获的未经处理的图像或音频数据并且可以在后面对其进行处理。但是为了用户的益处,可能很重要的是在可能的情况下给出反馈,所述反馈是关于所捕获的数据对于手头的任务是否可能足够,其是否可以被识别或者可能是可识别的,以及数据源是否可以被标识或者可能在后来是可标识的。用户随后将知晓其捕获活动是否值得。即使在所有前述内容都未知的情况下,仍然可以存储未经处理的数据,从而用户至少可以在后来对其进行参照。例如在无法通过OCR处理识别捕获时,可以为用户给出捕获的图像。为了说明某些可用选项范围,下面将描述一个相当最简化的光学扫描装置并且随后是一个特征全面得多的光学扫描装置这二者。许多装置占据介于二者之间的中间范围。15. 3. 1、简单扫描器(SimpleScanner)——低端离线实例
简单扫描器具有能够在其沿着一行文本的长度移动时从页面读取像素的扫描头。其可以检测其沿着页面的移动并且在记录像素时带有关于所述移动的一些信息。其还具有时钟,所述时钟允许对每一次扫描加时间戳。当简单扫描器具有连接性时,所述时钟与主机装置同步。所述时钟可能不表示实际日期时间,而是可以从其确定相对时间,从而使得主机能够推断出实际扫描时间,或者最差也能推断出扫描之间所经过的时间。简单扫描器没有足够的处理能力来由其自身执行任何OCR,但是其确实具有关于典型的字长度、字间距及其与字体尺寸的关系的一些基本知识。简单扫描器具有一些基本指示灯,所述指示灯告诉用户所述扫描是否可能是可读的,扫描头是否正在纸张上过快、过慢或过于不准确地移动,以及其何时确定可能已经扫描了足以标识文档的给定尺寸的字。简单扫描器具有USB连接器并且可以被插入到计算机上的USB端口中,其在该处将被再充电。对于计算机来说简单扫描器看起来是其上记录有加了时间戳的数据文件的 USB存储装置,并且系统软件的其余部分将从这一点接手。15. 3. 2、超级装置(SuperDevice)——高端离线实例
超级装置对于其完全操作也依赖于连接性,但是其具有大量板载存储空间和处理,这些可以帮助其关于在离线时捕获的数据做出更好的判断。随着超级装置例如通过处理由该超级装置的摄影机捕获的文档图像而捕获文本, 所捕获的文本被传递到尝试识别所述文本的OCR引擎。多种字体(其中包括来自用户阅读最多的出版物的那些字体)已被下载给它以帮助执行其任务,此外还有与用户PC上的其拼写检查器字典同步的字典(并且因此其包含用户频繁遇到的许多字)。在超级装置上还存储了一个带有其典型使用频率的字和短语列表,其可以与所述字典相组合。超级装置可以使用这些频率统计来帮助识别处理并且还通知其关于何时已经捕获到足够数量的文本的判断二者;更加频繁地使用的短语作为搜索查询基础的有用性不太可能。此外,对于用户最常阅读的报纸和期刊的近期刊物中的文章的完全索引被存储在超级装置上,此外还有用户近期从在线书商处购买的书刊的索引,或者用户在最近几个月内从中捕获了任何内容的书刊的索引。最后,存储具有可用于所述系统的数据的几千部最受欢迎出版物的题名,从而在没有其他信息的情况下,用户可以捕获所述题名并且具有关于来自特定著作的捕获是否可能在后来可以电子形式检索的好想法。在捕获处理期间,所述系统向用户通知所捕获的数据的质量和性质足以使得有可能在连接性恢复时能够检索所捕获的信息的电子拷贝。所述系统常常向用户表明已经知道所述捕获是成功的并且已在其中一个板载索引中识别出情境,或者表明已经知道所涉及的出版物使其数据可用于所述系统,因此后来的检索应当是成功的。停放在连接到PC的Firewire或USB端口的托架中的超级装置在该点处除了上传所捕获的数据之外,还基于近期的用户活动和新的出版物来更新其各种板载索引和其他数据库。超级装置还具有用以连接到无线公共网络、蜂窝网络或者通过Bluetooth 与移动电话进行通信的设施,并且从而在这些设施可用时与公共网络相连。在某些情况下,可以通过无线方式更新所述板载索引和其他数据库。可以由用户发起或者由系统自动发起所述更新处理。15. 4、图像捕获的特征
下面我们将考虑在捕获装置中可能特别合乎期望的一些特征。15. 4. 1、灵活的定位和便利的光学器件
纸张持续受欢迎的其中一个原因在于其在广泛的许多情况下都易于使用,而在例如这些情况下计算机将是不实用或不方便的。意图捕获用户与纸张的交互的很大部分的装置因此应当类似地便于使用。过去对于扫描器来说并不是这种情况;即使是最小的手持式装置
40也在某种程度上不便于使用。被设计成与纸张接触的那些扫描器必须被持握成与纸张成精确角度,并且非常仔细地沿着将要扫描的文本长度移动。这在扫描办公桌上的业务报告时是可以接受的,但是在等待火车时从小说中扫描短语的情况下则是不实用的。与纸张相距一定距离操作的基于摄影机的捕获装置可以类似地在许多情况下都是有用的。所述系统的一些实例使用与纸张相接触地扫描的扫描器,并且其取代透镜使用带有一束光纤的传像管来从页面向光学传感器装置传送图像。这样的装置可以被定形成允许其以自然的位置被持握;例如在一些实例中,与页面接触的部分是楔形的,从而允许用户的手更加自然地在页面上移动,其移动方式类似于使用荧光笔。所述传像管与纸张直接接触或者与之紧邻,并且可以具有可替换的透明尖端,其可以保护所述传像管免受可能的损坏。 正如在第12. 2. 4节中所提到的那样,所述扫描器可以被用来从屏幕以及从纸张进行扫描, 并且所述尖端的材料可以被选择成降低对这样的显示器造成损坏的可能性。最后,所述装置的一些实例将在捕获处理期间向用户提供反馈,其将通过使用光、 声音或触觉反馈来表明该用户何时把捕获装置移动得过快、过慢、过于不均勻或者正在捕获行上漂移得过高或过低。15. 5、安全件、身份、认证、个人化和计费
如第6节中所描述的那样,捕获装置可以形成用于安全的交易、购买的标识和授权以及许多其他操作的一个重要部分。因此除了对于这样的角色所需要的电路和软件之外,所述捕获装置还可以合并能够使其更加安全的各种硬件特征,比如智能卡读取器、RFID或者在其上键入PIN的小键盘。捕获装置还可以包括各种生物测定传感器以帮助标识用户。在具有图像捕获能力的捕获装置的情况下,例如摄影机还能够读取指纹。对于话音记录器,可以使用用户的话音模式。15. 6、装置关联
在一些实例中,捕获装置能够形成与其他附近装置的关联以便提高其自身或所述其他附近装置的功能。在一些实施例中,捕获装置例如利用使用附近PC或电话的显示器来给出关于其操作的补充反馈,或者使用其网络连接性。另一方面,所述装置可以作为安全性和标识装置的角色来操作,以便认证由其他装置执行的操作。或者其可以简单地形成关联以便充当该装置的外设。这种关联的一个令人感兴趣的方面在于,其可以利用所述装置的捕获设施来发起及认证。举例来说,希望向公共计算机终端安全地标识其自身的用户可以使用所述装置的捕获设施来捕获显示在该终端屏幕的特定区域上的代码或符号,并从而实施密钥传递。可以利用由话音记录装置拾取的音频信号来执行类似的处理。15. 7、与其他装置的集成
在一些实例中,捕获装置的功能被集成到已经处于使用中的某一其他装置中。所述集成装置可能能够共享电源、数据捕获和存储能力以及网络接口。这样的集成可以简单地出于方便、为了降低成本或者为了实现在其他情况下将不可用的功能而进行。可以在其中集成捕获功能的装置的一些实例包括
现有的外设,比如鼠标、触笔、USB “网络摄像机”摄影机、Bluetooth 头戴式耳机或遥控器; 另一个处理/存储装置,比如PDA、MP3播放器、话音记录器或数码摄影机; 其他常常携带或常常佩戴的物品,仅仅出于方便起见——手表、一件珠宝、眼镜、帽子、笔、汽车钥匙扣;等等。第三部分——所沭系统的示例件应用
本节列出了所述系统的示例性使用以及可以建立在其上的应用。该列表纯粹意图是说明性而绝不是穷举性的。16、个人应用 16. 1、牛活库
生活库(还参见第6. 1. 1节)是订户想要保存的任何重要文档的数字档案,并且是该系统的服务的一个实例集合。重要的书刊、杂志文章、剪报等等都可以按照数字形式被保存在生活库中。此外,还可以随着文档保存订户的注释、意见和标注。可以通过因特网和万维网来访问生活库。所述系统为订户创建并管理生活库文档档案。订户通过捕获来自文档的信息来表明该订户希望把哪些文档保存在其生活库中,或者通过其他方式向所述系统表明应当把特定文档添加到该订户的生活库中。所捕获的信息通常是来自文档的文本,但是也可以是标识文档的条形码或其他代码。所述系统接受所述代码并且使用所述代码来标识源文档。在标识出文档之后,所述系统可以把该文档的一份拷贝存储在用户的生活库中或者存储去到可以在该处获得所述文档的源的链接。生活库系统的一个实例可以检查订户是否被授权获得电子拷贝。举例来说,如果读者从New York Times (NYT)中的一篇文章的一份拷贝捕获文本或标识符从而将把该文章添加到该读者的生活库中,则所述生活库系统将向NYT验证所述读者是否订阅了 NYT的在线版本;如果是的话,则该读者获得存储在其生活库帐户中的所述文章的一份拷贝;如果不是的话,则把标识所述文档以及关于如何订购的信息存储在其生活库帐户中。在一些实例中,所述系统为每一个订户保持一个订户简档,其包括访问特权信息。 可以按照几种方式来编辑文档访问信息,其中两种是1)订户向生活库系统提供文档访问信息连同其帐户名和口令等等;或者2)生活库服务提供者利用订户信息向出版者进行查询,并且如果生活库订户被授权访问所述材料则出版者通过提供对于电子拷贝的访问而做出响应。如果生活库订户没有被授权拥有文档的电子拷贝,则出版者向生活库服务提供者给出一个价格,所述服务提供者随后为顾客提供购买电子文档的选项。如果是这样的话,则生活库服务提供者或者向出版者直接付费并且在后来向生活库顾客计费,或者生活库服务提供者立即向顾客的信用卡计费以进行购买。生活库服务提供者将为促进所述交易而得到购买价格的一定百分比或者较少的固定费用。所述系统可以把文档归档在订户的个人库和/或该订户对之具有档案特权的任何其他库中。举例来说,随着用户从印刷文档中捕获文本,生活库系统可以标识所呈现的文档及其电子对应物。在标识出源文档之后,生活库系统可能把关于源文档的信息记录在用户的个人库中并且记录在订户对之具有档案特权的群组库中。群组库是诸如文档存储库之类的协作档案,其用于在一个项目上一起工作的群组,一个学术研究员群组,一个群组网络博客等等。可以按照许多方式来组织生活库按照时间先后顺序,通过主题,通过订户的兴趣级别,通过出版物的类型(报纸、书刊、杂志、技术文章等等),在何处阅读,何时阅读,通过 ISBN,或者通过Dewey十进位等等。在一种替换方案中,所述系统可以基于其他订户如何对相同文档进行分类来学习分类。所述系统可以向用户建议分类或者为用户自动分类文档。在各个实例中,可以把注释直接插入到文档中或者可以将其保持在一个单独的文件中。举例来说,当订户从报纸文章中捕获文本时,所述文章被归档在其生活库中其中所捕获的文本被高亮显示。可替换地,所述文章连同相关联的注释文件被归档在其生活库中(从而保持已归档的文档不被修改)。所述系统的实例可以在每一个订户的库中保存源文档的拷贝,在许多订户可以访问的主库中保存拷贝,或者链接到由出版者持有的拷贝。在一些实例中,生活库只存储用户对文档的修改(例如高亮显示等等)以及去到 (存储在别处的)所述文档的在线版本的链接。在订户后来检索文档时,所述系统或订户将所述改变与文档合并。如果注释被保存在单独的文件中,则源文档和注释文件被提供给订户并且订户将它们组合以创建经过修改的文档。可替换地,所述系统在将其提供给订户之前组合所述两个文件。在另一种替换方案中,注释文件是对文档文件的覆盖,并且可以由订户计算机中的软件覆盖在文档上。生活库服务的订户支付月费以便令所述系统保持该订户的档案。可替换地,订户对于被存储在档案中的每一份文档支付少量费用(例如微支付)。可替换地,订户基于每次访问费用来付费以访问该订户的档案。可替换地,订户可以编辑库并且基于与生活库服务提供者和版权所有者的收益共享模型而允许其他人访问所述材料/注释。可替换地,生活库服务提供者在生活库订户订购文档时接收来自出版者的付费(与出版者的收益共享模型,其中生活库服务提供者得到出版者的收益当中的一份)。在一些实例中,生活库服务提供者充当订户与版权所有者(或者版权所有者的代理人,比如版权结算中心,又叫作CCC)之间的中介,以便促进对于受到版权保护的材料的计费和支付。生活库服务提供者使用订户的计费信息和其他用户帐户信息来提供该中介服务。实质上,生活库服务提供者利用与订户的预先存在的关系来实现代表订户购买受到版权保护的材料。在一些实例中,生活库系统可以存储来自文档的摘要。举例来说,当订户从纸质文档捕获文本时,摘录围绕所捕获的文本周围的区域并且将其放置在生活库中,而不是把整个文档归档到生活库中。这在文档较长时是特别有利的,因为保留原始捕获的情况会防止订户重新阅读文档以找到感兴趣的部分。当然,可以包括去到纸质文档的整个电子对应物的超链接与摘要材料。在一些实例中,所述系统还把关于文档的信息存储在生活库中,比如作者、出版物题名、出版日期、出版者、版权所有者(或者版权所有者的持证代理人)、ISBN、去到文档的公共注释的链接、阅读排序等等。关于文档的该附加信息当中的一些是纸质文档元数据的形式。第三方可以创建公共注释文件以便由除了其自身之外的人(比如一般公众)访问。去到第三方关于文档的评注的链接是有利的,这是因为阅读其他用户的注释文件会增强订户对文档的理解。在一些实例中,所述系统通过分类来对材料进行归档。这一特征允许生活库订户快速存储针对整个一类纸质文档的电子对应物而无须访问每一份纸质文档。举例来说,当订户从国家地理杂志的一份拷贝中捕获一些文本时,所述系统为订户提供将国家地理的所有过期刊物进行归档的选项。如果订户选择归档所有过期刊物,则生活库服务提供者随后将向国家地理协会验证该订户是否被授权这样做。如果不是的话,则生活库服务提供者可以居间促成购买归档国家地理杂志合集的权利。16. 2、牛活保存器
生活库概念的一种变型或增强是“生活保存器”,其中所述系统利用由用户捕获的文本来推断出关于用户的其他活动的更多信息。从特定餐厅捕获菜单、从特定剧院演出捕获节目、在特定火车站处捕获时刻表或者从本地报纸捕获文章允许所述系统做出关于用户的位置和社会活动的推断,并且可以为其构造自动日记,例如作为一个网络站点。用户将能够编辑并修改所述日记,添加例如照片之类的附加材料,以及当然还有再次查看所捕获的项目。17、学术应用
由所描述的系统所支持的捕获装置在学术环境中具有许多引入注目的用途。其可以增强学生/教师交互并且加强学习体验。在其他用途当中,学生可以对学习材料加注释以便适合其特有的需求;教师可以监视课堂表现;并且教师可以自动验证在学生的作业中所引用的源材料。17. 1、儿童书刊
通过一个识字获取系统来监测儿童与纸质文档(比如一本书)的交互,所述识字获取系统采用了本系统的一个特定实例集合。儿童使用与识字获取系统中的其他元件进行通信的捕获装置。除了捕获装置之外,识字获取系统还包括显示器和扬声器以及可以由捕获装置访问的数据库。当儿童看到书中的未知字时,该儿童利用捕获装置对其进行捕获。在一个实例中,识字获取系统将所捕获的文本与其数据库中的资源进行比较以便标识该字。所述数据库包括字典、辞典和/或多媒体文件(例如声音、图形等等)。在标识出所述字之后,所述系统使用扬声器向儿童发音该字及其定义。在另一个实例中,由识字获取系统在显示器上显示字及其定义。还可以通过显示器和扬声器来播放关于所捕获的字的多媒体文件。举例来说,如果正在阅读《金发姑娘与三只熊》的儿童捕获了 “熊”字,则所述系统可能发音“熊” 字并且在显示器上播放关于熊的短视频。通过这种方式,儿童学习到发音该书写的字,并且通过多媒体演示以视觉方式教会其该字的含义是什么。识字获取系统提供即时的听觉和/或视觉信息以便增强学习过程。儿童使用该补充信息来快速获取对于书面材料的更深理解。所述系统可以被用来教导初学阅读者进行阅读,以帮助儿童获取更大词汇量等等。该系统为儿童提供关于其所不熟悉的字的信息,或者提供关于儿童想要知道其更多信息的字的信息。17. 2、识字获取
在一些实例中,所述系统编辑个人字典。如果读者看到新的、感兴趣的字或者特别有用或麻烦的字,则读者可以将该字(连同其定义)保存到计算机文件。该计算机文件变成读者的个人化字典。该字典的大小通常小于一般的字典,从而可以被下载到移动站或相关联的装置,并且即使当所述系统无法即时访问时也可用。在一些实例中,个人字典条目包括用以帮助正确的字发音的音频文件以及标识从中捕获该字的纸质文档的信息。在一些实例中,所述系统为学生创建定制的拼写和词汇测试。举例来说,在学生阅读作业时,该学生可以利用捕获装置来捕获不熟悉的字。所述系统存储学生所捕获的所有字的列表。所述系统后来在相关联的监视器上管理为学生定制的拼写/词汇测试(或者在相关联的打印机上打印这样的测试)。17. 3、咅乐教学
音乐五线谱上的音符布置类似于一行文本中的字母布置。捕获装置可以被用来捕获音乐符号,并且构造针对已知音乐作品的数据库的搜索的类似处理将允许标识出从中发生了所述捕获的作品,随后可以检索、播放该作品或者将其作为某种其他动作的基础。17. 4、检测票1丨窃
教师可以利用所述系统来检测剽窃或者验证来源,这是通过从学生的文章中捕获文本并且将所捕获的文本提交给所述系统而实现的。举例来说,希望验证学生文章中的引文确实来自该学生所引用的源的教师可以捕获所述引文的一部分,并且把由所述系统标识出的文档的题名与该学生所引用的文档的题名进行比较。同样地,所述系统可以使用来自作为学生的原创作品提交的作业的文本捕获来揭示所述文本是否作为代替是拷贝的。17. 5、增强的教科书
在一些实例中,从学术教科书中捕获文本会把学生或教员链接到更加详细的解释、另外的练习、关于材料的学生和教员讨论、过去的考试问题的有关实例、关于主题的另外的阅读、关于主题的演讲的记录等等。(还参见第7.1节)。17. 6、语言学习
在一些实例中,所述系统被用来教授外语。例如捕获一个西班牙语字可能导致用西班牙语出声阅读该字连同用英语阅读其定义。所述系统提供即时的听觉和/或视觉信息以便增强新语言获取过程。读者利用该补充信息来快速获取对于材料的更深理解。所述系统可以被用来教导初学学生阅读外语, 帮助学生获取更大词汇量等等。所述系统提供关于读者不熟悉的外语字的信息,或者提供关于读者想要得到其更多信息的外语字的信息。当捕获一种语言的文本时,捕获装置可以用用户更熟悉的另一种语言来显示所捕获的文本。作为另一个实例,捕获装置可以像其在文档中所出现的那样显示所捕获的文本,但是允许用户例如通过在捕获装置的触摸屏上轻敲其所不熟悉或未知的特定字来选择性地翻译及显示所述字。所述翻译可以由捕获装置执行,或者被发送到另一个系统以进行翻译。由语言技能系统监测与纸质文档(比如报纸或书刊)的读者交互。读者具有与所述语言技能系统进行通信的捕获装置。在一些实例中,语言技能系统包括显示器和扬声器以及可以由捕获装置访问的数据库。当读者看到文章中的未知字时,该读者利用捕获装置对其进行捕获。所述数据库包括外语字典、辞典和/或多媒体文件(声音、图形等等)。在一个实例中,所述系统把所捕获的文本与其数据库中的资源进行比较以便标识所捕获的字。在标识出所述字之后,所述系统使用扬声器向读者发音该字及其定义。在一些实例中,所述字及其定义二者都被显示在显示器上。还可以通过显示器和扬声器来播放关于与所捕获的字有关的语法要点的多媒体文件。举例来说,如果捕获到“说(to speak)”字,则所述系统可以发音“hablar”字,播放示范正确的西班牙语发音的短音频剪辑,并且显示“hablar”的各种变形的完整列表。按照这种方式,学生学习到发音书面字,通过多媒体演示以视觉方式教会其该字的拼写,并且令其学习到如何对动词进行变形。所述系统还可以给出关于“hablar” 连同常见短语的正确使用的语法要点。
在一些实例中,用户在与该用户的母语(或者用户知道得相当好的某种其他语言) 不同的一种语言下从所呈现的文档捕获字或短语。在一些实例中,所述系统保持用户的“优选”语言的经过优先级排序的列表。所述系统标识所呈现的文档的电子对应物,并且确定所述捕获在文档内的位置。所述系统还标识被翻译成用户的其中一种优选语言的所述文档的第二电子对应物,并且确定与所述捕获在原始文档中的位置相对应的翻译后的文档中的位置。当并不精确地知道相应的位置时,所述系统标识包括所捕获的位置的相应位置的小区域(例如段落)。随后把相应的翻译后的位置给予用户。这样就为用户提供了对于所捕获的位置处的特定使用的精确翻译,其中包括常常难以基于逐字地精确翻译的任何俚语或其他习惯用法。17. 7、收集研究材料
正在研究特定论题的用户可能会遇到印刷的和屏幕上二者的所有种类的材料,其可能会想要在某一个人档案中把这些材料记录成与所述论题相关。所述系统将使得能够作为在任何一件材料中捕获短语的结果而自动执行所述处理,并且还可以创建适于插入到关于所述主题的出版物中的参考书目。18、商业应用
显而易见的是,可以将该文档中所讨论的几乎任何处理都变成商业活动,但是在这里我们集中于几个明显的收益流。18. 1、基于费用的捭索和索引
传统的因特网搜索引擎通常提供对于电子文档的免费搜索,并且对于内容提供者将其内容包括在索引中的做法也不收费。在一些实例中,所述系统结合该系统的操作和使用提供对于用户的收费以及/或者对于搜索引擎和/或内容提供者的付费。在一些实例中,系统服务的订户对于源自纸质文档的捕获的搜索支付费用。举例来说,股票经纪人可能正在阅读关于由X公司提供的新产品的一篇华尔街日报文章。通过从纸质文档中捕获X公司的名称并且同意支付必要的费用,该股票经纪人使用所述系统来搜索专用或专有数据库来获得关于该公司的高价值信息,比如分析师的报告。所述系统还可以做出安排以具有最有可能以纸张形式被阅读的文档的优先级索引,这例如是通过确保在特定的一天出版的所有报纸在其上市时都被索引并且可用。内容提供者可以支付费用以便与从纸质文档提交的搜索查询中的特定项目相关联。举例来说,在一个实例中,所述系统基于关于提供者的附加情境(所述情境在本该情况中是内容提供者已经支付了一定费用以便在结果列表中向上移动)选择最优选的内容提供者。实质上,搜索提供者正基于与内容提供者的预先存在的财务安排来调节纸质文档搜索结果。还参见第5. 2节中对关键字和关键短语的描述。在对于特定内容的访问应当被限制到特定人群(比如客户或雇员)的情况下,这样的内容可以受到防火墙保护,并且从而通常不可由第三方检索。但是内容提供者可能希望提供对于受保护内容的索引。在这种情况下,内容提供者可以向服务提供者付费,以便把内容提供者的索引提供给系统订户。举例来说,律师事务所可以对客户的所有文档进行索引。 所述文档被存储在所述律师事务所的防火墙后方。但是律师事务所希望其雇员和客户可以通过捕获装置访问文档,因此其向服务提供者提供索引(或者指向所述索引的指针),所述服务提供者接着在所述律师事务所的雇员或客户提交通过捕获装置所捕获的搜索项目时搜索该律师事务所的索引。所述律师事务所可以向服务提供者的系统提供一个雇员和/或客户列表以便实现这种功能,或者所述系统可以通过在搜索律师事务所的索引之前对该律师事务所进行查询来验证访问权利。应当提到的是,在前面的实例中,由律师事务所提供的索引仅仅是该客户的文档的索引,而不是所述律师事务所处的所有文档的索引。因此,服务提供者可以仅仅向律师事务所的客户授予对于该律师事务所为所述客户索引的文档的使用权。从源自纸质文档的搜索可以得到至少两个单独的收益流一个收益流是来自搜索功能,并且另一个是来自内容递送功能。搜索功能收益可以从来自用户的付费订阅产生,但是也可以关于每次搜索收费而产生。内容递送收益可以与内容提供者或版权所有者共享 (服务提供者可以获得销售的一定百分比或者对于每一次递送的固定费用(比如微支付)), 但是也可以通过“介绍”模型产生,其中所述系统对于订户从在线目录订购并且已由该系统递送或有所贡献的每一件商品获得费用或百分比,而不管服务提供者是否居间促成所述交易。在一些实例中,系统服务提供者对于订户从内容提供者进行的所有购买得到收益,这或者是在某一预定时间段内或者是在购买一件已标识的产品时的任意后续时间实现的。18. 2、目录
消费者可以使用捕获装置从纸质目录进行购买。订户从所述目录捕获标识该目录的信息。该信息是来自目录的文本、条形码或者所述目录的另一种标识符。订户捕获标识她/ 他希望购买的产品的信息。目录邮寄标签可以包含顾客标识号,其向目录销售商标识顾客。 如果是这样的话,则订户还可以捕获该顾客标识号。所述系统充当订户与销售商之间的中介,以便通过向销售商提供顾客选择和顾客标识号来促成目录购买。18. 3、优惠券
消费者捕获纸质优惠券并且把所述优惠券的电子拷贝保存在捕获装置中或者保存在诸如计算机之类的远程装置中,以供以后检索及使用。电子存储的优点在于,顾客被免除携带纸质优惠券的负担。另一个优点在于,可以从任何位置检索电子优惠券。在一些实例中, 所述系统可以跟踪优惠券到期日期、向消费者提出关于将很快到期的优惠券的警告以及/ 或者从存储中删除已到期的优惠券。对于优惠券的发行者的一个优点在于接收关于谁正在使用优惠券以及优惠券何时何地被捕获及使用的更多反馈的可能性。18. 3、广告入口
广告入口可以允许登广告者创建并管理与各个广告相关联的标记层。在一个实例中, 广告入口可以提供网络接口,登广告者可以通过该网络接口登记一个或多个广告计划以及相关联的信息,比如名称、与所述计划相关联的标记信息、关于应当在何时显示所述计划中的广告以及应当把所述广告显示给谁的信息、关于所广告的产品或服务的信息、以及/或者与广告计划相关联的所广告的产品、标签、关键字和/或关键短语、与广告相关联的文本或其他媒体等等。广告入口还可以提供接口,登广告者通过该接口可以表明应当出现在相关联的标记层中的控制。举例来说,登广告者可以表明广告图像内的特定区域和/或广告文本内的特定短语或字,当在捕获装置上捕获并显示所述广告时,应当与控制覆盖一起显示所述广告图像内的特定区域和/或广告文本内的特定短语或字。在一些实例中,广告入口还可以允许登广告者提供履行规范,其可以包括一个或多个优选销售商和/或“如何购买”处理。广告入口还可以提供接口,通过该接口登广告者可以控制顾客体验的各方面,其中包括是否和/或何时提供特价商品,各种类型的媒体,针对特定用户的兴趣、需求、地理位置、所说语言调整的标记层等等。举例来说,广告入口可以提供广告翻译,即从广告的语言翻译成捕获所述广告的捕获装置的用户所优选的语言。在一些实例中,广告入口可以提供能够由消费者利用的服务。举例来说,广告入口可以允许消费者或其他第三方张贴与广告交互层、销售商、登广告者、产品、服务等等有关的评论和/或评注。在其他实例中,广告入口可以使得用户能够张贴与所呈现或印刷的广告有关的评注,其中包括链接、图像、交叉引用等等。19、一般应用
19. 1、表格
所述系统可以被用来自动填充对应于纸质表格的电子文档。用户捕获到唯一地标识所述纸质表格的一些文本或条形码。捕获装置将所述表格的标识和标识用户的信息传送到附近的计算机。所述附近的计算机具有因特网连接。所述附近的计算机可以访问表格的第一数据库以及具有关于捕获装置的用户的信息的第二数据库(比如服务提供者的订户信息数据库)。所述附近的计算机从第一数据库访问纸质表格的电子版本,并且从获得自第二数据库的用户信息自动填充所述表格的字段。所述附近的计算机随后用电子邮件把完成的表格发送给所意图的接收者。可替换地,所述计算机可以在附近的打印机上打印所述完成的表格。取代访问外部数据库,在一些实例中,所述系统具有捕获装置,其例如在身份模块、SIM或安全性卡中包含用户的信息。捕获装置向附近的PC提供标识所述表格的信息。 所述附近的PC访问电子表格并且向捕获装置查询用以填充所述表格的任何必要信息。19. 2、名片
所述系统可以被用来从纸质文档自动填充电子地址簿或其他联系人列表。举例来说, 在接收到新相识的名片之后,用户可以利用她/他的蜂窝电话捕获所述名片的图像。所述系统将定位所述名片的电子拷贝,其可以被用来利用新相识的联系信息更新蜂窝电话的板载地址簿。与所能挤到名片上的信息相比,所述电子拷贝可以包含关于所述新相识的更多信息。此外,所述板载地址簿还可以存储去到电子拷贝的链接,从而使得对于电子拷贝的任何改变都将在蜂窝电话的地址簿中被自动更新。在该例中,名片可选地包括表明电子拷贝的存在的符号或文本。如果没有电子拷贝存在,则蜂窝电话可以使用OCR和关于标准名片格式的知识来填充地址簿中的对于新相识的条目。符号还可以帮助直接从图像中提取信息的处理。举例来说,名片上的电话号码旁边的电话图标可以被识别来确定电话号码的位置。19. 3、校阅/编辑
所述系统可以增强校阅和编辑处理。所述系统可以增强编辑处理的一种方式是通过把编辑者与纸质文档的交互关联到其电子对应物。随着编辑者阅读纸质文档并且捕获所述文档的各部分,所述系统将对纸质文档的电子对应物做出适当的注释或编辑。举例来说,如果编辑者利用捕获装置捕获一部分文本并且做出“新段落”的控制姿态,则与捕获装置进行通信的计算机将在所述文档的电子拷贝中的所捕获的文本的位置处插入“新段落”分割符。19. 4、话音注释
用户可以通过从文档捕获一部分文本并且随后做出与所捕获的文本相关联的话音记录来对所述文档做出话音注释。在一些实例中,捕获装置具有用以记录用户的口头注释的
48麦克风。在记录了口头注释之后,所述系统标识从中捕获了所述文本的文档,在所述文档内定位所捕获的文本,并且将话音注释附着在该点处。在一些实例中,所述系统将语音转换成文本并且将所述注释附着为文本意见。在一些实例中,所述系统保持注释与文档分离,仅把针对注释的参照与文档保持在一起。于是对于特定订户或用户群组来说,所述注释变为针对文档的注释标记层。在一些实例中,对于每一项捕获和相关联的注释,所述系统标识文档、利用软件包打开所述文档、滚动到捕获位置并且播放话音注释。用户随后可以在参照由其自己或另外的某人所记录的话音注释、所建议的改变或者其他意见的同时与文档进行交互。19. 5、文本帮助
所描述的系统可以被用来利用电子帮助菜单增强纸质文档。在一些实例中,与纸质文档相关联的标记层包含对于该文档的帮助菜单信息。举例来说,当用户从文档的特定部分捕获文本时,所述系统检查与文档相关联的标记并且为用户给出帮助菜单(例如在捕获装置的显示器上)。19. 6、与显示器一起使用
在某些情况下,有利的是能够从电视、计算机监视器或其他类似的显示器捕获信息。在一些实例中,捕获装置被用来从计算机监视器和电视捕获信息。在一些实例中,捕获装置具有照明传感器,其被优化来与传统的阴极射线管(CRT)显示技术(比如光栅化、屏幕消隐等
等)一起工作。不管文档处在纸张上、显示器上还是某种其他介质上,通过从文档捕获用户阅读文本的音频而操作的话音捕获装置通常都会工作。19. 6. 1、公共信息亭和动态会话ID
对于显示器的直接捕获的一种用途是如第15. 6节中所描述的装置关联。举例来说,在一些实例中,公共信息亭在其监视器上显示动态会话ID。所述信息亭连接到诸如因特网或企业内联网之类的通信网络。所述会话ID周期性地改变但是至少每当所述信息亭被使用时发生改变,从而为每一个用户显示新的会话ID。为了使用信息亭,订户捕获显示在信息亭上的会话ID ;通过捕获所述会话ID,用户向系统告知其希望暂时把该信息亭与其捕获装置相关联以便递送从印刷文档的捕获得到的或者从信息亭屏幕本身得到的内容。捕获装置可以把会话ID以及认证该捕获装置的其他信息(比如序列号、帐号或者其他标识信息)直接传送到所述系统。举例来说,捕获装置可以直接与所述系统进行通信(其中“直接”意味着不通过信息亭传递消息),这是通过经由捕获装置可访问的蜂窝网络发送会话发起消息而实现的。可替换地,捕获装置可以建立与信息亭的无线链接并且使用该信息亭的通信链接,这是通过向信息亭传送会话发起信息而实现的(可能经由诸如Bluetooth 之类的短范围RF 等等);作为响应,所述信息亭经由其因特网连接向所述系统发送会话发起信息。所述系统可以在装置已经与捕获装置相关联的时间段(或会话)期间防止其他人使用已经与捕获装置相关联的该装置。这一特征有用于在一个人的会话结束之前防止其他人使用公共信息亭。作为与使用网吧中的计算机有关的这一概念的一个实例,用户捕获她 /他想要使用的PC的监视器上的条形码;作为响应,所述系统向监视器发送其所显示的会话ID ;用户通过从所述监视器上捕获该会话ID而发起会话(或者通过捕获装置上的小键盘或触摸屏或麦克风将其输入);并且所述系统在其数据库中把所述会话ID与他/她的捕获装置的序列号(或者唯一地标识用户的捕获装置的其他标识符)相关联,从而使得另一个捕获装置在他/她的会话期间无法捕获会话ID及使用监视器。捕获装置与和所述监视器相关联的PC进行通信(通过诸如Bluetooth 之类的无线链接、诸如对接站之类的硬连线链接等等),或者通过诸如蜂窝电话等其他装置与系统直接通信(即不经过PC)。19. 7、社交网络或协作环境
所述系统可以提供社交网络或协作环境,比如有时也被称作“wiqi”的wiki,其中用户可以创建对于字、段落、句子等等的页面,用户可以在其中张贴相关信息。举例来说,用户可以创建对于来自书刊或电影的著名引文的页面,其中用户可以张贴所使用的引文的图像、 音频、视频等等,或者包含关于所述引文在哪里被使用或引用的信息的索引。在一些实例中,所述系统可以在用户通过捕获装置捕获到相关文本时自动更新这些页面。作为另一个实例,捕获装置可以把带有链接的所捕获的图像覆盖到对应于所捕获的文本的Wiqi页面上。对于特定字或短语的Wiqi页面可以对所有用户可用,或者可以为所选用户群组(比如一个家庭或者一群朋友)创建。因此,在一些实例中,除了别的好处之外,所述系统还促进把所呈现的文档用作协作信息交换的数字环境中的平台。19. 8、门房服各
软件门房系统或服务提供人类助手(例如虚拟门房),其接收关于用户在使用应用时所面对的问题的信息,并且可以采取动作来提供解决方案或者纠正所述问题。所述人类助手可以纠正对于自动化处理来说难于纠正的问题,并且可以向应用作者提供关于在使用软件时的困难方面的反馈。举例来说,正在搜索文档的用户可能难以找到该文档,但是人类助手可以检查该用户正使用来进行搜索的关键字,理解该用户正尝试找到的内容的想法,并且将更好的关键字置入于该用户的搜索查询中,从而使得该用户接收到相关性更高的搜索结果。作为另一个实例,如果所述系统无法标识或识别出所捕获的图像内的文本或者标识出所呈现的文档的相应的电子版本,则可以将这些任务发送到软件门房系统以寻求帮助。此外,用户可以使用所述门房系统来订购由捕获装置所标识出的商品。这样就节省了用户的时间并且提高了用户对于应用的满意度以及对于应用的总体评价。因此,所述软件门房系统提供了一个新的软件性能层,从而改进了用户体验并且实现了软件开发者先前所无法实施的软件使用方式。第四部分——系统细节利用多功能装置从广告中捕获信息
诸如智能电话和其他移动装置之类的多功能装置是常见的(如果不是到处都是的话)。 如这里所描述的那样,所述多功能装置常常包括捕获组件310,比如成像组件、记录组件等等。举例来说,大多数智能电话具有摄影机或其他成像组件,其被用来拍摄照片、记录视频、 扫描条形码等等。在一些实例中,所述系统可以使用摄影机来捕获广告的图像,比如书刊、 报纸或杂志等等之内的广告,或者捕获所显示的广告的图像,比如动态显示器上的信息、告示牌上的信息或告示牌的一部分等等。因此,所述系统可以把诸如智能电话之类的多功能装置用作捕获装置300以便执行这里所描述的一部分或全部功能。参照图4,其中示出了说明被用作捕获装置300的移动装置400的框图。移动装置400可以包括充当显示组件320的显示器410,充当捕获组件310的成像组件(比如其朝向的方向与所述显示器所朝向的方向相反的摄影机405),以及一个或多个用户输入组件415。移动装置400还可以包括有用于执行捕获装置300的功能的其他组件,比如通信组件、 数据存储和处理组件、安全性组件以及这里所描述的其他组件。通过把摄影机405用作捕获组件310,所述移动装置可以从广告或其他信息源捕获信息,比如通过移动装置400的显示器看到的各种图像420、文本片断425和/或机器可读代码430。许多广告包括文本和图像二者,并且因此在一些实例中,捕获装置300的捕获组件310能够捕获及处理基于文本和基于图像的信息二者。在一些实例中,除了其它好处之外,所述系统还在从捕获装置300接收到基于文本和基于图像的信息二者时,利用这两种类型的信息快速且明确无疑地标识出广告和/或所述广告内的捕获位置。如这里所描述的那样,在一些实例中,所述系统在使得用户能够与广告进行交互时利用多功能装置的集成摄影机或其他成像组件充当捕获组件310,并且利用集成显示器充当显示元件320。图5是示出了利用多功能装置给出与所呈现的广告的交互式体验的例程500的流程图。在步骤510中,所述系统从所呈现的广告捕获信息。在某些情况下,所述系统利用所述装置的捕获组件(比如摄影机)捕获一部分文本(比如文本片断)。在某些情况下,所述系统捕获由广告给出的图像或非文本视觉元素的一部分。在某些情况下,所述系统捕获一部分文本和一部分图形元素。在某些情况下,所述系统捕获机器可读代码,比如条形码、QR 代码、字母数字代码、网络地址等等。在步骤520中,所述系统标识出所呈现的广告和/或所呈现的广告内的捕获位置。 在某些情况下,所述系统使用从所呈现的广告捕获的基于文本的信息来标识所呈现的广告,正如由这里所讨论的技术所执行的那样。在某些情况下,所述系统使用从所呈现的广告捕获的基于图像的信息来标识所呈现的广告,正如由这里所描述的典型的图像匹配技术或其他技术所执行的那样。在某些情况下,所述系统使用机器可读代码来标识所呈现的广告。在某些情况下,所述系统使用基于文本的信息和基于图像的信息二者来标识所呈现的广告。所述系统可以利用图像本身的特性或属性和/或图像内的图形元素以及图像的内容(比如图像内的文本)来执行针对所述图像的混合式搜索。所述系统可以基于所捕获的图像的特征来选择用于标识所呈现的广告的搜索算法。举例来说,对于高渐变度的内容的捕获可以导致所述系统采用促进图像之间的梯度匹配的搜索算法,而对于高对比度的内容的捕获则可以导致所述系统采用促进图像之间的边缘、角落等及其关系的匹配的搜索算法。对于文本和/或字符以及其他内容的附加捕获可以导致所述系统集中于自相关模式、OCR输出等等。在某些情况下,所述系统利用通常有用于分类的强图像信号(例如半调模式),只要成像系统能够捕获所述模式即可。在某些情况下,所述系统搜索多层索引,其中利用一层基于文本的条目来约束结果并且/或者将特定图像从考虑中排除。在某些情况下,所述系统搜索单层基于图像的索引,其中图像内的文本是一个单独的元数据字段。在某些情况下,所述系统首先搜索文本 (不管是在单独的索引中还是作为图像元数据的一部分),并且使用图像特性(图案、对比度等等)来进一步消除不确定的搜索结果的不定性。举例来说,通过基于先前的文本或图像捕获知道用户正在某一天阅读纽约时报可以提供对于搜索结果的附加约束。在某些情况下,所述系统使用文本和其他字符或重复串来定位和/或锚定图像以为搜索做准备。所述系统在捕获和/或接收到图像捕获之后,可以基于关于应当如何定位图像内的文本的知识来调节图像。也就是说,所述系统可以在搜索图像之前基于文本略微旋转、平移或者以其他方式重新调节图像。举例来说,在所述系统接收到略微偏斜的图像捕获时,该系统可以基于对图像内的文本所做的校正来调节所述图像,这是因为系统更有可能具有关于文本(例如通过OCR) 及其正确形式的知识。因此,所述系统可以通过把传统的图像搜索技术和输入(例如颜色、纹理和边缘信息)相组合并且同时适配于图像内的内容(例如文本)而促进对于图像的搜索,从而使得所述系统除了具有别的好处之外还能够精确且快速地找到捕获自内容显示的图像。在步骤530中,所述系统标识或定位与所标识出的广告相关联的数字或电子内容和/或将要执行的动作,以及/或者所标识出的广告中的捕获位置。在某些情况下,所标识出的内容和/或将要执行的动作与整个广告相关联。在某些情况下,所标识出的内容和/ 或将要执行的动作与所呈现的广告的被捕获到的区域或位置相关联。在步骤540中,所述系统执行所标识出的动作,例如通过给出数字内容。在某些情况下,所述系统启动附加的应用来执行所标识出的动作。举例来说,执行所述动作可能包括给出与广告相关联的网络页面、给出地图、给出时间表、更新日历条目、进行预订或其他预约、购买产品、对于服务登记用户以及这里所描述的其他动作。在某些情况下,所述系统在所呈现的文档的图像之上或旁边给出与所标识出的内容和/或将要执行的动作相关联的显示元素,比如在与所述动作/内容相关联的位置处给出。所给出的显示元素可能会涉及或表明与所呈现的广告相关联的注释、评注和/或其他内容或者与所述广告相关联的将要执行的动作。所述显示元素可以充当与所述内容或可执行的动作相关联的控制或指示。装置的用户可以通过各种输入命令激活相关联的内容或执行动作,所述输入命令比如通过触摸触敏显示屏、触控板、操纵跟踪球、跟踪块、箭头键等等向装置输入的那些输入命令。图6A — 6E是示出了与广告进行交互的多功能装置的示意图。在图6A中,捕获装置400获得由所呈现的文档610给出的广告615的图像620。所述图像包括几个与可执行动作相关联的区域,比如“区域1” 621、“区域2” 623、“区域3” 625和“区域4” 627。举例来说,广告615是名为“Out For Revenge”的新电影并且包含四个与可执行动作相关联的区域与电影题名有关的第一区域621,与来自电影的图像有关的第二区域 623,与来自电影评论的推介有关的第三区域625,以及与电影何时将进入剧院有关的第四区域627。选择其中一个或多个区域将导致捕获装置400执行一项或多项对应的动作,正如下面将参照图6B - 6E所讨论的那样。在接收到与题名(Out For Revenge)相关联的区域621的选择之后,如图6B中所示,所述系统使得捕获装置400启动并显示与所广告的电影相关联的网络页面630。在接收到与来自电影的图像相关联的区域623的选择之后,如图6C中所示,所述系统使得捕获装置400启动并显示与所广告的电影相关联的预告片640。在接收到与来自电影评论的推介(“2010年最佳! (Best of 2010 !)”)相关联的区域625的选择之后,如图6D中所示,所述系统使得捕获装置400启动并显示包括所给出的推介的评论650。
在接收到与电影的上映日期相关联的区域627的选择之后,如图6E中所示,所述系统使得捕获装置400启动并显示使得用户能够购买所广告的电影的电影票的网络页面 660。当然,所述系统可以执行未在附图中专门讨论的其他动作。在一些实例中,当捕获装置的成像组件的视场包括广告的与内容和/或将要执行的动作相关联的一部分时,所述系统可以向用户显示指示,比如通过装置的显示器显示视觉指示。举例来说,所述系统把表明可执行动作的图标、颜色、图形、轮廓线、文本动作名称、 按钮以及其他显示元素叠加在所呈现的文档的图像之上和/或把它们叠加在一起,从而提供表明关于图像内的信息可以获得附加内容和/或交互性的指示。因此,所述系统向用户通知,图像内的各区域是“活跃的”。所述系统随后可以在用户提供输入(比如选择显示元素、利用移动装置做出某种姿态等等)时激活(即显示内容、执行动作等等)图像中的信息。在一些实例中,所述系统响应于接收到来自移动装置的用户的姿态而给出内容和 /或执行动作。作为一个实例,当用户可以把移动装置移动到更靠近所呈现的文档时,所述系统可以在该装置的显示器上给出显示元素和/或补充内容。在一些实例中,与广告相关联的显示元素或者相关的内容或动作是标记层、动作层或交互层的一部分。这些层把广告及其各构成区域(文本的或物理的)与相关的动作、内容或信息相关联。所述系统可以从各个存储位置定位和/或检索所述层和/或所述层的一部分(比如一个单独的显示元素),其中包括所述装置本地的存储(装置的存储器、SIM卡等等)、远离所述装置的存储(比如与装置进行通信的服务器处)、第三方位置处的存储(比如与广告相关联的登广告者的位置处)等等。在一些实例中,所述系统实时地或者接近实时地检索所述层,从而在用户将他/ 她的移动装置400或所呈现的文档610相对于彼此移动时动态地更新为该用户给出的显示元素。在某些情况下,移动装置400相对于所呈现的文档610的移动(比如横向、垂直和/ 或水平移动)使得移动装置的成像组件的视场内的图像发生改变(例如从文档的一部分改变到文档的另一部分)。因此,除了别的之外,所述系统可以基于移动装置的成像组件的视场内的内容来动态地更新所给出的显示元素。所述系统可以通过各种方式把移动装置和/或目标对象的移动转换成导航控制。 在某些情况下,所述系统可以分析现场图像流以便确定装置相对于背景的运动的参数(方向、速度、加速度、倾斜、摇摆等等)。在某些情况下,所述系统可以接收来自其他组件的信息 (比如从加速度计或邻近度传感器接收的信息),以便测量装置的相对位置和/或相对高度, 并且确定装置相对于背景的运动的参数。当然,本领域技术人员将认识到,所述系统可以采用未在这里明确讨论的其他技术和组件以通过装置的移动而在所显示的文档图像中进行导航。因此,在一些实例中,所述系统把所述层叠加在广告615的所捕获的实时图像410 之上。因此,所述系统通过移动装置400可以为用户提供对于所呈现的文档的增强的观看体验,从而除了别的好处之外还使得用户能够在他/她正“穿过”移动装置注视广告时与相关联的内容和动作进行交互并且接收所述相关联的内容和动作。在一些实例中,所述系统从被呈现为显示视觉指示符(比如图标、代码等等)的广告中捕获信息,所述视觉指示符表明数字内容的关联和/或可用性。举例来说,所呈现的广告可以显示表明该广告与网络页面、视频、音乐或音频内容、优惠券或折扣、奖品或奖励等等相关联的图形指示。在一些实例中,所述系统从被呈现为具有水印或者把广告与数字内容相关联的其他嵌入代码的广告中捕获信息。在一些实例中,从广告捕获信息使得用户能够购买与广告相关联的产品。举例来说,捕获广告的图像使得用户能够购买产品或服务、阅读关于产品或服务的评论等等。所述系统可以跟踪购买以及针对评论信息的请求。通过跟踪用户与广告的交互,所述系统可以测量用户对所呈现的广告的兴趣,从而促进对于所呈现的广告的按次付费或点击模型。所述系统可以总计人口统计及其他捕获信息和元数据,并且把所述数据提供给登广告者和其他感兴趣的各方。在一些实例中,所述系统使得用户能够从所呈现的文档捕获或“点击”优惠券。所述系统可以通过多种方式促进对于优惠券和其他折扣工具的使用。举例来说,从印刷优惠券捕获信息会导致所述系统标识出所述印刷优惠券并且把数字版本下载到用户的移动装置中。用户可以在购买相关联的产品时给出所述数字版本以便获得由所述优惠券所提供的节省。举例来说,用户可以通过Bluetooth或其他通信渠道向销售点登记处发送信息以便获得节省,可以显示优惠券的数字版本以便在所述登记处进行扫描等等。作为另一个实例,登广告者可以诱导观看者与广告进行交互,或者通过提供抽奖类型的即赢游戏,其中用户从印刷优惠券捕获信息、标识优惠券并且接收数字版本。所述数字优惠券使得用户能够基于与优惠券的交互而接收到各种折扣,所述交互比如是通过在显示优惠券的触摸屏上执行“刮划”或“摩擦”姿态。作为另一个实例,登广告者可以把数字优惠券与动态改变的折扣值相关联。举例来说,优惠券在被捕获时价值可能为特定的值,但是在一定时间段之后价值会更高或更低。 也就是说,在捕获时的“减一美元”优惠券在后来的时间可能只值“减五十美分”。在某些情况下,优惠券的值可以取决于用户过去与销售商、登广告者、相关联的产品等等的交互历史。在一些实例中,所述系统标识并执行特定于用户或用户的捕获装置的动作。举例来说,登广告者可能希望只向之前从未与该登广告者有过交互的新用户递送视频剪辑,并且可以向其产品的历史用户递送更具目标性的内容。在某些情况下,登广告者可以提出补贴观看所述视频的成本(用户的移动业务方案下的数据成本),或者提供观看或执行各种动作的其他诱因。因此,在一些实例中,所述系统为用户提供源自来自所呈现的广告的交互的数字体验。所述系统可以执行与所呈现的广告相关联的动作,显示相关联的数字内容,保存或存储优惠券和其他广告以供以后使用等等。促讲所旱现的广告与数字内容之间的关联
如这里所描述的那样,在一些实例中,所述系统促进可执行动作和其他数字内容与所呈现的广告的关联,这是通过为登广告者和希望把物理对象与数字内容相关联的其他实体提供入口而实现的。所述其他实体可以包括出版者、作者、评论者、评注者、翻译者、内容提供者、告示牌所有者、房地产代理人或者希望把真实世界的信息显示与数字内容相关联的任何实体。所述系统可以提供网络接口,通过该网络接口登广告者除了输入其它信息之外还可以输入所呈现的广告的图像、数字内容和定义其间的关联的规则。图7是示出了用于为登广告者提供用以把所呈现的广告与数字内容相关联的入口的计算环境700。该环境700包括登广告者位置处的计算系统710。计算系统710包括网络接口 715,其使得登广告者能够访问所述系统。网络接口 715给出各种显示,其促进键入和/或输入所呈现的广告的图像、数字内容、关联、登广告者简档信息、商标以及与提供和所呈现的文档有关的数字内容相关联的其他信息。所给出的各种显示的实例将在下面关于图9A — 9G来讨论。环境700还包括服务器720,其为所述系统提供入口并存储信息。服务器720通过网络705与计算系统710进行通信,所述服务器720包括用于生成由计算系统710给出的网络接口 715的各种指令或数据结构。所述服务器可以把输入信息存储在各种数据库中,包括标记数据库722,其存储定义数字内容和与所呈现的广告有关的信息之间的关联的信息;内容数据库724,其存储数字内容(其包括将要执行的动作、将要给出的内容等等); 以及图像数据库726,其存储被用来标识要捕获的所呈现的广告的信息(比如广告的图像)。所述环境还接收来自捕获装置730的信息并且向其提供信息。所述系统可以接收来自装置730的信息,比如所捕获的信息、用户信息等等。所述系统可以向捕获装置730提供信息,比如将要执行的动作、将要显示或存储的内容等等。在某些情况下,所述系统响应于信息捕获通过服务器720与移动装置730进行通信,并且/或者提供与动作的执行相关联的信息。所述系统利用计算环境700促进所呈现的广告和其他信息源与数字内容的关联。 图8是示出了用于把所呈现的文档与数字内容相关联的例程800的流程图。在步骤810中,所述系统接收所呈现的广告或其他信息源的图像。在某些情况下, 所述系统可以通过为图像提供者(比如登广告者)给出的用户界面来接收图像。在某些情况下,所述系统接收所呈现的广告的两幅或更多幅图像,比如来自不同角度的图像、不同光下的图像等等。在某些情况下,所述系统可以接收来自另一方的图像,并且用户可以选择图像以供使用而无需将该图像上传到所述入口。在步骤820中,所述系统接收对于所述图像的一部分的选择。所述系统可以接收来自登广告者的输入,所述输入选择所接收到的图像的一个或多个区域,其中包括覆盖整个图像的区域。所述系统可以通过提供用以选择各区域的工具来促进所述输入,比如各种接口选择工具。在步骤830中,所述系统接收数字内容的指示以便与所选区域相关联。所述指示可以是实际的数字内容(比如图像或视频)、去到数字内容的指针或链接(比如网络地址)等等。在步骤840中,所述系统把所述数字内容与所选区域相关联。所述系统可以创建和/或更新对于所述图像和/或图像区域的表或其他数据结构以便提供所述关联,或者可以利用这里所描述的其他技术来提供所述关联。下面的表示出了提供所呈现的广告(例如“Out For Revenge”广告615)与数字内容(例如数字内容630 — 660)之间的关联的实例数据结构,
权利要求
1.一种使用移动装置来执行与所呈现的广告相关联的动作的方法,所述方法包括 使用所述移动装置的成像组件来捕获所呈现的广告的图像;基于所捕获的图像内的信息来标识所呈现的广告; 标识与所呈现的广告相关联的一项或多项可执行动作; 使用所述移动装置的显示组件来执行所标识出的一项或多项动作。
2.权利要求1的方法,其中,捕获所呈现的广告的图像包括从所述广告捕获基于文本的内容;其中,基于所捕获的图像内的信息来标识所呈现的广告包括使用所述基于文本的内容以及所捕获的图像的一项或多项视觉属性来标识所呈现的广告。
3.权利要求1的方法,其中,标识与所呈现的广告相关联的一项或多项可执行动作包括标识与被捕获的所呈现的广告的位置相关联的可执行动作。
4.权利要求1的方法,其中,标识与所呈现的广告相关联的一项或多项可执行动作包括标识与被捕获的所呈现的广告的位置相关联的第一可执行动作,以及标识与整个所呈现的广告相关联的第二可执行动作。
5.权利要求1的方法,其中,标识与所呈现的广告相关联的一项或多项可执行动作包括基于与所述移动装置相关联的信息来标识可执行动作。
6.一种计算机可读介质,其内容使得移动装置执行一种与所呈现的广告进行交互的方法,所述方法包括捕获所呈现的广告的一部分的图像,其中所捕获的部分包括文本元素和非文本元素; 基于所述文本元素和非文本元素标识所呈现的广告; 标识与所标识出的所呈现的广告相关联的一项或多项可执行动作;以及执行所标识出的动作。
7.权利要求6的计算机可读介质,其中,执行所标识出的动作包括购买与所呈现的广告相关联的产品。
8.权利要求6的计算机可读介质,其中,执行所标识出的动作包括给出与所呈现的广告相关联的网络页面。
9.权利要求6的计算机可读介质,其中,执行所标识出的动作包括在所述移动装置的存储器中存储优惠券。
10.一种存储对于印刷的广告的数据结构的计算机存储器,其定义关于通过移动装置从所述印刷的广告进行的光学捕获所要执行的动作,所述数据结构包括两个或更多条目, 其中每一个条目包括标识所述印刷的广告中的区域的信息;以及标识与所述印刷的广告中的区域相关联的数字内容的信息。
11.一种把所呈现的广告与数字内容相关联的方法,所述方法包括通过计算装置显示用户界面,其中所述用户界面包括促进从用户输入信息的元素; 通过所述用户界面接收(1)标识所呈现的广告的信息、(2)标识数字内容的信息以及 (3)把所标识出的数字内容与所呈现的广告的图像内的一个或多个区域相关联的信息;以及把标识所呈现的广告的信息、所接收到的标识数字内容的信息以及所接收到的把所标识出的数字内容与所呈现的广告的图像内的一个或多个区域相关联的信息存储在与所呈现的广告相关联的数据结构中。
12.权利要求11的方法,其中,所述图像和信息被存储在其位置远离所述计算装置的服务器处。
13.权利要求11的方法,其中,通过所述计算装置的网络浏览器来显示所述用户界面。
14.权利要求11的方法,其中,接收标识所呈现的广告的信息包括接收所呈现的广告的一幅或多幅图像。
15.权利要求11的方法,还包括响应于接收到由捕获装置对所呈现的广告的至少一部分进行捕获的指示,通过所述捕获装置显示所标识出的数字内容。
全文摘要
描述了一种用于把所呈现的广告与数字内容相关联的系统和方法。在一些实例中,所述系统通过网络入口接收所呈现的广告的图像、与数字内容相关联的信息以及把所呈现的广告与数字内容相关联的信息。
文档编号G06Q30/00GK102356405SQ201080012528
公开日2012年2月15日 申请日期2010年3月19日 优先权日2009年3月20日
发明者曼比 C-F., 彼得森 J., J. 史密斯 M., T. 金 M., 桑维泰尔 M., 斯蒂芬斯 R. 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1