自动捕获信息,例如使用文档感知设备捕获信息的制作方法

文档序号:7909745阅读:186来源:国知局
专利名称:自动捕获信息,例如使用文档感知设备捕获信息的制作方法
自动捕获信息,例如使用文档感知设备捕获信息相关申请的交叉引用
本申请要求 2009 年 2 月 18 日提交的题为 DOCUMENT INTERACTION SYSTEM AND METHOD 的美国临时专利申请No. 61/153614,2009年3月12日提交的题为DOCUMENT INTERACTION STSTEM AND METHOD的美国临时专利申请No. 61/159757以及2009年6月4日提交的题为 DOCUMENT INTERACTION, SUCH AS INTERACTION USING A MOBILE DEVICE 的美国临时专利申请No. 61/184273的优先权,所有这些文献通过引用全部合并于此。本申请和2007 年 9 月 17 日提交的题为 CAPTURE AND DISPLAY OF ANNOTATIONS IN PAPER AND ELECTRONIC DOCUMENTS 的 PCT 申请 No. PCT/EP/2007/008075 ;与其同时提交的题为 INTERACTING WITH RENDERED DOCUMENTS USING A MULT I-FUNCTI ON MOBILE
DEVICE, SUCH AS A MOBILE PHONE的美国专利申请No. _;以及与其同时提交的题为
IDENTIFYING DOCUMENTS BY PERFORMING SPECTRAL ANALYSIS ON THE DOCUMENTS 的美国专利申请No. _有关,所有这些文献通过引用全部合并于此。
背景技术
人们不断地接收他们可能感兴趣的信息。信息以从纸质文献(报纸、书籍、杂志等等)到他们周围世界内的其他对象(标志、告示牌、显示等等)的许多形式呈现。通常,信息至少部分地通过文档上印刷的或者对象显示的文本而呈现。


图IA为示出系统的一些实施例中的信息流的数据流图。图IB为示出系统的一些实施例中的信息流的数据流图。图2为在典型操作环境的情况下包含在系统的典型实现方式中的部件的部件图。图3为示出与系统一起使用的适当捕获设备的框图。图4为示出用于标识何时捕获设备接近要捕获的信息或者面临要捕获的信息的例程的流程图。图5为示出用于使用文档感知(document aware)捕获设备执行来自再现的文档的文本的捕获的例程的流程图。图6A-6C为示出用于确定捕获设备接近要捕获的信息的例程的流程图。图7为示出用于优化和/或调节距要捕获的信息的接近度的确定的例程的流程图。图8A-8B为捕获设备的代表性显示,其绘出由系统为用户创建的时间线。
具体实施例方式综沭
目前,存在很少的使得人们能够访问或利用他们从他们周围的世界接收的信息的解决方案。本发明人已经认识到,提供使得信息更加容易访问的技术而不对使用该技术的人们造成麻烦将是有利的。描述了确定捕获设备接近诸如再现的文档之类的信息以及基于该确定改变捕获设备的操作。在一些实例中,捕获设备包括捕获再现的文档或者其他信息显示的图像的照相机以及检测与再现的文档或者其他信息显示的接近度的接近度部件。接近度部件可以是或者可以利用照相机内的光学部件,或者可以是独立的部件,例如接近度传感器。系统在确定捕获设备接近信息时可以使得捕获设备改变成文档捕获模式,其中捕获设备感知到文本、文档和/或其他信息显示(例如显示文本的对象)并且与其交互。例如,在文档捕获模式下,系统借助于捕获设备可以发起捕获再现的文档或信息显示的图像以及基于这样的捕获执行动作的一个或多个过程。实例情景
下面的情景给出公开的技术的可能的应用。本领域技术人员应当理解,这些情景被提供来教导可以如何实现所公开的技术,并且所公开的技术适用于本文未明确描述的其他情景。
某个学生正在阅读课本,并且希望找到关于主题的更多信息。该学生将她的移动设备放置在书本中的文字段落上,设备的照相机面对着书本。系统使用测距仪并且确定移动设备接近书本,从而使得移动设备将操作模式改变为文本捕获模式。系统捕获来自书本的文字片段,标识捕获发生所在的书本中的位置,并且在移动设备的显示器上呈现与段落关联的作者评论。在参加伙伴的办公室会议之前,某个女子取出伙伴的名片并且将她的手机悬停在名片的上方。系统使用位置传感器并且确定手机以指示捕获文本的意图的方式取向,使得手机将操作模式改变为文本捕获模式。系统捕获来自名片的地址并且启动显示从女子的位置到伙伴的办公室的方向的绘图应用。沿着街道行走、配戴集成到其眼镜中的捕获设备的某个男子看见他的梦想家园待售。他转过头来注视房子之前的待售标志。系统在检测到捕获设备的视图内的文字时将设备的操作改变为信息捕获模式并且拍摄待售标志和房子的图像。系统将信息存储到与该男子关联的时间线中。随后,在家里,该男子访问他的时间线,选择与房子关联的条目,并且检索关于该房子的附加信息。他末了将出价置于接受的房子上并且其后不久搬入他的梦想家园。当然,其他的情景(例如与本文描述的方法和技术有关的那些情景)是可能的。现在,将描述系统的各个不同的实施例。下面的描述提供了用于透彻理解并且允许描述这些实施例的特定细节。然而,本领域技术人员应当理解,可以在没有这些细节中的许多细节的情况下实施所述系统。此外,一些公知的结构或功能可能没有被详细地示出或描述,以便避免不必要地使各个不同实施例的相关描述模糊不清。下文给出的描述中使用的术语预期以其最广泛的合理方式进行解释,即使它结合本发明的一些特定实施例的详细描述而被使用。特定的术语甚至可能在下文中加以强调; 然而,任何预期以任何限制的方式进行解释的术语都将明显且具体地在该具体实施方式
部分中被由此限定。第I部分一引言 1.系统及其用户人们在视觉上吸收(consume)来自再现的(印刷的和显示的)媒体的信息,包括以文本、 图像、视频和其他形式呈现的信息。例如,人们阅读报纸、杂志、图书、博客、文本消息、告示牌、收据、便条等等;浏览照片、绘画、对象、广告等等;以及观看电影、视频、表演、其他人等等。事实上,人们简单地通过观察他们周围的世界而一直接收和吸收信息。这样的观察或者信息吸收可以是积极的(用户感知到并且经常参与信息)或者消极的(用户未感知到,但是仍然接收信息)。个人可以有意地获得信息,例如人们经常“拖曳” 信息,或者个人可以在信息被“推压”向他们时无意地获得信息(消极吸收)。在某种意义上, 人们在其如何与世界交互方面模仿拖曳信息和接收推压的信息的设备(计算机、移动电话和其他设备)。然而,设备不是人,并且当前的设备经常在捕获周围环境中的信息或者接近该设备的信息方面做得不好。本文公开的技术描述了启用和促进设备的感知的系统和方法。该技术可以促进对于接近设备的基于文本的信息的感知、对于接近设备的基于图像的信息的感知、对于接近设备的信息显示(例如再现的文档)的感知等等。使用该公开的技术,设备可以在它们如何与世界交互方面模仿人。1. 1物理/数字交互
实际上,每个物理信息显示与或者可以与附加的数字信息关联。例如,图像可以与描述 (例如元数据)、网页等等关联;单个词可以与定义、维基条目、广告等等关联;文档可以与其电子副本、网页、幻灯片等等关联;地理位置(或者位置处的对象)可以与元数据、图像、关于该位置的信息关联;音频流可以与幻灯片关联;等等。在存在物理信息显示的情况下,系统只需标识该信息显示(或者该信息显示的部分方面,例如该信息显示中的文本)以便获得对于关联信息的访问。系统使得物理信息显示能够充当这样的平台,由该平台创建出包括用户和内容的丰富的数字第三维交互。1.2再现文档的标识
在一些情况下,标识再现的文档可以向读者提供对于大量附加信息的访问,这些信息补充文档本身并且丰富读者的体验。对于具有电子副本的每个再现的文档,再现的文档中的部分信息可以用来标识电子副本。在一些实例中,系统捕获并且使用来自再现的文档的文本样本以便标识和定位文档的电子副本。在一些情况下,系统需要的文本样本非常小,因为来自文档的文本的一些词或部分词经常可以用作再现的文档的标识符并且用作其电子副本的链接。此外,系统可以使用这些词以便不仅标识文档,而且标识文档内的位置。因此, 可以使用本文讨论的系统以许多有用的方式关联再现的文档和它们的数字副本。因此,可以使用本文讨论的系统以许多有用的方式关联再现的文档和它们的电子副本。简单地说,当用户扫描再现的文档中的一些词、字符或区域时,系统可以获取电子副本文档或者其某部分,显示电子副本或者其某部分,通过电子邮件将它发送给某个人,购买它,打印它,将它发布到网页,或者执行使得用户能够与文档或相关内容交互的其他动作。例如,用户将他/她的移动设备(及其照相机)悬停在报纸或杂志文章的一部分上方,使得用户的移动设备在该移动设备的触摸屏上显示文章的电子版本,以及向用户提供允许用户进一步与文章交互的选项。在一些情况下,例如当移动设备检测到距文章的特定接近度时,悬停在文章上方可以使得移动设备切换到文档感知或交互模式。
7
系统实现“纸张/数字集成”的这些和许多其他实例,而无需改变为当前的书写、 印刷和出版文档和其他信息显示的过程,从而给予再现的文档和物理对象全新的数字功能层。一旦系统将再现的文档中的一段文字与已经建立的特定数字实体关联,系统就能够在该关联上构建巨量的功能。越来越多的情况是,大多数再现的文档具有可在万维网上访问或者可从其他在线数据库或文档全集访问或者可以例如响应于费用或订金的支付而使得可访问的电子副本。 于是,在最简单的水平下,当用户捕获再现的文档中的一些词时,系统可以获取电子文档或者其某个部分,显示它,通过电子邮件将它发送给某个人,购买它,打印它,和/或将它发布到网页。作为附加的实例,捕获个人在早餐期间阅读的图书的一些词可以使得这个人的汽车中的音频-图书版本从他/她开始驾车上班的那一刻起开始朗读,或者捕获打印机墨盒上的序列号可以开始订购更换的过程。系统的典型使用以使用捕获设备捕获来自再现的文档的文本开始,但是重要的是注意其他类型的对象的其他捕获方法同样是适用的。因此,系统有时被描述为捕获或扫描来自再现的文档的文本,其中这些术语定义如下。再现的文档是印刷的文档或者显示器或监视器上显示的文档。它是人类可感知的文档,不管处于永久的形式还是处于短暂的显示。它是通过表示层提供信息的物理对象。再现的文档包括纸质文档、告示牌、标志、计算设备的表示层提供的信息、通过波传播的信息 (例如音频或视频信息流)和/或呈现或显示信息的其他物理对象。捕获或扫描是从再现的文档获得信息的系统检查的过程。该过程可以涉及使用例如手机或者手持式光学扫描仪中的照相机的光学捕获,或者它可以涉及将文档大声地读入音频捕获设备或者在键区或键盘上将它键入。对于更多的实例,参见第15节。除了捕获来自再现的文档的文本之外,系统还可以捕获来自诸如射频识别(RFID) 标签、QR码、条形码、其他物理对象(例如绘画、雕塑)之类的其他来源的信息,捕获直接来自计算设备的表示层的信息,等等。其他来源可以包括基于音频和/或视频的文档,例如无线电频道上的无线电节目和其他内容;视频频道上的视频和其他内容,例如电视节目、电视广告等等,不管是从诸如视频光盘之类的本地介质再现的,还是从远程服务器流送的,等等。作为一个实例,系统可以捕获来自音频源的信息,并且显示与该音频源或者该来源产生的音频流的内容关联的信息或补充内容。2.系统简档
本节描述构成用于纸张/数字集成的系统的设备、过程和系统中的一些。在不同的实例中,系统在提供基本功能的该底层核心上构建各种各样的服务和应用。2. 1
图IA为示出适当的系统的一些实施例中的信息流的数据流图。其他的实例可能未使用这里示出的所有阶段或元件,而一些实例则使用多得多的阶段或元件。诸如具有照相机和/或话音记录器的移动设备之类的捕获设备捕获100来自再现的文档或者来自接近该设备显示的信息的文本和/或其他信息。设备可以处理102捕获的数据,例如以便移除捕获过程的伪影、提高信噪比、标识或定位数据内的希望的信息等等。 系统然后可选地通过识别部件(例如OCR设备、语音识别设备、自相关设备或者本文描述的其他技术)将数据转换104成一个或多个签名,例如文本段、文本偏移或者其他符号或字符。 可替换地,系统执行从再现的文档提取一个或多个文档签名的替换形式。在一些情况下,签名代表一组可能的文本转写。在一些情况下,该过程可能受到来自其他先前或后续执行的步骤的反馈的影响或约束。例如,在系统先前标识了捕获很可能源自的候选文档的情况下, 它能够缩小原始捕获的可能解释。后处理部件可以接收来自识别过程的数据并且根据需要过滤106该数据或者执行其他的操作。在一些实例中,例如当系统捕获到包含推断用户意图的足够信息的词组或符号时,系统可以立即且在不继续到例程中的后续步骤的情况下推断、确定、标识和/或执行直接的动作。在这些情况下,系统可以无需标识或引用数字副本文档以便实现用户的愿望。在步骤108中,系统然后可以构造一个查询或一组查询以用于搜索与捕获关联的电子副本或其他内容。该查询构造的一些方面可能取决于使用的搜索过程,并且系统可以在以后的步骤中(例如在执行搜索之后)执行它们,但是典型地将存在系统可以事先执行的一些操作,例如移除明显误识别的或不相关的字符。系统将所述一个查询或一组查询传递110给搜索和上下文分析部件。系统可以试图标识原始数据从其捕获的文档。为此,系统可以使用搜索索引和搜索引擎112、关于用户的知识114和/或关于用户的上下文或其中发生捕获的上下文的知识116。例如,系统可以与搜索引擎112交互,该搜索引擎采用和/或索引特别地关于再现的文档、关于它们的数字副本文档和/或关于具有网络(互联网)存在物的文档的信息。系统可以利用这些信息源来回传输信息,并且可以将标识的信息馈入例程的其他不同步骤。例如,系统可以基于步骤 110期间接收候选文档的知识而接收关于捕获的语言、字体、再现以及可能的接下来的词。在步骤120中,系统可以获取早先标识为再现文档的电子副本的一个或多个文档的拷贝。系统可以直接访问文档源和仓库124(例如本地存档系统或数据库或网络服务器), 或者系统可以联系访问服务122以便获取一个或多个文档。访问服务122可以强制执行文
档的认证、安全或支付,或者可以提供其他服务,例如尤其是将文档转换成希望的格式或语 、
曰ο系统的应用可以利用额外功能或数据与文档的部分或全部的关联。例如,广告应用可以将特定的广告消息或主题与文档的部分(例如关键字、词组或者距特定内容的接近度)关联。规定其应当与文档的特定部分一起可用的该额外关联的功能或数据可以被认为是文档上的一个或多个覆盖并且在这里称为标记。因此,在步骤130中,系统标识与捕获的数据和/或标识的电子副本有关的任何标记。在一些情况下,标记由文档的用户、创作者、 出版者、文档的其他用户等等提供,并且可以存储在可直接访问的来源132处或者由标记服务134动态地产生。在一些实例中,标记可以关联于以及应用到再现的文档和/或再现的文档的数字副本或者这些文档中的任一个或二者的组。作为先前的步骤中的一些或全部的结果,系统可以采取或执行140动作。这些动作可以是系统缺省动作,例如简单地记录找到的信息,可以取决于数据或文档,或者可以从标记分析中导出。在一些情况下,系统可以简单地将数据传递给另一个系统。在一些情况下,适合再现的文档中的特定点处的捕获的可能的动作将作为关联的显示器上的菜单呈现给用户,所述关联的显示器例如捕获设备的显示器(移动设备的触摸屏)或者关联的显示器(用户的膝上型计算机的屏幕)。系统可以响应于所述捕获、响应于执行一个或多个动作的用户请求或者在以后的时间标识或执行一个或多个动作。作为可以如何使用捕获设备的一个实例,读者可以利用与她的移动设备关联的照相机捕获来自报纸文章的文本。该文本通过照相机而捕获为位像。逻辑将该位像存储到存储器中并且将该图像加盖时间戳,以及记录与捕获关联的其他数据(例如设备的位置、地理位置数据等等)。逻辑也执行光学字符识别(OCR)并且将图像转换成文本。系统将文本上传到与报纸关联的内容索引,并且标识和获取文章的电子副本。捕获设备然后与要执行的一个或多个动作一起,通过关联的触摸屏显示电子副本,所述动作例如下载和查看相关的文章或者提供附加背景信息的文章,加亮文章内的术语以及提供到这些术语的定义的链接,或者查看文章内或周围讨论的项目的广告或购买信息。关于系统过程、部件和/或设备的另外的细节可以在通过引用合并于本文中的申请中找到。图IB为示出适当系统的一个实例中的信息流的数据流图。捕获设备155捕获来自信息源150和诸如与设备无线通信的来源之类的其他来源(未示出)的呈现的信息,例如文本、音频、视频、GPS坐标、用户姿态、条形码等等。在步骤160处,信息保存器部件收集且存储由捕获设备1 捕获的信息。在步骤165处,系统将从捕获设备收集的信息传递给捕获信息处理部件。捕获信息处理部件165被配置成检测再现的文档的存在性、从文档中提取文本区域,并且分析文档信息以便识别文档和文本特征,例如绝对和相对布局信息、段落、 行和字阴影或轮廓、字形相关特征以及字符编码。在一些实例中,捕获信息处理部件可以被配置成处理不同于文本的数据类型,例如音频、罗盘数据、GPS、加速度、历史、温度、湿度、体热等等。在一些实例中,在捕获设备捕获或发送更多的信息时,捕获信息处理单元将随着时间积累信息并且复合积累的信息以便例如形成信息源的更大和/或更高分辨率的图像。在一些实例中,捕获信息处理部件可以利用上下文(参见第13和14节),例如用户捕获的先前的信息,以便例如通过限制或扩展执行的处理量并且指导什么正被处理的假设而指导捕获信息处理。例如,如果系统最近标识出用户已经捕获了来自特定来源的信息,那么随后可能需要较少的处理以便获得关于新捕获的信息的相似的确定性水平,因为有限的可能性空间内的搜索可以快速地得到匹配,该匹配然后可以进一步进行确认(如果希望的话)。捕获信息处理部件可以例如通过基于暂定结论自动地确认或拒绝信息的预测,或者通过利用礼宾服务(Concierge Service) 170 (参见第19. 8节),或者通过请求用户反馈,验证标识的信息。在步骤175中,系统将捕获且处理的信息作为系统历史和上下文的一部分而存储。在步骤180处,系统基于处理的信息和上下文进行搜索(参见第4. 2. 2、13和14 节)。在一些实例中,可以随着时间积累搜索结果且使其相关,例如基于随着时间捕获的信息的子集使搜索结果相交以便解决模糊性(例如记录的音频的多个部分、来自多个频带的音频、多幅图像等等)。在一些实例中,可以例如基于图像处理部件可以对搜索结果(或者文档管理器部件185获取的文档信息)和捕获的信息执行附加的分析的原理由捕获信息处理部件进一步验证搜索结果。例如,如果搜索部件产生10个可能的结果,那么捕获信息处理部件可能确定其中6个不太可能匹配搜索结果,例如文本中的竖笔的模式。在步骤185处, 如果文档被标识,那么系统的文档管理器部件可以获取该文档的表示。在步骤190处,系统的标记部件可以计算和/或获取与从捕获信息处理步骤输出的文本和/或标识的文档或者获取的文档的表示相关的动态和/或静态标记。对于静态和动态标记的更多信息,参见第 5节。在一些实例中,文本一被识别,标记部件就基于标识的文本与文档标识并行地产生标记。在步骤195处,,可以将信息呈现给用户。在一些实例中,该信息可以包括反馈, 例如移动捕获设备以便更好地聚焦的建议;覆盖捕获的图像中的加亮区以便指示可能的感兴趣区域,其可能地包括在用户将捕获设备悬停在相同区域上方的情况下将隐含地被选择的感兴趣区域;成像文本的干净的新再现的版本,其匹配图像尺度、布局,对捕获设备的当前视野建模等等;基于当前感兴趣区域的可用动作的列表;基于当前感兴趣区域采取单一动作的结果,例如自动地拨打电话号码;使用适合由用户指示为其感兴趣区域的一种或多种信息类型的模板呈现的视听材料;基于感兴趣区域呈现信息显示和/或音频。在一些实例中,感兴趣区域可以由用户隐式或显式指示的一个区域和中心感兴趣区域周围的相继更大的区域(例如词组、从句、行、段落、列、文章、页、期、刊物等等)构成。在一些实例中,系统基于图像中的位置建议主要感兴趣区域,例如捕获设备屏幕的中心,并且该主要感兴趣区域可以通过显式的用户交互或者通过短时间段内靠近相同区域悬停,或者通过用户与屏幕交互,例如通过跨感兴趣区域轻扫手指或者轻拍建议的感兴趣区域内的某处而选择。2. 2 部件
如这里所讨论的,适当的系统或操作环境包括若干不同的部件。例如,系统可以包括一个或多个光学捕获设备或话音捕获设备(例如移动电话和其他多功能移动计算设备、手持式扫描设备等等)。捕获设备使用有线或无线连接或者通过网络与系统的诸如计算机或其他移动设备之类的其他部件通信。网络上的捕获设备、计算机和其他部件可以包括包含计算机可执行指令的存储器,这些可执行指令用于处理接收的从再现的文档和其他来源捕获的数据或信息(例如屏幕或监视器上显示的信息)。图2为在典型操作环境的情况下包含在系统的典型实现方式中的部件的部件图。 如图所示,操作环境包括一个或多个捕获设备216。在一些实例中,捕获设备支持光学捕获或者“音频”拷贝。每个捕获设备能够使用直接的有线或无线连接或者通过网络220与系统的诸如计算机212之类的其他部分通信,该捕获设备可以使用有线或无线连接与所述网络220通信,后者典型地涉及无线基站214。在一些实例中,捕获设备通过蜂窝电信网络(例如GSM或CDMA)与系统的其他部件通信。在一些实例中,捕获设备集成到移动设备中,并且可选地共享该设备中使用的一些音频和/或光学部件以便进行话音通信和拍照。计算机212可以包括包含用于处理来自捕获设备216的命令的计算机可执行指令的存储器。作为一个实例,命令可以包括标识符(例如捕获设备216的序列号或者部分地或唯一地标识捕获设备的用户的标识符)、捕获文本信息(例如捕获时间、捕获位置等等)和/ 或用来唯一地标识从其捕获数据的来源的捕获的信息(例如文本串)。在可替换的实例中, 操作环境可以包括更多或更少的部件。同样在网络220上可用的是搜索引擎232、文档源234、用户账户服务236、标记服务238和其他网络服务239。网络220可以是企业内联网、公共因特网、移动电话网络或某个其他网络或者以上的任何互连。不管设备和部件彼此耦合的方式如何,它们都可以依照公知的商业交易和通信协议(例如传输控制协议(TCP)、因特网协议(IP))操作。在一些实
11例中,系统的许多功能和能力可以合并或集成到捕获设备中。在不同的实例中,捕获设备216和计算机212的功能和能力可以全部或部分地集成到一个设备中。因此,术语捕获设备和计算机可以指的是相同的设备,这取决于该设备是否合并了捕获设备216和计算机212的功能或能力。此外,搜索引擎232、文档源234、用户账户服务236、标记服务238和其他网络服务239的一些或所有功能可以在所述设备和/或未示出的其他设备中的任何一个上实现。2. 3捕获设备
捕获设备可以通过使用捕获来自对象、信息显示和/或再现的文档的图像数据的光学或成像部件或者使用捕获用户对显示的文本的口头朗读的音频记录设备或者其他方法捕获文本。在一些实例中,捕获设备也可以捕获图像、电影、图形符号和图标等等,包括机器可读代码,例如条形码、QR码、RFID标签等等,尽管这些通常不需要用来识别文档或执行与文档或捕获的文本关联的动作。在一些情况下,捕获设备也可以捕获设备的环境的图像,包括设备周围的对象的图像。设备可以极其简单,并且依赖于驻留在系统中别处的其他功能而仅仅包括转换器、一些存储装置和数据接口,或者它可以是更全特征的设备,例如智能手机。在一些情况下,设备可以是具有图像和音频捕获和回放能力的移动设备,其在存储器中存储以及运行或执行实现本文描述的一些或所有功能的一个或多个应用程序。捕获设备包括捕获来自再现的文档和其他信息显示的文本、符号、图形等等的捕获元件。该捕获元件可以包括成像部件,例如光学扫描头、照相机、光学传感器等等。在一些实例中,捕获设备是用来扫描来自再现的文档的文本、图形、或符号的便携式扫描仪。该便携式扫描仪包括捕获来自再现的文档的文本、符号、图形等等的扫描元件。 在一些实例中,除了印刷在纸张上的文档之外,再现的文档还包括显示在诸如CRT监视器或LCD显示器之类的屏幕上的文档。图3为示出捕获设备300的一个实例的框图。可以是移动电话和/或其他移动或便携式设备或一组通信设备,包括膝上型计算机、书写板或上网本、人配戴的物品(例如眼镜、衣服、帽子、饰品等等)的捕获设备300可以包括捕获部件310,例如照相机、成像部件、 扫描头、麦克风或其他音频记录器等等。在捕获设备300为移动电话时的情况下,捕获部件 310可以是与电话关联的照相机,例如用在许多商业上可获得的电话中的基于CMOS图像的传感器。在其中捕获设备300为数码相机的情况下,捕获部件310可以包括照相机的反射镜系统、棱镜、透镜和/或取景器。在其他情况下,捕获部件可以是未与电话的照相机集成的单独的部件或附加的部件(未示出),在一些情况下包括非光学部件。捕获设备300也可以包括显示部件320,例如用户接口、触摸屏和/或能够向设备 300的用户显示信息的其他部件。显示的信息可以包括捕获部件310捕获的图像、捕获部件 310视野内的图像、与捕获的信息关联的内容(例如捕获的文档的电子副本或者补充捕获的信息的内容)、加亮或覆盖捕获部件310视野内的内容的记号和其他信息的内容、指示响应于从捕获的信息捕获而执行的动作的选项菜单等等。显示部件320也可以例如通过显示器呈现的用户可选选项接收来自用户的信息。在系统的一些实例中,捕获设备300包括一个或多个能够变换捕获设备300和/ 或其他计算设备和系统的操作的部件。捕获设备300也可以包括检测部件330,其检测何时设备接近可以由设备300捕获的信息。检测部件330可以是捕获部件310的一部分或者与捕获部件310集成在一起(例如标识成像部件捕获的图像内的文本),可以是测量捕获设备 300与该设备周围的对象(文档、告示牌等等)之间的距离的接近度传感器,可以是测量捕获设备300的取向(相对于x、y或ζ轴的倾斜角等等)的取向传感器,等等。本文中描述了关于捕获部件310、显示部件和/或检测部件330之间的交互的另外的细节,包括由这些部件执行的例程。检测部件330也可以包括或接收来自计时部件(未示出)的信息,该计时部件测量捕获设备的特定状态的持续时间。例如,可以是检测部件330的一部分的计时部件可以测量捕获设备300保持与置于桌子上的再现的文档限定的轴平行多长时间,或者可以测量捕获设备300处于距街道标志一定接近度多长时间,等等。捕获设备300也可以包括改变捕获设备300的操作或模式的操作调节部件340。 在系统的一些实例中,操作调节部件340 (自动地)在接收到捕获设备300接近要捕获的信息的来自检测部件330的指示或信号时将捕获设备300的操作模式从标准模式改变为信息捕获模式(例如文本捕获模式)。此外,操作调节部件可以在接收到捕获设备300不再接近任何信息的来自检测部件330的指示或信号时将捕获设备300的操作模式改回到标准的或先前的操作模式。在一些情况下,操作调节部件340在不改变设备的操作模式的情况下启动应用,例如被配置成为捕获设备300的用户捕获信息并且执行动作的应用。例如,捕获设备300在操作于信息捕获模式下时或者在由操作调节部件340启动的运行应用控制时可以本文描述的一些或所有例程和方法,包括标识与捕获的信息关联的文档和信息、执行与捕获的信息关联的动作(例如购买产品、显示广告、呈现补充信息、更新网络日志等等)。捕获设备300可以通过捕获设备300的存储器内存储的程序执行所述例程和方法中的一些或全部,所述程序例如下载到捕获设备300的程序、集成到捕获设备300 的操作系统中的程序等等。除了本文描述的部件以外,捕获设备300也可以包括其他部件,例如与设备的操作关联的设备操作部件350(处理部件、存储部件、功率部件、SIM和其他安全部件、诸如键区和按钮之类的输入部件等等)、用于与外部网络和/或其他计算设备通信的通信部件360(无线电台、GSM/小区部件、SMS/MMS和其他消息发送部件、蓝牙 部件、RFID部件等等)、向设备提供上下文信息的部件370 (GPS和其他地理位置传感器、加速度计和其他运动传感器、 取向传感器、温度和其他环境测量部件等等)以及其他部件380,例如向用户提供反馈的音频转换器、外部灯或振动部件和/或用于接收来自用户的输入的按钮、滚轮或触觉传感器, 或者将信息传送给用户以及接收来自用户的输入的触摸屏。捕获设备300也可以包括与各种不同的其他部件交互的逻辑部件(未示出),其可能地将接收的信号处理成不同的格式和/或解释。该逻辑部件可以用来读取和写入关联的存储装置(未示出)中存储的数据和程序指令,所述存储装置例如RAM、R0M、闪存或其他适当的存储器。捕获设备300可以在存储器或者诸如计算机可读介质之类的其他存储部件中存储或包含数据格式、例程、算法、脚本等等形式的信息。逻辑部件可以读取来自时钟单元(未示出)的时间信号。在一些实例中,捕获设备可以具有板上电源(未示出)。在其他实例中,可以从诸如通用串行总线(USB)连接之类的到另一个设备的带缆的连接对扫描仪302供电。在一些实例中,捕获设备300可以跨越多个单独的设备分布。
2. 3. 1信息感知捕获设备
系统可以包括用于确定捕获设备接近诸如再现的文档之类的信息并且基于该确定改变捕获设备的操作的部件。在一些实例中,捕获设备包括捕获再现的文档或其他信息显示的图像的照相机以及检测距再现的文档或其他信息显示的接近度的接近度部件。该接近度部件可以是或者可以利用照相机内的光学部件,或者可以是独立的部件,例如接近度传感器。系统在确定捕获设备接近信息时可以使得捕获设备将模式改变为感知文本、文档和/ 或其他信息显示(例如显示文本的对象)且与之交互的模式。例如,在文档捕获模式下,系统可以通过捕获设备发起捕获再现的文档或信息显示的图像并且基于这样的捕获执行动作的一个或多个过程。第II部分一系统领域综述
随着纸张-数字集成变得更加普遍,存在可以改变成利用该集成或者使得其能够更有效地实现的现有技术的许多方面。本节突出这些问题中的一些问题。3.捭索
搜索文档全集,即使是像万维网这样大的全集,对于使用键盘构造发送到搜索引擎的搜索查询的普通用户而言也已经变得司空见惯了。本节以及接下来的部分讨论来自再现文档的捕获引起的查询的构造以及处理这样的查询的搜索引擎二者的方面。3. 1作为捭索杳询的捕获/说话/键入
所描述的系统的使用典型地以使用包括上面提到的那些方法的若干方法中的任何一种从再现的文档捕获的一些词开始。输入需要某种解释以便将其转换成文本的情况下,例如在OCR或语音输入的情况下,系统中可能存在端到端反馈,使得文档全集可以用来增强识别过程。可以通过执行识别或解释的近似、标识一组一个或多个候选匹配文档并且然后使用来自候选文档中的可能匹配的信息进一步改进或限制所述识别或解释而应用端到端反馈。候选文档可以依照它们的可能的相关性(例如基于捕获了来自这些文档的信息的其他用户的数量或者它们在因特网上的流行性)而进行加权,并且这些权重可以应用于该迭代识别过程。3. 2短词组搜索
由于基于一些词的搜索查询的选择力在这些词的相对位置已知时大大增强,因而只需捕获少量的文本以便系统标识文本在全集中的位置。最常见的是,输入文本将是邻近的词序列,例如短词组。3. 2. 1根据短的捕获寻找文档和文档中的位置
除了定位词组来源的文档之外,系统还可以标识该文档中的位置并且可以基于该知识采取动作。3. 2. 2寻找位置的其他方法
系统也可以采用例如通过使用再现的文档上的水印或其他特殊记号发现文档和位置的其他方法。3. 3将其他因素合并到搜索杳询中
除了捕获的文本之外,其他因素(即关于用户身份、简档和上下文的信息)也可以形成搜索查询的一部分,例如捕获的时间、用户的身份和地理位置、用户习惯和最近活动的知识
文档标识和与先前的捕获有关的其他信息尤其是在它们相当近期出现的情况下可以形成搜索查询的一部分。用户的身份可以根据与捕获设备关联的唯一标识符和/或生物统计或其他补充信息(语音模式、指纹等等)确定。3. 4白杯龍十牛白彻R(0CR^_)
搜索查询可以通过考虑使用的特定捕获方法中很可能出现的错误类型而构造。它的一个实例是指示特定字符的识别中的可疑错误;在该实例中,搜索引擎可以将这些字符看作通配符或者分配它们较低的优先级。3. 5 ffl棚〒/胃制__弓丨謝也_
有时,捕获设备可能在数据捕获时不与搜索引擎或全集通信。出于这个原因,可以事先将对设备的离线使用有帮助的信息下载到设备,或者下载到设备可以与之通信的某个实体。在一些情况下,可以下载与全集关联的所有或者相当部分的索引。该主题将在第15. 3 节进一步加以讨论。3. 6对侧中1划怖肺施P雕曰独細乍ffl
如果很可能存在与传送查询或接收结果关联的延迟或成本,那么该预加载的信息可以提高本地设备的性能、降低通信成本并且提供有帮助且及时的用户反馈。在其中没有通信可用(本地设备“离线”)的情形中,可以保存查询并且在诸如通信恢复之类的时间将其传输到系统的其余部分。在这些情况下,可能重要的是与每个查询一起传输时间戳。捕获的时间可以是查询的解释中的重要因素。例如,第13. 1节讨论了与早期的捕获有关的捕获时间的重要性。 重要的是注意捕获时间不总是与执行查询的时间相同。3. 7并行搜索
出于性能的原因,可以响应于单次捕获而顺次地或者并行地启动多个查询。若干查询可以响应于单次捕获而发送,例如在将新词添加到捕获时,或者以便并行地查询多个搜索引擎。例如,在一些实例中,系统将对于当前文档的特殊索引的查询发送给本地机器上的搜索引擎,发送给企业网络上的搜索引擎,以及发送给因特网上的远程搜索引擎。与来自其他搜索的结果相比,可以给予特定搜索的结果更高的优先级。对于给定查询的响应可能指示其他待决的查询是多余的;这些查询可以在完成之前取消。4.纸张和搜索引擎
通常,希望处理传统在线查询的搜索引擎处理来源于再现的文档的那些查询。常规的搜索引擎可以以若干方式增强或修改以便使得它们更适合于与所描述的系统一起使用。系统的搜索引擎和/或其他部件可以和维护具有不同的或额外的特征的索引。系统可以修改到来的来源于纸张的查询或者改变搜索结果中处理查询的方式,从而将这些来源于纸张的查询与来自键入网络浏览器的查询和其他来源的那些查询区分开来。并且与来自其他来源的查询相比,系统可以在来源于纸张的搜索返回结果时采取不同的动作或者提供不同的选项。下文中讨论这些方法中的每一种。4. 1 索引通常,可以使用来源于纸张的或者传统的查询搜索相同的索引,但是可以以各种各样的方式增强索引以用于当前系统中。4. 1. 1关于纸张形式的知识
可以将在基于纸张的搜索的情况下有帮助的额外字段添加到这样的索引。畅碰MlT白W当耐性_弓丨IB
第一实例是已知文档以纸质形式存在或分布的字段。系统可以在查询来自纸张的情况下给予这样的文档较高的优先级。流行纸张形式的知识
在该实例中,涉及纸质文档的流行性(以及可选地涉及这些文档内的子区)的统计数据,例如捕获活动的量、出版者或其他来源提供的流通量等等,用来给予这样的文档较高的优先级,提高数字副本文档的优先级(例如对于基于浏览器的查询或者网络搜索)等等。再现的格式的知识
另一个重要的实例可能是记录关于文档的特定再现的布局的信息。例如,对于特定版本的图书,索引可以包括关于何处出现换行和换页;使用了哪些字体,任何不寻常的大写的信息。索引也可以包括关于页面上诸如图像、文本框、表格和广告之类的其他项的接近度的信息。原件中的语义信息的使用
最后,也可以在索引中记录可以从源标记中推断但是在纸质文档中不明显的语义信息,例如特定文字段引用待售的项目或者特定的段落包含程序代码这一事实。4. 1. 2捕获方法的知识中的索引
可以修改索引的性质的第二因素是很可能使用的部或类型的知识。如果索引考虑到 OCR过程中容易混淆的字符,或者包括文档中使用的字体的一些知识,那么由捕获的文本图像发起的搜索可能受益。例如,在OCR过程中字母“r”之后是字母“η”的序列可能与字母 “m”混淆。因此,串“m”或“rn”在索引中可能与相同的文档集关联。类似地,如果查询来自语音识别,那么可以有效得多地搜索基于相似发声音素的索引。作为另一个实例,系统可以在索引文档之前人为地使文档模糊以便反映用户通过将捕获设备移动到文档上方而捕获文档的图像时很可能出现的模糊。类似的技术可以使得系统对于差的光学器件、噪声等具有弹性。在所描述的模型中可以影响索引的使用的附加因素是识别过程期间迭代反馈的重要性。如果搜索引擎能够在文本被捕获时提供来自文本的反馈,那么它可以大大地增加捕获的精度。使用偏移的索引
在一些实例中,如果很可能使用第9节中描述的基于偏移/自相关OCR方法搜索索引, 那么系统将适当的偏移或签名信息存储到索引中。4. 1. 3 多索引
最后,在所描述的系统中,可能常见的是在许多索引上进行搜索。索引可以在企业网络上的若干机器上维护。部分的索引可以下载到捕获设备或者靠近捕获设备的机器。可以为具有特定兴趣、习惯或许可的用户或用户组创建单独的索引。对于用户硬盘上的每个文件系统、每个目录、甚至每个文件,可以存在索引。索引由用户以及由系统公布和订阅。于是,
16重要的是构造可以有效地分布、更新、合并和分开的索引。4. 2处理杳询
4. 2. 1知道捕获来自纸张
搜索引擎在认识到搜索查询来源于纸质文档时可以采取不同的动作。该引擎可以以例如更容忍很可能出现在特定捕获方法中的错误类型的方式处理查询。它可能能够从查询中包含的某个指示符(例如指示捕获性质的标志)推断这点,或者它可以从查询本身推断这点(例如,它可以识别OCR过程的典型错误或不确定性)。可替换地,来自捕获设备的查询可以通过与来自其他来源的通道或端口或连接类型不同的通道或端口或连接类型到达引擎,并且可以以那种方式区分。例如,系统的一些实例将通过专用网关把查询路由到搜索引擎。因此,搜索引擎知道通过专用网关的所有查询来源于纸质文档。4. 2. 2上下文的使用
下面的第13节描述了各种各样的不同因素,其在捕获的文本本身的外部,然而其在标识文档中可能是重要的帮助。这些因素包括诸如最近捕获历史、特定用户的较长期阅读习惯、用户的地理位置以及用户最近对于特定电子文档的使用之类的事情。这样的因素在本文中称为“上下文”。一些上下文可以由搜索引擎本身处理,并且反映在搜索结果中。例如,搜索引擎可以跟踪用户的捕获历史,并且也可以将该捕获历史交叉引用到常规的基于键盘的查询。在这样的情况下,搜索引擎维护且使用比最常规的搜索引擎更多的关于每个个人用户的状态信息,并且与搜索引擎的每个交互可以被认为跨越几次搜索以及比如今典型的情况更长的时间段。一些上下文可以在搜索查询中传输到搜索引擎(第3. 3节),并且可能地可以存储在引擎处以便在未来的查询中起作用。最后,一些上下文最好在别处进行处理,并且因此变成应用到来自搜索引擎的结果的过滤器或二次搜索。输入到搜索的数据流
到搜索过程的一个重要输入是用户社区如何与文档的再现版本交互——例如哪些文档被最广泛地阅读以及由谁阅读的更宽广的上下文。存在与网络搜索的相似性,所述网络搜索返回最频繁链接的页面或者从过去的搜索结果中最频繁地选择的那些页面。对于该主题的进一步的讨论,参见第13. 4和14. 2节。4.2.3文档子区
所描述的系统可以不仅发出和使用关于文档整体的信息,而且发出和使用甚至降至个别词的文档子区。许多现有的搜索引擎简单地集中于定位与特定查询相关的文档或文件。 可以工作于更精细的粒度上并且标识文档内的位置的那些搜索引擎将为所描述的系统提供显著的益处。4.3返回结果
搜索引擎可以使用它现在维护的一些未来信息以便影响返回的结果。系统也可以返回特定的文档,用户仅仅作为拥有纸质拷贝的结果而有权访问所述特定的文档(第7.4节)。搜索引擎也可以超越文本的简单检索而提供适合于所描述的系统的新动作或选项。5.标记、沣释、增强、元数据
除了执行捕获-搜索-检索过程之外,所描述的系统也将额外功能与文档关联,尤其是与文档内的文本位置或文本段关联。该额外功能经常(尽管不是排他性地)通过与再现的文档的电子副本关联而与再现的文档关联。作为一个实例,网页中的超级链接在该网页的打印输出被捕获时可能具有相同的功能。在一些情况下,所述功能未在电子文档中限定,而是在别处存储或产生。该层添加的功能在这里称为“标记”。5. 1静杰和动杰的覆盖
一种考虑标记的方式是看作文档上的“覆盖”,其提供关于文档或者其某个部分的另外的信息并且可以规定与文档或者其某个部分关联的动作。标记可以包括人可读的内容,但是经常对于用户不可见和/或预期用于机器使用。实例包括当用户捕获来自再现的文档中的特定区域的文本时在附近显示器上的弹出菜单中显示的选项,或者说明特定词组的发音的音频样本。作为另一个实例,系统可以在用户捕获来自再现的文档的广告时发出叮当声。5. 1. 1可能地来自若干来源的若干层
任何文档可以同时具有多个覆盖,并且这些覆盖可以源自各种位置。标记数据可以由文档的作者或者由用户或者由其他某方创建或提供。标记数据可以附接到电子文档或者嵌入其中。它可以在常规的位置中(例如在与文档相同的位置中,但是具有不同的文件名后缀)找到。标记数据可以包含在定位原始文档的查询的搜索结果中,或者可以通过到相同或另一个搜索引擎的单独的查询而找到。标记数据可以通过使用原始的捕获的文本和其他捕获信息或者上下文信息找到,或者它可以通过使用关于捕获的位置和文档的已经推断的信息找到。即使标记本身不包含于文档中,标记数据也可以在文档中规定的位置找到。标记可以很大程度上是静态的且是文档特有的,类似于传统html网页上的链接经常作为html文档内的静态数据而嵌入的方式,但是标记也可以动态地产生和/或应用到大量的文档。动态标记的一个实例是附接到文档的包括该文档中提到的公司的最新股价的信息。广泛地应用的标记的一个实例是在多个文档或者文档的章节上自动地可用的特定语言的翻译信息。5. 1.2个人“插件”层
用户也可以安装或订阅标记数据的特定来源,从而个人化对于特定捕获的系统响应。5.2关键字和词组、商标和标识
文档中的一些元素基于其自身的特性而不是其在特定文档中的位置而可能具有与它们关联的特定“标记”或功能。实例包括纯粹用于被捕获的目的而印刷在文档中的特殊记号以及可以使用户链接到关于涉及的组织的另外的信息的标识和商标。这同样适用于文本中的“关键字”或“关键词组”。组织可能登记它们所关联的或者它们想要关联的特定词组, 并且将特定标记与其附接,该标记将在该词组被捕获的任何地方可用。任何词、词组等等可以具有关联的标记。例如,无论何时用户捕获词语“图书”或者图书的标题或者与图书有关的主题,系统都可以将特定项目添加到弹出菜单(例如到在线书店的链接)。在系统的一些实例中,数字副本文档或索引被查阅以便确定捕获是否出现在词语“图书”或者图书的标题或者与图书有关的主题的附近,并且系统的行为依照距关键字元素的该接近度而被修改。在前面的实例中,应当指出的是,标记使得从非商业文本或文档捕获的数据能够触发商业交易。5.3用户提供的内容
5. 3. 1用户评论和沣释,包括多媒体
注释是可以与文档关联的另一种类型的电子信息。例如,用户可以附接他/她的关于特定文档的看法的音频文件以便以后作为话音注释进行检索。作为多媒体注释的另一个实例,用户可以附接文档中引用的地点的照片。用户通常提供文档的注释,但是系统可以关联来自其他来源的注释(例如,工作组中的其他用户可以共享注释)。5. 3. 2来自校对的笔记
源自用户的标记的一个重要的实例是作为校对、编辑或审查过程的一部分的纸质文档的注释。5.4第三方内容
如早先提到的,第三方可以经常例如通过文档的其他读者提供标记数据。在线讨论和审查是良好的实例,正如与特定工作有关的社区管理的信息、自愿者贡献的翻译和解释。第三方标记的另一个实例是由广告者提供的标记。5. 5基于其他用户的数据流的动杰标记
通过分析由系统的几个或所有用户从文档捕获的数据,可以基于社区的活动和兴趣产生标记。一个实例可能是创建标记或注释的在线书店,该标记或注释告诉用户,事实上,“欣赏该书的人也欣赏……”。该标记较少匿名,并且可以告诉用户在他/她的联系人列表中哪些人最近也阅读过该文档。数据流分析的其他实例包含于第14节。5. 6基于外部事件和数据源的标记
标记经常基于外部事件和数据源,例如来自企业数据库的输入、来自公共因特网的信息或者由本地操作系统收集的统计资料。数据源也可以更加是本地的,特别是可以提供关于用户上下文的信息,他/她的身份、位置和活动。例如,系统可以与用户的捕获设备的移动电话部件通信并且提供标记层,该标记层给予用户将文档发送给用户最近在电话上交谈的某个人的选项。5.7图像增强和补偿
在一些实例中,系统通过利用不同显示元件覆盖显示文档的显示器而提供增强的文档视图。该增强的视图可以利用与文档关联的不同显示元件覆盖捕获设备视野内的文档一部分的实时图像,或者可以利用与文档关联的不同显示元件呈现和覆盖由系统获取或产生的文档的图像或者关联的电子版本。在一些实例中,系统提供文档交互技术,其补偿捕获设备的各种不同的硬件配置,例如照相机和其他成像部件相对于显示器或文档中心点的位置、 捕获设备的尺寸和/或捕获设备的显示。系统可以提供文档交互技术,其使得用户能够导航纸质文档、标识与文档关联的标记、缩放纸质文档等等。例如,系统可以响应捕获设备的用户做出的姿态,例如相对于纸质文档在各个不同的方向上移动捕获设备的姿态。因此,系统使得用户能够通过使用多功能移动设备与纸质文档、目标对象和其他信息显示交互,所述多功能移动设备不一定被制造成除其他益处外仅仅与信息交互或者捕获来自设备周围环境的信息。
6.认证、个人化和安全件
在许多情形中,将会知道用户的身份。有时,这将是“匿名身份”,其中例如仅仅通过捕获设备的序列号标识用户。然而,典型地,期望的是系统将具有用户的详细得多的知识,其可以用于对系统个人化并且允许以用户的名义执行活动和交易。6. 1用户历史和“牛活图书馆”
系统可以执行的最简单然而最有用的功能之一是为用户记录下他/她捕获的文本以及与该捕获有关的任何进一步的信息,包括找到的任何文档的细节、该文档内的位置以及作为结果而采取的任何动作。在一些实例中,系统可以将捕获的信息发送给用户指定的电子邮件地址,其中用户可以借助于诸如P0P3、IMAP等等之类的电子邮件协议通过电子邮件客户端访问捕获的信息。此外,存储为电子邮件的捕获的信息可以包括到更全面的生活图书馆体验的链接,例如第16. 1节中所描述的。该存储的历史对于用户和系统二者都是有益的。6. 1. 1对于用户
可以向用户提供“生活图书馆”,即他/她已经阅读和捕获的任何事物的记录。这可能仅仅出于个人的兴趣,但是可能例如在图书馆中由正在收集他的下一篇论文的参考书目材料的学术人员使用。在一些情况下,用户可能希望例如通过以与网络日志类似的方式将图书馆公布到网络上而使得图书馆是公共的,从而其他人可以看见他/她正在阅读且发现有趣的东西。最后,在其中用户捕获某个文本且系统不能立即对该捕获采取动作(例如,因为文档的电子版本尚未可用)的情形中,该捕获可以存储到图书馆中并且可以在以后自动地或者响应于用户请求而加以处理。用户也可以订购新的标记服务并且将它们应用到先前的捕
-M-犾。6. 1. 2对于系统
用户过去捕获的记录对于系统也是有用的。知道用户的阅读习惯和历史可以增强系统操作的许多方面。最简单的实例是,用户做出的任何捕获更可能来自用户在最近的过去从其捕获信息的文档,并且特别是如果先前的捕获在最近的几分钟内,那么它非常可能来自相同的文档。类似地,更加可能的是,以开始至结束的顺序阅读文档。因此,对于英文文档, 同样更加可能的是,以后的捕获将在文档中往下更远处发生。这样的因素可以帮助系统在出现模糊的情况下确立捕获的位置,并且也可以减少需要捕获的文本量。6. 2捕获设备作为支付、身份和认证设备
由于捕获过程通常以某个种类的设备开始,因而该设备可以用作标识用户和授权特定动作的关键。6. 2. 1将捕获设备与用户账户关联
可以将捕获设备与移动电话账户关联。例如,可以通过将与移动电话账户关联的SIM 卡插入捕获设备中而将捕获设备与该账户关联。类似地,该设备可以嵌入信用卡或者其他支付卡中,或者具有将这样的卡与其连接的装置。因此,所述设备可以用作支付令牌,并且可以通过来自再现的文档的捕获而发起金融交易。6. 2. 2使用捕获以进行认证
也可以通过捕获与特定用户或账户关联的令牌、符号或文本而将捕获设备与该用户或账户关联。此外,捕获设备可以例如通过捕获用户的指纹而用于生物统计标识。在基于音频的捕获设备的情况下,系统可以通过匹配用户的话音模式或者通过要求用户说出特定口令或词组而标识该用户。例如,在用户捕获图书的报价并且被提供从网上零售商购买图书的选项的情况下,用户可以选择该选项,并且然后被提示捕获他/她的指纹以确认该交易。还请参见第15. 5和15. 6节。6. 2. 3安全捕获设备
当捕获设备用来标识和认证用户并且代表用户发起交易时,重要的是设备与系统的其他部分之间的通信是安全的。同样重要的是保护诸如另一个设备模仿捕获设备以及其中设备与其他部件之间的通信被拦截的所谓的“中间人”攻击之类的情形。用于提供这样的安全性的技术在本领域中被很好地理解;在不同的实例中,设备中以及系统别处的硬件和软件被配置成实施这样的技术。7.出版樽型和元件
所描述的系统的一个优点在于,无需改变创建、印刷和出版文档的传统过程以便获得该系统的许多益处。但是,存在文档的创建者或出版者——此后简称为“出版者”——可能希望创建支持所描述的系统的功能的原因。本节主要涉及出版的文档本身。对于关于其他有关商业交易(例如广告)的信息, 参见题为“P-商业”的第10节。7. 1印刷文档的电子同伴
系统允许印刷文档具有关联的电子存在物。常规上,出版者经常与图书一起装运包含另外的数字信息、教程电影和其他多媒体数据、示例代码或文档或者另外的参考材料的 ⑶-ROM。此外,一些出版者维护与特定出版物关联的网站,这些网站提供这样的材料以及可能在出版时间之后更新的信息,例如勘误表、进一步的评论、更新的参考材料、参考书目和相关数据的另外的来源以及到其他语言的翻译。在线论坛允许读者贡献他们的关于该出版物的评论。所描述的系统允许比从前紧密得多地将这样的材料与再现的文档联系在一起,并且允许用户容易得多地发现它们并且与它们交互。通过捕获来自文档的一部分文本,系统可以自动地将用户连接到与文档关联以及更特别地与文档的该特定部分关联的数字材料, 并且在捕获设备上显示这些材料。类似地,用户可以通过捕获设备连接到讨论文本的该部分的网上社区,或者其他读者的注释和评论。在过去,这样的信息典型地需要通过搜索特定页码或章节而找到。其一个示例应用是在学术教科书领域(第17. 5节)。7. 2 “订阅”印刷文档
一些出版者可能具有邮件列表,如果读者希望被通知新的相关事宜或者何时出版图书的新版本,那么他们可以订阅邮件列表。利用所描述的系统,用户可以更容易地登记对于特定文档或者文档部分的兴趣,在一些情况下甚至在出版者考虑提供任何这样的功能之前就可以如此。读者的兴趣可以馈送给出版者,可能地影响他们关于何时以及何地提供更新、进一步的信息、新版本或者甚至有关已经证明在现有的图书中引起人们兴趣的主题的全新出版物的决策。
21
7.3 ‘前■竹赫伺刺碑
系统的许多方面简单地通过使用已经存在于文档中的文本而启用。然而,如果在知道可以与系统结合使用文档的情况下产生文档,那么可以通过印刷特殊记号的形式的额外信息而添加额外的功能,所述特殊记号可以用来更密切地标识文本或者所需的动作,或者以其他方式增强文档与系统的交互。最简单且最重要的实例是向读者指示肯定可以通过系统访问文档。可以例如使用特殊的图标以便指示该文档具有与其关联的在线论坛。这样的符号可以预期纯粹用于读者,或者它们可以在被捕获且用来发起某个动作时由系统识别。可以在符号中编码足够的数据以便不仅仅标识该符号它也可以存储例如关于文档、版本以及符号的位置的信息,其可以由系统识别和读取。7. 4通过拥有纸质文档而授权
存在其中拥有印刷文档或者访问印刷文档将给予用户某些特权,例如访问文档的电子拷贝或者附加材料的一些情形。利用所描述的系统,可以仅仅作为用户捕获来自文档的部分文本或者捕获特别印刷的符号的结果而给予这样的特权。在其中系统需要确保用户拥有整个文档的情况下,它可能提示用户从特定页面(例如“第46页第二行”)捕获特定的项目或词组。7. 5到期的文档
如果印刷文档是额外材料和功能的出入口,那么访问这样的特征也可能是时间受限的。在到期日之后,用户可能被要求付费或者获得文档的更新版本以便再次访问所述特征。 当然,纸质文档将仍然是可使用的,但是将丧失它的一些增强的电子功能。这可能是所希望的,例如,因为出版者在收取访问电子材料的费用中或者在不时地要求用户购买新版本中存在利润,或者因为存在与保持流通的过时的印刷文档版本关联的缺点。优惠券是可能具有到期日的商业文档类型的一个实例。7. 6流行性分析和出版决策
第10. 5节讨论了使用系统的统计资料以影响作者的补偿和广告的定价。在一些实例中,系统根据与出版物关联的电子社区的活动以及根据纸质文档的使用推断出版物的流行性。这些因素可以帮助出版者对于他们将来出版什么做出决策。如果例如现有图书中的某章被证明极其受欢迎,那么可能值得将其扩展成单独的出版物。8.文档访问服务
所描述的系统的一个重要方面是向有权访问文档的再现拷贝的用户提供对于该文档的电子版本的访问的能力。在一些情况下,文档可在公共网络或者用户有权访问的私人网络上免费获得。系统使用捕获的文本以便标识、定位和获取该文档,在一些情况下在捕获设备上显示它或者将它存放在其电子邮件收件箱中。在一些情况下,文档将以电子形式可用,但是出于各种各样的原因,可能对于用户不可访问。仅仅列出一些可能性来说,可能不存在足够的连接以获取该文档,用户可能无权获取该文档,可能存在与获得该文档关联的成本,或者该文档可能被撤除以及可能地被新版本代替。如第7. 4节中提到的,如果已知特定用户已经有权访问文档的印刷拷贝,那么给予该用户的访问的程度或性质可能不同。8. 1认证的文档访问对于文档的访问可能限于特定的用户或者满足特定准则的那些用户,或者可能仅在特定的情况下可用,例如在用户连接到安全网络时可用。第6节描述了其中可以建立用户和捕获设备的凭据的一些方式。8. 2文档购买——版权所有者补偿
对于普通公众不可免费获得的文档可能在付费时仍然可访问,通常作为对于出版者或版权所有人的补偿。系统可以直接地实现支付装置或者可以利用与用户关联的其他支付方法,包括第6. 2节中描述的那些方法。8.3文档托管和主动获取
电子文档经常是短期的;再现的文档的数字源版本可能现在可用但是未来不可访问。 系统可以代表用户获取和存储现有的版本,即使用户没有请求它,从而在用户未来请求它的情况下保证它的可用性。这也使得它对于系统的使用可用,例如用于作为标识未来捕获的过程的一部分的搜索。如果要求支付以访问文档,那么受信任“文档托管”服务可以例如在支付适度费用时代表用户获取文档,保证未来在用户曾经从该服务请求文档的情况下完全补偿版权持有人。如果在捕获时文档不以电子形式可用,那么可以实施该方案的变型。用户可以在电子文档在以后的日期变得可用的情况下授权所述服务代表他/她提交对于文档的请求或者对于文档进行支付。8.4与其他订阅和账户关联
有时可以基于用户与另一个账户或订阅的现有关联而放弃、减少或者牺牲支付。例如, 报纸印刷版本的订户可以自动地有权获取电子版本。在其他情况下,该关联可能不会这样直接可以基于其雇主建立的帐户或者基于其对于作为订户的朋友拥有的印刷拷贝的捕获而授权用户访问。8. 5利用捕获并打印代替影印
捕获来自纸质文档的文本、标识电子原件以及打印该原件或者与捕获关联的该原件的某部分的过程形成传统影印的可替换方案,其具有许多优点
纸质文档无需处于与最终打印输出相同的位置,并且在任何情况下都无需同时在那

可以避免影印过程对文档,尤其是对旧的、易碎的和有价值的文档造成的磨损和破

拷贝的质量典型地高得多
可以保持关于最常拷贝哪些文档或者文档的哪些部分的记录 可以作为该过程的一部分对版权所有者做出支付 可以禁止未授权拷贝。8. 6从影印定位有价倌的原件
当像在具有历史或其他特定意义的法律文书或文档的情况下那样,文档特别有价值时,人们典型地可能使用这些文档的拷贝上,经常是使用许多年,而原件保持在安全的位置。所描述的系统可以耦合到记录原始文档例如在存档仓库中的位置的数据库,从而
23使得有权访问拷贝的某个人容易定位存档的原始纸质文档。9.信息处理技术
光学字符识别(OCR)技术传统上着眼于包含例如来自捕获整个页面的平板扫描仪的大量文本的图像。OCR技术经常需要用户的大量训练和校正以便产生有用的文本。OCR技术经常要求进行OCR的机器具有相当的处理能力,并且虽然许多系统使用字典,通常期望它们工作于实际上无限的词汇之上。所有上面的传统特性在所描述的系统中都可以被改进。然而,本文描述的技术,例如文本的识别、文档的标识、信息的检测以及其他技术,当然可以使用典型的OCR技术来实现。所讨论的许多问题直接映射到其他识别技术,尤其是语音识别。如第3. 1节中提到的,从纸张捕获的过程可以通过用户大声将文本读入捕获音频的设备中而实现。本领域技术人员应当理解,本文讨论的关于图像、字体和文本片段的原理经常也适用于音频样本、 用户语音模型和音素。与所描述的系统一起使用的捕获设备经常是小的、便携式的且低功率的,或者不被制造成仅仅捕获文本。捕获设备可能具有并非理想地适合于OCR的光学元件,或者可能缺少帮助OCR的光学元件。捕获设备可以一次仅仅捕获一些词,并且在一些实现方式中甚至不一次捕获整个字符,而是通过文本的水平切片,许多这样的切片缝合在一起以形成可以从中推断文本的可识别信号。捕获设备也可以具有非常有限的处理能力或存储量,因而尽管在一些实例中它可以执行所有OCR过程本身,但是许多实例将取决于可能地在以后的时间到更强大的设备的连接,以便将捕获的信号转换成文本。最后,它可以具有用于用户交互的非常有限的装置,因而可能需要将对于用户输入的任何请求推迟到以后,或者在比如今常见的程度更大的程度上工作于“最佳猜测”模式。在一些实例中,系统通过以下方式处理捕获的信息首先标识待识别的感兴趣信息(例如文本或语音)的存在性,提取与感兴趣信息在捕获的信息内的位置相应的特征 (例如词、行、段落、列等等在页面内的位置、人群中特定说话者的频率范围),并且识别感兴趣信息的特性,例如再现的文档内的文本布局或者与再现的文档内识别的字母相应的 Unicode字符的标识,以便例如标识捕获的图像的来源,或者产生和显示捕获的图像上方的标记层。尽管可以对于任何类型的信息执行这些过程,但是下面的实例参照基于文本的再现的文档描述了这些过程。9. 1标识和提取
标识是确定捕获的图像包含文本的可能性的过程。由于捕获设备可以不断地捕获图像,因而系统可以在试图从捕获的信息中提取文本特征或者识别文本之前首先确定捕获的图像是否包含文本。换言之,系统是“文本感知”的,因为在任何时间它可以确定它是否面临文本。—旦系统确定文本存在,那么系统可以开始提取过程。提取过程标识捕获内的文本的位置。例如,提取过程可以产生与捕获的图像内的词和段落相应的边界。若干因素可以进入标识和提取过程。例如,当分析文本时,系统可以标识与文本中的笔划关联的各种不同的特征,例如高对比度边缘的存在、笔划内颜色变化的缺乏(例如比笔划内背景与前景颜色的存在)、一致的宽度(水平、竖直或者二者)、笔直边缘的存在、平滑边缘曲线的存在,等等。作为另一个实例,系统可以标识捕获的图像内潜在文本的特性 (例如笔划边缘)的周期性或重复,水平和/或竖直笔划、基线、高度线、竖直线与基线之间的角度的存在,字形或字形子成分(例如拐角,曲线,对角线,字形的部分之间的桥接线,例如书法信件中的宽笔划之间的窄笔划,衬线,一致的线帽和斜接等等)的存在。系统也可以使用运动模糊以便基于运动方向上亮暗彩色带(例如极限运动模糊的情况下沿着从左到右的脚本中的水平文本轴的背景和前景条带)的存在标识文本的存在。文本的标识和提取期间可以考虑的附加因素包括 行
行内的字形竖直线行内的字形水平线
基线
行内字形或符号的高度字形、词和/或笔划之间的水平空间行之间的竖直空间边缘和边距
密度
笔划背景之比行内和行间的密度 字形序列
N元文法(N个连续词的序列)

大写 标点
句子(大写、标点、周期) 段落 标题 插图说明
基于距图像的接近度
图例
框、图标等等 图上文字短文本
比背景图像更大的对比度、周期等等
标志
公司/产品/服务名称主要商业标志
与背景的分界线(例如椭圆形边界)。本领域技术人员应当理解,系统在执行文本标识和提取以及处于任何分析水平时可以使用任何或所有上述特征。例如,在标识过程期间,系统可以在依赖于水平空间之间的距离的同时仅仅依赖于水平空间的数量,并且在提取过程期间依赖于捕获的图像内它们与边缘的关系。系统也可以基于例如大区域的平滑梯度、随机性(例如高对比度特定区域的位置、 高对比度边缘的高度、高对比度边缘的不勻性)、捕获的图像内脸、身体或建筑物的存在性、 线或者连通成分的不一致的尺寸等等对非文本信息执行标识和提取。9.2文本识别
基于提取的位置信息,系统可以试图识别捕获的图像内的文本或者文本的特征。例如, 系统可以将文本发送给OCR部件或者基于文本的标识的特征(例如文本内上升字母和/或下行字母的模式)而产生签名。在执行文本识别之前,系统可以通过例如将所有斜体或粗体文本转换成标准的格式而对文本标准化或规格化。文本识别过程可以依赖于若干特征以便识别文本的特性或者产生再现的文档的签名,例如字形特征(例如封闭的空间、竖直和水平笔划等等)、标点、大写、字符空间、行特征、段落特征、列特征、标题特征、插图说明特征、关键/图例特征、标志特征、图上文字特征等等。此外,词特征可以帮助文本识别过程,例如词间距和密度。例如,系统可以使用与文档上印刷的词之间的空间关联的信息,例如空间之间的距离(水平的、竖直的、正交的等等)、 空间之间的宽度等等。系统可以进一步将关于换行的知识合并到分析中。例如,当换行已知时,系统可以依赖于词位置的竖直对齐,而当换行未知时,系统可以依赖于邻近的相对词长度序列。作为另一个实例,系统可以使用与字符密度关联的信息,例如字符之间的相对密度(水平的、竖直的、正交的等等)、分组的字符配对之间的相对密度或者绝对密度信息。特定的特征可能对于字体、字体大小等等不变,例如点和线的对称性(例如字形内、点和/或线周围的自相关)。系统可以在捕获的图像内动态地选择分析哪些特征。例如,在村子光学模糊和运动模糊的情况下,系统可以使用文本的较少细节方面,例如相对词宽度。在一些实例中,系统可以通过基于例如字符偏离公共η元文法的确定度、偏离的长度、匹配的规则表示(例如对于电子邮件地址和URL)等等确定未知的或罕见的η元文法是否为噪声或者高信号信息(拼写错误、电子邮件地址、URL等等)而利用唯一的η元文法。系统可以使用再现的文档外部的资源以识别再现的文档内的文本,例如涉及词内的字形的近似数量、字典(例如词频字典)、语法和标点规则、找到全集内的特定词文法和字符文法的概率、匹配不同字符串的规则表示(例如电子邮件地址、URL等等)的知识。此外, 系统可以使用诸如DNS服务器、地址簿和电话簿之类的资源验证识别的文本,例如URL、电子邮件地址和电话号码。作为另一个实例,系统可以使用字体矩阵以帮助识别和验证各种不同的字形。可以基于字体矩阵中反映的未识别的和识别的字符之间的关系将给定字体的未识别的字符与相同字体的识别的字符进行比较以便帮助它们的识别。举例而言,如果字体矩阵表明“d”的表示类似于“C”和“1”的组合,那么未识别的“d”可以基于识别的“C” 和“1”而识别为“d”。系统可以使用识别的文本或特征以便在文档全集的文档之中标识出捕获的图像中描绘的文档。用来标识的信息量和信息类型可以基于任何数量的因素而变化,这些因素例如文档的类型、全集的大小、文档内容等等。例如,捕获的图像内5或6个词的序列或者词之间的空间的相对位置可以在相对较大的全集内唯一地标识相应的文档。在一些实例中,系统可以采用转换表以确定关于特定特征的信息或者属于特定特征的信息的组合将唯一地标识文档的概率。例如,转换表可以指示5个词的词序列与两个不同的3词序列、2连续行的上升字母和/或下行字母模式等等具有相同的唯一地标识文档的概率。在一些实例中,系统可以自动地积累捕获的图像或者将其“缝合”在一起以便例如产生再现的文档的复合图像,该复合图像比单独的捕获的文档更加可能唯一地标识相应的文档。在一些实例中,文本识别过程可以影响信息的捕获。例如,如果文本被识别为离焦或者不完整,那么系统可以调节捕获设备的照相机的焦点或者提示用户重新放置或调节捕获设备。系统可以用来识别文本的各种不同的技术在下文中进一步详细地加以描述。9. 2. 1 “不确定的”OCR
所描述的系统内OCR的主要的新特性在于以下事实它通常将检查存在于别处且可能以数字形式获取的文本的图像。因此,不总是需要来自OCR引擎的确切的文本转写。OCR系统可以输出一组可能的匹配或者可能的匹配的矩阵,在一些情况下包括概率权重,其仍然可以用来搜索数字原件。9. 2. 2迭代OCR——猜测、消除歧义、猜测……
如果执行识别的设备能够在处理时联系文档索引,那么随着OCR过程的继续,可以通过文档全集的内容告知OCR过程,从而潜在地提供大得多的识别精度。这样的连接也将允许设备告知用户何时已经捕获了足够的文本以标识数字源。9. 2. 3使用可能的再现的知识
当系统知道了文档的可能的印刷再现的各方面(例如印刷中使用的字体字样或者页面的布局或者哪些部分为斜体)时,这也可以帮助识别过程(第4. 1. 1节)。9. 2. 4斜本_——确^Tife贿P··卜.圓本
当标识了文档全集中的候选源文本时,可以将字体或者其再现下载到设备以帮助识别。9. 2. 5自相关和字符偏移
尽管文本片段的组成字符可能是代表可以用作文档签名的文本片段的最认可的方式, 但是文本的其他表示可以足够好地起作用,因而当试图定位数字文档和/或数据库内的文本片段时或者当对文本片段的表示消除歧义成可读的形式时,无需使用文本片段的实际文本。文本片段的其他表示可以提供实际文本表示所缺乏的益处。例如,与捕获的文本片段的其他表示不同的是,文本片段的光学字符识别经常容易出错,所述其他表示可以用来搜索和/或重建文本片段而不诉诸对于整个片段进行光学字符识别。这样的方法可能更适合于与当前系统一起使用的一些设备。本领域技术人员以及其他人应当理解,存在描述文本片段的外观的许多方式。文本片段的这样的表征可以包括但不限于词长度、相对词长度、字符高度、字符宽度、字符形状、字符频率、令牌频率等等。在一些实例中,匹配文本令牌之间的偏移(即居间令牌的数量加1)用来表征文本片段。常规的OCR使用关于字体、字母结构和形状的知识以便试图确定扫描的文本中的字符。本发明的实例是不同的;它们采用各种各样的方法,这些方法使用再现的文本本身以帮助识别过程。这些方法使用字符(或令牌)“识别彼此”。引用这种自识别的一种方式是 “模板匹配”,并且类似于“卷积”。为了执行这种自识别,系统将文本的拷贝在本身上方水平
27地滑动,并且记下文本图像的匹配区域。现有的模板匹配和卷积技术包含各种各样的相关技术。令牌化和/或识别字符/令牌的这些技术将统称为“自相关”,因为当匹配字符/令牌时,文本用来与其自身的组成部分相关。当自相关时,匹配的完整的连通区域是令人感兴趣的。这出现在字符(或者字符组)覆盖相同字符(或组)的其他实例时。匹配的完整的连通区域自动地提供将文本令牌化为组成令牌。随着文本的两个拷贝滑过彼此,其中出现理想匹配(即竖直切片中的所有像素匹配)的区域被记下。当字符/令牌与自身匹配时,该匹配的水平范围(例如文本的连通匹配部分)也匹配。应当指出的是,无需确定每个令牌的实际身份(即与令牌图像相应的特定字母、数字或符号或者这些的组),仅确定捕获的文本中到相同的令牌的下一次出现的偏移。偏移数是到相同令牌的下一次出现的距离(令牌数)。如果令牌在文本串内是唯一的,那么偏移为零(0)。这样产生的令牌偏移序列是可以用来标识捕获的文本的签名。在一些实例中,将针对捕获的令牌串确定的令牌偏移与索引电子文档全集的索引进行比较,这基于它们的内容的令牌偏移(第4. 1.2节)。在其他实例中,将针对捕获的令牌串确定的令牌偏移转换成文本并且基于它们的内容将其与索引电子文档全集的更常规的索引进行比较。如早先所指出的,当捕获过程包括口头词的音频样本时,类似的令牌相关过程可以应用于语音片段。9. 2. 6字体/字符“自识别”
常规的模板匹配OCR将扫描的图像与字符图像库进行比较。实际上,针对每种字体存储了字母表,并且将新扫描的图像与存储的图像进行比较以便找出匹配字符。该过程通常具有初始的延迟,直到标识了正确的字体。之后,OCR过程相对较快,因为大多数文档通篇使用相同的字体。后续的图像因而可以通过与最近标识的字体库进行比较而转换成文本。最常使用的字体中的字符的形状是相关的。例如,在大多数字体中,字母“C”和字母“e”在视觉上相关,正如“t”和“f”等等。OCR过程通过使用该关系以构造用于尚未扫描的字母的模板而被增强。例如,在读者从纸质文档捕获了先前未遇到的字体的短文本串,因而系统没有将其与捕获的图像进行比较的一组图像模板的情况下,系统可以利用特定字符之间的可能的关系以构造字体模板库,即使它尚未遇到字母表中的所有字母。系统然后可以使用构造的字体模板库以识别后续捕获的文本并且进一步改进构造的字体库。 9.2.7 ^^iP^n^m^B(^eaM) tMmmi^
当图像不能机器转写成适合用于搜索过程的形式时,可以保存图像本身以便后来由用户使用、可能的手动转写或者在不同的资源可能对于系统可用的以后日期进行处理。10. P-商业
系统使其可能的许多动作导致一些商业交易发生。措词P-商业在这里用来描述通过系统从纸张发起的商业活动。10. 1来自其物理印刷拷贝的文档销售
当用户捕获来自文档的文本时,用户可能被提供纸质或电子形式的该文档的购买。用户也可能被提供相关的文档,例如在纸质文档中报价的或者以其他方式引用的那些文档, 或者关于相似主题的那些文档,或者相同作者的那些文档。
28
10. 2通过纸张发起或辅助的仵何别的东西的销售
可以以各种各样的方式将文本的捕获与其他商业活动相联系。捕获的文本可能在明确地被设计成销售物品的目录中,在该情况下,文本将相当直接地与物品的购买关联(第18. 2 节)。文本也可以是广告的一部分,在这种情况下,可能因而发生被广告的物品的销售。在其他情况下,用户捕获其他文本,从中可以推断他们对于商业交易的潜在兴趣。 例如,特定国家的小说集的读者可能对那里的度假感兴趣。阅读新车评论的某人可能正考虑购买该车。用户可以捕获特定的文本片段,作为结果知道某个商业机会将提供给他们,或者它可以是他们的捕获活动的意外结果。10. 3翩销._口口口卜._$、图标、麻枵、备Mli马__
有时,文本或符号实际印刷在物品或其包装上。一个实例是经常在一件电子装备的背面或底侧的标签上发现的序列号或产品id。系统可以通过捕获该文本向用户提供购买一个或多个相同物品的方便方式。他们也可以被提供手册、支持或维修服务。10. 4上下文广告
除了直接捕获来自广告的文本之外,系统也允许一种新的广告,其不一定明确地在再现的文档中,但是基于人们正在阅读的东西。10. 4. 1基于捕获上下文和历Φ的广告
在传统的纸质出版物中,广告通常相对于报纸文章的文字消耗大量的空间,并且有限数量的广告可以置于特定文章周围。在所描述的系统中,可以将广告与个别的词或词组关联,并且可以依照用户通过捕获该文本而表现出的特定兴趣以及可能地考虑其捕获历史而选择广告。利用所描述的系统,有可能将购买与特定的印刷文档相联系并且广告者得到明显更多的关于其在特定印刷出版物中的广告的效果的反馈。10. 4. 2基于用户上下文和历史的广告
系统可以搜集大量的关于用户的上下文的其他方面的信息以供自身使用(参见第13 节);估计用户的地理位置是良好的实例。这样的数据也可以用来定制呈现给系统的用户的广告ο10. 5补偿模型
系统允许为广告者和营销者实现某些新补偿模型。包含广告的印刷文档的出版者可以从来源于他们的文档的购买接收一定收益。这可能是真实的,不管广告是否以原始的印刷形式存在;它可能由出版者、广告者或者某个第三方电子地添加,并且这种广告的来源可能已通过用户订阅。10. 5. 1基于流行性的补偿
系统产生的统计资料的分析可以揭示出版物的特定部分的流行性(第14. 2节)。例如, 在报纸中,它可以揭示读者花在浏览特定页面或文章的时间量或者特定专栏作家的受欢迎程度。在一些情况下,对于作者或出版者可能合适的是基于读者的活动而不是基于诸如写出的词或分发的拷贝数之类的更传统的度量接收补偿。其作品变成一定主题的经常阅读的权威著作的作者应当在未来的合同中与其图书销售了相同的拷贝数但是很少被打开的作者不同地加以考虑。10. 5. 2基于流行性的广告关于文档中的广告的决策也可以基于有关读者人数的统计资料。最受欢迎的专栏作家周围的广告空间可以溢价率出售。甚至可以在文档出版之后一段时间基于关于它如何被接收的知识向广告者收费或者对其补偿。10.6基于牛活图书馆的营销
第6. 1和16. 1节中描述的“生活图书馆”或捕获历史可以是关于用户的兴趣和习惯的极其有价值的信息源。经过适当的同意和隐私问题,这样的数据可以告知用户商品或服务的提供。甚至在匿名的形式下,收集的统计资料也可能是极其有用的。10. 7以后日期的销售/信息(当可用时)
商业交易的广告和其他机会可能不在捕获时立即呈现给用户。例如,购买小说结局的机会可能在用户阅读小说的时候不可获得,但是系统可以在结局出版时向他们呈现该机石。用户可以捕获与购买或其他商业交易有关的数据,但是可以在做出捕获的时候选择不发起和/或完成该交易。在一些实例中,与捕获有关的数据存储在用户的生活图书馆中,并且这些生活图书馆条目可以保持“激活”(即能够进行随后的交互,类似于做出捕获的时候可用的交互)。因此,用户可以在某个稍后的时间回顾捕获,并且可选地完成基于该捕获的交易。由于系统可以跟踪何时和何处发生原始的捕获,因而可以适当地补偿交易中涉及的所有方。例如,当六个月后用户访问他们的生活图书馆,从历史中选择该特定捕获,并且从弹出菜单(其可以与在捕获的时候可选地呈现的菜单相似或相同)中选择“在亚马逊购买该物品”时,可以对写下出现在用户从其捕获数据的广告的近旁的故事的作者以及出版该故事的出版者进行补偿。11.操作系统和应用集成
现代操作系统(OS)和其他软件包具有许多特性,这些特性可以有利地利用以便与所描述的系统一起使用,并且这些特性也可以以不同的方式加以修改以提供甚至更好的平台以供其使用。H. ι
新的和即将来临的文件系统及其关联的数据库经常具有存储与每个文件关联的各种各样的元数据的能力。传统上,该元数据包括了诸如创建文件的用户的ID、创建日期、最近的修改和最近的使用之类的东西。更新的文件系统允许存储诸如关键字、图像特性、文档源和用户评论之类的额外信息,并且在一些系统中,该元数据可以任意地扩展。因此,文件系统可以用来存储将在实现当前系统中有用的信息。例如,文件系统可以存储给定文档最近被印刷的日期,正如可以存储关于使用所描述的系统从纸张捕获了来自它的哪个文本以及何时捕获和由谁捕获的细节。操作系统也开始合并允许用户更容易地找到本地文件的搜索引擎装置。这些装置可以由系统有利地加以使用。这意味着第3和4节讨论的许多搜索相关概念不仅仅适用于基于因特网的和类似的搜索引擎,而且也适用于每个个人计算机。在一些情况下,特定的软件应用也将包括对于上述以及OS提供的装置之外的系统的支持。11. 2对于捕获设备的OS支持
随着诸如移动通信设备之类的具有集成的照相机和麦克风的捕获设备的使用变得日益普遍,可能希望的是以与对于鼠标和打印机提供支持的大致相同的方式将对于它们的支持嵌入到操作系统中,因为捕获设备的适用性超出单个软件应用之外。这对于系统操作的其他方面同样是真实的。下面讨论了一些实例。在一些实例中,整个描述的系统或者其核心由 OS(例如 Windows、Windows mobile、Linux、Max OS X、iPhone OS、Android 或者 Symbian) 提供。在一些实例中,对于系统的支持由可以被其他软件包使用的应用编程接口(API)提供,所述软件包包括直接实现所述系统的各方面的那些软件包。11.2. 1对于OCR和其他识别技术的支持
大多数捕获来自再现的文档的文本的方法要求某个识别软件将源数据,典型地为捕获的图像或一些说出的词解释为适合用于系统中的文本。一些OS包括对于语音或手写识别的支持,尽管OS包括对于OCR的支持是不常见的,因为在过去OCR的使用典型地限于小范围的应用。由于识别部件变成OS的一部分,它们可以更好地利用OS提供的其他装置。许多系统包括例如拼写字典、语法分析工具、国际化和本地化装置,所有这些可以由所描述的系统有利地用于其识别过程,这特别地因为它们可能已经为特定用户定制以包括他/她常常遇到的词和词组。如果操作系统包括全文本索引装置,那么这些装置也可以用来如第9. 3节中所描述的告知识别过程。11.2.2捕获时采取的动作
如果捕获发生并且提供给0S,那么它可以具有在没有其他子系统声明拥有该捕获的那些情况下采取的缺省动作。缺省动作的一个实例是向用户呈现可替换方案的选择,或者将捕获的数据提交到OS的嵌入式搜索装置。11.2.3 OS H有用于Φ寺或t档类型的缺省云M乍
如果找到再现的文档的数字源,那么OS可以具有其在该特定文档或者该类别的文档被捕获时将采取的标准动作。应用和其他子系统可以以应用宣告其处理特定文件类型的类似方式向OS注册为特定捕获类型的潜在句柄。与再现的文档或者与来自文档的捕获关联的标记数据可以包括给操作系统的启动特定应用、传递应用变量、参数或数据等的指令。11.2.4解释姿态且映射成标准动作
在第12. 1.3节中,讨论了“姿态”的使用,其中利用捕获设备做出的特定运动可能代表标准的动作,例如标记文本区域的开始和结束。这类似于这样的动作在使用光标键选择文本区域的同时按压键盘上的shift 键,或者使用鼠标上的滚轮滚动文档。用户的这样的动作是充分标准的,使得它们由捕获设备的OS以系统范围的方式解释,从而确保一致的行为。对于其他的捕获设备相关动作,希望同样如此。11.2.5设置对于标准(和非标准)图标/文本印刷菜单项的响应
按照相似的方式,特定的文本项或者其他符号项在被捕获时使得标准动作发生,并且 OS可以提供对于这些的选择。一个实例可能是,捕获任何文档中的文本“[打印]”将使得 OS获取并且打印该文档的拷贝。OS也可以提供登记这样的动作并且将其与特定捕获关联的方式。
11. 3麵牛ΦΧ仔絲誓細辞力隨寺大多数软件应用基本上基于OS提供的标准图形用户界面(GUI)部件。开发者使用这些部件有助于确保跨多个软件包的一致的行为,例如在任何文本编辑上下文中按压左光标键应当将光标移到左边,而无需每个编程者独立地实现相同的功能。当通过文本捕获或者所描述的系统的其他方面发起活动时,这些部件中的类似一致性是所希望的。下面给出了一些实例。11.3. 1找到特定文本内容的接口
系统的典型用途可能是供用户捕获纸质文档的区域,以及供系统在能够显示或编辑它的软件包中打开电子副本,并且使得该包滚动到且加亮扫描的文本(第12. 2. 1节)。这个过程的第一部分,即找到且打开电子文档,典型地由OS提供并且跨各软件包是标准的。然而, 第二部分——在文档内定位一段特定文本并且使得包滚动到它且加亮它——尚未标准化, 并且经常由每个包不同地实现。用于该功能的标准API的可用性可以大大地增强系统这个方面的操作。11.3.2文本交互
一旦在文档内定位了一段文本,那么系统可能希望对该文本执行各种各样的操作。作为一个实例,系统可以请求周围的文本,从而用户对于一些词的捕获可能导致系统访问包含它们的整个句子或段落。同样地,该功能可以有效地由OS提供,而不是在处理文本的每个软件中实现。11.3.3上下文(弹出)菜单
系统启用的一些操作将需要用户反馈,并且这最佳地在处理数据的应用的上下文中请求。在一些实例中,系统使用传统上与在某个文本上点击右鼠标按钮关联的应用弹出菜单。 系统将额外选项插入这样的菜单中,并且使得它们作为诸如捕获纸质文档的一部分之类的活动的结果而显示。11. 4网络/网络接口
在今天越来越多地联网的世界中,大多数单个机器上可用的功能也可以通过网络访问,并且与所描述的系统关联的功能也不例外。作为一个实例,在办公室环境中,用户接收的许多纸质文档可以由相同企业网络上其他用户的机器打印。受适当的权限控制,一台计算机上的系统响应于捕获而可能能够向其他机器查询可能与该捕获相应的文档。11.5文档的打印造成保存
纸质和数字文档的集成中一个重要的因素是维护尽可能多的关于这二者之间的转变的信息。在一些实例中,OS保持任何文档何时被打印以及由谁打印的简单记录。在一些实例中,OS采取一个或多个另外的动作,这将使得其更适合于与所述系统一起使用。实例包括
与关于从其打印每个文档的来源的信息一起保存打印的每个文档的数字再现版本 保存关于打印版本的有用信息的子集,例如使用的字体以及何处出现换行,这可以帮助未来的捕获解释
保存与任何打印的拷贝关联的源文档的版本 在打印和存储结果以供将来搜索的时候自动地索引文档。
32
11.6我的(打印的/捕获的)文档
OS经常维护具有特别的意义的特定文件夹或文件类别。按照惯例或设计,可以例如在 “我的文档”文件夹中找到用户的文档。标准的文件打开对话框可以自动地包括最近打开的文档的列表。在为了与所描述的系统一起使用而优化的OS上,这样的类别可以以考虑用户与存储的文件的纸质版本交互的方式而被增强或扩充。诸如“我的打印的文档”或“我的最近阅读的文档”之类的类别可能有效地被标识且合并到其操作中。11.7 OS级标记层次结构
由于系统的重要方面典型地通过使用第5节中讨论的“标记”概念而提供,因而显然有利的将是以对于多个应用以及对于OS本身可访问的方式具有对于OS提供的这种标记的支持。此外,标记层可以基于OS自身的在其控制下的文档以及其能够提供的装置的知识而由 OS提供。11.8 OS DRM装置的使用
越来越多数量的操作系统支持某种形式的“数字版权管理”依照授予特定用户、软件实体或机器的权利控制特定数据的使用的能力。它可以阻止例如特定文档的未授权拷贝或分发。12.用户接口
系统的用户接口可以完全在捕获设备上,如果它是复杂的且具有其自身的重大的处理能力的话,例如移动电话或PDA,或者完全在PC上,如果捕获设备相对 且通过电缆连接到 PC的话。在一些情况下,一些功能驻留在每个部件中。因此,以下章节中的描述是特定实现方式中可能期望什么的指示,但是它们不一定适合于一切并且可以以若干方式进行修改。12. 1在捕获设备上
对于大多数捕获设备,用户的注意力在捕获的时候通常会在设备和纸张上。于是,非常希望的是,需要作为捕获过程的一部分的任何输入和反馈都不需要用户的注意力过多地处于别处,例如计算机的屏幕上。12. 1. 1捕获设备的反馈
捕获设备可以具有向用户提供关于特定状况的反馈的各种各样的方式。最明显的类型是直接的视觉,其中捕获设备合并捕获的图像的完全显示或者指示灯,以及听觉,其中捕获设备可以发出蜂鸣声、点击或其他声音。重要的可替换方案包括触觉反馈,其中捕获设备可以振动、嗡嗡作响或者以其他方式刺激用户的触觉,以及投影反馈,其中它通过将从彩色光斑到复杂显示的任何东西投影到纸张上来指示状态。可以在捕获设备上提供的重要的即时反馈包括
关于捕获过程的反馈——用户移动捕获设备太快、以太大的角度移动或者漂移太高或太低
充分的内容——已经捕获足够以便相当确定找到匹配(如果存在的话)——这对于断开的操作是重要的
上下文已知——已经定位了文本的来源 唯一上下文已知——已经定位了文本的一个唯一来源 内容可用性——内容是否可为用户免费获得或者以一定成本获得的指示。如果捕获设备具有例如显示文档的一部分或全部的足够能力的话,通常与系统的后期阶段关联的许多用户交互也可以在捕获设备上发生。12. 1.2捕获设备上的控件
捕获设备可以提供各种各样的方式以供用户提供除了基本的文本捕获之外的输入,例如按钮、滚轮/轻推轮、触敏表面,和/或用于检测设备的运动的加速度计。这些输入中的一些允许在仍然拿着捕获设备的同时实现一组更丰富的交互。例如,响应于捕获某个文本,捕获设备向用户呈现一组若干可能的匹配文档。用户使用捕获设备的触敏表面从列表中选择一个。12. 1. 3 姿杰
跨纸张移动捕获设备的主要原因是捕获文本,但是一些运动可能被设备检测并且用来指示其他的用户交互。这样的运动在这里称为“姿态”。作为一个实例,用户可以通过在从左至右的运动中捕获头几个词并且在从右至左的运动中捕获最后几个词来指示大的文本区域。用户也可以通过沿着页面越过若干行移动捕获设备来指示文本的竖直范围。捕获期间的后向运动可以指示取消先前的捕获操作。12. 1.4在线/离线行为
系统的许多方面可能取决于诸如捕获设备之类的系统部件与无线网络之间的网络连接性,或者到企业数据库和因特网搜索的连接形式的与外部世界的网络连接性。然而,该连接性可能不是一直存在,因而会存在系统的一部分或全部可能被认为“离线”时的场合。在这些情况下,希望的是允许系统继续有效地起作用。当捕获设备与系统的其他部分失去联系时,捕获设备可以用来捕获文本。非常简单的设备可能仅仅能够存储与捕获关联,理想地与指示其何时被捕获的时间戳关联的图像或音频数据。各个不同的捕获可以在捕获设备接下来与系统接触时上传到系统的其余部分并且然后进行处理。捕获设备也可以上传与捕获关联的其他数据,例如话音注释或位置信肩、ο更复杂的设备可能能够本身执行一些或所有系统操作,而不管其被断开。第15. 3 节讨论了用于提高它们这样做的能力的各种不同的技术。通常,情况将会是一些而不是所有希望的动作可以在离线的同时执行。例如,可以识别文本,但是来源的标识可能取决于到基于因特网的搜索引擎的连接。因此,在一些实例中,设备存储充分的关于每个操作进展多远的信息以便在连接恢复时系统的其余部分有效地继续。系统的操作通常将受益于立即可用的连接,但是存在其中执行若干捕获并且然后执行它们作为批处理可能具有优势的一些情形。例如,如下面的第13节中所讨论的,特定捕获的来源的标识可以通过检查用户在近似相同的时间做出的其他捕获而大大地增强。在其中向用户提供实时反馈的系统中,系统在处理当前的捕获时仅仅能够使用过去的捕获。 然而,如果捕获是设备离线时存储的批处理之一,那么系统在进行其分析时将能够考虑可从后来的捕获以及早先的捕获获得的任何数据。12. 2在主机设备上
捕获设备可以与诸如PC之类的某个其他设备通信以便执行系统的许多功能,包括与用户的更详细的交互。
12. 2. 1响应于捕获而执行的活动
当主机设备接收捕获时,它可以发起各种各样的活动。系统在定位与捕获关联的电子副本文档和该文档内的位置之后执行的可能的活动的不完整列表如下。·可以将捕获的细节存储到用户的历史中。(第6.1节) 可以从本地存储装置或远程位置获取文档。(第8节)
可以更新与文档关联的操作系统元数据和其他记录。(第11. 1节) 可以检查与文档关联的标记以便确定接下来的相关操作。(第5节) 可以启动软件应用以编辑、查看或者以其他方式对文档操作。应用的选择可以取决于源文档或者取决于捕获的内容或者取决于捕获的其他方面。(第U. 2. 2,11. 2. 3节) 应用可以滚动到、加亮、移动插入点到或者以其他方式指示捕获的位置。(第11. 3节) 可以修改捕获的文本的精确界限,以便例如选择捕获的文本周围的全部词、句子或段落。(第11. 3. 2节)
可以给予用户将捕获文本拷贝到剪贴板或者对其执行其他标准操作系统或专用操作的选项。
可以将注释与文档或捕获的文本关联。这些注释可以来自即时用户输入,或者例如在与捕获的图像关联的话音注释的情况下可以在早期被捕获。(第19. 4节) 可以检查标记以便确定供用户选择的一组另外的可能的操作。12. 2. 2上下文弹出菜单
有时系统采取的适当动作将是明显的,但是有时它将要求用户做出选择。这样做的一种良好的方式是通过使用靠近捕获设备的显示器上的内容出现的“弹出菜单”或者所谓的 “上下文菜单”。(参见第11. 3.3节)。在一些实例中,捕获设备将弹出菜单投影到纸质文档上。用户可以使用诸如键盘和鼠标之类的传统方法,或者通过使用捕获设备上的控件(第 12. 1.2节),或者通过使用捕获设备与计算机显示器交互(第12. 2. 4节)而从这样的菜单中进行选择。在一些实例中,可以作为捕获的结果出现的弹出菜单包括缺省项,这些缺省项代表在用户不响应的情况下——例如,在用户忽略菜单并且做出另一捕获的情况下出现的动作。12. 2. 3消除歧义的反馈
当用户开始捕获文本时,起初将存在它可以匹配的若干文档或其他文本位置。随着更多的文本被捕获,并且考虑了其他因素(第13节),候选位置的数量将减少,直到实际的位置被标识,进一步的消除歧义在没有用户输入的情况下不可能。在一些实例中,系统例如以列表、缩略像或文本段形式提供找到的文档或位置的实时显示,并且对于该显示中的元素数量,随着捕获的继续而减少数量。在一些实例中,系统显示所有候选文档的缩略图,其中缩略图的大小或位置取决于它为正确的匹配的概率。当明确地标识捕获时,可以例如使用音频反馈向用户强调这个事实。有时,捕获的文本将出现在许多文档中并且将被识别为引文。系统可以例如通过将包含引用的参考文献的文档分组在原始源文档周围而在屏幕上表明这点。12. 2. 4从屏幕捕获
一些捕获设备可能能够捕获屏幕以及纸张上显示的文本。因此,术语再现的文档在这里用来指示印刷到纸张上不是再现的唯一形式,并且供系统使用的文本或符号的捕获在该
35文本显示在电子显示器上时同样可以是有价值的。出于各种各样的其他原因,所描述的系统的用户可能需要与计算机屏幕交互,以便从选项列表中进行选择。其他的章节描述了作为输入方法的捕获设备上的物理控件(第 12. 1. 2节)或姿态(第12. 1. 3节),其可能甚至在捕获信息时是方便的,形成与可替换输入方法关联的显示设备,例如键盘或鼠标。在一些实例中,捕获设备可以在无需处理捕获的文本的情况下、可能地借助于计算机上的专用硬件或软件感测它在屏幕上的位置。13.上下文解释
所描述的系统的一个重要方面是除了文本串的简单捕获之外使用其他的因素以便帮助标识使用的文档。适度文本量的捕获经常可以唯一地标识文档,但是在许多情形下,它将标识一些候选文档。一种解决方案是提示用户确认捕获的信息的来源,但是一个优选的可替换方案是利用其他因素以自动地缩小可能性。这样的补充信息可以急剧地减少需要捕获的文本量和/或增大可以标识电子副本中的位置的可靠性和速度。该额外的材料称为“上下文”,并且它在第4. 2. 2节中进行了简要的讨论。我们现在更深入地考虑它。13. 1系统和捕获上下文
也许,这种信息的最重要的实例是用户的捕获历史。非常可能的是,任何给定的捕获来自与先前的捕获相同的文档,或者来自关联的文档,在先前的捕获发生在最近几分钟内的情况下,尤其如此(第6. 1.2节)。相反地,如果系统检测到字体在两个捕获之间发生变化,那么更加可能的是它们来自不同的文档。同样有用的是用户的较长期捕获历史和阅读习惯。这些也可以用来开发用户的兴趣和关联模型。13. 2用户的真实世界上下文
有用的上下文的另一个实例是用户的地理位置。例如,巴黎的用户阅读世界报比阅读西雅图时报更加可能得多。因此,文档的印刷版本的时机、规模和地理分布可能是重要的, 并且可以在一定程度上从系统的操作中推断出来。例如在上班的路上总是阅读一种类型的出版物并且在午餐时间或者在回家的火车上阅读不同类型的出版物的用户的情况下,日时也可能是有意义的。13. 3相关的数字上下文
用户最近对于电子文档,包括通过更常规的手段搜索或获取的那些文档的使用也可以是有帮助的指示符。在一些情况下,例如在企业网络上,可以有效地考虑其他的因素 最近打印了哪些文档?
企业文件服务器上最近修改了哪些文档? 最近通过电子邮件发送了哪些文档?
所有这些实例或许暗示用户更可能正在阅读这些文档的纸质版本。与之形成对照的是,如果文档驻留的仓库可以肯定文档从来未被打印或者发送到它可能被打印的任何地方,那么可以在来源于纸张的任何搜索中安全地消除该文档。13. 4其他统计资料——全局上下文
第14节涵盖了由基于纸张的搜索而得到的数据流分析,但是应当指出的是,在这里,
36关于文档在其他读者中的流行性、关于该流行性的时机以及关于最频繁地捕获的文档部分的统计资料都是可能在搜索过程中有益的另外的因素的实例。系统将谷歌式网页排名的可能性带到纸张世界。对于上下文用于搜索引擎的某些其他含义,也参见第4. 2. 2节。14.数据流分析
系统的使用作为副作用产生极其有价值的数据流。该流是用户正在阅读什么以及何时阅读的记录,并且在许多情况下是他们在他们阅读的东西中发现什么特别有价值的记录。 这样的数据之前对于纸质文档从来未真正可用。第6. 1节中描述了其中该数据可能对于系统以及对于系统的用户有用的一些方式。本节集中于其用于其他方面。当然,对于关于人们正在阅读什么的数据的任何分发存在大量的隐私问题,但是诸如保留数据的匿名之类的问题对于本领域技术人员是公知的。14. 1文档跟踪
当系统知道任何给定用户正在阅读哪些文档时,它也可以推断谁正在阅读任何给定文档。这允许通过组织跟踪文档,允许分析例如谁正在阅读它以及何时正在阅读、它有多广泛地分布、该分布花费多长时间以及谁在他人仍然使用过时的拷贝的时候已经看见当前的版本。对于具有广泛分布的出版的文档而言,跟踪各个拷贝更加困难,但是分析读者人数分布仍然是可能的。14. 2阅读排名——文档和子区的流行件
在其中用户捕获他们特别感兴趣的文本或其他数据的情形中,系统可以推断特定文档以及那些文档的特定子区的流行性。这形成到系统本身的有价值的输入(第4. 2. 2节)以及用于作者、出版者和广告者的重要信息源(第7. 6节、第10. 5节)。该数据在集成到搜索引擎和搜索索引中时也是有用的,例如以便帮助对来自再现的文档的查询的搜索结果进行排名,和/或帮助对键入网络浏览器中的常规查询进行排名。14. 3用户分析——建立简档
用户正在阅读什么的知识使得系统能够创建用户的兴趣和活动的相当详细的模型。这在抽象统计的基础上可能是有用的——“购买该报纸的用户的35%也阅读该作者的最近图书”——但是如下面所讨论的,它也可以允许与个别用户的其他交互。14. 3. 1社交网络
一个实例是将一个用户与具有相关兴趣的其他人连接。这些人可以是该用户已经熟悉的人。系统可以询问大学教授,“您知道您在MZ大学的同事也刚刚阅读了这篇论文吗?” 系统可以询问用户,“您想要与您的邻居中也在阅读《简爱》的其他人联系吗? ”这样的联系可以是实体世界或在线的图书俱乐部和类似社会结构的自动形成的基础。14. 3. 2 营销
第10. 6节已经提到了基于用户与系统的交互向个别用户提供产品和服务的思想。当前的网上书商例如经常基于用户先前与书商的交互而向用户做出推荐。这样的推荐在它们基于与实际图书的交互时变得有用得多。14. 4基于数据流其他方面的营销
我们已经讨论了这样的一些方式,其中系统可以影响出版文档的那些方式、通过它们广告的那些方式以及从纸张发起的其他销售(第10节)。一些商业活动可能与纸质文档根本没有直接的交互,然而可能受它们影响。例如,一个社区中的人们在报纸的体育运动部分方面比在金融部分方面花费更多的时间的知识可能是成立健康俱乐部的某个人所感兴趣的。14. 5可以被捕获的数据类型
除了讨论的统计资料(例如谁正在阅读哪些文档的哪些位以及何时和何处阅读)之外, 可能有意义的是检查被捕获的文本的实际内容,不管文档是否被定位。在许多情形下,用户也将不仅捕获某个文本,而且作为结果将使得某个动作发生。 它可能是例如将对于文档的引用通过电子邮件发送给熟人。甚至在不存在关于用户的身份或者电子邮件的接收者的信息的情况下,某人认为该文档值得通过电子邮件发送的知识也是非常有用的。除了针对推断特定文档或者一段文本的价值所讨论的不同方法之外,在一些情况下,用户将通过给其分配一个等级而明确表明该价值。最后,当已知一组特定的用户形成一个群组时,例如当已知他们是特定公司的雇员时,该群组的汇总统计资料可以用来推断特定文档对于该群组的重要性。这适用于通过机器分类技术基于关于文档、捕获、用户等等而标识的群组,所述机器分类计数例如贝叶斯统计、聚类、k最近邻(k-NN)、奇异值分解(SVD )等等。15.设备特征和功能
在一些实例中,捕获设备可以与移动电话集成,其中电话硬件未被修改以便支持所述系统,例如其中文本捕获可以通过图像捕获而充分地完成并且由电话本身处理,或者由通过例如无线网络连接或蜂窝连接而可被移动电话访问的系统处理,或者存储到电话的存储器中以便未来处理。许多现代的电话具有下载适合于实现系统的某些部分的软件的能力。 在一些实例中,嵌入到许多移动电话中的照相机用来捕获文本的图像。通常充当照相机的测距仪的电话显示器可以覆盖在关于图像质量及其对于OCR的适用性、哪些文本段正被捕获以及甚至在OCR可以在电话上执行的情况下文本的转写的实时照相机图像信息上。电话显示器也可以提供接口,用户可以通过该接口与捕获的文本交互并且引起关联的动作。类似地,话音数据可以由移动电话的麦克风捕获。然而,这样的话音捕获在许多情形下(例如在存在大量的背景噪声时)很可能是次优的,并且精确的话音识别在最佳的时候也是困难的任务。音频装置可以最好用来捕获话音注释。在一些实例中,修改电话以添加专用的捕获装置,或者在与电话通信的单独的蓝牙 连接外设或夹式适配器中提供这样的功能。无论捕获机制的性质如何,系统与现代手机集成具有许多其他优点。电话与更广阔的世界连接,这意味着可以将查询提交给远程搜索引擎或者系统的其他部分,并且可以获取文档的拷贝以便立即存储或查看。电话典型地具有足够的处理能力以便本地地执行系统的许多功能,以及足够的存储量以便捕获合理的数据量。存储量经常也可以由用户扩展。电话具有相当好的显示器和音频装置以便提供用户反馈,并且经常具有用于触觉反馈的振动功能。它们也具有良好的电源。也许,明显的是,许多预期的用户已经携带着移动电话。与系统一起使用的捕获设备仅仅需要一种捕获来自文档的再现版本的文本的方式。如早先所描述的,该捕获可以通过各种各样的方法来实现,这些方法包括对文档的部分拍照或者将一些词键入键区中。该捕获可以使用具有图像和音频捕获能力或者也记录话音注释的光学扫描仪来实现。15. 1输入和输出
第12. 1节描述了用于这种设备的许多可能有益的附加输入和输出装置。它们包括按钮、滚轮和用于输入的触摸板以及显示器、指示灯、用于输出的音频和触觉转换器。有时,设备将合并这些装置中的许多装置,有时则合并非常少的装置。有时,捕获设备能够例如使用无线链接与已经具有它们的另一设备通信(第15. 6节),有时,捕获功能将合并到这样的其他设备中(第15.7节)。15. 2 连接件
在一些实例中,设备实现系统本身的主要部分。然而,在一些实例中,它经常使用通信装置与PC或其他计算设备以及与更广阔的世界通信。这些通信装置经常处于通用数据网络(例如以太网、802. 11或UWB)或者标准外设连接网络(例如USB、IEEE-1394 (火线)、蓝牙 或红外)的形式。当使用诸如火线或USB之类的有线连接时,设备可以通过相同的连接接收电力。在一些情况下,捕获设备可能在连接的机器看来为诸如USB存储设备之类的常规外设。最后,在一些情况下,设备可以与另一设备“对接”,或者与该设备一道使用或者用于方便的存储。15. 3缓存和其他在线/离线功能
第3. 5节和第12. 1. 4节提出了断开操作的话题。当捕获设备具有整个系统的功能的有限子集并且不与系统其他部分通信时,设备可能仍然是有用的,尽管可用的功能有时会减少。在最简单的水平下,设备可以记录被捕获的原始图像或音频数据并且这可以在以后加以处理。然而,为了用户的利益,可能重要的是在可能的情况下给出关于被捕获的数据是否可能对于手边的任务是足够的、它是否能够被识别或者很可能被识别以及数据源以后是否能够被标识或者很可能被标识的反馈。然后,用户将知道他们的捕获活动是否值得。甚至在所有以上所述未知时,也仍然可以存储原始数据,使得至少用户可以在以后引用它们。 例如,当OCR过程不能识别捕获时,可以向用户呈现捕获的图像。为了说明可用的选项范围中的一些选项,下面描述了最小限度的光学扫描设备以及然后是特征更全得多的光学扫描设备。许多设备占据这二者之间的中间地带。15. 3. 1 SimpleScanner 一低端离线实例
SimpleScanner具有能够在沿着文本行的长度移动时读取来自页面的像素的扫描头。 它可以检测其沿着页面的运动并且记录关于该运动的一些信息。它也具有时钟,其允许对每次扫描加盖时间戳。当Simpl必carmer连接时,时钟与主机设备同步。时钟不可以代表实际的日时,但是可以从其确定相对的时间,使得主机可以推断实际的扫描时间,或者在最坏的情况下推断扫描之间经过的时间。SimpleScanner本身没有足够的执行任何OCR的处理能力,但是它的确具有关于典型的词长度、词间距及其与字体大小的关系的一些基本知识。它具有一些基本的指示灯, 这些指示灯告诉用户扫描是否可能可读取,扫描头是否跨纸张移动得太快、太慢或者太不精确,以及何时它确定对于要标识的文档已经扫描了足够的给定大小的词。SimpleScanner具有USB连接器并且可以插入到计算机上的USB端口,在该USB端口处将对其再充电。对于计算机而言,它看起来像是其上记录了加盖时间戳的数据文件并且系统软件的其余部分从该点接管的USB存储设备。15. 3. 2 SuperDevice 一高端离线实例
SuperDevice也取决于连接性以实现其完整的操作,但是它具有大量的板上存储和处理,这可以帮助它在离线时对于捕获的数据做出更好的判断。当SuperDevice通过例如处理由SuperDevice的照相机捕获的文档的图像而捕获文本时,捕获的文本被传递给试图识别该文本的OCR引擎。若干字体,包括来自用户最多阅读的出版物的那些字体,下载到设备以便帮助执行该任务,正如与用户PC上的用户拼写检查字典同步并且因而包含他们频繁遇到的许多词的字典。带有其使用的典型频率的词和词组的列表也存储在SuperDevice上,这可以与字典组合。SuperDevice可以使用频率统计资料以便帮助识别过程并且也告知其关于何时捕获足够的文本量的判断;最频繁使用的词组不太可能可用作搜索查询的基础。此外,SuperDevice上存储了用户最常阅读的报纸和期刊的最近期中的文章的完整索引,正如用户最近从网上书商购买的或者最近几个月用户从其捕获任何东西的图书的索引。最后,存储具有可用于系统的数据的数千最流行出版物的标题,使得在不存在其他信息的情况下,用户可以捕获标题并且具有关于以后是否可能以电子形式获取来自特定作品的捕获的好的主意。在捕获过程期间,系统告知用户捕获的数据具有足够的质量和足够的性质以使得当恢复连接时可以获取捕获的信息的电子拷贝成为可能。经常,系统向用户指示已知捕获成功并且在板上索引之一中识别了上下文,或者已知有关的出版物使得其数据对于系统可用,从而以后的获取应当是成功的。SuperDevice停靠在连接到PC的火线或USB端口的托架中,在该点处,除了上传捕获的数据之外,它的不同板上索引和其他数据库基于最近的用户活动和新的出版物而上传。SuperDevice也具有连接到无线公共网络、蜂窝网络的装置或者通过蓝牙 与移动电话通信并且因而在这样的装置可用时与公共网络通信。在一些情况下,可以无线地更新板上索引和其他数据库。该更新过程可以由用户发起或者由系统自动地发起。15. 4用于图像捕获的特征
我们现在考虑可能在捕获设备中特别希望的一些特征。15. 4. 1灵活的定位和方便的光学器件
纸张持续流行的原因之一是其易于用在其中例如计算机将不实用或者不方便的各种各样的情形中。预期捕获用户与纸张交互的相当部分的设备因而应当类似地便于使用。对于过去的扫描仪而言,情况并非如此;甚至最小的手持式设备也有些笨重。设计成与页面接触的那些设备必须保持与纸张成精确的角度并且非常小心地沿着要扫描的文本的长度移动。这在办公桌上扫描商业报告时是可接受的,但是在等待火车的时候扫描来自小说的词组时则可能不实用。操作于离纸张一定距离处的基于照相机的捕获设备可能类似地在许多情况下有用。系统的一些实例使用这样的扫描仪,其与纸张接触地扫描,并且其代替透镜使用图像导管光纤束将来自页面的图像传输到光学传感器设备。这样的设备可以被定形为允许其保持在自然的位置;例如,在一些实例中,与页面接触的部分是楔形的,从而允许用户的手以类似于使用荧光笔的运动在页面上方更自然地移动。导管或者与纸张直接接触,或者紧邻纸张,并且可以具有可以保护图像导管免受可能的损坏的可代替的透明尖端。如第 12. 2. 4节中已经提到的,扫描仪可以用来从屏幕扫描以及从纸张扫描,并且尖端的材料可以被选择成降低损坏这样的显示器的可能性。最后,设备的一些实例将在捕获过程期间提供反馈给用户,其将通过使用光、声音或触觉反馈指示何时用户移动捕获设备太快、太慢、太不均勻或者在捕获行上漂移得太高或太低。15.5安全件、身份、认证、个人化和计费
如第6节中所描述的,捕获设备可以形成用于安全交易、购买和各种各样的其他操作的标识和授权的重要部分。因此,除了这种作用所需的电路和软件之外,它可以合并可以使得其更安全的不同硬件特征,例如智能卡读取器、RFID或者在其上键入PIN的键区。它也可以包括帮助标识用户的各种不同的生物统计传感器。在例如捕获设备具有图像捕获能力的情况下,照相机也可能能够读取指纹。对于话音记录器而言,可以使用用户的话音模式。15. 6设备关联
在一些实例中,捕获设备能够与其他附近设备形成关联以便增加其自身或者它们的功能。在一些实例中,例如,它使用附近PC或电话的显示器以给出关于其操作的补充反馈,或者使用它们的网络连接性。另一方面,设备可以在其作为安全和标识设备的角色中操作以认证由其他设备执行的操作。或者,它可以简单地形成关联以便用作该设备的外设。这样的关联的一个有趣方面在于,它们可以使用设备的捕获装置来发起和认证。 例如,希望向公共计算机终端安全地标识自身的用户可以使用设备的捕获装置以便捕获终端屏幕的特定区域上显示的代码或符号并且因而实现关键的传输。类似过程可以使用话音记录设备拾取的音频信号执行。15. 7与其他设备集成
在一些实例中,捕获设备的功能集成到已在使用的某个其他设备中。集成的设备可能能够共享电源、数据捕获和存储能力以及网络接口。这样的集成可以仅仅为了方便、降低成本或者启用在别的情况下将不可用的功能而完成。可以将捕获功能集成到其中的设备的一些实例包括
现有的外设,例如鼠标、铁笔、USB “网络摄像头”照相机、蓝牙 头戴式耳机或者遥控器;
另一处理/存储设备,例如PDA、MP3播放器、话音记录器或者数码相机; 其他经常携带或者经常配戴的物品,仅仅为了方便——手表、一件首饰、眼镜、帽子、 笔、汽车钥匙链;等等。第III部分一系统的示例应用
本节列出系统的示例用途以及可以在其上构建的应用。该列表预期纯粹是说明性的并且在任何意义上都不是详尽无遗的。16.个人应用 16.1生活图书馆
生活图书馆(第6. 1. 1节)是订户希望保存的任何重要文档的数字档案馆,并且是该系统的服务实例的集合。重要的图书、杂志文章、报纸剪辑等等都可以以数字形式保存在生活
41图书馆中。此外,订户的注释、评论和笔记可以与文档一起保存。生活图书馆可以通过因特网和万维网访问。系统为订户创建和管理生活图书馆文档档案馆。订户通过捕获来自文档的信息或者通过以其他方式向系统指示将该特定文档添加到订户的生活图书馆而指示订户希望将哪些文档保存在他的生活图书馆中。捕获的信息典型地为来自文档的文本,但是也可以是标识文档的条形码或其他代码。系统接受该代码并且使用它来标识源文档。在标识出文档之后,系统可以将文档的拷贝存储到用户的生活图书馆中或者存储到其中可以获得该文档的来源的链接。生活图书馆系统的一个实例可以检查是否授权订户获得电子拷贝。例如,如果读者捕获来自纽约时报(NYT)的文章的拷贝的文本或标识符,使得该文章将添加到读者的生活图书馆,那么生活图书馆系统将与NYT验证读者是否订阅了 NYT的在线版本;如果是,那么读者让文章的拷贝存储到他的生活图书馆帐户中;如果否,那么标识文档以及如何订购它的信息存储到他的生活图书馆帐户中。在一些实例中,系统为每个订户维护包含访问特权信息的订户简档。文档访问信息可以以若干方式编辑,其中两种是1)订户将文档访问信息与他的帐户名和口令等等一起提供给生活图书馆系统;或者2)生活图书馆服务提供者向出版者查询订户的信息,并且出版者在生活图书馆订户被授权访问所述材料的情况下通过提供对于电子拷贝的访问而做出响应。如果生活图书馆订户未被授权拥有文档的电子拷贝,那么出版者向生活图书馆服务提供者提供价格,该生活图书馆服务提供者然后向顾客提供购买电子文档的选项。如果这样,生活图书馆服务提供者直接付费给出版者并且以后向生活图书馆顾客开账单,或者生活图书馆服务提供者立即针对该购买给顾客的信用卡开账单。生活图书馆服务提供者将因为促进该交易而获得购买价格的一定百分比或者小笔固定费用。系统可以在订户的个人图书馆和/或订户具有档案特权的任何其他图书馆中为文档存档。例如,当用户捕获来自印刷的文档的文本时,生活图书馆系统可以标识出再现的文档及其电子副本。在标识出源文档之后,生活图书馆系统可以将关于源文档的信息记录到用户的个人图书馆和订户具有档案特权的群体图书馆中。群体图书馆是诸如文档仓库之类的协作档案馆,用于为某个项目一起工作的群体,学术研究人员群体,群网络日志等等。可以以许多方式组织生活图书馆按年代顺序,按主题,按订户的兴趣水平,按出版类型(报纸、图书、杂志、技术论文等等)、何处阅读、何时阅读,按ISBN或者按杜威十进制等等。在一种可替换方案中,系统可以基于其他订户如何分类相同文档而学习分类。系统可以向用户建议分类或者自动地为用户分类该文档。在不同的实例中,可以直接将注释插入到文档中或者可以在单独的文件中维护注释。例如,当订户捕获来自报纸文章的文本时,对捕获的文本加亮地将该文章存档在他的生活图书馆中。可替换地,将该文章与关联的注释文件一起存档在他的生活图书馆中(从而保持存档的文档未被修改)。系统的实例可以在每个订户的图书馆中保持源文档的拷贝、在许多订户可以访问的主图书馆中保持拷贝,或者保持到出版者持有的拷贝的链接。在一些实例中,生活图书馆仅仅存储用户对文档的修改(例如加亮等等)以及在文档的在线版本(存储在别处)的链接。系统或订户在订户随后获取文档时将这些变化和文档合并在一起。
如果注释保持在单独的文件中,那么将源文档和注释文件提供给订户并且订户组合它们以产生修改的文档。可替换地,系统在将这两个文件提供给订户之前组合这两个文件。在另一个可替换方案中,注释文件是文档文件的覆盖并且可以通过订户的计算机中的软件覆盖到文档上。生活图书馆服务的订户按月付费以便让系统维护订户的档案馆。可替换地,订户为档案馆中存储的每个文档支付少量费用(例如小额支付)。可替换地,订户按每次访问费用支付以访问订户的档案馆。可替换地,订户可以编辑图书馆并且在与生活图书馆服务提供者和版权所有者的收入分成模型上允许他人访问材料/注释。可替换地,生活图书馆服务提供者在生活图书馆订户订购文档时接收来自出版者的支付(与出版者的收入分成模型,其中生活图书馆服务提供者获得出版者收入的分成)。在一些实例中,生活图书馆服务提供者充当订户和版权所有者(或者版权所有者的代理机构,例如版权结算中心,又称CCC)之间的中介以便为版权材料促进开列账单和支付。生活图书馆服务提供者使用订户的账单信息和其他用户帐户信息以提供该中介服务。 基本上,生活图书馆服务提供者利用和订户的预先存在的关系以允许代表订户购买版权材料。在一些实例中,生活图书馆系统可以存储来自文档的摘录。例如,当订户捕获来自纸质文档的文本时,捕获的文本周围的区域被摘录并且置于生活图书馆中,而不是整个文档存档在生活图书馆中。这在文档较长时是特别有利的,因为保留原始捕获的情况防止了订户重新阅读文档以找出有趣的部分。当然,可以与摘录材料一起包括到纸质文档的整个电子副本的超级链接。在一些实例中,系统也将关于文档的信息存储到生活图书馆中,这些信息例如作者、出版物标题、出版日期、出版者、版权所有者(或者版权所有者的授权代理机构)、ISBN、 到文档的公共注释的链接、阅读排名等等。关于文档的该附加信息中的一些是纸质文档元数据形式。第三方可以创建公共注释文件以供不同于他们自己的人们(例如普通公众)访问。到第三方对于文档的评论的链接是有利的,因为阅读其他用户的注释文件增强了订户对于文档的理解。在一些实例中,系统按类别对材料存档。该特征允许生活图书馆订户快速地存储整个类别的纸质文档的电子副本而不访问每个纸质文档。例如,当订户捕获来自国家地理杂志的拷贝的某个文本时,系统向订户提供对《国家地理》的所有过期期刊存档的选项。如果订户选择存档所有过期期刊,那么生活图书馆服务提供者将与国家地理学会一起验证订户是否被授权这样做。如果否,那么生活图书馆服务提供者可以居间促成购买存档国家地理杂志集合的权利。16. 2生活保存器
生活图书馆概念的一种变型或增强是“生活保存器”,其中系统使用用户捕获的文本以推断关于他们的其他活动的更多信息。来自特定餐馆的菜单、来自特定戏剧表演的节目、特定火车站的时间表或者来自本地报纸的文章的捕获允许系统对于用户的位置和社会活动做出推断,并且可以为他们构造自动日记,例如作为网站。用户将能够编辑和修改日记、添加诸如照片之类的附加材料并且当然再次看看捕获的项目。17.学术应用
43所描述的系统支持的捕获设备在学术环境中具有许多令人信服的用途。它们可以增强学生/老师交互并且扩充学习经验。除了其他用途之外,学生可以注释适合其独特需要的学习材料;老师可以监控课堂表现;并且老师可以自动地验证学生作业中引用的源材料。17. 1儿童图书
小孩与诸如图书之类的纸质文档的交互由识字采集系统检控,该识字采集系统采用该系统的一组特定实例。小孩使用与识字采集系统的其他元件通信的捕获设备。除了捕获设备之外,识字采集系统还包括显示器和扬声器以及可由捕获设备访问的数据库。当小孩看见图书中的未知词时,小孩利用捕获设备捕获它。在一个实例中,识字采集系统将捕获的文本与其数据库中的资源进行比较以便标识该词。数据库包括字典、辞典和/或多媒体文件 (例如声音、图形等等)。在标识词之后,系统使用扬声器向小孩读出该词的发音及其定义。 在另一个实例中,词及其定义由识字采集系统显示在显示器上。也可以通过显示器和扬声器播放关于捕获的词的多媒体文件。例如,如果阅读“金发女孩与三只熊”的小孩捕获了词 “熊”,系统可以读出词“熊”的发音并且在显示器上播放关于熊的短视频。通过这种方式, 小孩学会念书面词并且通过多媒体演示从视觉上被教导该词的含义。识字采集系统提供即时的听觉和/或视觉信息以增强学习过程。小孩使用该补充信息快速地获得对于书面材料的更深理解。系统可以用来教导初学读者阅读、帮助儿童获得更大的词汇量等等。该系统向小孩提供关于小孩不熟悉的或者小孩欲知其更多信息的词的信息。17. 2识字采集
在一些实例中,系统编辑个人字典。如果读者看见新的、有趣的或者特别有用的或棘手的词,读者将它(与其定义一起)保存到计算机文件。该计算机文件变成读者的个人化字典。该字典的大小通常比普通字典小,因而可以下载到移动站或关联的设备,并且因而甚至在系统不能即时访问时也可用。在一些实例中,个人字典条目包括帮助正确的词发音的音频文件以及标识从其捕获词的纸质文档。在一些实例中,系统为学生创建定制的拼音和词汇测验。例如,当学生阅读作业时,学生可以利用捕获设备捕获不熟悉的词。系统存储学生捕获的所有词的列表。稍后,系统在关联的监视器上管理给学生的定制的拼音/词汇测验(或者将这样的测验打印在关联的打印机上)。17. 3音乐教学
将音符排列在音乐五线谱上类似于将字母排列在一行文本上。捕获设备可以用来捕获音乐符号,并且对已知音乐作品数据库构造搜索的类似过程允许标识发生捕获的作品,其然后可以被获取、播放或者可以是某个进一步的动作的基础。17. 4检测剽窃
老师可以使用系统以便通过捕获来自学生论文的文本并且将捕获的文本提交给系统来检测剽窃或者验证来源。例如,希望验证学生论文中的引文来自学生引用的来源的老师可以捕获引文的一部分并且将系统标识的文档的标题与学生引用的文档的标题进行比较。 同样地,系统可以使用来自作为学生原创工作而提交的作业的文本的捕获以便揭示该文本是否反而是拷贝的。17. 5增强的教科书在一些实例中,捕获来自学术教科书的文本将学生或教师与更详细的解释、进一步的练习、学生和教师对于材料的讨论、有关的过去考题实例、关于主题的进一步读物、关于主题的讲座记录等等相联系(也参见第7. 1节)。17. 6语言学习
在一些实例中,系统用来教授外语。捕获例如西班牙语词可以使得该词与其定义用英语朗读一起用西班牙语朗读。系统提供即时听觉和/或视觉信息以便增强新语言习得过程。读者使用该补充信息快速地获得对于材料的更深入理解。系统可以用来教导初学读者阅读外语、帮助学生获得更大的词汇量等等。系统提供关于读者不熟悉的或者读者欲知其更多信息的外语词的信息。当捕获一门语言的文本时,捕获设备可以以用户更熟悉的另一门语言显示该捕获的文本。作为另一个实例,捕获设备可以显示捕获的文本,如同它出现在文档中一样,但是允许用户通过在捕获设备的触摸屏上点选词而例如选择性地翻译和显示用户不熟悉或未知的特定词。翻译可以由捕获设备执行或者发送到用于翻译的另一系统。读者与诸如报纸或图书之类的纸质文档的交互由语言技能系统监控。读者具有与语言技能系统通信的捕获设备。在一些实例中,语言技能系统包括显示器和扬声器以及可由捕获设备访问的数据库。当读者看见文章中的未知词时,读者利用捕获设备捕获它。数据库包括外语字典、辞典和/或多媒体文件(例如声音、图形等等)。在一个实例中,系统将捕获的文本与其数据库中的资源进行比较以便标识捕获的词。在标识词之后,系统使用扬声器向读者读出该词的发音及其定义。在一些实例中,词及其定义均显示在显示器上。也可以通过显示器和扬声器播放与捕获的词有关的关于语法技巧的多媒体文件。例如,如果捕获了词“说话”,系统可以读出词“hablar”的发音,播放演示正确西班牙语发音的短音频剪辑,并且显示“hablar”的各种便体的完整列表。通过这种方式,学生学会书面词的发音, 通过多媒体演示从视觉上被教导该词的拼音,并且学会如何列出动词的变化形式。系统也可以与常见词组一起给出关于“hablar”的正确用法的语法技巧。在一些实例中,用户捕获来自与用户本族语(或者用户知道得相当不错的某种其他语言)不同的语言的再现文档的词或短词组。在一些实例中,系统维护用户“偏好的”语言的优先列表。系统标识再现的文档的电子副本,并且确定该文档内的捕获位置。系统也标识翻译成用户偏好的语言之一的文档的第二电子副本,并且确定与原始文档中的捕获位置相应的翻译文档中的位置。当未精确知道相应的位置时,系统标识包含捕获的位置的相应位置的小区域(例如段落)。然后,将相应的翻译位置呈现给用户。这向用户提供捕获位置处的特定用法的精确翻译,所述特定用法包括经常难于在逐字基础上精确翻译的任何俚语或其他习惯用法。17. 7收集研究材料
研究特定主题的用户可能遇到印刷的和屏幕上的各种材料,他们可能希望在某个个人档案中将所述材料记录为与主题相关。作为捕获任何材料片段中的短词组的结果,系统将使得该过程能够是自动的,并且也可以创建适合于插入到主题出版物中的参考书目。18.商业应用
显然,商业活动可以由本文中讨论的几乎任何过程构成,但是在这里我们集中于一些明显的收益流。
18. 1基于费用的捭索和索引
常规的因特网搜索引擎典型地提供电子文档的免费搜索,并且也不因将其内容包含在索引中而向内容提供者收费。在一些实例中,系统在系统的操作和使用方面提供向用户收费和/或付费给搜索引擎和/或内容提供者。在一些实例中,系统服务的订户为来源于纸质文档的捕获的搜索付费。例如,股票经纪人可能正在阅读关于X公司提供的新产品的华尔街日报的文章。通过从纸质文档捕获 X公司名称并且同意支付必要的费用,股票经纪人使用所述系统搜索特殊的或专有的数据库以获得关于该公司的溢价信息,例如分析师报告。系统也可以作出安排以便例如通过确保特定日期出版的所有报纸被索引并且在它们上市时可用而让很可能以纸张形式阅读的文档优先索引。内容提供者可以支付与从纸质文档提交的搜索查询中的特定项关联的费用。例如,在一个实例中,系统基于关于提供者的附加上下文(在这种情况下,上下文是内容提供者支付了前移结果列表的费用)选择最优选的内容提供者。实际上,搜索提供者基于预先存在的与内容提供者的财务安排而调节纸质文档搜索结果。也参见第5. 2节中的关键字和关键词组的描述。在访问特定内容限于特定人群(例如客户或雇员)的情况下,这样的内容可以受防火墙保护并且因而通常不可被第三方索引。然而,内容提供者可能希望提供对受保护内容的索引。在这种情况下,内容提供者可以向服务提供者付费以便向系统订户提供内容提供者的索引。例如,法律事务所可以索引所有的客户文档。这些文档存储在法律事务所的防火墙之后。然而,法律事务所想要它的雇员和客户有权通过捕获设备访问文档,因而它提供服务提供者的索引(或者索引的指针),服务提供者反过来在法律事务所的雇员或客户提交捕获设备捕获的搜索项时搜索法律事务所的索引。法律事务所可以将雇员和/或客户列表提供给服务提供者的系统以便允许该功能或系统可以通过在搜索法律事务所的索引之前查询法律事务所而验证访问权限。应当指出的是,在前面的实例中,法律事务所提供的索引仅仅是客户的文档的索引,而不是法律事务所的所有文档的索引。因此,服务提供者只能授予法律事务所的客户访问法律事务所为该客户索引的文档的权限。存在至少两个单独的可以由来源于纸质文档的搜索而引起的收益流一个收益流来自搜索功能,并且另一个收益流来自内容交付功能。搜索功能收益可以由来自用户的付费订阅产生,但是也可以按每搜索收费产生。内容交付收益可以与内容提供者或版权所有者分成(服务提供者可以得到销售的一定百分比或者固定费用,例如每次交互的小额支付),但是也可以由“转诊”模型产生,在该模型中,系统针对订户从在线目录订购的且系统已经交付或贡献的每个项目获得一定费用或百分比,而不管服务提供者是否居间促成该交易。在一些实例中,系统服务提供者在某个预定时间段内或者在做出对标识的产品的购买时的任何后续时间,从内容提供者接收订户做出的所有购买的收益。18. 2 目录
吸收者可以使用捕获设备根据论文目录进行购买。订户从目录捕获标识该目录的信息。该信息是来自目录的文本、条形码或者目录的另一标识符。订户捕获标识他/她希望购买的产品的信息。目录邮寄标签可以包含标识目录供应商的顾客的顾客识别号码。如果这样,那么订户也可以捕获该顾客识别号码。系统充当订户与供应商之间的中介以便通过将顾客的选择和顾客识别号码提供给供应商而促进目录购买。18. 3 优惠券
吸收者捕获纸质优惠券并且将优惠券的电子拷贝保存在捕获设备中或者保存在诸如计算机之类的远程设备中以供以后获取和使用。电子存储的一个优点在于,吸收者没有携带纸质优惠券的负担。另一优点在于,电子优惠券可以从任何位置获取。在一些实例中,系统可以跟踪优惠券到期日期,提醒吸收者有关很快将到期的优惠券和/或从存储装置中删除到期的优惠券。对于优惠券发行者的一个优点在于接收更多关于谁正在使用优惠券以及何时和何处捕获和使用优惠券的反馈的可能性。18. 3广告门户
广告门户可以允许广告者创建和管理与各种不同广告关联的标记层。在一个实例中, 广告门户可以提供网络接口,广告者通过该网络接口可以登记一个或多个广告活动和关联的信息,例如名称、与活动关联的标记信息、关于应当何时显示活动中的广告以及应当向谁显示广告的信息、关于广告的产品或服务的信息和/或与广告活动关联的广告的产品、标签、关键字和/或关键词组、与广告关联的文本或其他媒体等等。广告门户也可以提供这样的接口,广告者通过该接口可以指示应当出现在关联的标记层中的控件。例如,当广告被捕获且显示在捕获设备上时,广告者可以指示应当与控制覆盖一起显示的广告文本内的特定词组或词和/或广告图像内的特定区域。在一些实例中,广告门户也可以允许广告者提供实现规范,该规范可以包括一个或多个优选的供应商和/或“如何购买”过程。广告门户也可以提供这样的接口,广告者通过该接口可以控制顾客体验的各方面,包括是否和/或何时提供特别优惠,不同类型的媒体,切合特定用户的兴趣、需要、地理位置、口语的标记层等等。例如,广告门户可以提供广告的从广告语言到捕获广告的捕获设备的用户偏好的语言的翻译。在一些实例中,广告门户可以提供可以由吸收者利用的服务。例如,广告门户可以允许吸收者或者其他第三方发布与广告交互层、供应商、广告者、产品、服务等等有关的评论和/或批评。在其他实例中,广告门户可以使得用户能够发布与再现的或印刷的广告(包括链接、图像、交叉引用等等)有关的批评。19. 一般应用 19. 1表单
系统可以用来自动填充与纸张表单相应的电子文档。用户捕获唯一地标识纸张表单的某个文本或条形码。捕获设备将该表单的身份和标识用户的信息传送给附近的计算机。附近的计算机具有因特网连接。附近的计算机可以访问表单的第一数据库以及具有关于捕获设备的用户的信息的第二数据库(例如服务提供者的订户信息数据库)。附近的计算机访问来自第一数据库的纸张表单的电子版本并且根据从第二数据库获得的用户信息自动填充表单的字段。附近的计算机然后将完成的表单通过电子邮件发送给预期的接收者。可替换地,该计算机可以在附近的计算机上打印完成的表单。代替访问外部数据库,在一些实例中,系统具有例如在身份模块、SIM或安全卡中包含用户的信息的捕获设备。捕获设备将标识表单的信息提供给附近的PC。附近的PC访问电子表单并且向捕获设备查询任何必要的信息以填写表单。19. 2 名片
系统可以用来自动地填充电子地址簿或者来自纸质文档的其他联系人列表。例如,当接收到新熟人的名片时,用户可以利用他/她的手机捕获名片的图像。系统将定位名片的电子拷贝,其可以用来利用新熟人的联系信息更新手机的板上地址簿。电子拷贝可以包含比可能挤压到名片上的信息更多的关于新熟人的信息。此外,板上地址簿也可以存储到电子拷贝的链接,使得电子拷贝的任何变化将在手机地址簿中自动地更新。在该实例中,名片可选地包括指示电子拷贝的存在性的符号或文本。如果没有电子拷贝存在,那么手机可以使用OCR和标准名片格式的知识填写地址簿中的针对新熟人的条目。符号也可以帮助直接从图像提取信息的过程。例如,可以识别名片上紧邻电话号码的电话图标以便确定电话号码的位置。19. 3校对/编辑
系统可以增强校对和编辑过程。系统可以增强编辑过程的一种方式是将编者与纸质文档的交互链接到其电子副本。当编者阅读纸质文档并且捕获文档的不同部分时,系统将对纸质文档的电子副本做出适当的注释或编辑。例如,如果编者捕获了一部分文本并且利用捕获设备做出“新段落”控制姿态,那么与捕获设备通信的计算机将在文档的电子拷贝中捕获的文本的位置处插入“新段落”换段符。19. 4话咅沣释
用户可以通过捕获来自文档的一部分文本并且然后做出与该捕获的文本关联的话音记录而对文档做出话音注释。在一些实例中,捕获设备具有记录用户对口头注释的麦克风。 在记录了口头注释之后,系统标识从其捕获文本的文档、在文档内定位捕获的文本并且在该点处附上话音注释。在一些实例中,系统将语音转换成文本并且附上作为文字评论的注释。在一些实例中,系统仅仅利用与文档一起的对于注释的引用保持注释与文档分开。于是注释变成用于特定订户或用户群的文档的注释标记层。在一些实例中,对于每个捕获和关联的注释,系统标识文档、使用软件包打开它、 滚动到捕获的位置并且播放话音注释。用户然后可以在参考由自己或者由别人记录的话音注释、建议的修改或者其他评论的同时与文档交互。19.5文本帮助
所描述的系统可以用来利用电子帮助菜单增强纸质文档。在一些实例中,与纸质文档关联的标记层包含用于该文档的帮助菜单信息。例如,当用户捕获来自文档特定部分的文本时,系统检查与文档关联的标记并且例如在捕获设备的显示器上将帮助菜单呈现给用户。19. 6使用显示器
在一些情形中,有利的是能够捕获来自电视、计算机监视器或者其他类似显示器的信息。在一些实例中,捕获设备用来捕获来自计算机监视器和电视的信息。在一些实例中,捕获设备具有照明传感器,其被优化成利用传统的阴极射线管(CRT)显示技术(例如栅格化、 屏幕消隐等等)工作。通过捕获阅读来自文档的文本的用户的音频而操作的话音捕获设备典型地将不管该文档是在纸张上、在显示器上还是在某种其他介质上而工作。19. 6. 1公共电话亭和动态会话ID
显示的直接捕获的一种用途是如第15. 6节中所描述的设备关联。例如,在一些实例
48中,公共电话亭在其监视器上显示动态会话ID。电话亭连接到诸如因特网或企业内联网之类的通信网络。会话ID周期性地但是至少每次使用电话亭时改变,使得新会话ID显示给每个用户。为了使用电话亭,订户捕获电话亭上显示的会话ID;通过捕获会话ID,用户告知系统他希望临时将电话亭与他的捕获设备关联以便交付由捕获印刷文档或者电话亭屏幕本身而得到的内容。捕获设备可以直接将会话ID和认证捕获设备的其他信息(例如序列号、帐号或者其他标识信息)传送给系统。例如,捕获设备可以通过借助于可由捕获设备访问的蜂窝网络发送会话发起消息而直接地与系统通信(其中“直接”意味着不通过电话亭传递消息)。可替换地,捕获设备可以通过将会话发起信息传输到电话亭(也许借助于诸如蓝牙 等等之类的短距离RF)而与电话亭建立无线链接并且使用电话亭的通信链路;作为响应,电话亭通过其因特网连接将会话发起信息发送给系统。系统可以在其中设备与捕获设备关联的时段(或会话)期间防止其他人使用已经与捕获设备关联的该设备。这个特征可以用来防止其他人在另一人的会话结束之前使用公共电话亭。作为与在网吧使用计算机有关的这个概念的一个实例,用户捕获他/她希望使用的PC的监视器上的条形码;作为响应,系统发送它显示的会话ID给监视器;用户通过捕获来自监视器的会话ID (或者通过捕获设备上的键区或触摸屏或麦克风输入它)而发起会话;并且系统在其数据库中将会话ID与他/她的捕获设备的序列号(或者唯一地标识用户的捕获设备的其他标识符)关联,从而另一个捕获设备不能在他/她的会话期间捕获会话 ID并且使用监视器。捕获设备和与监视器关联的PC通信(通过诸如蓝牙 之类的无线链路、诸如扩展坞之类的硬接线链路等等),或者通过诸如手机之类的另一装置直接(即不通过PC)与系统通信,等等。19. 7社交网络或协作环境
系统可以提供社交网络或协作环境,例如wiki,其有时称为“wiqi”,在那里,用户可以创建其中用户可以发布相关信息的词、词组、句子等的页面。例如,用户可以创建来自图书或电影的名言页在那里,用户可以发布被使用的引文的图像、音频、视频等等或者包含关于该引文何处被使用或引用的信息的索引。在一些实例中,当用户通过捕获设备捕获相关文本时,系统可以自动地更新这些页面。作为另一个实例,捕获设备可以利用到与捕获的文本相应的Wiqi页面的链接覆盖捕获的图像。特定词或词组的Wiqi页面可以对所有用户可用, 或者可以为选择的用户群(例如一个家庭或一群朋友)创建。因此,在一些实例中,除其他的益处之外,系统还有利于将再现的文档作为平台用在协作信息交换数字环境中。19. 8礼宾服务
软件礼宾系统或服务提供人类助手(例如虚拟礼宾),其接收关于用户在使用应用时面临的问题的信息并且可以采取动作以提供解决方案或者纠正问题。该人类助手可以纠正自动过程难于纠正的问题,并且可以提供关于使用软件时的摩擦区域的反馈给应用作者。例如,搜索文档的用户可能在找到文档方面有困难,但是人类助手可以检查用户用来搜索的关键字,了解用户正在设法寻找什么,并且将更好的关键字注入用户的搜索查询中,使得用户接收到更相关的搜索结果。作为另一个实例,如果系统不能够标识或识别捕获的图像中的文本或者标识再现的文档的相应电子版本,那么可以将这些任务发送给软件礼宾系统以获得帮助。此外,用户可以使用礼宾系统订购由捕获设备标识的物品。这节省了用户的时间,并且提高了用户对于该应用的满意度以及总体意见。因此,软件礼宾系统提供了一种新的软件性能层,其改善了用户体验并且允许实现软件开发者先前未能实现的若干使用软件的方式。第IV部分一系统细节
■丨醜删言肩、_折鹿/ 牛
如本文所讨论的,系统可以使得诸如捕获设备300之类的捕获设备当在能够被该设备捕获的信息面前和/或在距能够被该设备捕获的信息一定接近度内时更改、改变或修改其操作。在一些实例中,系统在信息感知模式下操作捕获设备300,周期性地或者连续地注意或者试图找到或检测到信息。当找到或检测到信息时,系统使得捕获设备的操作改变为捕获模式操作。图4为示出用于标识何时捕获设备接近要捕获的信息或者在要捕获的信息面前的例程400的流程图。在步骤410中,系统确定捕获设备300在要捕获的信息面前。系统可以利用检测部件330确定设备接近信息。在一些情况下,检测部件330可以有利于通过捕获设备的成像部件或其他捕获部件310检测信息的存在性。在一些情况下,检测部件330 可以有利于通过这样的部件检测信息的存在性,所述部件测量捕获设备与目标对象(例如再现的文档、信息显示等等)之间的距离并且确定捕获设备处于距与用户从其捕获信息的意图关联的目标对象特定接近度内或者在该目标对象附近。在一些情况下,检测部件可以有利于通过这样的部件检测信息的存在性,所述部件测量设备相对于目标对象的取向并且确定捕获设备可能地在特定持续时间内处于与用户从其捕获信息的意图关联的特定位置或取向,或者在该目标对象附近。关于确定捕获设备在信息面前的另外的细节和方面在这里参照图6A-6C加以描述。在步骤420中,系统响应于步骤410的设备在要由设备捕获的信息面前的确定自动地改变捕获设备300的操作模式。在一些情况下,系统改变、更改或修改移动设备300的当前操作模式。例如,捕获设备可能当前处于缺省模式(没有应用或特征运行,向用户显示主屏幕),并且当检测到设备接近要捕获的信息(例如再现的文档)时,系统自动地将操作模式改变或转变到本文描述的文档捕获模式。在一些情况下,系统并不改变操作模式,而是改为在当前操作模式下启动应用(或者修改运行应用的当前功能),其中启动的应用使得捕获设备300能够捕获接近的信息。例如,捕获设备300正在运行为用户播放音乐的音乐应用, 并且当检测到设备接近信息(例如广告摇滚乐队的新专辑的海报)时,系统自动地改变运行应用的当前屏幕(例如可以随后呈现评论信息以及倾听、下载或购买来自广告的专辑的歌曲的选项的屏幕)。在步骤430中,系统捕获当前的信息。如本文所描述的,系统可以执行信息的光学捕获(即拍摄使用的信息的图像),可以执行信息的音频捕获(即记录朗读的信息),或者可以利用其他部件(即读取RFID标签、条形码或其他非重复点图案,捕获地理位置或环境信息或者时间/日期信息等等的部件)执行捕获信息的其他技术。在步骤440中,系统执行与捕获的信息关联的动作。如本文所描述的,系统可以执行若干与捕获的信息关联的动作,包括呈现与捕获的信息关联的内容、标识与捕获的信息关联的文档、定购和购买与捕获的信息关联的产品等等。在一些情况下,系统通过捕获设备 300的显示部件320执行动作。在一些情况下,系统通过远离捕获设备300的部件执行动作,所述部件例如关联的计算设备、关联的移动设备、关联的媒体演示设备(例如立体声系统、mp3播放器、电视、显示器、投影仪)等等。在一些实例中,系统在捕获接近捕获设备300的信息之后并不执行捕获时的动作,而是改为存储与捕获关联的信息以供捕获设备的用户以后使用。系统可以基于捕获设备300从用户接收的特定输入(或者根据缺乏接收自用户的输入)确定用户希望捕获该信息以供以后使用。于是,系统可以将关于捕获的信息(例如捕获的指示)存储到与捕获设备 300的用户关联的数据库中。在一些情况下,除了其他的益处之外,系统可以为用户或捕获设备构建捕获的信息的时间线,使得用户能够回忆他们一天期间见证的信息和内容并且与之交互。关于存储信息和构建时间线的另外的细节在这里进行讨论。在一些实例中,系统可以仅仅在系统确定信息接近设备(步骤410)并且系统确定接近的信息与电子或附加内容关联(步骤430)之后改变设备的操作或者启动应用。换言之, 系统可以要求例程400在执行步骤420之前执行步骤410和430并且之后执行步骤440。 当确定接近的信息与数字或附加内容关联时,系统首先试图在继续到步骤420并且改变设备的操作之前验证交互物理信息存在。在一些情况下,除了其他的益处之外,这可以防止系统在接近捕获设备的信息不与附加的或可替换的信息、补充内容或可执行的动作关联时改变捕获设备的操作模式。因此,除了其他的益处之外,系统使得捕获设备的用户能够自动地捕获可能为用户感兴趣的信息。在一些情况下,系统预期用户捕获信息的意图,将用户设备的操作修改为信息捕获模式,这可以减轻快速且有效地捕获中涉及的努力。换言之,系统筹备或准备诸如移动电话之类的移动设备,其除了其他的益处之外,在信息可用于捕获时提供捕获信息的许多不同的功能(例如话音通信、消息发送、音乐回放、拍摄照片、文本捕获等等)。捕获设备的文档感知
尽管人们与各种各样的信息源交互,但是这些来源的一个大的子集是再现的文档,例如印刷的文档、由媒体播放器、电台、电视、计算设备的表示层等等提供的文档。人们通过阅读来自再现的文档的文本吸收大量的信息,这些文档例如图书、杂志、报纸、告示牌、地图、 标志、显示的网页和博客、电影、视频、电视剧、无线电节目、收据、账单、邮件、黑板、白板、简报等等。因此,系统有利于检测接近捕获设备的可用信息,例如再现的文档上的文本。参照图5,示出了图解说明用于使用文档感知捕获设备执行来自再现的文档的文本的捕获的例程500的流程图。在步骤510中,系统确定捕获设备在再现的文档面前或者接近再现的文档。在一些情况下,系统可以检测纸张、印刷的或绘制的文档、显示的文档、具有印刷或显示在外表面上的文本的对象(例如不动产标志、供购买的产品等等)或者呈现用户可见的文本的其他对象。系统可以使用本文描述的一些或所有检测部件检测信息的存在性。如参照步骤410所讨论的,系统可以利用检测部件330确定设备接近信息。在一些情况下,检测部件330可以有利于通过捕获设备的成像部件或其他捕获部件310检测文本或再现的文档的存在性。在一些情况下,检测部件330可以有利于通过这样的部件检测文本或再现的文档的存在性,所述部件测量捕获设备与目标对象(例如再现的文档、信息显示等等)之间的距离并且确定捕获设备处于距与用户从其捕获文本的意图关联的目标对象特定接近度内或者在该目标对象附近。在一些情况下,检测部件可以有利于通过这样的部件检测文本或再现的文档的存在性,所述部件测量设备相对于目标对象的取向并且确定捕获设备可能地在特定持续时间内处于与用户从其捕获文本的意图关联的特定位置或取向, 或者在该目标对象附近。关于确定捕获设备在文本或再现的文档面前的另外的细节和方面在这里参照图6A-6C加以描述。在步骤520中,系统响应于步骤510的设备在要由设备捕获的文本面前的确定自动地改变捕获设备的操作模式。在一些情况下,系统改变、更改或修改移动设备300的当前操作模式。例如,捕获设备可能当前处于缺省模式(没有应用或特征运行,向用户显示主屏幕),并且当检测到设备接近要捕获的再现的文档时,系统自动地将操作模式改变为本文描述的文档捕获模式。在一些情况下,系统并不改变操作模式,而是改为在当前操作模式下执行软件(例如启动应用或者修改运行应用的当前功能),其中执行的软件使得捕获设备300 能够捕获接近的文本。作为一个实例,网络浏览器可能正运行在捕获设备上,并且当检测到设备接近再现的文档时,系统自动地将浏览器指向用于搜索引擎的网络地址,预期用户随后将希望搜索由再现的文档呈现的文本。在步骤530中,系统捕获来自再现的文档的文本。如本文所描述的,系统可以执行文本的光学捕获(即拍摄文本的图像并且可能地执行OCR或其他技术以标识捕获的图像内的文本),可以执行信息的音频捕获(即记录朗读的文本并且使用语音识别技术识别该文本)等等。在步骤540中,系统根据捕获的文本标识再现的文档。如本文所描述的,在许多情况下,再现的文档具有电子副本,并且系统能够基于捕获的文本标识再现的文档的电子副本。系统可以利用再现的文档的身份决定执行什么动作、提供要执行的各个动作的上下文、 跟踪读者的使用情况以及开发用户的阅读习惯模型等等。如参照步骤440所讨论的,系统在步骤550中执行与捕获的文本和/或标识的再现文档关联的动作。如本文所描述的,系统可以执行若干与捕获的文本和/或再现的文档关联的动作,包括呈现与捕获的文本和/或再现的文档关联的内容、标识与捕获的文本和/ 或再现的文档关联的其他文档、购买与捕获的文本和/或再现的文档关联的产品等等。在一些情况下,系统通过捕获设备300的显示部件320执行动作。在一些情况下,系统通过远离捕获设备300的部件执行动作,所述部件例如关联的计算设备、关联的移动设备、关联的媒体演示设备(例如立体声系统、mp3播放器、电视、显示器、投影仪)等等。因此,在一些实例中,除了其他的益处之外,系统通过使用多功能移动设备(例如智能电话)使得捕获设备的用户能够容易且有效地与再现的文档交互。换言之,系统使得捕获设备能够捕获用户阅读的文本,最小化与准备捕获设备捕获信息关联的延迟。确定信息存在或接近捕获设备
如本文所描述的,系统可以利用各种各样的技术和部件以便确定捕获设备在要捕获的信息面前。在一些情况下,系统可以利用明确地确定信息存在(例如确定文本在由成像部件拍摄的图像内)的技术。在一些情况下,系统可以利用试图预测或预期用户发起信息捕获的愿望而不实际地验证信息存在(例如在用户以特定方式持有她的电话时预测她希望捕获信息)的技术。在一些情况下,系统可以利用即使用户不与信息交互或者注意信息,也确定和记录信息与用户处于相同的环境中的技术。在一些实例中,系统可以利用记录用户或捕获设备的行为以预测信息存在或者已经被吸收,而不实际地发现或检测该信息的技术。系统可以分析来自捕获设备内的一些或所有部件的数据以便对信息存在做出预测。作为一个实例,系统可以测量捕获设备的高度、 位置和加速度,并且确定捕获设备在特定位置特定方向运动,并且捕获与该因素组合关联的任何信息以便做出预测。在一些实例中,系统利用捕获设备的光学或成像部件以便检测捕获设备接近要捕获的信息。参照图6A,示出了图解说明用于在确定信息接近捕获设备时自动地改变该设备的操作的例程600的流程图。在步骤601中,系统使用诸如成像部件之类的部件320拍摄设备周围环境的一幅或多幅图像。系统可以对成像部件的视野内的图像采样,或者可以响应于接收到指示捕获设备处于或者可能处于要捕获的信息的邻近的触发而动作。换言之,响应于触发,系统可以将成像部件从休眠或断开状态中激活以便采样或拍摄图像。单独地或者以各种不同组合接收的触发的实例包括
接收来自捕获设备的部件的用来检测距信息的接近度的信息,包括图像、距离、接近度和/或取向信息;
检测设备的运动,该运动可以指示捕获设备接近信息; 检测设备的使用型式,所述型式可以指示捕获设备接近信息; 检测成像部件视野内的特定光图案;
检测目标对象的特定特征,包括黑白转变(指示文本)、颜色转变(指示印刷图像)等
等;
接收来自用户的语音或触觉命令;
通过捕获设备的用户接口接收来自用户的命令,所述命令指示用户正试图捕获信息但是尚未成功;
接近文档和具有附接的RFID标签的其他对象;等等。在步骤603中,系统确定捕获设备是否在文本面前。在一些情况下,系统可以基于一幅图像做出确定。在一些情况下,系统可以基于两幅或更多幅图像做出确定。在一些情况下,系统可以轮询成像部件拍摄的若干或一系列图像,并且当包括文本的所述若干或一系列图像满足与正面的确定关联的特定阈值数时,做出样本图像包括文本的确定。例如,取向、照明或者其他因素可能削弱成像部件拍摄目标对象的清晰或精确图像的能力,并且系统因而可以在两秒内从每十幅图像中取出一幅以便做出确定。当系统确定捕获设备在文本面前时,例程600继续到步骤605,并且系统自动地将捕获设备的操作改变为与捕获信息关联的操作模式,否则,例程600向后继续到步骤601或者结束。在步骤605中,如参照图4的步骤420或者图5的步骤520所描述的,系统自动地改变捕获设备的操作。在一些实例中,系统利用距离和/或接近度部件以便检测捕获设备接近要捕获的信息。参照图6B,示出了图解说明用于在确定信息接近捕获设备时自动地改变该设备的操作的例程610的流程图。在步骤611中,系统使用诸如距离测量部件之类的检测部件320测量捕获设备与该设备面前的对象之间的距离。距离测量部件可以测量从捕获设备的中心点到目标对象的距离、从成像部件到目标对象的距离等等。在一些情况下,距离测量部件为接近度传感器, 例如发射电磁场或静电场或者红外光束并且查找来自目标对象的返回信号中的变化的传
53感器。适合于作为检测部件320与系统一起使用的示例接近度传感器包括电感传感器、电容传感器、电容位移传感器、涡流传感器、磁性传感器、光电池、测距仪、超声传感器、被动热红外传感器、被动光学传感器(例如电荷耦合器件)等等。如本文所描述的,在一些情况下, 捕获部件310也可以用作检测部件320 (例如移动电话的光学部件可以捕获文本以及充当被动光学传感器)。系统可以进行一次测量或者可以进行若干样本测量以便确定距离。如参照步骤 601所描述的,系统也可以基于指示捕获设备可能处于要捕获的信息邻近的触发动作并且发起距离测量。在步骤613中,系统确定测量的距离是否落入与捕获设备的特定操作模式关联的距离范围内,所述特定操作模式例如有利于捕获来自再现的文档的文本的捕获的操作模式。在一些情况下,系统可以基于一次测量做出确定。在一些情况下,系统可以基于两次或更多次测量做出确定。例如,系统可以在接收到捕获设备在大体水平的位置取向的触发时使得捕获设备内的测距仪周期性地进行距离测量。系统可以进行十次测量;十次中的九次落入与文本捕获操作关联的测量范围内。因此,系统确定测量的距离满足改变捕获设备的操作所需的条件。当系统确定测量的距离落入与捕获设备的特定操作模式关联的距离范围内时,例程610继续到步骤615,并且系统自动地将捕获设备的操作改变为与捕获信息关联的操作模式,否则例程610向后继续到步骤611或者结束。在步骤615中,如参照图4的步骤420 或者图5的步骤520所描述的,系统自动地改变捕获设备的操作。在一些实例中,系统利用取向或位置测量或跟踪部件以便检测捕获设备接近要捕获的信息。参照图6C,示出了图解说明用于在确定信息接近捕获设备时自动地改变该设备的操作的例程620的流程图。在步骤621,系统使用诸如取向或位置跟踪部件之类的检测部件320跟踪捕获设备可选地相对于该设备面前的对象的取向或位置。检测部件可以测量捕获设备相对于水平或竖直轴的取向、捕获设备相对于目标对象的取向等等。检测部件可以是位置传感器,例如绝对或相对位置传感器,或者可以是线性或角度传感器。适合于作为检测部件320与系统一起使用的示例位置传感器包括罗盘、非接触位置传感器、电位计、线性可变差动变压器、 电容转换器、涡流传感器、霍尔效应传感器、光栅传感器、旋转编码器、光学接近度传感器、 压电转换器光电二极管阵列等等。如本文所描述的,在一些情况下,捕获部件310也可以用作检测部件320 (例如移动电话的光学部件可以捕获文本以及充当光电二极管阵列)。系统可以进行一次测量或者可以进行若干样本测量以便确定绝对或相对位置。如参照步骤601或611所描述的,系统也可以基于指示捕获设备可能处于要捕获的信息邻近的触发动作并且发起距离测量。在步骤623中,系统可选地跟踪被跟踪的位置或取向的持续时间。例如,当捕获设备保持在指示希望捕获信息的位置时,系统可以启动时钟机制。在步骤625中,系统确定所述位置是否落入与捕获设备的特定操作模式关联的位置范围内,所述特定操作模式例如有利于捕获来自再现的文档的文本的捕获的操作模式。 在一些情况下,系统可以基于一次测量做出确定。在一些情况下,系统可以基于两次或更多次测量做出确定。系统可以确定跟踪的位置是否在特定的时间段内处于特定位置内,并且基于跟踪位置和位置的持续时间做出该确定。例如,系统可以在接收到捕获设备在大体水平的位置取向的触发时使得捕获设备内的罗盘周期性地测量捕获设备的取向。系统可以跟踪罗盘读数达三秒;并且如果罗盘读数指示捕获设备保持在水平位置,那么系统确定罗盘读数满足改变捕获设备的操作所需的条件。当系统确定根据的捕获设备的取向或位置落入与捕获设备的特定操作模式关联的取向/位置范围内时,例程620继续到步骤625,并且系统自动地将捕获设备的操作改变为与捕获信息关联的操作模式,否则例程620向后继续到步骤621或者结束。在步骤625 中,如参照图4的步骤420或者图5的步骤520所描述的,系统自动地改变捕获设备的操作。在一些实例中,系统可以单独地或者以各种不同组合利用本文描述的一些或所有技术以便精确地确定何时捕获设备接近要捕获的信息。例如,系统可以使用接近度传感器周期性地进行目标对象的距离测量。当接近度传感器测量出指示再现的文档处于捕获设备的邻近的距离时,系统可以触发成像部件拍摄目标对象的图像。当图像包含文本时,系统可以确认或者验证再现的文档的存在性,并且改变捕获设备的操作。在利用光学或成像部件作为捕获部件310和检测部件320的系统的一些实例中, 捕获设备周期性地或者连续地缓冲成像部件视野中的图像,并且使用这些图像中的一些或全部以确定再现的文档或其他信息是否在视野中并且在捕获设备的近邻。如本文所描述的,系统可以使用也被编程为捕获信息的元件检测要捕获的信息,并且确定信息接近捕获设备。系统可以通过分析来自照相机视野的一幅或多幅图像内的一个、一些或几个因素做出这样的确定,所述因素包括
图像内的目标对象的距离(例如18英寸或更少可能指示接近设备); 目标对象的形状以及从目标对象到其周围环境的距离(例如目标对象是平坦的且靠近支撑表面);
照相机与目标对象之间的角度(例如,照相机保持大致平行于目标对象限定的平
面);
照相机相对于目标对象的取向(例如,照相机处于与目标对象相同的取向,纵向或横向)。这可能取决于距离(例如,当捕获设备非常靠近再现的文档时,横向取向可能暗示接近文档);
缺乏捕获设备或目标对象相对于背景的运动;
存在平行和/或直线的元素和/或轮廓,包括具有与照相机视野的类似对齐的直线元素;
存在具有已知几何形状的目标对象(例如,该对象被定形为传统的文档几何形状,例如8. hll、llxl4或A4页面,定形为类似明信片,定形为类似图书或杂志,等等);
目标对象上存在与图像区域混合的文本区域;存在仅仅包括前景色和背景色的目标对象区域(例如,非常暗或黑的前景像素在非常亮或白的背景像素上); 前景像素与背景像素的分布;和/或
存在许多相对较高对比度的子区,所述对比度例如完整或部分字形图像中发现的对比度,所述字形包括字母数字字符、语标字符等等。
在一些情况下,这些因素由用户或者由系统基于用户的信息捕获历史或者设备操作历史而限定或修改。在所述系统的一些实例中,捕获设备在未使用时可以引起低功率操作模式以便保留设备的功率。在该操作模式期间,系统可以周期性地监控来自设备的检测部件320的输入以便确定信息存在。然而,当检测部件320确定要捕获的信息接近设备时,系统可以在自动地将操作模式改变为信息捕获操作模式之前使得捕获设备进入较高功率操作模式并且执行附加的处理。在一些情况下,系统可以经常从针对信息监控环境的较低功率模式转变到捕获信息的较高功率模式以及转变回监控信息的较低功率模式。优化对信息接沂度的确定
用户在他们与信息(例如再现的文档)交互以及捕获信息的方式方面经常是唯一的。例如,人们在对于其视力最舒适的距离处阅读来自文档的文本。系统的不同用户倾向于在相对于彼此不同的距离处使用捕获设备与文档交互。因此,在一些实例中,系统可以跟踪且存储与信息捕获关联的信息、与改变捕获设备的操作模式关联的信息等等以便分析和优化如何以及何时确定捕获设备接近要捕获的信息。参照图7,流程图示出用于基于观察用户的与捕获有关的动作以及关联的自动动作优化和/或调节距要捕获的信息的接近度的确定的例程700。在步骤710中,系统跟踪应用的启动或终止或者捕获设备的操作变化的实例或发生事件。示例实例或发生事件包括
其中用户手动地终止自动启动的应用或者自动操作变化的实例; 其中用户手动地启动应用或者手动地改变操作模式的实例; 其中用户试图触发确定部件以使得应用自动地启动或者使得捕获设备改变操作模式的实例;
其中系统自动地为用户捕获以后由用户作用的信息的实例; 其中系统自动地为用户捕获以后从不由用户作用的信息的实例,等等。在一些实例中,系统存储和分析与跟踪的实例关联的不同数据,包括与确定捕获设备接近要捕获的信息关联的数据。例如,系统存储和分析与确定捕获设备和目标对象之间的接近度期间使用的距离关联的数据、与确定接近度期间使用的图像的内容关联的数据、与确定接近度期间捕获设备的取向/位置关联的数据、与启动应用或者改变捕获设备的操作之前和/或之后的用户交互关联的数据。表1反映了可以存储这样的数据的示例数据结构,尽管其他的数据结构当然也是可能的
表1
距离持续时间动作IOcmIs手动终止9 cm3s使用的应用12cm3s手动终止8 cm3s使用的应用7 cm2s手动终止
在步骤720,系统分析跟踪的实例以便预测用户的意图。例如,系统分析与跟踪的实例关联的数据,例如表1中所示的数据,或者本文描述的其他数据。使用表1中的数据,系统可以断定特定用户在其捕获设备位于离再现的文档8cm和9cm之间且保持超过两秒时希望捕获信息。当然,其他结论也是可能的。系统于是使用该结论调节或修改与捕获设备关联的缺省规则。
56
在步骤730中,系统调节和/或修改与自动地启动应用或者改变捕获设备的操作模式关联的规则和条件。使用上面的实例,系统基于上述统计资料调节或修改“当捕获设备处于5cm-12cm的范围内达Is或更长时间时,改变操作模式”的缺省规则。调节的规则于是可以是“当捕获设备处于8cm-9cm的范围内达2s或更长时间时,改变操作模式”。除了基于用户对于自动启动和自动操作变化的响应优化距要捕获的信息的接近度的确定之外,系统还可以考虑和分析不与用户相关的其他数据。例如,系统可以跟踪和分析与捕获设备周围的光的质量、捕获设备的成像部件拍摄的图像的质量等等关联的数据。为用户存储信息的捕获
在一些情况下,系统基于用户主动地指导自动操作变化(即用户将其捕获设备悬停在再现的文档上方)而捕获要由用户即时作用的信息。在其他情况下,系统可以在没有用户的即时知识的情况下或者在没有用户的具体指导的情况下捕获信息(即系统在注意到文本在照相机的视野内时拍摄图像)。因此,系统可以代表用户执行许多间接和直接的捕获。为了增强用户的体验,除其他事项外,系统在可为用户访问的用户的生活图书馆或数据库或其他列表(例如捕获时间线)中为用户存储一些或所有捕获。参照图8A-8B,示出了捕获设备的代表性显示,其绘出由系统为用户创建的捕获的时间线或历史。在一些实例中,系统以使得用户能够与时间线的条目交互的方式呈现时间线。例如,显示800包括包含关于日期和用户的信息的头部810、与信息捕获关联的一个或多个条目811-815。每个条目可以示出捕获的时间820、系统是否在捕获时间执行动作的指示符825(在图中,图标指示尚未执行动作)、捕获的描述830、捕获来源的图标或图像740和 /或其他信息(未示出)。在一些实例中,指示符825是其外观传递动作项的性质的图标。作为一个实例,指示符可以代表与捕获关联的补充视频。时间线可以呈现特定的日、星期、月或者任何其他限定的时间段中捕获的信息。例如,条目811涉及2月18日9:15 AM发生的捕获。该捕获是称为“NYT”的再现的文档中的文本,并且用户在捕获时执行动作(该条目中没有指示符725)。作为另一个实例,条目814涉及相同日期的10:03 AM发生的捕获。该捕获是公交车上的奥迪广告的捕获, 并且用户在捕获时没有执行动作(该条目中的星指示符725,告知用户存在要执行的与该条目关联的动作)。在一些实例中,系统修改时间线的呈现。图8B呈现了具有图8A的修改视图的显示800,其只呈现了来自再现的文档的捕获的条目。除了图8A中示出的条目811和812之外,图8B的显示还示出与来自再现的文档的捕获关联的附加条目816-818,所述捕获例如来自“NYT”中的广告的捕获816、来自图书的捕获817以及购买物品的收据的捕获818。系统可以对条目分类或分组以供呈现,这取决于用户的需要和希望、系统的需要等等。因此, 除了其他的益处之外,系统可以为用户创建或构建捕获的信息的时间线,从而使得用户能够回忆他们在白天或者其他时间段期间间接和直接捕获(或者系统直接或间接捕获)的信息并且与该信息交互。如本文所讨论的,在一些情况下,系统确定捕获设备接近信息,改变设备的操作模式,捕获信息,并且执行与该信息关联的动作,所有这些都在用户了解和指导之下进行。然而,存在其中系统在没有用户的知识或者没有用户的控制或指导的情况下确定捕获设备接近信息,改变捕获设备的操作模式并且捕获信息的其他情况。在这些情况下,系统可以处理捕获的信息以便避免为用户捕获和呈现太多不希望的信息。例如,系统可以在没有来自用户的指导或者用户的知识的情况下捕获信息、执行捕获,并且在添加条目到用户的用于捕获的时间线之前,试图标识与捕获关联的附加的信息或者要执行的动作。系统在附加的信息或者要执行的动作被标识时添加条目,在没有附加的信息或者要执行的动作被标识时不考虑或者丢弃捕获(或者将条目转移到可替换的数据库)。因此,除了其他的益处之外,系统可以编辑或过滤时间线以便向用户提供用户整个一天捕获的相关信息。时间线或者捕获数据库可以包括一些或所有与捕获关联的信息。该数据库可以是可搜索的,可以存储关联的内容,并且可以被修改成满足用户的需要。示例捕获设备
如本文所描述的,捕获设备300可以是移动多功能设备,例如智能手机、具有照相机的膝上型计算机、数码相机和/或其他手持式多功能设备。然而,捕获设备300也可以是用户通常配戴的对象的一部分或者集成到这些对象中,这些对象例如服饰(眼镜、衣服、帽子、带子等等)、饰品(表、项链、耳环等等)以及其他设备或对象。在一些情况下,这些设备可以非常适合满足系统的特定需要。这些对象可以包括图3中所示捕获设备300的一些或所有部件,或者可以包括捕获部件310和通信部件360,并且通过与包括其他部件的关联的移动设备或计算设备通信而与所述其他部件交互。例如,除了其他的益处之外,包括小的成像部件(例如集成到框架或者一个或两个镜片中的照相机)的一副眼镜使得用户能够在没有沉重负担的情况下容易地捕获大量的视觉信息。在一些情况下,系统可以捕获用户看见的所有信息,例如用户整天阅读的任何文本或离散信息显示(即,集成到眼镜中的照相机在用户看见文本时捕获文本的图像,并且因而确定眼镜(以及用户)在要捕获的信息面前)。系统可以跟踪和存储这样的信息以供用户即时使用或以后使用。在一些情况下,系统可以响应于用户接收的触发而捕获信息。例如,用户可能说出词“捕获”,该词被将触发传送到眼镜并且使得成像部件捕获信息的关联的移动设备接收。当然,其他的触发是可能的,例如物理触发(例如,用户轻拍眼镜或者关联的移动设备)、其他的音频触发、基于计时的触发(例如,用户注视文本达特定时间段,使得照相机捕获文本)等等。在一些实例中,捕获设备可以包括处理由人眼捕获的图像的部件,而不是使用设备的部件或者与设备关联的部件主动地拍摄或捕获图像。在这些实例中,系统可以接收或者通过分析人的视觉大脑皮层的特性(例如血流或其他特性)重建用户的眼睛(眼睛充当捕获部件310)看见的图像。例如,在2009年末,日本ATR计算神经科学实验室的科学家使用功能磁共振成像(fMRI)能够通过将脑活动与图像模式关联而重建人们看见的图像。因此, 在一些实例中,捕获部件310是根据脑活动推断和再现图像以便确定用户看见的图像是否包含文本和/或其他信息。因此,除了移动设备之外,其他的设备、对象和/或技术可以有利于为用户以及由用户捕获信息,从而经常使得用户和系统能够容易地记录和记载他们与有趣且令人信服的信息的日常交互。总结
所述系统的实施例和实例的以上详细描述并非预期是详尽无遗的或者将该系统限于
58上面公开的精确形式。尽管上面出于说明的目的描述了该系统的特定实施例和实例,但是相关领域技术人员应当认识到,各种不同的等效修改可能处于该系统的范围之内。作为一个实例,尽管过程和功能块以给定的顺序给出,但是可替换的实施例可以执行具有不同顺序的步骤的例程或者采用具有不同顺序的功能块的系统,并且可以删除、移动、添加、细分、 组合和/或修改一些过程或功能块。这些过程或功能块中的每一个可以以各种各样的不同方式实现。此外,尽管过程或功能块有时被示为串行地执行,但是这些过程或功能块可以改为并行地执行,或者可以在不同的时间执行。尽管上面描述的许多实施例和实例采用存储在移动设备或其他计算系统内的有形存储介质上的软件,但是应用和过程可以硬编码到计算系统中(例如存储到EEPR0M、PR0M
绝绝由、
寸寸T,。本文提供的系统的教导可以应用于其他系统,不必一定是上面描述的系统。上面描述的不同实施例的元件和动作可以组合以提供另外的实施例。所有上面的专利和申请以及其他参考文献,包括伴随的提交文件中可能列出的任何文献,都通过引用合并在内。所述系统的各方面可以经过修改(如果必要的话)以便采用上面描述的各个参考文献的系统、功能和构思以提供该系统的进一步的实施例。可以根据上面的具体实施方式
对系统做出这些和其他改变。尽管上面的描述详述了系统的特定实施例并且描述了设想的最佳模式,但是不管上述内容在文字中出现得如何详细,所述系统都可以以许多方式实施。因此,该系统的实际范围不仅包含所公开的实施例,而且也包含在权利要求书中实施或实现该系统的所有等效方式。尽管所述系统的特定方面在下文中以特定权利要求形式给出,但是本发明人预期系统的不同方面处于任何数量的权利要求形式中。例如,尽管仅仅系统的一个方面被记载为以计算机可读介质实施,但是其他方面同样地可以以计算机可读介质实施。因此,本发明人保留在提交本申请之后添加附加权利要求的权利以便针对系统的其他方面追求这样的附加权利要求形式。
权利要求
1.一种用于通过移动设备向用户呈现信息的系统,该系统包括文本检测部件,其中该文本检测部件被编程为检测该文本处于与移动设备关联的照相机的视野之内;设备操作部件,其中该设备操作部件被编程为响应于接收来自文本检测部件的、指示文本处于与移动设备关联的照相机的视野之内的信号而修改移动设备的操作;捕获部件,其中该捕获部件被编程为响应于接收来自设备操作部件的、指示移动设备的修改的操作的信号而捕获文本的图像;标识部件,其中该标识部件被编程为标识文本或者包含捕获的图像内的文本的对象;以及动作部件,其中该动作部件被编程为执行与标识的文本或者包含该文本的对象关联的动作。
2.权利要求1的系统,其中设备操作部件被编程为将移动设备的操作从缺省操作模式修改为使得移动设备能够捕获接近移动设备的信息的不同操作模式。
3.权利要求1的系统,其中文本检测部件被编程为周期性地对照相机接收的图像采样。
4.权利要求1的系统,其中文本检测部件被编程为确定移动设备处于距对象特定接近度内并且基于该确定的接近度发起照相机对图像的接收。
5.权利要求1的系统,其中标识部件被编程为标识包含捕获的文本的再现的文档;并且其中动作部件被编程为向移动设备的用户呈现包含所述文本的对象的电子副本。
6.权利要求1的系统,进一步包括显示部件,其中该显示部件向移动设备的用户呈现照相机的视野; 其中动作部件被编程为用指示呈现的照相机的视野内的文本与附加信息关联的图形元素覆盖该文本。
7.权利要求1的系统,进一步包括显示部件,其中该显示部件向移动设备的用户呈现照相机的视野; 其中动作部件被编程为呈现与呈现的照相机的视野内的文本或文本显示关联的一个或多个用户可选择的选项。
8.一种用于操作移动设备的方法,该方法包括 确定移动设备接近再现的文档;以及基于该确定自动地执行程序,其中该执行的程序使得移动设备能够与再现的文档交互。
9.权利要求8的方法,其中确定移动设备接近再现的文档包括 使用移动设备的成像部件捕获再现的文档的图像;以及标识捕获的图像的图像内的文本。
10.权利要求8的方法,其中确定移动设备接近再现的文档包括确定移动设备处于距再现的文档特定接近度内。
11.权利要求8的方法,其中确定移动设备接近再现的文档包括确定移动设备保持于相对于再现的文档的特定位置。
12.权利要求8的方法,其中使得移动设备能够与再现的文档交互的该执行的程序包括根据从再现的文档捕获的文本标识再现的文档的应用。
13.权利要求8的方法,其中使得移动设备能够与再现的文档交互的该执行的程序包括标识要执行的与从再现的文档捕获的文本关联的动作的应用。
14.权利要求8的方法,其中确定移动设备接近再现的文档包括使用移动设备的成像部件捕获再现的文档的图像以及标识捕获的图像的图像内的文本,该方法进一步包括接收电子内容与标识的文本关联的指示;以及基于所述确定和接收的指示自动地启动应用。
15.权利要求8的方法,其中确定移动设备接近再现的文档包括使用移动设备的成像部件捕获再现的文档的图像以及标识捕获的图像的图像内的文本,该方法进一步包括接收要执行的一个或多个动作与标识的文本关联的指示;以及基于所述确定和接收的指示自动地启动应用。
16.一种计算机可读介质,其内容在由移动设备执行时使得移动设备执行用于执行与再现的文档关联的动作的方法,该方法包括测量再现的文档与移动设备之间的相对取向;将测量的相对取向和与移动设备的文档捕获模式关联的阈值相对取向进行比较;以及当测量的相对取向处于与文档捕获模式关联的阈值相对取向内时,自动地将移动设备转变到文档捕获模式。
17.权利要求16的计算机可读介质,其中测量再现的文档与移动设备之间的相对取向包括测量移动设备的成像部件与再现的文档之间的距离。
18.权利要求16的计算机可读介质,其中测量再现的文档与移动设备之间的相对取向包括测量与移动设备关联的显示器的中心点与再现的文档之间的距离。
19.权利要求Cl的计算机可读介质,其中阈值相对取向由移动设备的用户确定。
20.权利要求16的计算机可读介质,其中阈值相对取向通过在文档捕获模式下执行移动设备的先前发生事件的分析而被确定,其中该分析包括分析当移动设备的用户拒绝响应于文本捕获而执行动作的应用的自动启动时的发生事件;以及分析当移动设备的用户手动启动响应于文本捕获而执行动作的应用时的发生事件。
21.权利要求16的计算机可读介质,其中阈值相对取向通过在文档捕获模式下执行移动设备的先前发生事件的分析而被确定,其中该分析包括当先前发生事件包括用户手动启动响应于文本捕获而执行动作的应用时测量移动设备与再现的文档之间的距离。
22.权利要求16的计算机可读介质,其中阈值相对取向通过在文档捕获模式下执行移动设备的先前发生事件的分析而被确定,其中该分析包括当先前发生事件包括用户拒绝响应于文本捕获而执行动作的应用的自动启动时测量移动设备与再现的文档之间的距离。
23.权利要求16的计算机可读介质,其中测量再现的文档与移动设备之间的相对取向包括周期性地测量所述距离;并且其中将测量的相对取向和与移动设备的文档捕获模式关联的阈值相对取向进行比较包括比较两个或更多周期性地测量的距离;并且其中自动地将移动设备转变到文档捕获模式包括当所述两个或更多周期性地测量的距离处于与文档捕获模式关联的阈值相对取向内时将移动设备转变到文档捕获模式。
24.权利要求16的计算机可读介质,进一步包括在将移动设备转变到文档捕获模式之后周期性地测量再现的文档与移动设备之间的相对取向;以及当周期性地测量的相对取向处于与文档捕获模式关联的阈值相对取向之外时自动地退出文档捕获模式。
25.一种用于响应于可用信息的存在而指导移动设备的操作的方法,该方法包括使用移动设备的捕获部件周期性地捕获数据;以及当所述数据中的至少一些具有关联的动作时,使得移动设备针对捕获的数据执行关联的动作之一。
26.权利要求25的方法,其中执行的动作通过移动设备的显示部件显示内容与捕获的数据中的至少一些关联的指示。
27.权利要求25的方法,其中执行的动作将捕获的数据中的至少一些是文本的指示存储到与移动设备的用户关联的数据库中。
全文摘要
描述了一种用于响应于信息的存在性而自动地改变移动设备的操作的系统和方法。在一些实例中,系统确定信息捕获设备接近文本、自动地将捕获设备的操作改变为特定模式、捕获该文本并且执行与捕获的文本关联的动作。
文档编号H04N5/225GK102369724SQ201080008009
公开日2012年3月7日 申请日期2010年2月18日 优先权日2009年2月18日
发明者曼比 C-F., 彼得森 J., J. 史密斯 M., T. 金 M., 桑维泰尔 M., 斯蒂芬斯 R. 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1