自动提供与捕获的信息例如实时捕获的信息关联的内容的制作方法

文档序号:6348582阅读:240来源:国知局
专利名称:自动提供与捕获的信息例如实时捕获的信息关联的内容的制作方法
自动提供与捕获的信息例如实时捕获的信息关联的内容相关申请的交叉引用
本申请要求 2009 年 3 月 12 日提交的题为 DOCUMENT INTERACTION SYSTEM AND METHOD 的美国临时专利申请No. 61/159757、2009年6月4日提交的题为DOCUMENT INTERACTION, SUCH AS INTERACTION USING A MOBILE DEVICE 的美国临时专利申请No. 61/184273,2010 年 2 月 4 日提交的题为 PROVIDING ADDITIONAL INFORMATION BASED ON CONTENT OF AUDIO DATA, SUCH AS RELEVANT INFORMATION REGARDING TOPICS RAISED IN A LIVE AUDIO STREAM的美国临时专利申请No. 61/301576以及2010年2月4日提交的题为PROVIDING RELEVANT INFORMATION的美国临时专利申请No. 61/301572的优先权,所有这些专利申请通过引用全部合并于此。本申请与2007年9月17 日提交的题为CAPTURE AND DISPLAY OF ANNOTATIONS IN PAPER AND ELECTRONIC DOCUMENTS 的 PCT 申请 No. PCT/EP/2007/008075 ;2010 年 2 月 18 日提交的题为 AUTOMATICALLY CAPTURING INFORMATION, SUCH AS CAPTURING INFORMATION USING A DOCUMENT AWARE DEVICE 的美国专利申请 No. 12/660146 ;2010 年 2 月 18 日提交的题为 INTERACTING WITH RENDERED DOCUMENTS USING A MULT I-FUNCTI ON MOBILE DEVICE, SUCH AS A MOBILE PHONE的美国专利申请No. 12/660151 ;以及2010年2月18日提交的题为 IDENTIFYING DOCUMENTS BY PERFORMING SPECTRAL ANALYSIS ON THE DOCUMENTS 的美国专利申请No. 12/6601 有关,所有这些专利申请通过引用全部合并于此。
背景技术
人们不断地接收他们可能感兴趣的信息。信息以从纸质文档(报纸、书籍、杂志等等)到他们周围世界内的其他对象(标志、告示牌、显示器等等)的许多形式呈现。通常,信息至少部分地通过文档上印刷的、通过对象显示的、通过音频或视频流呈现等等的文本而呈现。


图IA为示出系统的一些实施例中的信息流的数据流图。图IB为示出系统的一些实施例中的信息流的数据流图。图2为在典型操作环境的情况下包含在系统的典型实现方式中的部件的部件图。图3为示出与系统一起使用的适当捕获设备的框图。图4为示出由用于提供相关信息结合显示该相关信息的系统呈现的样本显示的显示图。图5为示出用于提供与接收的本文相关的信息的例程的流程图。图6为结合存储由系统利用的数据而示出系统使用的数据结构的数据结构图。图7为示出系统运行于其中的环境的框图。图8为示出用于自动地呈现从再现的文档捕获的信息的例程的流程图。图9为示出用于确定与标识的再现的文档关联的内容源的例程的流程图。
图10为用于与基于音频的信息交互的部件或模块的框图。图11为示出要基于接收的音频的内容而执行的动作的实例的流程图。图12为示出用于动作、即标识接收的音频中的词语并且基于那些词语提供输出的动作的子例程的实例的例程图。图13为示出用于显示与30分钟时段期间接收的音频内容关联的视觉内容的用户界面的示意图。
具体实施例方式综沭
本发明人已经认识到,当出于其他目的,例如出于文档生成或信息呈现的目的而提供、 生成、创建和/或传输文本或信息时,搜索、检索(retrieve)和/或显示信息、内容和/或要执行的动作将是有用的。在一些实例中,描述了捕获信息和呈现与捕获的信息关联的内容。系统响应于系统可以观察到的用户提供的、例如键入文本的用户提供的文本而自动地提供相关信息。系统监控提供的文本并且自动地选择文本的一部分,例如主题、对象、句子的动词、从句或者随机或收集的一组单词等等。系统基于文本的选择的部分形成查询,使用该查询选择要搜索的索引,传输对选择的索引的查询,并且接收与查询相关的搜索结果。系统显示这些搜索结果中的至少一个,使得用户可以观看与用户提供的文本相关的信息。在一些实例中,描述了捕获信息和将捕获的信息与不同内容源关联。系统基于从文档捕获的信息来标识再现的文档并且利用该文档作为进入相关内容的一个或多个通道的访问点。系统标识内容源并且与捕获的信息一起提供与内容源关联的信息。在一些实例中,系统提供与从接收的音频信号提取的内容相关的信息。系统接收例如来自收音机的扬声器或者来自在电话呼叫的情况中发生的现场谈话或者来自共享的物理空间的现场音频信号,捕获来自该音频信号的信息,并且执行与捕获的信息关联的动作。执行的动作可以是标识搜索词语并且基于这些词语进行查询或搜索。然后,系统接收与音频内容有关的或关联的信息并且将其输出给用户,例如将其输出给移动设备或者单独的显示设备以便显示给用户。实例情景
下面的情景给出公开的技术的可能的应用。本领域的一位普通技术人员将理解,这些情景被提供来教导可以如何实现所公开的技术并且所公开的技术适用于本文未显式描述的其他情景。某个人正在写关于2010世界杯的文章,并且正完成关于东道主国家南非的段落。 集成到该撰稿者使用的字处理器中的系统在该撰稿者完成所述段落的同时连续地更新到处理器的侧面方格中示出的信息的链接。当这个人开始键入句子“作为东道主国家,南非……”时,系统显示到包含关于南非的信息的不同站点的链接。当这个人继续句子“.….. 无需具有资格,并且参赛者将渴望……”时,系统显示到各个参赛者的简历和统计资料的链接。当这个人总结句子“……开始训练并且建立有凝聚力的单位”时,系统链接到讨论东道主国家在先前的世界杯中面临的挑战的其他文章。某个馆长正在阅读关于惠特尼双年展(Whitney Biennial)的杂志文章,并且有兴趣了解更多。这个馆长使用她的智能电话例如通过拍摄来自该文章的一部分文字的图像来捕获该部分文字。响应于该捕获,系统标识所述文章,标识该文章的“惠特尼双年展”标签并且确定该文章与来自著名艺术评论家的具有类似标签的三篇不同的推特文稿(Twitter feed)关联。系统通过智能电话的显示器呈现这些推特文稿的指示,并且在接收到来自用户的对这些文稿之一的选择时呈现该文稿。某个学生正在听关于十八世纪末期的美国历史的讲座。该学生使用他的移动电话记录该讲座,并且使得系统能够标识和检索可能与讲座中所讲的东西关联的内容。当该学生集中于讲座时,系统为她做笔记,记录和检索讲座中引用的章节、关于讲座中提及的人物的简历等等。例如,在讲座的描述1789年费城和纽约市的相对大小和人口的部分期间,系统标识包含类似信息的图表以及地图的电子版本,并且为该学生获取(retrieve)它们。该学生也可以使用自动生成的内容作为回放她的讲座音频文件的索引。当然,其他的情景(例如与本文描述的方法和技术有关的那些情景)是可能的。现在,将描述系统的各个不同的实施例。下面的描述提供了用于透彻理解并且允许描述这些实施例的特定细节。然而,本领域技术人员将理解,可以在没有这些细节中的许多细节的情况下实施所述系统。此外,一些公知的结构或功能可能没有被详细地示出或描述,以便避免不必要地使各个不同实施例的相关描述模糊不清。下文给出的描述中使用的术语预期以其最广泛的合理方式进行解释,即使它结合本发明的一些特定实施例的详细描述而被使用。特定的术语甚至可能在下文中加以强调; 然而,任何预期以任何限制的方式进行解释的术语都将明显且具体地在该具体实施方式
部分中被由此限定。第I部分一引言 1.系统及其用户
人们在视觉上吸收(consume)来自再现的(印刷的和显示的)媒体的信息,包括以文本、 图像、视频和其他形式呈现的信息。例如,人们阅读报纸、杂志、图书、博客、文本消息、告示牌、收据、便条等等;浏览照片、绘画、对象、广告等等;以及观看电影、视频、表演、其他人等等。人们同样地在听觉上吸收来自诸如收音机和电视之类的许多来源的信息。事实上,人们简单地通过观察和倾听他们周围的世界而一直接收和吸收信息。这样的信息吸收可以是积极的(用户感知到并且经常参与信息)或者消极的(用户未感知到,但是仍然接收信息)。个人可以有意地获得信息,例如人们经常“拖曳”信息,或者个人可以在信息被“推压”向他们时无意地获得信息(消极吸收)。在某种意义上,人们在其如何与世界交互方面模仿拖曳信息和接收推压的信息的设备(计算机、移动电话和其他设备)。然而,设备不是人,并且当前的设备经常在捕获周围环境中的信息或者接近该设备的信息方面做得不好。本文公开的技术描述了启用和促进设备的感知的系统和方法。该技术可以促进对于接近设备的基于文本的信息的感知、对于接近设备的基于图像的信息的感知、对于接近设备的信息显示(例如再现的文档)的感知等等。使用该公开的技术,设备可以在它们如何与世界交互方面模仿人。尽管在下文中通常描述为与视觉上可感知的文档交互,但是系统同样地可以被配置成收集和处理基于音频的信息。1. 1物理/数字交互实际上,每个物理信息显示与或者可以与附加的数字信息关联。例如,图像可以与描述 (例如元数据)、网页等等关联;单个词可以与定义、维基条目、广告等等关联;文档可以与其电子副本、网页、幻灯片等等关联;地理位置(或者位置处的对象)可以与元数据、图像、关于该位置的信息关联;音频流可以与幻灯片关联;等等。在存在物理信息显示的情况下,系统只需标识该信息显示(或者该信息显示的部分方面,例如该信息显示中的文本)以便获得对于关联信息的访问。系统使得物理信息显示能够充当这样的平台,由该平台创建出包括用户和内容的丰富的数字第三维交互。1.2再现文档的标识
在一些情况下,标识再现的文档可以向读者提供对于大量附加信息的访问,这些信息补充文档本身并且丰富读者的体验。对于具有电子副本的每个再现的文档,再现的文档中的部分信息可以用来标识电子副本。在一些实例中,系统捕获并且使用来自再现的文档的文本样本以便标识和定位文档的电子副本。在一些情况下,系统需要的文本样本非常小,因为来自文档的文本的一些词或部分词经常可以用作再现的文档的标识符并且用作其电子副本的链接。此外,系统可以使用这些词以便不仅标识文档,而且标识文档内的位置。因此, 可以使用本文讨论的系统以许多有用的方式关联再现的文档和它们的数字副本。因此,可以使用本文讨论的系统以许多有用的方式关联再现的文档和它们的电子副本。简单地说,当用户扫描再现的文档中的一些词、字符或区域时,系统可以获取电子副本文档或者其某部分,显示电子副本或者其某部分,通过电子邮件将它发送给某个人,购买它,打印它,将它发布到网页,或者执行使得用户能够与文档或相关内容交互的其他动作。例如,用户将他/她的移动设备(及其照相机)悬停在报纸或杂志文章的一部分上方,使得用户的移动设备在该移动设备的触摸屏上显示文章的电子版本,以及向用户提供允许用户进一步与文章交互的选项。在一些情况下,例如当移动设备检测到距文章的特定接近度时,悬停在文章上方可以使得移动设备切换到文档感知或交互模式。系统实现“纸张/数字集成”的这些和许多其他实例,而无需改变为当前的书写、 印刷和出版文档和其他信息显示的过程,从而给予再现的文档和物理对象全新的数字功能层。—旦系统将再现的文档中的一段文字与已经建立的特定数字实体关联,系统就能够在该关联上构建巨量的功能。大多数再现的文档具有可在万维网上访问或者可从其他在线数据库或文档全集访问或者可以例如响应于费用或订金的支付而使得可访问的电子副本。于是,在最简单的水平下,当用户捕获再现的文档中的一些词时,系统可以获取电子文档或者其某个部分,显示它,通过电子邮件将它发送给某个人,购买它,打印它,和/或将它发布到网页。作为附加的实例,捕获个人在早餐期间阅读的图书的一些词可以使得这个人的汽车中的音频-图书版本从他/她开始驾车上班的那一刻起开始朗读,或者捕获打印机墨盒上的序列号可以开始订购更换的过程。系统的典型使用以使用捕获设备捕获来自再现的文档的文本开始,但是重要的是注意其他类型的对象的其他捕获方法同样是适用的。因此,系统有时被描述为捕获或扫描来自再现的文档的文本,其中这些术语定义如下。
再现的文档是印刷的文档或者显示器或监视器上显示的文档。它是人类可感知的文档,不管处于永久的形式还是处于短暂的显示。它是通过表示层提供信息的物理对象。再现的文档包括纸质文档、告示牌、标志、计算设备的表示层提供的信息、通过波传播的信息 (例如音频或视频信息流)和/或呈现或显示信息的其他物理对象。捕获或扫描是从再现的文档获得信息的系统检查的过程。该过程可以涉及使用例如手机或者手持式光学扫描仪中的照相机的光学捕获,或者它可以涉及将文档大声地读入音频捕获设备或者在键区或键盘上将它键入。对于更多的实例,参见第15节。除了捕获来自再现的文档的文本之外,系统还可以捕获来自诸如射频识别(RFID) 标签、QR码、条形码、其他物理对象(例如绘画、雕塑)之类的其他来源的信息,捕获直接来自计算设备的表示层的信息,等等。尽管系统在本文中通常描述为与印刷的或显示的文档交互并且捕获来自这些文档的数据,但是系统可以容易地被配置成可替换地或者附加地与基于音频的信息交互并且捕获基于音频的信息,该信息例如从收音机或电视广播接收的信息。因此,其他信息源可以包括基于音频和/或视频的数据,例如无线电频道上的无线电节目和其他内容;视频频道上的视频和其他内容,例如电视节目、电视广告等等,不管是从诸如视频光盘之类的本地介质再现的,还是从远程服务器流送的,等等。作为一个实例,系统可以捕获来自音频源的信息,并且显示与该音频源或者该来源产生的音频流的内容关联的信息或补充内容。2.系统简档
本节描述构成用于纸张/数字集成的系统的设备、过程和系统中的一些。在不同的实例中,系统在提供基本功能的该底层核心上构建各种各样的服务和应用。2. 1
图IA为示出适当的系统的一些实施例中的信息流的数据流图。其他的实例可能未使用这里示出的所有阶段或元件,而一些实例则使用多得多的阶段或元件。诸如具有照相机和/或话音记录器的移动设备之类的捕获设备捕获100来自再现的文档或者来自接近该设备显示的信息的文本和/或其他信息。设备可以处理102捕获的数据,例如以便移除捕获过程的伪影、提高信噪比、标识或定位数据内的希望的信息等等。 系统然后可选地通过识别部件(例如OCR设备、语音识别设备、自相关设备或者本文描述的其他技术)将数据转换104成一个或多个签名,例如文本段、文本偏移或者其他符号或字符。 可替换地,系统执行从再现的文档提取一个或多个文档签名的替换形式。在一些情况下,签名代表一组可能的文本转写。在一些情况下,该过程可能受到来自其他先前或后续执行的步骤的反馈的影响或约束。例如,在系统先前标识了捕获很可能源自的候选文档的情况下, 它能够缩小原始捕获的可能解释。后处理部件可以接收来自识别过程的数据并且根据需要过滤106该数据或者执行其他的操作。在一些实例中,例如当系统捕获到包含推断用户意图的足够信息的词组或符号时,系统可以立即且在不继续到例程中的后续步骤的情况下推断、确定、标识和/或执行直接的动作。在这些情况下,系统可以无需标识或引用数字副本文档以便实现用户的愿望。在步骤108中,系统然后可以构造一个查询或一组查询以用于搜索与捕获关联的电子副本或其他内容。该查询构造的一些方面可能取决于使用的搜索过程,并且系统可以在以后的步骤中(例如在执行搜索之后)执行它们,但是典型地将存在系统可以事先执行的一些操作,例如移除明显误识别的或不相关的字符。系统将所述一个查询或一组查询传递110给搜索和上下文分析部件。系统可以试图标识原始数据从其捕获的文档。为此,系统可以使用搜索索引和搜索引擎112、关于用户的知识114和/或关于用户的上下文或其中发生捕获的上下文的知识116。例如,系统可以与搜索引擎112交互,该搜索引擎采用和/或索引特别地关于再现的文档、关于它们的数字副本文档和/或关于具有网络(互联网)存在物的文档的信息。系统可以利用这些信息源来回传输信息,并且可以将标识的信息馈入例程的其他不同步骤。例如,系统可以基于步骤 110期间接收候选文档的知识而接收关于捕获的语言、字体、再现以及可能的接下来的词。在步骤120中,系统可以获取早先标识为再现文档的电子副本的一个或多个文档的拷贝。系统可以直接访问文档源和仓库124(例如本地存档系统或数据库或网络服务器), 或者系统可以联系访问服务122以便获取一个或多个文档。访问服务122可以强制执行文
档的认证、安全或支付,或者可以提供其他服务,例如尤其是将文档转换成希望的格式或语 、
曰ο系统的应用可以利用额外功能或数据与文档的部分或全部的关联。例如,广告应用可以将特定的广告消息或主题与文档的部分(例如关键字、词组或者距特定内容的接近度)关联。规定其应当与文档的特定部分一起可用的该额外关联的功能或数据可以被认为是文档上的一个或多个覆盖并且在这里称为标记。因此,在步骤130中,系统标识与捕获的数据和/或标识的电子副本有关的任何标记。在一些情况下,标记由文档的用户、创作者、 出版者、文档的其他用户等等提供,并且可以存储在可直接访问的来源132处或者由标记服务134动态地生成。在一些实例中,标记可以关联于以及应用到再现的文档和/或再现的文档的数字副本或者这些文档中的任一个或二者的组。作为先前的步骤中的一些或全部的结果,系统可以采取或执行140动作。这些动作可以是系统缺省动作,例如简单地记录找到的信息,可以取决于数据或文档,或者可以从标记分析中导出。在一些情况下,系统可以简单地将数据传递给另一个系统。在一些情况下,适合再现的文档中的特定点处的捕获的可能的动作将作为关联的显示器上的菜单呈现给用户,所述关联的显示器例如捕获设备的显示器(移动设备的触摸屏)或者关联的显示器 (用户的膝上型计算机的屏幕)。系统可以响应于所述捕获、响应于执行一个或多个动作的用户请求或者在以后的时间标识或执行一个或多个动作。作为可以如何使用捕获设备的一个实例,读者可以利用与她的移动设备关联的照相机捕获来自报纸文章的文本。该文本通过照相机而捕获为位像。逻辑将该位像存储到存储器中并且将该图像加盖时间戳,以及记录与捕获关联的其他数据(例如设备的位置、地理位置数据等等)。逻辑也执行光学字符识别(OCR)并且将图像转换成文本。系统将文本上传到与报纸关联的内容索引,并且标识和获取文章的电子副本。捕获设备然后与要执行的一个或多个动作一起,通过关联的触摸屏显示电子副本,所述动作例如下载和查看相关的文章或者提供附加背景信息的文章,加亮文章内的术语以及提供到这些术语的定义的链接,或者查看文章内或周围讨论的项目的广告或购买信息。关于系统过程、部件和/或设备的另外的细节可以在通过引用合并于本文中的申请中找到。如上面所指出的,尽管系统在本文中通常被描述为与印刷的或显示的文档交互并且捕获来自这些文档的数据,但是如相关领域的技术人员将理解的,系统可以容易地被配置成可替换地或者附加地与基于音频的信息交互并且捕获基于音频的信息。图IB为示出适当系统的一个实例中的信息流的数据流图。捕获设备155捕获来自信息源150和诸如与设备无线通信的来源之类的其他来源(未示出)的呈现的信息,例如文本、音频、视频、GPS坐标、用户姿态、条形码等等。在步骤160处,信息保存器部件收集且存储由捕获设备1 捕获的信息。在步骤165处,系统将从捕获设备收集的信息传递给捕获信息处理部件。捕获信息处理部件165被配置成检测再现的文档的存在性、从文档中提取文本区域,并且分析文档信息以便识别文档和文本特征,例如绝对和相对布局信息、段落、 行和字阴影或轮廓、字形相关特征以及字符编码。在一些实例中,捕获信息处理部件可以被配置成处理不同于文本的数据类型,例如音频、罗盘数据、GPS、加速度、历史、温度、湿度、体热等等。在一些实例中,在捕获设备捕获或发送更多的信息时,捕获信息处理单元将随着时间积累信息并且复合积累的信息以便例如形成信息源的更大和/或更高分辨率的图像。在一些实例中,捕获信息处理部件可以利用上下文(参见第13和14节),例如用户捕获的先前的信息,以便例如通过限制或扩展执行的处理量并且指导什么正被处理的假设而指导捕获信息处理。例如,如果系统最近标识出用户已经捕获了来自特定来源的信息,那么随后可能需要较少的处理以便获得关于新捕获的信息的相似的确定性水平,因为有限的可能性空间内的搜索可以快速地得到匹配,该匹配然后可以进一步进行确认(如果希望的话)。捕获信息处理部件可以例如通过基于暂定结论自动地确认或拒绝信息的预测,或者通过利用礼宾服务(Concierge Service) 170 (参见第19. 8节),或者通过请求用户反馈,验证标识的信息。在步骤175中,系统将捕获且处理的信息作为系统历史和上下文的一部分而存储。在步骤180处,系统基于处理的信息和上下文进行搜索(参见第4. 2. 2、13和14 节)。在一些实例中,可以随着时间积累搜索结果且使其相关,例如基于随着时间捕获的信息的子集使搜索结果相交以便解决模糊性(例如记录的音频的多个部分、来自多个频带的音频、多幅图像等等)。在一些实例中,可以例如基于图像处理部件可以对搜索结果(或者文档管理器部件185获取的文档信息)和捕获的信息执行附加的分析的原理由捕获信息处理部件进一步验证搜索结果。例如,如果搜索部件生成10个可能的结果,那么捕获信息处理部件可能确定其中6个不太可能匹配搜索结果,例如文本中的竖笔的模式。在步骤185处, 如果文档被标识,那么系统的文档管理器部件可以获取该文档的表示。在步骤190处,系统的标记部件可以计算和/或获取与从捕获信息处理步骤输出的文本和/或标识的文档或者获取的文档的表示相关的动态和/或静态标记。对于静态和动态标记的更多信息,参见第 5节。在一些实例中,文本一被识别,标记部件就基于标识的文本与文档标识并行地产生标记。在步骤195处,,可以将信息呈现给用户。在一些实例中,该信息可以包括反馈, 例如移动捕获设备以便更好地聚焦的建议;覆盖捕获的图像中的加亮区以便指示可能的感兴趣区域,其可能地包括在用户将捕获设备悬停在相同区域上方的情况下将隐含地被选择的感兴趣区域;成像文本的干净的新再现的版本,其匹配图像尺度、布局,对捕获设备的当前视野建模等等;基于当前感兴趣区域的可用动作的列表;基于当前感兴趣区域采取单一动作的结果,例如自动地拨打电话号码;使用适合由用户指示为其感兴趣区域的一种或多种信息类型的模板呈现的视听材料;基于感兴趣区域呈现信息显示和/或音频。在一些实例中,感兴趣区域可以由用户隐式或显式指示的一个区域和中心感兴趣区域周围的相继更大的区域(例如词组、从句、行、段落、列、文章、页、期、刊物等等)构成。在一些实例中,系统基于图像中的位置建议主要感兴趣区域,例如捕获设备屏幕的中心,并且该主要感兴趣区域可以通过显式的用户交互或者通过短时间段内靠近相同区域悬停,或者通过用户与屏幕交互,例如通过跨感兴趣区域轻扫手指或者轻拍建议的感兴趣区域内的某处而选择。2. 2 部件
如这里所讨论的,适当的系统或操作环境包括若干不同的部件。例如,系统可以包括一个或多个光学捕获设备或话音捕获设备(例如移动电话和其他多功能移动计算设备、手持式扫描设备等等)。捕获设备使用有线或无线连接或者通过网络与系统的诸如计算机或其他移动设备之类的其他部件通信。网络上的捕获设备、计算机和其他部件可以包括包含计算机可执行指令的存储器,这些可执行指令用于处理接收的从再现的文档和其他来源捕获的数据或信息(例如屏幕或监视器上显示的信息)。图2为在典型操作环境的情况下包含在系统的典型实现方式中的部件的部件图。 如图所示,操作环境包括一个或多个捕获设备216。在一些实例中,捕获设备支持光学捕获或者“音频”拷贝。每个捕获设备能够使用直接的有线或无线连接或者通过网络220与系统的诸如计算机212之类的其他部分通信,该捕获设备可以使用有线或无线连接与所述网络220通信,后者典型地涉及无线基站214。在一些实例中,捕获设备通过蜂窝电信网络(例如GSM或CDMA)与系统的其他部件通信。在一些实例中,捕获设备集成到移动设备中,并且可选地共享该设备中使用的一些音频和/或光学部件以便进行话音通信和拍照。计算机212可以包括包含用于处理来自捕获设备216的命令的计算机可执行指令的存储器。作为一个实例,命令可以包括标识符(例如捕获设备216的序列号或者部分地或唯一地标识捕获设备的用户的标识符)、捕获文本信息(例如捕获时间、捕获位置等等)和/ 或用来唯一地标识从其捕获数据的来源的捕获的信息(例如文本串)。在可替换的实例中, 操作环境可以包括更多或更少的部件。同样在网络220上可用的是搜索引擎232、文档源234、用户帐户服务236、标记服务238和其他网络服务239。网络220可以是企业内联网、公共因特网、移动电话网络或某个其他网络或者以上的任何互连。不管设备和部件彼此耦合的方式如何,它们都可以依照公知的商业交易和通信协议(例如传输控制协议(TCP)、因特网协议(IP))操作。在一些实例中,系统的许多功能和能力可以合并或集成到捕获设备中。在不同的实例中,捕获设备216和计算机212的功能和能力可以全部或部分地集成到一个设备中。因此,术语捕获设备和计算机可以指的是相同的设备,这取决于该设备是否合并了捕获设备216和计算机212的功能或能力。此外,搜索引擎232、文档源234、用户帐户服务236、标记服务238和其他网络服务239的一些或所有功能可以在所述设备和/或未示出的其他设备中的任何一个上实现。2. 3捕获设备
捕获设备可以通过使用捕获来自对象、信息显示和/或再现的文档的图像数据的光学或成像部件或者使用捕获用户对显示的文本的口头朗读的音频记录设备或者其他方法捕获文本。在一些实例中,捕获设备也可以捕获图像、电影、图形符号和图标等等,包括机器可
12读代码,例如条形码、QR码、RFID标签等等,尽管这些通常不需要用来识别文档或执行与文档或捕获的文本关联的动作。在一些情况下,捕获设备也可以捕获设备的环境的图像,包括设备周围的对象的图像。设备可以极其简单,并且依赖于驻留在系统中别处的其他功能而仅仅包括转换器、一些存储装置和数据接口,或者它可以是更全特征的设备,例如智能手机。在一些情况下,设备可以是具有图像和音频捕获和回放能力的移动设备,其在存储器中存储以及运行或执行实现本文描述的一些或所有功能的一个或多个应用程序。捕获设备包括捕获来自再现的文档和其他信息显示的文本、符号、图形等等的捕获元件。该捕获元件可以包括成像部件,例如光学扫描头、照相机、光学传感器等等。在一些实例中,捕获设备是用来扫描来自再现的文档的文本、图形、或符号的便携式扫描仪。该便携式扫描仪包括捕获来自再现的文档的文本、符号、图形等等的扫描元件。 在一些实例中,除了印刷在纸张上的文档之外,再现的文档还包括显示在诸如CRT监视器或LCD显示器之类的屏幕上的文档。图3为示出捕获设备300的一个实例的框图。可以是移动电话和/或其他移动或便携式设备或一组通信设备,包括膝上型计算机、书写板或上网本、人配戴的物品(例如眼镜、衣服、帽子、饰品等等)的捕获设备300可以包括捕获部件310,例如照相机、成像部件、 扫描头、麦克风或其他音频记录器等等。在捕获设备300为移动电话时的情况下,捕获部件 310可以是与电话关联的照相机,例如用在许多商业上可获得的电话中的基于CMOS图像的传感器。在其中捕获设备300为数码相机的情况下,捕获部件310可以包括照相机的反射镜系统、棱镜、透镜和/或取景器。在其他情况下,捕获部件可以是未与电话的照相机集成的单独的部件或附加的部件(未示出),在一些情况下包括非光学部件。捕获设备300也可以包括显示部件320,例如用户接口、触摸屏和/或能够向设备 300的用户显示信息的其他部件。显示的信息可以包括捕获部件310捕获的图像、捕获部件 310视野内的图像、与捕获的信息关联的内容(例如捕获的文档的电子副本或者补充捕获的信息的内容)、加亮或覆盖捕获部件310视野内的内容的记号和其他信息的内容、指示响应于从捕获的信息捕获而执行的动作的选项菜单等等。显示部件320也可以例如通过显示器呈现的用户可选选项接收来自用户的信息。在系统的一些实例中,捕获设备300包括一个或多个能够变换捕获设备300和/ 或其他计算设备和系统的操作的部件。捕获设备300也可以包括检测部件330,其检测何时设备接近可以由设备300捕获的信息。检测部件330可以是捕获部件310的一部分或者与捕获部件310集成在一起(例如标识成像部件捕获的图像内的文本),可以是测量捕获设备 300与该设备周围的对象(文档、告示牌等等)之间的距离的接近度传感器,可以是测量捕获设备300的取向(相对于x、y或ζ轴的倾斜角等等)的取向传感器,等等。本文中描述了关于捕获部件310、显示部件和/或检测部件330之间的交互的另外的细节,包括由这些部件执行的例程。检测部件330也可以包括或接收来自计时部件(未示出)的信息,该计时部件测量捕获设备的特定状态的持续时间。例如,可以是检测部件330的一部分的计时部件可以测量捕获设备300保持与置于桌子上的再现的文档限定的轴平行多长时间,或者可以测量捕获设备300处于距街道标志一定接近度多长时间,等等。捕获设备300也可以包括改变捕获设备300的操作或模式的操作调节部件340。
13在系统的一些实例中,操作调节部件340 (自动地)在接收到捕获设备300接近要捕获的信息的来自检测部件330的指示或信号时将捕获设备300的操作模式从标准模式改变为信息捕获模式(例如文本捕获模式)。此外,操作调节部件可以在接收到捕获设备300不再接近任何信息的来自检测部件330的指示或信号时将捕获设备300的操作模式改回到标准的或先前的操作模式。在一些情况下,操作调节部件340在不改变设备的操作模式的情况下启动应用,例如被配置成为捕获设备300的用户捕获信息并且执行动作的应用。例如,捕获设备300在操作于信息捕获模式下时或者在由操作调节部件340启动的运行应用控制时可以本文描述的一些或所有例程和方法,包括标识与捕获的信息关联的文档和信息、执行与捕获的信息关联的动作(例如购买产品、显示广告、呈现补充信息、更新网络日志等等)。捕获设备300可以通过捕获设备300的存储器内存储的程序执行所述例程和方法中的一些或全部,所述程序例如下载到捕获设备300的程序、集成到捕获设备300 的操作系统中的程序等等。除了本文描述的部件以外,捕获设备300也可以包括其他部件,例如与设备的操作关联的设备操作部件350 (处理部件、存储部件、功率部件、SIM和其他安全部件、诸如键区和按钮之类的输入部件等等)、用于与外部网络和/或其他计算设备通信的通信部件360 (无线电台、GSM/小区部件、SMS/MMS和其他消息发送部件、Bluetooth (蓝牙) 部件、RFID 部件等等)、向设备提供上下文信息的部件370 (GPS和其他地理位置传感器、加速度计和其他运动传感器、取向传感器、温度和其他环境测量部件等等)以及其他部件380,例如向用户提供反馈的音频转换器、外部灯或振动部件和/或用于接收来自用户的输入的按钮、滚轮或触觉传感器,或者将信息传送给用户以及接收来自用户的输入的触摸屏。捕获设备300也可以包括与各种不同的其他部件交互的逻辑部件(未示出),其可能地将接收的信号处理成不同的格式和/或解释。该逻辑部件可以用来读取和写入关联的存储装置(未示出)中存储的数据和程序指令,所述存储装置例如RAM、R0M、闪存或其他适当的存储器。捕获设备300可以在存储器或者诸如计算机可读介质之类的其他存储部件中存储或包含数据格式、例程、算法、脚本等等形式的信息。逻辑部件可以读取来自时钟单元(未示出)的时间信号。在一些实例中,捕获设备可以具有板上电源(未示出)。在其他实例中,可以从诸如通用串行总线(USB)连接之类的到另一个设备的带缆的连接对扫描仪302供电。在一些实例中,捕获设备300可以跨越多个单独的设备分布。2. 3. 1信息感知捕获设备
系统可以包括用于确定捕获设备接近诸如再现的文档之类的信息并且基于该确定改变捕获设备的操作的部件。在一些实例中,捕获设备包括捕获再现的文档或其他信息显示的图像的照相机以及检测距再现的文档或其他信息显示的接近度的接近度部件。该接近度部件可以是或者可以利用照相机内的光学部件,或者可以是独立的部件,例如接近度传感器。系统在确定捕获设备接近信息时可以使得捕获设备将模式改变为感知文本、文档和/ 或其他信息显示(例如显示文本的对象)且与之交互的模式。例如,在文档捕获模式下,系统可以通过捕获设备发起捕获再现的文档或信息显示的图像并且基于这样的捕获执行动作的一个或多个过程。第II部分一系统领域综述随着纸张-数字集成变得更加普遍,存在可以改变成利用该集成或者使得其能够更有效地实现的现有技术的许多方面。本节突出这些问题中的一些问题。3.捭索
搜索文档全集,即使是像万维网这样大的全集,对于使用键盘构造发送到搜索引擎的搜索查询的普通用户而言也已经变得司空见惯了。本节以及接下来的部分讨论来自再现文档的捕获引起的查询的构造以及处理这样的查询的搜索引擎二者的方面。3. 1作为捭索杳询的捕获/说话/键入
所描述的系统的使用典型地以使用包括上面提到的那些方法的若干方法中的任何一种从再现的文档捕获的一些词开始。输入需要某种解释以便将其转换成文本的情况下,例如在OCR或语音输入的情况下,系统中可能存在端到端反馈,使得文档全集可以用来增强识别过程。可以通过执行识别或解释的近似、标识一组一个或多个候选匹配文档并且然后使用来自候选文档中的可能匹配的信息进一步改进或限制所述识别或解释而应用端到端反馈。候选文档可以依照它们的可能的相关性(例如基于捕获了来自这些文档的信息的其他用户的数量或者它们在因特网上的流行性)而进行加权,并且这些权重可以应用于该迭代识别过程。3. 2短词组捭索
由于基于一些词的搜索查询的选择力在这些词的相对位置已知时大大增强,因而只需捕获少量的文本以便系统标识文本在全集中的位置。最常见的是,输入文本将是邻近的词序列,例如短词组。3. 2. 1根据短的捕获寻找文档和文档中的位置
除了定位词组来源的文档之外,系统还可以标识该文档中的位置并且可以基于该知识采取动作。3. 2. 2寻找位置的其他方法
系统也可以采用例如通过使用再现的文档上的水印或其他特殊记号发现文档和位置的其他方法。3. 3将其他因素合并到搜索杳询中
除了捕获的文本之外,其他因素(即关于用户身份、简档和上下文的信息)也可以形成搜索查询的一部分,例如捕获的时间、用户的身份和地理位置、用户习惯和最近活动的知识寸寸。文档标识和与先前的捕获有关的其他信息尤其是在它们相当近期出现的情况下可以形成搜索查询的一部分。用户的身份可以根据与捕获设备关联的唯一标识符和/或生物统计或其他补充信息(语音模式、指纹等等)确定。3. 4搜索杳询中的不可靠性的知识(OCR错误等等)
搜索查询可以通过考虑使用的特定捕获方法中很可能出现的错误类型而构造。它的一个实例是指示特定字符的识别中的可疑错误;在该实例中,搜索引擎可以将这些字符看作通配符或者分配它们较低的优先级。3. 5用于#1行/离线弓丨的本地JI存
有时,捕获设备可能在数据捕获时不与搜索引擎或全集通信。出于这个原因,可以事先将对设备的离线使用有帮助的信息下载到设备,或者下载到设备可以与之通信的某个实体。在一些情况下,可以下载与全集关联的所有或者相当部分的索引。该主题将在第15. 3 节进一步加以讨论。3. 6对侧中1划怖肺施P雕曰独細乍ffl
如果很可能存在与传送查询或接收结果关联的延迟或成本,那么该预加载的信息可以提高本地设备的性能、降低通信成本并且提供有帮助且及时的用户反馈。在其中没有通信可用(本地设备“离线”)的情形中,可以保存查询并且在诸如通信恢复之类的时间将其传输到系统的其余部分。在这些情况下,可能重要的是与每个查询一起传输时间戳。捕获的时间可以是查询的解释中的重要因素。例如,第13. 1节讨论了与早期的捕获有关的捕获时间的重要性。 重要的是注意捕获时间不总是与执行查询的时间相同。3. 7并行捭索
出于性能的原因,可以响应于单次捕获而顺次地或者并行地启动多个查询。若干查询可以响应于单次捕获而发送,例如在将新词添加到捕获时,或者以便并行地查询多个搜索引擎。例如,在一些实例中,系统将对于当前文档的特殊索引的查询发送给本地机器上的搜索引擎,发送给企业网络上的搜索引擎,以及发送给因特网上的远程搜索引擎。与来自其他搜索的结果相比,可以给予特定搜索的结果更高的优先级。对于给定查询的响应可能指示其他待决的查询是多余的;这些查询可以在完成之前取消。4.纸张和搜索引擎
通常,希望处理传统在线查询的搜索引擎处理来源于再现的文档的那些查询。常规的搜索引擎可以以若干方式增强或修改以便使得它们更适合于与所描述的系统一起使用。系统的搜索引擎和/或其他部件可以和维护具有不同的或额外的特征的索引。系统可以修改到来的来源于纸张的查询或者改变搜索结果中处理查询的方式,从而将这些来源于纸张的查询与来自键入网络浏览器的查询和其他来源的那些查询区分开来。并且与来自其他来源的查询相比,系统可以在来源于纸张的搜索返回结果时采取不同的动作或者提供不同的选项。下文中讨论这些方法中的每一种。4. 1 索引
通常,可以使用来源于纸张的或者传统的查询搜索相同的索引,但是可以以各种各样的方式增强索引以用于当前系统中。4. 1. 1关于纸张形式的知识
可以将在基于纸张的搜索的情况下有帮助的额外字段添加到这样的索引。才旨示纸g长形式可用件的索弓Il目
第一实例是已知文档以纸质形式存在或分布的字段。系统可以在查询来自纸张的情况下给予这样的文档较高的优先级。流行纸张形式的知识
在该实例中,涉及纸质文档的流行性(以及可选地涉及这些文档内的子区)的统计数据,例如捕获活动的量、出版者或其他来源提供的流通量等等,用来给予这样的文档较高的优先级,提高数字副本文档的优先级(例如对于基于浏览器的查询或者网络搜索)等等。再现的格式的知识
另一个重要的实例可能是记录关于文档的特定再现的布局的信息。例如,对于特定版本的图书,索引可以包括关于何处出现换行和换页;使用了哪些字体,任何不寻常的大写的信息。索引也可以包括关于页面上诸如图像、文本框、表格和广告之类的其他项的接近度的信息。原件中的语义信息的使用
最后,也可以在索引中记录可以从源标记中推断但是在纸质文档中不明显的语义信息,例如特定文字段引用待售的项目或者特定的段落包含程序代码这一事实。4. 1. 2捕获方法的知识中的索引
可以修改索引的性质的第二因素是很可能使用的部或类型的知识。如果索引考虑到 OCR过程中容易混淆的字符,或者包括文档中使用的字体的一些知识,那么由捕获的文本图像发起的搜索可能受益。例如,在OCR过程中字母“r”之后是字母“η”的序列可能与字母 “m”混淆。因此,串“m”或“rn”在索引中可能与相同的文档集关联。类似地,如果查询来自语音识别,那么可以有效得多地搜索基于相似发声音素的索引。作为另一个实例,系统可以在索引文档之前人为地使文档模糊以便反映用户通过将捕获设备移动到文档上方而捕获文档的图像时很可能出现的模糊。类似的技术可以使得系统对于差的光学器件、噪声等具有弹性。在所描述的模型中可以影响索引的使用的附加因素是识别过程期间迭代反馈的重要性。如果搜索引擎能够在文本被捕获时提供来自文本的反馈,那么它可以大大地增加捕获的精度。使用偏移的索引
在一些实例中,如果很可能使用第9节中描述的基于偏移/自相关OCR方法搜索索引, 那么系统将适当的偏移或签名信息存储到索引中。4. 1. 3 多索引
最后,在所描述的系统中,可能常见的是在许多索引上进行搜索。索引可以在企业网络上的若干机器上维护。部分的索引可以下载到捕获设备或者靠近捕获设备的机器。可以为具有特定兴趣、习惯或许可的用户或用户组创建单独的索引。对于用户硬盘上的每个文件系统、每个目录、甚至每个文件,可以存在索引。索引由用户以及由系统公布和订阅。于是, 重要的是构造可以有效地分布、更新、合并和分开的索引。4. 2处理杳询
4. 2. 1知道捕获来自纸张
搜索引擎在认识到搜索查询来源于纸质文档时可以采取不同的动作。该引擎可以以例如更容忍很可能出现在特定捕获方法中的错误类型的方式处理查询。它可能能够从查询中包含的某个指示符(例如指示捕获性质的标志)推断这点,或者它可以从查询本身推断这点(例如,它可以识别OCR过程的典型错误或不确定性)。可替换地,来自捕获设备的查询可以通过与来自其他来源的通道或端口或连接类型不同的通道或端口或连接类型到达引擎,并且可以以那种方式区分。例如,系统的一些实例将通过专用网关把查询路由到搜索引擎。因此,搜索引擎知道通过专用网关的所有查询来源于纸质文档。4. 2. 2上下文的使用
下面的第13节描述了各种各样的不同因素,其在捕获的文本本身的外部,然而其在标识文档中可能是重要的帮助。这些因素包括诸如最近捕获历史、特定用户的较长期阅读习惯、用户的地理位置以及用户最近对于特定电子文档的使用之类的事情。这样的因素在本文中称为“上下文”。一些上下文可以由搜索引擎本身处理,并且反映在搜索结果中。例如,搜索引擎可以跟踪用户的捕获历史,并且也可以将该捕获历史交叉引用到常规的基于键盘的查询。在这样的情况下,搜索引擎维护且使用比最常规的搜索引擎更多的关于每个个人用户的状态信息,并且与搜索引擎的每个交互可以被认为跨越几次搜索以及比如今典型的情况更长的时间段。一些上下文可以在搜索查询中传输到搜索引擎(第3. 3节),并且可能地可以存储在引擎处以便在未来的查询中起作用。最后,一些上下文最好在别处进行处理,并且因此变成应用到来自搜索引擎的结果的过滤器或二次搜索。输入到捭索的数据流
到搜索过程的一个重要输入是用户社区如何与文档的再现版本交互——例如哪些文档被最广泛地阅读以及由谁阅读的更宽广的上下文。存在与网络搜索的相似性,所述网络搜索返回最频繁链接的页面或者从过去的搜索结果中最频繁地选择的那些页面。对于该主题的进一步的讨论,参见第13. 4和14. 2节。4.2.3文档子区
所描述的系统可以不仅发出和使用关于文档整体的信息,而且发出和使用甚至降至个别词的文档子区。许多现有的搜索引擎简单地集中于定位与特定查询相关的文档或文件。 可以工作于更精细的粒度上并且标识文档内的位置的那些搜索引擎将为所描述的系统提供显著的益处。4.3返回结果
搜索引擎可以使用它现在维护的一些未来信息以便影响返回的结果。系统也可以返回特定的文档,用户仅仅作为拥有纸质拷贝的结果而有权访问所述特定的文档(第7.4节)。搜索引擎也可以超越文本的简单检索而提供适合于所描述的系统的新动作或选项。5.标记、注释、增强、元数据
除了执行捕获-搜索-检索过程之外,所描述的系统也将额外功能与文档关联,尤其是与文档内的文本位置或文本段关联。该额外功能经常(尽管不是排他性地)通过与再现的文档的电子副本关联而与再现的文档关联。作为一个实例,网页中的超级链接在该网页的打印输出被捕获时可能具有相同的功能。在一些情况下,所述功能未在电子文档中限定,而是在别处存储或生成。该层添加的功能在这里称为“标记”。5. 1静态和动态的覆盖
一种考虑标记的方式是看作文档上的“覆盖”,其提供关于文档或者其某个部分的另外
18的信息并且可以规定与文档或者其某个部分关联的动作。标记可以包括人可读的内容,但是经常对于用户不可见和/或预期用于机器使用。实例包括当用户捕获来自再现的文档中的特定区域的文本时在附近显示器上的弹出菜单中显示的选项,或者说明特定词组的发音的音频样本。作为另一个实例,系统可以在用户捕获来自再现的文档的广告时发出叮当声。5. 1. 1可能地来自若干来源的若干层
任何文档可以同时具有多个覆盖,并且这些覆盖可以源自各种位置。标记数据可以由文档的作者或者由用户或者由其他某方创建或提供。标记数据可以附接到电子文档或者嵌入其中。它可以在常规的位置中(例如在与文档相同的位置中,但是具有不同的文件名后缀)找到。标记数据可以包含在定位原始文档的查询的搜索结果中,或者可以通过到相同或另一个搜索引擎的单独的查询而找到。标记数据可以通过使用原始的捕获的文本和其他捕获信息或者上下文信息找到,或者它可以通过使用关于捕获的位置和文档的已经推断的信息找到。即使标记本身不包含于文档中,标记数据也可以在文档中规定的位置找到。标记可以很大程度上是静态的且是文档特有的,类似于传统html网页上的链接经常作为html文档内的静态数据而嵌入的方式,但是标记也可以动态地生成和/或应用到大量的文档。动态标记的一个实例是附接到文档的包括该文档中提到的公司的最新股价的信息。广泛地应用的标记的一个实例是在多个文档或者文档的章节上自动地可用的特定语言的翻译信息。5. 1.2个人“插件”层
用户也可以安装或订阅标记数据的特定来源,从而个人化对于特定捕获的系统响应。5.2关键字和词组、商标和标识
文档中的一些元素基于其自身的特性而不是其在特定文档中的位置而可能具有与它们关联的特定“标记”或功能。实例包括纯粹用于被捕获的目的而印刷在文档中的特殊记号以及可以使用户链接到关于涉及的组织的另外的信息的标识和商标。这同样适用于文本中的“关键字”或“关键词组”。组织可能登记它们所关联的或者它们想要关联的特定词组, 并且将特定标记与其附接,该标记将在该词组被捕获的任何地方可用。任何词、词组等等可以具有关联的标记。例如,无论何时用户捕获词语“图书”或者图书的标题或者与图书有关的主题,系统都可以将特定项目添加到弹出菜单(例如到在线书店的链接)。在系统的一些实例中,数字副本文档或索引被查阅以便确定捕获是否出现在词语“图书”或者图书的标题或者与图书有关的主题的附近,并且系统的行为依照距关键字元素的该接近度而被修改。在前面的实例中,注意,标记使得从非商业文本或文档捕获的数据能够触发商业交易。5.3用户提供的内容
5. 3. 1用户评论和沣释,包括多媒体
注释是可以与文档关联的另一种类型的电子信息。例如,用户可以附接他/她的关于特定文档的看法的音频文件以便以后作为话音注释进行检索。作为多媒体注释的另一个实例,用户可以附接文档中引用的地点的照片。用户通常提供文档的注释,但是系统可以关联来自其他来源的注释(例如,工作组中的其他用户可以共享注释)。5. 3. 2来自校对的笔记源自用户的标记的一个重要的实例是作为校对、编辑或审查过程的一部分的纸质文档的注释。5.4第三方内容
如早先提到的,第三方可以经常例如通过文档的其他读者提供标记数据。在线讨论和审查是良好的实例,正如与特定工作有关的社区管理的信息、自愿者贡献的翻译和解释。第三方标记的另一个实例是由广告者提供的标记。5. 5基于其他用户的数据流的动杰标记
通过分析由系统的几个或所有用户从文档捕获的数据,可以基于社区的活动和兴趣生成标记。一个实例可能是创建标记或注释的在线书店,该标记或注释告诉用户,事实上,“欣赏该书的人也欣赏……”。该标记较少匿名,并且可以告诉用户在他/她的联系人列表中哪些人最近也阅读过该文档。数据流分析的其他实例包含于第14节。5. 6基于外部事件和数据源的标记
标记经常基于外部事件和数据源,例如来自企业数据库的输入、来自公共因特网的信息或者由本地操作系统收集的统计资料。数据源也可以更加是本地的,特别是可以提供关于用户上下文的信息,他/她的身份、位置和活动。例如,系统可以与用户的捕获设备的移动电话部件通信并且提供标记层,该标记层给予用户将文档发送给用户最近在电话上交谈的某个人的选项。5.7图像增强和补偿
在一些实例中,系统通过利用不同显示元件覆盖显示文档的显示器而提供增强的文档视图。该增强的视图可以利用与文档关联的不同显示元件覆盖捕获设备视野内的文档一部分的实时图像,或者可以利用与文档关联的不同显示元件呈现和覆盖由系统获取或生成的文档的图像或者关联的电子版本。在一些实例中,系统提供文档交互技术,其补偿捕获设备的各种不同的硬件配置,例如照相机和其他成像部件相对于显示器或文档中心点的位置、 捕获设备的尺寸和/或捕获设备的显示。系统可以提供文档交互技术,其使得用户能够导航纸质文档、标识与文档关联的标记、缩放纸质文档等等。例如,系统可以响应捕获设备的用户做出的姿态,例如相对于纸质文档在各个不同的方向上移动捕获设备的姿态。因此,系统使得用户能够通过使用多功能移动设备与纸质文档、目标对象和其他信息显示交互,所述多功能移动设备不一定被制造成除其他益处外仅仅与信息交互或者捕获来自设备周围环境的信息。6.认证、个人化和安全性
在许多情形中,将会知道用户的身份。有时,这将是“匿名身份”,其中例如仅仅通过捕获设备的序列号标识用户。然而,典型地,期望的是系统将具有用户的详细得多的知识,其可以用于对系统个人化并且允许以用户的名义执行活动和交易。6. 1用户历史和“生活图书馆”
系统可以执行的最简单然而最有用的功能之一是为用户记录下他/她捕获的文本以及与该捕获有关的任何进一步的信息,包括找到的任何文档的细节、该文档内的位置以及作为结果而采取的任何动作。在一些实例中,系统可以将捕获的信息发送给用户指定的电子邮件地址,其中用户可以通过诸如P0P3、IMAP等等之类的电子邮件协议通过电子邮件客户端访问捕获的信息。此外,存储为电子邮件的捕获的信息可以包括到更全面的生活图书馆体验的链接,例如第16. 1节中所描述的。该存储的历史对于用户和系统二者都是有益的。6. 1. 1对于用户
可以向用户提供“生活图书馆”,即他/她已经阅读和捕获的任何事物的记录。这可能仅仅出于个人的兴趣,但是可能例如在图书馆中由正在收集他的下一篇论文的参考书目材料的学术人员使用。在一些情况下,用户可能希望例如通过以与网络日志类似的方式将图书馆公布到网络上而使得图书馆是公共的,从而其他人可以看见他/她正在阅读且发现有趣的东西。最后,在其中用户捕获某个文本且系统不能立即对该捕获采取动作(例如,因为文档的电子版本尚未可用)的情形中,该捕获可以存储到图书馆中并且可以在以后自动地或者响应于用户请求而加以处理。用户也可以订购新的标记服务并且将它们应用到先前的捕
-M-犾。6. 1. 2对于系统
用户过去捕获的记录对于系统也是有用的。知道用户的阅读习惯和历史可以增强系统操作的许多方面。最简单的实例是,用户做出的任何捕获更可能来自用户在最近的过去从其捕获信息的文档,并且特别是如果先前的捕获在最近的几分钟内,那么它非常可能来自相同的文档。类似地,更加可能的是,以开始至结束的顺序阅读文档。因此,对于英文文档, 同样更加可能的是,以后的捕获将在文档中往下更远处发生。这样的因素可以帮助系统在出现模糊的情况下确立捕获的位置,并且也可以减少需要捕获的文本量。6. 2捕获设备作为支付、身份和认证设备
由于捕获过程通常以某个种类的设备开始,因而该设备可以用作标识用户和授权特定动作的关键。6. 2. 1将捕获设备与用户帐户关联
可以将捕获设备与移动电话帐户关联。例如,可以通过将与移动电话帐户关联的SIM 卡插入捕获设备中而将捕获设备与该帐户关联。类似地,该设备可以嵌入信用卡或者其他支付卡中,或者具有将这样的卡与其连接的系统。因此,所述设备可以用作支付令牌,并且可以通过来自再现的文档的捕获而发起金融交易。6. 2. 2使用捕获以进行认证
也可以通过捕获与特定用户或帐户关联的令牌、符号或文本而将捕获设备与该用户或帐户关联。此外,捕获设备可以例如通过捕获用户的指纹而用于生物统计标识。在基于音频的捕获设备的情况下,系统可以通过匹配用户的话音模式或者通过要求用户说出特定口令或词组而标识该用户。例如,在用户捕获图书的报价并且被提供从网上零售商购买图书的选项的情况下,用户可以选择该选项,并且然后被提示捕获他/她的指纹以确认该交易。还请参见第15. 5和15. 6节。6. 2. 3安全捕获设备
当捕获设备用来标识和认证用户并且代表用户发起交易时,重要的是设备与系统的其他部分之间的通信是安全的。同样重要的是保护诸如另一个设备模仿捕获设备以及其中设备与其他部件之间的通信被拦截的所谓的“中间人”攻击之类的情形。
用于提供这样的安全性的技术在本领域中被很好地理解;在不同的实例中,设备中以及系统别处的硬件和软件被配置成实施这样的技术。7.出版樽型和元件
所描述的系统的一个优点在于,无需改变创建、印刷和出版文档的传统过程以便获得该系统的许多益处。但是,存在文档的创建者或出版者——此后简称为“出版者”——可能希望创建支持所描述的系统的功能的原因。本节主要涉及出版的文档本身。对于关于其他有关商业交易(例如广告)的信息, 参见题为“P-商业”的第10节。7. 1印刷文档的电子同伴
系统允许印刷文档具有关联的电子存在物。常规上,出版者经常与图书一起装运包含另外的数字信息、教程电影和其他多媒体数据、示例代码或文档或者另外的参考材料的 ⑶-ROM。此外,一些出版者维护与特定出版物关联的网站,这些网站提供这样的材料以及可能在出版时间之后更新的信息,例如勘误表、进一步的评论、更新的参考材料、参考书目和相关数据的另外的来源以及到其他语言的翻译。在线论坛允许读者贡献他们的关于该出版物的评论。所描述的系统允许比从前紧密得多地将这样的材料与再现的文档联系在一起,并且允许用户容易得多地发现它们并且与它们交互。通过捕获来自文档的一部分文本,系统可以自动地将用户连接到与文档关联以及更特别地与文档的该特定部分关联的数字材料, 并且在捕获设备上显示这些材料。类似地,用户可以通过捕获设备连接到讨论文本的该部分的网上社区,或者其他读者的注释和评论。在过去,这样的信息典型地需要通过搜索特定页码或章节而找到。其一个示例应用是在学术教科书领域(第17. 5节)。7. 2 “订阅”印刷文档
一些出版者可能具有邮件列表,如果读者希望被通知新的相关事宜或者何时出版图书的新版本,那么他们可以订阅邮件列表。利用所描述的系统,用户可以更容易地登记对于特定文档或者文档部分的兴趣,在一些情况下甚至在出版者考虑提供任何这样的功能之前就可以如此。读者的兴趣可以馈送给出版者,可能地影响他们关于何时以及何地提供更新、进一步的信息、新版本或者甚至有关已经证明在现有的图书中引起人们兴趣的主题的全新出版物的决策。7. 3 H有Φ寺殊含义或者寺殊数据的印刷丨记号
系统的许多方面简单地通过使用已经存在于文档中的文本而启用。然而,如果在知道可以与系统结合使用文档的情况下产生文档,那么可以通过印刷特殊记号的形式的额外信息而添加额外的功能,所述特殊记号可以用来更密切地标识文本或者所需的动作,或者以其他方式增强文档与系统的交互。最简单且最重要的实例是向读者指示肯定可以通过系统访问文档。可以例如使用特殊的图标以便指示该文档具有与其关联的在线论坛。这样的符号可以预期纯粹用于读者,或者它们可以在被捕获且用来发起某个动作时由系统识别。可以在符号中编码足够的数据以便不仅仅标识该符号它也可以存储例如关于文档、版本以及符号的位置的信息,其可以由系统识别和读取。7. 4通过拥有纸质文档而授权
22存在其中拥有印刷文档或者访问印刷文档将给予用户某些特权,例如访问文档的电子拷贝或者附加材料的一些情形。利用所描述的系统,可以仅仅作为用户捕获来自文档的部分文本或者捕获特别印刷的符号的结果而给予这样的特权。在其中系统需要确保用户拥有整个文档的情况下,它可能提示用户从特定页面(例如“第46页第二行”)捕获特定的项目或词组。7. 5到期的文档
如果印刷文档是额外材料和功能的出入口,那么访问这样的特征也可能是时间受限的。在到期日之后,用户可能被要求付费或者获得文档的更新版本以便再次访问所述特征。 当然,纸质文档将仍然是可使用的,但是将丧失它的一些增强的电子功能。这可能是所希望的,例如,因为出版者在收取访问电子材料的费用中或者在不时地要求用户购买新版本中存在利润,或者因为存在与保持流通的过时的印刷文档版本关联的缺点。优惠券是可能具有到期日的商业文档类型的一个实例。7.6流行件分析和出版决策
第10. 5节讨论了使用系统的统计资料以影响作者的补偿和广告的定价。在一些实例中,系统根据与出版物关联的电子社区的活动以及根据纸质文档的使用推断出版物的流行性。这些因素可以帮助出版者对于他们将来出版什么做出决策。如果例如现有图书中的某章被证明极其受欢迎,那么可能值得将其扩展成单独的出版物。8.文档访问服各
所描述的系统的一个重要方面是向有权访问文档的再现拷贝的用户提供对于该文档的电子版本的访问的能力。在一些情况下,文档可在公共网络或者用户有权访问的私人网络上免费获得。系统使用捕获的文本以便标识、定位和获取该文档,在一些情况下在捕获设备上显示它或者将它存放在其电子邮件收件箱中。在一些情况下,文档将以电子形式可用,但是出于各种各样的原因,可能对于用户不可访问。仅仅列出一些可能性来说,可能不存在足够的连接以获取该文档,用户可能无权获取该文档,可能存在与获得该文档关联的成本,或者该文档可能被撤除以及可能地被新版本代替。系统典型地向用户提供关于这些情形的反馈。如第7. 4节中提到的,如果已知特定用户已经有权访问文档的印刷拷贝,那么给予该用户的访问的程度或性质可能不同。8. 1认证的文档访问
对于文档的访问可能限于特定的用户或者满足特定准则的那些用户,或者可能仅在特定的情况下可用,例如在用户连接到安全网络时可用。第6节描述了其中可以建立用户和捕获设备的凭据的一些方式。8. 2文档购买——版权所有者补偿
对于普通公众不可免费获得的文档可能在付费时仍然可访问,通常作为对于出版者或版权所有人的补偿。系统可以直接地实现支付装置或者可以利用与用户关联的其他支付方法,包括第6. 2节中描述的那些方法。8. 3文档托管和主动获取
电子文档经常是短期的;再现的文档的数字源版本可能现在可用但是未来不可访问。 系统可以代表用户获取和存储现有的版本,即使用户没有请求它,从而在用户未来请求它的情况下保证它的可用性。这也使得它对于系统的使用可用,例如用于作为标识未来捕获的过程的一部分的搜索。如果要求支付以访问文档,那么受信任“文档托管”服务可以例如在支付适度费用时代表用户获取文档,保证未来在用户曾经从该服务请求文档的情况下完全补偿版权持有人。如果在捕获时文档不以电子形式可用,那么可以实施该方案的变型。用户可以在电子文档在以后的日期变得可用的情况下授权所述服务代表他/她提交对于文档的请求或者对于文档进行支付。8.4与其他订阅和帐户关联
有时可以基于用户与另一个帐户或订阅的现有关联而放弃、减少或者牺牲支付。例如, 报纸印刷版本的订户可以自动地有权获取电子版本。在其他情况下,该关联可能不会这样直接可以基于其雇主建立的帐户或者基于其对于作为订户的朋友拥有的印刷拷贝的捕获而授权用户访问。8. 5利用捕获并打印代替影印
捕获来自纸质文档的文本、标识电子原件以及打印该原件或者与捕获关联的该原件的某部分的过程形成传统影印的可替换方案,其具有许多优点
纸质文档无需处于与最终打印输出相同的位置,并且在任何情况下都无需同时在那

可以避免影印过程对文档,尤其是对旧的、易碎的和有价值的文档造成的磨损和破

拷贝的质量典型地高得多
可以保持关于最常拷贝哪些文档或者文档的哪些部分的记录 可以作为该过程的一部分对版权所有者做出支付 可以禁止未授权拷贝。8. 6从影印定位有价倌的原件
当像在具有历史或其他特定意义的法律文书或文档的情况下那样,文档特别有价值时,人们典型地可能使用这些文档的拷贝上,经常是使用许多年,而原件保持在安全的位置。所描述的系统可以耦合到记录原始文档例如在存档仓库中的位置的数据库,从而使得有权访问拷贝的某个人容易定位存档的原始纸质文档。9.信息处理技术
光学字符识别(OCR)技术传统上着眼于包含例如来自捕获整个页面的平板扫描仪的大量文本的图像。OCR技术经常需要用户的大量训练和校正以便产生有用的文本。OCR技术经常要求进行OCR的机器具有相当的处理能力,并且虽然许多系统使用字典,通常期望它们工作于实际上无限的词汇之上。所有上面的传统特性在所描述的系统中都可以被改进。然而,本文描述的技术,例如文本的识别、文档的标识、信息的检测以及其他技术,当然可以使用典型的OCR技术来实现。所讨论的许多问题直接映射到其他识别技术,尤其是语音识别。如第3. 1节中提到的,从纸张捕获的过程可以通过用户大声将文本读入捕获音频的设备中而实现。本领域技术人员将理解,本文讨论的关于图像、字体和文本片段的原理经常也适用于音频样本、用户语音模型和音素。与所描述的系统一起使用的捕获设备经常是小的、便携式的且低功率的,或者不被制造成仅仅捕获文本。捕获设备可能具有并非理想地适合于OCR的光学元件,或者可能缺少帮助OCR的光学元件。捕获设备可以一次仅仅捕获一些词,并且在一些实现方式中甚至不一次捕获整个字符,而是通过文本的水平切片,许多这样的切片缝合在一起以形成可以从中推断文本的可识别信号。捕获设备也可以具有非常有限的处理能力或存储量,因而尽管在一些实例中它可以执行所有OCR过程本身,但是许多实例将取决于可能地在以后的时间到更强大的设备的连接,以便将捕获的信号转换成文本。最后,它可以具有用于用户交互的非常有限的装置,因而可能需要将对于用户输入的任何请求推迟到以后,或者在比如今常见的程度更大的程度上工作于“最佳猜测”模式。在一些实例中,系统通过以下方式处理捕获的信息首先标识待识别的感兴趣信息(例如文本或语音)的存在性,提取与感兴趣信息在捕获的信息内的位置相应的特征 (例如词、行、段落、列等等在页面内的位置、人群中特定说话者的频率范围),并且识别感兴趣信息的特性,例如再现的文档内的文本布局或者与再现的文档内识别的字母相应的 Unicode字符的标识,以便例如标识捕获的图像的来源,或者生成和显示捕获的图像上方的标记层。尽管可以对于任何类型的信息执行这些过程,但是下面的实例参照基于文本的再现的文档描述了这些过程。9. 1标识和提取
标识是确定捕获的图像包含文本的可能性的过程。由于捕获设备可以不断地捕获图像,因而系统可以在试图从捕获的信息中提取文本特征或者识别文本之前首先确定捕获的图像是否包含文本。换言之,系统是“文本感知”的,因为在任何时间它可以确定它是否面临文本。一旦系统确定文本存在,那么系统可以开始提取过程。提取过程标识捕获内的文本的位置。例如,提取过程可以生成与捕获的图像内的词和段落相应的边界。若干因素可以进入标识和提取过程。例如,当分析文本时,系统可以标识与文本中的笔划关联的各种不同的特征,例如高对比度边缘的存在、笔划内颜色变化的缺乏(例如比较笔划内背景与前景颜色的存在)、一致的宽度(水平、竖直或者二者)、笔直边缘的存在、平滑边缘曲线的存在,等等。作为另一个实例,系统可以标识捕获的图像内潜在文本的特性 (例如笔划边缘)的周期性或重复,水平和/或竖直笔划、基线、高度线、竖直线与基线之间的角度的存在,字形或字形子成分(例如拐角,曲线,对角线,字形的部分之间的桥接线,例如书法信件中的宽笔划之间的窄笔划,衬线,一致的线帽和斜接等等)的存在。系统也可以使用运动模糊以便基于运动方向上亮暗彩色带(例如极限运动模糊的情况下沿着从左到右的脚本中的水平文本轴的背景和前景条带)的存在来标识文本的存在。文本的标识和提取期间可以考虑的附加因素包括 行
。行内的字形竖直线。行内的字形水平线
。基线
。行内字形或符号的高度 。字形、词和/或笔划之间的水平空间 。行之间的竖直空间 。边缘和边距 密度
。笔划背景之比 。行内和行间的密度 字形序列
。N元文法(N个连续词的序列) 词 大写 标点
句子(大写、标点、周期) 段落 标题 字幕
。基于距图像的接近度 图例
。框、图标等等 图上文字 。短文本
。比背景图像更大的对比度、周期等等 标志
。公司/产品/服务名称 。主要商业标志
。与背景的分界线(例如椭圆形边界)。本领域技术人员将理解,系统在执行文本标识和提取以及处于任何分析水平时可以使用任何或所有上述特征。例如,在标识过程期间,系统可以在依赖于水平空间之间的距离的同时仅仅依赖于水平空间的数量,并且在提取过程期间依赖于捕获的图像内它们与边缘的关系。系统也可以基于例如大区域的平滑梯度、随机性(例如高对比度特定区域的位置、 高对比度边缘的高度、高对比度边缘的不勻性)、捕获的图像内脸、身体或建筑物的存在性、 线或者连通成分的不一致的尺寸等等对非文本信息执行标识和提取。9.2文本识别
基于提取的位置信息,系统可以试图识别捕获的图像内的文本或者文本的特征。例如, 系统可以将文本发送给OCR部件或者基于文本的标识的特征(例如文本内上升字母和/或下行字母的模式)而生成签名。在执行文本识别之前,系统可以通过例如将所有斜体或粗体文本转换成标准的格式而对文本标准化或规格化。文本识别过程可以依赖于若干特征以便识别文本的特性或者生成再现的文档的签名,例如字形特征(例如封闭的空间、竖直和水平笔划等等)、标点、大写、字符空间、行特征、段落特征、列特征、标题特征、字幕特征、关键/图例特征、标志特征、图上文字特征等等。此外,词特征可以帮助文本识别过程,例如词间距和密度。例如,系统可以使用与文档上印刷的词之间的空间关联的信息,例如空间之间的距离(水平的、竖直的、正交的等等)、 空间之间的宽度等等。系统可以进一步将关于换行的知识合并到分析中。例如,当换行已知时,系统可以依赖于词位置的竖直对齐,而当换行未知时,系统可以依赖于邻近的相对词长度序列。作为另一个实例,系统可以使用与字符密度关联的信息,例如字符之间的相对密度(水平的、竖直的、正交的等等)、分组的字符配对之间的相对密度或者绝对密度信息。特定的特征可能对于字体、字体大小等等不变,例如点和线的对称性(例如字形内、点和/或线周围的自相关)。系统可以在捕获的图像内动态地选择分析哪些特征。例如,在村子光学模糊和运动模糊的情况下,系统可以使用文本的较少细节方面,例如相对词宽度。在一些实例中,系统可以通过基于例如字符偏离公共η元文法的确定度、偏离的长度、匹配的规则表示(例如对于电子邮件地址和URL)等等确定未知的或罕见的η元文法是否为噪声或者高信号信息(拼写错误、电子邮件地址、URL等等)而利用唯一的η元文法。系统可以使用再现的文档外部的资源以识别再现的文档内的文本,例如涉及词内的字形的近似数量、字典(例如词频字典)、语法和标点规则、找到全集内的特定词文法和字符文法的概率、匹配不同字符串的规则表示(例如电子邮件地址、URL等等)的知识。此外, 系统可以使用诸如DNS服务器、地址簿和电话簿之类的资源验证识别的文本,例如URL、电子邮件地址和电话号码。作为另一个实例,系统可以使用字体矩阵以帮助识别和验证各种不同的字形。可以基于字体矩阵中反映的未识别的和识别的字符之间的关系将给定字体的未识别的字符与相同字体的识别的字符进行比较以便帮助它们的识别。举例而言,如果字体矩阵表明“d”的表示类似于“C”和“1”的组合,那么未识别的“d”可以基于识别的“C” 和“1”而识别为“d”。系统可以使用识别的文本或特征以便在文档全集的文档之中标识出捕获的图像中描绘的文档。用来标识的信息量和信息类型可以基于任何数量的因素而变化,这些因素例如文档的类型、全集的大小、文档内容等等。例如,捕获的图像内5或6个词的序列或者词之间的空间的相对位置可以在相对较大的全集内唯一地标识相应的文档。在一些实例中,系统可以采用转换表以确定关于特定特征的信息或者属于特定特征的信息的组合将唯一地标识文档的概率。例如,转换表可以指示5个词的词序列与两个不同的3词序列、2连续行的上升字母和/或下行字母模式等等具有相同的唯一地标识文档的概率。在一些实例中,系统可以自动地积累捕获的图像或者将其“缝合”在一起以便例如生成再现的文档的复合图像,该复合图像比单独的捕获的文档更加可能唯一地标识相应的文档。在一些实例中,文本识别过程可以影响信息的捕获。例如,如果文本被识别为离焦或者不完整,那么系统可以调节捕获设备的照相机的焦点或者提示用户重新放置或调节捕获设备。系统可以用来识别文本的各种不同的技术在下文中进一步详细地加以描述。9. 2. 1 “不确定的”OCR
所描述的系统内OCR的主要的新特性在于以下事实它通常将检查存在于别处且可能以数字形式获取的文本的图像。因此,不总是需要来自OCR引擎的确切的文本转写。OCR系统可以输出一组可能的匹配或者可能的匹配的矩阵,在一些情况下包括概率权重,其仍然可以用来搜索数字原件。9. 2. 2迭代OCR——猜测、消除歧义、猜测……
如果执行识别的设备能够在处理时联系文档索引,那么随着OCR过程的继续,可以通过文档全集的内容告知OCR过程,从而潜在地提供大得多的识别精度。这样的连接也将允许设备告知用户何时已经捕获了足够的文本以标识数字源。9. 2. 3使用可能的再现的知识
当系统知道了文档的可能的印刷再现的各方面(例如印刷中使用的字体字样或者页面的布局或者哪些部分为斜体)时,这也可以帮助识别过程(第4. 1. 1节)。9. 2. 4斜本_——确^Tife贿P··卜.圓本
当标识了文档全集中的候选源文本时,可以将字体或者其再现下载到设备以帮助识别。9. 2. 5自相关和字符偏移
尽管文本片段的组成字符可能是代表可以用作文档签名的文本片段的最认可的方式, 但是文本的其他表示可以足够好地起作用,因而当试图定位数字文档和/或数据库内的文本片段时或者当对文本片段的表示消除歧义成可读的形式时,无需使用文本片段的实际文本。文本片段的其他表示可以提供实际文本表示所缺乏的益处。例如,与捕获的文本片段的其他表示不同的是,文本片段的光学字符识别经常容易出错,所述其他表示可以用来搜索和/或重建文本片段而不诉诸对于整个片段进行光学字符识别。这样的方法可能更适合于与当前系统一起使用的一些设备。本领域普通技术人员以及其他人将理解,存在描述文本片段的外观的许多方式。 文本片段的这样的表征可以包括但不限于词长度、相对词长度、字符高度、字符宽度、字符形状、字符频率、令牌频率等等。在一些实例中,匹配文本令牌之间的偏移(即居间令牌的数量加1)用来表征文本片段。常规的OCR使用关于字体、字母结构和形状的知识以便试图确定扫描的文本中的字符。本发明的实例是不同的;它们采用各种各样的方法,这些方法使用再现的文本本身以帮助识别过程。这些方法使用字符(或令牌)“识别彼此”。引用这种自识别的一种方式是 “模板匹配”,并且类似于“卷积”。为了执行这种自识别,系统将文本的拷贝在本身上方水平地滑动,并且记下文本图像的匹配区域。现有的模板匹配和卷积技术包含各种各样的相关技术。令牌化和/或识别字符/令牌的这些技术将统称为“自相关”,因为当匹配字符/令牌时,文本用来与其自身的组成部分相关。当自相关时,匹配的完整的连通区域是令人感兴趣的。这出现在字符(或者字符组)覆盖相同字符(或组)的其他实例时。匹配的完整的连通区域自动地提供将文本令牌化为组成令牌。随着文本的两个拷贝滑过彼此,其中出现理想匹配(即竖直切片中的所有像素匹配)的区域被记下。当字符/令牌与自身匹配时,该匹配的水平范围(例如文本的连通匹配部分)也匹配。注意,无需确定每个令牌的实际身份(即与令牌图像相应的特定字母、数字或符号或者这些的组),仅确定捕获的文本中到相同的令牌的下一次出现的偏移。偏移数是到相同令牌的下一次出现的距离(令牌数)。如果令牌在文本串内是唯一的,那么偏移为零(0)。这样生成的令牌偏移序列是可以用来标识捕获的文本的签名。在一些实例中,将针对捕获的令牌串确定的令牌偏移与索引电子文档全集的索引进行比较,这基于它们的内容的令牌偏移(第4. 1.2节)。在其他实例中,将针对捕获的令牌串确定的令牌偏移转换成文本并且基于它们的内容将其与索引电子文档全集的更常规的索引进行比较。如早先所指出的,当捕获过程包括口头词的音频样本时,类似的令牌相关过程可以应用于语音片段。9. 2. 6字体/字符“自识别”
常规的模板匹配OCR将扫描的图像与字符图像库进行比较。实际上,针对每种字体存储了字母表,并且将新扫描的图像与存储的图像进行比较以便找出匹配字符。该过程通常具有初始的延迟,直到标识了正确的字体。之后,OCR过程相对较快,因为大多数文档通篇使用相同的字体。后续的图像因而可以通过与最近标识的字体库进行比较而转换成文本。最常使用的字体中的字符的形状是相关的。例如,在大多数字体中,字母“C”和字母“e”在视觉上相关,正如“t”和“f”等等。OCR过程通过使用该关系以构造用于尚未扫描的字母的模板而被增强。例如,在读者从纸质文档捕获了先前未遇到的字体的短文本串,因而系统没有将其与捕获的图像进行比较的一组图像模板的情况下,系统可以利用特定字符之间的可能的关系以构造字体模板库,即使它尚未遇到字母表中的所有字母。系统然后可以使用构造的字体模板库以识别后续捕获的文本并且进一步改进构造的字体库。9.2.7 ^^iP^n^m^B(^eaM) tMmmi^
当图像不能机器转写成适合用于搜索过程的形式时,可以保存图像本身以便后来由用户使用、可能的手动转写或者在不同的资源可能对于系统可用的以后日期进行处理。10. P-商业
系统使其可能的许多动作导致一些商业交易发生。词语P-商业在这里用来描述通过系统从纸张发起的商业活动。10. 1来自其物理印刷拷贝的文档销售
当用户捕获来自文档的文本时,用户可能被提供纸质或电子形式的该文档的购买。用户也可能被提供相关的文档,例如在纸质文档中报价的或者以其他方式引用的那些文档, 或者关于相似主题的那些文档,或者相同作者的那些文档。10. 2通过纸张发起或辅助的任何别的东西的销售
可以以各种各样的方式将文本的捕获与其他商业活动相联系。捕获的文本可能在明确地被设计成销售物品的目录中,在该情况下,文本将相当直接地与物品的购买关联(第18. 2 节)。文本也可以是广告的一部分,在这种情况下,可能因而发生被广告的物品的销售。在其他情况下,用户捕获其他文本,从中可以推断他们对于商业交易的潜在兴趣。 例如,特定国家的小说集的读者可能对那里的度假感兴趣。阅读新车评论的某人可能正考虑购买该车。用户可以捕获特定的文本片段,作为结果知道某个商业机会将提供给他们,或者它可以是他们的捕获活动的意外结果。10. 3导致1肖售_勿品上_示签、图标、序歹I罔、条形码的捕获
有时,文本或符号实际印刷在物品或其包装上。一个实例是经常在一件电子装备的背面或底侧的标签上发现的序列号或产品id。系统可以通过捕获该文本向用户提供购买一个或多个相同物品的方便方式。他们也可以被提供手册、支持或维修服务。10.4上下文广告
除了直接捕获来自广告的文本之外,系统也允许一种新的广告,其不一定明确地在再现的文档中,但是基于人们正在阅读的东西。10. 4. 1基于捕获上下文和历Φ的广告
在传统的纸质出版物中,广告通常相对于报纸文章的文字消耗大量的空间,并且有限数量的广告可以置于特定文章周围。在所描述的系统中,可以将广告与个别的词或词组关联,并且可以依照用户通过捕获该文本而表现出的特定兴趣以及可能地考虑其捕获历史而选择广告。利用所描述的系统,有可能将购买与特定的印刷文档相联系并且广告者得到明显更多的关于其在特定印刷出版物中的广告的效果的反馈。10. 4. 2基于用户上下文和历Φ的广告
系统可以搜集大量的关于用户的上下文的其他方面的信息以供自身使用(参见第13 节);估计用户的地理位置是良好的实例。这样的数据也可以用来定制呈现给系统的用户的广告ο10. 5补偿樽型
系统允许为广告者和营销者实现某些新补偿模型。包含广告的印刷文档的出版者可以从来源于他们的文档的购买接收一定收益。这可能是真实的,不管广告是否以原始的印刷形式存在;它可能由出版者、广告者或者某个第三方电子地添加,并且这种广告的来源可能已通过用户订阅。10. 5. 1基于流行性的补偿
系统生成的统计资料的分析可以揭示出版物的特定部分的流行性(第14. 2节)。例如, 在报纸中,它可以揭示读者花在浏览特定页面或文章的时间量或者特定专栏作家的受欢迎程度。在一些情况下,对于作者或出版者可能合适的是基于读者的活动而不是基于诸如写出的词或分发的拷贝数之类的更传统的度量接偿。其作品变成一定主题的经常阅读的权威著作的作者应当在未来的合同中与其图书销售了相同的拷贝数但是很少被打开的作者不同地加以考虑。10. 5. 2基于流行性的广告
关于文档中的广告的决策也可以基于有关读者人数的统计资料。最受欢迎的专栏作家周围的广告空间可以溢价率出售。甚至可以在文档出版之后一段时间基于关于它如何被接收的知识向广告者收费或者对其补偿。10.6基于生活图书馆的营销
第6. 1和16. 1节中描述的“生活图书馆”或捕获历史可以是关于用户的兴趣和习惯的极其有价值的信息源。经过适当的同意和隐私问题,这样的数据可以告知用户商品或服务的提供。甚至在匿名的形式下,收集的统计资料也可能是极其有用的。10.7以后日期的销售/信息(当可用时)
商业交易的广告和其他机会可能不在捕获时立即呈现给用户。例如,购买小说结局的机会可能在用户阅读小说的时候不可获得,但是系统可以在结局出版时向他们呈现该机
30会用户可以捕获与购买或其他商业交易有关的数据,但是可以在做出捕获的时候选择不发起和/或完成该交易。在一些实例中,与捕获有关的数据存储在用户的生活图书馆中,并且这些生活图书馆条目可以保持“激活”(即能够进行随后的交互,类似于做出捕获的时候可用的交互)。因此,用户可以在某个稍后的时间审查捕获,并且可选地完成基于该捕获的交易。由于系统可以跟踪何时和何处发生原始的捕获,因而可以适当地补偿交易中涉及的所有方。例如,当六个月后用户访问他们的生活图书馆,从历史中选择该特定捕获,并且从弹出菜单(其可以与在捕获的时候可选地呈现的菜单相似或相同)中选择“在亚马逊购买该物品”时,可以对写下出现在用户从其捕获数据的广告的近旁的故事的作者以及出版该故事的出版者进行补偿。11.操作系统和应用集成
现代操作系统(OS)和其他软件包具有许多特性,这些特性可以有利地利用以便与所描述的系统一起使用,并且这些特性也可以以不同的方式加以修改以提供甚至更好的平台以供其使用。11. 1漏__港·、辅至丨隨概
新的和即将来临的文件系统及其关联的数据库经常具有存储与每个文件关联的各种各样的元数据的能力。传统上,该元数据包括了诸如创建文件的用户的ID、创建日期、最近的修改和最近的使用之类的东西。更新的文件系统允许存储诸如关键字、图像特性、文档源和用户评论之类的额外信息,并且在一些系统中,该元数据可以任意地扩展。因此,文件系统可以用来存储将在实现当前系统中有用的信息。例如,文件系统可以存储给定文档最近被印刷的日期,正如可以存储关于使用所描述的系统从纸张捕获了来自它的哪个文本以及何时捕获和由谁捕获的细节。操作系统也开始合并允许用户更容易地找到本地文件的搜索引擎装置。这些装置可以由系统有利地加以使用。这意味着第3和4节讨论的许多搜索相关概念不仅仅适用于基于因特网的和类似的搜索引擎,而且也适用于每个个人计算机。在一些情况下,特定的软件应用也将包括对于上述以及OS提供的装置之外的系统的支持。11. 2对于捕获设备的OS支持
随着诸如移动通信设备之类的具有集成的照相机和麦克风的捕获设备的使用变得日益普遍,可能希望的是以与对于鼠标和打印机提供支持的大致相同的方式将对于它们的支持嵌入到操作系统中,因为捕获设备的适用性超出单个软件应用之外。这对于系统操作的其他方面同样是真实的。下面讨论了一些实例。在一些实例中,整个描述的系统或者其核心由 OS(例如 Windows、Windows mobile、Linux、Max OS X、iPhone OS、Android 或者 Symbian) 提供。在一些实例中,对于系统的支持由可以被其他软件包使用的应用编程接口(API)提供,所述软件包包括直接实现所述系统的各方面的那些软件包。11.2. 1对于OCR和其他识别技术的支持
大多数捕获来自再现的文档的文本的方法要求某个识别软件将源数据,典型地为捕获的图像或一些说出的词解释为适合用于系统中的文本。一些OS包括对于语音或手写识别的支持,尽管OS包括对于OCR的支持是不常见的,因为在过去OCR的使用典型地限于小范
31围的应用。由于识别部件变成OS的一部分,它们可以更好地利用OS提供的其他装置。许多系统包括例如拼写字典、语法分析工具、国际化和本地化装置,所有这些可以由所描述的系统有利地用于其识别过程,这特别地因为它们可能已经为特定用户定制以包括他/她常常遇到的词和词组。如果操作系统包括全文本索引装置,那么这些装置也可以用来如第9. 3节中所描述的告知识别过程。11.2.2捕获时采取的动作
如果捕获发生并且提供给0S,那么它可以具有在没有其他子系统声明拥有该捕获的那些情况下采取的缺省动作。缺省动作的一个实例是向用户呈现可替换方案的选择,或者将捕获的数据提交到OS的嵌入式搜索装置。11.2.3 OS肺■躺射当$射当__辭M乍
如果找到再现的文档的数字源,那么OS可以具有其在该特定文档或者该类别的文档被捕获时将采取的标准动作。应用和其他子系统可以以应用宣告其处理特定文件类型的类似方式向OS注册为特定捕获类型的潜在句柄。与再现的文档或者与来自文档的捕获关联的标记数据可以包括给操作系统的启动特定应用、传递应用变量、参数或数据等的指令。11.2.4解释姿杰目.映射成标准动作
在第12. 1.3节中,讨论了“姿态”的使用,其中利用捕获设备做出的特定运动可能代表标准的动作,例如标记文本区域的开始和结束。这类似于这样的动作在使用光标键选择文本区域的同时按压键盘上的shift 键,或者使用鼠标上的滚轮滚动文档。用户的这样的动作是充分标准的,使得它们由捕获设备的OS以系统范围的方式解释,从而确保一致的行为。对于其他的捕获设备相关动作,希望同样如此。11.2.5设置对于标准(和非标准)图标/文本印刷菜单项目的响应
按照相似的方式,特定的文本项或者其他符号项在被捕获时使得标准动作发生,并且 OS可以提供对于这些的选择。一个实例可能是,捕获任何文档中的文本“[打印]”将使得 OS获取并且打印该文档的拷贝。OS也可以提供登记这样的动作并且将其与特定捕获关联的方式。11. 3系统S形用户界g部件寸于捕获发走朗舌云力的支措大多数软件应用基本上基于OS提供的标准图形用户界面(GUI)部件。开发者使用这些部件有助于确保跨多个软件包的一致的行为,例如在任何文本编辑上下文中按压左光标键应当将光标移到左边,而无需每个编程者独立地实现相同的功能。当通过文本捕获或者所描述的系统的其他方面发起活动时,这些部件中的类似一致性是所希望的。下面给出了一些实例。11.3. 1找到特定文本内容的接口
系统的典型用途可能是供用户捕获纸质文档的区域,以及供系统在能够显示或编辑它的软件包中打开电子副本,并且使得该包滚动到且加亮扫描的文本(第12. 2. 1节)。这个过程的第一部分,即找到且打开电子文档,典型地由OS提供并且跨各软件包是标准的。然而, 第二部分——在文档内定位一段特定文本并且使得包滚动到它且加亮它——尚未标准化, 并且经常由每个包不同地实现。用于该功能的标准API的可用性可以大大地增强系统这个方面的操作。11.3.2文本交互
一旦在文档内定位了一段文本,那么系统可能希望对该文本执行各种各样的操作。作为一个实例,系统可以请求周围的文本,从而用户对于一些词的捕获可能导致系统访问包含它们的整个句子或段落。同样地,该功能可以有效地由OS提供,而不是在处理文本的每个软件中实现。11.3.3上下文(弹出)菜单
系统启用的一些操作将需要用户反馈,并且这最佳地在处理数据的应用的上下文中请求。在一些实例中,系统使用传统上与在某个文本上点击右鼠标按钮关联的应用弹出菜单。 系统将额外选项插入这样的菜单中,并且使得它们作为诸如捕获纸质文档的一部分之类的活动的结果而显示。11. 4网络/网络接口
在今天越来越多地联网的世界中,大多数单个机器上可用的功能也可以通过网络访问,并且与所描述的系统关联的功能也不例外。作为一个实例,在办公室环境中,用户接收的许多纸质文档可以由相同企业网络上其他用户的机器打印。受适当的权限控制,一台计算机上的系统响应于捕获而可能能够向其他机器查询可能与该捕获相应的文档。11.5文档的打印造成保存
纸质和数字文档的集成中一个重要的因素是维护尽可能多的关于这二者之间的转变的信息。在一些实例中,OS保持任何文档何时被打印以及由谁打印的简单记录。在一些实例中,OS采取一个或多个另外的动作,这将使得其更适合于与所述系统一起使用。实例包括
与关于从其打印每个文档的来源的信息一起保存打印的每个文档的数字再现版本 保存关于打印版本的有用信息的子集,例如使用的字体以及何处出现换行,这可以帮助未来的捕获解释
保存与任何打印的拷贝关联的源文档的版本 在打印和存储结果以供将来搜索的时候自动地索引文档。11. 6我的(打印的/捕获的)文档
OS经常维护具有特别的意义的特定文件夹或文件类别。按照惯例或设计,可以例如在 “我的文档”文件夹中找到用户的文档。标准的文件打开对话框可以自动地包括最近打开的文档的列表。在为了与所描述的系统一起使用而优化的OS上,这样的类别可以以考虑用户与存储的文件的纸质版本交互的方式而被增强或扩充。诸如“我的打印的文档”或“我的最近阅读的文档”之类的类别可能有效地被标识且合并到其操作中。11.7 OS级标记层次结构
由于系统的重要方面典型地通过使用第5节中讨论的“标记”概念而提供,因而显然有利的将是以对于多个应用以及对于OS本身可访问的方式具有对于OS提供的这种标记的支持。此外,标记层可以基于OS自身的在其控制下的文档以及其能够提供的装置的知识而由 OS提供。11.8 OS DRM装置的使用
越来越多数量的操作系统支持某种形式的“数字版权管理”依照授予特定用户、软件实体或机器的权利控制特定数据的使用的能力。它可以阻止例如特定文档的未授权拷贝或分发。12.用户接口
系统的用户接口可以完全在捕获设备上,如果它是复杂的且具有其自身的重大的处理能力的话,例如移动电话或PDA,或者完全在PC上,如果捕获设备相对 且通过电缆连接到 PC的话。在一些情况下,一些功能驻留在每个部件中。因此,以下章节中的描述是特定实现方式中可能期望什么的指示,但是它们不一定适合于一切并且可以以若干方式进行修改。12. 1在捕获设备上
对于大多数捕获设备,用户的注意力在捕获的时候通常会在设备和纸张上。于是,非常希望的是,需要作为捕获过程的一部分的任何输入和反馈都不需要用户的注意力过多地处于别处,例如计算机的屏幕上。12. 1. 1捕获设备的反馈
捕获设备可以具有向用户提供关于特定状况的反馈的各种各样的方式。最明显的类型是直接的视觉,其中捕获设备合并捕获的图像的完全显示或者指示灯,以及听觉,其中捕获设备可以发出蜂鸣声、点击或其他声音。重要的可替换方案包括触觉反馈,其中捕获设备可以振动、嗡嗡作响或者以其他方式刺激用户的触觉,以及投影反馈,其中它通过将从彩色光斑到复杂显示的任何东西投影到纸张上来指示状态。可以在捕获设备上提供的重要的即时反馈包括
关于捕获过程的反馈——用户移动捕获设备太快、以太大的角度移动或者漂移太高或太低
充分的内容——已经捕获足够以便相当确定找到匹配(如果存在的话)——这对于断开的操作是重要的
上下文已知——已经定位了文本的来源
唯一上下文已知——已经定位了文本的一个唯一来源
内容可用性——内容是否可为用户免费获得或者以一定成本获得的指示。如果捕获设备具有例如显示文档的一部分或全部的足够能力的话,通常与系统的后期阶段关联的许多用户交互也可以在捕获设备上发生。12. 1. 2捕获设备上的控件
捕获设备可以提供各种各样的方式以供用户提供除了基本的文本捕获之外的输入,例如按钮、滚轮/轻推轮、触敏表面,和/或用于检测设备的运动的加速度计。这些输入中的一些允许在仍然拿着捕获设备的同时实现一组更丰富的交互。例如,响应于捕获某个文本,捕获设备向用户呈现一组若干可能的匹配文档。用户使用捕获设备的触敏表面从列表中选择一个。12. 1. 3 姿态跨纸张移动捕获设备的主要原因是捕获文本,但是一些运动可能被设备检测并且用来指示其他的用户交互。这样的运动在这里称为“姿态”。作为一个实例,用户可以通过在从左至右的运动中捕获头几个词并且在从右至左的运动中捕获最后几个词来指示大的文本区域。用户也可以通过沿着页面越过若干行移动捕获设备来指示文本的竖直范围。捕获期间的后向运动可以指示取消先前的捕获操作。12. 1. 4在线/离线行为
系统的许多方面可能取决于诸如捕获设备之类的系统部件与无线网络之间的网络连接性,或者到企业数据库和因特网搜索的连接形式的与外部世界的网络连接性。然而,该连接性可能不是一直存在,因而会存在系统的一部分或全部可能被认为“离线”时的场合。在这些情况下,希望的是允许系统继续有效地起作用。当捕获设备与系统的其他部分失去联系时,捕获设备可以用来捕获文本。非常简单的设备可能仅仅能够存储与捕获关联,理想地与指示其何时被捕获的时间戳关联的图像或音频数据。各个不同的捕获可以在捕获设备接下来与系统接触时上传到系统的其余部分并且然后进行处理。捕获设备也可以上传与捕获关联的其他数据,例如话音注释或位置信肩、ο更复杂的设备可能能够本身执行一些或所有系统操作,而不管其被断开。第15. 3 节讨论了用于提高它们这样做的能力的各种不同的技术。通常,情况将会是一些而不是所有希望的动作可以在离线的同时执行。例如,可以识别文本,但是来源的标识可能取决于到基于因特网的搜索引擎的连接。因此,在一些实例中,设备存储充分的关于每个操作进展多远的信息以便在连接恢复时系统的其余部分有效地继续。系统的操作通常将受益于立即可用的连接,但是存在其中执行若干捕获并且然后执行它们作为批处理可能具有优势的一些情形。例如,如下面的第13节中所讨论的,特定捕获的来源的标识可以通过检查用户在近似相同的时间做出的其他捕获而大大地增强。在其中向用户提供实时反馈的系统中,系统在处理当前的捕获时仅仅能够使用过去的捕获。 然而,如果捕获是设备离线时存储的批处理之一,那么系统在进行其分析时将能够考虑可从后来的捕获以及早先的捕获获得的任何数据。12. 2在主机设备上
捕获设备可以与诸如PC之类的某个其他设备通信以便执行系统的许多功能,包括与用户的更详细的交互。12. 2. 1响应于捕获而执行的活动
当主机设备接收捕获时,它可以发起各种各样的活动。系统在定位与捕获关联的电子副本文档和该文档内的位置之后执行的可能的活动的不完整列表如下。·可以将捕获的细节存储到用户的历史中。(第6.1节) 可以从本地存储装置或远程位置获取文档。(第8节)
可以更新与文档关联的操作系统元数据和其他记录。(第11. 1节) 可以检查与文档关联的标记以便确定接下来的相关操作。(第5节) 可以启动软件应用以编辑、查看或者以其他方式对文档操作。应用的选择可以取决于源文档或者取决于捕获的内容或者取决于捕获的其他方面。(第U. 2. 2,11. 2. 3节) 应用可以滚动到、加亮、移动插入点到或者以其他方式指示捕获的位置。(第11. 3节) 可以修改捕获的文本的精确界限,以便例如选择捕获的文本周围的全部词、句子或段落。(第11. 3. 2节)
可以给予用户将捕获文本拷贝到剪贴板或者对其执行其他标准操作系统或专用操作的选项。
可以将注释与文档或捕获的文本关联。这些注释可以来自即时用户输入,或者例如在与捕获的图像关联的话音注释的情况下可以在早期被捕获。(第19. 4节) 可以检查标记以便确定供用户选择的一组另外的可能的操作。12. 2. 2上下文弹出菜单
有时系统采取的适当动作将是明显的,但是有时它将要求用户做出选择。这样做的一种良好的方式是通过使用靠近捕获设备的显示器上的内容出现的“弹出菜单”或者所谓的 “上下文菜单”。(参见第11. 3.3节)。在一些实例中,捕获设备将弹出菜单投影到纸质文档上。用户可以使用诸如键盘和鼠标之类的传统方法,或者通过使用捕获设备上的控件(第 12. 1.2节),或者通过使用捕获设备与计算机显示器交互(第12. 2. 4节)而从这样的菜单中进行选择。在一些实例中,可以作为捕获的结果出现的弹出菜单包括缺省项,这些缺省项代表在用户不响应的情况下——例如,在用户忽略菜单并且做出另一捕获的情况下出现的动作。12. 2. 3消除歧义的反馈
当用户开始捕获文本时,起初将存在它可以匹配的若干文档或其他文本位置。随着更多的文本被捕获,并且考虑了其他因素(第13节),候选位置的数量将减少,直到实际的位置被标识,进一步的消除歧义在没有用户输入的情况下不可能。在一些实例中,系统例如以列表、缩略像或文本段形式提供找到的文档或位置的实时显示,并且对于该显示中的元素数量,随着捕获的继续而减少数量。在一些实例中,系统显示所有候选文档的缩略图,其中缩略图的大小或位置取决于它为正确的匹配的概率。当明确地标识捕获时,可以例如使用音频反馈向用户强调这个事实。有时,捕获的文本将出现在许多文档中并且将被识别为引文。系统可以例如通过将包含引用的参考文献的文档分组在原始源文档周围而在屏幕上表明这点。12. 2. 4从屏幕捕获
一些捕获设备可能能够捕获屏幕以及纸张上显示的文本。因此,术语再现的文档在这里用来指示印刷到纸张上不是再现的唯一形式,并且供系统使用的文本或符号的捕获在该文本显示在电子显示器上时同样可以是有价值的。出于各种各样的其他原因,所描述的系统的用户可能需要与计算机屏幕交互,以便从选项列表中进行选择。其他的章节描述了作为输入方法的捕获设备上的物理控件(第 12. 1. 2节)或姿态(第12. 1. 3节),其可能甚至在捕获信息时是方便的,形成与可替换输入方法关联的显示设备,例如键盘或鼠标。在一些实例中,捕获设备可以在无需处理捕获的文本的情况下、可能地通过计算机上的专用硬件或软件感测它在屏幕上的位置。13.上下文解释
所描述的系统的一个重要方面是除了文本串的简单捕获之外使用其他的因素以便帮助标识使用的文档。适度文本量的捕获经常可以唯一地标识文档,但是在许多情形下,它将标识一些候选文档。一种解决方案是提示用户确认捕获的信息的来源,但是一个优选的可替换方案是利用其他因素以自动地缩小可能性。这样的补充信息可以急剧地减少需要捕获的文本量和/或增大可以标识电子副本中的位置的可靠性和速度。该额外的材料称为“上下文”,并且它在第4. 2. 2节中进行了简要的讨论。我们现在更深入地考虑它。13. 1系统和捕获上下文
也许,这种信息的最重要的实例是用户的捕获历史。非常可能的是,任何给定的捕获来自与先前的捕获相同的文档,或者来自关联的文档,在先前的捕获发生在最近几分钟内的情况下,尤其如此(第6. 1.2节)。相反地,如果系统检测到字体在两个捕获之间发生变化,那么更加可能的是它们来自不同的文档。同样有用的是用户的较长期捕获历史和阅读习惯。这些也可以用来开发用户的兴趣和关联模型。13. 2用户的真实世界上下文
有用的上下文的另一个实例是用户的地理位置。例如,巴黎的用户阅读世界报比阅读西雅图时报更加可能得多。因此,文档的印刷版本的时机、规模和地理分布可能是重要的, 并且可以在一定程度上从系统的操作中推断出来。例如在上班的路上总是阅读一种类型的出版物并且在午餐时间或者在回家的火车上阅读不同类型的出版物的用户的情况下,日时也可能是有意义的。13. 3相关的数字上下文
用户最近对于电子文档,包括通过更常规的手段搜索或获取的那些文档的使用也可以是有帮助的指示符。在一些情况下,例如在企业网络上,可以有效地考虑其他的因素 最近打印了哪些文档?
企业文件服务器上最近修改了哪些文档? 最近通过电子邮件发送了哪些文档?
所有这些实例或许暗示用户更可能正在阅读这些文档的纸质版本。与之形成对照的是,如果文档驻留的仓库可以肯定文档从来未被打印或者发送到它可能被打印的任何地方,那么可以在来源于纸张的任何搜索中安全地消除该文档。13. 4其他统计资料——全局上下文
第14节涵盖了由基于纸张的搜索而得到的数据流分析,但是应当指出的是,在这里, 关于文档在其他读者中的流行性、关于该流行性的时机以及关于最频繁地捕获的文档部分的统计资料都是可能在搜索过程中有益的另外的因素的实例。系统将谷歌式网页排名的可能性带到纸张世界。对于上下文用于搜索引擎的某些其他含义,也参见第4. 2. 2节。14.数据流分析
系统的使用作为副作用生成极其有价值的数据流。该流是用户正在阅读什么以及何时阅读的记录,并且在许多情况下是他们在他们阅读的东西中发现什么特别有价值的记录。 这样的数据之前对于纸质文档从来未真正可用。第6. 1节中描述了其中该数据可能对于系统以及对于系统的用户有用的一些方式。本节集中于其用于其他方面。当然,对于关于人们正在阅读什么的数据的任何分发存在大量的隐私问题,但是诸如保留数据的匿名之类的问题对于本领域技术人员是公知的。14. 1文档跟踪
当系统知道任何给定用户正在阅读哪些文档时,它也可以推断谁正在阅读任何给定文档。这允许通过组织跟踪文档,允许分析例如谁正在阅读它以及何时正在阅读、它有多广泛地分布、该分布花费多长时间以及谁在他人仍然使用过时的拷贝的时候已经看见当前的版本。对于具有广泛分布的出版的文档而言,跟踪各个拷贝更加困难,但是分析读者人数分布仍然是可能的。14. 2阅读排名——文档和子区的流行件
在其中用户捕获他们特别感兴趣的文本或其他数据的情形中,系统可以推断特定文档以及那些文档的特定子区的流行性。这形成到系统本身的有价值的输入(第4. 2. 2节)以及用于作者、出版者和广告者的重要信息源(第7. 6节、第10. 5节)。该数据在集成到搜索引擎和搜索索引中时也是有用的,例如以便帮助对来自再现的文档的查询的搜索结果进行排名,和/或帮助对键入网络浏览器中的常规查询进行排名。14. 3用户分析——津立简档
用户正在阅读什么的知识使得系统能够创建用户的兴趣和活动的相当详细的模型。这在抽象统计的基础上可能是有用的——“购买该报纸的用户的35%也阅读该作者的最近图书”——但是如下面所讨论的,它也可以允许与个别用户的其他交互。14. 3. 1社交网络
一个实例是将一个用户与具有相关兴趣的其他人连接。这些人可以是该用户已经熟悉的人。系统可以询问大学教授,“您知道您在MZ大学的同事也刚刚阅读了这篇论文吗?” 系统可以询问用户,“您想要与您的邻居中也在阅读《简爱》的其他人联系吗? ”这样的联系可以是实体世界或在线的图书俱乐部和类似社会结构的自动形成的基础。14. 3. 2
第10. 6节已经提到了基于用户与系统的交互向个别用户提供产品和服务的思想。当前的网上书商例如经常基于用户先前与书商的交互而向用户做出推荐。这样的推荐在它们基于与实际图书的交互时变得有用得多。14. 4基于数据流其他方面的营销
我们已经讨论了这样的一些方式,其中系统可以影响出版文档的那些方式、通过它们广告的那些方式以及从纸张发起的其他销售(第10节)。一些商业活动可能与纸质文档根本没有直接的交互,然而可能受它们影响。例如,一个社区中的人们在报纸的体育运动部分方面比在金融部分方面花费更多的时间的知识可能是成立健康俱乐部的某个人所感兴趣的。14. 5可以被捕获的数据类型
除了讨论的统计资料(例如谁正在阅读哪些文档的哪些位以及何时和何处阅读)之外, 可能有意义的是检查被捕获的文本的实际内容,不管文档是否被定位。在许多情形下,用户也将不仅捕获某个文本,而且作为结果将使得某个动作发生。 它可能是例如将对于文档的引用通过电子邮件发送给熟人。甚至在不存在关于用户的身份或者电子邮件的接收者的信息的情况下,某人认为该文档值得通过电子邮件发送的知识也是非常有用的。
除了针对推断特定文档或者一段文本的价值所讨论的不同方法之外,在一些情况下,用户将通过给其分配一个等级而明确表明该价值。最后,当已知一组特定的用户形成一个群组时,例如当已知他们是特定公司的雇员时,该群组的汇总统计资料可以用来推断特定文档对于该群组的重要性。这适用于通过机器分类技术基于关于文档、捕获、用户等等而标识的群组,所述机器分类计数例如贝叶斯统计、聚类、k最近邻(k-NN)、奇异值分解(SVD )等等。15.设备特征和功能
在一些实例中,捕获设备可以与移动电话集成,其中电话硬件未被修改以便支持所述系统,例如其中文本捕获可以通过图像捕获而充分地完成并且由电话本身处理,或者由通过例如无线网络连接或蜂窝连接而可被移动电话访问的系统处理,或者存储到电话的存储器中以便未来处理。许多现代的电话具有下载适合于实现系统的某些部分的软件的能力。 在一些实例中,嵌入到许多移动电话中的照相机用来捕获文本的图像。通常充当照相机的测距仪的电话显示器可以覆盖在关于图像质量及其对于OCR的适用性、哪些文本段正被捕获以及甚至在OCR可以在电话上执行的情况下文本的转写的实时照相机图像信息上。电话显示器也可以提供接口,用户可以通过该接口与捕获的文本交互并且引起关联的动作。类似地,话音数据可以由移动电话的麦克风捕获。然而,这样的话音捕获在许多情形下(例如在存在大量的背景噪声时)很可能是次优的,并且精确的话音识别在最佳的时候也是困难的任务。音频装置可以最好用来捕获话音注释。在一些实例中,修改电话以添加专用的捕获装置,或者在与电话通信的单独的蓝牙 连接外设或夹式适配器中提供这样的功能。无论捕获机制的性质如何,系统与现代手机集成具有许多其他优点。电话与更广阔的世界连接,这意味着可以将查询提交给远程搜索引擎或者系统的其他部分,并且可以获取文档的拷贝以便立即存储或查看。电话典型地具有足够的处理能力以便本地地执行系统的许多功能,以及足够的存储量以便捕获合理的数据量。存储量经常也可以由用户扩展。电话具有相当好的显示器和音频装置以便提供用户反馈,并且经常具有用于触觉反馈的振动功能。它们也具有良好的电源。也许,明显的是,许多预期的用户已经携带着移动电话。与系统一起使用的捕获设备仅仅需要一种捕获来自文档的再现版本的文本的方式。如早先所描述的,该捕获可以通过各种各样的方法来实现,这些方法包括对文档的部分拍照或者将一些词键入键区中。该捕获可以使用具有图像和音频捕获能力或者也记录话音注释的光学扫描仪来实现。15. 1输入和输出
第12. 1节描述了用于这种设备的许多可能有益的附加输入和输出装置。它们包括按钮、滚轮和用于输入的触摸板以及显示器、指示灯、用于输出的音频和触觉转换器。有时,设备将合并这些装置中的许多装置,有时则合并非常少的装置。有时,捕获设备能够例如使用无线链接与已经具有它们的另一设备通信(第15. 6节),有时,捕获功能将合并到这样的其他设备中(第15.7节)。15. 2 连接性
在一些实例中,设备实现系统本身的主要部分。然而,在一些实例中,它经常使用通信装置与PC或其他计算设备以及与更广阔的世界通信。
这些通信装置经常处于通用数据网络(例如以太网、802. 11或UWB)或者标准外设连接网络(例如USB、IEEE-1394 (火线)、蓝牙 或红外)的形式。当使用诸如火线或USB之类的有线连接时,设备可以通过相同的连接接收电力。在一些情况下,捕获设备可能在连接的机器看来为诸如USB存储设备之类的常规外设。最后,在一些情况下,设备可以与另一设备“对接”,或者与该设备一道使用或者用于方便的存储。15. 3缓存和其他在线/离线功能
第3. 5节和第12. 1. 4节提出了断开操作的话题。当捕获设备具有整个系统的功能的有限子集并且不与系统其他部分通信时,设备可能仍然是有用的,尽管可用的功能有时会减少。在最简单的水平下,设备可以记录被捕获的原始图像或音频数据并且这可以在以后加以处理。然而,为了用户的利益,可能重要的是在可能的情况下给出关于被捕获的数据是否可能对于手边的任务是足够的、它是否能够被识别或者很可能被识别以及数据源以后是否能够被标识或者很可能被标识的反馈。然后,用户将知道他们的捕获活动是否值得。甚至在所有以上所述未知时,也仍然可以存储原始数据,使得至少用户可以在以后引用它们。 例如,当OCR过程不能识别捕获时,可以向用户呈现捕获的图像。为了说明可用的选项范围中的一些选项,下面描述了最小限度的光学扫描设备以及然后是特征更全得多的光学扫描设备。许多设备占据这二者之间的中间地带。15. 3. 1 SimpleScanner 一低端离线实例
SimpleScanner具有能够在沿着文本行的长度移动时读取来自页面的像素的扫描头。 它可以检测其沿着页面的运动并且记录关于该运动的一些信息。它也具有时钟,其允许对每次扫描加盖时间戳。当Simpl必carmer连接时,时钟与主机设备同步。时钟不可以代表实际的日时,但是可以从其确定相对的时间,使得主机可以推断实际的扫描时间,或者在最坏的情况下推断扫描之间经过的时间。SimpleScanner本身没有足够的执行任何OCR的处理能力,但是它的确具有关于典型的词长度、词间距及其与字体大小的关系的一些基本知识。它具有一些基本的指示灯, 这些指示灯告诉用户扫描是否可能可读取,扫描头是否跨纸张移动得太快、太慢或者太不精确,以及何时它确定对于要标识的文档已经扫描了足够的给定大小的词。SimpleScanner具有USB连接器并且可以插入到计算机上的USB端口,在该USB端口处将对其再充电。对于计算机而言,它看起来像是其上记录了加盖时间戳的数据文件并且系统软件的其余部分从该点接管的USB存储设备。15. 3. 2 SuperDevice 一高端离线实例
SuperDevice也取决于连接性以实现其完整的操作,但是它具有大量的板上存储和处理,这可以帮助它在离线时对于捕获的数据做出更好的判断。当SuperDevice通过例如处理由SuperDevice的照相机捕获的文档的图像而捕获文本时,捕获的文本被传递给试图识别该文本的OCR引擎。若干字体,包括来自用户最多阅读的出版物的那些字体,下载到设备以便帮助执行该任务,正如与用户PC上的用户拼写检查字典同步并且因而包含他们频繁遇到的许多词的字典。带有其使用的典型频率的词和词组的列表也存储在SuperDevice上,这可以与字典组合。SuperDevice可以使用频率统计资料以便帮助识别过程并且也告知其关于何时捕获足够的文本量的判断;最频繁使用的词组不太可能可用作搜索查询的基础。此外,SuperDevice上存储了用户最常阅读的报纸和期刊的最近期中的文章的完整索引,正如用户最近从网上书商购买的或者最近几个月用户从其捕获任何东西的图书的索引。最后,存储具有可用于系统的数据的数千最流行出版物的标题,使得在不存在其他信息的情况下,用户可以捕获标题并且具有关于以后是否可能以电子形式获取来自特定作品的捕获的好的主意。在捕获过程期间,系统告知用户捕获的数据具有足够的质量和足够的性质以使得当恢复连接时可以获取捕获的信息的电子拷贝成为可能。经常,系统向用户指示已知捕获成功并且在板上索引之一中识别了上下文,或者已知有关的出版物使得其数据对于系统可用,从而以后的获取应当是成功的。SuperDevice停靠在连接到PC的火线或USB端口的托架中,在该点处,除了上传捕获的数据之外,它的不同板上索引和其他数据库基于最近的用户活动和新的出版物而上传。SuperDevice也具有连接到无线公共网络、蜂窝网络的装置或者通过蓝牙"^与移动电话通信并且因而在这样的装置可用时与公共网络通信。在一些情况下,可以无线地更新板上索引和其他数据库。该更新过程可以由用户发起或者由系统自动地发起。15.4用于图像捕获的特征
我们现在考虑可能在捕获设备中特别希望的一些特征。15. 4. 1灵活的定位和方便的光学器件
纸张持续流行的原因之一是其易于用在其中例如计算机将不实用或者不方便的各种各样的情形中。预期捕获用户与纸张交互的相当部分的设备因而应当类似地便于使用。对于过去的扫描仪而言,情况并非如此;甚至最小的手持式设备也有些笨重。设计成与页面接触的那些设备必须保持与纸张成精确的角度并且非常小心地沿着要扫描的文本的长度移动。这在办公桌上扫描商业报告时是可接受的,但是在等待火车的时候扫描来自小说的词组时则可能不实用。操作于离纸张一定距离处的基于照相机的捕获设备可能类似地在许多情况下有用。系统的一些实例使用这样的扫描仪,其与纸张接触地扫描,并且其代替透镜使用图像导管光纤束将来自页面的图像传输到光学传感器设备。这样的设备可以被定形为允许其保持在自然的位置;例如,在一些实例中,与页面接触的部分是楔形的,从而允许用户的手以类似于使用荧光笔的运动在页面上方更自然地移动。导管或者与纸张直接接触,或者紧邻纸张,并且可以具有可以保护图像导管免受可能的损坏的可代替的透明尖端。如第 12. 2. 4节中已经提到的,扫描仪可以用来从屏幕扫描以及从纸张扫描,并且尖端的材料可以被选择成降低损坏这样的显示器的可能性。最后,设备的一些实例将在捕获过程期间提供反馈给用户,其将通过使用光、声音或触觉反馈指示何时用户移动捕获设备太快、太慢、太不均勻或者在捕获行上漂移得太高或太低。15.5安全性、身份、认证、个人化和计费
如第6节中所描述的,捕获设备可以形成用于安全交易、购买和各种各样的其他操作的标识和授权的重要部分。因此,除了这种作用所需的电路和软件之外,它可以合并可以使得其更安全的不同硬件特征,例如智能卡读取器、RFID或者在其上键入PIN的键区。
它也可以包括帮助标识用户的各种不同的生物统计传感器。在例如捕获设备具有图像捕获能力的情况下,照相机也可能能够读取指纹。对于话音记录器而言,可以使用用户的话音模式。15. 6设备关联
在一些实例中,捕获设备能够与其他附近设备形成关联以便增加其自身或者它们的功能。在一些实例中,例如,它使用附近PC或电话的显示器以给出关于其操作的补充反馈,或者使用它们的网络连接性。另一方面,设备可以在其作为安全和标识设备的角色中操作以认证由其他设备执行的操作。或者,它可以简单地形成关联以便用作该设备的外设。这样的关联的一个有趣方面在于,它们可以使用设备的捕获装置来发起和认证。 例如,希望向公共计算机终端安全地标识自身的用户可以使用设备的捕获装置以便捕获终端屏幕的特定区域上显示的代码或符号并且因而实现关键的传输。类似过程可以使用话音记录设备拾取的音频信号执行。15. 7与其他设备集成
在一些实例中,捕获设备的功能集成到已在使用的某个其他设备中。集成的设备可能能够共享电源、数据捕获和存储能力以及网络接口。这样的集成可以仅仅为了方便、降低成本或者启用在别的情况下将不可用的功能而完成。可以将捕获功能集成到其中的设备的一些实例包括
现有的外设,例如鼠标、铁笔、USB “网络摄像头”照相机、蓝牙 头戴式耳机或者遥控器;
另一处理/存储设备,例如PDA、MP3播放器、话音记录器或者数码相机; 其他经常携带或者经常配戴的物品,仅仅为了方便——手表、一件首饰、眼镜、帽子、 笔、汽车钥匙链;等等。第III部分一系统的示例应用
本节列出系统的示例用途以及可以在其上构建的应用。该列表预期纯粹是说明性的并且在任何意义上都不是详尽无遗的。16.个人应用 16.1生活图书馆
生活图书馆(第6. 1. 1节)是订户希望保存的任何重要文档的数字档案馆,并且是该系统的服务实例的集合。重要的图书、杂志文章、报纸剪辑等等都可以以数字形式保存在生活图书馆中。此外,订户的注释、评论和笔记可以与文档一起保存。生活图书馆可以通过因特网和万维网访问。系统为订户创建和管理生活图书馆文档档案馆。订户通过捕获来自文档的信息或者通过以其他方式向系统指示将该特定文档添加到订户的生活图书馆而指示订户希望将哪些文档保存在他的生活图书馆中。捕获的信息典型地为来自文档的文本,但是也可以是标识文档的条形码或其他代码。系统接受该代码并且使用它来标识源文档。在标识出文档之后,系统可以将文档的拷贝存储到用户的生活图书馆中或者存储到其中可以获得该文档的来源的链接。生活图书馆系统的一个实例可以检查是否授权订户获得电子拷贝。例如,如果读者捕获来自纽约时报(NYT)的文章的拷贝的文本或标识符,使得该文章将添加到读者的生活图书馆,那么生活图书馆系统将与NYT验证读者是否订阅了 NYT的在线版本;如果是,那么读者让文章的拷贝存储到他的生活图书馆帐户中;如果否,那么标识文档以及如何订购它的信息存储到他的生活图书馆帐户中。在一些实例中,系统为每个订户维护包含访问特权信息的订户简档。文档访问信息可以以若干方式编辑,其中两种是1)订户将文档访问信息与他的帐户名和口令等等一起提供给生活图书馆系统;或者2)生活图书馆服务提供者向出版者查询订户的信息,并且出版者在生活图书馆订户被授权访问所述材料的情况下通过提供对于电子拷贝的访问而做出响应。如果生活图书馆订户未被授权拥有文档的电子拷贝,那么出版者向生活图书馆服务提供者提供价格,该生活图书馆服务提供者然后向顾客提供购买电子文档的选项。如果这样,生活图书馆服务提供者直接付费给出版者并且以后向生活图书馆顾客开帐单,或者生活图书馆服务提供者立即针对该购买给顾客的信用卡开帐单。生活图书馆服务提供者将因为促进该交易而获得购买价格的一定百分比或者小笔固定费用。系统可以在订户的个人图书馆和/或订户具有档案特权的任何其他图书馆中为文档存档。例如,当用户捕获来自印刷的文档的文本时,生活图书馆系统可以标识出再现的文档及其电子副本。在标识出源文档之后,生活图书馆系统可以将关于源文档的信息记录到用户的个人图书馆和订户具有档案特权的群体图书馆中。群体图书馆是诸如文档仓库之类的协作档案馆,用于为某个项目一起工作的群体,学术研究人员群体,群网络日志等等。可以以许多方式组织生活图书馆按年代顺序,按主题,按订户的兴趣水平,按出版类型(报纸、图书、杂志、技术论文等等)、何处阅读、何时阅读,按ISBN或者按杜威十进制等等。在一种可替换方案中,系统可以基于其他订户如何分类相同文档而学习分类。系统可以向用户建议分类或者自动地为用户分类该文档。在不同的实例中,可以直接将注释插入到文档中或者可以在单独的文件中维护注释。例如,当订户捕获来自报纸文章的文本时,对捕获的文本加亮地将该文章存档在他的生活图书馆中。可替换地,将该文章与关联的注释文件一起存档在他的生活图书馆中(从而保持存档的文档未被修改)。系统的实例可以在每个订户的图书馆中保持源文档的拷贝、在许多订户可以访问的主图书馆中保持拷贝,或者保持到出版者持有的拷贝的链接。在一些实例中,生活图书馆仅仅存储用户对文档的修改(例如加亮等等)以及在文档的在线版本(存储在别处)的链接。系统或订户在订户随后获取文档时将这些变化和文档合并在一起。如果注释保持在单独的文件中,那么将源文档和注释文件提供给订户并且订户组合它们以创建修改的文档。可替换地,系统在将这两个文件提供给订户之前组合这两个文件。在另一个可替换方案中,注释文件是文档文件的覆盖并且可以通过订户的计算机中的软件覆盖到文档上。生活图书馆服务的订户按月付费以便让系统维护订户的档案馆。可替换地,订户为档案馆中存储的每个文档支付少量费用(例如小额支付)。可替换地,订户按每次访问费用支付以访问订户的档案馆。可替换地,订户可以编辑图书馆并且在与生活图书馆服务提供者和版权所有者的收入分成模型上允许他人访问材料/注释。可替换地,生活图书馆服务提供者在生活图书馆订户订购文档时接收来自出版者的支付(与出版者的收入分成模型,其中生活图书馆服务提供者获得出版者收入的分成)。
在一些实例中,生活图书馆服务提供者充当订户和版权所有者(或者版权所有者的代理机构,例如版权结算中心,又称CCC)之间的中介以便为版权材料促进开列帐单和支付。生活图书馆服务提供者使用订户的帐单信息和其他用户帐户信息以提供该中介服务。 基本上,生活图书馆服务提供者利用和订户的预先存在的关系以允许代表订户购买版权材料。在一些实例中,生活图书馆系统可以存储来自文档的摘录。例如,当订户捕获来自纸质文档的文本时,捕获的文本周围的区域被摘录并且置于生活图书馆中,而不是整个文档存档在生活图书馆中。这在文档较长时是特别有利的,因为保留原始捕获的情况防止了订户重新阅读文档以找出有趣的部分。当然,可以与摘录材料一起包括到纸质文档的整个电子副本的超级链接。在一些实例中,系统也将关于文档的信息存储到生活图书馆中,这些信息例如作者、出版物标题、出版日期、出版者、版权所有者(或者版权所有者的授权代理机构)、ISBN、 到文档的公共注释的链接、阅读排名等等。关于文档的该附加信息中的一些是纸质文档元数据形式。第三方可以创建公共注释文件以供不同于他们自己的人们(例如普通公众)访问。到第三方对于文档的评论的链接是有利的,因为阅读其他用户的注释文件增强了订户对于文档的理解。在一些实例中,系统按类别对材料存档。该特征允许生活图书馆订户快速地存储整个类别的纸质文档的电子副本而不访问每个纸质文档。例如,当订户捕获来自国家地理杂志的拷贝的某个文本时,系统向订户提供对《国家地理》的所有过期期刊存档的选项。如果订户选择存档所有过期期刊,那么生活图书馆服务提供者将与国家地理学会一起验证订户是否被授权这样做。如果否,那么生活图书馆服务提供者可以居间促成购买存档国家地理杂志集合的权利。16. 2生活保存器
生活图书馆概念的一种变型或增强是“生活保存器”,其中系统使用用户捕获的文本以推断关于他们的其他活动的更多信息。来自特定餐馆的菜单、来自特定戏剧表演的节目、特定火车站的时间表或者来自本地报纸的文章的捕获允许系统对于用户的位置和社会活动做出推断,并且可以为他们构造自动日记,例如作为网站。用户将能够编辑和修改日记、添加诸如照片之类的附加材料并且当然再次看看捕获的项目。17.学术应用
所描述的系统支持的捕获设备在学术环境中具有许多令人信服的用途。它们可以增强学生/老师交互并且扩充学习经验。除了其他用途之外,学生可以注释适合其独特需要的学习材料;老师可以监控课堂表现;并且老师可以自动地验证学生作业中引用的源材料。17. 1儿童图书
小孩与诸如图书之类的纸质文档的交互由识字采集系统检控,该识字采集系统采用该系统的一组特定实例。小孩使用与识字采集系统的其他元件通信的捕获设备。除了捕获设备之外,识字采集系统还包括显示器和扬声器以及可由捕获设备访问的数据库。当小孩看见图书中的未知词时,小孩利用捕获设备捕获它。在一个实例中,识字采集系统将捕获的文本与其数据库中的资源进行比较以便标识该词。数据库包括字典、辞典和/或多媒体文件 (例如声音、图形等等)。在标识词之后,系统使用扬声器向小孩读出该词的发音及其定义。在另一个实例中,词及其定义由识字采集系统显示在显示器上。也可以通过显示器和扬声器播放关于捕获的词的多媒体文件。例如,如果阅读“金发女孩与三只熊”的小孩捕获了词 “熊”,系统可以读出词“熊”的发音并且在显示器上播放关于熊的短视频。通过这种方式, 小孩学会念书面词并且通过多媒体演示从视觉上被教导该词的含义。识字采集系统提供即时的听觉和/或视觉信息以增强学习过程。小孩使用该补充信息快速地获得对于书面材料的更深理解。系统可以用来教导初学读者阅读、帮助儿童获得更大的词汇量等等。该系统向小孩提供关于小孩不熟悉的或者小孩欲知其更多信息的词的信息。17. 2识字采集
在一些实例中,系统编辑个人字典。如果读者看见新的、有趣的或者特别有用的或棘手的词,读者将它(与其定义一起)保存到计算机文件。该计算机文件变成读者的个人化字典。该字典的大小通常比普通字典小,因而可以下载到移动站或关联的设备,并且因而甚至在系统不能即时访问时也可用。在一些实例中,个人字典条目包括帮助正确的词发音的音频文件以及标识从其捕获词的纸质文档。在一些实例中,系统为学生创建定制的拼音和词汇测验。例如,当学生阅读作业时,学生可以利用捕获设备捕获不熟悉的词。系统存储学生捕获的所有词的列表。稍后,系统在关联的监视器上管理给学生的定制的拼音/词汇测验(或者将这样的测验打印在关联的打印机上)。17. 3咅乐教学
将音符排列在音乐五线谱上类似于将字母排列在一行文本上。捕获设备可以用来捕获音乐符号,并且对已知音乐作品数据库构造搜索的类似过程允许标识发生捕获的作品,其然后可以被获取、播放或者可以是某个进一步的动作的基础。17. 4检测剽窃
老师可以使用系统以便通过捕获来自学生论文的文本并且将捕获的文本提交给系统来检测剽窃或者验证来源。例如,希望验证学生论文中的引文来自学生引用的来源的老师可以捕获引文的一部分并且将系统标识的文档的标题与学生引用的文档的标题进行比较。 同样地,系统可以使用来自作为学生原创工作而提交的作业的文本的捕获以便揭示该文本是否反而是拷贝的。17. 5增强的教科书
在一些实例中,捕获来自学术教科书的文本将学生或教师与更详细的解释、进一步的练习、学生和教师对于材料的讨论、有关的过去考题实例、关于主题的进一步读物、关于主题的讲座记录等等相联系(也参见第7. 1节)。17. 6语言学习
在一些实例中,系统用来教授外语。捕获例如西班牙语词可以使得该词与其定义用英语朗读一起用西班牙语朗读。系统提供即时听觉和/或视觉信息以便增强新语言习得过程。读者使用该补充信息快速地获得对于材料的更深入理解。系统可以用来教导初学读者阅读外语、帮助学生获得更大的词汇量等等。系统提供关于读者不熟悉的或者读者欲知其更多信息的外语词的信息。当捕获一门语言的文本时,捕获设备可以以用户更熟悉的另一门语言显示该捕获的文本。作为另一个实例,捕获设备可以显示捕获的文本,如同它出现在文档中一样,但是允许用户通过在捕获设备的触摸屏上点选词而例如选择性地翻译和显示用户不熟悉或未知的特定词。翻译可以由捕获设备执行或者发送到用于翻译的另一系统。读者与诸如报纸或图书之类的纸质文档的交互由语言技能系统监控。读者具有与语言技能系统通信的捕获设备。在一些实例中,语言技能系统包括显示器和扬声器以及可由捕获设备访问的数据库。当读者看见文章中的未知词时,读者利用捕获设备捕获它。数据库包括外语字典、辞典和/或多媒体文件(例如声音、图形等等)。在一个实例中,系统将捕获的文本与其数据库中的资源进行比较以便标识捕获的词。在标识词之后,系统使用扬声器向读者读出该词的发音及其定义。在一些实例中,词及其定义均显示在显示器上。也可以通过显示器和扬声器播放与捕获的词有关的关于语法技巧的多媒体文件。例如,如果捕获了词“说话”,系统可以读出词“hablar”的发音,播放演示正确西班牙语发音的短音频剪辑,并且显示“hablar”的各种便体的完整列表。通过这种方式,学生学会书面词的发音, 通过多媒体演示从视觉上被教导该词的拼音,并且学会如何列出动词的变化形式。系统也可以与常见词组一起给出关于“hablar”的正确用法的语法技巧。在一些实例中,用户捕获来自与用户本族语(或者用户知道得相当不错的某种其他语言)不同的语言的再现文档的词或短词组。在一些实例中,系统维护用户“偏好的”语言的优先列表。系统标识再现的文档的电子副本,并且确定该文档内的捕获位置。系统也标识翻译成用户偏好的语言之一的文档的第二电子副本,并且确定与原始文档中的捕获位置相应的翻译文档中的位置。当未精确知道相应的位置时,系统标识包含捕获的位置的相应位置的小区域(例如段落)。然后,将相应的翻译位置呈现给用户。这向用户提供捕获位置处的特定用法的精确翻译,所述特定用法包括经常难于在逐字基础上精确翻译的任何俚语或其他习惯用法。17. 7收集研究材料
研究特定主题的用户可能遇到印刷的和屏幕上的各种材料,他们可能希望在某个个人档案中将所述材料记录为与主题相关。作为捕获任何材料片段中的短词组的结果,系统将使得该过程能够是自动的,并且也可以创建适合于插入到主题出版物中的参考书目。18.商业应用
显然,商业活动可以由本文中讨论的几乎任何过程构成,但是在这里我们集中于一些明显的收益流。18. 1 基于费用的收缩和索引
常规的因特网搜索引擎典型地提供电子文档的免费搜索,并且也不因将其内容包含在索引中而向内容提供者收费。在一些实例中,系统在系统的操作和使用方面提供向用户收费和/或付费给搜索引擎和/或内容提供者。在一些实例中,系统服务的订户为来源于纸质文档的捕获的搜索付费。例如,股票经纪人可能正在阅读关于X公司提供的新产品的华尔街日报的文章。通过从纸质文档捕获 X公司名称并且同意支付必要的费用,股票经纪人使用所述系统搜索特殊的或专有的数据库以获得关于该公司的溢价信息,例如分析师报告。系统也可以作出安排以便例如通过确保特定日期出版的所有报纸被索引并且在它们上市时可用而让很可能以纸张形式阅读的文档优先索引。
内容提供者可以支付与从纸质文档提交的搜索查询中的特定项关联的费用。例如,在一个实例中,系统基于关于提供者的附加上下文(在这种情况下,上下文是内容提供者支付了前移结果列表的费用)选择最优选的内容提供者。实际上,搜索提供者基于预先存在的与内容提供者的财务安排而调节纸质文档搜索结果。也参见第5. 2节中的关键字和关键词组的描述。在访问特定内容限于特定人群(例如客户或雇员)的情况下,这样的内容可以受防火墙保护并且因而通常不可被第三方索引。然而,内容提供者可能希望提供对受保护内容的索引。在这种情况下,内容提供者可以向服务提供者付费以便向系统订户提供内容提供者的索引。例如,法律事务所可以索引所有的客户文档。这些文档存储在法律事务所的防火墙之后。然而,法律事务所想要它的雇员和客户有权通过捕获设备访问文档,因而它提供服务提供者的索引(或者索引的指针),服务提供者反过来在法律事务所的雇员或客户提交捕获设备捕获的搜索项时搜索法律事务所的索引。法律事务所可以将雇员和/或客户列表提供给服务提供者的系统以便允许该功能或系统可以通过在搜索法律事务所的索引之前查询法律事务所而验证访问权限。注意,在前面的实例中,法律事务所提供的索引仅仅是客户的文档的索引,而不是法律事务所的所有文档的索引。因此,服务提供者只能授予法律事务所的客户访问法律事务所为该客户索引的文档的权限。存在至少两个单独的可以由来源于纸质文档的搜索而引起的收益流一个收益流来自搜索功能,并且另一个收益流来自内容交付功能。搜索功能收益可以由来自用户的付费订阅生成,但是也可以按每搜索收费生成。内容交付收益可以与内容提供者或版权所有者分成(服务提供者可以得到销售的一定百分比或者固定费用,例如每次交互的小额支付),但是也可以由“转诊”模型生成,在该模型中,系统针对订户从在线目录订购的且系统已经交付或贡献的每个项目获得一定费用或百分比,而不管服务提供者是否居间促成该交易。在一些实例中,系统服务提供者在某个预定时间段内或者在做出对标识的产品的购买时的任何后续时间,从内容提供者接收订户做出的所有购买的收益。18. 2 目录
吸收者可以使用捕获设备根据论文目录进行购买。订户从目录捕获标识该目录的信息。该信息是来自目录的文本、条形码或者目录的另一标识符。订户捕获标识他/她希望购买的产品的信息。目录邮寄标签可以包含标识目录供应商的顾客的顾客识别号码。如果这样,那么订户也可以捕获该顾客识别号码。系统充当订户与供应商之间的中介以便通过将顾客的选择和顾客识别号码提供给供应商而促进目录购买。18. 3 优惠券
吸收者捕获纸质优惠券并且将优惠券的电子拷贝保存在捕获设备中或者保存在诸如计算机之类的远程设备中以供以后获取和使用。电子存储的一个优点在于,吸收者没有携带纸质优惠券的负担。另一优点在于,电子优惠券可以从任何位置获取。在一些实例中,系统可以跟踪优惠券到期日期,提醒吸收者有关很快将到期的优惠券和/或从存储装置中删除到期的优惠券。对于优惠券发行者的一个优点在于接收更多关于谁正在使用优惠券以及何时和何处捕获和使用优惠券的反馈的可能性。18. 3广告门户
广告门户可以允许广告者创建和管理与各种不同广告关联的标记层。在一个实例中,广告门户可以提供网络接口,广告者通过该网络接口可以登记一个或多个广告活动和关联的信息,例如名称、与活动关联的标记信息、关于应当何时显示活动中的广告以及应当向谁显示广告的信息、关于广告的产品或服务的信息和/或与广告活动关联的广告的产品、标签、关键字和/或关键词组、与广告关联的文本或其他媒体等等。广告门户也可以提供这样的接口,广告者通过该接口可以指示应当出现在关联的标记层中的控件。例如,当广告被捕获且显示在捕获设备上时,广告者可以指示应当与控制覆盖一起显示的广告文本内的特定词组或词和/或广告图像内的特定区域。在一些实例中,广告门户也可以允许广告者提供实现规范,该规范可以包括一个或多个优选的供应商和/或“如何购买”过程。广告门户也可以提供这样的接口,广告者通过该接口可以控制顾客体验的各方面,包括是否和/或何时提供特别优惠,不同类型的媒体,切合特定用户的兴趣、需要、地理位置、口语的标记层等等。例如,广告门户可以提供广告的从广告语言到捕获广告的捕获设备的用户偏好的语言的翻译。在一些实例中,广告门户可以提供可以由吸收者利用的服务。例如,广告门户可以允许吸收者或者其他第三方发布与广告交互层、供应商、广告者、产品、服务等等有关的评论和/或批评。在其他实例中,广告门户可以使得用户能够发布与再现的或印刷的广告(包括链接、图像、交叉引用等等)有关的批评。19. 一般应用 19. 1表单
系统可以用来自动填充与纸张表单相应的电子文档。用户捕获唯一地标识纸张表单的某个文本或条形码。捕获设备将该表单的身份和标识用户的信息传送给附近的计算机。附近的计算机具有因特网连接。附近的计算机可以访问表单的第一数据库以及具有关于捕获设备的用户的信息的第二数据库(例如服务提供者的订户信息数据库)。附近的计算机访问来自第一数据库的纸张表单的电子版本并且根据从第二数据库获得的用户信息自动填充表单的字段。附近的计算机然后将完成的表单通过电子邮件发送给预期的接收者。可替换地,该计算机可以在附近的计算机上打印完成的表单。代替访问外部数据库,在一些实例中,系统具有例如在身份模块、SIM或安全卡中包含用户的信息的捕获设备。捕获设备将标识表单的信息提供给附近的PC。附近的PC访问电子表单并且向捕获设备查询任何必要的信息以填写表单。19. 2 名片
系统可以用来自动地填充电子地址簿或者来自纸质文档的其他联系人列表。例如,当接收到新熟人的名片时,用户可以利用他/她的手机捕获名片的图像。系统将定位名片的电子拷贝,其可以用来利用新熟人的联系信息更新手机的板上地址簿。电子拷贝可以包含比可能挤压到名片上的信息更多的关于新熟人的信息。此外,板上地址簿也可以存储到电子拷贝的链接,使得电子拷贝的任何变化将在手机地址簿中自动地更新。在该实例中,名片可选地包括指示电子拷贝的存在性的符号或文本。如果没有电子拷贝存在,那么手机可以使用OCR和标准名片格式的知识填写地址簿中的针对新熟人的条目。符号也可以帮助直接从图像提取信息的过程。例如,可以识别名片上紧邻电话号码的电话图标以便确定电话号码的位置。19. 3校对/编辑
系统可以增强校对和编辑过程。系统可以增强编辑过程的一种方式是将编者与纸质文档的交互链接到其电子副本。当编者阅读纸质文档并且捕获文档的不同部分时,系统将对纸质文档的电子副本做出适当的注释或编辑。例如,如果编者捕获了一部分文本并且利用捕获设备做出“新段落”控制姿态,那么与捕获设备通信的计算机将在文档的电子拷贝中捕获的文本的位置处插入“新段落”换段符。19. 4话咅沣释
用户可以通过捕获来自文档的一部分文本并且然后做出与该捕获的文本关联的话音记录而对文档做出话音注释。在一些实例中,捕获设备具有记录用户对口头注释的麦克风。 在记录了口头注释之后,系统标识从其捕获文本的文档、在文档内定位捕获的文本并且在该点处附上话音注释。在一些实例中,系统将语音转换成文本并且附上作为文字评论的注释。在一些实例中,系统仅仅利用与文档一起的对于注释的引用保持注释与文档分开。于是注释变成用于特定订户或用户群的文档的注释标记层。在一些实例中,对于每个捕获和关联的注释,系统标识文档、使用软件包打开它、 滚动到捕获的位置并且播放话音注释。用户然后可以在参考由自己或者由别人记录的话音注释、建议的修改或者其他评论的同时与文档交互。19. 5文本帮助
所描述的系统可以用来利用电子帮助菜单增强纸质文档。在一些实例中,与纸质文档关联的标记层包含用于该文档的帮助菜单信息。例如,当用户捕获来自文档特定部分的文本时,系统检查与文档关联的标记并且例如在捕获设备的显示器上将帮助菜单呈现给用户。19. 6使用显示器
在一些情形中,有利的是能够捕获来自电视、计算机监视器或者其他类似显示器的信息。在一些实例中,捕获设备用来捕获来自计算机监视器和电视的信息。在一些实例中,捕获设备具有照明传感器,其被优化成利用传统的阴极射线管(CRT)显示技术(例如栅格化、 屏幕消隐等等)工作。通过捕获阅读来自文档的文本的用户的音频而操作的话音捕获设备典型地将不管该文档是在纸张上、在显示器上还是在某种其他介质上而工作。19. 6. 1公共电话亭和动态会话ID
显示的直接捕获的一种用途是如第15. 6节中所描述的设备关联。例如,在一些实例中,公共电话亭在其监视器上显示动态会话ID。电话亭连接到诸如因特网或企业内联网之类的通信网络。会话ID周期性地但是至少每次使用电话亭时改变,使得新会话ID显示给每个用户。为了使用电话亭,订户捕获电话亭上显示的会话ID;通过捕获会话ID,用户告知系统他希望临时将电话亭与他的捕获设备关联以便交付由捕获印刷文档或者电话亭屏幕本身而得到的内容。捕获设备可以直接将会话ID和认证捕获设备的其他信息(例如序列号、帐号或者其他标识信息)传送给系统。例如,捕获设备可以通过通过可由捕获设备访问的蜂窝网络发送会话发起消息而直接地与系统通信(其中“直接”意味着不通过电话亭传递消息)。可替换地,捕获设备可以通过将会话发起信息传输到电话亭(也许通过诸如蓝牙 等等之类的短距离RF)而与电话亭建立无线链接并且使用电话亭的通信链路;作为响应, 电话亭通过其因特网连接将会话发起信息发送给系统。
系统可以在其中设备与捕获设备关联的时段(或会话)期间防止其他人使用已经与捕获设备关联的该设备。这个特征可以用来防止其他人在另一人的会话结束之前使用公共电话亭。作为与在网吧使用计算机有关的这个概念的一个实例,用户捕获他/她希望使用的PC的监视器上的条形码;作为响应,系统发送它显示的会话ID给监视器;用户通过捕获来自监视器的会话ID (或者通过捕获设备上的键区或触摸屏或麦克风输入它)而发起会话;并且系统在其数据库中将会话ID与他/她的捕获设备的序列号(或者唯一地标识用户的捕获设备的其他标识符)关联,从而另一个捕获设备不能在他/她的会话期间捕获会话 ID并且使用监视器。捕获设备和与监视器关联的PC通信(通过诸如蓝牙 之类的无线链路、诸如扩展坞之类的硬接线链路等等),或者通过诸如手机之类的另一装置直接(即不通过PC)与系统通信,等等。19. 7社交网络或协作环境
系统可以提供社交网络或协作环境,例如wiki,其有时称为“wiqi”,在那里,用户可以创建其中用户可以发布相关信息的词、词组、句子等的页面。例如,用户可以创建来自图书或电影的名言页在那里,用户可以发布被使用的引文的图像、音频、视频等等或者包含关于该引文何处被使用或引用的信息的索引。在一些实例中,当用户通过捕获设备捕获相关文本时,系统可以自动地更新这些页面。作为另一个实例,捕获设备可以利用到与捕获的文本相应的Wiqi页面的链接覆盖捕获的图像。特定词或词组的Wiqi页面可以对所有用户可用, 或者可以为选择的用户群(例如一个家庭或一群朋友)创建。因此,在一些实例中,除其他的益处之外,系统还有利于将再现的文档作为平台用在协作信息交换数字环境中。19. 8礼宾服务
软件礼宾系统或服务提供人类助手(例如虚拟礼宾),其接收关于用户在使用应用时面临的问题的信息并且可以采取动作以提供解决方案或者纠正问题。该人类助手可以纠正自动过程难于纠正的问题,并且可以提供关于使用软件时的摩擦区域的反馈给应用作者。例如,搜索文档的用户可能在找到文档方面有困难,但是人类助手可以检查用户用来搜索的关键字,了解用户正在设法寻找什么,并且将更好的关键字注入用户的搜索查询中,使得用户接收到更相关的搜索结果。作为另一个实例,如果系统不能够标识或识别捕获的图像中的文本或者标识再现的文档的相应电子版本,那么可以将这些任务发送给软件礼宾系统以获得帮助。此外,用户可以使用礼宾系统订购由捕获设备标识的物品。这节省了用户的时间,并且提高了用户对于该应用的满意度以及总体意见。因此,软件礼宾系统提供了一种新的软件性能层,其改善了用户体验并且允许实现软件开发者先前未能实现的若干使用软件的方式。第IV部分——系统细节
如本文所讨论的,在一些实例中,系统监控从用户接收的输入并且自动地定位和显示与接收的输入关联的内容。除了其他的方法以外,系统在文本的创建、编辑或捕获期间接收输入并且定位来自静态内容源和/或动态内容源的内容,所述静态内容源提供在接收输入之前创建的内容,所述动态内容源提供在接收输入期间或之后创建的内容,例如社交网络内的内容。相关关联信息的自动捕获和显示
诸如字处理应用之类的软件应用可以用来创建、编辑和/或观看文本形式的信息。因此,在一些情况下可能希望的是提供与文本有关的信息。如本文所描述的,系统自动地提供作为接收和/或捕获的信息(例如在文本编辑器中接收的或者以其他方式键入或讲入系统中的信息)的补充的信息。本发明人认识到,在某个人书写、编辑、审查和/或捕获材料期间自动地提供这个人可能认为有助于完成他从事的任务的信息将是有用的,该信息例如与所述材料或任务的主题相关的信息。本发明人意识到,在无需这个人执行规定查询、选择要搜索的适当信息体以及明确地请求使用该查询执行对信息体的搜索的常规过程的情况下这样做将是特别有用的。描述了一种硬件、固件和/或软件系统或者用于提供作为其他信息的补充的相关信息的系统。系统响应于该系统可以观察到的用户提供的(例如通过用户键入而提供的)文本而自动地提供相关信息。系统监控用户提供的文本并且自动地选择文本的一部分。系统基于文本的选择的部分形成查询,使用该查询选择要搜索的索引,将查询传输给选择的索引,并且接收与该查询相关的搜索结果。然后,系统显示这些搜索结果中的至少一个,使得除其他的益处之外,用户可以观看与用户提供的文本相关的信息。随着用户提供附加的文本,系统继续监控该附加的文本,并且重复选择文本的一部分、基于选择的部分形成查询、选择索引、将查询传输给索引、接收搜索结果并且显示搜索结果的步骤。通过这种方式,系统自动地、连续地且重复地提供与用户提供和/或捕获的文本相关的诸如补充信息之类的内容。因此,系统自动地向用户提供与提供的文本的主题关联且可能地相关的内容,例如用户正在书写、编辑和/或审查的主题。系统这样做而无需用户创建查询、规定要搜索的适当信息体或者明确地请求执行搜索,其每一个在其他情况下将要求用户进行动作并且潜在地阻碍用户的书写、编辑和/或审查过程。因此,本文描述的系统和技术可以为用户改进书写、编辑和/或审查信息的过程以及提供附加的益处。提供相关信息
图4为结合显示接收的文本和提供与接收的文本相关的信息而示出由系统呈现的样本显示400的显示图。如图所示,显示400由计算设备的字处理应用提供并且由计算设备的信息输出设备(例如计算设备的显示设备)显示。字处理应用可以包括所述系统(例如,字处理应用将系统集成到其一个或多个过程中),系统可以与字处理应用分开(例如与字处理应用分开的一个或多个过程包括系统),或者这些或者其他配置的某种组合。计算设备的其他应用,例如浏览器应用、电子邮件应用、电子表格应用、数据库应用、呈现应用、软件开发应用和/或其他应用,可以呈现显示400。此外或者可替换地,计算设备的操作系统可以呈现显示400。系统可以与任何数据集合(在这里称为文档)一起使用,所述数据集合包括在再现的文档中呈现且由运行系统的捕获设备捕获的数据。显示400包括文本显示区405和信息显示区410。文本显示区405显示用户提供的文本,例如用户通过诸如键盘之类的信息输入设备提供的文本。用户可以通过其他信息输入设备提供信息,例如通过接收转换成文本的口头信息的麦克风、捕获来自再现的文档的文本的捕获部件以及本文描述的其他输入设备,提供信息。用户也可以以其他方式提供文本输入,例如通过将文本粘贴到文本显示区405而提供文本输入。在一些实施例中,用户可以通过将诸如具有关联的文本(例如字幕、标题、描述等等)的图像之类的、具有关联的文本的二进制对象粘贴到文本显示区405中而提供文本。在该实例中,系统认为与二进制对象关联的文本是所提供的文本。信息显示区410显示系统确定为与文本显示区405中显示的提供的文本相关的多个信息项目。如图所示,信息显示区410显示了六个不同的信息项目415(单独地示为项目 415a-f)0信息显示区410也包括允许用户规定系统执行的不同动作(例如显示时间线、分析文本和其他动作)的“动作”菜单项目430以及允许用户规定用于系统的选项(例如要搜索的索引、显示的项目数和其他选项)的“选项”菜单项目435。图5中示出了系统通过其接收文本并且提供与提供的文本相关的信息的例程,其参照图4的实例加以描述。在一些实例中,系统在用户提供文本的同时自动地、连续且重复地执行例程500。参照图4,文本显示区405包含用户提供的第一句子480。在步骤510中,系统在用户提供文本时监控接收的文本。例如,假设用户使用键盘键入了第一句子,系统在用户键入该文本时监控该文本。系统可以通过挂接操作系统或应用事件、利用供输入设备用来提供文本的设备驱动器、话音识别引擎、屏幕OCR、捕获文本和 /或使用其他技术而监控文本。系统可以以各种不同的方式存储监控的文本,例如通过在缓冲器中创建键入的字符的辅助拷贝、利用文本的部分填充数据结构和/或其他技术来存储监控的文本。系统可以在用户添加、编辑和/或删除文本时更新存储的文本和/或数据结构。在步骤515中,系统选择监控的文本的一部分以便形成查询。系统可以使用各种不同的技术以选择这部分监控的文本。例如,系统可以确定用户结束了句子或从句,并且然后标识该句子或从句的各个不同成分,例如主语、谓语、宾语和/或其他成分。然后,系统可以选择句子或从句的一个或多个成分,例如名词、名词词组、专有名词、专有名词词组、动词、副词和/或其他成分。作为另一个实例,系统可以在提供的文本中选择名词的第一实例。系统可以使用自然语言概括技术、同义词匹配技术和/或其他技术以标识和选择监控的文本的一部分。如图4中的附图标记450表示的虚线所示,系统在步骤515中选择名词词组“漫画书”。在步骤520中,系统基于选择的文本形成查询。例如,系统可以使用选择的文本 “漫画书”以形成“漫画+书”的查询。系统可以将其他信息前置于或附加到该查询。在步骤225处,系统使用该查询来选择要搜索的索引。系统可以从系统分组或分类的许多索引当中进行选择。例如,系统可以选择要搜索的一般索引(例如由谷歌、雅虎、Bing等等提供的索引)。作为另一个实例,系统可以选择要搜索的参考索引(例如由维基百科、其他百科全书网站、字典网站等等提供的索引)。作为另一个实例,系统可以选择商品或服务的商业提供者的索引(例如由谷歌产品、亚马逊、PriceGrabber等等提供的索引)。作为另一个实例, 系统可以选择实时内容提供者的索引(例如由Facebook、推特、Blogger, Flickr, Youtube, Vimeo和其他用户生成内容网站提供的索引)。此外或者可替换地,系统可以从索引的其他组或分类中选择索引。系统可以基于选择的文本和/或基于附加的信息选择索引,所述附加的信息例如非选择的文本、与文档关联的元数据(例如文档标题、所有者、摘要等等)和/ 或其他附加的信息(例如用户的角色、日时、年期、用户的地理位置、与用户关联的历史数据等等)。在一些实例中,系统使用该查询来选择多个要搜索的索引。在步骤530中,系统将查询传输到选择的索引(换言之,传输到接收要从选择的索引服务的查询的适当的一个或多个计算系统)。在步骤535中,系统从索引接收与查询相关的一个或多个搜索结果。在步骤MO中,系统显示搜索结果。返回到图4,系统将针对查询“漫画+书”的搜索结果的一部分显示为信息显示区410中的项目415a。项目41 包括指示关于结果的标题的信息的标题区420a以及其中显示了与结果有关的内容的内容区 42^1。如图所示,标题区420a显示了与漫画书有关的维基百科网页的标题。内容区42 显示了维基百科漫画书网页的内容的一部分。尽管未在图4中具体地示出,但是系统将标题区420a和内容区425中的任一个或二者链接到作为显示的信息的来源的实际维基百科网页,使得用户可以容易地导航到实际的维基百科网页。如图所示,系统在信息显示区410中以项目415的相应查询形成时间的相反顺序显示这些项目,最近形成的位于信息显示区410的顶部。系统在信息显示区410的显示的 (未隐藏的)空间中一次显示有限数量的项目415 (例如三至六个项目)。系统可以出于各种不同的原因而限制项目415的数量,例如为了避免潜在地因过多的搜索结果压倒用户和 /或为了占用最少量的显示400。然而,系统并不限于仅仅显示三至六个项目415并且可以显示更少或更多的项目415。在一些实例中,系统在信息显示区410中以最近形成的位于可用显示的底部的顺序显示项目415。在一些实例中,系统显示接近相应文本的项目415。在一些实例中,系统将项目415显示为覆盖显示400内的文本的标记。在步骤MO中显示搜索结果之后或期间,例程500继续到步骤M5,其中系统确定文本是否仍然正在例如由仍然向应用提供文本的用户接收。当文本仍然正在被接收时,例程500返回到步骤510。再次参照图4,文本显示区405中显示的由用户提供的第二句子以 "Marvel Comics (奇迹漫画广455开始。系统在步骤510中监控该第二句子,在步骤515中选择文本“Marvel Comics” 455,并且在步骤520中基于选择的文本形成查询。在步骤525 中,系统使用该查询选择要搜索的索引,在步骤530中传输该查询,在步骤535中接收搜索结果,并且在步骤MO中显示搜索结果的一部分。与该查询相关的这部分搜索结果在信息显示区510中示为项目515b。当用户提供文本时,系统连续且重复地执行参照图5所描述的步骤。遵循图4的实例,系统选择第三句子中的文本“Man Lee" 4600系统在信息显示区410中将与选择的文本相关的信息显示为项目415c。系统选择的第四文本项如附图标记465(“20世纪60年代”)表示的那样示出。系统形成与该选择的文本相应的查询,搜索索引,并且响应于该搜索而接收搜索结果,该搜索结果的一部分在信息显示区410中显示为项目415d。在用户提供文本显示区405中显示的一些或所有文本之后,系统确定文本的主要主题涉及漫画书历史。系统可以基于文本的各个不同项目做出这种确定,所述各个不同项目例如第一句子的主题“漫画书”、动词过去时态的使用(第三句子中的“是”和最后句子中的“创建”)、对过去特定时间段的引用(“二十世纪六十年代”)和/或提供的文本中的附加信息。系统也可以分析响应于被形成以做出这种确定的不同查询而提供的搜索结果。因此, 系统可以不仅仅基于最近创建的句子的文本而且也基于其他句子的文本、搜索结果和/或其他信息来形成查询。系统基于这些因素形成与“漫画书历史”相应的查询,并且选择适当的索引,例如由一个或多个商业书商提供的索引。系统可以选择这样的索引以便搜索比可以在因特网上提供的参考材料和/或未在因特网上提供的参考材料更冗长的参考材料。系统制定与词组“漫画书历史”相应的查询,搜索商业书商的索引,并且接收来自亚马逊的搜索结果,系统将该搜索结果显示为项目415e。通过这种方式,系统可以向用户提供可能不一定在互联网网站上提供的参考材料或附加相关信息。如先前指出的,项目415 中的每一个也与网页关联,使得用户可以(例如通过点击项目415)选择项目415。选择项目 415将使得系统启动具有与项目415关联的统一资源定位符(URL)的浏览器窗口,并且在浏览器窗口中显示网页的内容。系统以类似于脚注字符的方式显示如附图标记470所示的以虚线为边界的“R”,以便指示文本显示区405中的整个段落用作导致项目41 的查询的基石出。系统也可以基于文本显示区405中显示的一些或所有文本确定用户可能有兴趣购买漫画书。因此,系统形成与购买漫画书相应的查询,搜索一般索引,并且接收系统显示为项目415f的搜索结果。通过这种方式,系统可以向用户提供到销售用户可能感兴趣的物品的商业网站的链接或访问。再一次地,“R”字符470可以指示文本显示区405中的整个段落用作导致项目415f的查询的基础。在一些实例中,除了将文本信息显示为项目415之外或者作为将文本信息显示为项目415的可替换方案,系统在信息显示区410中显示非文本信息(例如图像、视频、声音和 /或其他嵌入项)。在一些实施例中,系统不按时间而是按其他信息对项目415排序,所述其他信息例如项目与用户提供的文本的相关性。为了按其相关性对项目排序,系统可以在每个项目415创建时计算该项目的相关性因子。系统也可以在以后的时间更新该相关性因子。例如,当系统首次开始接收来自用户的文本时系统认为高度相关的搜索结果可以在系统基于接收自用户的附加的文本而确定搜索结果不那么相关时使其相关性因子减小。在一些实例中,系统使得用户能够对整个项目415上下滚动和/或翻页,使得用户可以观看除了信息显示区415中主动显示的那些项目之外的项目415。在一些实例中,除了将项目415链接到源网页之外,系统将项目415链接到文本显示区405中的用作导致项目415的查询的基础的文本,使得用户可以容易地从项目导航到文本显示区405中的链接的文本。在一些实例中,系统也将文本显示区405中的用作查询的基础的文本链接到项目 415,使得用户可以容易地从文本显示区405中的文本导航到链接的项目415。在一些实例中,系统提供指示系统形成查询和/或请求执行搜索的时间的时间线。在一些实例中,系统对系统识别为遵循特定格式的文本加标签,所述特定格式例如适当的名称、电话号码、位置和/或其他格式。在一些实例中,当用户删除系统为其提供了项目415的文本时,系统从信息显示区415中移除该项目415。在一些实例中,系统显示信息显示区410的视图,这些视图取决于文本显示区405 的视图。例如,系统可以在文本显示区缩放到句子级别时在文本显示区中显示与特定文本片段关联的信息,并且在文本显示区显示整个文档时显示与整个文档关联的信息。因此,例如通过放大和缩小文本显示区405而改变视图可以使得信息显示区410示出不同类型和级别的信息。在一些实例中,系统在第一计算设备的第一显示器上显示文本显示区405并且在第二计算设备的第二显示器上显示信息显示区410。例如,系统可以使得用户能够在诸如桌面计算机或膝上型计算机之类的第一计算设备上创建、编辑和/或删除书写的材料,所述第一计算设备包含键盘以便使得用户能够容易地键入文本。然后,系统可以在连接到第一计算设备的诸如手持式计算设备(例如智能电话、平板计算设备等等)之类的第二计算设备的显示器上显示与书写的材料相关的信息。系统可以出于各种不同的原因以这样的设置配置,以便允许用户选择何时和/或如何观看相关信息。在一些实例中,代替在确定文本不再被接收时结束图2的例程500的是,系统响应于另一个确定而结束例程200,所述另一个确定例如文档不再激活的确定、用户已经请求系统不操作的确定和/或其他确定。在一些实例中,代替连续地监控用户提供的文本的是或者除了连续地监控用户提供的文本之外,系统使得用户能够延迟提供相关信息,直到用户具体地请求这样的提供。在用户的特定请求之后,系统于是可以分析提供的文本,选择提供的文本的一个或多个部分, 并且提供与选择的部分相关的信息,如本文所描述的。例如,在创建字处理文档中,用户可以在开始时不利用所述系统。相反地,用户可以等待,直到书写了一定的文本量(例如段落、 节、章等等),并且然后请求系统提供相关信息。系统于是将分析书写的文本,选择该文本的多个部分,并且提供多个相关信息项目,每个项目与文本的不同选择部分相应。作为另一个实例,用户可以打开已经创建的文档,并且请求系统提供与已经创建的文档相关的信息。在一些实例中,系统通过自动地提取用户提供的文本的摘要或者使得该文本被自动地摘取而选择用户提供的文本的一部分。然后,系统基于文本的摘要形成查询。在一些实例中,系统同时跨多个应用(例如同时跨字处理应用和跨浏览器应用)工作或者通常这样工作。在这些实施例中,系统可以跨多个应用监控用户提供的文本并且提供与其相关的信息。图6为结合存储由系统利用的数据而示出系统使用的数据结构600的数据结构图。图6中所示的数据结构600与图4中所示的实例相应。数据结构600包含若干行,例如行650a和650b,每行划分成以下各列标识包含系统为其提供相关信息的文本的文档的文档ID列601,包含系统为其提供项目415的文档的文本的文本列602,包含由系统响应于用户提供的文本而制定的查询的查询列605 ;包含系统使用查询而选择要搜索的索引的标识符的索引列610 ;包含响应于使用查询搜索索引而提供的搜索结果的标题的标题列615 ;包含与搜索结果关联的描述性信息的内容列620 ;包含搜索结果的来源(例如URL)的来源列 625 ;以及包含指示系统相对于其他搜索结果处理该搜索结果的顺序的号码的顺序列630。如图所示,行650a包含文档ID列601中的“445”、文本列602中的“漫画书”、查询列605中的“漫画+书”、指示参考索引正被搜索的索引列610中的“参考”、标题列615中的“维基百科”、内容列620中的来自特定维基百科页面的与漫画书有关的内容、来源列625 中的指向维基百科上的页面的统一资源定位符(URL)以及指示这是系统提供的首次搜索结果的顺序列630中的号码“1”。其他行650包含与图4的其他项目415相应的类似信息。 行650e和650f中每行的文本列602包含[段落1],指示整个第一段用作系统提供的信息项目的基础。数据结构600可以包含未具体地绘出的其他列,例如包含系统形成查询的日期和 /或时间的日期/时间列、指示系统是否应当将搜索结果显示为项目415的显示列、包含关于辅助搜索结果的信息的一个或多个列和/或包含或指示其他信息的其他列。系统也可以维护未具体地绘出的其他数据结构,例如包含用户偏好的数据结构、包含关于要搜索的索引的信息的数据结构、包含关于信息项目历史的信息的数据结构和/或其他数据结构。通过自动地向某个人提供与这个人感兴趣主题相关的信息,系统允许这个人节省大量的时间。系统自动提供相关信息消除了这个人选择文本以用于查询以及请求搜索的需要。尽管参照用户使用字处理或其他应用进行书写的实例描述了所述系统,但是该系统可以用在其他情况和/或环境中,例如用在某个人编辑先前书写的文档(例如编辑者执行书面材料的事实检查和/或其他编辑)的情况中、用在某个人阅读书面文档的情况(例如某个人阅读电子文档或者捕获来自印刷的文档的文本)的情况中和/或用在其他情况中。因此, 系统的使用并不限于本文描述的实例。除了这里描述的环境和设备之外,图7给出了示出其中系统可以操作的环境700 的高级框图。该框图示出了计算机系统750。计算机系统750包括存储器760。存储器760 包含结合了系统762和系统典型地使用的数据763的软件761。存储器进一步包括用于接收来自其他计算机的网页和/或其他信息的web客户端计算机程序766。尽管项目762和 763在使用时存储于存储器中,但是本领域技术人员将理解的是,出于存储器管理、数据完整性和/或其他目的,这些项目或者其部分可以在存储器与永久存储设备773之间转移。计算机系统750进一步包括用于执行诸如程序761、762和766之类的程序的一个或多个中央处理单元(CPU) 771以及用于从诸如软盘、⑶-ROM、DVD、USB闪速驱动器之类的有形计算机可读存储介质和/或其他有形计算机可读存储介质读取信息或安装程序(例如所述系统)的计算机可读介质驱动器772。计算机系统750也包括以下中的一个或多个用于连接到网络(例如因特网740)并且通过构成网络的路由器、交换机、主机和其他设备发送或接收数据的网络连接设备774,信息输入设备775,以及信息输出设备776。所述框图也示出了若干服务器计算机系统,例如服务器计算机系统710、720和 730。每个服务器计算机系统包括web服务器计算机程序,例如web服务器711、720和731, 其用于响应于来自诸如web客户端计算机程序766之类的web客户端计算机程序而提供网页和/或其他信息服务。服务器计算机系统通过因特网740或者另一种类型的数据传输网络连接到计算机系统750。然而,本领域技术人员将认识到,服务器计算机系统可以通过不同于因特网的网络连接到计算机系统750。尽管就本文描述的环境描述了不同的实例,但是本领域技术人员将理解,所述系统可以在各种各样的其他环境中实现,这些环境包括单个单片计算机系统以及以各种方式连接的计算机系统或类似设备的各种其他组合。在不同的实例中,可以代替web客户端计算机系统使用各种各样的计算系统或其他不同的客户端设备,例如移动电话、个人数字助理、电视、照相机等等。例如,系统可以驻留在诸如智能电话之类的移动设备上,该移动设备允许通过输入设备来输入文本以及通过捕获设备来捕获文本。将再现的文档集成到内容流
如本文所讨论的,在一些实例中,系统捕获来自再现的文档的文本并且执行与捕获的文本或再现的文档关联的动作和/或提供与其关联的内容。例如,系统可以提供来自社交网络内容源、用户内容仓库、实时新闻和内容文稿等等的内容。图8为示出用于自动地呈现从再现的文档捕获的信息的例程800的流程图。在步骤810中,系统捕获来自再现的文档的信息。如本文所描述的,系统可以使用移动设备的成像部件捕获来自再现的文档的文本的图像,或者可以执行用于捕获信息的其他技术。在步骤820中,系统自动地标识与捕获的信息关联的内容。在一些情况下,系统标识与捕获的信息关联的特定内容项,例如图像、视频、文本等等。在一些情况下,系统标识与捕获的信息关联的内容源,例如新闻和其他信息网站、博客、用户生成内容站点、播客 (podcast)仓库、图像和视频仓库、论坛等等。系统可以在标识内容时查询本文描述的一个或多个索引,例如与包含用户生成内容的在线内容源关联的索引。这样的内容源的实例包括 YouTube、维基百科、Flickr、推特、雅虎、MSN、Boingboing. net、nytimes. com、谷歌等等。 在一些情况下,内容是静态内容并且在发生信息的捕获之前被创建。在一些情况下,内容是在信息捕获期间创建的动态或实时内容。在步骤830中,系统呈现标识的内容。例如,系统可以通过捕获信息的设备的显示部件来显示内容,该显示部件例如智能电话的触摸屏。系统可以使用本文描述的一些或所有技术显示内容,这些技术包括显示接近捕获的信息的内容(或者内容的指示)、覆盖捕获的信息上的内容、在关联的设备上显示内容等等。在步骤840中,系统确定系统是否接收到对捕获信息的附加请求。例如,用户可以将他/她的捕获设备移动到再现的文档的第二部分,指示希望找到与文档的第二部分关联的内容。当系统确定存在附加请求时,例程800继续返回到步骤810,否则例程800结束。因此,在一些实例中,除了其他的益处之外,系统使得诸如移动设备之类的捕获设备的用户能够自动地接收与他们正实时捕获的信息关联的内容。如本文所描述的,在一些实例中,系统使得用户能够基于从再现的文档和其他信息显示进行捕获以及标识再现的文档和其他信息显示而访问用户生成内容源和对用户生成内容源有贡献。图9为示出用于确定与标识的再现的文档关联的内容源的例程900的流程图。在步骤910中,系统捕获来自再现的文档的信息。如本文所描述的,系统可以例如通过使用移动设备的成像部件对文本成像而捕获文本。系统也可以捕获其他类型的信息, 例如非文本信息。在步骤920中,系统基于捕获的信息标识文档。如本文所描述的,系统可以通过定位包括从文档捕获的文本的文档的电子版本而标识文档。在步骤930中,系统确定一个或多个内容源与再现的文档关联。例如,系统标识与再现的文档关联或者与再现的文档的特定部分关联的通道或标签,并且标识供应具有类似标签的内容的内容源。在步骤940中,系统向用户提供确定的内容源的指示。在一些情况下,系统与再现的文档一起呈现来自确定的内容源的内容的指示。在一些情况下,系统访问内容源,从而除了其他益处之外使得用户能够对内容源有贡献。作为一个实例,系统在再现的文档的图像旁边的方格中显示来自确定的内容源的数据流,并且跟随用户在再现的文档之内的进展,利用来自与用户当前正阅读的区域相关的数据流的信息更新方格。该方格可以提供各种类型的内容或者各种类型的内容的指示, 包括博客发布/评论、元数据、相关文档或内容、超级链接、视频、图像、微博、论坛、新闻文稿、播客、对其他文档或者当前文档内的其他位置的交叉引用等等。作为另一个实例,用户正在阅读报纸并且使用他/她的移动设备捕获来自商业版中的关于夫妇个人理财的文章的文本。系统标识该文章和关联的标签(例如“个人理财”、 “关系”)。系统确定包含具有类似标签的内容的两个内容源——一个为来自处理夫妇如何预算的视频共享网站的通道,并且另一个为流行投资图书作者的网络日志,并且通过移动设备的显示部件向用户提供这些来源的指示。当然,系统可以标识和提供本文没有具体描述的其他内容源。捕获来自基于咅频的信息源的信息
尽管所述系统在上文通常被描述为与印刷或显示的文档交互并且捕获来自印刷或显示的文档的数据,但是系统可以容易地被配置成可替换地或者附加地与基于音频的信息 (例如从无线电或电视广播接收的信息)交互并且捕获基于音频的信息。系统可以提供与从接收的音频信号中提取的内容相关的信息。在一些实例中,系统接收例如来自收音机的扬声器的现场音频信号,并且通过移动设备上的麦克风将其转换成电音频信号。在音频信号的一些可选的预处理之后,系统将音频信号中的内容(经常是口头语言)转换成文本,并且然后基于该文本执行某个动作。执行的动作可以是标识搜索词语并且基于那些词语进行查询或搜索。然后,系统接收与音频内容相关或关联的信息并且将其输出到用户,例如将其输出到移动设备以便向用户显示。在一些实例中,呈现的信息包括与接收的音频中提供的内容关联的视觉上可显示的信息。例如,接收的音频可以是关于给定主题的无线电广播或现场讲座。将该接收的音频转换成文本并且进行处理以标识不仅与主题相关的词语,而且标识可能在接收的音频的过程期间出现的或者根据接收的音频在逻辑上导出的附加词语或内容。因此,在一个实例中,接收的音频可能与来自当前在电视上重播的星际旅行(Star Trek)剧集的音轨相应。系统接收该音轨,其中音频包括对作曲家Brahms (勃拉姆斯)的引用。系统于是可以不仅获得与节目星际旅行相关的信息,而且获得与勃拉姆斯相关的信息,例如勃拉姆斯的传记、他的照片、到选择的由他作曲的音乐记录的链接(或下载的文件)等等。在一些实例中,系统对音频序列采样以便标识该序列和/或该序列中的位置。例如,系统可以在标识序列和/或序列中的位置时执行语音-文本技术或非文本匹配技术,如本文针对标识文本和/或再现的文档所讨论的。系统然后可以使用标识的位置来获取音频序列的干净版本、音频序列的抄本、与音频序列关联的标记等等,以便标识音频序列呈现的信息的与音频序列关联的内容或可执行动作。在一些实例中,附加信息与音频内容相关并且不等效于音频内容(例如,它不是音频内容的抄本或摘要)。相反地,它提供音频内容的增强、澄清、启示或出发点。事实上,附加的信息以及本文描述的系统提供了音频内容与补充信息之间的关系,其有助于进一步限定、澄清、扩展或以其他方式增强音频内容,并且可以代表任何不同形式的多个不同页面的信息。图10示出了响应于接收的音频而接收、分析和提供相关信息的功能部件或模块的集合。尽管大体地描述为以软件实现并且由一个或多个微处理器(或类似设备)执行的功能模块,但是图10的部件可以例如通过一组逻辑门(例如现场可编程门阵列(FPGA))、专用集成电路(ASIC)等等以硬件实现。此外,尽管被示为一起组合成一个单元1000,但是图10 中所示的一个或多个部件可以在外部实现。例如,大多数部件可以由捕获设备实现,其中一个或多个模块由一个或多个服务器计算机实现。因此,一些部件可以在移动设备上安装和执行,而其他部件发送到网络或云进行处理。音频接收部件1002例如通过麦克风接收音频,并且接收的音频信号可以根据需要进行放大或衰减。此外,音频接收部件1002可以接收预记录的音频文件或者外部产生或公布的流送音频序列。接收的音频可以来自任何来源,但是可能对于内容丰富的来源特别有用,所述内容丰富的来源例如谈话节目、呼入显示、新闻小时、讲座和研讨会、播客等等。音频处理部件1004可以执行接收的音频的特定处理,例如过滤掉不希望的信号的滤波。音频接收和处理部件一起处理接收的音频并且将其置入这样的形式,使得它可以由语音-文本部件1006最佳地转换成文本。例如,如果接收的音频处于模拟形式,那么音频接收和处理部件对音频数字化以产生数字化的音频流。如果接收的音频文件或音频流处于不希望的格式,那么这些音频部件可以将其转换成另一种格式(例如将较大的.wav文件转换成压缩的.MP3文件)。如果希望的音频部分是口语音频,那么这些音频部件采用带隙滤波器以从接收的音频中过滤高频和低频音频分量。语音-文本部件1006将接收的音频中的口头单词转换成文本。语音-文本部件也可以包括话音识别功能,其中针对一个特定的说话者或者一组特定的说话者训练系统以便试图标识说话的人并且基于说话者的已知兴趣、创作倾向和/或其他语音和发音模式更佳地识别正在说什么。存在许多现有的文本-语音部件,例如Nuance通信公司、IBM、微软等等生产的那些文本-语音部件。在一个实例中,音频接收部件1002是接收和放大无线电广播的麦克风,并且音频处理部件1004对音频低频和高频分量滤波,使得语音-文本部件 1006理想地仅接收希望的口语音频。语音-文本部件然后将口语音频转换成文本,该文本可以存储为文本文件以供进一步处理。文本分析部件1008使用一个或多个文本分析例程处理文本文件。例如,文本分析部件可以分析文本文件以确定用于文本文件的口头语言,并且然后处理该文本文件以执行校正,例如拼音检查、语法解析等等。因此,通过识别与口语音频关联的语言,系统可以标识最佳的字典以便帮助进一步的语音-文本转换以及基于拼音检查、语法校正等等的对得到的文本文件的可能的编辑或改进。文本分析部件可以通过针对特定标记物分析接收的音频而帮助确定文本文件中的主题或相关内容以便标识例如谈话节目内的重要主题。这些标记物可以代表话音的变化(例如升高的话音)、两个或更多人同时谈话、特定词语(例如“重要的是……”、“概而言之……”)的使用等等。这样的标记物可以代表文本文件的更多相关部分。音频处理部件可以在升高的话音、可能的同时说话者等等的接收音频实例中为文本文件标记指示。文本分析部件1008可以创建词语索引并且创建这样的词语的计数以便顺序地标识最常说出的词语。搜索引擎通过解析和存储文本而执行自动索引化以利于快速且精确的信息检索。在一个实例中,文本分析部件采用所有接收且转换的音频的全文本索引化以便产生自然语言文本文件,但是系统可以执行部分文本索引化以便限制索引化的深度以减小索引尺寸。总的说来,为文本文件创建和存储索引的一个目的是优化在分析接收的音频以便产生搜索查询方面的速度和性能。在没有索引的情况下,系统可能需要为执行的每个分析或查询扫描文本文件,这将需要相当的时间和计算能力。可以过滤常用的词语,例如冠词 (一、该),以及派生的(stemmed)词语,使得对语法上相似的词语分组(例如,分组所有的动词形式,比如“跳跃”、“正在跳跃”、“已跳跃”)。提取词干(stemming)是用于将屈折(或者有时是衍生)单词约简为它们的词干、基础形式或根部形式——通常为书写的单词形式的过程。词干无需与单词的形态学根部相同,而是仅仅相关的单词映射到或相应于相同的词干, 即使该词干本身不是有效的根部。提取词干的过程不仅在创建索引方面而且在产生用于搜索引擎的查询方面是有用的。文本分析部件1008可以不仅创建口语词语的索引,而且创建它们被说出时的时间。如下面所描述的,时间有助于创建视觉界面以便例如在音频节目过程期间向接收的音频的用户显示相关信息。文本分析部件也通过将相邻的词语分组成语法词组而帮助系统标识词组。例如,如果词语“湖”频繁地按时间紧紧出现在词语“伊利”之前,那么系统确定专有名词“伊利湖”比普通名词“湖”更可能,并且专有名词“伊利”用于城镇。文本分析部件可以将文本文件与字典进行比较以便标识专有名词,并且给专有名词排序更高或者以其他方式标记它们以供本文描述的附加处理。这些专有名词可以形成例如查询外部数据库以获取相关信息的基础。文本分析部件1008可以执行如本文指出的许多其他操作。例如,文本分析部件 1008可以试图过滤掉或删除不想要的信息,例如广告、站标识消息、公共广播消息等等。文本分析部件1008可以采用自动概括或自动摘取功能以便自动地生成接收的音频的摘要。自动概括包括通过提取过程或者摘取过程创建文本文件的缩短版本,其中产生的摘要理想地包含原始文本的最重要点。提取技术仅仅将系统认为最重要的信息拷贝到摘要(例如关键从句、句子或段落),而摘取涉及对文本文件的部分进行释义。通常,摘取可以比提取更加精简文本文件,但是可以这样做的过程典型地使用自然语言生成技术,这需要重大的处理能力并且可能产生不可接受的结果。文本分析部件1008可以分析文本文件以便试图标识离散的音频片段。例如,文本分析部件可以解析文本文件并且搜索指示主题的转变的常用词组,例如搜索文本词组“在相关问题上”、“现在转向……”、“这引发了另一个问题……”以及类似的语法构造。此外或者可替换地,文本分析部件可以基于文本文件中的单词的顺序和出现时间简单地执行这些单词的统计分析以记下给定时间间隔期间的与该时间间隔期间涉及的主题或内容相应的使用频率。当然,可以执行许多其他的文本分析技术以便自动地标识文本文件内的音频片段。查询生成部件1010获得来自文本分析部件的信息并且生成可以提交给搜索引擎的查询。在一个实例中,预定时间段期间最常用的一个或多个口语词语通过网络从移动设备传输到搜索引擎以便获得与接收的音频的内容相关的信息。查询生成部件可以通过自动地使用来自文本文件中的自然语言语句的词语频率考虑并且使用布尔连接器和布尔搜索公式来组合一定时间段内的常用词语而生成初始或种子查询。查询生成部件可以执行查询扩展或类似技术。查询扩展是重新制定种子查询以提高检索相关信息的性能的过程。查询扩展涉及评估系统创建的初始查询(选择了什么单词, 例如两分钟间隔内最常用的名词或名词词组)并且扩展搜索查询以试图获得附加的信息。 查询扩展涉及若干技术,例如寻找单词的同义词、通过对查询中的每个单词提取词干来寻找单词的所有不同的形态学形式、自动地搜索校正的形式(例如针对行话或俚语词组)、对原始查询中的词语重新加权以及将未被原始查询所包含的上下文信息添加到原始查询。如上面所指出的,文本分析部件1008和查询生成部件1010将文本文件或接收的音频流解析成代表来自接收的音频的内容的内容片段,例如音频节目期间引发的各个主题或者提到的名词,并且这些内容片段中的每一个用来生成一个或多个查询。然后,相关信息处理部件1012接收和处理系统检索的相关信息。在一个实例中,这包括接收相关信息并且将其提供给显示设备以便由用户观看。相关信息历史部件1014保持基于提交的查询而接收的所有相关信息的日志。这允许用户以后在对于该用户更方便的时间审查相关信息。因此,如果用户在驱车参加会议时正收听无线电广播,那么与该节目相关的所有信息可以被存储并且以后由用户在方便的时间观看。通信和路由部件1016处理信息的接收和路由。如上面所指出的,音频可以通过麦克风而被接收,或者作为通过网络接收的音频文件。同样地,相关信息可以在移动设备上接收和显示,或者路由到另一个设备。因此,用户可以请求系统通过通信部件1016路由相关信息以便在附近的设备(例如PC计算机、无线相框、膝上型计算机、电视机顶盒)上显示。因此,通信部件可以访问用于这样的设备的存储的电子地址以便允许路由相关信息,例如手机号码、URL、IP地址等等。本文例如在上面的第II和III节中描述了关于图10的部件的另外的细节。图11为用于处理接收的音频的例程1100。在步骤1102中,系统接收基于音频的信息,例如如上面所指出的现场或预记录的信息。在步骤1104中,系统通过音频处理部件 1004预处理接收的音频,例如滤波。在步骤1106中,系统使用例如语音-文本部件1006将音频转换成文本。在步骤1108中,系统基于接收的音频流的内容执行动作。如本文所描述的,该动作可以采取许多形式之一。图12为示出步骤1108中执行的步骤的流程图。在步骤1202中,系统使用例如文本分析部件1008标识搜索词语。在步骤1204中,系统使用例如查询生成部件1010进行查询或搜索。在步骤1206中,系统(例如通过通信和路由部件1016)接收相关信息或内容。在步骤1208中,系统将接收的和相关的信息输出到标识的设备以供显示,例如输出到捕获信息的设备。例如,通信和路由部件1016以及相关信息处理部件1012将相关的信息路由到用户的移动设备以及用户的个人计算机。图13示出了用于向用户显示补充信息的用户界面。系统可以在上面指出的任何显示设备上显示用户界面。相关信息处理部件1012可以生成图形时间线1302,该图形时间线被分段以便示出接收的音频内的不同内容块。在图13的实例中,音频从2:00:00延伸至 2:30:00,代表30分钟的音频节目。左手“上一个”箭头1304和右手“下一个”箭头1306允许用户指向和点击这些箭头以便审查前一个和下一个音频部分(例如上一个和后续30分钟的无线电广播)的图形表示。如文本所指出的,系统将文本文件解析成代表音频节目期间引发的各个主题或者来自接收的音频的内容的内容片段。这些内容片段中的每一个与系统生成的一个或多个查询以及系统检索的相关信息相应。各个内容片段中的每一个由显示的矩形片段表示,其前三个分别在图13中标示为1310、1314和1318。相关信息处理部件1012获得由相关信息历史部件1014索引且存储于存储器中的一组相关信息。在该实例中,响应于查询生成部件1010提供的查询而获得三页或三屏幕相关信息。提供的相关信息可以从至网页的简单链接显著地变化到从网站拷贝的一个或多个页面、到基于获得的相关信息而创建的一个或多个页面。创建的页面可以包括从一个或多个网站获得的相关信息,具有剪辑的广告、聚集到单个页面的多页文本、在创建的页面上整合为单独部分的画面等等。如图13中所示,每个页面或屏幕包括标识从其找到相关信息页面的地址的链接或URL,并且允许用户点击该链接并从而转到该页面。页面1312也包含从查询获得的文本和图像。
同样地,第二音频片段1314与单页1316文本相应,而第三音频片段1318与六个检索和存储的内容页面1320相应,每个内容页面具有链接、文本和图像。从每组堆叠的页面底部延伸且会聚到相应音频片段的直线在视觉上指示哪堆页面与每个音频片段关联。尽管未示出,但是每个音频片段可以包括由查询生成部件310创建的搜索查询以便帮助用户容易地确定每个音频片段的主题。因此,如果查询中的关键词语是“勃拉姆斯”,那么与该查询关联的显示音频片段被如此加标签。为了进一步帮助用户,相关信息处理部件1012可以创建与存储的相关信息相应的索引1322。如图所示,该索引代表所有音频片段以及接收和存储的相应相关信息的列表或表格。因此,第一音频片段相应于第一时间〈时间1>,接着是该内容的描述〈描述>1(例如查询),接着是获得的相关信息列表 < 相关信息列表1>。对于每个后续音频片段,在索引中找到类似的条目,例如 < 时间2>、〈描述2>和 < 相关信息列表2>。代替如图13中所示的那样被存储并且以后检查,接收的音频可以与其生成同时地接收,例如在讲座或现场无线电广播期间接收,并且因而系统可以同时地提供相关信息以便向用户显示。在该实例中,向用户显示的相关信息可以是最少的。例如,无线电广播可能正描述世界的当前騷乱并且提到非洲国家达尔富尔。系统然后可以提供到关于达尔富尔的维基百科页面的链接或者获取来自该页面的内容,但是历史部件将存储附加的相关信息以供以后观看。因此,用户可以例如在无线电广播期间通过用户的移动设备显示关于达尔富尔的维基百科页面,但是后来(例如当晚)走向她的个人计算机以观看已通过历史部件存储的关于达尔富尔的多个页面。当然,在接收的音频与得到的呈现给用户的相关信息之间可能存在时延。在一些情况下,系统认识到该时延并且向用户提供指示该延迟可能多大的反馈。在一些情况下,系统缓冲接收的音频以最小化延迟,以便使音频的呈现与任何呈现的信息同步。对于现场或实时接收的音频,相关信息处理部件可能没有足够的时间以精确地对音频内容消除歧义或者聚集音频内容,如图13中所示。这可能归因于移动设备上的处理限制、时间约束、接收的音频以及其中的音频内容的容量、在处理音频以提取文本时所采用的太多的处理开销(例如具有多个人类说话者和背景音乐的噪声非常大的环境)等等。结果, 系统可以简单地将接收的音频分段成周期性片段,例如两分钟宽的片段,并且提供与该片段期间解释的最常用的词语或词组关联的单页相关信息。用户可以具有放慢或加快接收的音频的分段以及因而向用户提供相关信息的速率的选项。在该同时显示实例中提供了很少的相关信息,因为该信息可能与音频内容不相关或者对于用户不重要。用户可以具有向系统输入可能具有若干功能之一的标志的机会。它可以命令系统提供关于接收的音频的内容的比典型情况更相关的信息。另一个标志可以简单地为要向用户显示的书签或视觉指示符。在图13的实例中,可以以红色或黄色加亮音频片段之一以便指示用户的标志,或者可以将标志与整个音频节目本身关联。另一个标志可以与购买接收的音频中标识的物品关联。例如,如果无线电节目提到图书,那么用户可以向移动设备提供自动地订购提到的图书的拷贝的、例如来自用户的 Amazon, com帐户的输入。另一个标志可以命令系统在关于相同的音频内容的后续文章或其他媒体(例如音频流)可用时发送通知给用户。这将允许用户跟随故事并且发现后续的事件。
也可以提供标志来执行其他动作。例如,一个标志可以使得系统自动地发送通知给用户(电子邮件、SMS、话音邮件等等)以便指示关于所述音频内容的电视节目安排在什么时间,并且另一个标志可以使得系统命令机顶盒或数字视频记录器记录节目。用户可以输入缺省和偏好。例如,用户可以规定相关信息来自特定来源或者处于特定格式(例如,当可用时,提供与音频内容关联的任何公共电视内容)。可以采用许多可替换的或附加的过程以增强系统的性能。例如,为了进一步帮助音频处理,系统可以帮助试图定位“最佳的”音频版本。如果用户例如在特定时间和日期期间收听国家公共电台,那么系统可以在■· npr. org访问该音频节目的文件或音频流。根据该音频,系统可能能够更精确得多地将语音转换成文本。如果系统有权访问例如可能在电视广播中可用的说话者嘴唇的视频文稿,那么系统可以通过执行帮助改进语音-文本转换的自动唇读而改进改进语音-文本转换。文本分析部件1008 (和/或语音-文本部件)可以分析上下文信息以执行更佳的文本分析(或语音-文本转换)。因此,系统可以分析与接收的音频关联的时间并且将该时间与日历或调度程序的日历条目进行比较以标识该音频可能与什么相关。如果用户的日历表明,在接收音频的时间,用户正在往返会议,那么系统可以假定用户在她的汽车里并且在驱车参加会议时正收听收音机。这将与表明用户参加关于玛雅文学的讲座的日历形成对照。文本分析部件也可以获得表明用户正以每小时60英里的速度移动的位置信息,进一步指示用户在她的汽车里。位置信息同样地可以用来帮助确定用户位于华盛顿大学,这可以指示用户在上她的玛雅文学课。如果出现冲突,例如用户移动设备上的本地日历与别处存储的远程日历之间的冲突,那么移动日历可以为准(control)。在另一个实例中,系统可以根据用户的日历确定在给定的时间和位置,用户应当正在参加医疗讲座。如果时间戳和地理坐标或类似元数据指示用户在预定的时间和预定义的位置,那么系统具有用户在参加她的医疗讲座的高概率。结果,系统可以采用医学字典以帮助更佳地将语音转换成文本。如上面所指出的,系统自动地试图对文本文件消除歧义并且标识其中的重要内容。例如,如果文本包含紧接“不可能的”且在词语“电影”附近的词语“任务”,那么系统确定说话者正谈及电影《不可能的任务》的较高概率。因此,查询生成部件可以获得关于电影 《不可能的任务》的相关信息,可能地具有放映时间和用户当前所处位置附近的影院位置。 事实上,系统可以试图积累来自接收的音频的内容并且将其应用到关于用户位置和接收的音频的时间戳之前和之后的矢量或模式的上下文信息。如果用户在她的办公地点达两个小时,然后以每小时30英里的平均速度离开她的办公室,接着停留在与用户的个人电话簿中的客户地址相应的位置,那么系统具有用户参加客户会面的高概率,并且因而接收的音频是来自与客户的会面,即使日历中没有列出这样的会面。移动设备的运动可以执行特定的动作。如果用户正在阅读膝上型计算机或数字阅读器(例如Amazon Kindle)上的图书,并且系统认识到用户已经从她的住宅移动到她的汽车并且开始驱车,那么系统可以命令汽车中的音频系统以音频形式重播图书。这可以通过让移动设备本地地或者从网络定位图书的音频拷贝并且通过无线链接将其提供给汽车中的头端音频单元来实现。可替换地,移动设备可以从图书的文本版本转换文本-语音,并且通过移动设备上的扬声器/蓝牙链接/音频插孔输出它或者将它提供给汽车中的头端单元,等等。系统可以例如在用户正在阅读的图书或文章现在在用户汽车中的一个或多个频道或无线电台/卫星频道上、在电视节目上可用的情况下自动地感测类似的上下文切换。查询部件可以实现数据查询和相关信息检索功能的层次结构以便帮助提高相关信息实际上与接收的音频相关且为用户感兴趣的概率。因此,如果无线电广播提到图书,那么查询部件可以检索关于该图书的作者的相关信息、该作者撰写的社论或作品批评、广播员提供的信息(如上面指出的)以及作为节目的结果而提供或生成的信息。这样生成的内容可以是讨论论坛、附加的呼入信息、开放论坛和其他音频信息以及可通过互联网获得的基于文本的信息(例如博客、RSS文稿、推特的帖子或者接收的音频中提到的图书、文章或出版物的其他版本)的形式。按照类似的方式,系统可以帮助自动地为用户创建帖子,使得用户可以公布她自己的反映她自己的关于音频内容的观点或贡献的关键频道。因此,用户可以通过博客、推特、拨入、播客等等自动地发布系统自动地检索且由历史部件存储的内容。采用该系统的不同用户于是可以通过社交网络社区而连接,使得他们可以在他们自己的“频道”上对彼此的贡献做出评价或投票、在彼此的频道上添加或校正信息以及帮助为其内容接收到更多投票、较少被第三方编辑的那些用户建立证书等等。如上面指出的,系统可以试图标识接收的音频的最佳版本。如果系统不能根据上下文(例如用户的位置、用户的运动、日时、日历条目等等)进行确定,那么系统可以试图根据音频中的模式来标识最佳的音频版本,所述模式可以与存储的音频文件中的模式进行比较。音频的模式可以代表静默及其时间、音频的动态范围的变化等等的模式,其代表音频文件的简单分析以开发用于该音频的基本上唯一的“签名”。因此,无需复杂的语音-文本处理,并且事实上只需分析音频的小部分。根据该签名,系统可以将计算的签名与签名数据库进行比较,其中所述数据库包括签名的表格和关联的音频文件。如果获得匹配,那么系统然后可以访问该短的音频文件并且执行语音-文本转换或者本文描述的其他处理,而不是试图基于具有较少保真度的噪声更多的接收的音频版本来执行这样的分析。总结
所述系统的实施例和实例的以上详细描述并非预期是详尽无遗的或者将该系统限于上面公开的精确形式。尽管上面出于说明的目的描述了该系统的特定实施例和实例,但是如相关领域技术人员将认识到的,各种不同的等效修改可能处于该系统的范围内。作为一个实例,尽管过程和功能块以给定的顺序给出,但是可替换的实施例可以执行具有不同顺序的步骤的例程或者采用具有不同顺序的功能块的系统,并且可以删除、移动、添加、细分、 组合和/或修改一些过程或功能块。这些过程或功能块中的每一个可以以各种各样的不同方式实现。此外,尽管过程或功能块有时被示为串行地执行,但是这些过程或功能块可以改为并行地执行,或者可以在不同的时间执行。尽管上面描述的许多实施例和实例采用存储在移动设备或其他计算系统内的有形存储介质上的软件,但是应用和过程可以硬编码到计算系统中(例如存储到EEPR0M、PR0M
等等中)。本文提供的系统的教导可以应用于其他系统,不必一定是上面描述的系统。上面描述的不同实施例的元件和动作可以组合以提供另外的实施例。所有上面的专利和申请以及其他参考文献,包括伴随的提交文件中可能列出的任何文献,都通过引用合并在内。所述系统的各方面可以经过修改(如果必要的话)以便采用上面描述的各个参考文献的系统、功能和构思以提供该系统的进一步的实施例。可以根据上面的具体实施方式
对系统做出这些和其他改变。尽管上面的描述详述了系统的特定实施例并且描述了设想的最佳模式,但是不管上述内容在文字中出现得如何详细,所述系统都可以以许多方式实施。因此,该系统的实际范围不仅包含所公开的实施例,而且也包含在权利要求书中实施或实现该系统的所有等效方式。尽管所述系统的特定方面在下文中以特定权利要求形式给出,但是本发明人预期系统的不同方面处于任何数量的权利要求形式中。例如,尽管仅仅系统的一个方面被记载为以计算机可读介质实施,但是其他方面同样地可以以计算机可读介质实施。因此,本发明人保留在提交本申请之后添加附加权利要求的权利以便针对系统的其他方面追求这样的附加权利要求形式。
权利要求
1.一种向用户提供相关信息的方法,由一个或多个第一计算设备执行,每个第一计算设备包括处理器和存储器,该方法包括当接收用户提供的文本时,由所述一个或多个第一计算设备中的至少一个重复地自动执行以下步骤监控接收的文本; 选择该文本的部分;至少部分地基于文本的选择的部分来形成查询;在没有用户对传输的特定请求的情况下,将所述查询传输到一个或多个第二计算设备中的至少一个;从所述一个或多个第二计算设备中的至少一个接收与查询相关的信息;以及由所述一个或多个第一计算设备中的至少一个显示相关信息。
2.权利要求1的方法,其中接收用户提供的文本包括作为生成文档的一部分而接收用户提供的文本。
3.权利要求1的方法,进一步包括选择要搜索的至少一个索引;以及至少部分地基于选择的索引来选择所述一个或多个第二计算设备。
4.权利要求1的方法,其中接收用户提供的文本包括接收由所述一个或多个第一计算设备光学捕获的文本。
5.权利要求1的方法,其中至少部分地基于文本的选择的部分来形成查询包括形成包含与文本的选择的部分中的单词不同的单词的查询。
6.权利要求1的方法,其中至少部分地基于文本的选择的部分来形成查询包括形成与文本的选择的部分关联的第一查询并且形成与文本的选择的部分周围的文本关联的第二查询。
7.权利要求1的方法,其中选择文本的部分包括由所述一个或多个第一计算设备光学捕获再现的文档上印刷的文本;并且其中至少部分地基于文本的选择的部分来形成查询包括根据捕获的文本标识所述再现的文档并且至少部分地基于标识的文档形成查询。
8.权利要求1的方法,其中文本包括句子并且其中选择文本的部分包括标识该句子的多个成分并且选择所述多个成分中的至少一个作为文本的选择的部分。
9.一种计算机可读介质,其内容使得一个或多个第一计算设备执行一种提供相关信息的方法,该方法包括监控接收第一信息;分析第一信息;基于该分析,形成查询;在没有接收明确请求的情况下将所述查询传输给一个或多个索引;从所述一个或多个索引接收与第一信息相关的第二信息;以及由所述一个或多个第一计算设备中的至少一个的信息输出设备提供所述第二信息。
10.权利要求9的计算机可读介质,其中第一信息由字处理应用接收。
11.移动设备中的用于显示与再现的文档关联的内容的方法,该方法包括捕获来自再现的文档的文本的部分; 基于捕获的文本,标识所述再现的文档; 确定所述再现的文档与一个或多个电子内容源关联;以及呈现来自关联的一个或多个电子内容源的内容。
12.权利要求11的方法,其中确定所述再现的文档与一个或多个电子内容源关联包括标识与标识的再现的文档关联的标志并且定位包含与标识的标志相关的内容的内容源。
13.权利要求11的方法,其中捕获来自再现的文档的文本的部分包括使用移动设备的成像部件来光学捕获文本的所述部分;并且其中呈现来自关联的一个或多个电子内容源的内容包括通过移动设备的显示部件显示代表所述关联的一个或多个电子内容源的图形元素。
14.权利要求11的方法,其中确定所述再现的文档与一个或多个电子内容源关联包括响应于所述再现的文档的标识而自动地确定所述一个或多个电子内容源。
15.移动设备中的用于与电子内容源交互的系统,该系统包括光学捕获部件,其中该光学捕获部件被编程为使用移动设备的成像部件来捕获来自再现的文档的信息;文档标识部件,其中该文档标识部件被编程为基于捕获的信息来标识再现的文档;以及内容标识部件,其中该内容标识部件被编程为响应于从文档标识部件接收的指示再现的文档被标识的信息而自动地标识与标识的再现的文档关联的内容源。
16.权利要求15的系统,进一步包括内容源部件,其中该内容源部件被编程为基于从移动设备的用户接收的输入来更新标识的内容源。
17.一种用于响应于音频信息而提供补充信息的方法,该方法包括 接收音频信息,其中该音频信息包含口语信息;将该口语信息转换成文本;处理该文本以标识至少一个内容项;以及基于该内容项,获得补充信息。
18.权利要求17的方法,其中音频信息通过麦克风实时地接收,其中所述处理包括生成查询且将该查询提交给基于web的搜索引擎,并且其中该方法包括响应于该查询而提供从基于web的搜索引擎接收的至少一些补充信息以供显示。
19.一种计算机可读介质,其内容在由计算系统执行时使得该计算系统执行一种用于执行与音频流关联的动作的方法,该方法包括捕获来自音频流的信息,其中捕获的信息包含口语内容;基于捕获的信息来标识要执行的动作,其中该动作与来自音频流的信息或者音频流的来源关联;以及执行该动作。
20.权利要求19的计算机可读介质,其中基于捕获的信息来标识要执行的动作包括标识与捕获的信息关联的视觉内容;并且其中执行该动作包括通过与计算系统关联的显示器显示标识的视觉内容。
21.权利要求W的计算机可读介质,其中基于捕获的信息来标识要执行的动作包括标识与捕获的信息关联的内容;并且其中执行该动作包括将标识的内容存储在与音频流关联的日志中,该日志将音频流中的时间位置与标识的内容相关。
全文摘要
描述了一种用于自动地提供与捕获的信息关联的内容的系统和方法。在一些实例中,系统接收用户的输入,并且自动地提供与输入关联的内容或者到该内容的链接。在一些实例中,系统通过文本输入或者通过从再现的文档(例如印刷文档)、对象、音频流等等中捕获文本而接收输入。
文档编号G06Q50/00GK102349087SQ201080011222
公开日2012年2月8日 申请日期2010年3月12日 优先权日2009年3月12日
发明者J. 达利-沃森 C., 彼得森 J., J. 史密斯 M., T. 金 M., 桑维泰尔 M., 斯蒂芬斯 R., 克雷斯-弗雷德里克·曼比 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1