使用听觉信号捕获和呈现文本的制作方法

文档序号:6454998阅读:130来源:国知局

专利名称::使用听觉信号捕获和呈现文本的制作方法
技术领域
:公开的实施例一般涉及设计成帮助有某些缺陷的人并增强这些人的独立性的自适应技术的领域。具体而言,公开的实施例涉及协助把文本处理成可听见的声音的系统,以供那些遭受诵读困难、弱视或者其它有阅读困难的缺陷的人使用。
背景技术
:现代社会严重依赖基于模拟文本(analogtext)的信息来传递和记录知识。然而,对于为数不少的人来说,即使并非不可能,阅读仍是令人生畏的。这种人包括那些有学习障碍(LD)、失明以及由糖尿病视网膜病变、白内障、与年龄相关的黄斑变性(AMD)、青光眼等所造成其它视觉损伤的人。目前的研究表明在20人中至少1人患有诵读困难(LD的一种常见形式),且IO人中至少1人受到使人读或写字符受限的其它形式的LD所影响。LD是影响人执行例如阅读和拼写等的语言动作的能力的遗传神经生理学差异。这种残疾在不同的个体中可以表现出具有不同剧烈程度的不同症状。如诵读困难之类的LD的确切起因和病理生理学仍存在争议,并且迄今为止尚未找到使状况完全康复的治疗方法。通常,将受LD影响的个体纳入针对调整学习以尽力帮助此类个体以常规方式阅读的治疗程序。虽然,早期诊断是帮助LD个体成功的关键,但是由于缺乏对该残疾的系统性检测,仍在很多成年人和儿童中有未发现的状况。对于大多数来说,针对LD的现代方法一直是从教育的角度出发,希望强制受LD影响的人们象其他人一样学习。这些方法导致多种多样的结果,因为LD是基于生理方面的。纯粹的意志或决心不足以重写大脑和使竟争环境^^平。本公开的实施例通过提供一种帮助受LD影响的个体的备选方法以解决此问题。除了LD群体之外,还有巨大的并且正在增加的弱视或者无视力人群。他们中的许多是老年人并且受影响的群体将在后20年中随着婴儿潮达到70岁及以上而增加。根据美国国立卫生研究院(2004),许多个体有视力减弱或者可能发生视力减弱的状况,例如,糖尿病的视网膜病、白内障、老年或者中年AMD以及青光眼。见附表统计。另外,三百三十万人因其它原因失明或者存在弱视。这些群体遭受的无能力去读和阅读可以对这些个体的日常生活产生破坏性的影响。例如,阅读困难可以妨碍简单动作和活动的执行,并使得受影响的个体丧失对基于文本的重要信息的获取、独立性和相关的自尊。这样,就存在一种技术需求,可以帮助LD群体容易地获取基于文本的信息。<table>tableseeoriginaldocumentpage11</column></row><table>本公开的实施例被设计来满足LD群体和弱视或者无视力群体的至少一些需要。
发明内容本发明的一方面包括一种用于捕获在对象上发现的文本的设备。本设备包含图像捕获子系统,该图像捕获子系统包括配置成捕获多个图像以形成视频流的视频照相机。本图像捕获子系统配置成从视频流产生主图像。本设备又包含光学字符识别("OCR")子系统,该OCR子系统配置成处理主图像以形成对应于对象上的至少一些文本的数字文本。本发明的另一个方面包括一种用于捕获在对象上发现的文本的系统。本系统包含包含配置成捕获多个图像以形成视频流的视频照相机的图像捕获子系统,其中该图像捕获子系统配置成从视频流产生主图像;配置成从该主图像创建数字文本的文本捕获冲莫块;以及配置成将i某体类型与在对象上发现的文本关联的材料上下文组件,其中该系统配置成根据々某体类型组织此数字文本。本发明的另一方面涉及,其中外壳包含OCR子系统和图像捕获子系统的特征。本发明的另一方面涉及,其中文本阅读器系统配置成将数字文本转换为多种输出格式的特征。本发明的另一方面涉及,其中外壳包含文本读取系统、OCR系统和图像捕获子系统的特征。本发明的另一方面涉及,其中图像捕获子系统包括配置成确定该设备是否与该对象的表面水平的水平检测器的特征。本发明的另一方面涉及,其中水平检测器配置有指示器用于在该设备与对象表面成合适的角度时发出信号的特征。本发明的另一方面涉及,其中图像捕获子系统还包括配置成当捕获多个捕获的图像时补偿设备的不稳定定位的图像稳定器的特征。本发明的另一方面涉及,其中图像捕获子系统还包括配置成为OCR处理优化多个捕获的图像的色差检测器的特征。本发明的另一方面涉及,其中图像捕获子系统还包括配置成在捕获之前改变图像的变焦装置(zoom)的特征。本发明的另一方面涉及,其中图像捕获子系统还包括焦距调节器的特征。本发明的另一方面涉及,其中图像捕获子系统还包括光圈调节器的特征。本发明的另一方面涉及,其中光圏调节器配置成与焦距调节器一起操作来改变其中对象呈现的景深的特征。本发明的另一方面涉及,其中图像捕获子系统还包括可调快门的特征。本发明的另一方面涉及,其中视频照相机有在设备内倾斜使得自动可调镜头与对象的表面水平的一个或多个自动可调镜头的特征。本发明的另一方面涉及,其中图像捕获子系统还包括光源的特征。本发明的另一方面涉及,其中文本阅读器系统还配置成翻译数字文本的特征。本发明的另一方面涉及,其中输出格式是不同于在对象上所发现语言的语言的特征。本发明的另一方面涉及,其中输出格式是从语音、布莱叶盲文和显示大字印刷文本的组中选择的特征。本发明的另一方面涉及,其中从不平坦对象捕获文本的特征。本发明的另一方面涉及,在本设备中包含存储器。本发明的另一方面涉及,其中该存储器配置成存储从由字典、辞典、拼写检查程序和词汇表组成的组中选择的元素的特征。本发明的另一方面涉及,其中存储器配置成存储来自于数字文本的多个关4建信息的特征。本发明的另一方面涉及,其中存储器还配置成能够允许对多个关键信息进行搜索的特征。本发明的另一方面涉及,其中显示器配置成显示数字文本的特征。本发明的另一方面涉及,其中文本阅读器系统还配置成在显示器上呈现第一输出格式的特征。本发明的另一方面涉及,其中文本阅读器系统还配置成呈现语音形式的第二输出格式的特征。本发明的另一方面涉及,其中文本阅读器系统还配置成将第一输出格式与第二输出格式同步的特征。本发明的另一方面涉及,其中文本阅读器系统还配置成在读第二输出格式的对应文本时强调第一输出格式的文本的特征。本发明的另一方面涉及,其中材料上下文组件还配置成将布局格式与^某体类型关联的特征。本发明的另一方面涉及,其中材料上下文组件还配置成评估媒体类型和布局格式以确定在对象上发现的文本的布局的特征。本发明的另一方面涉及,其中存储组件配置成存储组织的数字文本的特征。本发明的另一方面涉及,其中输出组件配置成将组织的数字文本转换为输出格式的特征。本发明的另一方面涉及,其中从由书、报纸、药丸瓶、处方、饭店菜单和街道标志组成的组中选择々某体类型的特征。本发明的另一方面涉及,其中布局格式包括从由列、脚注、图片、标题、文本大小和文本颜色组成的组中选择的元素的特征。本发明的另一方面涉及一种用于捕获在对象上发现的文本以形成数字文本的方法。该方法包含捕获此对象的多个图像从多个图像形成视频流;从视频流产生主图像;以及处理此主图像以形成数字文本。本发明的另一方面涉及,将^(某体类型与在对象上发现的文本关联。本发明的另一方面涉及,根据i某体类型组织数字文本。本发明的另一方面涉及,将布局格式与》某体类型关联。本发明的另一方面涉及,评估々某体类型和布局格式以确定在对象上发现的文本的布局。本发明的另一方面涉及,管理数字文本以用于后续访问。本发明的另一方面涉及,将用于呈现的数字文本转换为输出格式。本发明的另一方面涉及,翻译数字文本。本发明的另一方面涉及,翻译数字文本,其中输出格式是不同于在对象上所发现的文本的语言。本发明的另一方面涉及,翻译数字文本,其中输出格式是从由语音、布莱叶盲文和显示大字印刷文本组成的组中选择的。本发明的另一个方面涉及,显示第一输出格式以及将第二输出格式作为语音发出。本发明的另一个方面涉及,将第一输出格式与第二输出格式同步。本发明的另一方面涉及,在读第二输出格式的对应文本时强调第一输出格式的文本。本发明的另一方面涉及,存储从由字典、辞典、拼写检查程序和词汇表组成的组中选择的元素。本发明的另一方面涉及,存储来自于数字文本的多个关键:信息。本发明的另一方面涉及,允许对多个关键信息进行搜索。本发明的另一方面涉及,>火不平坦的对象捕获文本。本发明的另一方面涉及,创建用于成像的环境。本发明的另一方面涉及,照亮对象。本发明的另一方面涉及,调整焦距。本发明的另一方面涉及,在将对象成像时使用图像滤波器(imagefilter)来增强对比度。本发明的另一方面涉及,通过照亮对象、自动调整焦距和使用图像滤波器来增强多个捕获的图像。本发明的另一方面涉及,通过在照亮对象、自动调整焦距和使用图像滤波器时实现反馈环路来增强多个捕获的图像。本发明的另一个方面涉及,一种呈现在基本平坦的对象上发现的文本的系统。本系统包含配置成定位用于成像的基本平坦的对象的对象操作子系统;配置成捕获基本平坦的对象的图像的成像才莫块;配置成从该基本平坦的对象的图像捕获文本的文本捕获才莫块;配置成将文本转换为数字文本的OCR组件;配置成将纟某体类型与在基本平坦的对象上发现的文本关联的材料上下文組件;以及配置成将数字文本转换为输出格式的输出才莫块,其中该系统配置成在将数字文本转换为输出格式之前根据々某体类型组织数字文本。本发明的另一方面涉及,一种用于捕获在对象上发现的文本的系统。该系统包含配置成定位用于成像的对象的对象操作^t块;配置成将对象成像的成像4莫块;配置成从对象的图像捕获文本的文本捕获模块;配置成将来自于对象的文本转换为数字文本的OCR组件;以及配置成组织数字文本以保持对象上的文本布局的材料上下文组件。本发明的另一方面涉及,一种用于捕获在不平坦的对象上发现的文本的系统。本系统包含配置成将用于成像的不平坦的对象定位的对象操作模块;配置成从不平坦的对象捕获文本的成像模块;以及配置成将文本转换为数字文本的OCR组件。本发明的另一方面涉及,用于捕获在对象上发现的文本的系统。本系统包含配置成操作对象的翻页组件;配置成将对象定位的取景组件;配置成增强对象的对比度的灯配置成产生勾边图像的聚焦组件;配置成产生对象的图像的图像捕获组件;配置成将图像转换为OCR适合的图像的转换组件;配置成处理OCR适合的图像以创建排版页扫描的图像排版组件;配置成创建调节的图像的图像调节组件;配置成将调节的图像转换为数字文本的OCR组件,其中数字文本存储在第一数据结构中;配置成组织第一数据结构以保持(retain)对象上的文本的布局的材料上下文组件;配置成将第一数据结构存储为第一存储的数字文本的存储组件;配置成管理从存储组件访问第一存储的数字文本的库管理程序组件;以及配置成包含翻页组件、取景组件、灯、图像捕获组件、转换组件、图像排版組件、图像调节组件、OCR组件和材料上下文组件的外壳。本发明的另一方面涉及,其中材料上下文组件还配置成将布局格式与i某体类型关联的特征。本发明的另一方面涉及,其中材料上下文组件还配置成评估々某体类型和布局格式以确定在对象上发现的文本的布局的特征。本发明的另一方面涉及,其中图像增强才莫块为基本平坦的对象的成像创建环境的特征。本发明的另一方面涉及,其中输出格式从由语音、布莱叶盲文和显示大字印刷文本组成的组中选择的特征。本发明的另一方面涉及,其中文本捕获才莫块还配置成从多个图像捕获文本的特征。本发明的另一方面涉及,其中输出;f莫块配置成将数字文本转换为输出格式的特征。本发明的另一方面涉及,其中文本捕获冲莫块还配置成从多个图像捕获文本的特征。本发明的另一方面涉及,其中输出模块还配置成翻译数字文本的特征。本发明的另一方面涉及,其中输出格式是不同于在对象上所发现的文本的语言的特征。本发明的另一个方面涉及,其中输出格式还配置成显示第一输出格式并且在读的时候发出第二输出格式的特征。本发明的另一方面涉及,其中输出;f莫块还配置成将第一输出格式与第二输出格式同步的特征。本发明的另一方面涉及,其中输出模块还配置成在读第二输出格式的对应文本时强调笫一输出格式的文本的特征。本发明的另一方面涉及,其中数据模块还配置成管理数字文本以用于后续访问的特征。本发明的另一方面涉及,其中数据模块还配置成管理对数字文本的访问的特4i。本发明的另一方面涉及,其中输出模块配置成将数字文本转换为输出格式的特征。本发明的另一方面涉及,其中输出模块还配置成翻译数字文本的特征。本发明的另一方面涉及,其中输出格式是不同于在不平坦的对象上发现的文本的语言的特征。本发明的另一方面涉及,其中输出格式从由语音、布莱叶盲文和显示大字印刷文本组成的组中选择的特征。本发明的另一方面涉及,其中输出格式是语音并且作为打印文本显示的特征。本发明的另一方面涉及,其中外壳还配置成包含存储组件的特征。本发明的另一方面涉及,其中外壳还配置成包含库管理程序组件的特征。本发明的另一方面涉及,其中输出组件配置成将第一存储的数字文本转换为输出格式的特征。本发明的另一个方面涉及,一种用于呈现在基本平坦的对象上发现的文本的方法。本方法包含定位基本平坦的对象用于成像从基本平坦的对象捕获图像;将图像转换为数字文本将々某体类型与在基本平坦的对象上发现的文本关联;根据媒体类型组织数字文本;以及将数字文本转换为输出格式。本发明的另一个方面涉及,一种用于捕获在对象上发现的文本的方法。本方法包含定位对象用于成像;捕获对象的图像将图像转换为数字文本;将i某体类型与在对象上发现的文本关联以及根据纟某体类型组织数字文本。本发明的另一个方面涉及,一种用于捕获在不平坦的对象上发现的文本的方法。本方法包含定位用于成像的不平坦的对象;从不平坦的对象捕获图像;以及将图像转换为数字文本。本发明的另一方面涉及,一种用于捕获在对象上发现的文本的方法。本方法包含操作对象来显露对象的期望部分用于成像;对对象取景用于成像;照亮对象以增强对比度;聚焦于对象;捕获对象的图像;将图像转化为OCR适合的图像;处理OCR适合的图像以创建排版页扫描;调节排版页扫描以创建调节的图像;将调节的图像转换为数字文本;在第一数据结构中存储数字文本;组织第一数据结构以保持在对象上的文本的布局;以及将第一数据结构存储为第一存储的数字文本。本发明的另一方面涉及,将布局格式与々某体类型关联。本发明的另一方面涉及,评估媒体类型和布局格式以确定在基本平坦的对象上发现的文本的布局。本发明的另一方面涉及,管理数字文本以用于后续访问。本发明的另一方面涉及,创建用于成像的环境。本发明的另一方面涉及,将多个图像转换为数字文本。本发明的另一方面涉及,>夂人由语音、布莱叶盲文和显示大字印刷文本组成的组中选择输出格式。本发明的另一方面涉及,将布局格式与々某体类型关联。本发明的另一方面涉及,评估々某体类型和布局格式以确定在对象上发现的文本的布局。本发明的另一方面涉及,管理数字文本以用于后续访问。本发明的另一方面涉及,将用于呈现的数字文本转换为输出格式。本发明的另一方面涉及,翻译数字文本。本发明的另一方面涉及,将输出格式转换为不同于在对象上所发现的文本的语言。本发明的另一方面涉及,照亮对象。本发明的另一方面涉及,调整焦距以变化景深。本发明的另一方面涉及,在将对象成像时使用图像滤波器来提高对比度。本发明的另一方面涉及,通过照亮对象、自动调整焦距和使用图像滤波器来增强多个捕获的图像。本发明的另一方面涉及,通过在照亮对象、自动调整焦距和使用图像滤波器时实现反馈环路来增强多个捕获的图像。本发明的另一方面涉及,管理数字文本以用于后续访问。本发明的另一方面涉及,将用于呈现的数字文本转换为输出格式。本发明的另一方面涉及,组织数字文本以保持对象上的文本布局。本发明的另一方面涉及,将々某体类型与在对象上发现的文本关联。本发明的另一方面涉及,根据々某体类型组织数字文本。本发明的另一方面涉及,将布局格式与々某体类型关联。本发明的另一方面涉及,评估々某体类型和布局格式以确定在对象上发现的文本的布局。图1提供本发明的一些实施例的高度概述。图2A和2B图解本发明的示例手持实施例的正^L图和侧视图。图3A和3B图解图2A和2B所示装置的后视图和俯视图。图4A和4B提供在打开的配置中的示例独立实施例的等距视图和闭合配置中的独立实施例的俯视图。图5A、5B和5C提供4A和4B所示独立实施例的侧视图、外部前板的放大图以及内部背板的放大图。图6示出能被本发明的示例实施例捕获和/或处理的含有黑色文本白色背景的书的样本页。图7示出能^皮本发明的示例实施例捕获和/或处理的彩色杂志刊物的样本页。图8A、8B和8C图解示例独立实施例的示意图。具体实施例方式本发明描述用于捕获文本和使用听觉信号来呈现文本的方法、系统、设备和图像用户接口。参考本发明的一些实施例,附图中阐图解了其示例。虽然结合实施例描述了本发明,但是应该理解这无意将本发明限制于这些特定实施例。相反,本发明要覆盖由所附权利要求所限定的本发明的精神和范围内的替换、修改和等效物。而且,在以下的说明中,为透彻地理解本发明,阐述了许多具体细节。然而,对本领域技术人员显而易见是,没有这些具体细节也可以实施本发明。在其它情况下,没有详细"i兌明本领域技术人员公知的方法、过程和组件,以免妨碍对本发明多个方面的理解。根据一些实施例,提供了一种允许系统将来自文档或者其它对象的文本读给人的系统。系统概述图1提供本发明的一些实施例的高度概述。图1的系统包括对象操作子系统102、成像子系统104、数据子系统106、以及输出子系统108。子系统102-108包括以软件、硬件或软>哽件结合的方式实现的组件。对象操作子系统102包括诸如取景(fmming)110、页照明(pagelighting)112、聚焦114和翻页(pageturning)116的功能组件。成像子系统104包括诸如图像捕获118、页排版(pagecomposition)120、图像调节(imageconditioning)122和OCR124的功能组件。数据子系统106包括诸如材料上下文(materialcontext)126、存储器128和库管理程序(librarian)130的功能组件。输出子系统108包括诸如文本到语音132、布莱叶盲文(Braille)机134、大的打印显示器136和翻译器(未示出)的功能组件。取景组件110帮助定位书或其它对象以使实施例的照相机组件能够获取书的页或对象的表面的适合图像。可以使用引导机构来定位书或其它对象。引导机构的非限制性示例包括机械式页引导和光投影(下文中参考页照明组件112作进一步说明)。页照明组件112确保使用最佳照明以获得高对比度(或其它合适的对比度)的图像。作为非限制性示例,可以使用集成到系统中的LCD光源来提供合适的照明。例如,对于彩色图像,页照明112最优地提供自然光语的光。另外,页照明组件112所提供的光投影可以通过建立(laydown)光影图像(lightandshadowimage)来引导书相对于成像装置的图像取景器的放置来用作书或其它对象的取景引导。聚焦组件114提供用于产生勾边图像的焦距的自动调整。例如,对于光学字符识别("OCR")应用,高光圈系数是符合需要的。这样,聚焦组件114将焦距调整到高光圈系数值来生成要应用光学字符识别的图像。聚焦组件l14可以包括微距聚焦特征用于近距摄影调焦。根据一些实施例,聚焦可以手动或者自动完成。在自动聚焦的情况,可以在反馈环路中结合成像子系统104使用计算机软件或者计算机硬件或者计算机软件和硬件的结合来完成期望的聚焦。翻页組件116包括自动翻页器,用于自动地翻页以便将书的每一页显露给本系统的成像设备以获得显露的页的图像。根据一些实施例,翻页组件116可以包括用户可以通过按按^L来选择翻页的半自动翻页器。翻页组件116与成像子系统104同步,从而在页被翻到新页时成像子系统104能意识到新页。响应于新页,成像子系统104捕获新页的图像。可对每一新页进行照明和焦距调整。翻页组件116使书、杂志或者其它印刷材料的自动数字化成为可能。因此,用户可以将书放在本设备中并且允许本设备在指定时间内无人看管运行。在稍后的时间,用户可以回来收集该书内容的数字化版本。如果需要,该数字化的内容可以转移到另外的个人设备,并且/或者转换为不同的数据格式,比如MP3或另一音频文件格式。无需用户输入而取景、翻页和组织内容的能力是一些实施例的重要方面。图像捕获组件118捕获页或者其它对象的图像并且将该图像转换为适合光学字符识别的格式。作为非限制性的例子,图像捕获组件118可以用照相的方式捕获图像然后将捕获的图像转换为位图。作为另一个非限制性的例子,图像捕获组件118可以捕获流式视频并且将该流式视频转换为合并的图像。图像捕获组件118可以自动配置成使成像设备旋转以解决给定页的表面弯曲;基本平坦的对象很少有表面弯曲,然而不平坦的对象在它们的表面上有较大的表面弯曲。一个将使该概念显而易见的例子是图6,它的页被描述为不平坦的结构。图像捕获组件l18包括用于选择最佳图像的图像处理软件。与图像捕获组件关联的成像装置可以包含多个可变焦距的镜头。扫描来处理捕获的图像。例如,页排版组件120识别在杂志的不同文章间的逻辑边界,并且可以在该页上的图片和文本间进行区分。此外,页排版组件120确定字体大小、页面方式、特殊的页轮廓,等等。例如,杂志的页面方式通知页包括按列组织的不同文章的段落。特殊的页轮廓的一个例子是华尔街日报印刷报纸的页轮廓。图像调节组件122对捕获的图像应用图像滤波器以改进光学字符识别性能。例如,图像调节组件122可以根据页的不同部分的色彩提高页的不同部分的对比度。此外,图像调节组件122可以包括有页照明组件112以及聚焦组件114的反馈环路用于优化图像调节处理。OCR组件124将经调节的图像转换为数字文本。OCR组件124包括将文本的特性和/或客户的特性纳入考虑的几个引擎。作为非限制性的例子,需要用特殊的引擎来处理法律、医学的和外文文本。可能需要不同的引擎用来根据系统中可用的处理能力来创建不同版本的数字文本。例如,可以为处理能力有限的平台创建薄的或者轻的版本。材料上下文组件126将与数字文本关联的数据结构组织成适于给定的i某体类型的形式,以便保持与对象上的文本对应的文本布局。例如,在书々某体类型的上下文中,数据结构^支組织成对应于书的布局格式,即有脚注的章节。在杂志媒体类型情况下,数据结构被组织成对应于文章的布局结构。在用于医学处方的标签々某体类型情况下,OCR组件可以将文本的关键元素标记为"医生姓名,,或者"医院电话号码",用于随后由搜索功能使用。此外,材料上下文组件126有能力根据涉及不同4某体类型的布局格式的一组预定义上下文轮廓来组织数据结构。根据一些实施例,材料上下文组件126可以配置成根据用户行为来学习轮廓。存储组件128存储数字文本以及用于组织和引用数字文本的关联元数据。此类数据可以采用本领域中公知的任何适合格式存储在与系统关联的存储器中。本实施例中采用的存储器包括任何适合类型的存储器和数据存储装置。一些例子包括作为计算机可读的存储器的可移动的磁纟某体或光存储々某体,例如磁盘或磁带。.库管理程序組件130管理对于存储的数字文本的访问。库管理程序組件130提供一个或多个功能性,比如浏览、分类、加入书签、突出显示、拼写检查、搜索、以及编辑。库管理程序组件130可以随意地包括具有语音功能的的字分析器,该具有语音功能的字分析器有权访问辞典和包括例如法律、医学、化学和工程字典的多个字典。该用户可以选择按不同的格式输出数字文本。例如,文本到语音组件132可用于将数字文本转换为语音。布莱叶盲文机134可用于将数字文本转换为布莱叶盲文。用户有利用显示组件136将数字文字转换为用于大字印刷显示的格式的选择权。此外,根据一些实施例,用户有将数字文本翻译为不同语言以供作为语音、布莱叶盲文或大字印刷输出的选择权。作为本文更详细地描述,一些实施例包括外壳、图像捕获系统以及存储器。在一些实施例中,外壳包括使用户可以佩戴该设备的机械装置。本领域中公知的任何机械装置(例如带子回形针、腕带等等)都可用来完成此目的。在一些实施例中,外壳框架祐:设计为以帽舌的形式适合用户。系统特征成像子系统配置成以数字方式捕获基于文本的图像用于随后的OCR处理。如这里所使用,术语"捕获(动词)"或者"捕获(名词)"指的是捕获视频流或者对图像拍照并且区别于扫描。视频处理,拍照和扫描之间的区别对于本领域技术人员来说是清晰的并且是容易理解的,但是为明确起见,扫描涉及将要记录的印刷材料贴着玻璃表面平放或者在页的表面移动扫描装置。相对于扫描,与通过数字摄影捕获基于文本的图像相关的优势包括更为容易使用和更为可调整。不同于使用扫描器的情况,本成像装置不需要平直地贴着要^f支成像的表面放置,因此允许用户具有将成像装置离上述表面保持一段距离的自由和灵活性,例如,远离书页一英尺以上的距离。因此,这样的成像装置足够适于对例如药丸瓶或展开的餐馆菜单这样的不平表面成此,本发明的一些实施例可以从平坦的和不平坦的对象捕获图像。用这样的方式捕获图像能够快速获取数字图像并且允许自动或半自动翻页。在难于扫描的物品(例如药丸瓶)的情况中,与成像子系统关联的软件模块调节低于扫描完美的图像用于OCR处理。这样,用户具有在宽范围条件下使用本装置的灵活性。根据一些实施例,成像子系统包括电源、多个镜头、水平检测机构、变焦距机构、用于改变焦距的机构、用于改变光圈的机构、视频捕获单元(例如应用于闭路电视摄像机的那些视频捕获单元)以及快门。电源可能是电池、交流电、太阳能电池或者本领域中公知的任何其他的方式。在本发明一些实施例中,电池寿命延续最少两小时。在其它的实施例中,电池寿命延续最少四小时。然而在其他的实施例中,电池寿命延续最少十小时。为了优化捕获的图像的质量,一些实施例包括确定成像装置是否与被成像的表面水平的水平检测机构。本领域中公知的任何水平检测机构可用于此目的。水平检测机构与指示器通信,指示器以信号告知用户何时该装置相对于成像的表面处于适合的角度(或反之处于不适合的角度)。指示器使用的信号可以是视觉的、声音的或者触觉的。一些实施例包括至少一个自动可调镜头,该自动可调镜头可以在装置内部按不同的角度倾斜,使得与被成像的表面水平以及补偿用户的误差。为避免近距离处图像失真,一些实施例包括多个镜头,其中一个是微距镜头,以及变焦距机构,比如数字和/或光学变焦距。在一些实施例中,本装置包括以布拉格几何学操作的镜头,比如布拉格镜头。实施例可以包括用于改变焦距的机构和用于在预定范围内改变光圈以创建不同的景深的机构。图像子系统^皮设计来完成宽的焦深以用于在与成像装置不同的距离处捕获基于文本的图像。这样,本装置适应于捕获从街道标志到书页的对象。根据一些实施例,成像装置的最小焦深对应于光圏系数5.6。在一些实施例中,成像装置具有光圈系数为10或者更大的焦深。在一些实施例中,成像装置提供电子或机械的快门,并且还提供用于在预定范围内调整快门速度的机构。在一些实施例中,成像装置具有最小的快门速度l/60秒。在其它实施例中,成像装置具有最小快门速度1/125秒。一些实施例包括用于改变成像装置的ISO速度以在不同照明条件下捕获基于文本的图像的机构。在一些实施例中,成像装置包括用来补偿用户成像装置的不稳定的位置的图像稳定机构。除一次照相捕获模型外,一些实施例还包括用于连续视频捕获的视频单元。例如,可以使用视频捕获单元记录图像的短片并且处理该图像的短片以从视频流的合成中生成一个主图像。这样,可以在多个数字视频图像中记录不平坦的表面(例如展开而没有平放的报纸)并且通过在被成像的表面之上緩慢移动本装置来精确捕获它。成像子系统的软件组件能因此从视频流构建最终整合的合成图像以用于后续OCR处理来实现强化的精确度。类似地,可以处理输入到成像子系统的流式视频以用于后续OCR处理。执行上述功能的软件在本领域中是公知的。因此,可以通过视频单元采用连续视频捕获来对平坦的和不平坦的对象成像。另外,一些实施例包括一个或多个光源以用于提高由本装置捕获的图像的质量。在本领域中公知的光源可以用于这样的目的。例如,光源可以是闪光单元、白炽灯、或者LED灯。在一些实施例中,使用的光源使对比度最优化并且减少眩光水平。在一体实施例中,光入射。在一些实施例中,图像捕获系统还包括处理器和软件实现的图像探测器以及滤波器,该滤波器所起作用是为后续OCR处理优化图像的某些视觉参数。为了优化图像(具体而言为包含彩色文本的图像)以用于后续OCR处理,一些实施例还包括色差检测机构以及用于调整捕获的图像的色差的机构。作为一个例子,图7示出页700,其中在该页上的给定区域702包含文本。区域702有两个子区域。子区域704没有背景色,而子区域706有背景色。区域702中的文本跨越子区域704和706。子区域允许对区域702的所有子区域进行精确的OCR处理。为了补偿这不足的对比度,一些实施例的色差检测机构获取用于确定此基于文本的图像中是否有足够的对比度的信息。这样的信息被输入到与色差调整机构相关联的程序中。如果例如对比度等级不符合特定范围,该程序将调整图像捕获系统的多种设置,例如,照明、白平衡以及色差来增强此图像。这些调整,连同对上述的所有其它操作设置的其它改变(例如调整快门、光圈、镜头倾斜,等等),为要成像的对象及其周围的环境做好了准备。本发明的一个特征是在对环境的调整之后自动地开始图像重捕获。也可以在成像子系统发出其它视觉的或者听觉的提示给用户以后由用户手动执行重捕获。在一些实施例中,成像子系统还包括CMOS图像传感器单位。为了方便手不稳的用户以及避免图像失真,手持实施例还包括本领域技术人员公知的图像稳定机构。附加特征本系统可以包括用户接口,用户接口包括诸如音量控制、喇。八、头戴式受话器/耳机插孔、麦克风以及显示器的多个组件。显示器可能是单色或者彩色显示器。在一个实施例中,使用具有最小640x480分辨率的LCD显示器。LCD显示器也可以是触摸屏显示器。根据某些实施例,用户界面包括用户可以向系统输入简单系统命令的声音命令接口。在备选实施例中,本系统包括布莱叶盲文显示器以适应视力受损的用户。在另外其它实施例中,布莱叶盲文显示器是本系统中的外围装置。某些实施例还包括用于从本系统到计算站的数据传输(例如图像的传输)的数据端口。本领域中公知的用于数据传输的合适部件均可用于此目的。在一个实施例中,数据端口是用于与装置有线通信的USB2.O插槽。一些实施例能按802.11a/b/g/n(Wi-Fi)标准以无线方式实现。在另一实施例中,釆用红外线(IR)端口来将图像数据传输至计算站。又一个实施例包括单独的USB底座(USBcradle),它具有电池充电机构和/或数据传输机构的功能。又一些其他实施例采用蓝牙射频或者超宽带宽的衍生物来进行数据传输。本发明的另一方面提供一种手持装置,它包含外壳、图像捕获系统、存储器、处理器、OCR系统以及文本阅读器系统。图2和图3中提供示例实施例的图解。由于包括在这些实施例中的附加组件,内存需求比没有集成OCR系统和集成文本阅读器系统的实施例大。本领域技术人员将认识到,还可以将上述某些元件合并到本手持装置中。图2A和图2B图解本发明的示例手持实施例200的前视图202以及侧视图204。图2示出触摸屏206、图像捕获机构208、耳机210、镜头212、接触滑动器214(比如缩放控制214a)、音量控制214b、翻页器214c、电池电源插槽216、拼写检查接口218、字典接口220以及触控笔226。触摸屏206示出了数字文本的显示222。突出显示的文本224指示正在为用户大声读出的文本。图3A和3B是图2A和2B中图解的手持装置的后视图以及俯视图。图3A示出光源302、可调焦距的镜头304、喇叭306、用来支撑本手持装置的可展开臂308和电池插槽310。图3B描述了USB数据端口312、IP端口314、USB照相机端口316以及红外线(IR)端口318。OCR系统以及文本阅读器系统在本领域中是^^知的。OCR系统的例子非限制地包括FineRreader(ABBYY)、OmniPage(Scansolt)、Envision(Adlibsoftware)、Cuneiform,PageGenieRecognita,Presto、TextBridge等等。文本阅读器系统的例子非限制地包括Kurzwell1000以及3000、MicrosoftWord、JAWS、eReader、WriteOutloud、ZoomText、Proloquo、WYNN、Window-Eyes以及Hal。在一些实施例中,使用的文本阅读器系统符合DAISY(数字可访问的信息系统)标准。在一些实施例中,手持装置包括至少一千兆字节的FLASH存储器存储装置和650兆赫或更高的嵌入式计算能力来适应对本文描述的多种软件组件(例如平面检测机构、用于改善图像质量、对比度以及色彩等的图像调节器或者滤波器)的存储。本装置还可以在其存储器中包括字典、一个或多个翻译程序及其关联的字和命令的数据库、拼写检测器以及辞典。类似地,手持装置可以使用扩展词汇表利用特定领域的技术语言(例如,法律或医学常用的拉丁文短语或者用于工程或科学工作的技术词汇)来增加OCR的精确度。以此方式将OCR功能扩充为识别生僻的或者行业专用的词汇和短语并将专业文献的上下文纳入考虑,这增加了OCR操作的精确度。在又一些其它实施例中,手持装置包括在LCD显示器上显件。例如,美国专利号6,324,511(其公开的内容通过引用结合于本文)手持装置还可以包含当接近页尾时发信号告知用户或者在文本阅读的同时发信号告知本页中的大致位置的信号软件组件。这样的信号可以是3见觉的、声音的或者触觉的。例如,可以采用一连串的嘟嘟响或者不同音阶的声响向用户提供声音提示。手持装置还可以包括数字/视频放大镜(magnifier),如本领域中公知的放大镜。本领域中可用的数字放大镜的例子包括Opal、Adobe、Quicklook以及Amigo。在某些实施例中,连同从图像捕获系统获得的图像一起,数字/视频放大镜将文本的放大图像作为补充输入提供到OCR系统。在其它实施例中,放大4免作为与本装置其余部分分开的单元来实现功能并且仅用于为用户显示放大的文本。本发明另一方面提供独立的自动化装置,包含外壳、自动翻页器、页固定器、图像捕获系统、存储器、处理器、OCR系统以及文本阅读器。这种装置可以是完全独立的装置,没有可分开的图像/动印刷品数字化的本装置移动版本的对接站。图4A、4B、5A、5B和5C中提供一些实施例的图解。本领域技术人员将认识到,还可以将前文描述的某些元件合并到本独立的装置中。图4A提供打开配置中的示例独立实施例的等距视图402。图4B描述闭合配置中的独立示范实施例的俯视图420。处于打开配置中的独立实施例的等距视图402示出外壳的两半404a、404b、照相机镜头408以及阅读装置410。此独立的装置的外壳配置成能够将书406放置于其中。本独立装置处于闭合配置中的俯视图420示出照相机镜头408定位成获得书406的页424的图像。可以提供自动翻页器(图4A或4B中未示出)来将书406的页翻页。图5A提供图4中图示的独立示范实施例的侧视图502,而图5B描述外部前板522的放大视图520以及图5C描述内部背板562的放大视图560。侧视图502示出处于闭合配置中的本装置,其中示出外壳的两半504a、504b通过铰链506铰接在一起、前板522、背板562、放置在本装置中靠着后面板562的内部的书508以及电源线512。外壳的顶部510可以由允许观察内部的透明材料、例如透明塑料制成。图5B中的放大视图520示出外部前板522包括用于显示文本525的显示器524、阅读装置526、音量控制532、语音速率控制534、字体大小控制536、开/关按钮538以及喇叭528。在图5C中的内部背板562的放大视图示出用于将书页568固定到位的臂564以及用于翻页568的自动翻页臂566。本自动翻页器和页固定器分别与外壳以及图像捕获系统耦合,图像捕获系统的位置设置成与放书的位置相对。自动翻页器在本领域中是公知的并且是现成可用的。参见U.S.20050145097、U.S.20050120601,SureTumTM高级翻页技术(Kirtas技术),其公开通过引用全部结合于本文。另外,本装置可以在没有自动翻页器时使用,而代之以,依靠用户翻动书的页。图8A、8B以及8C中图解这种装置的例子,其中图解了备选示例独立实施例的示意图。图8A、8B和8C示出便携式独立系统800,其包含可折叠臂810以及可折叠书板804。可折叠臂810具有对接机构806、绞链802并且耦合到可折叠书板804。可以使用对接机构806来对接便携式成像装置808。可折叠臂和书框架允许将成像装置定位于与书或者其它对象相距供本装置进行图像捕获的最佳距离处。系统800包括用于OCR处理的模块和用于将数字文本转换为语音的才莫块。在某些实施例中,系统字快门的手动输入来确定是否已翻页的机构。一些实施例包括用于显示数字文本的显示器812。在又一些其它实施例中,包括布莱叶盲文机以用于输出数字文本。提供了一些本文论述的公布专利,只是因为它们是在本发明申请的提交日之前公开的。本文无任何内容应理解为承认由于先前发明而使本发明无权优先于此类公布专利。除非另行定义,否则本文所使用的所有技术和科学术语具有与本发明所属的领域技术人员所普遍理解的含义相同的含义。本文提到的所有公布专利通过引用全部结合于本公开,并且描述了引述这些公布专利所参考的方法和/或材料。]上文描述,出于解释的目的,是参考特定的实施例来进行描述的。然而,上文的图解论述无意视为本发明的穷举或将本发明限于所公开的具体形式。根据上述原理可实现多种修改和变化。选择和描述这些实施例是为了最好地解释本发明的原理和它的实际应用,从而使本领域技术人员最好地利用本发明,并且具有多种修改的多种实施例适用于所设想的具体应用。权利要求1.一种用于捕获在对象上发现的文本的设备,所述设备包含图像捕获子系统,包括配置成捕获多个图像以形成视频流的视频照相机,其中所述图像捕获子系统配置成从视频流产生主图像;以及配置成处理所述主图像以形成对应于所述对象上的至少一些文本的数字文本的光学字符识别("OCR")子系统。2.如权利要求1所述的设备,还包含容纳所述OCR子系统和所述图像捕获子系统的外壳。3.如权利要求1所述的设备,还包含配置成将所述数字文本转换为多个输出格式的文本阅读器系统。4.如权利要求1所述的设备,其中所述图像捕获子系统还包括配置成确定所述设备是否与所述对象的表面水平的水平检测器。5.如权利要求1所述的设备,其中所述图像捕获子系统还包括配置成在捕获多个捕获的图像时补偿所述设备的不稳定定位的成像稳定器。6.如权利要求l所述的设备,其中所述图像捕获子系统还包括配置成为OCR处理来优化所述多个捕获的图像的色差检测器。7.权利要求3所述的设备,其中所述文本阅读器系统还配置成翻译所述数字文本。8.如权利要求l所述的设备,其中所述对象是不平坦的。9.一种用于捕获在对象上发现的文本的系统,所述系统包含图像捕获子系统,包括配置成捕获多个图像以形成视频流的视频照相机,其中所述图像捕获子系统配置成从所述视频流产生主图像;配置成从所述主图像创建数字文本的文本捕获才莫块;以及,配置成将^^某体类型与在对象上发现的所述文本关联的材料上下文组件,其中所述系统配置成根据所述々某体类型组织所述数字文本。10.如权利要求9所述的系统,其中所述材料上下文组件还配置成将布局格式与所述媒体类型关联。11.如权利要求10所述的系统,其中所述材料上下文组件还配置成评估所述媒体类型和布局格式以确定在所述对象上发现的文本的布局。12.如权利要求10所述的系统,其中所述媒体类型选自由书、报纸、药丸瓶、处方、饭店菜单和街道标志组成的组。13.如权利要求10所述的系统,其中所述布局格式包括从由列、脚注、图片、大字标题、文本尺寸和文本颜色组成的组中选择的元素。14.一种用于捕获在对象上发现的文本的方法包含捕获所述对象的多个图像;从所述多个图像形成视频流;从所述视频流生成主图像;以及处理所述主图像以形成数字文本。15.如权利要求14所述的方法,还包括将^(某体类型与在所述对象上发现的文本关联。16.如权利要求15所述的方法,还包括根据所述i某体类型组织所述数字文本。17.如权利要求15所述的方法,还包括将布局格式与所述々某体类型关联。18.如权利要求17所述的方法,还包括评估所述纟某体类型和布局;^各式以确定在所述对象上发现的文本的布局。19.如权利要求14所述的方法,还包括将用于呈现的所述数字文本转换为输出格式。20.如权利要求19所述的方法,还包括翻译所述数字文本。21.如权利要求14所述的方法,其中所述对象是不平坦的。22.如权利要求14所述的方法,还包括创建用于成像的环境。23.—种用于呈现在基本平坦的对象上发现的文本的系统,所述系统包含配置成定位用于成像的所述基本平坦的对象的对象操作子系统;配置成捕获所述基本平坦的对象的图像的成像才莫块;配置成从所迷基本平坦的对象的图像捕获文本的文本捕获才莫块;配置成将所述文本转换为数字文本的光学字符识别("OCR")组件;配置成将^某体类型与在所述基本平坦的对象上发现的所述文本关联的材料上下文组件;以及配置成将数字文本转换为输出格式的输出模块,其中所述系统配置成在将所述数字文本转换为输出格式之前根据所述纟某体类型组织所述数字文本。24.如权利要求23所述的系统,其中所述材料上下文组件还配置成将布局格式与所述媒体类型关联。25.如权利要求24所述的系统,其中所述材料上下文组件还配置成评估所述J(某体类型和布局格式以确定在所述对象上发现的文本的布局。26.如权利要求23所述的系统,还包含为成像所述基本平坦的对象创建环境的图像增强模块。27.—种用于捕获在对象上发现的文本的系统,所述系统包含配置成定位用于成像的所述对象的对象操作才莫块;配置成对所述对象成像的成像才莫块;配置成从所述对象的图像捕获文本的文本捕获才莫块;配置成将来自于所述对象的文本转换为数字文本的OCR组件;以及配置成组织所述数字文本以保持所述对象上的文本布局的材料上下文组件。28.如权利要求27所述的系统,其中所述文本捕获才莫块还配置成从多个所述图像捕获文本。29.如权利要求28所述的系统,其中所述输出模块还配置成翻译所述数字文本。30.—种用于捕获在不平坦的对象上发现的文本的系统,所述系统包含配置成定位用于成像的所述不平坦的对象的对象操作才莫块;配置成从所述不平坦的对象捕获文本的成像模块;配置成将所述文本转换为数字文本的OCR组件。31.如权利要求30所述的系统,所述系统还包含配置成将所述数字文本转换为输出格式的输出模块。32.如权利要求31所述的系统,其中所述输出格式还配置成翻译所述数字文本。33.如权利要求30所述的系统,所述系统还包含配置成将々某体类型与在所述对象上发现的所述文本关联的材料上下文组件。34.如权利要求33所述的系统,其中所述材料上下文组件还配置成将布局格式与所述々某体类型关联。35.如权利要求34所述的系统,其中所述材料上下文组件还配置成评估所述媒体类型和布局格式以确定在所述对象上发现的文本的布局。36.—种用于捕获在对象上发现的文本的系统,所述系统包含a.配置成对所述对象进行操作的翻页组件;b.配置成将所述对象定位的取景组件;c.配置成提高所述对象上的对比度的灯光;d.配置成产生勾边图像的聚焦组件;e.配置成产生所述对象的图像的图像捕获组件;f.配置成将所述图像转换为OCR适合的图像的转换组件;g.配置成处理所述OCR适合的图像以创建排版页扫描的图像排版组件;h.配置成创建调节的图像的图像调节组件;i.配置成将所述调节的图像转换为数字文本的OCR组件,其中所述数字文本存^f诸于第一数据结构中;j.配置成组织所述第一数据结构以保持所述对象上的所述文本的布局的材料上下文组件;k.配置成将所述第一数据结构存储为第一存储的数字文本的存储组件;l.配置成管理从所述存储组件访问所述第一存储的数字文本的库管理程序组件;以及m.配置成包含所述翻页组件、所述取景组件、所述灯、所述图像捕获组件、所述转换组件、所述图像排版组件、所述图像调节组件、所述OCR组件和所述材料上下文组件的外壳。37.如权利要求36所述的系统,其中所述外壳还配置成包含所述存储组件。38.如权利要求36所述的系统,还包含配置成将所述第一存储的数字文本转换为输出格式的输出组件。39.—种呈现在基本平坦的对象上发现的文本的方法,包括定位用于成像的所述基本平坦的对象;从所述基本平坦的对象捕获图像;将所述图像转换为数字文本;将媒体类型与在所述基本平坦的对象上发现的所述文本关联;根据所述4某体类型组织所述数字文本;以及将所述数字文本转换为输出格式。40.如权利要求39所述的方法,还包括将布局格式与所述4某体类型关联。41.如权利要求40所述的方法,还包括评估所述媒体类型和布局格式以确定在所述基本平坦的对象上发现的文本的布局。42.如权利要求39所述的方法,还包括创建用于成像的环境。43.如权利要求39所述的方法,还包括将多个图像转换为数字文本。44.一种用于捕获在对象上发现的文本的方法,包括定位用于成像的所述对象;捕获所述对象的图像;将所述图像转换为数字文本;将々某体类型与在所述对象上发现的所述文本关联;以及根据所述纟某体类型组织所述数字文本。45.如权利要求44所述的方法,还包括将布局格式与所述媒体类型关联。46.如权利要求45所述的方法,还包括评估所述i某体类型和布局格式以确定在所述对象上发现的文本的布局。47.如权利要求44所述的方法,还包括将用于呈现的所述数字文本转换为输出格式。48.如权利要求47所述的方法,还包括翻译所述数字文本。49.如权利要求44所述的方法,还包括通过照亮所述对象,自动调整焦距和使用图像滤波器来增强多个捕获的图像。50.如权利要求49所述的方法,还包括通过在照亮所述对象,自动调整焦距和使用图像滤波器时实现反馈环路来增强多个捕获的图像。51.—种捕获在不平坦的对象上发现的文本的方法,包括定位用于成像的所述不平坦的对象;从所述不平坦的对象捕获图像;以及将所述图像转换为数字文本。52.如权利要求51所述的方法,还包括组织所述数字文本以保持在所述对象上的文本布局。53.—种用于捕获在对象上发现的文本的方法,包括a.操作对象来显露用于成像的所述对象的期望部分;b.对用于成像的所述对象取景;c.照亮所述对象以提高对比度;d.聚焦所述对象;e.捕获所述对象的图像;f.将所述图像转换为光学字符识别("OCR")适合的图像;g.处理所述OCR适合的图像以创建排版页扫描;h.调节所述排版页扫描以创建调节的图像;i.将所述调节的图像转换为数字文本;j.在第一数据结构中存储所述数字文本;k.组织所述第一数据结构以保持所述对象上的所述文本的布局;以及1.将所述第一数据结构存储为第一存储的数字文本。全文摘要用于捕获在对象上发现的文本的设备。该设备包含图像捕获子系统,该子系统包括配置成捕获多个图像以形成视频流的视频照相机。图像捕获子系统配置成从视频流产生主图像。该设备又包含光学字符识别(“OCR”)子系统,该OCR子系统配置成处理主图像以便形成对应于所述对象上的至少一些文本的数字文本。文档编号G06K9/00GK101460959SQ200780020152公开日2009年6月17日申请日期2007年3月29日优先权日2006年3月30日发明者B·P·富斯申请人:洛奎特公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1