可听计算机用户界面方法和装置的制作方法

文档序号:6611506阅读:207来源:国知局
专利名称:可听计算机用户界面方法和装置的制作方法
技术领域
本发明总体涉及计算系统,并且尤其涉及用于计算系统的用户界面。
背景技术
在今天的大部分计算机环境中,图形用户界面已经取代了仅文本 的界面。典型的图形用户界面经由非文本图像将至少一些信息传递给 用户。项目可以通过使用点击设备来被选择或激活,点击设备比如是鼠标或轨迹球(trackball)。注意到点击对象可以出现在屏幕上的任 何地方是很重要的。
最流行的面向图形化的操作系统是Microsoft Corporation的基 于windows的产品,例如Windows 95TM、 Windows 98TM、用于 Workgroups 的Windows, Windows NTTM、 Windows 2000TM、 Windows 2003 、 Windows METM、和Windows XPTM。"窗口,,是显 示器留出用于特定目的的区域。在每个窗口中,经常会有图形图像, 以及许多可以是点击设备的对象的不同位置。
典型现代计算机的一个特征是其能够同时执行许多任务。现代图 形用户界面通过允许许多不同窗口同时被"打开"来反映这一能力,每 个窗口都对应于不同的软件块、或应用程序。因此,不同的应用程序 可以被同时显示在不同窗口中。窗口一般具有可视边界,信息被相应 的应用程序显示在该边界之内。活动窗口是用户当前正在与其交互的 窗口,而非活动窗口是打开的、但当前不是活动的窗口。(为了说明 不同,尽管可视的改变可以出现在任何打开的窗口中-即任何被显示 在屏幕上的窗口 -活动窗口是用户的键盘输入在其中会起作用的一 个。如果窗口重叠,那么活动窗口将出现在最上面,将其他窗口的部分隐藏在他们的重叠位置中。)用户能够通过对光标的合适定位和键 盘/鼠标命令来控制该窗口的大小、形状和定位。
因为窗口可以互相重叠和"隐藏",显示工具条被提供在基于窗口 的操作系统中。该工具条可以被用户定位在沿着屏幕的任何一边(大部分倾向于底边);其包含代表可以被调用的应用的图标,以及对应 于每个打开窗口的单独图标。
随着打开窗口数量的增大,显示工具条的图标变得越来越拥挤并 且对用户起不到帮助。更糟的是,工具条中窗口图标的顺序并不反映 窗口堆叠的准确顺序。图标基于窗口被打开的相对时间被排序而不是 基于窗口在显示器上的相对位置被排序。这使得用户周期性地点击这 些窗口以识别哪些窗口是打开的并且重新安排它们以使得每个打开窗 口的一部分可以被看见。此外,基于窗口的操作系统一般需要两只手 和全部注意力来进行操作。用户不仅需要观看显示器,还需要经由点 击设备,比如鼠标、轨迹球、操纵杆、手写笔等,来做出选择或输入 数振。在许多实施方式中,用户不方便提供双手和完全的注意力来操 作计算机,因此逐渐缩小了吸引力并降低了操作系统的生产率。例如, 当操作车辆时,对司机来说观看并操作使用可视显示器的设备是不安全的。也存在比如对设备的夜间使用的情况,其中照明显示器是不希 望的,因为对用户夜视的不利影响。同样,军队人员在夜间对照明显 示器的使用也是不希望的,因为照明会暴露用户的位置。
另 一个考虑是残疾访问正逐渐变成软件和硬件厂商的重要问题。 许多国家正制定严格的法律来要求产品具有允许该产品能够被具有残 疾的人士操作的特殊特性。 一个说明性例子是1998年的康复法的508 章(Section 508 of the Rehabilitation Act of 1998 ) ( 29 U.S.C.§794d )。 与该立法相关联的规定(requirement)(尤其适用于基于计算机的图 形用户界面)在联邦法典(Code of Federal Regulations) 36 CFR部 分1194.21和1194.22。这些规定的大部分面向不能看见东西的人群。 例如,规章1194.21(a)规定了所有操作都要能够经由计算机键盘被访 问-即不需要点击设备。该规章是必要的,因为盲人无法看清屏幕上
指针的位置、窗口中对象的位置、以及可以打开的不同窗口的相对位 置和边界。
为了操作图形用户界面,盲人依赖于复杂的文本到话音协助软件
应用,比如Microsoft NarratorTM、 Freedom Scientific BLV Group的 JAWSTM、 LLC、和GW Micro的Window誦EyesTM。在窗口内和窗口 之间的导航是通过单独或与其它键组合地使用TAB、 ALT和箭头键 来完成的。例如,在典型的窗口中按下TAB使得计划(programmatic ) 焦点移动到下一个TAB停止的地方(tap-stop)或点击对象。每次按 下TAB键,文本到话音软件提供对对象的口头描述。(508章规章 1194.22(a)规定所有非文本元素具有基础(underlying)的文本标签。 正是这个允许了文本到话音软件在TAB功能将焦点转移到图标或其 它图形图像时能够合适地响应。)当期望的对象被说出时,该功能可 通过按下ENTER键被执行。
类似的机制允许用户在不同应用之间移动,并选择将被激活的窗 口。这是通过在按下并释放TAB键期间连续按下ALT键来完成的。 每次按下TAB键,用户可顺序地在已经打开的窗口之间移动。移动顺 序是按照时间顺序的,从最近被激活的窗口开始。(注意,图标在工 具条中出现的顺序是基于对应的窗口被第一次打开的顺序的,而不是 基于窗口已经被激活的顺序。)在每次释放TAB鍵(而不是ALT键) 之后,协助文本到话音软件将立即读出所选择窗口的标题栏。当用户 听到软件说出期望窗口的标题时,该用户通过释放ALT键使得这个窗 口被激活。
尽管对基于键盘的控制的支持确实允许图形用户界面可以被盲 人操作,但是这种操作风格相对于提供给能够操作点击设备的人的操 作来说是慢得多并且乏味得多的。重申前面的观点,基本问题是盲人 用户无法看清屏幕上指针的位置、窗口中对象的位置以及可以打开的 不同窗口的相对位置和边界。在这个上下文中,重要的是能注意到能 看见的用户经常形成对所期望的点击对象所在的位置的精神地图,以 此来允许他们非常快速地将指针移动到对象。在呈现给盲人用户的信
息中的难忘的特定于位置的数据的缺乏表示了当前只能提供给看得见 的用户的又一个操作优势。

发明内容
这些和其他需求由本发明的各个实施例和配置所解决。本发明总 体被涉及一种方法和系统,用于在显示器上定位对象。
在本发明的第一实施例中,提供了一种方法,包括步骤
(a) 提供一种电子显示和用户界面样式,其中正在显示的对象 的位置是重要的;以及
(b) 当指针和/或计划焦点指示符在显示器上移动时,播放多个 可听定位信号以识别至少一些所显示信息的空间位置和/或指针和/或 焦点指示符的连续位置。
在一种配置中,该显示器被分割为一系列段,每个段关联于唯一 一组声学参数。当指针和/或计划焦点指示符经过所选择的段的边界和 /或当指针和/或计划焦点指示符位于所选择的段中时,播放的定位信 号具有所述唯一一組与该所选择的段相关联的声学参数。每个段对应 于多个显示象素,并且所述声学参数组包括相位、频率、大小、调子 以及回声中的一个或多个。
在一种配置中,定位信号指示了相对于二维坐标系统的空间位 置。在第一维中,第一声学参数变化,而在第二维中,第二声学参数 变化。笫一和第二声学参数是不同的。它们的数值可独立变化。信号 本身在心理声学上(psychoacoustically )是可分的,因此其中每一个 的数值是可独立辨别的。
作为示例,第一声学参数可以是信号的声学频率、 一只耳朵对另 一只的第二参数合成声学相位延迟。通常,与第一段相关联的第一频 率和与第二邻近段相关联的第二频率至少相差等于心理声学"刚好能注意到的区别,,的量。(对于大多数人,在声学频率上"刚好能注意到 的区别,,将小于与相邻音符相关联的区别。)应记住人类声学机制依赖 于左耳对右耳的察觉到的相位差别,以进行侧边的声源定位,与第三
段相关联的第一合成的相位差和与第四邻近段相关联的第二相位表达 至少相差等于心理声学上"刚好能注意到的区别"的量。(对于大多数 人, 一只耳朵对另一只的相位延迟中的"刚好能注意到的区别",几乎 等于察觉到的声源位置中的两度偏移。)在二维声学信号传送系统的 优选实施方式中,频率差指示沿着纵轴的位置,而一只耳朵对另一只 的相位差指示沿着水平轴的位置。
在一种配置中,定位信号指示相对于三维坐标系统的空间位置, 并且在第三维中,第三声学参数是变化的。第一、第二和第三声学参 数是不同的、独立变化的、并单独辨认的。
在另一个实施例中,提供了一种方法,包括步骤
(a) 在第一时间,向用户可听见地提供识别对应的显示图像的 识别信号,以及在时间上与其接近地提供识别所显示的图像在显示器 上的空间位置的定位信号;以及
(b) 在第二时间,向用户可听见地提供指示指针的空间位置的 一个或多个定位信号。
通过这种方式,用户能够基于与该图像相关联的定位信号和与该 指针相关联的所选择的定位信号之间的类似度将该指针移动到所显示 图像的位置。
本发明有效地提供了一种可听用户界面。例如,点击指示符的位 置,以及显示器上可点击的"热点(hot spot),,的位置可被声学地指示, 例如用于左右轴的声学相位位置,用于纵轴的频率增加或降低。因为 声学相位对于高于大约1500Hz的频率不是左右位置的有效指示符, 所以一种优选的实施方式可以使用其作为指示"屏幕顶端"的频率,而 使用低于其一个八度的频率-750Hz-来指示中点,用低于1500Hz 两个八度的频率—即375Hz _指示屏幕底部。
该用户界面可替换级别、调子或其它类似效果用于产生相对位 置。当用户使用这种用户界面进行导航时,图标、工具条、下拉框等 等的各种位置可以通过频率和相位的选择组合或类似的配对而被识 别。在这种方法的一个优选实施方式中,声学位置信息与传统协助文本到话音附件(例如Narrator、 JAWS、或Window-Eyes )所产生的 语音输出一起被提供。这可允许盲人用户了解期望目标在屏幕上的物 理位置。不使用视觉,用户只需通过倾听指针的声音就可以移动点击 指针到那些位置中的任何一个,同时移动该指针以使得其声音与期望 目标的声音一致。
用户可以通过与许多用户学习识别与电话键盘上的特定键相关 联的DTMF双音完全相同的方式来学习导航。而且,如果用户停在两 个图标之间,该界面会产生宣告,该宣告陈述你在A和B之间,你想 选择哪个。 一旦定位在特定图标、工具条工具或下拉框上,其可以宣 告所选择的功能。通过这种方式,用户可以基于听觉暗示而不是对光 标的视觉识别来在屏幕上导航。而且,这种思想可用于在选择之间导 航,而不需要任何显示器。结果,这不仅仅是导航现有屏幕的音频方 法,其还允许用户界面在没有任何屏幕存在的情况下工作。通过凝视 检测或各种各样的其它定位指示设备,这种思想可被扩展到使用按钮、 摇杆、鼠标和轨迹球类型设备进行激活的用户界面。虽然在现有技术 中存在产生与事件或位置相关的声音的游戏,但是其不是用于用户界 面的导航目的,而是基于那个游戏的事件来自这个游戏的对用户的反馈。
本发明根据特定配置可以提供许多优点。作为示例,无论视觉是 否受损,用户都能够基于可听定位信号快速并方便地识别所显示的物 体(比如窗口、热点、工具条)的对象。这通常能够提供用户对多任 务的能力和生产率的明显改善。用户不需要两只手、很好的视力、和 对显示器的注意力集中就可操作指针到期望位置来执行所选择的功 能。
这些和其它优点将从这里包含的本发明的公开内容中变得明显。 在此使用的,像"至少一个"、"一个或多个"和"和/或"是在操作中可连接和可分离的开放式短语。例如,短语"A、 B和C中的至少一 个"、"A、 B或C中的至少一个"、"A、 B和C中的一个或多个"、"A、 B或C中的一个或多个,,和"A、 B和/或C"的每一个意味着单独A、单独B、单独C、 A和B—起、A和C一起、B和C一起、或A、 B和 C一起。
上述实施例和配置不是完全的也不是穷尽的。如将被理解的,本 发明的其它实施例也可以单独或组合地利用上面陈述的或下面详细描 述的一个或多个特征实现。


图l是根据本发明一个实施例的计算机系统的框图2根据本发明一个实施例描述了显示段;
图3根据本发明一个实施例描述了显示段;
图4是对根据本发明一个实施例的示意性显示的截屏;
图5是根据本发明一个实施例的流程图;以及
图6是根据本发明一个实施例的流程图。
具体实施例方式
图1中描述了根据本发明的计算机系统100。该系统100包括处 理器104、存储器108、键盘112、跟踪单元116、麦克风120、监视 器124、扬声器阵列132( 132R和132L表示阵列中的右和左扬声器)、 以及(其它)外围设备128。键盘112、跟踪单元116、麦克风120、 监视器124、扬声器132、以及外围设备128—般在计算机(其包括处 理器104和存储器108)外部并且通过串行或并行链路(例如串行或 并行总线)连接到该计算机。
处理器104是解释和执行指令的功能性单元。其通常包括指令控 制和算术及逻辑单元。其通常是包括中央处理单元的集成电路。典型 的处理器是微处理器。
存储器108可以是任何存储介质并且包括系统100中所有可寻址 的存储空间。 一般,存储器108是只读和随机访问存储器的结合体。
键盘112提供字母数字的数据的主要的计算机输入。
跟踪单元116是手动操作单元,其移动指针或鼠标指针到显示器
上的期望位置、重新定位所显示的对象、并调用所期望的特征/功能。示意性跟踪单元116包括鼠标、手写笔、摇杆和轨迹球。
麦克风120和扬声器132可以分别是任何合适的麦克风或扬声器,并且可以位于系统100的内部或外部。
监视器124是视频显示终端,其接受视频信号并在其屏幕上显示信息。监视器一般具有多个像素,像素的密度代表了所显示信息的分辨率。
最后,外围设备128是支持系统的操作的外部设备。外围设备的 例子包括打印机、外部磁带驱动器、以及外部硬件驱动器。
虽然本发明参照个人计算机或膝上计算机被描述,但是应当理解 其并不局限于微型计算机,其也可被应用于任何其它计算系统。
存储器108包括操作系统136、驱动器140、多个应用144a-n、 以及可听定位代理148。存储器108可根据应用包括其他的、或更少 的计算性模块。
操作系统136是一组指令,其控制程序的执行并可提供服务,比 如资源分配、调度、输入/输出控制和数据管理。操作系统136优选地 是图形操作系统,优选的是基于窗口的系统。特别优选的操作系统是 Microsoft的WindowsTM操作系统。
驱动器140包含运行特定计算性模块的信息,这种模块比如是绘 图机、打印机、端口、扬声器、麦克风、盘或磁带驱动器、视频卡、 以及鼠标。
多个应用114a-n是执行各种所选择的任务的应用程序。这些应 用可包括例如比如Excel 的电子表格程序、比如Outlook 的消息 和日历管理或调度程序、比如WordTM和WordPerfectTM的字处理器、 会计系统、工程程序、图形程序、语音和话音识别程序(例如文本到 话音(TTS)和话音到文本(STT)程序)、以及残疾访问软件,比 如JAWSTM和Window EyesTM。
可听定位代理148提供关于在监视器124上显示的各种对象的位 置的可听位置信号。所显示的对象可以是图标或其部分、窗口或其部分、数据域、文件夹、热点(hotspot)、光标、链接(例如超链接)、 计算机显示控制、工具条或其部分、桌面或其部分、计划焦点指示符 等等。如将被理解的,计划焦点识别用户可选择的域,比如链接、图 标、文件夹、热点等等,当用户按下他们键盘上的ENTER鍵时其将 被激活。计划焦点指示符可以但不一定与光标相同。计划焦点指示符 通常通过TAB或箭头键在域到域之间移动,并高亮显示用户可选择的 行动。可听定位信号可以采用多种形式。例如其可是离散的或连续的 信号。 一般,位置信号的一个或多个声学参数与显示器上的特定位置 或一组位置相关联。声学参数可以是相位、频率或音调、大小或增益、 调子、回声、信号间隔(邻近的、非连续的信号之间)、以及信号持 续时间。声学参数随着指针在显示器上的移动而变化以通知用户指针 在显示器上的位置。
图2根据一种配置描述了示意性分段显示器200。该显示器被显 示为具有两维,即X和Y。每个段204a-x具有相关的空间(X,Y)坐 标和声学参数组。空间(XY)坐标一般指段的指定点(例如中点), 但也可以是覆盖该段的定义跨度的坐标范围。 一个段可对应于一个像 素,但是通常指一组或多个像素。优选地,每组声学参数都唯一地关 联于对应的空间坐标组。图2中显示的声学参数是一个耳朵对另一个 的相位差(P),以及频率(F)。对于给定的X坐标, 一个耳朵对另 一个的相位差被保持为恒定,而频率作为沿着Y轴的位置的函数而变 化。对于给定的Y坐标,频率被保持为恒定,而相位差作为沿着X轴 的位置的函数而变化。结果,在二维格子中的每个XY位置将具有其 唯一的声学标记(signature)。对于水平(X)轴,在优选实施例中 的表示方式与用户期望的一致之处在于该合成的声学标记将会发声 就像从其实际所在的屏幕上的点发出来一样。对于垂直(Y)轴,表 示方式与用户所期望的一致之处在于对于在屏幕上较高的对象声学 频率也较高。
重要的是注意到操作声学信号以使其好像来自特定位置而被察 觉到的能力是优选实施例的重要部分。为此,合适的是回顾一下人类
听觉机制如何确定声音的发源点
经常被错误地以为,人类通过比较一个耳朵对另一个的声音的相 对响度来判断声音来源的方向。尽管在评定本质上主要是高频的声音 时比较响度是有用的,但是这却不是人脑对具有相当低频率的成分的 声音的主要方向位置机制。对于比如这些的声音,声波的相对相位是 关键因素。
为了图示人类听觉处理机制如何察觉到低频声音发源的方向,假 设一个声音包括纯500Hz的音。如果该声音发源于就在一个人面对的 正前方的一个点,那么该声波会同时接触这个人的左耳和右耳。该声 音将被这个人察觉为发源自一个点,该点处于垂直于这个人两耳之间 的一条线的平面中,这个平面与两耳之间的连线交叉于两耳之间连线 的中点。但是如果该500Hz的声音发源自在这个人的侧面的源、而不 是直接在他们面前时,会发生什么呢?
在海平线上,声音通过空气的速度是每毫秒接近12英寸。这意 味着500Hz音的波长接近24英寸。为了图示,如果假设一个人两耳 之间的距离接近6英寸,那么这意味着发源自就在听者侧面的源的 500Hz正弦声音波的峰值一只耳朵对另一只的接近90度异相。尤其 是,声波在接触到面对声音的那只耳朵后几乎1/2毫秒才接触到不面 对声音的那只耳朵。该时间延迟被大脑检测到,并且被作为确定声音 的发源点的基础。(注意在假设较低湿度并且20度C温度的条件 下,对于声音经过空气的速度的实际值是接近11.27英寸每毫秒。近 似的数值被使用在这个实施例中以简化解释。)
继续这个例子,如果该声音来自脱离轴0到90度之间的点,那 么时间延迟将小于1/2毫秒。这也被大脑检测到并作为判定发源点不 在正前方或正侧方的基础。
为了图示为何比较相位对高频声音没有用,假设2000Hz的纯音。 如果该声音发源自正对一个人侧面的一个点,那么一只耳朵对另一只 而言,声波将是360度异相。换句话说,声波峰值会同时接触两只耳 朵,因此使得基于相位的定位是不现实的。尽管存在具有该范围内或
更高的频率成分的人类话音成分-特别是被普遍称作共振峰的声道共振,但重要的是应注意到对于人类语音的基本音调通常在100到 300Hz之间。结果,虽然在人类话音中存在这种高频声音,但是比较 相位是被人类大脑用来确定话音发源方向的主要机制。
现在从简单的说明性例子转移到对相关生物物理学的更准确的 检查,用于计算耳间相位差(IPD )的公式等于方位角微分的接近763jis x Sin (考虑到与人类头部相关的衍射效果)。实验数据显示500Hz频 率的微分相位对很多人来说以较小的一或两度的改变被听到。记住大 多数人不能忍受15000Hz以上的频率,人类听觉机制能够检测到像13 -26fis —样小的耳间时间差看起来是违反直觉的,但是这个发现已经 被Wright Patterson Air Force Base in Dayton, Ohio.的声音定位研究 中心所进行的控制实验所证明。基于他们的研究,耳朵几乎纯粹依赖 于微分相位以对1500Hz以下定位并且依赖于微分幅度级别以对 3000Hz以上的频率定位。在接近2000Hz的频率,由于前述原因,人 类听觉机制对声音的定位趋向于非常恶化。这就是本发明的优选实施 方式使用1500Hz作为指示"屏幕顶端,,的频率,使用低一个八度的频 率- 750Hz -来指示中点,以及使用比1500Hz低两个八度的频率 - 即 375Hz 一来指示屏幕底部。
在本发明的一个配置中,用户具有立体声耳机或扬声器。到左耳 和右耳的信号是不一样的。尤其是,定位信号反映时间偏移以提供用 户的左耳对右耳如何察觉信号的听觉差别。时间偏移的量关联于对相 应于该定位信号的空间位置的相位差。该时间偏移的目的是允许用户 察觉到每个定位信号来自于不同的、容易识别的方向。
作为示例,计算机可以在递送第一定位信号到用户的左耳后近似 500jis将其递送到用户右耳,以此使得该用户察觉到相关位置在其左 侧。类似地,该计算机可立即递送第二定位信号到听者的右耳,而在 到左耳的信号上施加500ns的延迟,这样使用户察觉到相应的位置是 在他的右边。如果该计算机不对第三定位信号施加任何延迟,那么相 应的位置将被察觉为来自在其它两个位置中间的中央位置。
对于可以被可靠检测到的独立定位信号的最大数量(以及,作为 扩展,可以由本发明支持的位置的最大数量),如果一个人假设定位 信号的五度差别会被人耳可靠地辨别,那么使信号停留在五度间隔(开始于对左边的90度并结束于对右边的90度)的系统将支持39个相应 的沿着X轴的位置。
在使用中,随着指针(或计划焦点指示符)从段到段的移动,扬 声器132R和132L (即在用户的右边和左边的扬声器)产生多个具有 变化的声学特性的可听定位信号。当指针(或焦点指示符)到达每个 段中的指定点(即当该光标经过或穿过边界)时信号被正常产生,并 且当该光标(或计划指示符)位于对应段204之内时被在确定出的时 间段产生。如果该光标(或焦点指示符)在长于确定时间段的时间内 在该段中处于静止,那么信号被终止,除非该用户指示希望让信号被 重新播放以提醒他或她该光标(或焦点指示符)的位置。这种期望可 以由按键或按钮的按下、摇动或前后移动轨迹单元116等来指示。当 所显示的图像跨越多个段204时,这些信号仍旧被产生,因为其将协 助用户大体确定他或她在窗口中的以及在显示器上的位置。
在一种配置中,代理148与残疾访问应用一同工作(这种残疾访 问应用比如是JAWSTM或Window EyesTM)以提供除了对象的可听识 别之外的空间或位置信息。换句话说,如果当该光标(或焦点指示符) 移动到一个域中当残疾访问应用要识别该域,代理148还将会提供对 应于该域所在的段204的音频位置信号。通过这种方式,该用户不仅 知道了域的身份还会知道域的位置以在以后使用。
在一种配置中,可听定位信号不仅以二维(X和Y)指示光标(或 焦点指示符)的位置,还以第三维(Z)指示。这通过参考图3来图 示。图3图示了许多堆叠或层叠的窗口 300a-j。每个窗口 300a-j代表 沿着Z轴304的对应的Z的位置。例如,第一窗口 300a表示第一Z 的位置Zl (其位于或最接近于坐标系统原点308),第二窗口 300b 代表第二Z位置Z2,......以及第j窗口 300j代表第j个Z的位置Zj(其距离原点308最远)。随着光标(或焦点指示符)从窗口到窗口
的移动,其从一个z的位置移动到另一个。在光标(或焦点指示符)
的移动位于X和Y平面中时,扬声器132R和132L将产生多个具有 变化的声学特性的可听信号。对应于沿着Z轴的点的变化的声学参数 不同于因XY位置的变化而变化的参数。在一种配置中,沿着Z轴的 位置变化可由合成回声的度的对应变化来指示。在另一种配置中,沿 着Z轴的位置可由声学信号的持续时间来指示。(应注意合成回声是 用于指示Z轴位置的优选方法。这是因为当新的窗口被用户在图形用 户界面中选择时,其自动地移动到堆叠的顶部。该移动可以由当该信 号被播放时合成回声的度的变化来声学指示。)这些信号在光标(或 焦点指示符)到达每个段中的指定点(例如当光标(或焦点指示符) 经过窗口边界时)时被正常产生,并且当该光标(或焦点指示符)位 于对应段204中时被在确定出的时间段产生。如果该光标(或焦点指 示符)在大于确定时间段的时间内在该段中处于静止,那么该信号被 停止,除非该用户指示希望该信号被重新播放以提醒他或她关于该光 标(或焦点指示符)的位置。这种希望可以通过按键或按钮被按下、 摇动或前后移动轨迹单元116等来指示。
考虑到上述配置,存在许多描述本发明原理的例子。
在第一示例中,参考图4,光标或指针400的位置通过与该光标 所通过的每个段204相关联的可听定位信号被跟踪。在该例子中,描 述了多个堆叠的窗口 404a-f。这些窗口被层叠为窗口 404a(对应于 Word )位于Zl位置,窗口 404b (对应于WordPerfect )位于 Z2位置,窗口 404c (对应于Outlook )位于Z3位置,窗口 404d (对 应于ExcelTM)位于Z4位置,窗口 404e (对应于Internet Explorer Browser )位于Z5位置,并且窗口 404f (对应于Adobe Reader ) 位于Z6位置。随着该光标围绕窗口 404a的边界运动,不同声学特性 的可听定位信号被产生用于该光标400所通过的每个段(未示出)。 通过这种方式,该用户可以知道光标的位置而不需要观察显示器。在 一种变化中,当图标从窗口 404a的数据输入区域408移动到该窗口的 工具条412区域时,具有不同组声学特性的第二类型可听信号被产生。
例如,如果对于段的定位信号指示在哪里变化相位和频率以指示不同 的段,那么第二类型的定位信号可以对固定相位和频率变化调子和回 声。然后用来宣称各种工具条选项的音频识别信号可以在该指针沿着 工具条移动时向用户播放。
在第二例子中,继续参考图4,当该光标400经过窗口 404a的边 界416并且进入窗口 404b时,代理148会产生声明"WordPerfect"的 可听识别信号。当该光标400经过窗口 404b的边界420并进入窗口 404c时,代理148会产生声明"Outlook,,的可听识别信号。通过这种 方式,光标400的深度、或Z、位置会被宣称给该用户。如将被理解 的,如果该用户点击窗口 404b-f之一的工作区域,那么所选择的窗口 被移动到Zl、或第一位置,并且其他窗口相应地重新排列。通过示例, 如果该用户选择窗口 404e,那么该窗口被移动到Zl位置,窗口 404a 移动到Z2位置,窗口 404b移动到Z3位置,窗口 404c移动到Z4位 置,窗口 404d移动到Z5位置。窗口 404f保持在Z6位置。在一种变 化中, 一个或多个窗口的Z位置是固定的,或应用户的要求返回为所 选择的顺序。在一种变化中,代理148应用户的要求播放为每一层识 别在该层的窗口的身份的一系列识别信号。通过示例,该信号可以说 "Word在层1, WordPerfect在层2, Outlook在层3, Excel在层4, Internet Explorer在层5以及Adobe Reader在层6"。因此,对于给 定的层,代珲148可以宣读在该层中的窗口或其中的对象。例如,如 果多个窗口位于同一层,那么该代理会识别那些窗口以及可选地这些 窗口的绝对或相对XY位置。
在第三例子中,继续参考图4,该用户通过将由光标400的运动 产生的可听定位信号与同每个图标相关联的可听信号进行匹配来定位 比如任何一个图标450的图像。作为示例,该用户能够通过请求该光 标移动到一个或多个所选择的对象来在意识上映射对象的位置,并且 随着该光标从一个对象移动到另一个,代理148使得与该对象所位于 的段204相关联的定位信号与用于该对象的可听识别信号一同被发 射。因此,当应用户请求该光标400移动到"我的文档,,图标时,代理148会对该图标所位于的段播放定位信号,并且在时间上与定位信号 的动作接近地可听地宣读"我的文档"。然后该光标400将移动到"我的 文档图标",并且代理148会对该图标所位于的段播放定位信号,并且 在时间上与定位信号的动作接近地可听地宣读"我的电脑"。该过程可 以以周期间隔对所有的图标450重复。随着时间的过去,该用户会开 发出他或她的显示器的意识图。通过在使得期望图标位置和当前光标 位置之间的定位信号的声学差别变得更小的方向上移动光标400,该 用户能够快速并容易地定位期望的图标。
在第个例子中,该用户可以(比如经由盲人用点字法键盘)提交 关于特定窗口的查询。代理148可以移动该指针400 (或焦点指示符) 到该窗口的工作区域并要求该用户点击,这将使得该窗口移动到堆叠 的顶部或前面。可选地,该代理可以重新排列这些窗口而不需要更多 的用户介入。
在第五个例子中,继续参考图4,光标400位于两个可选(可点 击或可启动的)图像之间,该图像可以是图标、文件夹等,并且代理 148对该用户宣读他或她正位于图像之间并且识别该图像。例如,如 果光标400位于显示器的工具条432的图标424和428之间,那么代 理148将对该用户宣读"你正处于显示器工具条的WordPerfect和 Word图标之间"。当该用户移动光标400向左时,代理148将宣读"你 现在在WordPerfect图标上",而向右时将宣读"你现在在Word图标 上"。在另一个图示中,光标400可在应用工具条412的图标436和 440之间。上述过程可对于"保存"图标436和"打印"图标440被重复。 当光标400位于可选图像附近时,比如位于热点或链接附近时,同样 的过程可被重复。例如,如果该图像是热点,那么代理148可以提供 信号"向右移动以激活该热点",
在笫六个例子中,当错误条件被错误信号(例如弦波)所指示时, 可听定位和/或识别信号可被在时间上与该错误信号相接近地设置以 指示该用户该错误信号与哪个窗口相关联。在这个例子中,该定位信 号可以是对应于该窗口的应用程序的可听识别符和/或被该窗口至少部分跨越的段204之一的可听识别符。
在第七个例子中,比如窗口和图标的图形图像可以经过该显示器 移动到所选择的位置,并且在运动过程中,随着该图形图像从一个段 移动到另一个段,多个定位信号可以被播放。为了示例,代表到来的 电子邮件的电子邮件图标可以从一个边"飞过"该显示器到达对应于该 电子邮件应用程序的窗口,并且随着该电子邮件图标移动过该屏幕, 具有不同声学特性的一系列定位信号被播放。这种信号组可以给用户
运动的印象并且对耳朵是舒适的。该电子邮件图标可以仅关联于所选 择的电子邮件,比如来自所选择源的电子邮件,并且不关联于来自其 它源的到来电子邮件。通过这种方式,该用户可以在感兴趣的电子邮 件,而不是SPAM电子邮件或不太感兴趣的电子邮件(其被静静地发 送到该窗口,并且只产生习惯的电子邮件到达信号)到来时被告警。
在第八个例子中,当光标400经过图像的边界时,代理148产生 可听边界信号。这些边界信号在声学上大体不同于为经过段而产生的 定位信号。例如这些边界信号可才艮据所经过的图像和/或边界的类型而 具有相同組的声学参数或不同的声学参数。在优选实施例中,定位信 号变化频率和相位,而边界信号使用回声或信号长度来可听地区分于 定位信号。
图5根椐本发明的一个实施例描述了代理148的操作。 在决定菱形框500,该代理确定该光标(或焦点指示符)是否被 重新定位到新的显示器元件(或段)。如果该光标(或焦点指示符) 已经被重定位,那么在步骤524,该代理选择对应于该新的显示器元 件的声学参数,并且在步骤508,产生具有所选择的声学参数的音频 定位信号。如果该光标(或焦点指示符)没有被重新定位,那么该代 理返回到并重复决定菱形框500。
在决定菱形框512,该代理确定该光标(或焦点指示符)是否改 变了Z位置。如果该Z光标(或焦点指示符)位置已经改变,那么该 代理在步骤516选择对应于新的Z位置的可听定位和/或识别消息,并 且在步骤520对用户播放所选择的音频消息。该消息可以筒单得知"你不在层2"(对于从层1移动到层2或从层3移动到层2)。当该光标 (或焦点指示符)位置没有被改变或在执行了步骤520之后,该代理 继续到决定菱形框524。
在决定菱形框524,该代理确定该光标(或焦点指示符)在可访 问或可选择的对象的预定距离内是否处于静止。如果是,那么该代理 在步骤528选择并播放对应于该邻近对象的可听对象识别信号。该代 理还可以对用户提供将该光标(或焦点指示符)移动到哪里才能到对 象上的位置的指令或应用户的请求自动将该光标移动到对象。
当该光标(或焦点指示符)没有在可访问或可选择的对象的预定 距离内或在步骤528之后,该代理返回到并重复决定菱形框500。
图6描述了另一个本发明的操作性实施例。
在步骤600,该代理接收到用户关于特定窗口和/或可访问或可选 择的对象的查询。
作为响应,在决定菱形框604,该代理确定该查询是否有关沿着 Z轴的窗口顺序。如果是,那么该代理在步骤608播放通过Z轴位置 识别窗口的可听识别消息。如果不是或在执行步骤608之后,该代理 继续到决定菱形框612。
在决定菱形框612,该代理确定该用户所请求的窗口是否应被沿 着Z轴重新排列。如果是,那么该代理在步骤616按照该用户的请求 重新排列该窗口。
当该查询不是有关沿着Z轴的窗口顺序时,该代理在决定菱形框 620确定该查询是否有关定位可访问的或可选择的对象。如果是那样, 该代理在步骤624将该光标定位到用户所选择的可访问的或可选择的 对象。如果不是或在执行步骤624之后,该代理返回到步骤600并等 待下一个用户命令。
本发明的许多变形和修改可被使用。提供本发明的一些特征而不 提供其它的特征是有可能的。
例如在一个可选实施例中,本发明并不局限于视觉损伤的用户, 也可被视觉未损伤的用户应用。本发明还可被多任务的或从事其它活动(比如驾驶)的计算机用户所使用并使用可听反馈以在计算机上操 作而不需要连续地观看显示器。在另一个例子中,该用户可以是计算机废旧品商人(junkie),其有太多打开的窗口以至于不能使用显示 器工具条来跟踪。对可听信息的使用,尤其是通过Z轴位置对每个窗 口的识别,不仅在该用户监视哪些窗口被打开中非常有用,而且对用 户监视窗口的相对位置也是很有用的。
在另一个实施例中,专用硬件实施方式(包括但不局限于专用集 成电路或ASIC、可编程逻辑阵列、以及其它硬件设备)可以同样被 构建以实施这里描述的方法。此外,可选软件实施方式(包括但不局 限于分布式处理和/或组件/对象分布式处理、并行处理、或虚拟机处 理)也都可被构建用于实施这里描述的方法,
还应说明本发明的软件实施方式可选择性地存储在有形存储介 质上,比如像盘或磁带的磁介质、光盘的磁光或光介质、或像存储卡 的固态介质或其它容纳一个或多个只读(非易失性)存储器的封装。 电子邮件的数字文件附件或其它自包含的信息档案或档案组被认为是 等同于有形存储介质的分布介质。因此,本发明被被为是包括有形存 储介质或分布介质和现有技术所识别的等同体和继承媒体,其中存储 有本发明的软件实施方式。
尽管本发明参照特定标准和协议描述了实施在诸实施例中的组 件和功能,但是本发明并不局限于这些标准和协议。在此没有提及的 其它类似标准和协议也存在并被认为是包括在本发明中。此外,在此被具有实质相同功能的更快的或更有效的等同体所替代。这^具有相 同功能的替代标准和协议被认为是包括在本发明中的等同体。
在各种实施例中的本发明包括实质上在此描述和说明的组件、方 法、过程、系统和/或装置,它们包括各种实施例、子组合及其子集。 本领域技术人员将明白在理解当前公开内容后如何做出并使用本发 明。在各种实施例中的本发明包括在不存在在此或在其各种实施例中 没有描述和/或说明的项目的情况下提供设备和过程,包括在不存在如已使用在之前的设备或过程中的这种项目的情况下,例如,为了改善 性能、实现便利和/或降低实施成本。
本发明的前述讨论被为示例和说明目的提出。前述内容并不意在 将本发明限制为在此描述的一个或多个形式。例如在前述的具体实施 方式中,本发明的各种特征在一个或多个实施例中被组合在一起以用 于使公开内容流畅。本公开内容的方法不应被解释为反映了所要求保 护的发明需要比每个权利要求中明确叙述的更多的特征的意图。而是, 如在后面权利要求中反映的,本发明的各方面在于比前面单个描述的 实施例的所有特征更少的特征中。因此,后面的权利要求由此被结合 到该具体实施方式
中,其中每个权利要求本身就是本发明单独的优选 实施例。
此外,尽管本发明的说明书已经包括了对一个或多个实施例和特 定变形和修改的说明,但是其它变形和修改也处于本发明的范围内, 其例如在本领域技术人员理解了当前公开内容之后,处于其技术和知 识范围内。所希望的是获取包括可选实施例到所允许程度的权利,包 括与所要求保护的内容可替换的、可互换的和/或等同的结构、功能、 范围或步骤,无论这种可替换的、可互换的和/或等同的结构、功能、 范围或步骤是否在此描述,并且不意在公开限定描述任何可专利性的 主题。
权利要求
1.一种方法,包括(a)用户界面向用户提供信息;以及(b)当指针和/或计划焦点指示符改变在该用户界面上的位置时,播放多个可听定位信号以识别至少一些所显示的信息的空间位置和/或该指针和/或计划焦点指示符的连续位置。
2. 如权利要求l所述的方法,其中该用户界面是图形用户界面, 其中所述定位信号对应于所提供信息的空间位置,其中该所提供信息 包括多个对象,其中每个对象具有 一个对应的与其相关联的定位信号, 其中显示器被分割为多个段,每个段都与唯一一组声学参数相关联, 并且其中当该指针和/或计划焦点指示符经过所选择段的边界和/或当 该指针和/或计划焦点指示符位于所选择的段中时,所播放的定位信号 具有与所选择的段相关联的所述唯一一组声学参数。
3. 如权利要求2所述的方法,其中每个段对应于多个显示像素, 其中所述声学参数组包括相位、频率、大小、调子、信号持续时间、 信号间隔以及回声中的至少一个,其中该定位信号指示了至少相对于 二维坐标系统的位置,其中在第一维中第一声学参数是变化的,并且 在第二维中第二声学参数是变化的,并且其中该第一和第二声学参数 是不同的。
4. 如权利要求3所述的方法,其中第一声学参数是频率,而第 二声学参数是一只耳朵对另一只耳朵的相位差,其中关联于第一段的 第一频率不同于第二邻近段中的第二频率不到一个全音符,并且其中 关联于第三段的第 一相位差不同于关联于第四邻近段的第二相位差至 少两度。
5. 如权利要求1所述的方法,其中所述定位信号对应于所提供 信息的空间位置,其中所显示的信息至少包括第一对象,并且其中在 步骤(b),识别该第一对象的识别信号在时间邻近于识别该第一对 象的空间位置的定位信号被播放。
6. 如权利要求3所述的方法,其中该定位信号指示了相对于三 维坐标系统的位置,并且其中在笫三维中第三声学参数是变化的,并 且其中第一、第二和第三声学参数是不同的。
7. 如权利要求1所述的方法,其中所提供的信息包括至少一个 窗口,其中该定位信号关联于所提供的信息的所选择特征,并且其中 该特征是边界、域、功能性特征、和可选择对象中的至少一个。
8. —种计算机可读介质,包括执行权利要求1的步骤的处理器 可执行指令,其中该定位信号对应于该指针和/或计划焦点指示符的连 续位置,并且其中所显示的信息包括多个对象,每个对象对应于不同 的应用程序。
9. 一种计算系统,包括(a) 显示器,可操作用于显示信息;以及(b) 可听定位代理,当指针和/或计划焦点指示符在该显示器上 移动时,可操作用于播放多个可听定位信号以识别至少一些所显示的 信息的空间位置和/或该指针和/或计划焦点指示符的连续位置。
10. 如权利要求9所述的计算系统,其中该定位信号对应于所显 示信息的空间位置,其中该所显示的信息包括多个对象,每个对象对 应于不同的应用程序,其中每个对象具有一个对应的与其相关联的定 位信号,其中该显示器被分割为多个段,每个段都与唯一一组声学参 数相关联,并且其中当该指针经过所选择段的边界和/或当该指针位于 所选择的段中时,所播放的定位信号具有与所选择的段相关联的所述 唯一一组声学参数。
11. 如权利要求10所述的计算系统,其中每个段对应于多个显示像素,其中所述声学参数组包括相位、频率、大小、调子、和回声 中的至少一个,其中该定位信号指示了至少相对于二维坐标系统的位 置,其中在第一维中第一声学参数是变化的,并且在第二维中第二声 学参数是变化的,并且其中该第一和第二声学参数是不同的。
12. 如权利要求ll所述的计算系统,其中第一声学参数是频率, 而第二声学参数是一只耳朵对另一只耳朵的相位差,其中关联于笫一段的第一频率不同于第二邻近段中的第二频率不到一个全音符,并且 其中关联于第三段的第一相位差不同于关联于第四邻近段的第二相位 差至少两度。
13. 如权利要求9所述的计算系统,其中所述定位信号对应于所 显示信息的空间位置,其中所显示的信息至少包括第一对象,并且其 中该代理在时间上邻近识别该第 一对象的空间位置的定位信号播放识 别该第 一对象的识别信号。
14. 如权利要求12所述的计算系统,其中该定位信号指示了相 对于三维坐标系统的位置,并且其中在第三维中第三声学参数是变化 的,并且其中第一、第二和第三声学参数是不同的。
15. 如权利要求9所述的计算系统,其中所显示的信息包括至少 一个窗口,其中该定位信号关联于所显示的信息的所选择特征,并且 其中该特征是边界、域、功能性特征、和可选择对象中的至少一个。
全文摘要
一种可听计算机用户界面方法和装置。提供了一种计算系统,其包括显示器124,用于显示信息;以及可听定位代理148,用于当指针在显示器上移动时播放可听定位信号来识别至少一些所显示信息的空间位置。
文档编号G06F3/048GK101201718SQ200710141320
公开日2008年6月18日 申请日期2007年8月6日 优先权日2006年9月14日
发明者保罗·罗勒·米凯利斯, 戴维·S.·莫勒 申请人:阿瓦雅技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1