可听计算机用户界面方法和装置的制作方法

文档序号：6611506阅读：207来源：国知局

专利名称：可听计算机用户界面方法和装置的制作方法
技术领域：
本发明总体涉及计算系统，并且尤其涉及用于计算系统的用户界面。
背景技术：
在今天的大部分计算机环境中，图形用户界面已经取代了仅文本的界面。典型的图形用户界面经由非文本图像将至少一些信息传递给用户。项目可以通过使用点击设备来被选择或激活，点击设备比如是鼠标或轨迹球(trackball)。注意到点击对象可以出现在屏幕上的任何地方是很重要的。
最流行的面向图形化的操作系统是Microsoft Corporation的基于windows的产品，例如Windows 95TM、 Windows 98TM、用于 Workgroups 的Windows, Windows NTTM、 Windows 2000TM、 Windows 2003 、 Windows METM、和Windows XPTM。"窗口，，是显示器留出用于特定目的的区域。在每个窗口中，经常会有图形图像，以及许多可以是点击设备的对象的不同位置。
典型现代计算机的一个特征是其能够同时执行许多任务。现代图形用户界面通过允许许多不同窗口同时被"打开"来反映这一能力，每个窗口都对应于不同的软件块、或应用程序。因此，不同的应用程序可以被同时显示在不同窗口中。窗口一般具有可视边界，信息被相应的应用程序显示在该边界之内。活动窗口是用户当前正在与其交互的窗口，而非活动窗口是打开的、但当前不是活动的窗口。(为了说明不同，尽管可视的改变可以出现在任何打开的窗口中-即任何被显示在屏幕上的窗口 -活动窗口是用户的键盘输入在其中会起作用的一个。如果窗口重叠，那么活动窗口将出现在最上面，将其他窗口的部分隐藏在他们的重叠位置中。)用户能够通过对光标的合适定位和键盘/鼠标命令来控制该窗口的大小、形状和定位。
因为窗口可以互相重叠和"隐藏"，显示工具条被提供在基于窗口的操作系统中。该工具条可以被用户定位在沿着屏幕的任何一边(大部分倾向于底边)；其包含代表可以被调用的应用的图标，以及对应于每个打开窗口的单独图标。
随着打开窗口数量的增大，显示工具条的图标变得越来越拥挤并且对用户起不到帮助。更糟的是，工具条中窗口图标的顺序并不反映窗口堆叠的准确顺序。图标基于窗口被打开的相对时间被排序而不是基于窗口在显示器上的相对位置被排序。这使得用户周期性地点击这些窗口以识别哪些窗口是打开的并且重新安排它们以使得每个打开窗口的一部分可以被看见。此外，基于窗口的操作系统一般需要两只手和全部注意力来进行操作。用户不仅需要观看显示器，还需要经由点击设备，比如鼠标、轨迹球、操纵杆、手写笔等，来做出选择或输入数振。在许多实施方式中，用户不方便提供双手和完全的注意力来操作计算机，因此逐渐缩小了吸引力并降低了操作系统的生产率。例如，当操作车辆时，对司机来说观看并操作使用可视显示器的设备是不安全的。也存在比如对设备的夜间使用的情况，其中照明显示器是不希望的，因为对用户夜视的不利影响。同样，军队人员在夜间对照明显示器的使用也是不希望的，因为照明会暴露用户的位置。
另一个考虑是残疾访问正逐渐变成软件和硬件厂商的重要问题。许多国家正制定严格的法律来要求产品具有允许该产品能够被具有残疾的人士操作的特殊特性。一个说明性例子是1998年的康复法的508 章(Section 508 of the Rehabilitation Act of 1998 ) ( 29 U.S.C.§794d )。与该立法相关联的规定(requirement)(尤其适用于基于计算机的图形用户界面)在联邦法典(Code of Federal Regulations) 36 CFR部分1194.21和1194.22。这些规定的大部分面向不能看见东西的人群。例如，规章1194.21(a)规定了所有操作都要能够经由计算机键盘被访问-即不需要点击设备。该规章是必要的，因为盲人无法看清屏幕上
指针的位置、窗口中对象的位置、以及可以打开的不同窗口的相对位置和边界。
为了操作图形用户界面，盲人依赖于复杂的文本到话音协助软件
应用，比如Microsoft NarratorTM、 Freedom Scientific BLV Group的 JAWSTM、 LLC、和GW Micro的Window誦EyesTM。在窗口内和窗口之间的导航是通过单独或与其它键组合地使用TAB、 ALT和箭头键来完成的。例如，在典型的窗口中按下TAB使得计划(programmatic ) 焦点移动到下一个TAB停止的地方(tap-stop)或点击对象。每次按下TAB键，文本到话音软件提供对对象的口头描述。(508章规章 1194.22(a)规定所有非文本元素具有基础(underlying)的文本标签。正是这个允许了文本到话音软件在TAB功能将焦点转移到图标或其它图形图像时能够合适地响应。)当期望的对象被说出时，该功能可通过按下ENTER键被执行。
类似的机制允许用户在不同应用之间移动，并选择将被激活的窗口。这是通过在按下并释放TAB键期间连续按下ALT键来完成的。每次按下TAB键，用户可顺序地在已经打开的窗口之间移动。移动顺序是按照时间顺序的，从最近被激活的窗口开始。(注意，图标在工具条中出现的顺序是基于对应的窗口被第一次打开的顺序的，而不是基于窗口已经被激活的顺序。)在每次释放TAB鍵(而不是ALT键) 之后，协助文本到话音软件将立即读出所选择窗口的标题栏。当用户听到软件说出期望窗口的标题时，该用户通过释放ALT键使得这个窗口被激活。
尽管对基于键盘的控制的支持确实允许图形用户界面可以被盲人操作，但是这种操作风格相对于提供给能够操作点击设备的人的操作来说是慢得多并且乏味得多的。重申前面的观点，基本问题是盲人用户无法看清屏幕上指针的位置、窗口中对象的位置以及可以打开的不同窗口的相对位置和边界。在这个上下文中，重要的是能注意到能看见的用户经常形成对所期望的点击对象所在的位置的精神地图，以此来允许他们非常快速地将指针移动到对象。在呈现给盲人用户的信
息中的难忘的特定于位置的数据的缺乏表示了当前只能提供给看得见的用户的又一个操作优势。

发明内容
这些和其他需求由本发明的各个实施例和配置所解决。本发明总体被涉及一种方法和系统，用于在显示器上定位对象。
在本发明的第一实施例中，提供了一种方法，包括步骤
(a) 提供一种电子显示和用户界面样式，其中正在显示的对象的位置是重要的；以及
(b) 当指针和/或计划焦点指示符在显示器上移动时，播放多个可听定位信号以识别至少一些所显示信息的空间位置和/或指针和/或焦点指示符的连续位置。
在一种配置中，该显示器被分割为一系列段，每个段关联于唯一一组声学参数。当指针和/或计划焦点指示符经过所选择的段的边界和 /或当指针和/或计划焦点指示符位于所选择的段中时，播放的定位信号具有所述唯一一組与该所选择的段相关联的声学参数。每个段对应于多个显示象素，并且所述声学参数组包括相位、频率、大小、调子以及回声中的一个或多个。
在一种配置中，定位信号指示了相对于二维坐标系统的空间位置。在第一维中，第一声学参数变化，而在第二维中，第二声学参数变化。笫一和第二声学参数是不同的。它们的数值可独立变化。信号本身在心理声学上(psychoacoustically )是可分的，因此其中每一个的数值是可独立辨别的。
作为示例，第一声学参数可以是信号的声学频率、一只耳朵对另一只的第二参数合成声学相位延迟。通常，与第一段相关联的第一频率和与第二邻近段相关联的第二频率至少相差等于心理声学"刚好能注意到的区别，，的量。(对于大多数人，在声学频率上"刚好能注意到的区别，，将小于与相邻音符相关联的区别。)应记住人类声学机制依赖于左耳对右耳的察觉到的相位差别，以进行侧边的声源定位，与第三
段相关联的第一合成的相位差和与第四邻近段相关联的第二相位表达至少相差等于心理声学上"刚好能注意到的区别"的量。(对于大多数人，一只耳朵对另一只的相位延迟中的"刚好能注意到的区别"，几乎等于察觉到的声源位置中的两度偏移。)在二维声学信号传送系统的优选实施方式中，频率差指示沿着纵轴的位置，而一只耳朵对另一只的相位差指示沿着水平轴的位置。
在一种配置中，定位信号指示相对于三维坐标系统的空间位置，并且在第三维中，第三声学参数是变化的。第一、第二和第三声学参数是不同的、独立变化的、并单独辨认的。
在另一个实施例中，提供了一种方法，包括步骤
(a) 在第一时间，向用户可听见地提供识别对应的显示图像的识别信号，以及在时间上与其接近地提供识别所显示的图像在显示器上的空间位置的定位信号；以及
(b) 在第二时间，向用户可听见地提供指示指针的空间位置的一个或多个定位信号。
通过这种方式，用户能够基于与该图像相关联的定位信号和与该指针相关联的所选择的定位信号之间的类似度将该指针移动到所显示图像的位置。
本发明有效地提供了一种可听用户界面。例如，点击指示符的位置，以及显示器上可点击的"热点(hot spot)，，的位置可被声学地指示，例如用于左右轴的声学相位位置，用于纵轴的频率增加或降低。因为声学相位对于高于大约1500Hz的频率不是左右位置的有效指示符，所以一种优选的实施方式可以使用其作为指示"屏幕顶端"的频率，而使用低于其一个八度的频率-750Hz-来指示中点，用低于1500Hz 两个八度的频率—即375Hz _指示屏幕底部。
该用户界面可替换级别、调子或其它类似效果用于产生相对位置。当用户使用这种用户界面进行导航时，图标、工具条、下拉框等等的各种位置可以通过频率和相位的选择组合或类似的配对而被识别。在这种方法的一个优选实施方式中，声学位置信息与传统协助文本到话音附件(例如Narrator、 JAWS、或Window-Eyes )所产生的语音输出一起被提供。这可允许盲人用户了解期望目标在屏幕上的物理位置。不使用视觉，用户只需通过倾听指针的声音就可以移动点击指针到那些位置中的任何一个，同时移动该指针以使得其声音与期望目标的声音一致。
用户可以通过与许多用户学习识别与电话键盘上的特定键相关联的DTMF双音完全相同的方式来学习导航。而且，如果用户停在两个图标之间，该界面会产生宣告，该宣告陈述你在A和B之间，你想选择哪个。一旦定位在特定图标、工具条工具或下拉框上，其可以宣告所选择的功能。通过这种方式，用户可以基于听觉暗示而不是对光标的视觉识别来在屏幕上导航。而且，这种思想可用于在选择之间导航，而不需要任何显示器。结果，这不仅仅是导航现有屏幕的音频方法，其还允许用户界面在没有任何屏幕存在的情况下工作。通过凝视检测或各种各样的其它定位指示设备，这种思想可被扩展到使用按钮、摇杆、鼠标和轨迹球类型设备进行激活的用户界面。虽然在现有技术中存在产生与事件或位置相关的声音的游戏，但是其不是用于用户界面的导航目的，而是基于那个游戏的事件来自这个游戏的对用户的反馈。
本发明根据特定配置可以提供许多优点。作为示例，无论视觉是否受损，用户都能够基于可听定位信号快速并方便地识别所显示的物体(比如窗口、热点、工具条)的对象。这通常能够提供用户对多任务的能力和生产率的明显改善。用户不需要两只手、很好的视力、和对显示器的注意力集中就可操作指针到期望位置来执行所选择的功能。
这些和其它优点将从这里包含的本发明的公开内容中变得明显。在此使用的，像"至少一个"、"一个或多个"和"和/或"是在操作中可连接和可分离的开放式短语。例如，短语"A、 B和C中的至少一个"、"A、 B或C中的至少一个"、"A、 B和C中的一个或多个"、"A、 B或C中的一个或多个，，和"A、 B和/或C"的每一个意味着单独A、单独B、单独C、 A和B—起、A和C一起、B和C一起、或A、 B和 C一起。
上述实施例和配置不是完全的也不是穷尽的。如将被理解的，本发明的其它实施例也可以单独或组合地利用上面陈述的或下面详细描述的一个或多个特征实现。

图l是根据本发明一个实施例的计算机系统的框图2根据本发明一个实施例描述了显示段；
图3根据本发明一个实施例描述了显示段；
图4是对根据本发明一个实施例的示意性显示的截屏；
图5是根据本发明一个实施例的流程图；以及
图6是根据本发明一个实施例的流程图。
具体实施例方式
图1中描述了根据本发明的计算机系统100。该系统100包括处理器104、存储器108、键盘112、跟踪单元116、麦克风120、监视器124、扬声器阵列132( 132R和132L表示阵列中的右和左扬声器)、以及(其它)外围设备128。键盘112、跟踪单元116、麦克风120、监视器124、扬声器132、以及外围设备128—般在计算机(其包括处理器104和存储器108)外部并且通过串行或并行链路(例如串行或并行总线)连接到该计算机。
处理器104是解释和执行指令的功能性单元。其通常包括指令控制和算术及逻辑单元。其通常是包括中央处理单元的集成电路。典型的处理器是微处理器。
存储器108可以是任何存储介质并且包括系统100中所有可寻址的存储空间。一般，存储器108是只读和随机访问存储器的结合体。
键盘112提供字母数字的数据的主要的计算机输入。
跟踪单元116是手动操作单元，其移动指针或鼠标指针到显示器
上的期望位置、重新定位所显示的对象、并调用所期望的特征/功能。示意性跟踪单元116包括鼠标、手写笔、摇杆和轨迹球。
麦克风120和扬声器132可以分别是任何合适的麦克风或扬声器，并且可以位于系统100的内部或外部。
监视器124是视频显示终端，其接受视频信号并在其屏幕上显示信息。监视器一般具有多个像素，像素的密度代表了所显示信息的分辨率。
最后，外围设备128是支持系统的操作的外部设备。外围设备的例子包括打印机、外部磁带驱动器、以及外部硬件驱动器。
虽然本发明参照个人计算机或膝上计算机被描述，但是应当理解其并不局限于微型计算机，其也可被应用于任何其它计算系统。
存储器108包括操作系统136、驱动器140、多个应用144a-n、以及可听定位代理148。存储器108可根据应用包括其他的、或更少的计算性模块。
操作系统136是一组指令，其控制程序的执行并可提供服务，比如资源分配、调度、输入/输出控制和数据管理。操作系统136优选地是图形操作系统，优选的是基于窗口的系统。特别优选的操作系统是 Microsoft的WindowsTM操作系统。
驱动器140包含运行特定计算性模块的信息，这种模块比如是绘图机、打印机、端口、扬声器、麦克风、盘或磁带驱动器、视频卡、以及鼠标。
多个应用114a-n是执行各种所选择的任务的应用程序。这些应用可包括例如比如Excel 的电子表格程序、比如Outlook 的消息和日历管理或调度程序、比如WordTM和WordPerfectTM的字处理器、会计系统、工程程序、图形程序、语音和话音识别程序(例如文本到话音(TTS)和话音到文本(STT)程序)、以及残疾访问软件，比如JAWSTM和Window EyesTM。
可听定位代理148提供关于在监视器124上显示的各种对象的位置的可听位置信号。所显示的对象可以是图标或其部分、窗口或其部分、数据域、文件夹、热点(hotspot)、光标、链接(例如超链接)、计算机显示控制、工具条或其部分、桌面或其部分、计划焦点指示符等等。如将被理解的，计划焦点识别用户可选择的域，比如链接、图标、文件夹、热点等等，当用户按下他们键盘上的ENTER鍵时其将被激活。计划焦点指示符可以但不一定与光标相同。计划焦点指示符通常通过TAB或箭头键在域到域之间移动，并高亮显示用户可选择的行动。可听定位信号可以采用多种形式。例如其可是离散的或连续的信号。一般，位置信号的一个或多个声学参数与显示器上的特定位置或一组位置相关联。声学参数可以是相位、频率或音调、大小或增益、调子、回声、信号间隔(邻近的、非连续的信号之间)、以及信号持续时间。声学参数随着指针在显示器上的移动而变化以通知用户指针在显示器上的位置。
图2根据一种配置描述了示意性分段显示器200。该显示器被显示为具有两维，即X和Y。每个段204a-x具有相关的空间(X，Y)坐标和声学参数组。空间(XY)坐标一般指段的指定点(例如中点)，但也可以是覆盖该段的定义跨度的坐标范围。一个段可对应于一个像素，但是通常指一组或多个像素。优选地，每组声学参数都唯一地关联于对应的空间坐标组。图2中显示的声学参数是一个耳朵对另一个的相位差(P),以及频率(F)。对于给定的X坐标，一个耳朵对另一个的相位差被保持为恒定，而频率作为沿着Y轴的位置的函数而变化。对于给定的Y坐标，频率被保持为恒定，而相位差作为沿着X轴的位置的函数而变化。结果，在二维格子中的每个XY位置将具有其唯一的声学标记(signature)。对于水平(X)轴，在优选实施例中的表示方式与用户期望的一致之处在于该合成的声学标记将会发声就像从其实际所在的屏幕上的点发出来一样。对于垂直(Y)轴，表示方式与用户所期望的一致之处在于对于在屏幕上较高的对象声学频率也较高。
重要的是注意到操作声学信号以使其好像来自特定位置而被察觉到的能力是优选实施例的重要部分。为此，合适的是回顾一下人类
听觉机制如何确定声音的发源点
经常被错误地以为，人类通过比较一个耳朵对另一个的声音的相对响度来判断声音来源的方向。尽管在评定本质上主要是高频的声音时比较响度是有用的，但是这却不是人脑对具有相当低频率的成分的声音的主要方向位置机制。对于比如这些的声音，声波的相对相位是关键因素。
为了图示人类听觉处理机制如何察觉到低频声音发源的方向，假设一个声音包括纯500Hz的音。如果该声音发源于就在一个人面对的正前方的一个点，那么该声波会同时接触这个人的左耳和右耳。该声音将被这个人察觉为发源自一个点，该点处于垂直于这个人两耳之间的一条线的平面中，这个平面与两耳之间的连线交叉于两耳之间连线的中点。但是如果该500Hz的声音发源自在这个人的侧面的源、而不是直接在他们面前时，会发生什么呢？
在海平线上，声音通过空气的速度是每毫秒接近12英寸。这意味着500Hz音的波长接近24英寸。为了图示，如果假设一个人两耳之间的距离接近6英寸，那么这意味着发源自就在听者侧面的源的 500Hz正弦声音波的峰值一只耳朵对另一只的接近90度异相。尤其是，声波在接触到面对声音的那只耳朵后几乎1/2毫秒才接触到不面对声音的那只耳朵。该时间延迟被大脑检测到，并且被作为确定声音的发源点的基础。(注意在假设较低湿度并且20度C温度的条件下，对于声音经过空气的速度的实际值是接近11.27英寸每毫秒。近似的数值被使用在这个实施例中以简化解释。)
继续这个例子，如果该声音来自脱离轴0到90度之间的点，那么时间延迟将小于1/2毫秒。这也被大脑检测到并作为判定发源点不在正前方或正侧方的基础。
为了图示为何比较相位对高频声音没有用，假设2000Hz的纯音。如果该声音发源自正对一个人侧面的一个点，那么一只耳朵对另一只而言，声波将是360度异相。换句话说，声波峰值会同时接触两只耳朵，因此使得基于相位的定位是不现实的。尽管存在具有该范围内或
更高的频率成分的人类话音成分-特别是被普遍称作共振峰的声道共振，但重要的是应注意到对于人类语音的基本音调通常在100到 300Hz之间。结果，虽然在人类话音中存在这种高频声音，但是比较相位是被人类大脑用来确定话音发源方向的主要机制。
现在从简单的说明性例子转移到对相关生物物理学的更准确的检查，用于计算耳间相位差(IPD )的公式等于方位角微分的接近763jis x Sin (考虑到与人类头部相关的衍射效果)。实验数据显示500Hz频率的微分相位对很多人来说以较小的一或两度的改变被听到。记住大多数人不能忍受15000Hz以上的频率，人类听觉机制能够检测到像13 -26fis —样小的耳间时间差看起来是违反直觉的，但是这个发现已经被Wright Patterson Air Force Base in Dayton， Ohio.的声音定位研究中心所进行的控制实验所证明。基于他们的研究，耳朵几乎纯粹依赖于微分相位以对1500Hz以下定位并且依赖于微分幅度级别以对 3000Hz以上的频率定位。在接近2000Hz的频率，由于前述原因，人类听觉机制对声音的定位趋向于非常恶化。这就是本发明的优选实施方式使用1500Hz作为指示"屏幕顶端，，的频率，使用低一个八度的频率- 750Hz -来指示中点，以及使用比1500Hz低两个八度的频率 - 即 375Hz 一来指示屏幕底部。
在本发明的一个配置中，用户具有立体声耳机或扬声器。到左耳和右耳的信号是不一样的。尤其是，定位信号反映时间偏移以提供用户的左耳对右耳如何察觉信号的听觉差别。时间偏移的量关联于对相应于该定位信号的空间位置的相位差。该时间偏移的目的是允许用户察觉到每个定位信号来自于不同的、容易识别的方向。
作为示例，计算机可以在递送第一定位信号到用户的左耳后近似 500jis将其递送到用户右耳，以此使得该用户察觉到相关位置在其左侧。类似地，该计算机可立即递送第二定位信号到听者的右耳，而在到左耳的信号上施加500ns的延迟，这样使用户察觉到相应的位置是在他的右边。如果该计算机不对第三定位信号施加任何延迟，那么相应的位置将被察觉为来自在其它两个位置中间的中央位置。
对于可以被可靠检测到的独立定位信号的最大数量(以及，作为扩展，可以由本发明支持的位置的最大数量)，如果一个人假设定位信号的五度差别会被人耳可靠地辨别，那么使信号停留在五度间隔(开始于对左边的90度并结束于对右边的90度)的系统将支持39个相应的沿着X轴的位置。
在使用中，随着指针(或计划焦点指示符)从段到段的移动，扬声器132R和132L (即在用户的右边和左边的扬声器)产生多个具有变化的声学特性的可听定位信号。当指针(或焦点指示符)到达每个段中的指定点(即当该光标经过或穿过边界)时信号被正常产生，并且当该光标(或计划指示符)位于对应段204之内时被在确定出的时间段产生。如果该光标(或焦点指示符)在长于确定时间段的时间内在该段中处于静止，那么信号被终止，除非该用户指示希望让信号被重新播放以提醒他或她该光标(或焦点指示符)的位置。这种期望可以由按键或按钮的按下、摇动或前后移动轨迹单元116等来指示。当所显示的图像跨越多个段204时，这些信号仍旧被产生，因为其将协助用户大体确定他或她在窗口中的以及在显示器上的位置。
在一种配置中，代理148与残疾访问应用一同工作(这种残疾访问应用比如是JAWSTM或Window EyesTM)以提供除了对象的可听识别之外的空间或位置信息。换句话说，如果当该光标(或焦点指示符) 移动到一个域中当残疾访问应用要识别该域，代理148还将会提供对应于该域所在的段204的音频位置信号。通过这种方式，该用户不仅知道了域的身份还会知道域的位置以在以后使用。
在一种配置中，可听定位信号不仅以二维(X和Y)指示光标(或焦点指示符)的位置，还以第三维(Z)指示。这通过参考图3来图示。图3图示了许多堆叠或层叠的窗口 300a-j。每个窗口 300a-j代表沿着Z轴304的对应的Z的位置。例如，第一窗口 300a表示第一Z 的位置Zl (其位于或最接近于坐标系统原点308)，第二窗口 300b 代表第二Z位置Z2，......以及第j窗口 300j代表第j个Z的位置Zj(其距离原点308最远)。随着光标(或焦点指示符)从窗口到窗口
的移动，其从一个z的位置移动到另一个。在光标(或焦点指示符)
的移动位于X和Y平面中时，扬声器132R和132L将产生多个具有变化的声学特性的可听信号。对应于沿着Z轴的点的变化的声学参数不同于因XY位置的变化而变化的参数。在一种配置中，沿着Z轴的位置变化可由合成回声的度的对应变化来指示。在另一种配置中，沿着Z轴的位置可由声学信号的持续时间来指示。(应注意合成回声是用于指示Z轴位置的优选方法。这是因为当新的窗口被用户在图形用户界面中选择时，其自动地移动到堆叠的顶部。该移动可以由当该信号被播放时合成回声的度的变化来声学指示。)这些信号在光标(或焦点指示符)到达每个段中的指定点(例如当光标(或焦点指示符) 经过窗口边界时)时被正常产生，并且当该光标(或焦点指示符)位于对应段204中时被在确定出的时间段产生。如果该光标(或焦点指示符)在大于确定时间段的时间内在该段中处于静止，那么该信号被停止，除非该用户指示希望该信号被重新播放以提醒他或她关于该光标(或焦点指示符)的位置。这种希望可以通过按键或按钮被按下、摇动或前后移动轨迹单元116等来指示。
考虑到上述配置，存在许多描述本发明原理的例子。
在第一示例中，参考图4，光标或指针400的位置通过与该光标所通过的每个段204相关联的可听定位信号被跟踪。在该例子中，描述了多个堆叠的窗口 404a-f。这些窗口被层叠为窗口 404a(对应于 Word )位于Zl位置，窗口 404b (对应于WordPerfect )位于 Z2位置，窗口 404c (对应于Outlook )位于Z3位置，窗口 404d (对应于ExcelTM)位于Z4位置，窗口 404e (对应于Internet Explorer Browser )位于Z5位置，并且窗口 404f (对应于Adobe Reader ) 位于Z6位置。随着该光标围绕窗口 404a的边界运动，不同声学特性的可听定位信号被产生用于该光标400所通过的每个段(未示出)。通过这种方式，该用户可以知道光标的位置而不需要观察显示器。在一种变化中，当图标从窗口 404a的数据输入区域408移动到该窗口的工具条412区域时，具有不同组声学特性的第二类型可听信号被产生。
例如，如果对于段的定位信号指示在哪里变化相位和频率以指示不同的段，那么第二类型的定位信号可以对固定相位和频率变化调子和回声。然后用来宣称各种工具条选项的音频识别信号可以在该指针沿着工具条移动时向用户播放。
在第二例子中，继续参考图4，当该光标400经过窗口 404a的边界416并且进入窗口 404b时，代理148会产生声明"WordPerfect"的可听识别信号。当该光标400经过窗口 404b的边界420并进入窗口 404c时，代理148会产生声明"Outlook，，的可听识别信号。通过这种方式，光标400的深度、或Z、位置会被宣称给该用户。如将被理解的，如果该用户点击窗口 404b-f之一的工作区域，那么所选择的窗口被移动到Zl、或第一位置，并且其他窗口相应地重新排列。通过示例，如果该用户选择窗口 404e，那么该窗口被移动到Zl位置，窗口 404a 移动到Z2位置，窗口 404b移动到Z3位置，窗口 404c移动到Z4位置，窗口 404d移动到Z5位置。窗口 404f保持在Z6位置。在一种变化中，一个或多个窗口的Z位置是固定的，或应用户的要求返回为所选择的顺序。在一种变化中，代理148应用户的要求播放为每一层识别在该层的窗口的身份的一系列识别信号。通过示例，该信号可以说 "Word在层1， WordPerfect在层2， Outlook在层3， Excel在层4， Internet Explorer在层5以及Adobe Reader在层6"。因此，对于给定的层，代珲148可以宣读在该层中的窗口或其中的对象。例如，如果多个窗口位于同一层，那么该代理会识别那些窗口以及可选地这些窗口的绝对或相对XY位置。
在第三例子中，继续参考图4，该用户通过将由光标400的运动产生的可听定位信号与同每个图标相关联的可听信号进行匹配来定位比如任何一个图标450的图像。作为示例，该用户能够通过请求该光标移动到一个或多个所选择的对象来在意识上映射对象的位置，并且随着该光标从一个对象移动到另一个，代理148使得与该对象所位于的段204相关联的定位信号与用于该对象的可听识别信号一同被发射。因此，当应用户请求该光标400移动到"我的文档，，图标时，代理148会对该图标所位于的段播放定位信号，并且在时间上与定位信号的动作接近地可听地宣读"我的文档"。然后该光标400将移动到"我的文档图标"，并且代理148会对该图标所位于的段播放定位信号，并且在时间上与定位信号的动作接近地可听地宣读"我的电脑"。该过程可以以周期间隔对所有的图标450重复。随着时间的过去，该用户会开发出他或她的显示器的意识图。通过在使得期望图标位置和当前光标位置之间的定位信号的声学差别变得更小的方向上移动光标400，该用户能够快速并容易地定位期望的图标。
在第个例子中，该用户可以(比如经由盲人用点字法键盘)提交关于特定窗口的查询。代理148可以移动该指针400 (或焦点指示符) 到该窗口的工作区域并要求该用户点击，这将使得该窗口移动到堆叠的顶部或前面。可选地，该代理可以重新排列这些窗口而不需要更多的用户介入。
在第五个例子中，继续参考图4，光标400位于两个可选(可点击或可启动的)图像之间，该图像可以是图标、文件夹等，并且代理 148对该用户宣读他或她正位于图像之间并且识别该图像。例如，如果光标400位于显示器的工具条432的图标424和428之间，那么代理148将对该用户宣读"你正处于显示器工具条的WordPerfect和 Word图标之间"。当该用户移动光标400向左时，代理148将宣读"你现在在WordPerfect图标上"，而向右时将宣读"你现在在Word图标上"。在另一个图示中，光标400可在应用工具条412的图标436和 440之间。上述过程可对于"保存"图标436和"打印"图标440被重复。当光标400位于可选图像附近时，比如位于热点或链接附近时，同样的过程可被重复。例如，如果该图像是热点，那么代理148可以提供信号"向右移动以激活该热点"，
在笫六个例子中，当错误条件被错误信号(例如弦波)所指示时，可听定位和/或识别信号可被在时间上与该错误信号相接近地设置以指示该用户该错误信号与哪个窗口相关联。在这个例子中，该定位信号可以是对应于该窗口的应用程序的可听识别符和/或被该窗口至少部分跨越的段204之一的可听识别符。
在第七个例子中，比如窗口和图标的图形图像可以经过该显示器移动到所选择的位置，并且在运动过程中，随着该图形图像从一个段移动到另一个段，多个定位信号可以被播放。为了示例，代表到来的电子邮件的电子邮件图标可以从一个边"飞过"该显示器到达对应于该电子邮件应用程序的窗口，并且随着该电子邮件图标移动过该屏幕，具有不同声学特性的一系列定位信号被播放。这种信号组可以给用户
运动的印象并且对耳朵是舒适的。该电子邮件图标可以仅关联于所选择的电子邮件，比如来自所选择源的电子邮件，并且不关联于来自其它源的到来电子邮件。通过这种方式，该用户可以在感兴趣的电子邮件，而不是SPAM电子邮件或不太感兴趣的电子邮件(其被静静地发送到该窗口，并且只产生习惯的电子邮件到达信号)到来时被告警。
在第八个例子中，当光标400经过图像的边界时，代理148产生可听边界信号。这些边界信号在声学上大体不同于为经过段而产生的定位信号。例如这些边界信号可才艮据所经过的图像和/或边界的类型而具有相同組的声学参数或不同的声学参数。在优选实施例中，定位信号变化频率和相位，而边界信号使用回声或信号长度来可听地区分于定位信号。
图5根椐本发明的一个实施例描述了代理148的操作。在决定菱形框500，该代理确定该光标(或焦点指示符)是否被重新定位到新的显示器元件(或段)。如果该光标(或焦点指示符) 已经被重定位，那么在步骤524，该代理选择对应于该新的显示器元件的声学参数，并且在步骤508，产生具有所选择的声学参数的音频定位信号。如果该光标(或焦点指示符)没有被重新定位，那么该代理返回到并重复决定菱形框500。
在决定菱形框512，该代理确定该光标(或焦点指示符)是否改变了Z位置。如果该Z光标(或焦点指示符)位置已经改变，那么该代理在步骤516选择对应于新的Z位置的可听定位和/或识别消息，并且在步骤520对用户播放所选择的音频消息。该消息可以筒单得知"你不在层2"(对于从层1移动到层2或从层3移动到层2)。当该光标 (或焦点指示符)位置没有被改变或在执行了步骤520之后，该代理继续到决定菱形框524。
在决定菱形框524，该代理确定该光标(或焦点指示符)在可访问或可选择的对象的预定距离内是否处于静止。如果是，那么该代理在步骤528选择并播放对应于该邻近对象的可听对象识别信号。该代理还可以对用户提供将该光标(或焦点指示符)移动到哪里才能到对象上的位置的指令或应用户的请求自动将该光标移动到对象。
当该光标(或焦点指示符)没有在可访问或可选择的对象的预定距离内或在步骤528之后，该代理返回到并重复决定菱形框500。
图6描述了另一个本发明的操作性实施例。
在步骤600，该代理接收到用户关于特定窗口和/或可访问或可选择的对象的查询。
作为响应，在决定菱形框604，该代理确定该查询是否有关沿着 Z轴的窗口顺序。如果是，那么该代理在步骤608播放通过Z轴位置识别窗口的可听识别消息。如果不是或在执行步骤608之后，该代理继续到决定菱形框612。
在决定菱形框612，该代理确定该用户所请求的窗口是否应被沿着Z轴重新排列。如果是，那么该代理在步骤616按照该用户的请求重新排列该窗口。
当该查询不是有关沿着Z轴的窗口顺序时，该代理在决定菱形框 620确定该查询是否有关定位可访问的或可选择的对象。如果是那样，该代理在步骤624将该光标定位到用户所选择的可访问的或可选择的对象。如果不是或在执行步骤624之后，该代理返回到步骤600并等待下一个用户命令。
本发明的许多变形和修改可被使用。提供本发明的一些特征而不提供其它的特征是有可能的。
例如在一个可选实施例中，本发明并不局限于视觉损伤的用户，也可被视觉未损伤的用户应用。本发明还可被多任务的或从事其它活动(比如驾驶)的计算机用户所使用并使用可听反馈以在计算机上操作而不需要连续地观看显示器。在另一个例子中，该用户可以是计算机废旧品商人(junkie)，其有太多打开的窗口以至于不能使用显示器工具条来跟踪。对可听信息的使用，尤其是通过Z轴位置对每个窗口的识别，不仅在该用户监视哪些窗口被打开中非常有用，而且对用户监视窗口的相对位置也是很有用的。
在另一个实施例中，专用硬件实施方式(包括但不局限于专用集成电路或ASIC、可编程逻辑阵列、以及其它硬件设备)可以同样被构建以实施这里描述的方法。此外，可选软件实施方式(包括但不局限于分布式处理和/或组件/对象分布式处理、并行处理、或虚拟机处理)也都可被构建用于实施这里描述的方法，
还应说明本发明的软件实施方式可选择性地存储在有形存储介质上，比如像盘或磁带的磁介质、光盘的磁光或光介质、或像存储卡的固态介质或其它容纳一个或多个只读(非易失性)存储器的封装。电子邮件的数字文件附件或其它自包含的信息档案或档案组被认为是等同于有形存储介质的分布介质。因此，本发明被被为是包括有形存储介质或分布介质和现有技术所识别的等同体和继承媒体，其中存储有本发明的软件实施方式。
尽管本发明参照特定标准和协议描述了实施在诸实施例中的组件和功能，但是本发明并不局限于这些标准和协议。在此没有提及的其它类似标准和协议也存在并被认为是包括在本发明中。此外，在此被具有实质相同功能的更快的或更有效的等同体所替代。这^具有相同功能的替代标准和协议被认为是包括在本发明中的等同体。
在各种实施例中的本发明包括实质上在此描述和说明的组件、方法、过程、系统和/或装置，它们包括各种实施例、子组合及其子集。本领域技术人员将明白在理解当前公开内容后如何做出并使用本发明。在各种实施例中的本发明包括在不存在在此或在其各种实施例中没有描述和/或说明的项目的情况下提供设备和过程，包括在不存在如已使用在之前的设备或过程中的这种项目的情况下，例如，为了改善性能、实现便利和/或降低实施成本。
本发明的前述讨论被为示例和说明目的提出。前述内容并不意在将本发明限制为在此描述的一个或多个形式。例如在前述的具体实施方式中，本发明的各种特征在一个或多个实施例中被组合在一起以用于使公开内容流畅。本公开内容的方法不应被解释为反映了所要求保护的发明需要比每个权利要求中明确叙述的更多的特征的意图。而是, 如在后面权利要求中反映的，本发明的各方面在于比前面单个描述的实施例的所有特征更少的特征中。因此，后面的权利要求由此被结合到该具体实施方式
中，其中每个权利要求本身就是本发明单独的优选实施例。
此外，尽管本发明的说明书已经包括了对一个或多个实施例和特定变形和修改的说明，但是其它变形和修改也处于本发明的范围内，其例如在本领域技术人员理解了当前公开内容之后，处于其技术和知识范围内。所希望的是获取包括可选实施例到所允许程度的权利，包括与所要求保护的内容可替换的、可互换的和/或等同的结构、功能、范围或步骤，无论这种可替换的、可互换的和/或等同的结构、功能、范围或步骤是否在此描述，并且不意在公开限定描述任何可专利性的主题。
权利要求
1.一种方法，包括(a)用户界面向用户提供信息；以及(b)当指针和/或计划焦点指示符改变在该用户界面上的位置时，播放多个可听定位信号以识别至少一些所显示的信息的空间位置和/或该指针和/或计划焦点指示符的连续位置。
2. 如权利要求l所述的方法，其中该用户界面是图形用户界面，其中所述定位信号对应于所提供信息的空间位置，其中该所提供信息包括多个对象，其中每个对象具有一个对应的与其相关联的定位信号，其中显示器被分割为多个段，每个段都与唯一一组声学参数相关联，并且其中当该指针和/或计划焦点指示符经过所选择段的边界和/或当该指针和/或计划焦点指示符位于所选择的段中时，所播放的定位信号具有与所选择的段相关联的所述唯一一组声学参数。
3. 如权利要求2所述的方法，其中每个段对应于多个显示像素，其中所述声学参数组包括相位、频率、大小、调子、信号持续时间、信号间隔以及回声中的至少一个，其中该定位信号指示了至少相对于二维坐标系统的位置，其中在第一维中第一声学参数是变化的，并且在第二维中第二声学参数是变化的，并且其中该第一和第二声学参数是不同的。
4. 如权利要求3所述的方法，其中第一声学参数是频率，而第二声学参数是一只耳朵对另一只耳朵的相位差，其中关联于第一段的第一频率不同于第二邻近段中的第二频率不到一个全音符，并且其中关联于第三段的第一相位差不同于关联于第四邻近段的第二相位差至少两度。
5. 如权利要求1所述的方法，其中所述定位信号对应于所提供信息的空间位置，其中所显示的信息至少包括第一对象，并且其中在步骤(b)，识别该第一对象的识别信号在时间邻近于识别该第一对象的空间位置的定位信号被播放。
6. 如权利要求3所述的方法，其中该定位信号指示了相对于三维坐标系统的位置，并且其中在笫三维中第三声学参数是变化的，并且其中第一、第二和第三声学参数是不同的。
7. 如权利要求1所述的方法，其中所提供的信息包括至少一个窗口，其中该定位信号关联于所提供的信息的所选择特征，并且其中该特征是边界、域、功能性特征、和可选择对象中的至少一个。
8. —种计算机可读介质，包括执行权利要求1的步骤的处理器可执行指令，其中该定位信号对应于该指针和/或计划焦点指示符的连续位置，并且其中所显示的信息包括多个对象，每个对象对应于不同的应用程序。
9. 一种计算系统，包括(a) 显示器，可操作用于显示信息；以及(b) 可听定位代理，当指针和/或计划焦点指示符在该显示器上移动时，可操作用于播放多个可听定位信号以识别至少一些所显示的信息的空间位置和/或该指针和/或计划焦点指示符的连续位置。
10. 如权利要求9所述的计算系统，其中该定位信号对应于所显示信息的空间位置，其中该所显示的信息包括多个对象，每个对象对应于不同的应用程序，其中每个对象具有一个对应的与其相关联的定位信号，其中该显示器被分割为多个段，每个段都与唯一一组声学参数相关联，并且其中当该指针经过所选择段的边界和/或当该指针位于所选择的段中时，所播放的定位信号具有与所选择的段相关联的所述唯一一组声学参数。
11. 如权利要求10所述的计算系统，其中每个段对应于多个显示像素，其中所述声学参数组包括相位、频率、大小、调子、和回声中的至少一个，其中该定位信号指示了至少相对于二维坐标系统的位置，其中在第一维中第一声学参数是变化的，并且在第二维中第二声学参数是变化的，并且其中该第一和第二声学参数是不同的。
12. 如权利要求ll所述的计算系统，其中第一声学参数是频率，而第二声学参数是一只耳朵对另一只耳朵的相位差，其中关联于笫一段的第一频率不同于第二邻近段中的第二频率不到一个全音符，并且其中关联于第三段的第一相位差不同于关联于第四邻近段的第二相位差至少两度。
13. 如权利要求9所述的计算系统，其中所述定位信号对应于所显示信息的空间位置，其中所显示的信息至少包括第一对象，并且其中该代理在时间上邻近识别该第一对象的空间位置的定位信号播放识别该第一对象的识别信号。
14. 如权利要求12所述的计算系统，其中该定位信号指示了相对于三维坐标系统的位置，并且其中在第三维中第三声学参数是变化的，并且其中第一、第二和第三声学参数是不同的。
15. 如权利要求9所述的计算系统，其中所显示的信息包括至少一个窗口，其中该定位信号关联于所显示的信息的所选择特征，并且其中该特征是边界、域、功能性特征、和可选择对象中的至少一个。
全文摘要
一种可听计算机用户界面方法和装置。提供了一种计算系统，其包括显示器124，用于显示信息；以及可听定位代理148，用于当指针在显示器上移动时播放可听定位信号来识别至少一些所显示信息的空间位置。
文档编号G06F3/048GK101201718SQ200710141320
公开日2008年6月18日申请日期2007年8月6日优先权日2006年9月14日
发明者保罗·罗勒·米凯利斯, 戴维·S.·莫勒申请人:阿瓦雅技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：保罗.罗勒.米凯利斯;戴维.S..莫勒
技术所有人：阿瓦雅技术有限公司
我是此专利的发明人

上一篇：设备控制方法和设备控制装置以及设备修理系统的制作方法
上一篇：电子装置及其管理方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。