通过听觉表示html数据页的系统和方法

文档序号：2820762阅读：265来源：国知局

专利名称：通过听觉表示html数据页的系统和方法
技术领域：
本发明涉及环球网，更具体地说涉及借助声音传递以HTML编码的网页的内容。
环球网是数据页的国际集合。每个数据页使用超文本标记语言(HTML)写成。利用HTML编码的文件包括纯文本和标记文本，后者通常被称为“标记”。HTML文件中的标记并不显示给该文件的浏览者；标记表示关于该文件的元信息，例如与其它HTML页的链接，与文件的链接，或者该HTML页的特殊部分，例如主体文本或标题文本。通常以不同的颜色，字体或格式显示特殊文本，以便向浏览者突出显示该特殊文本。
由于媒体的视觉本性，对于视觉受损的个人来说，环球网带来特殊的问题。此外，不仅视觉受损的个人不能浏览由HTML页显示的内容，而且表现可视数据，以便视觉受损个人获得这些可视数据的常规方式也不能容纳HTML页通常存在的一组丰富的嵌入功能性。
于是本发明的目的是提供一种使视觉受损个人能够访问HTML页的方法和设备。
本发明的另一目的是提供一种利用声音数据，而不是视觉数据表现HTML页的内容的方法和设备。
上面陈述的目的，以及本发明的其它目的和优点是由下面描述的本发明实施例实现的。
本发明以音频信息的线性流的形式向使用者呈现HTML文件。避免了文件的视觉表现采用的在页面上把文本分成多行。这不同于称为“屏幕阅读器”的现有系统，该现有系统使用合成的语音输出在计算机屏幕上显示信息。这种屏幕阅读器取决于文件的屏幕布局，并且要求使用者熟悉并按照该布局，以在文件内进行浏览。本发明避免了屏幕的视觉隐喻，并且以当大声阅读时，使文件发声的方式表现文件，而不是以视觉显现文件的方式表现文件。即，本发明以线性方式向使用者呈现文件，然而允许使用者在任意时刻跳以该文件内的其它章节或段落。使用者通过使用文件的语义内容，而不是文件的视觉布局与文件相互作用。
本发明和浏览器应用程序，即用于视觉显示HTML文件的应用程序一道工作，以便通过听觉，而不是通过视觉向计算机使用者表现HTML文件。本发明对HTML文件进行语法分析，使标记和内容与听觉显示的各种元素相联系，并使用机器产生的语音声和非语音声的组合，通过听觉向使用者表现文件。合成语音被用于大声读出文本内容，非语音声被用于表现由标记表示的文件特征。例如，标题，目录及超文本链接均可由独特的非语音声表示，该非语音声告知使用者，他们听到的语音分别是标题，目录或超链接部分。这样，可利用语音合成器大声地读出HTML页，并利用非语音声同时或基本同时地通过听觉显示嵌入的HTML标记，以指示特殊文本的存在。可对特定的HTML标记赋予声音，并由发声引擎管理。一种这样的发声引擎是同时待审的申请，序列号08／956238(申请日1997年10月22日)中描述的听觉显示管理程序(Auditory Display Manager)(ADM)，该专利申请的内容作为参考包含于此。
本发明还允许使用者控制文件的呈现。使用者可以开始和停止文件的阅读；按照文件的短语，句子或标记章节向前或向后跳转；在文件内搜索文本；及执行其它浏览操作。使用者还可通过热链接到达其它文件，改变文件的阅读速度，或者调节输出音量。所有这些操作可通过按压数字小键盘上的按键实现，以致可通过电话机使用本发明，或者不能有效使用指示器的视觉受损计算机用户也可使用本发明。
本发明的一个方面涉及一种通过听觉表现HTML文件的方法。该方法包括下述步骤向在页面中遇到的HTML标记类型分配独特声音；在HTML页面内一遇到该类型的HTML标记，就产生相关的声音；另外还产生表示在该HTML页面中遇到的文本的语音。语音和非语音声可基本同时地产生，以使代表特殊类型标记，例如和另一HTML页面的链接的文本，和另一声音，例如嗡嗡声或周期性的滴答声一起被大声读出。
本发明的另一方面涉及一种通过听觉表现HTML文件的系统。在本发明的这一方面，从浏览应用程序接收文件。但是，如上所述，这种浏览器通常只是通过视觉呈现HTML文件，并仅仅使用声音播放也可获自于环球网的录音音频文件。本发明的系统包括语法分析器和阅读器。语法分析器接收HTML页，并输出代表接收的HTML页的树形数据结构。阅读器使用该树形数据结构，产生表现该HTML页中所含的文本和标记的声音。在一些实施例中，阅读器通过执行树形数据结构的深度优先遍历，产生上述声音。
本发明的另一方面还涉及一种具有嵌入其中的计算机可读程序的产品。该产品包括向在页面中遇到的HTML标记分配独特声音的计算机可读程序，一遇到该HTML标记，就产生所分配声音的计算机可读程序，及产生代表在HTML页中遇到的文本的语音的计算机可读程序。
为了更好地理解本发明，以及本发明的其它目的，请参考附图及下面的详细说明，本发明的范围将由附加的权利要求限定。

图1是发声设备的方框图；图2是初始化发声设备所采取的步骤的流程图。
在整个说明书内，术语“发声(sonify)”用作表示大声地阅读HTML页，同时包括识别HTML页中嵌入的HTML标记的听觉提示的动词。现在参见图1，HTML页发声(sonification)设备10包括语法分析器12，阅读器14和导航器16。语法分析器12确定要被发声的HTML文件的结构，阅读器14对HTML文件发声，并使语音声和非语音声同步，导航器16接受来自使用者的输入，该输入使使用者能够选择要被发声的HTML文件部分。下面将更详细地说明语法分析器12，阅读器14和导航器16的操作。
现在参考图2，发声设备10初始化各个组件，以便建立与发声引擎(图1中未表示)和语音合成器的连接。初始化阶段包括下述四部分建立与浏览器应用程序的连接，浏览器应用程序向本发明提供HTML文件(步骤210)；建立与发声引擎的连接(步骤212)；确定非语音声和发声引擎内非语音声被使用的条件(步骤214)；获取默认的HTML文件(步骤216)。
建立与浏览器应用程序的连接(步骤210)将根据将与之建立连接的浏览器而发生变化。一般来说，必须提供一些选择浏览器应用程序的工具，确定用于借助HTML文件的统一资源定位器(URL)请求HTML文件，并接受返回的HTML文件的界面。例如，如果发声设备10打算和NETSCAPE NAVIGATOR(California，Mountain View的Netscape Communication有限公司生产的浏览器应用程序)一道工作，则可以与该浏览器连接的插入模块形式提供发声设备10。或者，如果发声设备10打算与INTERNET EXPLORER(Washington，Redmond的Microsoft公司生产的浏览器应用程序)一道工作，则可以设计成与INTERNET EXPLORER相互作用的插入式应用程序的形式提供发声设备10。
建立与发声引擎的连接(步骤212)通常仅仅需要启动该引擎。对于其中以软件模块形式提供发声引擎的实施例来说，为了实现这一点，应使用操作系统提供的任何工具调用该软件模块。或者，如果以固件或硬件形式提供发声引擎，则可利用用于和硬件或固件通信的常规技术启动该发声引擎，例如，向信号线施加电压，以指示服务中断请求的存在，或者通过向寄存器写入指示请求发声引擎进行服务的预定数据值。一旦被连接，则发声引擎的初始化函数被调用，该初始化函数使发声引擎分配实现其功能所需的资源。这通常包括音频输出装置，及在某些实施例中，音频混音器的分配。
一旦已建立与发声引擎的连接，必须使声音与发声设备10希望发声引擎发声的不同事件和对象相联系(步骤214)。例如，可把听觉图标分配给HTML标记，HTML标记之间的过渡，及错误事件。听觉图标是用于唯一地识别这些事件和对象的声音。发声引擎可通过读取列举各个HTML标记，及当HTML阅读器进入，离开或者在每个标记内时，将执行的动作的文件，实现这一点。在一个实施例中，发声引擎读取包括当对HTML文件发声时可能遇到的各个HTML标记和事件的文件。在另一实施例中，发声引擎提供允许向新近遇到的标记或事件分配听觉图标的机制。在该实施例中，听觉图标的分配可自动进行，或者需要使用者提示。
通过向提供HTML文件的软件模块请求默认HTML文件，例如“主页”结束初始化(步骤216)。如果主页存在，则把主页传到发声设备10，以便由发声设备10对主页发声。如果不存在主页，发声设备10等待使用者输入。
操作中，当遇到HTML标记时，根据该HTML标记的类型，设备10指示发声引擎产生或停止声音数据(步骤218)，并且当遇到文本时，指示语音合成器产生语音数据(步骤220)。
语法分析器参见图1，语法分析器12对从浏览器应用程序，或者其它一些能够提供HTML文件的应用程序接收的HTML进行语法分析，使之成为树形数据结构。本领域中的普通技术人员易于理解对文件进行语法分析，以产生树形数据结构的一般性过程。
在一个实施例中，语法分析器12产生一个树形数据结构，其每一节点代表一个HTML标记，这些标记的后裔构成该标记内的文本的部分。在本实施例中，使各个标记的属性和数值与代表该标记的节点相连。各个节点的父节点代表封闭由该节点代表的标记的HTML标记。各个节点的子节点代表由该节点代表的标记封闭的HTML标记。字符数据，即HTML标记之间文件的文本部分，以树形结构的叶节点形式表示。以句子为界，可把字符数据分成树形结构的多个节点，并且可把太长的句子进一步分成多个节点，以免使任意单个节点含有大量的文本。
语法分析器12可把它产生的树形数据结构存储在便利的存储元件中，语法分析器12和阅读器14均可访问该存储元件。或者，语法分析器可把该树形数据结构直接传给阅读器14。
阅读器在获得HTML文件，并由语法分析器12对该HTML进行语法分析之后，阅读器14读取该树形数据结构，以便对该树形数据结构代表的HTML数据页发声。在一些实施例中，阅读器14访问含有该树形数据结构的独立存储元件，而在其它实施例中，阅读器14提供存储元件，树形数据结构被存储在该存储元件。阅读器14遍历该树形数据结构，利用语音合成器以口语形式表示遇到的文本，并利用非语音声表示HTML标记。在一些实施例中，阅读器14配合独立的语音合成模块，以表示文本。阅读器14与发声引擎连系，以便产生表示必须被发声的HTML标记和事件的非语音声。
通过进行语法分析后的HTML文件树的深度优先遍历，读取HTML文件。这种遍历相应于直线读取未经语法分析的HTML文件，如同其作者编写该HTML文件一样。当进入该树形数据结构的每个节点时，阅读器14检查该节点的类型。如果该节点含有字符数据，则在语音合成器内使字符数据的文本排队，以便说出该字符数据文本。如果该节点含有HTML标记，则在发声引擎内使该标记的元素名字，或标号排队，以便由初始化过程中与该标记相联系的声音表示该HTML标记。与节点的类型无关，借助语音合成器使标志排队，以便如下所述使这两个输出流同步。当离开树形数据结构的各个节点时，阅读器向发声引擎发送元素名字或HTML标记，以便同样能够以声音表示该标记的结束。
当其遍历树形数据结构时，阅读器保持两个指针。指针是该树形数据结构内特定位置或节点的基准。第一指针表示语法分析后的HTML文件树内当前正被发声的位置，第一指针被称为“读取指针”。第二指针代表在语音合成器或发声引擎中接下来被排队的位置，并被称为“排队指针”。这两个指针之间的文件部分是已被排队供阅读，但是还未被发声的部分。需要时，可使用其它指针代表树形数据结构内的其它位置或节点，例如当搜索该文件，寻找特定的文本串或HTML标记时。指针可用于交互式控制正被大声阅读的HTML文件的位置。
HTML文件中指针的使用使得阅读器能够遵循个人阅读文本的方式在整个文件内直线移动。这不同于HTML文件的视觉表现，HTML文件的视觉表现提供整个页面，并允许使用者水平或垂直卷动该页面，但是不提供以阅读方式遍历该HTML文件的手段。指针的使用向本发明提供了直线阅读该文件，并允许使用者如下所述在文件内浏览。
当发声设备10开始向使用者读出HTML文件的过程时，一开始，两个指针都位于该HTML文件的起点。即，指针都位于语法分析后的HTML文件树的根节点。发声设备10如上所述对来自该语法分析树的数据排队。当该树的各个节点被排队时，排队指针在树内移动，以便该指针总是指向接下来要排队的节点。当首先对HTML文件进行语法分析，并将其提供给阅读器时，指针被置于语法分析树结构的顶部，并且随着指针在该树内移动，整个HTML文件从开始到结尾被读出。当到达该HTML文件的结尾时，系统将停止阅读，并等待来自使用者的输入。如果正在阅读HTML文件时，接收到使用者的输入，则阅读器14立即停止阅读，处理该输入(该输入可能改变当前的阅读位置)，随后再开始阅读，除非该输入指示阅读器停止阅读。
使在语音合成器中和文本一起被排队的标志HTML树中的位置相联系。每个标志含有独特的识别符，该识别符与标志排队时，排队指针的位置相联系。当合成器阅读在其中排队的文本时，当其遇到与文本一道被排队的标志时，合成器通知阅读器14。阅读器14查找相关的指针位置，并把读取指针移到该位置。这样，使读取指针与已被语音合成器读出的文本保持同步。
当系统处于使数据排队进入语音合成器和发声引擎的过程中，当在HTML文件树内移动排队指针时，两个指针分离。为了避免语音合成器或发声引擎内队列溢出，一旦这两个指针已被分离一定量，系统可停止对数据排队。当语音合成器向使用者阅读文本，并且来自语音合成器的通知使系统前移读取指针时，这两个指针之间的分离量变小。当分离量小于预定大小时，系统重新开始使数据排队进入语音合成器和发声引擎。这样，向这些输出装置的队列供给数据，但是不会使之溢出或为空。节点作为单个单元被排队，于是，如前所述把字符数据分成多个节点也有助于避免使阅读队列溢出。
当排队指针达到语法分析HTML树的结尾，即排队指针已返回该树的根节点时，不再有数据可被排队，系统允许队列为空。当使队列腾空时，读取指针也被移动到语法分析HTML树的结尾。当两个指针都位于HTML树的结尾时，整个文件已被发声，HTML阅读器停止。
如果在页面的发声过程中收到任意使用者使用，则HTML阅读器立即停止阅读。HTML阅读器通过中断语音合成器和发声引擎，刷新语音合成器和发声引擎的队列，并把排队指针置于当前的读取指针位置来实现停止阅读。这使所有声音输出停止。在接收的输入被处理之后，当再次启动阅读器14时，排队指针再次被置于当前的读取指针位置(在响应该输入，改变读取指针的情况下)，并且如前所述继续进行数据的排队。
可保留最近请求的，语法分析后的HTML树结构及它们的相关读取指针的列表。使用者可在该列表中从文件到文件直线移动，该列表提供了通常在浏览器软件中实现的已访问HTML文件的“历史”。但是，通过同时保留读取指针和各个语法分析文件，当使用者切换到列表中的另一页面时，本发明可从前次阅读页面时的停止位置继续阅读该页面。
导航器使用者配有用于控制在任意时刻将向使用者提供哪个HTML文件及该文件的什么部分的工具。使用者提供一些输入，这些输入可以是键盘输入，语音命令或任意其它类型的输入。在最佳实施例中，该输入来自数字小键盘，例如标准的个人计算机键盘上的数字小键盘。该输入选择几个典型的导航(navigation)函数，附录中详细描述了导航函数的例子。当导航器16接收使用者输入时，如前所述，阅读器14被停止，运行该函数，并根据该函数提供的布尔值，有条件地重新启动阅读器。在一些实施例中，导航器16停止阅读器14，运行函数，重新启动阅读器14。或者，导航器16可通知收到使用者输入及收到的命令，阅读器14可自行停止，运行该函数，并自行启动。
某些函数可产生错误，例如不能找到函数搜索的HTML标记。这些情况下，出错信息文本被送给语音合成器，以便提供给使用者，函数返回的布尔值指示阅读器14不应被重新启动。
本发明可以软件包的形式提供。在一些实施例中，本发明可构成较大程序的一部分，所述较大程序包括浏览器应用程序，及听觉显示管理程序。它可用支持上面说明的数据结构要求的任意高级程序设计语言编写，例如C，C++，PASCAL，FORTRAN，LISP或ADA。或者，本发明可以汇编语言代码的形式提供。当以软件代码的形式提供时，本发明可包含在任意非易失性存储元件上，例如软盘，硬盘，CD-ROM，光盘，磁带，快速存储器或ROM。
例子下面的例子用于举例说明一个简单的HTML文件是如何被本发明的使用者感知的。该例子并不打算以任意方式限制本发明，提供该例子只是为了说明本发明的特征。下面的样本文本The Hypertext Markup Language(HTML) is a standard proposedby the World Wide Web Consortium(W3C)，an international standardsbody．The current version of the standard is HTML4．0．The W3C is responsible for several other standards， includingHTTP and PICS．可被标记为简单的HTML文件，具有与其它文件的热链接，如下所示<HTML><BODY>The<A HREF=″http／／www．w3c．org／MarkUp／″>Hypertext Markup
Language (HTML)<／A>
is a standard proposed by the<A HREF=″http／／www．w3c．org／″>World Wide WebConsortium (W3C) <／A>，an international standards body．The current version of the standard is<A HREF=″http／／wwww．3c．org／TR／REC-htm140／″>HTML4．0<／A>
<P>The W3C is responsible for several other standards，including<A HREF=″http／／www．w3c．org／XML／″></A>
and<A HREF=″http／／www．w3c．org／PICS／″PICS<／A>
</BODY><／HTML>
设备10如何对该文件发声取决于它的配置。在一个实施例中，该配置可利用非语音声表现大多数HTML标记，并利用合成语音表现文本。语音声或非语音声可相续产生，也可同时产生，取决于使用者的偏爱。即，非语音声可在语音流中的停顿中产生，或者在说出字词的同时产生。
当阅读器14开始解释代表该例证HTML文件的树形数据结构时，阅读器14指示发声引擎产生代表如由<BODY>标记标注的文件本体起点的非语音声。所使用的确切声音对本专利来说并不重要，但是该声音应向使用者表示文件开始的概念。当该声音被播放时(或者如果使用者喜欢，在该声音结束之后)，阅读器14借助语音合成模块对文件起点处的文本(“The Hypertext Markup Language…”)排队。当刚开始字词“Hypertext”时，阅读器14就借助发声引擎对遇到的热链接标记排队，使发声引擎产生的指示当前大声阅读的文本是如由<A>标记标注的对另一文件的热链接的声音。在一个实施例中，持续听到该声音，直到读出如由<／A>标记标注的该热链接结尾时为止。这样，在该热链接的文本被读出的同时，使用者将听到代表“热链接”概念的声音。在无任何非语音声的情况下读出下一短语(“is astandard…”)，因为不存在赋予该文本任意特殊意思的标记。当热链接声音再次被播放时，下一短语(“World wide Web…”)被读出，因为该短语作为热链接被标记。类似地，当产生热链接声音时，下一句子被读出，只要阅读的文本在<A>和<／A>标记内。
当遇到由<P>标记表示的段落中断，并且该段落被送到发声引擎时，发声引擎产生不同的非语音声。该非语音声应向使用者表现文本中的中断的概念。类似地，语音合成器可被配置成产生适于段落中断的暂停，并且利用适于段落起点的韵律开始阅读下一句子。随后当热链接声音被播放时，类似于第一句子，继续进行下一句子的阅读，同时说出缩写词“XML”和“PICS”。最后，当遇到<／BODY>标记时，播放代表文件本体结尾的声音。注意在本例中<HTML>和<／HTML>标记不与声音相联系，因为当有<BODY>和<／BODY>标记时，它们通常是多余的。
就本发明来讲，无需任意特殊控制，可由语音合成软件处理用于逗号，句号及其它标点符号的暂停，但是HTML文件共有的某些类型的文本结构，例如电子邮件地址及统一资源定位器被特殊处理，以便语音合成器将以使用者希望的方式阅读它们。结合关于文本映射直观推断的章节，更详细地说明了这些文本结构的处理。
当文件被阅读时，使用者可在任意时刻选择该文件的另外部分，并由发声设备向他读出该另外部分。例如，在刚开始阅读文件之后，如果使用者希望立即跳到第二段，则他可发出使阅读停止，并且刚好在<P>标记之后，立即重新开始阅读的命令。如果使用者短时间内注意力不集中，并且错过几个单词，则他可发出使本发明在该文件内倒转，并向使用者重新阅读最后短句的命令。当任意一个热链接被读出时，或者在这之后不久，使用者还可调用该任意一个热链接，以便从环球网获得其它HTML文件，并向使用者读出该HTML文件。参见使用者命令的例证列表附录。
文本映射直观推断本发明还提供以这样的方式从HTML文件映射文本，以便当由语音合成器读出时，更易于理解该HTML文件的方法。大多数语音合成器含有对于通用英语，把文本很好地映射为语音的规则，但是HTML文件含有是大多数语音合成器不知道的少数几个构成。因特网电子邮件地址，统一资源定位器(URL)及表示文本菜单的各种方式是由语音合成器以无意义的或难懂的方式读出的文本构成的例子。
为了解决这个问题，阅读器14在把文本发送给语音合成器之前，用更易理解的文本代替可能被错读的文本。例如，电子邮件地址“info@sonicon．com”将被一些语音合成器读作“info sonicon period co m”，或者由其它一些语音合成器以单个字母的形式完整地逐字拼出。阅读器识别这种构成，并用“info at sonicon点com”代替该构成，以便语音合成器将以使用者希望听到阅读的电子邮件地址的方式读出该地址。同样，其它构成，例如计算机文件路径(例如“／home／fred／documents／plan．doc”)由类似于个人大声读出该路径的方式的文本代替(例如“斜线home斜线fred斜线documents斜线plan点doc”)。
通过利用一组直观推断规则实现这些短语的转换，这组直观推断规则描述要替换的文本及该文本应如何被替换。这些规则中的许多规则涉及在标点符号周围放置空白，并用单词代替该标点符号，以确保该标点符号被发音。
虽然已关于不同的实施例说明了本发明，但是应认识到在附加的权利要求的精神和范围内，本发明的各种各样其它实施例也是可能的。
附录在下面的例证函数的列表中，给出了各个函数的名称，可被用于调用该函数的输入的描述，在函数之后，是否重新启动阅读器14，及函数作用的说明。
函数FollowLink输入输入键，回车键，‘O’键或空格键重新启动真说明查找在HTML文件树中当前阅读位置之前的HTML锚，或者“A”标记的位置，并从该标记的HREF属性获得URL。在HTML中，这种标记代表与其它文件的链接。如果不存在这种标记，产生一个错误。随后把含有该URL的请求发送给向系统提供HTML文件的软件模块，获得由该URL定位的文件，并把该文件发给语法分析器16。当该页面被彻底进行语法分析后，当前的阅读位置位于新页面的起点，函数返回‘真’，使该新页面被阅读。
当本函数被调用时选择的热链接将是当前正向使用者阅读的热链接，或者当函数被调用时，热链接未被阅读，则选择的热链接将是最后阅读的热链接。这样，即使当阅读器14已经过热链接之后，使用者仍可跟踪该热链接，并可在任意时刻这样做，直到阅读器遇到下一热链接为止。
函数 Pause输入‘5’或‘P’键重新启动如果阅读，则为假，如果不阅读，则为真说明当使用者启动该pause函数时，如果阅读器14处于向使用者阅读的过程中，则本函数返回‘假’，否则返回‘真’。其作用是使阅读器14在开或关之间切换。
函数Repeat输入‘*’键或‘R’键重新启动真说明向后短距离移动文件树中的当前阅读位置，通常移到前一标记或句子停顿处。其作用是向使用者重复读出该使用者最后听到的短语。
函数 Forward输入‘6’键或右箭头键重新启动真说明把文件树中的当前阅读位置前移到下一HTML标记或句子停顿处。其作用是使阅读器14跳过少部分的文件，并在稍后继续阅读。反复调用该函数将使阅读器逐渐前移经过该文件。
函数Backward输入 ‘4’键或左箭头键重新启动真说明把文件树中的当前阅读位置后移到HTML标记或句子停顿处。其作用是使阅读器14倒转，并从文件内的前一阅读位置继续阅读。反复调用该函数将使阅读器逐渐后移经过该文件。
函数ForwardLink输入 ‘2’键或下箭头键，或者电话机上的按键‘8’重新启动真说明把文件树中的当前阅读位置前移到下一锚标记，该锚标记是从当前文件内与另一文件的下一链接。如果在当前阅读位置之后，不存在锚标记，则产生一个错误。
函数BackwardLink输入 ‘8’键或上箭头键，或者电话机上的按键‘2’重新启动真说明如果文件树中的当前阅读位置位于锚标记内，将其后移到该标记的起点。随后把当前阅读位置后移到前一锚标记，该前一锚标记是从当前文件内与另一文件的前一链接。如果不能找到这种锚标记，产生一个错误。
函数BackwardPage输入 ‘9’键或PgUp键，或者电话机上的按键‘3’重新启动真说明当前文件被改变成由本发明保留的语法分析文件列表中的前一文件。当前阅读位置变成新的当前文件的当前阅读位置。其作用是返回前一文件，并从该文件的前次停止阅读的地方开始阅读。如果列表中不存在前一文件，则产生一个错误。
函数ForwardPage输入‘3’键或PgDn键，或者电话机上的按键‘9’重新启动真说明当前文件被改变成由本发明保留的语法分析文件列表中的下一文件。当前阅读位置变成新的当前文件的当前阅读位置。其作用是前移到先前已获得，并通过利用BackwardPage函数停止阅读的文件。如果列表中不存在下一文件，则产生一个错误。
函数BeginningOfPage输入 ‘7’键或Home键，或者电话机上的按键‘1’重新启动真说明把文件树中的当前阅读位置移到树的根节点，该根节点是该文件的起点。这将导致从文件起点开始阅读该文件。
函数EndOfPage输入 ‘1’键或End键，或者电话机上的按键‘7’重新启动真说明把文件树中的当前阅读位置移到最后标记的结尾，该最后标记是树的根节点的子节点，该最后标记正好在文件结尾之前。这将导致阅读文件的最末端，在该点阅读将停止。
函数GoToURL输入 ‘G’键，或电话机上的‘*’键和‘7’键重新启动真说明提示使用者输入任意文件的URL。随后把含有该URL的请求发送给向系统提供文件的软件模块，导致获得由该URL定位的文件，并将其送给语法分析器16。当对该页面进行彻底语法分析时，当前的阅读位置位于新页面的起点，函数返回‘真’，导致阅读该新页面。
输入URL的方法将取决于在其中实现本发明的系统。个人计算机上，使用者可利用键盘输入URL。电话上，使用者可利用为电话机小键盘设计的某些形式的字符输入方法输入URL。
函数IdentifyLink输入 ‘I’键，或电话机上的‘*’键和‘1’键重新启动假说明查找在文件树中当前阅读位置之前的HTML锚，或“A”标记，并从该标记的HREF属性获得URL。如果不存在这种标记，则产生一个错误。随后如同在文本映射直观推断章节中所述那样，把该URL映射为更易于理解的形式，并发送给语音合成器，以便读给使用者。这样，使用者可听到他们调用FollowLink命令将载入文件的URL。阅读被停止，以便使用者可选择FollowLink函数载入该新文件，或者选择Pause函数继续阅读当前的文件。此时，使用者还可调用任意其它命令。
函数ForwardOutline输入 ‘Ctrl-下箭头’键，或电话机上的‘*’键和‘8’键重新启动真说明把文件树中的当前阅读位置前移到下一标题，目录，表，列表项目或段落标记。其作用是使阅读器14向前跳到该文件内的下一显著界限。写得较好的文件将利用这些标记把该文件的内容分成多个部分，本命令使使用者可容易地在这些部分之间移动。
函数BackwardOutline输入‘Ctrl-上箭头’键，或电话机上的‘*’键和‘2’键重新启动说明把文件树中的当前阅读位置后移到前一标题，目录，表，列表项目或段落标记，随后再次后移到这些标记之前的这些类型标记之一。其作用是使阅读器14向后跳到该文件内的前一显著界限。写得较好的文件将利用这些标记把该文件的内容分成多个部分，本命令使使用者可容易地在这些部分之间移动。
函数SpeedUp输入 ‘+’键，或电话机上的‘*’键和‘3’键重新启动真说明使语音合成器的阅读速度每分钟大约增加10单词，从而使与语音合成器同步的整个阅读器的阅读速度每分钟大约增加10单词。这允许使用者提高其阅读速度。
函数SlowDown输入‘-’键，或电话机上的‘*’键和‘9’键重新启动真说明使语音合成器的阅读速度每分钟大约降低10单词，从而使与语音合成器同步的整个阅读器的阅读速度每分钟大约降低10单词。这允许使用者降低其阅读速度。
函数VolumeUp输入 ‘Ctrl+’键，或电话机上的‘#’键和‘3’键重新启动真说明使语音合成器和非语音声重放的音量均稍微增大。这允许使用者调节音量级，以使收听效果较为舒适。
函数VolumeDown输入 ‘Ctrl-’键，或电话机上的‘#’键和‘9’键重新启动真说明使语音合成器和非语音声重放的音量均稍微降低。这允许使用者调节音量级，以使收听效果较为舒适。
函数SearchText输入 ‘F’键，或电话机上的‘*’键和‘5’键重新启动真说明提示使用者输入要在当前文件内搜索的文本串。从当前阅读位置开始，并向前搜索，搜索该文件树，寻找该文本串。如果没有找到文本串，从当前阅读位置开始，并向后搜索，进行第二次搜索。如果任一搜索都没有找到该文本串，则产生一个错误。当找到该文本串时，把当前的阅读位置刚好设定在找到的文本之前，以便将从搜索的文本开始阅读。如果使用者输入空文本串，则将再次使用作为搜索串输入的最后文本串。
文本串的输入方法取决于其中实现本发明的系统。个人计算机上，使用者可利用键盘输入文本串。电话机上，使用者可利用为电话机小键盘设计的一些形式的字符输入方法，输入文本串。
权利要求
1．一种通过听觉表示HTML文件的方法，HTML文件包括文本和至少一个HTML标记，该方法包括下述步骤(a)向在文件中遇到的HTML标记分配声音(214)；(b)一遇到与该声音相联系的HTML标记，就产生分配的声音(218)；及(c)产生代表在该HTML文件中遇到的文本的语音(220)。
2．按照权利要求1所述的方法，其中步骤(b)和(c)基本上同时发生。
3．按照权利要求1所述的方法，其中步骤(c)还包括(c-a)产生代表在该HTML文件中遇到的文本的语音；(c-b)在语音中包括代表在该HTML文件中遇到的标点符号的停顿。
4．按照权利要求1所述的方法，还包括下述步骤(d)接受指示特定HTML标记的选择的输入；(e)通过听觉显示由选择的标记识别的新HTML文件。
5．按照权利要求1所述的方法，还包括下述步骤(f)一遇到改变HTML标记的声音，就改变声音；及(g)一遇到中断HTML标记的声音，就中断声音。
6．按照权利要求1所述的方法，还包括在步骤(c)之前，利用文本段替换文本构成(tcxtual construct)的步骤。
7．按照权利要求6所述的方法，其中所述替换步骤包括在步骤(c)之前，利用文本段替换电子邮件地址。
8．一种通过听觉表现HTML文件的系统，该系统包括接收HTML文件，并输出代表接收文件的树的语法分析器(12)；及利用该树产生代表该HTML文件中所含文本和标记的声音的阅读器(14)。
9．按照权利要求8所述的系统，其中所述语法分析器产生具有至少一个节点的树，所述至少一个节点代表一个HTML标记。
10．按照权利要求9所述的系统，其中使标记属性和标记属性值附属于各个节点上。
11．按照权利要求8所述的系统，其中以该树的叶节点的形式表示该HTML文件中所含的文本数据。
12．按照权利要求8所述的系统，其中所述阅读器执行树的深度优先遍历，以产生代表该HTML文件中所述文本和标记的声音。
13．按照权利要求8所述的系统，还包括指示语法分析HTML树中，所述阅读器当前输出位置的阅读指针。
14．按照权利要求13所述的系统，其中阅读指针的位置可被改变，导致该语法分析的HTML文件的不同位置被输出。
15．按照权利要求8所述的系统，还包括指示语法分析HTML树中，将被处理，以便由所述阅读器输出的位置的排队指针。
16．一种具有嵌入其中，通过听觉表现HTML文件的计算机可读程序的产品，HTML文件包括文本和至少一个HTML标记，该产品包括(a)向在文件中遇到的HTML标记分配独特声音的计算机可读程序(214)；(b)一遇到与该声音相联系的HTML标记，就产生分配的声音的计算机可读程序(218)；及(c)产生代表在HTML文件中遇到的文本的语音的计算机可读程序(220)。
17．按照权利要求16所述的产品，还包括(d)接受指示特定HTML标记选择的输入的计算机可读程序；及(e)通过听觉显示由选择的标记识别的新HTML文件的计算机可读程序。
全文摘要
一种通过听觉表现HTML文件的方法,包括向在HTML文件中遇到的HTML标记和事件分配独特的声音的步骤(214),一遇到这些标记或事件,就产生相联系的声音的步骤(218),及以语音形式表现遇到的文本的步骤(220)。同时或基本同时产生语音声和非语音声。另外公开了相应的系统(10)。
文档编号G10L21/06GK1279805SQ98810469
公开日2001年1月10日申请日期1998年10月21日优先权日1997年10月22日
发明者埃德蒙·R·迈肯逖, 戴维·E·欧文, 巴里·M·阿龙斯, 马歇尔·W·克莱门斯申请人:索尼康公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：埃德蒙.R.迈肯逖;戴维.E.欧文;巴里.M.阿龙斯;马歇尔.W.克莱门斯
技术所有人：索尼康公司
我是此专利的发明人

上一篇：在包括语音编码解码器发生变化的越区切换中减少背景噪声差异的制作方法
上一篇：鼓槌配重的制作方法