在web页框架中启用语法的方法和系统的制作方法

文档序号:7666589阅读:152来源:国知局
专利名称:在web页框架中启用语法的方法和系统的制作方法
技术领域
本发明的领域涉及数据处理,或者,更具体地,涉及用于在web 页框架中启用语法的方法、装置和产品。
背景技术
由于小型设备已经日益变小,与通过键盘或者指示笔运行于小型 设备上的应用的用户交互变得越来越受限和麻烦。特别地,类似移动 电话和PDA的小型手持设备通过诸如多模式接入等其他方式提供许 多功能并包含充分的处理能力来支持用户交互。支持多模式接入的设 备将多个用户输入方式或者通道组合在同一个交互中,允许一个用户 通过多个输入模式或者通道同时与该设备上的应用交互。输入的方法 包括语音识别、键盘、触摸屏、指示笔、鼠标、手写以及其他。多模 式输入往往会使得小型设备的使用更加容易。
多模式应用往往运行于提供多模式web页以在多模式浏览器上 显示的服务器。作为本说明书中所使用的术语,"多模式浏览器"通常 意味着能够接收多模式输入并且以多模式输出与用户交互的web浏 览器。典型地,多模式浏览器展现了用XHTML + Voice ("X+V")编 写的web页。X+V提供了使用户能够通过除了诸如键盘敲击和鼠标 指针动作等传统输入方式以外的口语对话与通常运行于服务器上的 多模式应用交互的标记语言。X+V通过将XHTML (可扩展超文本标 记语言)和VoiceXML所支持的语音识别词汇表结合起来的方式为标 准web内容增加了 口语交互。对于可碎见化的标记,X+V包括XHTML 标准。对于话音标记,X+V包括VoiceXML的子集。
目前,轻量级话音解决方案需要开发人员建立语法和词典对自动 语音i只另'J (automatic speech recognition, ASR )引擎戶斤必、乡页i只另'J的词的可能数量加以限制——作为提高准确度的手段。典型地, 一些普 及的设备已经由于设备的形状因数的缘故限制了交互和输入模态,信 息站设备也已经通过设计限制了交互和输入模态。在这两种情况下, 实施与说话者无关的话音识别的使用来增强用户体验以及与设备的 交互。与说话者无关的识别的当前技术允许写下一些复杂的话音应 用,只要每个可能的话音命令都有与之相关联的有限的词汇表。例如, 如果用户被提示说出城市的名称,则系统就可以相当自信地识别出所 说的城市名称。
话音交互的特性与x+v相结合,从而可以直接用于x+v内容之
中。x+v包括支持语音合成、语音对话、命令和控制以及语音语法的 话音模块。话音处理装置可以附着于x+v元素并对具体事件做出响
应。对VoiceXML元素与相应的可视化接口元素进行同步,X+V釆 用XML Events事件(本文档中通常称为"事件")。对X+V的详细 说明可以从网页http:〃www.voicexml.org的VoiceXML论坛上获得。 对 XHTML 和 XML Events 的详细"i兑明可以从网址为 http:〃www.w3.org/MrakUp的万维网联盟的HTML的主页上获得。 对VoiceXML的详细i兌明可以从网址为http:〃www.w3.org/voice的万 维网联盟的Voice Browser Activity上获得。
多模式应用可以跨越多个XHTML web页。这些web页中的一 个可以规定多个框架,其中每个框架包含其自身的XHTML页面。对 于 HTML框架的概述,可参见万维网联盟的网站 http:〃www.w3.org/TR/html401/present/frames.html。框架允许作者呈 现浏览器同时显示的多个视图或者子窗口。 一个常见的用途是将应用 的导航作为独立的子窗口分离。当另一个子窗口中的内容更新时,导 航子窗口并不改变。为了规定多个框架,在包括包含〈framese^标记 元素的应用的文档中,有一个被称为"框架集文档,,的顶级XHTML文 档。 一个或多个〈frame〉元素像〈framese^的子代一样被配置为框架 集文档中的标记。每个框架都有一个名称以便多个XHTML文档可以 作为新内容放置于其内部。每个框架都可以在识别文档的标记中通过
其名称被目标定位从而显示在由框架定义的子窗口中。XHTML文档 内的〈inl^和〈anchoi^元素规定哪一个框架将通过"目标,,标记属性 装载引用的XHTML文档。如果缺少"目标"属性,则默认当前框架为 目标。如果用户通过图形用户界面(GUI)利用鼠标单击激活框架中 的超链接,则只有目标框架随着新内容被更新。
然而,在现有技术中,只有当前受到关注的框架将启用语音识别 语法。由于用户可以同时看见浏览器显示的所有框架,所以用户希望 启用针对所有框架的语法。针对超链接的框架通过GUI,而不是通过 话音启用。
另外,当话音用于激活超链接时,没有框架目标定位。与用户的 言语匹配时激活启用话音的超链接的语法可源于链接的属性、标题属 性、名称属性、另外的属性或者源于链接标记中开始标签和结束标签 之间的文本。但是当用户说出超链接的标题且该链接被激活时,整个 页面,而不是目标框架将随着新内容被更新。包括其导航框架的所有 应用的框架将由单一的新页面代替。定义在框架集文档中的框架结构 会被破坏,应用就变成了单框架应用。

发明内容
本发明试图通过同时话音启用所有显示框架中的超链接并设置 每个超链接的目标、以便更新的内容出现在适当框架中的方法、系统 和产品来克服在多模式浏览器的web页框架中启用语法的技术现状 的局限性。所述在web页框架中启用语法的方法、装置和计算机程序 产品包括在多模式设备上的多模式应用中接收框架集文档,其中该 框架集文档包括定义web页框架的标记;由多模式应用获取显示在每 个web页框架中的内容文档,其中该内容文档包括可导航标记元素; 由多模式应用针对每个内容文档中的每个可导航标记元素产生定义 语音识别语法的标记段,包括在每个这种语法中插入识别当语法中的 词匹配时待显示内容的标记和识别该内容将显示于何处的框架的标 记;以及由多模式应用启用所有产生的用于语音识别的语法。
本发明前述以及其他目的、特征和优势将通过以下对如附图所 示的本发明示范性实施例的更为具体的描述变得显而易见,附图中相 同的参考数字通常代表本发明示范性实施例的相同部分。


图1示出了根据本发明的实施例在web页框架中启用语法的示 范性系统的网络图。
图2示出了根据本发明的实施例在web页框架中启用语法的包 括用作多模式设备的计算机实例的自动计算机器的框图。
图3示出了根据本发明的实施例在web页框架中启用语法的包 括用作话音服务器的计算机实例的自动计算机器的框图。
图4示出了根据本发明的实施例在web页框架中启用语法的示 范性装置的功能框图。
图5示出了根据本发明的实施例在web页框架中启用语法的另 一个示范性装置的功能框图。
图6示出了根据本发明的实施例在web页框架中启用语法的示 范性方法的流程图。
具体实施例方式
根据本发明的具体实施例,下面将结合从图l开始的附图对用于 在web页框架中启用语法的示范性方法、装置和产品进行描述。图l 示出了根据本发明的实施例在web页框架中启用语法的示范性系统 的网络图。根据本发明的实施例,图l的系统通常通过在多模式设 备(152)上的多模式应用(195)中接收框架集文档,其中该框架集 文档包括定义web页框架的标记;由多模式应用获取显示在每个web 页框架中的内容文档,其中该内容文档包括可导航标记元素;由多模 式应用针对每个内容文档中的每个可导航标记元素产生定义语音识 别语法的标记段(segment of markup),包括在每个这种语法中插入 识别当语法中的词匹配时待显示的内容的标记和识别该内容将显示 于何处的框架的标记;以及由多模式应用启用所有产生的用于语音识 别的语法,从而在web页框架中启用语法。典型地,图l中系统的工 作还包括由多模式应用向自动话音标记语言解释装置(interpreter) 提供来自用户的用于识别的语音;由带有启用语法的自动话音标记语 言解释装置对至少部分用于识别的语音进行匹配;以及将指示代表匹 配语音的指令的事件从自动话音标记语言解释装置返回至多模式应 用。
根据本发明的实施例,多模式应用(195)是能够将多模式设备 作为支持在web页框架中启用语法的装置来操作的计算机程序指令 的模块。多模式设备(152)为自动设备,即在能够接收来自用户的 语音输入、将语音数字化并且向自动话音标记语言解释装置提供数字 化语音和话音识别语法的自动计算机器或者在自动设备上运行的计 算机程序。多模式设备可以和例如膝上型计算机上话音启用的浏览 器、电话听筒上的话音浏览器、与个人计算机上的Java —同执行的
合一起实现。图1的系统包括几个实例多模式设备
为了数据通信通过有线连接(120)耦接于数据通信网(100) 的个人计算机(108),
*为了数据通信通过无线连接(114 )耦接于数据通信网(100 ) 的个人数字助理(PDA) (108),
*为了数据通信通过无线连接(116)耦接于数据通信网(100) 的移动电话(110),以及
參为了数据通信通过无线连接(118)耦接于数据通信网(100) 的膝上型计算机(126)。
图1系统中的每个实例多模式设备(152)都包括麦克风、音频 放大器、数模转换器以及能够从用户(128)接受用于识别的语音 (315)、将语音数字化并且向自动话音标记语言解释装置提供数字 化语音和话音识别语法的多模式应用。可以根据工业标准的编解码 器,包括但不局限于那些同样用于分布式语音识别的编解码器对语音进行数字化。用于对语音进行"编码/解码,,的方法称为"编解码器"。欧
洲电信标准协会(ETSI)提供了几种可用于DSR中的对语音进行编 码的编解码器,包括,例如ETSIES 201 108 DSR前端编解码器、ETSI ES 202 050高级DSR前端编解码器、ETSI ES 202 211扩展DSR前 端编解码器以及ETSI ES 202 212扩展高级DSR前端编解码器。在诸 如标题为
RTP Payload Format for European Telecommunications Standards Institute (ETSI) European Standard ES 201 108 Distributed Speech Recognition Encoding
的RFC3557和标题为
RTP Payload Formats for European Telecommunications Standards Institute (ETSI) European Standard ES 202 050, ES 202 211, and ES 202 212 Distributed Speech Recognition Encoding
的因特网草案的标准中,IETF为不同的编解码器提供了标准的 RTP净荷格式。因此,值得注意的是本发明中没有关于编解码器、净 荷格式或者分组结构的限制。根据本发明的实施例,可以通过包括例 如
*AMR (自适应多速率语音编码器)
ARDOR (自适应速率失真优化声音编码器) 杜比数码(A/52 , AC3)
*DTS (DTS相干声学)
MP1 ( MPEG音频层-1)
*MP2 (MPEG音频层-2)层2音频编解码器(MPEG-I , MPEG誦2和非ISO MPEG國2.5 )
MP3 (MPEG音频层-3)层3音频编解码器(MPEG-1 , MPEG-2和非ISO MPEG-2.5 )
參感知音频编码
FS-1015 (LPC-10),
FS-1016 (CELP),
* G.726 ( A DPCM ),
* G.728 ( LD-CELP )
* G.729 ( CS-ACELP ) 參GSM
* HILN ( MPEG-4参数音频编码)以及 參本领域的技术人员可能想到的其他
任何编解码器对用于在web页框架中启用语法的语音进行编码。
图1系统中的每个实例多模式设备(152)可以包括自动话音标 记语言解释装置。自动话音标记语言解释装置(191)可以本地安装 于多模式设备本身,或者自动话音标记语言解释装置(192)可以跨 过数据通信网(100)相对于该多模式设备远程安装在话音服务器 (151)中。当多模式设备包括自动话音标记语言解释装置时,可以 通过借助从多模式应用到自动话音标记语言解释装置的一个或多个 应用编程接口 (API)调用向该自动话音标记语言解释装置提供语法 完成启用产生的语法。当自动话音标记语言解释装置位于话音服务器 时,该多模式设备可以为了数据通信耦接于话音服务器,可以通过借 助从多模式应用到话音服务器上的自动话音标记语言解释装置的一 个或多个通信协议消息向自动话音标记语言解释装置提供语法完成 启用产生的语法。
根据本发明的实施例,图1系统中的每个实例多模式设备(152) 都被配置并编程为能够通过在多模式设备(152)上的多模式应用 (195)中接收框架集文档,其中该框架集文档包括定义web页框架 的标记;由多模式应用获取显示在每个web页框架中的内容文档,其 中该内容文档包括可导航标记元素;由多模式应用针对每个内容文档 中的每个可导航标记元素产生定义语音识别语法的标记段,包括在每 个这种语法中插入识别当语法中的词匹配时待显示的内容的标记和 识别将显示该内容的框架的标记;以及由多模式应用启用(enable) 所有产生的用于语音识别的语法,在web页框架中启用语法。
对这四个实例多模式设备(152)的描述仅仅用于解释本发明,
而并非对本发明加以限制。根据本发明的实施例,任何能够接受来自 用户的语音、向自动话音标记语言解释装置提供数字化的语音并且接
收和播放语音提示和响应的自动计算机器都可以改进为用于在web 页框架中启用语法的多模式设备。
图1的系统还包括通过有线连接(122)连接于数据通信网(100) 的话音服务器(151 )。话音服务器(151 )是运行例如,诸如VoiceXML 解释装置等自动话音标记语言解释装置的计算机,自动话音标记语言 解释装置通过接受带有话音识别语法的语音识别请求并返回可能包 括表示识别的语音或事件的文本以由多模式客户应用处理的响应,来 为多模式设备提供话音识别服务。话音服务器(151)还向多模式客 户端应用,例如诸如X+V应用或者Java话音应用中的用户输入提供 用于话音提示和话音响应(314)的文本到语音(TTS)转换。
图1的系统包括为了数据通信连接多模式设备(152)和话音服 务器(151)的数据通信网(100)。根据本发明的实施例,用于在 web页框架中启用语法的数据通信网是由多个为了带有分组交换协议 的数据通信而连接的起数据通信路由器作用的计算机组成的数据通 信网。这种数据通信网可以通过光连接、有线连接或者无线连接的方 式实现。这种数据通信网可以包括企业内部互联网、因特网、局域数 据通信网(LAN)和广域数据通信网(WAN)。这种数据通信网可 以实现,例如
具有EthernetTM协议或者无线EthernetTM协议的链路层,
具有因特网协议(IP)的数据通信网络层,
具有传输控制协议(TCP )或者用户数据报协议(UDP )的传
输层,
參具有超文本传输协议(HTTP)、会话初始协议(SIP)、实 时协议(RTP)、分布式多模式同步协议(DMSP)、无线接入协议 (WAP )、手持设备传输协议(HDTP )、被称为H,323的ITU协议 的应用层,以及
本领域的技术人员所能想到的其他协议。组成图1所示的示范性系统的话音服务器(151)、多模式设备 (152)和数据通信网(100)的排列仅仅是为了解释本发明,而并非 对本发明加以限制。根据本发明的不同实施例,可用于在web页框架 中启用语法的数据处理系统可以包括图1中未示出而本领域的技术人 员可能想到的额外的服务器、路由器、其他设备和对等体系结构。这
之外的许多数据通信协议。可以在除图1所示的那些硬件平台之外的 多种硬件平台上实现本发明的不同实施例。
术语"标记"用于本文指的是HTML、 XHTML、 XML、 X+V、 VoiceXML等标记语言中的标记元素和标记属性。web页框架是定义 了多个用于内容显示的视图、窗口或子窗口的标记,例如,XHTML 〈frame〉元素。术语"框架"(frame)既用来指定义^L图的标记又用来 指视图本身。多个视图为设计者提供了使特定信息可视的途径,而其 他视图可以被滚动或替换。例如,在同一个窗口中, 一个框架可能显 示静态横幅,第二个框架可能显示导航菜单,而第三个框架可能显示 能够通过第二个框架中的导航滚动或者替换的主文档。
框架集文档是描述框架布局的标记文档,例如诸如X+V文档。 框架集文档具有与没有框架的HTML文档不同的标记。标准的 HMTL、 XHTML或者X+V文档有一个〈head〉部分和一个〈body、 框架集文档具有〈head〉和取代了 <body>的<frameset> 。标记文档的 〈framese^部分规定了计算机显示屏上视图的布局。框架中的待显示 内容不包括在框架集文档中框架被定义的同 一文档里。这些内容在另 一个文档,"内容文档"中,典型地,该文档远程存储在web服务器上, 而往往不是向多模式设备提供框架集文档的同一 web服务器上。内容 文档的位置在框架标记,"scr"属性中规定。典型地,每个内容文档实 际上都是web页本身,典型地,HTML、 XHTML、 XML或者X+V 文档还包含诸如链接〈ink〉元素和锚〈a〉元素等可导航标记元素。
语法是向自动话音标记语言解释装置传递可被识别的词和词的 顺序的标记。根据本发明的实施例,用于在web页框架中启用语法的语法可以以任何ASR引擎所支持的任何格式表示,包括以例如Java 语音语法格式(JSGF) 、 W3C语音识别语法规范(SRGS)的格式、 源于IETF RFC2234的增强型Backus-Naur格式(ABNF )、以W3C 的随机语言模型(N-Gram)规范中描述的随机语法的形式以及本领 域技术人员可能想到的其他语法格式来表示。典型地,语法如同对话 的元素,例如诸如VoiceXML 〈menu〉或者X+V 〈form〉一样工作。 语法的定义可以在对话(dialog)中内嵌表示。或者语法可以在独立 的语法文档中外部实现并在对话内通过URL引用。这里是用JSFG 表示语法的实例
<grammar scope=,,dialog"> <! [CDATA[
# JSGF V 1.0;
grammar command;
<command>=[remind me tocall | phone | telephone <name> <when> 5
<name>= bob | martha | joe | pete | chris | John | artoush ; <when>= today | this afternoon | tomorrow | next week ;
]]>
</grammar>
在本实例中,标记元素〈command〉、 〈name〉和〈when〉是语法 的规则。规则是规则名称和向自动话音标记语言解释装置建议当前哪 些词可以被识别的规则扩展的组合。在本实例中,扩展包括联合 (conjunction )和析取(disjunction ),垂直条"卩,表示"或,'。自动话 音标记语言解释装置依次对规则进行处理,首先是〈command、其次 是〈name〉,再次是〈whei^。 〈command〉规贝寸匹配"eall,,或"phone,, 或"telephone,,加上,即结合从〈name〉规则和〈when〉规则返回的任何 东西。〈name〉规贝'J匹配"bob,,或"martha"或"joe"或"pete,,或"chris,, 或"john,,或"artoush,,, 〈whei^规贝寸匹配"today,,或"this afternoon,,或 "tomorrow "或"next week"。命令语法总体上匹配类似这些的言语, 例如
"phone bob next week ,,,
"telephone martha this afternoon ,,,
"remind me to call chris tomorrow ,,,以及
參"remind me to phone pete today."
图1的系统包括采用诸如HTTP等请求/响应协议向多模式设备 (152)提供web页、常规web页和框架集文档的web服务器(149)。 可以通过在HTTP消息中接收诸如本实例框架集文档的框架集文档 来完成在多模式设备(152)的多模式应用(195)中框架集文档的接 收,其中框架集文档包括定义web页框架的标记
<!DOCTYPE HTML PUBLIC"-〃W3C〃DTD HTML 4.01 Frameset〃EN "
"http:〃www.w3.org/TR/html4/frameset.dtd,,>
< HTML>
< HEAD>
< TITLE> A frameset document </TITLE > </ HEAD>
< FRAMESET id= "framesetl" cols="33%, 33 %, 33 %,,>
< FRAMESET id = "frameset2,, rows = "*, 200" >
< FRAME id = "framel" scr="contents—offramel.html">
< FRAME id = "frame2,, scr="contents_of_frame2.gif"> </FRAMESET >
< FRAME id = "frame3,, scr="contents_of_frame3.html">
< FRAME id = "frame4" scr="contents—offrame4.html"> </FRAMESET >
该框架集文档定义了通过框架集"framesetl"和"frameset2"组织 在分层结构中的四个框架。Frameset2嵌套在framesetl中,创建了 frame3和frame4在顶层而framel和frame2在下层的分层结构。每 个框架中待显示的内容文档在src属性中被识别为名为 "contents—of一framel.html" 、 "contents of frame3.html" 和
"contentsjf—frame4.html,,的三个HTML文档以及一幅图4象,名为 "contents_of_frame2.gif"的可交换图形格式(GIF)文档。每个src 值,即每个内容文档名称实际上都是相对的统一资源定位符(URL), 它除了提供内容文档的名称以外,还规定了该内容文档在信息空间中 的位置(在本实例中,相对于被视为基准位置的 〃www.w3.org/TR/htm14/)。
本实例中的每个HTML内容文档都可以包含可导航标记元素、 链接元素和锚元素。GIF文档可以不包含导航元素。通过借助HTTP 从〃www.w3.org/TR/html4/检索被识别的内容文档,可由多模式应用 获得显示在每个web页框架(此处为framel到frame4 )中的内容文 档。然后,多模式应用通常将每个内容文档显示在其被称为内容文档 的"目标框架"的指定框架中。
多模式应用为每个内容文档中的每个可导航标记元素产生定义 语音识别语法的标记段,包括在每个这种语法中插入识别当语法中的 词匹配时待显示的内容的标记和识别将显示该内容的框架的标记。在 每个这种语法中插入识别当语法中的词匹配时待显示的内容的标记 可以通过在每个文档中扫描可导航标记元素、链接元素和锚元素来完 成(每个元素都具有规定为另一个内容文档提供位置的URL并且将 "href,值、URL写入语法的"href,属性)。当自动话音标记语言解释 装置将词与来自用户的用于识别的语音匹配时,则语法中的该词"匹 配"。在每个这种语法中插入识别将显示该内容的框架的标记可通过 在语法中插入该内容文档的目标框架的框架标识,"id"属性值来完成。 这样,下面来自内容文档的实例锚元素
<a href=,,pizza/pizza.html" target=,,contentFrame">Pizza Demo</8>
就为话音激活该锚元素所表示的超链接产生下列语法
$grammar=Pizza Demo {$.link=,,pizza/pizza.html,,;
$.target=,,eontentFrame,,}
根据本发明的实施例,多模式应用为由框架集文档中的文档定位
的每个内容文档中的每个导航元素创建语法。然后,多模式应用可以 通过动态产生规定语法的标记语言片段并向自动话音标记语言解释 装置提供该标记语言片段来启用所有产生的用于语音识别的语法。动 态产生规定语法的标记语言片段意味着将每个产生的语法放置在当 这一语法中的词由自动话音标记语言解释装置匹配时向多模式应用 返回事件的标记段中。
这样,多模式应用可以利用应用编程接口 (API)调用或者数据 通信协议中的消息为自动话音标记语言解释装置提供包含〈inb元素 的标记段,例如诸如VoiceXML段。当链接语法被匹配时,解释结果 作为事件被提交回应用。以下是包括产生的语法和事件的VoiceXML 链接元素的实例
<vxml:link
eventexpr=,,application.lastresult$.interpretation.c3n"> <vxml:grammar> <![CDATA [ 弁JSGF V1.0;
$grammar = Pizza Demo {$.Iink=,,pizza/pizza.html,,; $.target = "contentFrame"}
</vxml:grammar>
<catch event=,,command link,,>
expr="window.c3nEvent(application.lastresult$.interpretation.c 3n),,/>
</ catch > <vxml: link >
当VoiceXML解释装置与用户的言语匹配时,其语义解释功能 构造事件串。事件是与内容文档中的元素变得关联(以其为目标)的 特定异步发生(如元素表示上的鼠标单击、元素的语法中词的匹配、 元素的属性值中的算术错误或者众多其他可能性中的任何一种)的表
示。多模式应用的一般行为是当事件发生时,通过将其传递至DOM 文档树来将其分派到事件发生处的元素(称为其目标)。动作是对事 件进行响应的某种方式;处理装置(handler)是针对这种动作的某种 规范,例如采用脚本或者某种其他方式。监听器是这种处理程序到以 文档中某个元素为目标的事件的绑定。在本实例中,事件是锚元素所 代表的超链接的话音激活,处理程序是〈catch〉元素,而监听器是由 多模式应用中的〈form〉元素所规定的对话。
包括该Pizza Demo实例里〈vxml:linlO的"eventexpr"属性中的 事件串导致了语义解释功能将该事件串作为调用Pizza Demo锚元素 所代表的超链接的事件提交(raise) 。 〈vxml:link〉也包括处理由语义 解释功能产生的事件的〈catd^元素。在catch元素内,文档对象模型 (DOM)功能"window.c3nEvent(),,被执行,并经过事件串。
多模式应用为来自由目标框架引用的内容文档中可导航标记元 素的〈vxml:link〉元素产生标记。多模式应用将〈vxml:link〉和〈catch〉 添加至带有语法的标记段并将完整的标记段提供给VoiceXML解释 装置。现在如果用户发出"Pizza Demo", 则包含 "application.lastresultS.interpretation.c3n,,的〈vxml:linlO的事件表达 属性解析到串"link.pizza/pizza.html.contentFram,,。 该事件被 〈vxml:link〉抛出并由〈vxml:linl^中的〈catch〉处理程序捕获。捕获处 理程序中被调用的DOM API根据由包含在〈vxml:linlO元素中的语法 所建立的事件分层结构对该事件串进行解释。以"command.,,开始的 串可以解释为菜单命令,而以"link.,,开始的串可以解释为内容导航。 该Pizza Demo是内容导航的实例。
根据本发明的实施例,在web页框架中启用语法通常通过一个 或多个多模式设备,即自动计算机器或者计算机实现。例如,在图1 的系统中,所有的多模式设备至少在某种程度实现为计算机。因此, 为了进一步解释本发明,图2示出了根据本发明的实施例在web页框 架中启用语法的包括用作多模式设备(152)的计算机实例的自动计 算机器的框图。图2的多模式设备(152)包括至少一个计算机处理
器(156 )或"CPU"以及通过高速存储器总线(166 )和总线适配器(158 ) 连接于处理器(156 )和多模式设备其他部件的随机存取存储器(168 ) (RAM)。
根据本发明的实施例,存储在RAM (168)中的有多模式应用 (195),能够将多模式设备作为支持在web页框架中启用语法的装 置来操作的计算机程序指令的模块。根据本发明的实施例,本实例中 的多模式应用(195)被编程为通过在多模式设备(152)上接收框 架集文档,其中该框架集文档包括定义web页框架的标记;由多模式 应用荻取显示在每个web页框架中的内容文档,其中该内容文档包括 可导航标记元素;由多模式应用针对每个内容文档中的每个可导航标 记元素产生定义语音识别语法的标记段,包括在每个这种语法中插入 识别当语法中的词匹配时待显示的内容的标记和识别将显示该内容 的框架的标记;以及由多模式应用启用所有产生的用于语音识别的语 法,来在web页框架中启用语法。本实例中的多模式应用(195)被 编程为向自动话音标记语言解释装置提供来自用户的用于识别的语 音。在本实例中,自动话音标记语言解释装置表示为VoiceXML解释 装置(192)。当自动话音标记语言解释装置将用户话音中的一个或 多个词与启用的语法匹配时,多模式应用从解释装置接受并处理指示 代表匹配语音的指令的事件。自动话音标记语言解释装置(192)包 括语法(104),该语法如上所迷依次包括定义当前针对识别启用了 哪些词和词的顺序的规则。
典型地,多模式应用(195)是提供语音接口的用户级、多模式、 客户端的计算机程序,其中通过所述语音接口,用户可以通过麦克风 (176 )提供用于识别的口述语音,通过音频放大器(195 )和声卡(174 ) 的编码器/解码器(编解码器)(183)将语音数字化,并且将用于识 别的数字化话音提供给此处表示为VoiceXML解释装置的自动话音 标记语言解释装置(192)。多模式应用可以是其本身处理语法并直 接通过API为ASR引擎(150 )提供语法和用于识别的数字化语音的 Java话音应用。或者多模式应用可以是运行于浏览器或者微浏览器内
将VoiceXML语法通过API调用直接传递给嵌入式VoieeXML解释 装置(192 )处理的X+V应用。嵌入式VoiceXML解释装置(192 ) 可以直接通过API调用向嵌入式ASR引擎(150 )依次发出语音识别 请求。多模式应用(195)还通过到嵌入式TTS引擎(194)的API 调用,向例如诸如X+V应用或者Java话音应用等多才莫式应用中的用 户输入提供用于话音提示和话音响应的TTS转换。本实例中的多模式 应用(195)不通过网络将用于识别的话音发送给话音服务器识别, 本实例中的多模式应用(195)不通过网络从话音服务器接收TTS提 示和响应。本实例中所有的语法处理、话音识别和文本到语音转换都 在多模式设备本身中以嵌入式的方式完成。
在本实例中,同样存储在RAM中的ASR引擎(150 )是用于完 成自动语音识别的计算机程序指令的模块。根据本发明的实施例,可 以改进为用于在web页框架中启用语法的嵌入式ASR引擎的实例是 IBM的Embedded ViaVoice Enterprise, —种也包括嵌入式TTS引擎 的ASR产品。存储在RAM (168)中的还有嵌入式TTS引擎(194 ), 是将文本作为输入接受并且将相同文本以数字编码语音的形式返回
的计算机程序指令的模块,可用于为多模式系统的用户提供作为提示 和响应的语音。
存储在RAM (168)中的还有操作系统(154)。根据本发明的 实施例,可用于话音服务器中的操作系统包括UnixTM、 LinuxTM、 Microsoft NTTM、 AIXTM、 IBM's i5/OSTM以及本领域的技术人员可能 想到的其他操作系统。图3的实例中,操作系统(154)、多模式应 用(195 ) 、 VoiceXML解释装置(192 ) 、 ASR引擎(150 ) 、 JVM (102)和TTS引擎(194)都显示为在RAM (168)中,但是典型 地,这种软件的许多組件也存储在非易失存储器中,例如,在磁盘驱 动器(170)上。
图2的多模式设备(152)包括总线适配器(158),包含针对高 速总线、前端总线(162)、视频总线(164)和存储器总线(166) 以及针对较慢扩展总线(160)的驱动电子技术的计算机硬件部件。
根据本发明的实施例,可用于多模式设备的总线适配器的实例包括
Intel北桥(Northbridge ) 、 Intel存储器控制器集线器、Intel南桥和 Intel I/O控制器集线器。根据本发明的实施例,可用于多模式设备的 扩展总线的实例包括工业标准体系结构(ISA)总线和外设部件互联 (PCI)总线。
图2的多模式设备(152 )包括通过扩展总线(160 )和总线适配 器(150)耦接于处理器(156)和多模式设备(152)的其他部件的 磁盘驱动适配器(172 )。磁盘驱动适配器(172 )以磁盘驱动器(170 ) 的形式将非易失数据存储器连接至多模式设备(152)。可用于多模 式设备的磁盘驱动适配器包括集成驱动电子技术(IDE)适配器、小 型计算机系统接口 (SCSI)适配器和本领域的技术人员可能想到的其 他适配器。另外,非易失计算机存储器可以针对多模式设备实现为光 盘驱动器、电可擦除可编程只读存储空间(所谓的"EEPROM"或者 "Flash"存储器)、RAM驱动器以及本领域的技术人员可能想到的其 他存储器等等。
图2的实例多模式设备包括一个或者多个输入/输出(I/O)适配 器(178)。多模式设备中的I/O适配器通过例如,用于控制到诸如 计算机显示屏等显示设备以及来自诸如键盘和鼠标等用户输入设备 (181)的用户输入的软件驱动程序和计算机硬件实现面向用户的输 入/输出。图2的多模式设备包括视频适配器(209),它是为了向诸 如显示屏和计算机监视器等显示设备(180)进行图形输入而专门设 计的1/0适配器的实例。视频适配器(209 )通过高速视频总线(164)、 总线适配器(158)和同样为高速总线的前端总线(162)连接于处理 器(156 )。
图2的多模式设备还包括声卡(174),它是为了从麦克风(176) 接受模拟音频信号并将该模拟音频信号转换为数字格式以便由编解 码器(183 )做进一步处理而专门设计的I/O适配器的实例。声卡(174 ) 通过扩展总线(160)、总线适配器(158)和前端总线(162)连接 于处理器(156)。
图2的示范性多模式设备(152)包括用于与其他计算机(182) 进行数据通信以及与数据通信网(100)进行数据通信的通信适配器 (167)。这种数据通信可以通过串行地通过RS-232连接、通过诸如 通用串行总线(USB)等外部总线、通过诸如IP数据通信网等数据 通信网以及本领域的技术人员可能想到的其他途径完成。通信适配器 实现硬件级的数据通信,通过该数据通信, 一台计算机直接或通过数 据通信网将数据通信发送给另一台计算机。根据本发明的实施例,可 用于在web页框架中启用语法的通信适配器的实例包括用于有线拨 号通信的调制解调器、用于有线数据通信网通信的Ethernet (IEEE 802.3 )适配器和用于无线数据通信网通信的802.11b适配器。
根据本发明的实施例,某些实施例中在web页框架中启用语法 可以通过提供语音识别的一个或者多个话音服务器、计算机(即自动 计算机器)来实现。因此,为了进一步解释本发明,图3示出了根据
本发明的实施例在web页框架中启用语法的包括用作话音服务器的 计算机实例的自动计算机器的框图。图3的话音服务器(151)包括 至少一个计算机处理器(156)或者CPU以及通过高速存储器总线
(166)和总线适配器(158)连接于处理器(156)和话音服务器的 其他部件的随机存取存储器(168) (RAM)。
存储在RAM (168)中的有多模式服务器应用(188),能够操 作系统中话音服务器的计算机程序指令的模块,该系统被配置为完成 从多模式客户机设备接收语法和用于识别的数字化语音、将语法和数 字化语音传递给自动话音标记语言解释装置进行处理、并且将响应从 自动话音标记语言解释装置返回至多模式设备所需的数据通信。这种 响应可以包括表示被识别语音的文本、用作对话中变量值的文本以及 事件(即作为来自语义解释的脚本的串表示的事件文本)。多模式服 务器应用(188 )还包括为多模式应用(例如,诸如X+V应用或者Java 语音应用)中的用户输入提供用于话音提示和话音响应的文本到语音
(TTS)转换的计算机程序指令。
多模式服务器应用(188)可以用Java、 C+十或者其他语言实现 为通过向来自X+V客户机的HTTP请求提供响应支持X+V的web 服务器。对于另一个实例,多模式服务器应用(188)可以实现为运 行于Java虚拟机(102)并通过向运行于多模式设备的来自Java客 户机应用的HTTP请求提供响应支持Java话音框架的Java服务器。 支持在web页框架中启用语法的多模式服务器应用还可以以本领域 的技术人员可能想到的其他途径实现,而且所有的这些途径都在本发 明的范围之内。
图3的实例中设置于RAM的还有ASR引擎(150) 。 ASR引擎 (150)是利用能够由ASR引擎识别的词的ASR词典(106)完成语 音识别的计算机程序指令的模块。词典(106)是文本形式的词和表 示每个词发音的音素的关联。在完成自动语音识别的过程中,ASR引 擎以至少一个数字化词的形式从自动话音标记语言解释装置接收用 于识别的语音,利用该数字化词的频率分量派生语音特征矢量 (Speech Feature Vector, SFV ),再利用该SFV从语言特定的声学 模型(未示出)推断该词的音素。举例来说,语言特定的声学模型是 将SFV与表示具体语言中所有词的所有发音的音素关联到该做法是 实际可行的程度上的数据结构、表或者数据库。然后ASR引擎利用 该音素查找词典中的词。如果找到该词,则将该词的文本作为被识别 的语音返回给自动话音标记语言解释装置。然后,自动话音标记语言 解释装置可以确定该被识别的语音是否与启用的语法中的词相匹配。
存储在RAM中的还有例如此处表示为VoiceXML解释装置 (192 )的自动话音标记语言解释装置,处理VoiceXML语法的计算 机程序指令的模块。到VoiceXML解释装置(192 )的VoiceXML输 入可以来源于远程运行于多模式设备的VoiceXML客户机,来源于远 程运行于多模式设备的X+V多模式客户机应用,或者来源于远程运 行于多模式设备的Java客户机应用。在本实例中,VoiceXML解释 装置(192)解释并执行通过多模式服务器应用(188)从远程多媒体 客户机软件接收并提供给VoiceXML解释装置(192 )的VoiceXML 段。VoiceXML解释装置(192 )包括语法(104 ),该语法如上所述
依次包括定义当前针对识别启用了哪些词和词的顺序的规则。存储在
RAM (168 )中的还有文本到语音(TTS )引擎(194 ),将文本作为 输入接受并以数字编码语音的形式返回相同文本的计算机程序指令 的模块,可用于向多模式系统的用户提供作为提示和响应的语音。
存储在RAM (168)中的还有操作系统(154)。根据本发明的 实施例,可用于话音月l务器的操作系统包括UnixTM、 LinuxTM、 Microsoft NTTM、 AIXtm、 IBM,s i5/OSTM以及本领域的技术人员可能 想到的其他操作系统。图3的实例中,操作系统(154)、多模式服 务器应用(188) 、 VoiceXML解释装置(192) 、 ASR引擎(150 )、 JVM (102 )和TTS引擎(194 )都显示为在RAM (168 )中,但是 典型地,这种软件的许多组件也存储在非易失存储器中,例如,在磁 盘驱动器(170)上。
图3的话音服务器(151)包括总线适配器(158 ),包含针对高 速总线、前端总线(162)、视频总线(164)和存储器总线(166) 的驱动电子技术以及针对较慢扩展总线(160)的驱动电子技术的计 算机硬件部件。根据本发明的实施例,可用于话音服务器的总线适配 器的实例包括Intel北桥、Intel存储器控制器集线器、Intel南桥和Intel I/O控制器集线器。根据本发明的实施例,可用于话音服务器的扩展 总线的实例包括工业标准体系结构(ISA )总线和外设部件互联(PCI) 总线。
图3的话音服务器(151)包括通过扩展总线(160 )和总线适配 器(158)耦接于处理器(156)和话音服务器(151)的其他部件的 磁盘驱动适配器(172 )。磁盘驱动适配器(172 )以磁盘驱动器(170 ) 的形式将非易失数据存储器连接于话音服务器(151)。可用于话音 服务器的磁盘驱动适配器包括集成驱动电子技术(IDE)适配器、小 型计算机系统接口 (SCSI)适配器和本领域的技术人员可能想到的其 他适配器。另外,非易失计算机存储器可以针对话音服务器实现为光 盘驱动器、电可擦除可编程只读存储空间(所谓的"EEPROM"或者 "Flash,,存储器)、RAM驱动器以及本领域的技术人员可能想到的其他存储器等等。
图3的实例话音服务器包括一个或者多个输入/输出(I/O)适配 器(178)。话音服务器中的I/O适配器通过例如,用于控制到诸如 计算机显示屏等显示设备以及来自诸如键盘和鼠标等用户输入设备 (181)的用户输入的软件驱动程序和计算机硬件实现面向用户的输 入/输出。图3的话音服务器包括视频适配器(209),它是为了向诸 如显示屏和计算机监视器等显示设备(180)进行图形输入而专门设 计的1/0适配器的实例。视频适配器(209)通过高速视频总线(164)、 总线适配器(158)和同样为高速总线的前端总线(162)连接于处理 器(156)。
图3的示范性话音服务器(151)包括用于与其他计算机(182 ) 进行数据通信以及与数据通信网(100)进行数据通信的通信适配器 (167)。这种数据通信可以通过串行地通过RS-232连接、通过诸如 通用串行总线(USB)等外部总线、通过诸如IP数据通信网等数据 通信网以及本领域的技术人员可能想到的其他途径完成。通信适配器 实现硬件级的数据通信,通过该数据通信, 一台计算机直接或通过数 据通信网将数据通信发送给另一台计算机。根据本发明的实施例,可 用于在web页框架中启用语法的通信适配器的实例包括用于有线拨 号通信的调制解调器、用于有线数据通信网通信的Ethernet (IEEE 802.3)适配器和用于无线数据通信网通信的802.11b适配器。
为了进一步解释本发明,图4示出了根据本发明的实施例在web 页框架中启用语法的示范性装置的功能框图。在图4的实例中,只有 多模式设备(152)和用户(128),没有网络,没有VOIP连接,也 没有包含远程ASR引擎的话音服务器。根据本发明的实施例,所有 在web页框架中启用语法所需的部件都要安装或者嵌入于多模式设 备本身,膝上型计算机、PDA、蜂窝电话等等。
图4的装置与图2的系统以相似的方式工作。根据本发明的实施 例,多模式应用(195)是能够将多模式设备作为在web页框架中启 用语法的装置操作的计算机程序指令的模块。在本实例中,根据本发明的实施例,本实例中的多模式应用(195)也配置为通过在多模 式设备上接收框架集文档,其中该框架集文档包括定义web页框架的 标记;由多模式应用获取显示在每个web页框架中的内容文档,其中 该内容文档包括可导航标记元素;由多模式应用针对每个内容文档中 的每个可导航标记元素产生定义语音识别语法的标记段,包括在每个 这种语法中插入识别当语法中的词匹配时待显示的内容的标记和识 别将显示该内容的框架的标记;以及由多模式应用启用所有产生的用 于语音识别的语法在web页框架中启用语法。本实例中的多模式应用 (195)编程为向自动话音标记语言解释装置提供来自用户的用于识 别的语音。在本实例中,自动话音标记语言解释装置表示为VoiceXML 解释装置(192)。多才莫式应用(195)接受来自用户的用于识别的语 音,并通过API (175 )将该用于识别的语音发送给VoiceXML解释 装置(192)。当借助启用的语法通过自动话音标记语言解释装置匹 配用户语音中的一个或多个词时,多模式应用从解释装置接受并处理 指示代表该匹配语音的指令的事件。VoiceXML解释装置(192)包 括语法(104),该语法如上所述依次包括定义当前针对识别启用了 哪些词和词的顺序的规则。
多模式应用(195)是提供语音接口的用户级、多模式、客户端 的计算机程序,通过该语音接口,用户可以通过麦克风(176)提供 用于识别的口述话音,通过音频放大器和编解码器将语音数字化,并 且将用于识别的数字化语音提供给嵌入式ASR引擎(150)。多模式
引擎(150、提供语法和用于识别的数字化语音的Java话音应^J 。或 者多模式应用可以是运行于浏览器或者微浏览器内将VoiceXML语 法通过API (175 )直接传递给嵌入式VoiceXML解释装置(192 )处 理的X+V应用。嵌入式VoiceXML解释装置(192)可以转而通过 API (179)向嵌入式ASR引擎(150)发出语音识别请求。多模式设 备应用(195 )还通过到嵌入式TTS引擎(194 ) API调用,向例如诸 如X+V应用或者Java话音应用等多模式应用中的用户输入提供用于话音提示和话音响应的TTS转换。本实例中的多模式设备应用(195) 不通过网络将用于识别的话音发送给话音服务器识别,本实例中的多 模式设备应用(195 )不通过网络从话音服务器接收TTS提示和响应。 所有的语法处理、话音识别和文本到语音转换都在多模式设备本身中 以嵌入式方式完成。
为了进一步解释本发明,图5示出了根据本发明的实施例在web 页框架中启用语法的另一个示范性装置的功能框图。图5的实例包括 为了数据通信由VOIP连接(216)通过数据通信网(100)连接的多 模式设备(152)和话音服务器(151)。多模式应用(195)在多模 式设备(152 )上运行,而多模式服务器应用(188 )在话音服务器(151) 上运行。话音服务器(151)上还安装有带有ASR词典(106 )的ASR 引擎(150 ) 、 JVM (102 )以及带有启用语法的VoiceXML解释装置 (192)。
代表"Voice Over Internet Protocol"的VOIP是用于在基于IP的 数据通信网上对语音进行路由的一般术语。语音数据流过通用分组交 换数据通信网,而不是传统的专用电路交换话音传输线。用于在IP 数据通信网上携带话音信号的协议通常称为"Voice over IP,,或者 "VOIP"协议。可以在任何IP数据通信网,包括缺少到因特网其余部 分的连接的数据通信网,例如在专用建筑物范围的局域数据通信网或 者"LAN,,上部署VOIP业务。
许多协议用于实现VOIP。两类最为普遍的VOIP是通过IETF 的会话初始协议(SIP)和被称为"H.323"的ITU协议实现的。SIP客 户机采用TCP和UDP端口 5060连接于SIP服务器。SIP本身用于建 立和拆除用于语音传输的呼叫。然后,带有SIP的VOIP采用RTP 来传送实际的编码语音。类似地,H.323是来自国际电信联盟标准部 门的保护性建议,以便在任何分组交换数据通信网上提供视听通信会 话。
图5的装置和上述图3的系统以相似的方式工作。多模式应用 (195)将语音接口呈现给用户(128),将启用的语法发送给话音服
务器,提供音频提示和响应(314)并且接受来自用户(128)的用于 识别的语音(315)。多模式应用(195)根据某种编解码器对用于识 别的语音数字化,根据VOIP协议将该语音打包在识别请求消息中, 并且通过网络(100)上的VOIP连接(216)将该语音发送给话音服 务器(151)。多模式服务器应用(188)通过接受用于语音识别的请 求(包括启用的语法和数字化语音)并返回语音识别结果(包括识别 语音的文本、用作对话中的变量值的文本和作为来自语义解释的脚本 的串表示的文本)为多模式设备提供话音识别服务。多模式服务器应 用(188)包括向例如诸如X+V应用或Java语音应用等多模式应用 中的用户输入提供用于话音提示和话音响应的文本到语音(TTS)转 换的计算机程序指令。
多模式服务器应用(188)接收语法和来自用户的用于识别的语 音,并且将该语法和语音传递给VoiceXML解释装置(192)。 VoiceXML解释装置利用ASR引擎(150 )识别单独的词并且确定词 或者词的顺序是否被语法所匹配。ASR引擎从VoiceXML解释装置 接收用于识别的数字化语音,利用数字化语音的频率分量派生SFV, 利用该SFV从语言特定的声学模型(未示出)推断该词的音素,并且 利用所述音素在词典(106)中查找该语音。
为了进一步解释本发明,图6示出了根据本发明的实施例在web 页框架中启用语法的示范性方法的流程图。图6的方法包括在多模式 设备的多模式应用中接收(302 )框架集文档。典型地,通过响应于 数据通信协议请求消息(例如诸如返回框架集文档的HTTP请求)接 收web页来完成对框架集文档的接收。该框架集文档包括定义web 页框架的标记。以下是根据两个框架集将三个框架组织在分层结构中 的框架集文档的实例
<!DOCTYPE HTML PUBLIC "〃W3C〃DTD HTML 4.01 Frameset〃EN,,
"http:〃www.w3.org /TR/html4/frameset.dtd">
<HTML>
<HEAD>
<TITLE> A simple frameset document </TITLE> </HEAD>
<FRAMESET id = "framesetl" cols = "20%, 80%,,> <FRAMESET id = "frameset2,, rows = "100, 200,,>
<FRAME id = "framel" src = "contentsof—framel .html">
<FRAME id = "frame2,, src = "contents_offrame2.gif"> </FRAMESET> <FRAME id = "frame3,, src = "contents_of_frame3.html,,> </FRAMESET> </HTML>
图6的方法还包括由多模式应用获取(304)显示在每个web页 框架中的内容文档。典型地,所述内容文档是包括诸如XHTML链接 元素和锚元素等可导航标记元素的web页。本实例中的内容文档是框 架集文档内框架定义中的"scr"URL值所规定的内容文档。在本实例 中,内容文档被 URL 识另'J为 contents_of_framel.html 、 contents of_franie2.gif和contents—of_frame3.html。
在本实例中,根据两个框架集将web页框架组织在分层结构中, 而且该分层结构以最顶层的框架frame3以及两个子框架framel和 frame2为特征。因此,在本实例中,可以通过为最顶层的框架和每个 子框架反复获取显示在每个框架中的独立的内容文档来完成对至少 两个内容文档的获取。
图6的方法还包括由多模式应用为每个内容文档中的每个可导 航标记元素产生(306)定义话音识别语法的标记段,包括在每个这 种语法中插入识别当语法中的词匹配时待显示的内容的标记和识别 将显示该内容的框架的标记。识别当语法中的词匹配时待显示的内容 的标记可以从内容文档内可导航标记元素中的"href"属性获得。识别该内容将显示于何处的框架的标记可以从框架集文档中针对内容的
目标文档的"id"属性获得。
图6的方法还包括由多模式应用启用(308)所有产生的用于语 音识别的语法。启用产生的语法可进一步地通过动态产生规定语法的 标记语言片段并向自动话音标记语言解释装置提供该标记语言片段 来完成。在图6的方法中,多模式设备可以包括自动话音标记语言解 释装置,启用产生的语法可以通过借助从多模式应用到自动话音标记 语言解释装置的一个或多个应用编程接口 (API)调用向自动话音标 记语言解释装置提供语法来完成。在图6的方法中,可选择地,多模 式设备可以为了数据通信耦接于话音服务器;该话音服务器可以包括 自动话音标记语言解释装置;启用所有产生的语法可以通过借助从多 模式设备到话音服务器上的自动话音标记语言解释装置的一个或多 个数据通信协议消息向自动话音标记语言解释装置提供语法来完成。
图6的方法还包括由多模式设备向自动话音标记语言解释装置 提供(310)来自用户的用于识别的话音。即多模式设备从麦克风获 得作为模拟音频信号的用户语音并根据编解码器将该语音数字化。然 后,通过API调用(如果该解释装置在多模式设备上),或通过数据 通信协议消息(如果该解释装置在网络话音服务器上),多模式应用 将数字化的语音提供给自动话音标记语言解释装置。
图6的方法还包括由带有启用语法的自动话音标记语言解释装 置匹配(312)用于识别的至少部分语音。解释装置接收数字化的语 音,将其传递给ASR引擎并接收响应中的文本词。然后解释装置确 定该文本词的任何一个是否在值和顺序上与启用的语法中的词相匹 配。
图6的方法还包括将指示代表匹配语音的指令的事件从自动话 音标记语言解释装置返回(314)至多模式应用。如果解释装置将词 或者词的顺序与启用的语法匹配,则解释装置将事件返回至多模式应 用中的事件监听器。如果解释装置在带有多模式应用的多模式设备 上,则将该事件从API调用返回至与该事件所定向到的元素相对应的
DOM目标。如果解释装置在网络话音服务器上,则该事件在送往相 应的DOM目标之前首先传递回数据通信协议消息中的多模式设备。
鉴于本文档中前面所提出的解释,读者将认识到根据本发明的实 施例在web页框架中启用语法提供了如下的好处
* 启用了将对显示中所有框架话音启用(voice-enable)内容导 航的语法,以及
* 当话音用于激活超链接时,对特定目标框架进行定位。 此处用于在web页框架中启用语法的全功能计算机系统的上下
文中大量描述了本发明的示范性实施例。然而,熟悉本技术的读者将 认识到为了用于任何合适的数据处理系统,本发明也可以在设置于信 号承载介质上的计算机程序产品内具体化。这种信号承载介质可以是 传输介质或者是针对机器可读信息的可记录介质,包括磁介质、光介 质或者其他合适的介质。可记录介质的实例包括硬件驱动器中的磁盘 或磁碟、用于光驱动器的紧致磁盘、磁带以及本领域的技术人员可能 想到的其他介质。传输介质的实例包括用于话音通信的电话数据通信 网和数据通信网,例如诸如Ethernets 和通过因特网协议通信的数 据通信网以及万维网。对本技术熟悉的人们将立刻认识到任何具有合 适的编程手段的计算机系统都能够如同程序产品中所体现的那样执 行本发明方法的步骤。对本技术熟悉的人们将立刻认识到尽管本说明 书中所描述的某些示范性实施例是面向安装的软件并在计算机硬件 上执行的,然而,作为固件或者硬件实现的可选择的实施例也在本发 明的范围之内。
从前面的描述可以理解,可以对本发明的不同实施例进行修改和 改变而不背离本发明真正的精神。本说明书中的描述的目的仅仅在于 解释本发明而不是对其加以限制。本发明的范围仅仅通过以下权利要 求书的语言来限制。
权利要求
1.一种在web页框架中启用语法的方法,所述方法包括在多模式设备上的多模式应用中接收框架集文档,所述框架集文档包括定义web页框架的标记;由所述多模式应用获取显示在每个web页框架中的内容文档,所述内容文档包括可导航标记元素;由所述多模式应用为每个内容文档中的每个可导航标记元素产生定义语音识别语法的标记段,包括在每个这种语法中插入识别当语法中的词匹配时待显示的内容的标记和识别将显示所述内容的框架的标记;以及由所述多模式应用启用所有产生的用于语音识别的语法。
2. 根据权利要求l所述的方法,其中所述web页框架按照一个或多个框架集组织在分层结构中,所 述分层结构由最顶层的框架和一个或多个子框架表征;而且获取至少两个内容文档进一步包括为所述最顶层的框架和每个 子框架反复获取显示于每个框架中的独立的内容文档。
3. 根据权利要求1所述的方法,其中启用产生的语法进一步包括动态产生规定语法的标记语言片段;以及向自动话音标记语言解释装置提供所述标记语言片段。
4. 根据权利要求1所述的方法,其中所述多模式设备进一步包括自动话音标记语言解释装置;并且 启用产生的语法进一步包括通过从所迷多模式应用到自动话音标记语言解释装置的一个或多个应用编程接口 (API)调用向所述自动话音标记语言解释装置提供语法。
5. 根据权利要求l所述的方法,其中所述多模式设备耦接于话音服务器以用于数据通信,所述话音服 务器包括自动话音标记语言解释装置;并且启用所有产生的语法进一步包括通过从所述多模式设备到话音 服务器上的自动话音标记语言解释装置的一个或多个数据通信协议 消息向所述自动话音标记语言解释装置提供语法。
6. 根据权利要求l所述的方法,进一步包括由所述多模式应用向自动话音标记语言解释装置提供来自用户 的用于识别的语音;由带有启用的语法的所迷自动话音标记语言解释装置匹配至少 部分用于识别的语音;以及将指示代表匹配语音的指令的事件从所述自动话音标记语言解 释装置返回至多模式应用。
7. —种在web页框架中启用语法的系统,所述系统包括计算机 处理器和操作性地耦接于所述计算机处理器的计算机存储器,所述计 算机存储器具有设置于其中、能够执行下述操作的计算机程序指令在多模式设备上的多模式应用中接收框架集文档,所述框架集文 档包括定义web页框架的标记;由所述多模式应用获取显示于每个web页框架中的内容文档, 所述内容文档包括可导航标记元素;由所述多模式应用为每个内容文档中的每个可导航标记元素产 生定义语音识别语法的标记段,包括在每个这种语法中插入识别当语 法中的词匹配时待显示的内容的标记和识别将显示所述内容的框架 的标i己;以及由所述多模式应用启用所有产生的用于语音识别的语法。
8. 根据权利要求7所述的系统,其中所述web页框架按照一个或多个框架集组织在分层结构中,所 述分层结构以最顶层的框架和一个或多个子框架表征;而且获取至少两个内容文档进一步包括为所述最顶层的框架和每个 子框架反复获取显示于每个框架中的独立的内容文档。
9. 根据权利要求7所述的系统,其中启用产生的语法进一步包括动态产生规定语法的标记语言片段;以及向自动话音标记语言解释装置提供所述标记语言片段。
10. 根据权利要求7所述的系统,其中 所述多模式设备进一步包括自动话音标记语言解释装置;并且 启用产生的语法进一步包括通过从所述多模式应用到自动话音标记语言解释装置的一个或多个应用编程接口 (API)调用向所述自 动话音标记语言解释装置提供语法。
11. 根据权利要求7所述的系统,其中所述多模式设备耦接于话音服务器以用于数据通信,所述话音服 务器包括自动话音标记语言解释装置;并且启用所有产生的语法进一步包括通过从所述多模式设备到话音 服务器上的自动话音标记语言解释装置的一个或多个数据通信协议 消息向所述自动话音标记语言解释装置提供语法。
12. 根据权利要求7所述的系统,进一步包括能够执行如下搮作 的计算机程序指令由所述多模式应用向自动话音标记语言解释装置提供来自用户 的用于识别的语音;由所述带有启用的语法的自动话音标记语言解释装置匹配至少 部分用于识别的语音;以及将指示代表匹配语音的指令的事件从所述自动话音标记语言解 释装置返回至多模式应用。
全文摘要
在web页框架中启用语法,包括在多模式设备上的多模式应用中接收框架集文档,其中该框架集文档包括定义web页框架的标记;多模式应用获取显示在每个web页框架中内容文档,其中该内容文档包括可导航标记元素;多模式应用为每个内容文档中的每个可导航标记元素产生定义语音识别语法的标记段,包括在每个这种语法中插入识别当语法中的词匹配时待显示的内容的标记和识别将显示该内容的框架的标记;以及多模式应用启用所有产生的用于语音识别的语法。
文档编号H04M1/27GK101197868SQ200710186930
公开日2008年6月11日 申请日期2007年11月15日 优先权日2006年12月6日
发明者小查尔斯·W.·克罗斯, 杰拉尔德·M.·麦科布, 苏恩索恩·阿蒂瓦尼查亚丰 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1