用于分发语音识别语法的系统和方法

文档序号:2830083阅读:258来源:国知局
专利名称:用于分发语音识别语法的系统和方法
技术领域
本发明一般地涉及通信系统,更具体而言,涉及给予通信系统的命令
的语音识另廿(speech-recognition)。
背景技术
自动语音识别(ASR)被用于补充或替换计算机键盘、电话键区、鼠 标和相关设备以控制计算机应用。例如,ASR的常见应用允许用户通过经 由电话说出命令来控制远程服务器。用户可能能够单独通过语音或通过语 音与电话键区的组合来请求来自远程数据库的信息和/或修改远程数据库。
这些系统的有效性由它们可以精确识别的不同单词(word)的数目来 左右。由于与特定系统相关联的词汇表不断增大,因此识别难度也在增 大。识别精确度还受说话者之间的发音差别所影响。识别出的单词与关于 各种预期发音的信息的组合被称为ASR "语法(grammar)"。
正确的人名尤其难以识别。可能姓名的数目是无限的,并且发音可能 取决于姓名的起源、所讲语言和说话者的地区方言或母语(native-language) 而明显不同。例如,"Rzegocki"(起源于波兰并且正确的发音 为"sha-guts-ki")对大多数美国英语说话者而言是难以理解的。其需要 关于波兰语和波兰变音符号的音译规则的罕见知识。因此,诸如"are-ze-gockee"之类的错误发音很常见,从而使得ASR系统的效率大大降低。这 个问题由于全球移民和商业而变得越发复杂。与基于美国英语的ASR系统 相交互的日语母语或北印度语母语说话者使这种和其他"非母语"姓名的 识别进一步复杂化。
不管这种复杂性如何,语音邮件的记录和传送以及通过口语命令的现 代通信系统的操作的其他方面都大大简化了使用。结果,对于基于电话和 其他适当形式的通信应用而言,非常希望能够识别正确的姓名。例如,寻
址语音邮件消息、传输呼叫、检索联络信息或请求约会都取决于所涉及的 人的姓名的准确识别。

发明内容
根据本发明,与生成和维护语音识别语法相关联的缺点和问题被大大 减少或消除。
根据本发明一个实施例, 一种用于分发语音识别语法的方法包括从第 一远程元件接收匹配数据。匹配数据包括与远程元件将接收到的音频信息 匹配到第一存储音频数据的尝试相关联的信息。该方法还包括基于匹配数 据生成语法条目。语法条目包括第二存储音频数据和与第二存储音频数据 相关联的单词标识符。另外,该方法包括将语法条目发送到第二远程元
根据本发明另一实施例, 一种用于分发语音识别语法的设备包括存储 器和处理器。存储器能够存储处理器指令。处理器能够从第一远程元件接 收匹配数据。匹配数据包括与远程元件将接收到的音频信息匹配到第一存 储音频数据的尝试相关联的信息。处理器可用于基于匹配数据生成语法条 目。语法条目包括第二存储音频数据和与第二存储音频数据相关联的单词 标识符。处理器还可用于将语法条目发送到第二远程元件。
本发明的某些实施例的技术优点包括提供了一种有效的用于优化语音 识别语法的不确定(0Ut-0f-b0X)识别率的技术。其他技术优点包括降低和 /或消除对语法的在线调节的需求,并且提供随时间提高识别率的自适应识 别系统。
对本领域技术人员而言,本发明的其他技术优点将从以下附图、描述 以及权利要求中变得更加明显。此外,虽然以上列出了特定优点,但是各 个实施例可能包括所列优点中的所有或某些或不包括这些优点。


为了更全面地理解本发明及其优点,现在结合附图参考以下描述,在 附图中
图1示出根据本发明特定实施例的通信系统;
图2示出可以在通信系统的特定实施例中使用的目录服务器;
图3示出可以在通信系统的特定实施例中使用的语法服务器;以及
图4是示出根据特定实施例的通信系统的示例操作的流程图。
具体实施例方式
图1示出支持用户70之间的通信的通信系统10的特定实施例。如图
所示,通信系统10包括通过公共交换电话网(PSTN) 50和/或因特网52 耦合的多个局域网(LAN) SO。每个LAN80额外使得多个通信设备60、 目录服务器20、呼叫管理器30和网关40彼此耦合并使它们耦合到PSTN 50和/或因特网52。另外,通信系统IO包括耦合到PSTN 50和/或因特网 52的语法服务器90。在特定实施例中,语法服务器90收集来自若干设备 (例如目录服务器20)的语音识别结果,并利用这些结果来创建针对特 定部署情形调节(tune)的语法和/或为了用在特定设置中而优化现有语 法。结果,通信系统10可以减小或消除对作为相关语法的部署过程的一 部分的手工调节的需求。
通信设备60可以分别代表硬件、软件和/或编码逻辑的任意合适的组 合以向用户提供通信服务。例如,通信设备60可以代表电话、运行电话 软件的计算机、视频监视器、照相机或利用通信系统10支持语音、视 频、文本或其他合适形式的数据的通信的任意其他的通信硬件、软件和/ 或编码逻辑。在所示实施例中,通信设备60a、 60b、 60d和60e代表因特 网协议(IP)电话,而通信设备60c和60f代表具有电话功能的个人计算 机(PC)。另外,通信设备60g和60i代表分别通过PSTN50耦合到通信 系统10的模拟电话和蜂窝电话。虽然图1示出特定数目和配置的通信设 备60,但是通信系统IO可以设想这样的组件的任意数目或布置来支持媒 体通信。
网关40可以分别代表执行翻译功能以辅助LAN 80与PSTN 50和/或
因特网52之间的无缝通信的硬件和/或软件的任意合适的组合。这些功能 可以包括传输格式之间的翻译和通信程序之间的翻译。另外,网关40还
可以在音频和视频CODEC之间翻译并且在LAN侧和PSTN侧两者执行 呼叫建立和拆除。例如,网关40a可以将呼叫管理器30a与PSTN 50接 口。结果,当利用PSTN 50通过通信设备60g向通信设备60a发出呼叫 时,网关40a将与PSTN 50相关联的呼叫格式翻译到与呼叫管理器30a相 关联的呼叫格式,例如SIP或另一合适的基于分组的通信协议。
呼叫管理器30包括可用于建立通信系统10的主叫组件和被叫组件之 间的连接的硬件和/或软件的任意合适的组合,例如在通信设备60之间连 接呼叫或在特定的通信设备60和目录服务器20之间连接呼叫的连接。在 特定实施例中,呼叫管理器30包括语音IP (VoIP)服务器,该VoIP服 务器在分组电话网络内执行信令和会话管理功能。呼叫管理器30的信令 功能允许跨越网络边界运载呼叫信息。呼叫管理器30的会话管理功能提 供控制在通信系统10中跨越多个网络的端对端呼叫的属性的能力。例 如,在特定实施例中,呼叫管理器30可以支持SIP, SIP是一种用于IP系 统中的多媒体会议的标准。在这样的实施例中,呼叫管理器30可以包括 SIP代理服务器,该代理服务器处理呼叫处理、SIP请求和SIP响应。虽 然以下关于呼叫管理器30的描述是针对SIP展开的,但是应该理解,呼 叫管理器30也可以支持其他IP电话协议,例如H.323协议。在特定实施 例中,呼叫管理器30还可以为通信设备60和位于LAN 80中的其他设备 提供多种电话服务,包括(但不局限于)呼叫转发、电话会议、网络监视 和CODEC番S译。
LAN 80、 PSTN 50和因特网52利用任意适当的通信协议提供耦合到 它们的组件之间的连接。在特定实施例中,LAN 80分别代表连接特定实 体(例如公司或大学)的通信设备60的以太网的全部或一部分。此外, 在特定实施例中,PSTN 50代表公共交换电话网的全部或一部分。因特网 52提供LAN 80和/或直接耦合到因特网52的设备之间的基于分组的数据 通信。因特网52还可以包括公共交换电话网的全部或一部分。虽然图1 示出包括耦合通信系统10的特定组件的特定类型网络(具体而言,LAN 80、 PSTN 50和因特网52)的通信系统10的特定实施例,但是通信系统 IO可以包括任意适当类型和数目的以任意适当方式配置的网络。
语法服务器90生成、维护和/或传播供通信系统10的各个元件使用
的语法96。在本说明书以及所附权利要求中所使用的语法96可以包括将 所讲话语(utterance) 62与在操作中由相关组件使用的任意适当形式的信 息相关联的任意合适的信息,包括(但不局限于)姓名、命令和/或密 码。在特定实施例中,语法96将各种话语62与和这些话语62相关联的 姓名的文本表示相关联。在所示实施例中,语法服务器90在语法服务器 90的存储器94中维护着多个将被一个或多个目录服务器20所使用的语法 96。虽然以下描述集中于通信系统10的这样一个实施例,其中语法服务 器90负责将初始语法96提供到通信系统10的适当元件,从这些元件接 收信息以更新语法96,并生成用于传送到这些元件中的任意多个或全部 的修订语法96,但是,在特定实施例中,语法服务器90可能提供这些功 能中的任意多个或全部,和/或与语法96的生成、维护和传播相关的任意 其他附加功能。语法服务器90的特定实施例的内容下面将参考图3被更 详细地示出。
作为可以使用语法服务器90所生成和/或更新的语法96之一的特定 类型设备的一个示例,通信系统10的所示实施例包括多个目录服务器 20。目录服务器20基于用户70所讲的语音命令将关于电话号码和/或其 他适当形式的通信地址的信息提供给用户70。在特定实施例中,目录服 务器20可以代表生成、存储和播放针对用户70的语音邮件消息的语音邮 件服务器的全部或一部分。目录服务器20的特定实施例的内容参考图2 被更详细地示出。
每个目录服务器20在该目录服务器20的存储器24中存储与该目录 服务器20通信的用户70所使用的一个或多个语法96。如上所述,在通信 系统10工作期间,目录服务器20使用语法96来识别用户所讲的姓名、 命令和/或其它类型的单词。目录服务器20可以以任意适当的方式获得语 法96。在特定实施例中,每个目录服务器20维护着针对该目录服务器20 所选择和/或定制的一个或多个语法96,所述这一个或多个语法96是基于 母语、种族划分(ethnicity)、位置、职业类型和/或与该目录服务器20 相关联的用户70的任意其他合适的特性来选择和/或定制的。另外,在特
定实施例中,适当的语法96的初始版本可以在安装或设置期间被手工加
载到目录服务器20中。在替换实施例中,语法96的初始版本可以由语法 服务器90传输到目录服务器20。但是, 一般而言,目录服务器20可以以 任意适当的方式接收它们各自的一个或多个语法96的初始版本。目录服 务器20随后可以与语法服务器90交互以获得更新的语法96,从而提供增 强的语音命令特征的操作。
在操作中,目录服务器20向用户70提供与通信系统10的其他用户 70相关联的电话号码或其他通信地址。作为提供这些服务的一部分,目 录服务器20可以接受、识别和/或响应于用户70所讲的话语62。例如, 用户70可以说出话语62来指定用户70请求目录服务器20的操作(例如
"查找");识别对目录服务器20的其他用户(例如消息接收者);和/ 或向目录服务器20提供密码和其他认证信息。虽然以下描述集中在通信 系统10的这样一些实施例,其中目录服务器20接收其他用户70的姓名 作为话语62,但是,用户70可以向目录服务器20传输任意适当的信息, 作为话语62。另外,由目录服务器20提供的地址査找服务被描述为可以 受益于通信系统10的语法优化技术的语音识别操作的一个示例。然而, 通信系统10的特定实施例可以在支持任意适当任务的基于语音的控制时 利用所述技术,包括(但不局限于)寻址语音邮件消息、会议呼叫期间的 主叫识别和/或任意其他适当的语音识别操作。
作为在通信系统10的特定实施例中支持的语音命令操作的特定示 例,尝试与第二用户70 (这里假设是用户70b)发起通信的第一用户70
(这里假设是用户70a)可能通过与第一用户70所在的LAN 80相关联的 呼叫管理器30被连接到特定的目录服务器20。在用户与目录服务器20a 交互期间,目录服务器20a可以提示用户70a说出用户70b的姓名。用户 70a随后说出话语62,该话语62被用户70a正在用来与目录服务器20通 信的通信设备60 (这里假设是通信设备60a)所接收。通信设备60a生成 包括与用户70a所讲话语62相关联的音频数据的话语信息64,并将话语 信息64发送到目录服务器20。在特定实施例中,通信设备60a基于话语 62生成话语信息64,并将话语信息64在一个或多个语音IP (VoIP)分组
中发送到目录服务器20a。
目录服务器20a随后可以尝试通过将接收到的话语信息64与存储在 适当的语法96内的特定语法条目98中的音频信息匹配以确定所讲姓名, 然后识别针对该姓名的通信地址68,从而识别出接收者的电话号码、分 机(extension)和/或另一合适形式的通信地址68。在特定实施例中,目 录服务器20a可以通过计算语法96中的一个或多个语法条目98的置信度 量度(confidence measure)来识别用户70a所讲的姓名。该置信度量度代 表话语信息64与存储在相关语法条目98中的音频数据匹配的概率。 一般 而言,目录服务器20可以使用任意适当的技术来计算该置信度量度。
目录服务器20a随后选择具有最高置信度量度的语法条目98。在特定 实施例中,目录服务器20a随后可以以基于目录服务器20a和/或通信设备 60的配置和能力的任意适当的方式向用户70a呈现与所选语法条目98相 关联的姓名,从而使得用户70a可以确认目录服务器20a是否已经将接收 到的话语62成功地匹配到适当的姓名。例如,在特定实施例中,目录服 务器20a可以将所选姓名传输到通信设备60a,从而使得通信设备60a在 其显示屏上显示所选姓名。用户70a随后可以例如通过按下通信设备60a 上的指定按钮来确认匹配的成功或失败。可替换地,目录服务器20a可以 尝试将话语信息64匹配到一个语法条目98,然后独立地确定匹配的成功 或失败。例如,目录服务器20a自身可以基于针对所选语法条目98计算 出的置信度量度是否高于某个预定最小值来判断尝试的匹配是否成功。该 匹配过程以下将参考图2来更详细描述。
目录服务器20a随后可以识别与匹配的语法条目98相关联的通信地 址68,并将识别出的通信地址68传输到通信设备60a和/或使用识别出的 通信地址68来执行任意其他适当的动作。作为一个示例,目录服务器20a 可以向通信设备60a发送指定匹配的通信地址68的VoIP分组,结果,用 户70a可以被提供以标识出相关的通信地址68的音频信息。作为另一示 例,目录服务器20a可以在用户70a指示匹配成功的情况下将通信设备 60a自动连接到匹配的通信地址68。 一般而言,目录服务器20a可以使用 匹配的通信地址68来完成任意适当的动作。
此外,如果目录服务器20a在将话语信息64匹配到语法条目98的过 程中没有成功,目录服务器20a则可以执行任意合适的步骤来允许用户 70a与期望被叫方通信,而不管目录服务器识别适当通信地址68的过程已 经失败。例如,目录服务器20a可以提示用户70a使用与通信设备60a相 关联的键盘输入用户70b的姓名,提供多种主叫者可以选择的替换方案, 请求主叫者重复姓名,和/或采取任意适当的步骤来确定用户70a感兴趣 的姓名。
在确定尝试的匹配是否成功之后,目录服务器20a可以生成和/或更 新匹配数据26,该匹配数据26描述了目录服务器尝试将话语信息64匹配 到语法条目98的任意相关方面。作为一个示例,在特定实施例中,如果 目录服务器20a无法将话语信息64匹配到目录服务器20a所维护的任意 语法条目98,目录服务器20a则可以生成这样的匹配数据26,该匹配数 据26包括目录服务器20a无法匹配的话语信息64,如图1所示。这样的 统计方式可以识别出相关语法96无法成功匹配的特定话语62。作为另一 示例,目录服务器20a可以生成这样的匹配数据26,该匹配数据26指示 出目录服务器20a己经接收到被成功匹配到特定语法条目98的话语62的 次数与目录服务器20a已经接收到该目录服务器20a无法匹配到同一语法 条目98的话语62的次数(如用户70在不成功的匹配之后提供的输入所 指示的)。这样的统计方法可以指示没有被相关语法96的内容充分代表 的某些单词。但是, 一般而言,目录服务器20a可以生成具有任意合适形 式的匹配数据26,该匹配数据26提供关于语音邮件服务器尝试将话语62 匹配到适当的语法条目98的任意适当的信息。
另外,匹配数据26可以包括标识生成匹配数据26的目录服务器20 或以其他方式描述该目录服务器20的特性的信息。例如,匹配数据26可 以包括数据上下文信息28,该信息28描述了与匹配数据26相关联的目录 服务器20和/或用户70,如图1所示。数据上下文信息28可以指示与相 关目录服务器20和/或使用该目录服务器20的用户70相关联的位置、母 语、主要种族划分和/或任意其他合适的特性。
在生成匹配数据26之后,目录服务器20a将匹配数据26传输到语法
服务器90。在特定实施例中,目录服务器20a可以在生成匹配数据26时 将匹配数据26实时地传输到语法服务器90。在替换实施例中,目录服务 器20a可以在通信系统10的操作期间随时间汇聚匹配数据26并在适当的 时刻将匹配数据26传输到语法服务器90。此外,在特定实施例中,目录 服务器20a将匹配数据26以超文本传输协议(HTTP)响应的形式传输到 语法服务器90。但是, 一般而言,目录服务器20a可以收集匹配数据26 并将匹配数据26以任意适当的方式传输到语法服务器90。
语法服务器90从一个或多个目录服务器20接收匹配数据26。语法服 务器90随后可以以任意适当的方式比较、汇聚和/或以其他方式处理接收 到的匹配数据26,以生成指示对通信系统10中的目录服务器20所使用的 一个或多个语法96的潜在改进的信息。在特定实施例中,这样的处理可 以包括人类干预,例如识别潜在趋势或基于识别出的趋势确定将作出的适 当修改。在替换实施例中,该处理可以是完全自动的。
作为来自多个目录服务器20的匹配数据26的汇聚、匹配数据26随 时间的汇聚、来自处理类似特性的目录服务器20的匹配数据26的关联和 /或对匹配数据26的任意其他适当的处理的结果,语法服务器90和/或语 法服务器90的操作者可能能够识别出如下经常发生的情形目录服务器 20未能将话语62匹配到语法%中的适当的语法条目98。基于该信息, 语法服务器90随后可以生成附加语法条目98,并将这些新的语法条目98 添加到现有的语法96或生成包括这些新语法条目98的新语法96。这些新 语法条目98可以包括想要将经常接收的话语62以期望提高目录服务器20 将话语62成功匹配语法条目98的能力的方式匹配到适当的单词的音频信 息。语法服务器90随后可以将新的语法条目98添加到由语法服务器90 维护的语法96。
作为结果,语法服务器90可以适应语法96以改善对难以发音的姓名 的识别。例如,语法服务器90可以基于匹配数据26确定用户70频繁错 误地将姓名"Rzegocki"发音为"ar画ze-gaw-key"。因此,语法服务器90 可以生成一个或多个语法条目98,它们将来自话语"ar-ze-gaw-key"的音 频数据与姓名"Rzegocki"相关联。作为结果,相关的语法96随后可以
包括将正确发音映射到"Rzegocki"的语法条目98和将错误发音也映射 到"Rzegocki"的语法条目98两者。
作为另一示例,在特定实施例中,可以基于匹配数据26识别昵称 (nickname)或目录服务器20频繁无法匹配到正确姓名的特定姓名的縮 略(abbreviation)版本。作为结果,匹配数据26可能能够突出语法96中 可能漏掉的公知昵称或縮略。例如,语法服务器90可能能够基于匹配数 据26确定一个或多个语法96不包括将针对话语"Bill"的音频信息与姓 名"William"相关联的任意语法条目98。响应于这一点的确定,语法服 务器90可以生成一个或多个语法条目98,这些语法条目98将针对话语 "Bill"的音频数据与包括"William"的姓名相关联。此外,在通信系统 10的特定实施例中,除了突出公知的没有出现在语法96中的縮略和昵称 之外,匹配数据26还可以教导操作者在对该操作者而言是外语的语言中 利用的縮略和昵称或者在特定于区域的方言中使用的縮略和昵称。例如, 通过汇聚和回顾来自服务于大量拉丁美洲种族用户的目录服务器20的匹 配数据26,操作者或目录服务器20本身可能能够确定"Nacho"是 "Ignacio"的昵称。作为结果,目录服务器20可以生成将针对"Nacho" 的发音的音频数据与包括"Ignacio"的姓名相关联的语法条目98。
作为又一示例,在通信系统10的特定实施例中,目录服务器20可以 维护针对一个或多个母语/所讲语言对的语法。例如,语法服务器90可以 维护针对法国公司的日本部门定制的语法。语法服务器90可以利用这样 的语法96识别出与说话者相关联的匹配数据26,并且可以汇聚所有这样 的匹配数据26。基于该匹配数据26,语法服务器90可以识别出在日语为 母语的说话者之中常见的法语姓名(或其它类型的法语单词)的错误发 音。语法服务器90随后可以生成将该错误发音与被错误发音的姓名相关 联的语法条目98。
如上所述,语法服务器90可以将新生成的语法条目98添加到已经存 储在存储器94中的语法96和/或可以生成包括新语法条目98的新语法 96。在特定实施例中,语法服务器90维护多个语法96,其中每个语法96 想要用在通信系统10内的一个或多个目录服务器20中。语法服务器90
可以基于与将要使用这些语法96的目录服务器20相关联的用户70的特 性,将新的语法条目98添加到一个或多个特定语法96。同样如上所述, 在特定实施例中,匹配数据26可以包括数据上下文信息28,该数据上下 文信息28描述与匹配数据26相关联的目录服务器20和/或用户70。数据 上下文信息28可以指示与相关目录服务器20和/或使用该目录服务器20 的用户70相关联的位置、母语、主要种族划分和/或任意其他合适的特 性。作为结果,语法服务器90可以基于包括在匹配数据26中的数据上下 文信息28来确定语法服务器90会将新创建的语法条目98添加到的一个 或多个适当的语法96。
例如,返回上述示例,定制的语法96可以是针对服务于法国公司的 日本部门的目录服务器20的使用而设计的。作为与这些各个目录服务器 20相关联的用户70的说话方式和所讲单词之间的预期相似性的结果,基 于从由类似公司操作的目录服务器20接收到的匹配数据26而生成的新的 语法条目98可以被添加到该定制的语法96。因此,语法服务器90可以基 于针对工作在类似环境中的目录服务器20接收的匹配数据26来优化该定 制的语法96,以用于尝试发音法语姓名的日语母语说话者和/或尝试发音 曰本姓名的法语母语说话者。
语法服务器90随后可以将新的或修改后的语法96发送到一个或多个 目录服务器20。在特定实施例中,语法服务器90可以基于任意适当的标 准、考虑和/或因素来选择一个或多个目录服务器20来发送新的或修改后 的语法96。在特定实施例中,在从第一目录服务器20接收到匹配数据26 之后,语法服务器90可以基于第一目录服务器20和所选目录服务器20 之间的相似性来选择一个或多个目录服务器20来发送修改后的语法96。 此外,在特定实施例中,语法服务器90可以基于包括在相关匹配数据26 中的数据上下文信息28来选择接收这些语法96的目录服务器20。
作为一个示例,语法服务器90可以从位于特定地理区域(例如美国 南部的州)内的第一目录服务器20接收匹配数据26。作为响应,语法服 务器90可以识别一般与位于该同一地理区域中的目录服务器20相关联的 语法96。在基于接收到的匹配数据26生成修改后的语法96之后,语法服
务器90可以将修改后的语法96发送到位于该同一地理区域中的其他目录
服务器20。
作为另一示例,语法服务器90可以从与一种或多种语言相关联的第 一目录服务器20接收匹配数据26,并且作为响应,可以识别出与这些相 同语言相关联的语法96。语法服务器90随后可以生成修改后的语法96并 将修改后的语法96发送到与正讨论的相同的一种或多种语言相关联的一 个或多个目录服务器20。再次返回更早的示例,语法服务器90可以从服 务于法国公司的日本部门的第一目录服务器20接收匹配数据26。在基于 接收到的匹配数据26生成修改后的语法96之后,语法服务器90可以将 修改后的语法96发送到服务于讲法语的用户70、讲日语的用户70、希望 发音日语姓名或单词的讲法语的用户70和/或希望发音法语姓名或单词的 日语用户的其他目录服务器20。
一般而言,语法服务器90可以基于任意适当的标准、考虑和/或因素 来选择适当的目录服务器20来发送修改后的或新的语法96。随后,语法 服务器90可以识别出将对各个目录服务器20所利用的语法96作出的修 改和/或添加。作为结果,语法服务器90可以基于相关目录服务器20服 务的用户70和/或LAN 80的特性来调整对由特定目录服务器20存储的语 法96的添加或修改。作为结果,语法服务器90可以使用匹配数据26来 基于每个目录服务器20期望接收的话语62来优化该目录服务器20所维 护的语法96。
因此,概括地讲,在通信系统IO的特定实施例中,语法服务器90可 以利用匹配数据26来识别用户70所讲的目录服务器20可能难以匹配到 适当的语法条目98的话语62。语法服务器90随后可以修改一个或多个语 法96来提高使用修改后的语法%的目录服务器20将正确地匹配相关话 语62的可能性。作为结果,通信系统IO的特定实施例可以优化目录服务 器20所使用的语法96和/或提供其他操作优点。然而,通信系统10的特 定实施例可以提供所述优点中的某些或全部或不提供任何所述优点。
图2示出目录服务器20的特定实施例的内容。如图2所示,目录服 务器20包括处理器210、存储器220和网络接口 230。如上所述,目录服
务器20从通信系统10的通信设备60接收话语信息64,并尝试将接收到 的话语信息64匹配到由目录服务器20存储的语法96中的语法条目98。 目录服务器20随后向相关的通信设备60传输与在目录260中的匹配的语 法条目98相关联的通信地址68。另外,目录服务器20可以与语法服务器 90交互以优化目录服务器20所存储的语法96。虽然图2示出可以在通信 系统10的特定实施例中与语法服务器90结合使用的语音识别设备的一个 特定示例,但是由语法服务器90支持的语法优化技术可被用来优化任意 适当类型的语音识别行为的语法。
处理器210可用于执行与目录服务器20提供的服务相关联的指令。 处理器210可以代表能够处理和/或传输电子信息的任意合适的设备。处 理器210的示例包括(但不局限于)专用集成电路(ASIC)、现场可编 程门阵列(FPGA)、数字信号处理器(DSP)和任意其他合适的特定或 通用处理器。
存储器220存储处理器指令、语法96、目录260、匹配数据26和/或 目录服务器20在操作中使用的任意其他适当的信息。存储器220可以代 表适合于存储数据的易失性或非易失性、本地或远程设备的任意集合和布 置。存储器240可以代表或包括随机访问存储器(RAM)设备、只读存 储器(ROM)设备、磁存储设备、光存储设备或任意其他合适的数据存 储组件。
网络接口 230包括可用于辅助目录服务器20和语法服务器90、呼叫 管理器30、通信设备60和/或通信系统10的其他组件之间的通信的接 口。网络接口 230可以包括适合于辅助目录服务器20和通信系统10的其
他组件之间的交互的硬件和/或软件的任意适当的组合。在特定实施例 中,网络接口 230可以包括网络接口卡(NIC)和任意适当的控制逻辑, 这种控制逻辑适合于利用以太网或令牌环协议来支持目录服务器20和相 关联的LAN80之间的通信。
语法96包括多个语法条目98。每个语法条目将存储的一组特定的音 频数据112与一个单词标识符114相关联。单词标识符114代表目录服务 器20对其支持语音识别的姓名、命令、参数和/或任意其他适当的值。单
词标识符114可以包括目录服务器20可用的任意适当形式的信息。在特
定实施例中,单词标识符114包括通信系统10的各个用户70的姓名的文 本表示。存储的音频数据112可以代表任意适当形式的音频数据,其描述 了与相关的单词标识符114相关联的话语62。取决于通信系统10的配 置,包括在每个语法条目98中的存储的音频数据112可以代表与相关的 单词标识符114所标识的单词的标准发音、相关单词的错误发音、该单词 的縮略的发音、相关单词(例如昵称)的发音和/或目录服务器20被配置 为映射到该相关单词标识符114的任意其他适当的话语相关联的音频信 息。
目录260包括多个目录条目262。每个目录条目262将特定的单词标 识符114与通信地址68相关联。通信地址68可以代表全电话号码、分 机、电子邮件地址和/或任意其他适当形式的通信地址。虽然图2出于简 化目的示出了目录260的一个实施例,其中每个目录条目262包括单个代 表特定用户70的姓的单词标识符114,但是目录条目262可以分别包括多 个单词标识符114,这些单词标识符114被以任意适当的方式级联或组合 以形成相关用户的全名的文本表示。
在操作中,目录服务器20向操作通信设备60的用户70提供目录服 务。作为提供该目录服务的一部分,目录服务器20接收与用户70所讲话 语62相关联的音频数据。更具体而言,目录服务器20从通信设备60接 收话语信息64。在特定实施例中,目录服务器20利用因特网协议(IP) 来与通信设备60通信,并且话语信息64可以包括一个或多个语音IP (VoIP)分组的多个部分。但是, 一般而言,目录服务器20和通信设备 60可以利用任意适当的协议通信,并且话语信息64可以代表以任意合适 的方式构建的音频数据。
在接收到话语信息64之后,目录服务器20尝试将话语信息64与存 储的音频数据112匹配,音频数据112包括在存储在存储器220中的语法 96内的一个或多个语法条目98中。出于该说明书和所附权利要求的目 的,目录服务器20可以通过执行任意适当的动作、操作和/或计算来识别 与接收到的话语信息64相对应的语法条目,从而尝试将话语信息64匹配到存储的音频数据112。在特定实施例中,话语信息64和存储的音频数
据112包括指定针对相关音频信号中的各个频率分量的幅度的数据。目录 服务器20可以将话语信息64中的一个或多个频率分量的幅度与一个或多 个语法条目98的存储的音频数据112中的相同频率分量的幅度相比较。 目录服务器20随后可以基于该比较结果计算每个语法条目98的置信度量 度264。如上所述,置信度量度264代表话语信息64匹配相关语法条目 98的可能性。
目录服务器20随后可以至少部分基于针对特定语法条目98计算出的 置信度量度264来选择该语法条目98。在特定实施例中,目录服务器20 仅仅基于置信度量度264来选择语法条目98,因此,选择具有最高置信 度量度264的语法条目98。在所示示例中,目录服务器20基于语法条目 98c与最高置信度量度264相关联这一事实来选择语法条目98c。
但是,目录服务器20可以考虑任意其他适当的因素。例如,在特定 实施例中,目录服务器20可以维护关于特定用户利用其来呼叫其他用户 的频率的数据。在这样的实施例中,目录服务器20可以在选择语法条目 98时额外考虑该频率使用(frequency-of-use)数据,从而在选择中赋予频 率使用数据任意适当的权重。作为结果,在这样的实施例中,在某些情况 下,基于第一语法条目98与用户70频繁呼叫的另一方的姓名相关联这一 事实,可以选择第一语法条目98,而不是具有更高置信度量度的第二语 法条目98。
另外,在特定实施例中,目录服务器20可以维护多个语法96。作为 结果,目录服务器20可以在尝试匹配之前选择适当的语法96来匹配话语 信息64。例如,目录服务器20可以基于用户70的简介(profile)来确定 用户70是母语为西班牙语的说话者,并且可以基于这一事实来选择特定 语法。 一般而言,目录服务器20可以基于任意适当的标准、考虑和/或因 素来选择适当的语法96。
在特定实施例中,用户70随后可以向目录服务器20指示目录服务器 20是否成功地将话语信息64匹配到适当的语法条目。例如,目录服务器 20可以将来自所选语法条目98的单词标识符114发送到相关的通信设备
60。通信设备60随后可以将所选单词标识符114显示在通信设备60的显 示屏上。用户70随后可以例如通过按下通信设备60的适当按钮来指示目 录服务器20是否已经成功地将话语信息64匹配到适当的语法条目98。
如果用户70指示目录服务器20成功地将话语信息64匹配到适当的 语法条目98,目录服务器20则前进以查找与包括在所选语法条目98中的 单词标识符114相关联的通信地址68。在所示实施例中,目录服务器20 通过将相关单词标识符114匹配到目录260内的特定目录条目262中的单 词标识符114来执行该查找。因此,在所示示例中,所选单词标识符114 匹配目录条目262c。
在识别出匹配的目录条目262之后,目录服务器20可以向相关的通 信设备60传输包括在匹配的目录条目262中的通信地址68,如图2所 示。通信设备60随后可以将该通信地址68显示给用户70,或者可以基于 匹配的通信地址68发起与另一通信设备60的通信。可替换地,目录服务 器20自身可以发起主叫通信设备60和另一与匹配的通信地址68相关联 的通信设备60之间的通信,和/或基于匹配的通信地址68采取任意其他 适当的动作。
如果用户70指示目录服务器20没有成功地将话语信息64匹配到适 当的语法条目98,目录服务器20则可以采取任意合适的步骤来识别适当 的通信地址68以提供给用户70。例如,目录服务器20可以向相关的通信 设备60传输与具有次高置信度量度264的语法条目98相关联的单词标识 符114。通信设备60可以将该单词标识符114显示给用户70,并提示用 户70指示该第二单词标识符114是否是针对用户70所讲话语62的适当 匹配。目录服务器20可以重复该过程,直到用户70指示目录服务器20 已经选择了适当的语法条目98为止。目录服务器20随后可以尝试将适当 的单词标识符114匹配到目录条目262,如上所述。可替换地,目录服务 器20可以响应于用户70指示目录服务器20未能将话语信息64匹配到适 当的语法条目98而中止匹配过程,而不为用户70识别任何通信地址68。
此外,在将话语信息64匹配或尝试匹配到适当的语法条目98之后, 目录服务器20可以生成匹配数据26,其以任意适当的方式描述了目录服
务器将话语信息64匹配到适当的语法条目98的尝试。作为一个示例,目 录服务器20可以针对每次不成功的尝试(将话语信息64匹配到适当的语 法条目98的尝试)生成匹配数据26,并且可以包括话语信息64和基于用 户70的随后输入的被确定为针对该话语信息64的适当匹配的单词标识符 114。作为另一示例,目录服务器20可以针对所有尝试(成功的和不成功 的)生成匹配数据26,并且在匹配数据26中包括所选语法条目98的单词 标识符和关于单词标识符114是否被正确选择的指示。但是, 一般而言, 匹配数据26可以包括描述目录服务器尝试将接收到的话语信息64匹配到 适当的语法条目98的任意适当的信息,包括(但不局限于)话语信息 64;在尝试匹配话语信息64时正确和/或不正确地选择的单词标识符 114;数据上下文信息28,其描述与相关的用户70、目录服务器20或 LAN80相关联的母语、种族划分、位置和/或其他合适的特性,和/或可被 用于优化语法96的内容的任意其他适当的信息。
目录服务器20随后可以通过网络接口 230将匹配数据26发送到语法 服务器90。目录服务器20可以利用任意合适的通信技术以任意适当的形 式将匹配数据26发送到语法服务器90。例如,目录服务器20可以将匹配 数据26作为HTTP响应(例如响应于语法服务器90发送的HTTP请求) 或简单邮件传输协议(SMTP)消息发送到语法服务器90。语法服务器对 发送的匹配数据26的使用随后将参考图3来描述。在特定实施例中,目 录服务器20可以将匹配数据26存储在存储器220中,以用于随后的使 用、检索和/或传输。
图3示出语法服务器90的特定实施例。如图所示,语法服务器90包 括处理器310、存储器320和网络接口 330。如上所述,语法服务器90为 目录服务器20或提供语音识别能力的通信系统10的其他组件提供和/或 更新语法96。在特定实施例中,语法服务器90可以包括用户接口组件 (图3中未示出)以允许操作者手工控制匹配数据26的处理部分和/或语 法条目98的创建。作为结果,在语法服务器90的操作中的任意或所有所 述步骤可以由人类操作者或通信系统10的另一组件来发起、控制和/或终 止。
处理器310可用于执行与目录服务器20提供的服务相关联的指令。 处理器310可以代表能够处理和/或传输电子信息的任意合适的设备。处
理器310的示例包括(但不局限于)专用集成电路(ASIC)、现场可编 程门阵列(FPGA)、数字信号处理器(DSP)和任意其他合适的特定或 通用处理器。
存储器320存储处理器指令、语法96、匹配数据26和/或目录服务器 20在操作中使用的任意其他适当的信息。存储器320可以代表适合于存储 数据的易失性或非易失性、本地或远程设备的任意集合和布置。存储器 340可以代表或包括随机访问存储器(RAM)设备、只读存储器 (ROM)设备、磁存储设备、光存储设备或任意其他合适的数据存储组 件。
网络接口 330包括可用于辅助语法服务器90和目录服务器20、呼叫 管理器30、通信设备60和/或通信系统10的其他组件之间的通信的接 口 。网络接口 330可以包括适合于辅助语法服务器90和通信系统10的其 他元件之间的交互的硬件和/或软件的任意适当的组合。在特定实施例 中,网络接口 330可以包括网络接口卡(NIC)和任意适当的控制逻辑, 这种控制逻辑适合于利用以太网或令牌环协议来支持语法服务器90和相 关联的LAN80之间的通信。
在操作中,语法服务器90向目录服务器20和/或提供语音识别服务 的通信系统10的其他组件提供语法96。在特定实施例中,语法服务器90 可以向每个目录服务器20发送初始语法96。在替换实施例中,初始语法 96可以例如通过在目录服务器20的初始安装期间从致密盘加载一个或多 个语法96而本地提供,并且语法服务器90可以将更新的、修改的和/或 新的语法96提供到目录服务器20。
在接收到初始语法96之后,目录服务器20开始操作并从通信设备60 接收话语信息64,如上所述。目录服务器20尝试将接收到的话语信息64 匹配到它们各自的初始语法96中的语法条目98。另外,目录服务器20以 某种适当的方式基于这种将话语信息64匹配到语法条目98的尝试来生成 匹配数据26。目录服务器20随后将匹配数据26发送到语法服务器90。
语法服务器90通过网络接口 330从一个或多个目录服务器20接收一 组或多组匹配数据26。语法服务器90可以以任意合适的方式汇聚、比较 和/或以其他方式处理匹配数据26,以根据语法服务器90、目录服务器20 和通信系统10的整体的配置和能力来确定对现有语法96作出的适当改变 和/或确定将由语法服务器90生成的新语法96的内容。
语法服务器90随后可以基于处理后的匹配数据26来生成一个或多个 新的语法条目98 (在图3中示为"新语法条目"398a、 398b和398c)。 在各个实施例中,语法服务器90可以以任意适当的方式来利用匹配数据 26判断是否生成新的语法条目98以及这些新的语法条目98应该具有什么 内容。此外,语法服务器90可以在生成附加语法条目98之后选择一个或 多个将添加附加语法条目98的现有语法96和/或选择将包括在将包含这 些附加语法条目98的新语法96中的其他语法条目98。在特定实施例中, 语法服务器90可以与匹配数据26 —起接收数据上下文信息28,并且可以 基于与匹配数据26 —起接收的数据上下文信息28来执行任一判断。
作为一个示例,在通信系统IO的特定实施例中,语法服务器90可以 从一个或多个目录服务器20接收多组匹配数据26,并且可以汇聚该匹配 数据26,如图3中的"汇聚的匹配数据326a"所示。基于汇聚的匹配数 据326a,语法服务器90可以识别出对所有用户70和/或目录服务器20或 其特定子集而言常见的错误发音。语法服务器90随后可以生成新的语法 条目98,该新的语法条目98将存储的针对该常见错误发音的音频数据 112与希望得到的姓名的单词标识符114相关联。结果,语法服务器90可 以适应语法96以改善难以发音的姓名的识别。例如,语法服务器90可以 基于汇聚的匹配数据326a确定用户70频繁将姓名"Rzegocki"错误发音 成"ar-ze-gaw-key"。因此,语法服务器90可以生成被示为"新语法条 目398a"的语法条目98,其将存储的针对话语"ar-ze-gaw-key"的音频 数据112与针对"Rzegocki"的单词标识符114相关联。语法服务器90随 后可以识别出一个或多个适当的语法96,并将新语法条目398a添加到识 别出的一个或多个语法96。例如,语法服务器90可以判决将新语法条目 398a添加到语法服务器90存储的所有语法96,添加到当前具有包含
"Rzegocki"的正确发音的语法条目98的所有语法96,或添加到由语法 服务器90维护的语法96的任意其他适当的子集。
作为另一示例,在特定实施例中,语法服务器90可以基于匹配数据 26识别出与特定姓名相关联的昵称或目录服务器20频繁无法匹配到正确 姓名的特定姓名的縮略版本。结果,匹配数据26可能能够突出语法96中 可能漏掉的公知昵称或縮略。例如,语法服务器90可能能够基于匹配数 据26确定一个或多个语法96 (例如语法96b)不包括将存储的针对 "Bill"的音频数据112与针对"Wmiam"的单词标识符114相关联的任 意语法条目98。响应于这一点的确定,语法服务器90可以生成一个或多 个新的语法条目98 (图3中被示为新语法条目398b),它们将存储的针 对话语"Bill"的音频数据112与针对"William"的单词标识符114相关 联。语法服务器90随后可以识别出适当的语法96并将新语法条目398b 添加到识别出的语法96 (在此情况下是语法96b)。
作为又一示例,在通信系统IO的特定实施例中,目录服务器20可以 维护针对一个或多个母语/所讲语言对的语法,例如上述针对尝试发音法 语姓名的日语母语说话者的示例语法,在图3中被示为语法96c。语法服 务器90可以基于语法服务器90接收的各组匹配数据26中的数据上下文 信息28来识别与这样的说话者相关联的匹配数据26,并且可以汇聚所有 这样的匹配数据26,如图3中的汇聚的匹配数据326c所示。基于汇聚的 匹配数据326c,语法服务器90可以识别出在日语母语说话者中常见的法 语姓名(或其它类型法语单词)的错误发音。语法服务器90随后可以生 成语法条目98 (在图3中由新语法条目398c示出),其将该错误发音与 针对被错误发音的姓名的单词标识符114相关联。另外,语法服务器90 随后可以将新语法条目398c添加到语法96c。
在将任意新语法条目398添加到适当的语法96和/或生成包括新的语 法条目98的任意新语法96之后,语法服务器90可以识别一个或多个目 录服务器20来接收新的或修改后的一个或多个语法96。语法服务器90可 以基于这些目录服务器20当前存储的语法96、语言位置和/或与这些目录 服务器20相关联的说话者和/或相关的目录服务器20的任意其他适当的
特性来识别适当的目录服务器20来接收新的或修改后的语法96。例如,
在特定实施例中,语法服务器90维护服务器表440,其中,语法服务器 90维护关于语法服务器90用来识别发送特定语法96的适当目录服务器 20的目录服务器20的信息。此外,在这样的实施例中,语法服务器90还 可以使用服务器表440作为与匹配数据26 —起接收的数据上下文信息28 的补充或替代。
在识别出适当的目录服务器20之后,语法服务器90将新的或修改后 的语法96发送到识别出的目录服务器20。语法服务器90可以利用任意合 适的技术以任意适当的格式将相关语法96发送到识别出的目录服务器 20。例如,在特定实施例中,语法服务器90可以将相关语法96作为 HTTP请求的一部分或作为SMTP邮件消息发送到目录服务器20。可替换 地,语法服务器90可以不发送完整的新的或修改后的语法96,而仅仅发 送新的语法条目98和/或新的或修改后的语法96的任意适当部分。如上 所述,识别出的目录服务器20随后可以存储接收的语法96和语法条目 98,并利用它们开始匹配这些目录服务器20接收到的话语信息64。
作为结果,在特定实施例中,语法服务器90可能能够收集来自若干 目录服务器20或通信系统10中支持语音识别服务的其他设备的匹配数据 26,并优化这些设备所利用的语法96。具体而言,语法服务器90可能能 够利用特定语法96来识别目录服务器20中经常发生的错误发音。另外, 语法服务器90可能能够识别与在特定语法96中列出的特定姓名相关联的 流行昵称或縮略,并将存储的与这些昵称或縮略相关联的音频数据112添 加到适当的语法96。 一般而言,语法服务器90还可能能够基于用户70、 位置、使用和/或相关目录服务器20的其他特性来针对目录服务器20开 发专门的语法96。因此,通信系统IO可以提供若干优点。通信系统10的 各个实施例可以展现这些优点中的某些或所有或不展现这些优点。
图4是示出根据特定实施例的语法服务器90的示例操作的流程图。 具体而言,图4示出在基于接收自多个目录服务器20的匹配数据26修改 语法96时语法服务器90的操作。虽然图4示出以特定顺序执行特定步骤 的语法服务器90的实施例的操作,但是替换实施例可以省略这些步骤中
的任意步骤或包括任意适当的附加步骤,并且可以以任意适当的顺序来执 行所示步骤。
操作开始于步骤400,其中语法服务器90从多个目录服务器20接收
多组匹配数据26。在特定实施例中,每组匹配数据26包括相关目录服务 器20没有成功匹配的话语信息64、正在说话的用户70指示用户70希望 查找的姓名的单词标识符114,以及描述了发送该组匹配数据26的目录 服务器20的数据上下文信息28。在步骤410处,语法服务器90基于与汇 聚的多组匹配数据26相关联的数据上下文信息28来汇聚两组或更多组匹 配数据26。
在步骤420处,语法服务器90基于接收到的匹配数据26生成新的语 法条目98。语法服务器90随后在步骤430处基于数据上下文信息28识别 出将添加新的语法条目的一个或多个语法96。在步骤440处,语法服务 器90将新的语法条目98添加到识别出的语法96。
语法服务器90随后在步骤450处识别修改后的语法96将发送到的一 个或多个目录服务器20。在步骤460处,将修改后的语法96发送到识别 出的目录服务器20。在特定实施例中,语法服务器90的操作随后可以结 束。
虽然己经参考若干实施例描述了本发明,但是可以向本领域技术人员 建议多种改变、变化、替代、变形和修改,并且希望本发明包含落在所附 权利要求的范围内的这样的改变、变化、替代、变形和修改。
权利要求
1.一种用于分发语音识别语法的方法,包括从第一远程元件接收匹配数据,所述匹配数据包括与所述远程元件将接收到的音频信息匹配到第一存储音频数据的尝试相关联的信息;基于所述匹配数据生成语法条目,其中所述语法条目包括第二存储音频数据和与所述第二存储音频数据相关联的单词标识符;以及将所述语法条目发送到第二远程元件。
2. 如权利要求1所述的方法,其中所述第一远程元件和所述第二远程 元件包括不同的远程元件。
3. 如权利要求1所述的方法,其中所述单词标识符标识一个或多个单 词,并且其中所述第二存储音频数据包含与一个或多个标识的单词的错误 发音相关联的音频数据。
4. 如权利要求1所述的方法,其中所述单词标识符标识一个或多个单 词,并且其中所述第二存储音频数据包含与一个或多个标识的单词的縮略 相关联的音频数据。
5. 如权利要求1所述的方法,其中所述单词标识符标识一个或多个姓 名,并且其中所述第二存储音频数据包含与一个或多个标识的姓名的昵称 相关联的音频数据。
6. 如权利要求1所述的方法,其中将所述语法条目发送到所述第二远 程元件的步骤包括从多个远程元件中识别一个远程元件;以及 将所述语法条目发送到识别出的远程元件。
7. 如权利要求6所述的方法,其中所述匹配数据指示与所述第一远程 元件相关联的语言,并且其中从多个远程元件中识别一个远程元件的步骤 包括基于与识别出的所述远程元件相关联的语言来识别所述远程元件。
8. 如权利要求6所述的方法,其中所述匹配数据指示与所述第一远程 元件相关联的位置,并且其中从多个远程元件中识别一个远程元件的步骤 包括基于与识别出的所述远程元件相关联的位置来识别所述远程元件。
9. 如权利要求1所述的方法,其中从第一远程元件接收匹配数据的步 骤包括从多个远程元件接收匹配数据;以及汇聚从两个或更多个远程元件接收的所述匹配数据,并且其中生成所 述语法条目的步骤包括基于汇聚的匹配数据来生成所述语法条目。
10. 如权利要求9所述的方法,其中汇聚所述匹配数据的步骤包括 从所述多个远程元件中选择两个或更多个远程元件;以及汇聚从所选远程元件接收的所述匹配数据。
11. 如权利要求1所述的方法,其中从第一远程元件接收匹配数据的步骤包括从所述第一远程元件接收第一组匹配数据; 从所述第一远程元件接收第二组匹配数据;以及 汇聚所述第一组匹配数据和所述第二组匹配数据;并且 其中生成所述语法条目的步骤包括基于汇聚的匹配数据来生成所述语 法条目。
12. 如权利要求1所述的方法,还包括在所述第一远程元件处接收与用户所讲话语相关联的音频信息; 将接收到的所述音频信息与一个或多个语法条目相比较; 基于所述接收到的音频信息和所述第一存储音频数据的比较结果而生 成所述匹配数据;以及将所述匹配数据发送到语法服务器。
13. —种用于分发语音识别语法的设备,包括 可用于存储处理器指令的存储器;以及 处理器,其可用于从第一远程元件接收匹配数据,所述匹配数据包括与所述远程元 件将接收到的音频信息匹配到第一存储音频数据的尝试相关联的信 息;基于所述匹配数据生成语法条目,其中所述语法条目包括第二存 储音频数据和与所述第二存储音频数据相关联的单词标识符;以及 将所述语法条目发送到第二远程元件。
14. 如权利要求13所述的设备,其中所述第一远程元件和所述第二远 程元件包括不同的远程元件。
15. 如权利要求13所述的设备,其中所述单词标识符标识一个或多个 单词,并且其中所述第二存储音频数据包含与一个或多个标识的单词的错 误发音相关联的音频数据。
16. 如权利要求13所述的设备,其中所述单词标识符标识一个或多个 单词,并且其中所述第二存储音频数据包含与一个或多个标识的单词的縮 略相关联的音频数据。
17. 如权利要求13所述的设备,其中所述单词标识符标识一个或多个 姓名,并且其中所述第二存储音频数据包含与一个或多个标识的姓名的昵 称相关联的音频数据。
18. 如权利要求13所述的设备,其中所述处理器可用于通过以下步骤 来将所述语法条目发送到所述第二远程元件从多个远程元件中识别一个远程元件;以及 将所述语法条目发送到识别出的远程元件。
19. 如权利要求18所述的设备,其中所述匹配数据指示与所述第一远 程元件相关联的语言,并且其中所述处理器可用于通过以下步骤来从多个 远程元件中识别所述远程元件基于与识别出的所述远程元件相关联的语 言来识别所述远程元件。
20. 如权利要求18所述的设备,其中所述匹配数据指示与所述第一远 程元件相关联的位置,并且其中所述处理器可用于通过以下步骤来从多个 远程元件中识别所述远程元件基于与识别出的所述远程元件相关联的位 置来识别所述远程元件。
21. 如权利要求13所述的设备,其中所述处理器可用于通过以下步骤来从所述第一远程元件接收匹配数据从多个远程元件接收匹配数据;以及汇聚从两个或更多个远程元件接收的所述匹配数据,并且其中所述处 理器可用于基于汇聚的匹配数据来生成所述语法条目。
22. 如权利要求21所述的设备,其中所述处理器可用于通过以下步骤来汇聚所述匹配数据从所述多个远程元件中选择两个或更多个远程元件;以及汇聚从所述两个或更多个远程元件接收的所述匹配数据。
23. 如权利要求13所述的设备,其中所述处理器可用于通过以下步骤 来从第一远程元件接收匹配数据从所述第一远程元件接收第一组匹配数据; 从所述第一远程元件接收第二组匹配数据;以及 汇聚所述第一组匹配数据和所述第二组匹配数据;并且 其中所述处理器可用于基于汇聚的匹配数据来生成所述语法条目。
24. 如权利要求13所述的设备,其中所述处理器还可用于 在所述第一远程元件处接收与用户所讲话语相关联的音频信息; 将接收到的所述音频信息与一个或多个语法条目相比较; 基于所述接收到的音频信息和所述第一存储音频数据的比较结果而生成所述匹配数据;以及将所述匹配数据发送到语法服务器。
25. —种用于分发语音识别语法的系统,包括 第一元件,可用于接收与话语相关联的音频数据;尝试将接收到的所述音频信息与存储的音频数据匹配; 基于将接收到的所述音频信息与存储的所述音频数据匹配的尝试 来生成匹配信息;以及将所述匹配信息发送到服务器; 服务器,可用于从所述第一元件接收所述匹配数据;基于所述匹配数据生成语法条目,其中所述语法条目包括第二存 储音频数据和与所述第二存储音频数据相关联的单词标识符;以及将所述语法条目发送到远程元件;以及 所述第二元件,可用于从所述服务器接收所述语法条目。
26. 如权利要求25所述的系统,其中所述单词标识符标识一个或多个 单词,并且其中所述第二存储音频数据包含与一个或多个标识的单词的错 误发音相关联的音频数据。
27. 如权利要求25所述的系统,其中所述单词标识符标识一个或多个 单词,并且其中所述第二存储音频数据包含与一个或多个标识的单词的縮 略相关联的音频数据。
28. 如权利要求25所述的系统,其中所述单词标识符标识一个或多个 姓名,并且其中所述第二存储音频数据包含与一个或多个标识的姓名的昵 称相关联的音频数据。
29. 如权利要求25所述的系统,其中所述服务器可用于通过以下步骤 来将所述语法条目发送到所述第二远程元件从多个远程元件中识别一个远程元件;以及 将所述语法条目发送到识别出的远程元件。
30. 如权利要求29所述的系统,其中所述匹配数据指示与所述第一远 程元件相关联的语言,并且其中所述服务器可用于通过以下步骤来从多个 远程元件中识别所述远程元件基于与识别出的所述远程元件相关联的语 言来识别所述远程元件。
31. 如权利要求29所述的系统,其中所述匹配数据指示与所述第一远 程元件相关联的位置,并且其中所述服务器可用于通过以下步骤来从多个 远程元件中识别所述远程元件基于与识别出的所述远程元件相关联的位 置来识别所述远程元件。
32. 如权利要求25所述的系统,其中所述服务器可用于通过以下步骤 来从所述第一远程元件接收匹配数据从多个远程元件接收匹配数据;以及汇聚从两个或更多个远程元件接收的所述匹配数据,并且其中所述服 务器可用于基于汇聚的匹配数据来生成所述语法条目。
33. 如权利要求32所述的系统,其中所述服务器可用于通过以下步骤 来汇聚所述匹配数据从所述多个远程元件中选择两个或更多个远程元件;以及 汇聚从所述两个或更多个远程元件接收的所述匹配数据。
34. 如权利要求25所述的系统,其中所述服务器可用于通过以下步骤来从第一远程元件接收匹配数据从所述第一远程元件接收第一组匹配数据; 从所述第一远程元件接收第二组匹配数据;以及 汇聚所述第一组匹配数据和所述第二组匹配数据;并且 其中所述服务器可用于基于汇聚的匹配数据来生成所述语法条目。
35. 如权利要求25所述的系统,其中所述服务器还可用于 在所述第一远程元件处接收与用户所讲话语相关联的音频信息; 将接收到的所述音频信息与一个或多个语法条目相比较; 基于所述接收到的音频信息和所述第一存储音频数据的比较结果而生成所述匹配数据;以及将所述匹配数据发送到语法服务器。
36. —种用于分发语音识别语法的系统,包括用于从第一远程元件接收匹配数据的装置,所述匹配数据包括与所述 远程元件将接收到的音频信息匹配到第一存储音频数据的尝试相关联的信用于基于所述匹配数据生成语法条目的装置,其中所述语法条目包括 第二存储音频数据和与所述第二存储音频数据相关联的单词标识符;以及 用于将所述语法条目发送到第二远程元件的装置。
全文摘要
一种用于分发语音识别语法的方法包括从第一远程元件接收匹配数据。匹配数据包括与远程元件将接收到的音频信息匹配到第一存储音频数据的尝试相关联的信息。该方法还包括基于匹配数据生成语法条目。语法条目包括第二存储音频数据和与第二存储音频数据相关联的单词标识符。另外,该方法包括将语法条目发送到第二远程元件。
文档编号G10L15/06GK101194305SQ200680020928
公开日2008年6月4日 申请日期2006年8月1日 优先权日2005年8月19日
发明者凯文·L·切斯纳特, 约瑟夫·B·伯顿 申请人:思科技术公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1