用于语音验证的系统及方法与流程

文档序号：12513513阅读：293来源：国知局

本申请案主张2014年8月19日申请的标题为“用于语音验证的系统及方法(System and Method for Speech Validation)”的第14/463,014号美国专利申请案的权利。所述案的全部揭示内容以引用方式并入本文中。

技术领域

本发明大体上涉及一种用于语音辨识的方法，且更特定来说，涉及一种用于验证可在计算装置处接收的语音(例如唤醒话语)的方法。

背景技术：

语音辨识或自动语音辨识(“ASR”)涉及识别口头话语的计算机化过程。语音辨识存在许多用途，包含语音转录、语音翻译、通过话音控制装置及软件应用的能力、呼叫路由系统、互联网的话音搜索等。语音辨识系统可视需要与口语理解系统配对以提取在与系统交互时执行的语义及/或命令。

语音辨识系统是高度复杂的且通过匹配发声的声学标记图与话语的声学标记图来操作。此匹配可视需要组合统计语言模型。因此，声学建模及语言建模两者用于语音辨识过程中。声学模型可从口头发声的音频记录以及相关联转录产生。声学模型然后定义对应话语的个别声音的统计表示。语音辨识系统使用声学模型以识别声音序列，同时语音辨识系统使用统计语言模型以从经识别声音识别可能的话语序列。

提供话音启动或话音命令功能的语音辨识使说话人能够通过说出各种指令来控制装置及系统。举例来说，说话人可发出命令以执行具体任务或发出询问以检索具体结果。口头输入可遵循执行具体任务的一组严格短语，或口头输入可为由语音辨识系统的自然语言单元解译的自然语言。在便携式装置尤其是电池供电便携式装置(例如手机、膝上型计算机及桌上型计算机)上，话音命令功能变得越来越流行。一些装置可包含唤醒话语特征，其中主要话音控制应用保持处于“睡眠”状态直到检测到口头唤醒命令为止。在一些唤醒实施方案中，装置允许包含对话音控制应用的唤醒命令及随后而来的主要命令两者的连续音频流的无缝处理。

技术实现要素：

在一个实施方案中，提供一种用于验证唤醒话语的方法。本发明的实施例可包含在第一计算装置处从第二计算装置接收音频信号，所述音频信号被识别为可能包含唤醒话语。实施例可进一步包含将所述音频信号倒回到所述唤醒话语的开始点，以产生经倒回音频信号。实施例还可包含确定所述经倒回音频信号是否包含所述唤醒话语。实施例可进一步包含将反馈传输到所述第二计算装置，其中所述反馈包含继续睡眠指示及接受检测指示中的至少一者。

可包含下列特征中的一或多者。在一些实施例中，所述开始点可包含所述唤醒话语之前的预定量的静音。所述方法可包含将所述经确定唤醒话语传输到所述第二计算装置。所述方法可进一步包含从所述第二计算装置接收反馈，其中所述反馈包含继续睡眠指示及接受检测指示中的至少一者。在一些实施例中，反馈可包含所述唤醒话语的经改良发音及阈值设置变更建议中的至少一者。所述方法还可包含对所述音频信号及所述经倒回音频信号中的至少一者执行话音生物统计学分析。所述方法可进一步包含计算与所述可能的唤醒话语相关联的置信度得分。所述方法还可包含至少部分基于所述置信度得分确定是否传输所述经倒回信号。

在另一实施方案中，提供一种用于验证唤醒话语的方法。本发明的实施例可包含在第一计算装置处从第二计算装置接收音频信号，所述音频信号被识别为可能包含唤醒话语。所述方法可进一步包含将所述音频信号倒回到所述唤醒话语的开始点，以产生经倒回音频信号。所述方法还可包含确定所述经倒回音频信号是否包含所述唤醒话语。所述方法可另外包含将反馈传输到所述第二计算装置，其中所述反馈包含继续睡眠指示及接受检测指示中的至少一者。

可包含下列特征中的一或多者。在一些实施例中，所述开始点可包含所述唤醒话语之前的预定量的静音。所述方法可进一步包含从所述第一计算装置接收可能的唤醒话语。在一些实施例中，反馈可包含所述唤醒话语的经改良发音及阈值设置变更建议中的至少一者。所述方法还可包含对所述音频信号及所述经倒回音频信号中的至少一者执行话音生物统计学分析。

在另一实施方案中，提供一种系统。所述系统可包含一或多个处理器，所述一或多个处理器经配置以在第一计算装置处从第二计算装置接收音频信号，所述音频信号被识别为可能包含唤醒话语。所述一或多个处理器可经配置以将所述音频信号倒回到所述唤醒话语的开始点，以产生经倒回音频信号。所述一或多个处理器可进一步经配置以确定所述经倒回音频信号是否包含所述唤醒话语。所述一或多个处理器可进一步经配置以将反馈传输到所述第二计算装置，其中所述反馈包含继续睡眠指示及接受检测指示中的至少一者。

可包含下列特征中的一或多者。在一些实施例中，所述开始点可包含所述唤醒话语之前的预定量的静音。所述一或多个处理器可经配置以从所述第一计算装置接收可能的唤醒话语。反馈可包含所述唤醒话语的经改良发音及阈值设置变更建议中的至少一者。所述一或多个处理器可经配置以对所述音频信号及所述经倒回音频信号中的至少一者执行话音生物统计学分析。

在附图及下文描述中陈述一或多个实施方案的细节。从具体实施方式、附图说明及权利要求书，其它特征及优点将变得显而易见。

附图说明

图1是根据本发明的实施例的语音验证过程的实例的示意视图；

图2是根据本发明的实施例的语音验证过程的流程图；

图3是根据本发明的实施例的语音验证过程的流程图；及

图4展示可用来实施本文中描述的语音验证过程的计算机装置及移动计算机装置的实例。

各个图式中的相同参考符号可指示相同元件。

具体实施方式

本文中提供的实施例旨在一种用于验证语音的系统及方法。如本文中使用，短语“唤醒特征”可指代其中可在装置上处理连续音频流以检测是否说出唤醒短语或唤醒话语的情况。在许多产品中提供有唤醒特征(例如在手持机上、在电视机中、在汽车中及/或在其中可需要免提接口的实例中的个人助理)。所述特征的一个挑战是其可连续地运行，此常暗指所述特征必须以小CPU/电池/存储器预算操作且无需网络连接。在检测到唤醒之后，可建立网络连接，相同发声中或新采集物上的循序音频可透过所述网络连接输送到运行应用(例如，消息传送、网页搜索等)的全部极大词汇表的网络ASR服务器。关于语音辨识方法及唤醒话语的额外信息可在可购自本发明的受让人的具有申请案序号13/456,959的第2013/0289994号美国公开案中找到，所述案的副本的全文以引用方式并入本文中。

此方法的一个问题是小CPU/电池/存储器预算通常暗指最佳算法可能尚未被使用，借此导致许多分类错误(例如，错误检测及错误拒绝)。一些检测管线是分阶段的，其中后期阶段运行越来越复杂的算法，然而，管线通常仍在比可用于服务器中的硬件更低效的嵌入式硬件上运行。因此，检测算法可具有高分类错误率。

据此，本文中包含的实施例建议在服务器端处应用更复杂唤醒短语检测以便减小错误检测的影响。服务器端可运行更复杂声学模型且相对于嵌入式系统可能够实现的错误检测率可能够显著地减小错误检测率。

参考图1，图中展示可常驻在计算机12上且可由计算机12执行的语音验证过程10，计算机12可连接到网络14(例如，互联网或局域网)。服务器应用20可包含本文中描述的语音验证过程10的一些或所有元素。计算机12的实例可包含但不限于单个服务器计算机、一系列服务器计算机、单个个人计算机、一系列个人计算机、迷你型计算机、主机计算机、电子邮件服务器、社交网络服务器、短信服务器、照片服务器、多处理器计算机、在计算云端上运行的一或多个虚拟机器及/或分布式系统。计算机12的各种组件可执行一或多个操作系统，所述操作系统的实例举例来说可包含但不限于：Microsoft Windows Server^TM；Novell Netware^TM；Redhat Linux^TM、Unix或定制操作系统。

如下文将在图2至5中更详细论述，语音验证过程10可包含在第一计算装置处从第二计算装置接收(202)音频信号，音频信号被识别为可能包含唤醒话语。实施例可进一步包含将音频信号倒回(204)到唤醒话语的开始点，以产生经倒回音频信号。实施例还可包含确定(206)经倒回音频信号是否包含唤醒话语。实施例可进一步包含将反馈传输(208)到第二计算装置，其中反馈包含继续睡眠指示及接受检测指示中的至少一者。众多其它特征及配置也在本发明的范围内，如下文中进一步详细论述。

可由计算机12内包含的一或多个处理器(未展示)及一或多个存储器架构(未展示)执行可存储在耦合到计算机12的存储装置16上的语音验证过程10的指令集及子程序。存储装置16可包含但不限于：硬盘驱动器；闪盘驱动器、磁带驱动器；光学驱动器；RAID阵列；随机访问存储器(RAM)；及只读存储器(ROM)。

网络14可连接到一或多个次级网络(例如，网络18)，所述次级网络的实例举例来说可包含但不限于：局域网；广域网；或内联网。

在一些实施例中，可经由客户端应用22、24、26、28访问及/或启动语音验证过程10。客户端应用22、24、26、28的实例可包含但不限于标准网页浏览器、定制化网页浏览器、或可向用户显示数据的定制应用。可由(分别)并入到客户端电子装置38、40、42、44的一或多个处理器(未展示)及一或多个存储器架构(未展示)执行可(分别)存储在(分别)耦合到客户端电子装置38、40、42、44的存储装置30、32、34、36上的客户端应用22、24、26、28的指令集及子程序。

存储装置30、32、34、36可包含但不限于：硬盘驱动器；闪盘驱动器、磁带驱动器；光学驱动器；RAID阵列；随机访问存储器(RAM)；及只读存储器(ROM)。客户端电子装置38、40、42、44的实例可包含但不限于个人计算机38、膝上型计算机40、智能电话42、电视机43、笔记型计算机44、服务器(未展示)、具备数据功能的蜂窝式电话(未展示)、专用网络装置(未展示)、音频记录装置等。

客户端应用22、24、26、28中的一或多者可经配置以实行语音验证过程10的一些或所有功能。据此，语音验证过程10可为纯粹服务器端应用、纯粹客户端应用、或由客户端应用22、24、26、28中的一或多者与语音验证过程10协作地执行的混合服务器端/客户端应用。

客户端电子装置38、40、42、44可各自执行操作系统，所述操作系统的实例可包含但不限于Apple iOS^TM、Microsoft Windows^TM、Android^TM、Redhat Linux^TM或定制操作系统。在一些情况下，客户端电子装置可包含音频记录功能及/或可为音频记录装置。另外及/或替代地，在一些实施例中，音频记录装置可与如本文中进一步详细论述的客户端电子装置中的一或多者通信。

用户46、48、50、52可直接透过网络14或透过次级网络18访问计算机12及语音验证过程10。此外，计算机12可透过次级网络18连接到网络14，如用虚连线54说明。在一些实施例中，用户可透过一或多个电信网络设施62访问语音验证过程10。

各种客户端电子装置可直接或间接耦合到网络14(或网络18)。举例来说，个人计算机38被展示为经由硬接线网络连接直接耦合到网络14。此外，笔记型计算机44被展示为经由硬接线网络连接直接耦合到网络18。膝上型计算机40被展示为经由建立在膝上型计算机40与无线访问点(即，WAP)58之间的无线通信通道56无线地耦合到网络14，WAP 58被展示为直接耦合到网络14。WAP 58可举例来说为IEEE 802.11a、802.11b、802.11g、Wi-Fi、及/或能够在膝上型计算机40与WAP 58之间建立无线通信通道56的蓝牙装置。所有IEEE 802.11x规范可将以太网协议及载波侦听多址访问/冲突避免(即，CSMA/CA)用于路径共享。举例来说，各种802.11x规范可使用相移键控(即，PSK)调制或补码键控(即，CCK)调制。蓝牙是允许例如使用短程无线连接使移动电话、计算机及智能电话互连的电信行业规范。

智能电话42被展示为经由建立在智能电话42与电信网络设施62之间的无线通信通道60无线地耦合到网络14，电信网络设施62被展示为直接耦合到网络14。在一些实施例中，智能电话42可为音频记录装置或可包含音频记录功能且可使终端用户能够记录语音信号。语音信号可存储及/或传输到本文中描述的任何装置。举例来说，语音信号透过网络14传输到客户端电子装置40。

如本文中使用，短语“电信网络设施”可指代经配置以将传输物传输到一或多个移动装置(例如，手机等)及/或从一或多个移动装置(例如，手机等)接收传输物的设施。在图1中展示的实例中，电信网络设施62可允许图1中展示的任何计算装置之间(例如，手机42与服务器计算装置12之间)的通信。

如上文论述，在一些实施例中，语音验证过程10可包含在第一计算装置(举例来说图1中展示的客户端装置38、40、42、44中的一者)处接收音频信号。音频信号可包含由用户(例如图1中展示的用户)发出的语音信号。语音验证过程10可包含确定音频信号是否可能包含唤醒话语。举例来说，客户端装置38、40、42、44中的一者可确定可能已发出唤醒话语且然后可将音频信号倒回到唤醒话语的开始点，以产生经倒回音频信号。在此特定实例中，倒回可在客户端装置上发生，然而，倒回可在任何合适装置上(举例来说在图1中展示的服务器计算装置12上)发生。在一些实施例中，语音验证过程10可包含将经倒回音频信号从客户端装置传输到第二计算装置，举例来说服务器计算装置12。

在一些实施例中，倒回可包含将音频信号倒回到与特定信号相关联的任何时刻。举例来说，在一些情况下，此可包含倒回到唤醒话语的开始点，其可包含倒回为包含恰好在发出唤醒话语之前的一些预定量的静音。

在一些实施例中，语音验证过程10可包含将经确定唤醒话语传输到第二计算装置。举例来说，客户端装置42可经配置以将疑似唤醒话语传输到服务器计算装置12。一旦服务器计算装置已对经接收音频信号执行必要处理，客户端装置42便可经配置以从第二计算装置(例如，服务器计算装置12)接收反馈。取决于在第二计算装置处所作的确定，反馈可包含继续睡眠指示及/或接受检测指示。在一些实例中，反馈可包含唤醒话语的经改良发音、阈值设置变更建议或任何其它合适反馈。

在一些实施例中，语音验证过程10可包含对音频信号及经倒回音频信号中的至少一者执行话音生物统计学分析。此可在任何合适装置(例如客户端装置42、服务器计算装置12、混合组合等)处发生。

在一些实施例中，语音验证过程10可包含计算与可能的唤醒话语相关联的置信度得分。举例来说，客户端装置42可对音频信号执行分析以确定说出唤醒话语的可能性有多大。如果置信度得分高于某个预定义阈值，那么语音验证过程10可至少部分基于置信度得分确定是否传输经倒回信号。

如上文论述，可经由客户端装置、服务器装置或其组合执行与语音验证过程10相关联的某些操作。举例来说，在一些实施例中，语音验证过程10可包含在第一计算装置(例如，服务器计算装置12)处从第二计算装置(例如，客户端装置42)接收音频信号，音频信号被识别为可能包含唤醒话语。在此特定实例中，语音验证过程10可包含在服务器计算装置12处将音频信号倒回到唤醒话语的开始点，以产生经倒回音频信号。语音验证过程10可包含在服务器计算装置12处确定经倒回音频信号是否包含唤醒话语。服务器计算装置12然后可将反馈传输到第二计算装置(例如，客户端装置42)，其中反馈包含继续睡眠指示及接受检测指示中的至少一者，及/或用来在第一计算装置处调谐唤醒检测的信息。

语音验证过程10的实施例可结合唤醒特征工作，其中在嵌入式装置上处理连续音频流以检测是否说出唤醒短语。通常仅在装置处检测到唤醒之后调用在网络上运行的对话/ASR系统，但唤醒检测固有地是可致使错误的统计过程。在所述错误检测到达服务器时，其可导致失控对话，其中系统被唤醒且开始与不想要在此时占用系统的用户交互，或如果(例如，从背景无线电等)错误地触发唤醒，那么系统与不真实用户交互。对话系统通常无需来自用户的进一步触觉输入，因此失控对话可伴随意外后果。在检测到唤醒短语之后，来自用户的命令通常随后而来且常见的是嵌入式系统对声学信号执行音频手术(audio surgery)以去除经检测唤醒短语，从而仅留下命令供服务器处理。出于多个理由，此被发现是次优的。举例来说，音频手术从音频流移除服务器需要用于声学规范化的重要声学情境。归因于由小声学模型驱动的分段，音频手术可有缺陷。还可能的是根本就没有说出唤醒短语。

据此，语音验证过程10的实施例可允许采集系统执行缓冲使得应用能够将音频流倒回到其中唤醒短语开始的点，且可能包含之前的一些静音。在网络ASR请求中，应用可传递连同全部(例如，经倒回)音频流检测的唤醒短语的识别码。网络引擎可经配置以重新限定所述唤醒短语是否确实存在，且如果网络引擎发现唤醒短语不存在，那么还可将“继续睡眠”指示发到装置。服务器端检测也可为固有统计系统且其可引入错误，但声学模型及语言模型越大，服务器端的分类错误率通常越低。服务器端然后可被视为唤醒检测过程中的最终阶段。于是，早期阶段处的拒绝阈值可经放宽以改良初期阶段中的召回，从而使后期阶段变得精确。

在一些实施例中，服务器可将反馈连同“继续睡眠”指示或接受检测指示提供到嵌入式ASR唤醒系统。举例来说，服务器可经配置以传回唤醒话语的经改良发音，或可能传回阈值设置变更建议。

在一些实施例中，语音验证过程10可包含嵌入式ASR的唤醒决定的服务器端再询问。在一些实施例中，可在嵌入式装置上执行唤醒，其还可涉及音频手术，从而在串流到服务器之前从音频移除唤醒短语或话语。

在一些实施例中，第一计算装置可经配置以将从唤醒命令之后的点开始的音频串流到第二计算装置。语音验证过程10可进一步包含第一计算装置将音频信号倒回到唤醒话语的开始点，以产生经倒回音频信号。实施例还可包含第二装置确定或重新确定经倒回音频信号是否包含唤醒话语。

参考图4，图中提供可结合此处描述的技术使用的通用计算机装置400及通用移动计算机装置470的实例。计算装置400意图表示各种形式的数字计算机，例如桌上型计算机、膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片式服务器、主机及其它适当计算机。在一些实施例中，计算装置470可包含各种形式的移动装置，例如个人数字助理、蜂窝式电话、智能电话及其它相似计算装置。计算装置470及/或计算装置400还可包含一或多个处理器嵌入其中或附接到其的其它装置，例如电视机。此处展示的组件、其连接及关系，及其功能意在仅为示例性，且并非意在限制本文献中描述及/或主张的发明的实施方案。

在一些实施例中，计算装置400可包含处理器402、存储器404、存储装置406、连接到存储器404及高速扩展端口410的高速接口408、及连接到低速总线414及存储装置406的低速接口412。组件402、404、406、408、410及412中的每一者可使用各种总线互连，且可安装在共同母板上或适当时以其它方式安装。处理器402可处理用于在计算装置400内执行以将GUI的图形信息显示在外部输入/输出装置(例如耦合到高速接口408的显示器416)上的指令，包含存储在存储器404中或存储在存储装置406上的指令。在其它实施方案中，适当时可使用多个处理器及/或多个总线连同多个存储器及多种类型的存储器。又，可连接多个计算装置400，其中每一装置提供必要操作的部分(例如，作为服务器库、刀片式服务器群或多处理器系统)。

存储器404可将信息存储在计算装置400内。在一个实施方案中，存储器404可为易失性存储器单元。在另一实施方案中，存储器404可为非易失性存储器单元。存储器404还可为另一形式的计算机可读媒体，例如磁盘或光盘。

存储装置406可能够为计算装置400提供大容量存储。在一个实施方案中，存储装置406可为或含有计算机可读媒体，例如软盘装置、硬盘装置、光盘装置、或磁带装置、快闪存储器或其它相似固态存储器装置、或装置阵列，包含存储区域网络中的装置或其它配置。可在信息载体中有形地具体实施计算机程序产品。计算机程序产品还可含有在被执行时执行一或多种方法(例如上文描述的方法)的指令。信息载体是计算机或机器可读媒体，例如存储器404、存储装置406、处理器上存储器402或传播信号。

高速控制器408可针对计算装置400管理带宽密集型操作，而低速控制器412可管理较低带宽密集型操作。此功能分配仅为示例性。在一个实施方案中，高速控制器408可耦合到存储器404、显示器416(例如，透过图形处理器或加速器)，且耦合到可接受各种扩展卡(未展示)的高速扩展端口410。在所述实施方案中，低速控制器412耦合到存储装置406及低速扩展端口414。可包含各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口可例如透过网络适配器耦合到一或多个输入/输出装置，例如键盘、指向装置、扫描器或网络化装置，例如交换机或路由器。

计算装置400可以如图中展示的多种不同形式加以实施。举例来说，计算装置400可被实施为标准服务器420，或在此些服务器群中被实施多次。计算装置400还可被实施为机架式服务器系统424的部分。另外，计算装置400可在个人计算机(例如膝上型计算机422)中加以实施。替代地，来自计算装置400的组件可与移动装置(未展示)(例如装置470)中的其它组件组合。此些装置中的每一者可含有计算装置400、470中的一或多者，且整个系统可由彼此通信的多个计算装置400、470组成。

除其它组件外，计算装置470还可包含处理器472、存储器464、输入/输出装置(例如显示器)474、通信接口466及收发器468。装置470还可具备存储装置(例如微硬盘或其它装置)，以提供额外存储。组件470、472、464、474、466及468中的每一者可使用各种总线互连，且所述组件中的若干者可安装在共同母板上或适当时以其它方式安装。

处理器472可执行计算装置470内的指令，包含存储在存储器464中的指令。所述处理器可被实施为包含单独及多个模拟及数字处理器的芯片的芯片组。所述处理器可提供(举例来说)装置470的其它组件的协调，例如控制用户接口、由装置470运行的应用及由装置470进行的无线通信。

在一些实施例中，处理器472可透过耦合到显示器474的控制接口478及显示接口476与用户通信。显示器474可为(举例来说)TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器、或其它适当显示技术。显示接口476可包括用于驱动显示器474向用户呈现图形信息及其它信息的适当电路。控制接口478可从用户接收命令并转换命令以提交到处理器472。另外，外部接口462可提供为与处理器472通信，以便使装置470能够与其它装置进行近区域通信。外部接口462可在一些实施方案中提供(举例来说)有线通信，或在其它实施方案中提供无线通信，且还可使用多个接口。

在一些实施例中，存储器464可将信息存储在计算装置470内。存储器464可被实施为计算机可读媒体、易失性存储器单元或非易失性存储器单元中的一或多者。扩展存储器474也可被提供且透过扩展接口472(其可包含举例来说SIMM(单列直插存储器模块)卡接口)连接到装置470。此扩展存储器474可为装置470提供额外存储空间，或还可存储用于装置470的应用或其它信息。具体来说，扩展存储器474可包含用来实行或补充上文描述的过程的指令，且还可包含安全信息。因此，举例来说，扩展存储器474可被提供为用于装置470的安全模块，且可使用允许装置470的安全使用的指令加以编程。另外，可经由SIMM卡提供安全应用连同额外信息，例如以不可破解方式将识别信息放置在SIMM卡上。

存储器可包含举例来说快闪存储器及/或NVRAM存储器，如下文论述。在一个实施方案中，在信息载体中有形地具体实施计算机程序产品。计算机程序产品可含有在被执行时执行一或多种方法(例如上文描述的方法)的指令。信息载体可为计算机或机器可读媒体，例如存储器464、扩展存储器474、处理器上存储器472、或可举例来说透过收发器468或外部接口462接收的传播信号。

装置470可透过通信接口466无线地通信，通信接口466在必要情况下可包含数字信号处理电路。通信接口466可提供在各种模式或协议下的通信，尤其是例如GSM话音呼叫、SMS、EMS或MMS语音辨识，CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS。此通信可举例来说透过射频收发器468发生。另外，短程通信可例如使用蓝牙、WiFi或其它此类收发器(未展示)而发生。另外，GPS(全球定位系统)接收器模块470可将额外导航及位置相关无线数据提供到装置470，适当时可由在装置470上运行的应用使用所述数据。

装置470还可使用音频编解码器460可听地通信，音频编解码器460可从用户接收口头信息并将口头信息转换成可用数字信息。音频编解码器460可同样地例如透过扬声器在(例如)装置470的手持机中产生用于用户的可听声音。此声音可包含来自话音电话呼叫的声音，可包含经记录声音(例如，话音消息、音乐文件等)，且还可包含由在装置470上操作的应用产生的声音。

计算装置470可以如图中展示的多种不同形式加以实施。举例来说，计算装置470可被实施为蜂窝式电话480。计算装置470还可被实施为智能电话482、个人数字助理、远程控制器或其它相似移动装置的部分。

可在数字电子电路、集成电路、特殊设计ASIC(特定应用集成电路)、计算机硬件、固件、软件及/或其组合中实现此处描述的系统及技术的各种实施方案。此些各种实施方案可包含可在包含至少一个可编程处理器的可编程系统上执行及/或解译的一或多个计算机程序中的实施方案，所述可编程处理器可为特殊的或通用的，经耦合以从存储系统、至少一个输入装置及至少一个输出装置接收数据及指令，以及将数据及指令传输到存储系统、至少一个输入装置及至少一个输出装置。

此些计算机程序(也称为程序、软件、软件应用或代码)包含用于可编程处理器的机器指令，且可以高级过程语言及/或面向对象编程语言及/或以汇编/机器语言加以实施。如本文中使用，术语“机器可读媒体”、“计算机可读媒体”指代用来将机器指令及/或数据提供到可编程处理器的任何计算机程序产品、设备及/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包含将机器指令接收为机器可读信号的机器可读媒体。术语“机器可读信号”指代用来将机器指令及/或数据提供到可编程处理器的任何信号。

如所属领域的技术人员将明白，本发明可被具体实施为方法、系统或计算机程序产品。据此，本发明可采取下列实施例的形式：完全硬件实施例、完全软件实施例(包含固件、常驻软件、伪代码等)或组合通常均可在本文中称为“电路”、“模块”或“系统”的软件方面及硬件方面的实施例。此外，本发明可采取计算机可用存储媒体上的计算机程序产品的形式，计算机可用存储媒体具有在所述媒体中具体实施的计算机可用程序代码。

可利用任何合适计算机可用或计算机可读媒体(例如，非暂时性媒体)。计算机可用或计算机可读媒体可为举例来说但不限于电子的、磁性的、光学的、电磁的、红外的或半导体的系统、设备、装置或传播媒体。计算机可读媒体的更具体实例(非详尽列表)将包含下列项：具有一或多个导线的电连接件、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、传输媒体(例如支持互联网或内联网的传输媒体)或磁性存储装置。应注意，计算机可用或计算机可读媒体可甚至是上面印有程序的纸张或另一合适媒体，因为程序可经由举例来说纸张或另一媒体的光学扫描经电捕获，然后经编译、经解译或另外以合适方式处理(如果需要)，且然后存储在计算机存储器中。在本文献的上下文中，计算机可用或计算机可读媒体可为可含有、存储、传达、传播或输送程序以供指令执行系统、设备或装置使用或以结合指令执行系统、设备或装置的任何媒体。

可以面向对象编程语言(例如Java、Smalltalk、C++等)撰写用于实行本发明的操作的计算机程序代码。然而，也可以常规过程编程语言(例如“C”编程语言或相似编程语言)撰写用于实行本发明的操作的计算机程序代码。程序代码可全部在用户计算机上执行，部分在用户计算机上作为独立软件包来执行，部分在用户计算机上且部分在远程计算机上执行，或全部在远程计算机或服务器上执行。在后者案例中，远程计算机可透过局域网(LAN)或广域网(WAN)连接到用户计算机，或可连接到外部计算机(举例来说，透过使用互联网服务提供者的互联网)。

下文参考根据本发明的实施例的方法、设备(系统)及计算机程序产品的流程图说明及/或框图描述本发明。将理解，可由计算机程序指令实施流程图说明及/或框图的每一框以及流程图说明及/或框图中的框组合。此些计算机程序指令可提供到通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生机器，使得经由计算机或其它可编程数据处理设备的处理器执行的指令创建用于实施流程图及/或框图框中指定的功能/动作的构件。

此些计算机程序指令还可存储在计算机可读存储器中，可引导计算机或其它可编程数据处理设备以特定方式运作，使得存储在计算机可读存储器中的指令产生包含实施流程图及/或框图框中指定的功能/动作的指令构件的制品。

计算机程序指令还可加载到计算机或其它可编程数据处理设备上以造成在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实施过程，使得在计算机或其它可编程设备上执行的指令提供用于实施流程图及/或框图框中指定的功能/动作的步骤。

为了提供与用户的交互，可在具有用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)的计算机以及用户可通过其将输入提供到计算机的键盘及指向装置(例如，鼠标或轨迹球)上实施此处描述的系统及技术。其它种类的装置也可用来提供与用户的交互；举例来说，提供到用户的反馈可为任何形式的感觉反馈(例如，视觉反馈、听觉反馈或触觉反馈)；且来自用户的输入可以任何形式加以接收，包含声学、语音或触觉输入。

可在计算系统中实施此处描述的系统及技术，所述计算系统包含后端组件(例如，作为数据服务器)，或包含中间件组件(例如，应用服务器)，或包含前端组件(例如，具有用户可透过其与此处描述的系统及技术的实施方案交互的图形用户接口或网页浏览器的客户端计算机)，或包含此些后端组件、中间件组件或前端组件的任何组合。系统的组件可通过数字数据通信的任何形式或媒体(例如，通信网络)互连。通信网络的实例包含局域网(“LAN”)、广域网(“WAN”)及互联网。

计算系统可包含客户端及服务器。客户端与服务器通常彼此远离且通常透过通信网络交互。客户端与服务器的关系凭借在相应计算机上运行且彼此具有客户端-服务器关系的计算机程序而出现。

图中的流程图及框图说明根据本发明的各个实施例的系统、方法及计算机程序产品的可能实施方案的架构、功能及操作。就此来说，流程图或框图中的每一框可表示包括用于实施指定逻辑功能的一或多个可执行指令的模块、片段或代码部分。还应注意，在一些替代实施方案中，框中提及的功能不按图中提及的顺序发生。举例来说，被展示为连续的两个框可事实上基本上同时加以执行，或所述框可有时按相反顺序加以执行，此取决于所涉及功能。还将注意，可由执行指定功能或动作、或专用硬件指令与计算机指令的组合的基于专用硬件的系统实施框图及/或流程图说明的每一框以及框图及/或流程图说明中的框的组合。

本文中使用的术语仅出于描述特定实施例的目的且并非意图限制本发明。如本文中使用，除非上下文另外清楚地指示，否则单数形式“一(a/an)”及“所述”也意图包含复数形式。进一步将理解，在用于本说明书中时，术语“包括(comprises及/或comprising)”指定所陈述特征、整数、步骤、操作、元件及/或组件的存在，但不排除一或多个其它特征、整数、步骤、操作、元件、组件及/或其群的存在或添加。

下文权利要求书中的所有构件或步骤加功能元件的对应结构、材料、动作及等效物意图包含用于组合如具体主张的其它所主张元件执行功能的任何结构、材料或动作。本发明的描述已出于说明及描述的目的而提出，但并非意图为详尽性或将本发明限于所揭示形式。在不背离本发明的范围及精神的情况下，许多修改及变动将对所属领域的一般人员显而易见。选择及描述实施例以便最佳地解释本发明的原理及实际应用，且以便使所属领域的其它一般人员能够理解本发明中具有各种修改的各个实施例适于所预期的特定用途。

因此在已详细描述本申请案的揭示内容且参考其实施例情况下，将显而易见的是，在不背离所附权利要求书中界定的本发明的范围的情况下，修改及变动是可能的。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J·E·达安
技术所有人：努恩斯通讯公司
我是此专利的发明人