在输出声频信号呈现期间处理输入语音信号的方法和设备的制作方法

文档序号:2829591阅读:475来源:国知局
专利名称:在输出声频信号呈现期间处理输入语音信号的方法和设备的制作方法
技术领域
本发明一般涉及包括语音识别的通信系统,更具体地说,涉及一种在输出声频信号的呈现期间用于输入语音信号的“闯入”处理的方法和设备。
本发明的背景语音识别系统在先有技术中一般是已知的,特别涉及电话系统。美国专利No.4,914,692、5,475,791、5,708,704、及5,765,130表明包括语音识别系统的示范电话网络。这样的系统的共同特征在于,语音识别元件(即进行语音识别的器件)典型集中布置在电话网络的组织内,与在用户的通信器件(即用户的电话)处不同。在一种典型用途中,语音合成和语音识别元件的组合采用在电话网络或基础结构内。呼叫者可以访问系统,并且经语音合成元件呈现有合成或记录语音形式的信息提示或询问。呼叫者典型地提供对合成语音的口头应答,并且语音识别元件将处理呼叫者的口头应答以便向呼叫者提供进一步的服务。
给定人类特性和一些语音合成/识别系统的结构,由呼叫者提供的口头应答常常在输出声频信号的呈现期间出现,例如合成的语音提示。这样的出现的处理常常称作“闯入”处理。美国专利No.4,914,692、5,155,760、5,475,791、5,708,704、及5,765,130都描述了用于闯入处理的技术。一般地,在这些专利每一个中描述的技术满足在闯入处理期间对回波消除的需要。就是说,在合成语音提示(即输出声频信号)的呈现期间,语音识别系统必须考虑来自在由用户提供的任何口头应答中存在的提示的残余后生物(即输入语音信号),以便有效地进行语音识别分析。因而,这些先有技术一般指向在闯入处理期间输入语音信号的质量。由于在声音电话系统中发现的较小潜伏或延迟,这些先有技术一般不涉及闯入处理的上下文确定方面,即,使输入语音信号与特定输出声频信号或与输出声频信号内的特定时刻相关。
先有技术的这种缺陷对于无线系统甚至更明显。尽管先有技术的主体关于基于电话的语音识别系统而存在,但把语音识别系统并入无线通信系统是较新的发展。在标准化无线通信环境中语音识别用途的努力中,工作最近已经由欧洲电信标准研究所(ETSI)在所谓的AuroraProject上启动。Aurora Project的目标在于定义一个用于分布语音识别系统的全球标准。一般地,Aurora Project正在提出建立一种客户机-服务器布置,其中在用户单元(例如,蜂窝电话之类的手持无线通信器件)内进行前端语音识别处理,如特征抽取或参数化。由前端提供的数据然后传送到服务器以进行后端语音识别处理。
期望由Aurora Project提出的客户机-服务器布置将适当地满足对分布语音识别系统的需要。然而,如何闯入处理如果完全由AuroraProject满足在这时是不确定的。这是一种特别的担心,给定在无线系统中典型遇到的潜伏的宽范围变化和这种潜伏可能具有的对闯入处理的影响。例如,基于用户语音的应答的处理部分基于在其处由语音识别处理器接收它的时间中的特定点不是不普遍。就是说,能区分在给定合成提示的特定部分期间是否接收用户的应答、或是否提供一系列离散的提示,在该提示期间接收应答。总之,用户应答的上下文能与识别用户应答的信息内容同样重要。然而,一些无线系统的不确定延迟特性作为适当确定这样的上下文的障碍而保持。因而,便利的是提供用来在输出声频信号的呈现期间确定输入语音信号的上下文的技术,特别是在具有不确定和/或宽范围变化延迟特性的系统中,如利用分组数据通信的那些。
本发明概述本发明提供一种用来在输出声频信号的呈现期间处理输入语音信号的技术。尽管主要适用于无线通信系统,但本发明的技术可以有益地应用于具有不确定和/或宽范围变化延迟特性的任何通信系统,例如分组数据系统,如互联网。按照本发明的一个实施例,在输出声频信号的呈现期间探测输入语音信号的开始,并且确定相对于输出声频信号的输入开始时间。输入开始时间然后供响应输入语音信号之用。在另一个实施例中,输出声频信号具有对应标识。当在输出声频信号的呈现期间探测输入语音信号时,输出声频信号的标识供响应输入语音信号之用。包括数据和/或控制信号的信息信号响应提供的至少上下文信息,即输入开始时间和/或输出声频信号的标识,而提供。以这种方式,本发明提供一种用来精确建立相对于输出声频信号的输入语音信号的上下文而与基础通信系统的延迟特性无关的技术。
附图的简要描述

图1是按照本发明的无线通信系统的方块图。
图2是按照本发明的用户单元的方块图。
图3是在按照本发明的用户单元内的声音和数据处理功能的示意表示。
图4是按照本发明的语音识别服务器的方块图。
图5是在按照本发明的语音识别服务器内的声音和数据处理功能的示意表示。
图6表明按照本发明的上下文确定。
图7是流程图,表明一种按照本发明用来在输出声频信号的呈现期间处理输入语音信号的方法。
图8是流程图,表明另一种按照本发明用来在输出声频信号的呈现期间处理输入语音信号的方法。
图9是流程图,表明一种按照本发明在语音识别服务器内可以实现的方法。
最佳实施例的详细描述参照图1-9可以更充分地描述本发明。图1表明包括用户单元102-103的无线通信系统100的整体系统结构。用户单元102-103与基础结构经由无线系统110支持的无线通道105通信。本发明的基础结构除无线系统110外,可以包括经一个数据网络150联接在一起的一个小实体系统120、一个内容提供者系统130及一个企业系统140的任一个。
用户单元可以包括能够与通信基础结构通信的任何无线通信器件,如手持蜂窝电话103或驻留在车辆102内的无线通信器件。要理解,能使用除图1中表示的那些之外的各种用户单元;本发明在这方面不受限制。用户单元102-103最好包括免提蜂窝电话的元件,用于免提声音通信;一个本地语音识别和合成系统;及客户机-服务器语音识别和合成系统的客户机部分。这些元件相对于图2和3在下面更详细地描述。
用户单元102-103经无线通道105与无线系统110无线地通信。无线系统110最好包括一个蜂窝系统,尽管在本专业方面具有普通技巧的人员将认识到,本发明可以有益地应用于支持声音通信的其它类型的无线系统。无线通道105典型地是实现数字发射技术并且能够向用户单元102-103和从其传送语音和/或数据的射频(RF)载波。要理解,也可以使用其它发射技术,如模拟技术。在一个最佳实施例中,无线通道105是无线分组数据通道,如由欧洲电信标准研究所(ETSI)定义的通用分组数据无线业务(GPRS)。无线通道105运送数据以有助于在客户机-服务器语音识别和合成系统的客户机部分、与客户机-服务器语音识别和合成系统的服务器部分之间的通信。其它信息,如显示、控制、位置、或状态信息也能跨过无线通道105运送。
无线系统110包括一根接收通过无线通道105从用户单元102-103传送的发射的天线112。天线112也经无线通道105发射到用户单元102-103。经天线112接收的数据转换成数据信号,并且传输到无线网络113。相反,来自无线网络113的数据发送到天线112以便发射。在本发明的上下文中,无线网络113包括实现无线系统必需的那些器件,如基站、控制器、资源分配器、接口、数据库等,如在先有技术中通常已知的那样。如具有本专业普通技巧的人员将理解的那样,并入无线网络113中的特定元件取决于使用的无线系统110的具体类型,例如蜂窝系统、中继陆地-移动系统等。
提供客户机-服务器语音识别和合成系统的服务器部分的一个语音识别服务器115可以联接到无线网络113上,由此允许无线系统110的操作者向用户单元102-103的用户提供基于语音的服务。一个控制实体116也可以联接到无线网络113上。控制实体116能用来响应由语音识别服务器115提供的输入把控制信号发送到用户单元102-103,以控制用户单元或互连到用户单元上的器件。如表示的那样,可以包括任何适当编程通用计算机的控制实体116,可以通过无线网络113、或直接地,如由虚线相互连接所示,联接到语音识别服务器115上。
如以上提到的那样,本发明的基础结构能包括经数据网络150联接在一起的各种系统110、120、130、140。适当的数据网络150可以包括使用已知网络技术的私人数据网络、诸如互联网之类的公共网络、或其组合。作为选择例,或除此之外,在无线系统110内的语音识别服务器115、远程语音识别服务器123、132、143、145可以以各种方式连接到数据网络150上,以向用户单元102-103提供基于语音的服务。远程语音识别服务器在提供时,类似地能够通过数据网络150和任何插入通信路径与控制实体116通信。
在一个小实体系统120(如一个小商务或家庭)内的计算机122,如台式个人计算机或其它通用处理器件,能用来实现语音识别服务器123。到和来自用户单元102-103的数据通过无线系统110和数据网络150通向计算机122。执行存储的软件算法和过程,计算机122提供语音识别服务器123的功能,它在最佳实施例中包括语音识别系统和语音合成系统的服务器部分。在例如计算机122是用户的个人计算机的场合,在计算机上的语音识别服务器软件能联接到驻留在计算机上的用户个人信息上,如用户的邮件、电话薄、日历、或其它信息上。这种配置允许用户单元的用户利用基于声音的接口访问在其个人计算机上的个人信息。下面结合图2和3描述按照本发明的客户机-服务器语音识别和语音合成系统的客户机部分。下面结合图4和5描述按照本发明的客户机-服务器语音识别和语音合成系统的服务器部分。
要不然,具有使用户单元的用户可得到的信息的内容提供者130,能把语音识别服务器132连接到数据网络上。作为特征或特别服务供应,语音识别服务器132把基于声音的接口提供给希望访问内容提供者的信息(未表示)的用户单元的用户。
用于语音识别服务器的另一种可能位置是在一个企业140内,如在一个大公司或类似实体内。企业的内部网络146,如互联网,经安全网关142连接到数据网络150上。安全网关142结合用户单元提供对企业的内部网络146的安全访问。如在先有技术中已知的那样,以这种方式提供的安全访问典型地部分取决于鉴定和加密技术。以这种方式,提供在用户单元与内部网络146之间经非安全数据网络150的安全通信。在企业140内,实现语音识别服务器145的服务器软件能提供在个人计算机144上,如在给定雇员的工作站上。类似于用在小实体系统中的上述配置,工作站途径允许雇员通过基于声音的接口访问工作相关的或其它信息。而且,类似于内容提供者130模型,企业140能提供一个内部适用的语音识别服务器143以提供对企业数据库的访问。
不管何处采用本发明的语音识别服务器,他们都能用来实现各种基于语音的服务。例如,结合控制实体116操作,在提供时,语音识别服务器能够实现用户单元或联接到用户单元上的器件的操作控制。应该注意,术语语音识别服务器,如贯穿本描述使用的那样,也打算包括语音合成功能。
本发明的基础结构也提供在用户单元102-103与正常电话系统之间的互联。通过把无线网络113联接到POTS(简单旧式电话系统)网络118上这表明在图1中。如在先有技术中已知的那样,POTS网络118,或类似电话网络,提供对多个呼叫站119的通信访问,如陆上线路电话听筒或其它无线器件。以这种方式,用户单元102-103的用户能与呼叫站119的另一个用户继续声音通信。
图2表明按照本发明可以用来实现用户单元的硬件构造。如图所示,可以使用两个无线收发机一个无线数据发机203、和一个无线声音收发机204。如在先有技术中已知的那样,这些收发机可以组合成能完成数据和声音功能的单个收发机。无线数据收发机203和无线声音收发机204都连接到天线205上。要不然,也可以使用用于每个收发机的离散天线。无线声音收发机204进行所有必需的信号处理、协议终止、调制/解调等,以提供无线声音通信,并且在最佳实施例中,包括一个蜂窝收发机。以类似方式,无线数据收发机203提供与基础结构的数据连接性。在一个最佳实施例中,无线数据收发机203支持无线分组数据,如由欧洲电信标准研究所(ETSI)定义的通用分组数据无线业务(GPRS)。
预期本发明能以特别优点应用于车载系统,如下面讨论的那样。当采用在车辆中时,按照本发明的用户单元也包括一般认为是车辆的部分而不是用户单元的部分的处理元件。为了描述本发明的目的,假定这种处理元件是用户单元的部分。要理解,用户单元的实际实施可以包括或不包括由设计考虑支配的这种处理元件。在一个最佳实施例中,处理元件包括通用处理器(CPU)201,如IBM Corp.的“POWERPC”;和数字信号处理器(DSP)202,如Motorola Inc.的DSP56300系列处理器。CPU201和DSP202以连续形式表示在图2中,以表明他们经数据和地址总线、以及其它控制连接联接在一起,如在先有技术中已知的那样。可选择实施例能把用于CPU201和DSP202的功能组合成单个处理器或把他们分裂成几个处理器。CPU201和DSP202都联接到为其有关处理器提供程序和数据存储的相应存储器240、241上。使用存储的软件例行程序,CPU201和/或DSP202能编程成实现本发明功能的至少一部分。下面对于图3和7至少部分地描述CPU201和DSP202的软件功能。
在一个最佳实施例中,用户单元也包括联接到天线207上的全球定位卫星(GPS)收发机206。GPS收发机206联接到DSP202上以提供接收的GPS信息。DSP202从GPS收发机206获取信息,并且计算无线通信器件的位置坐标。要不然GPS收发机206可以把位置信息直接提供给CPU201。
CPU201和DSP202的各种输入和输出表明在图2中。如图2中表示的那样,粗实线与声音相关信息相对应,而粗虚线与控制/数据相关信息相对应。选择元件和信号路径使用虚线表明。DSP202从为电话(蜂窝电话)对话提供声音输入和把声音输入提供给本地语音识别器和客户机-服务器语音识别器的客户机侧部分的麦克风270接收麦克风声频220,如在下面进一步详细描述的那样。DSP202也联接到指向至少一个扬声器271的输出声频211上,扬声器271提供用于电话(蜂窝电话)对话的声音输出和来自本地语音合成器和客户机-服务器语音合成器的客户机侧部分的声音输出。注意麦克风270和扬声器271可以邻近地布置在一起,如在手持器件中,或者可以相对于彼此远距离布置,如在具有安装遮光板麦克风和安装门面或门的扬声器的汽车用途中。
在本发明的一个实施例中,CPU201通过双向接口230联接到一根车载数据总线208上。这根数据总线208允许控制和状态信息在车辆内的各种器件209a-n,如蜂窝电话、娱乐系统、环境控制系统等,与CPU201之间通信。期望适当的数据总线208是当前在由汽车工程师协会标准化的过程中的ITS数据总线(IDB)。可以使用在各种器件之间通信控制和状态信息的可选择装置,如由蓝牙特殊兴趣组(SIG)定义的短距离、无线数据通信系统。数据总线208允许CPU201响应由本地语音识别器或由客户机-服务器语音识别器识别的声音命令控制在车辆数据总线上的器件209。
CPU201经接收数据连接231和发射数据连接232联接到无线数据收发机203上。这些连接231-232允许CPU201接收从无线系统110发送的控制信息和语音合成信息。语音合成信息经无线数据通道105从客户机-服务器语音合成系统的服务器部分接收。CPU201译码然后输送到DSP202的语音合成信息。DSP202然后合成输出语音,并且把它输送到声频输出211。经接收数据连接231接收的任何控制信息可以用来控制用户单元本身的操作,或者发送到器件的一个或多个以便控制其操作。另外,CPU201能把状态信息、和输出数据从客户机-服务器语音识别系统的客户机部分发送到无线系统110。客户机-服务器语音识别系统的客户机部分最好在DSP202和CPU201中的软件中实现,如在下面更详细描述的那样。当支持语音识别时,DSP202从麦克风输入220接收语音,并且处理这种声频以把一个参数化语音信号提供给CPU 201。CPU 201编码参数化语音信号,并且把该信息经发射数据连接232发送到无线数据收发机203,以在无线数据通道105上发送到在基础结构中的语音识别服务器。
无线声音收发机204经一根双向数据总线233联接到CPU201上。这根数据总线允许CPU201控制无线声音收发机204的操作,并且从无线声音收发机204接收状态信息。无线声音收发机204经一个发射声频连接221和一个接收声频连接210也联接到DSP202上。当无线声音收发机204正在用来促进电话(蜂窝)呼叫时,声频从麦克风输入220由DSP202接收。麦克风声频被处理(例如滤波、压缩等),并且提供到无线声音收发机204以发射到蜂窝基础结构。相反,由无线声音收发机204接收的声频经接收声频连接210发送到其中处理(例如减压、滤波等)声频的DSP202,并且提供给扬声器输出211。参照图3将更详细地描述由DSP202进行的处理。
表明在图2中的用户单元可以选择性包括一个输入器件250,以便用来在声音通信期间人工提供一个中断指示器251。就是说,在声音对话期间,用户单元的用户能人工致动输入器件以提供一个中断指示器,由此信号化用户的希望以唤醒语音识别功能。例如,在声音通信期间,用户单元的用户可能希望中断对话以便把基于语音的命令提供给电子伴随物,例如拨号和把第三方添加到呼叫上。输入器件250可以虚拟地包括任何类型的用户致动输入机构,其具体的例子包括单或多目的按钮、一个多位置选择器或具有输入能力的菜单驱动显示器。要不然,输入器件250可以经双向接口230和车载数据总线208连接到CPU201上。无论如何,当提供这样一种输入器件250时,CPU201起一个探测器的作用以便辨别中断指示器的出现。当CPU201起一个用于输入器件250的探测器的作用时,CPU201把中断指示器的存在指示给DSP202,如由标号260标识的信号路径表明的那样。相反,另一种实施使用联接到探测器应用程序上的一个本地语音识别器(最好在DSP202和/或CPU201内实施)以提供中断指示器。在这种情况下,CPU201或DSP202发信号中断指示器的存在,如由标号260a标识的信号路径表示的那样。无论如何,一旦已经探测到中断指示器的存在,就致动语音识别元件的一部分(最好是结合或作为用户单元的部分实施的客户机部分),以开始处理基于声音的命令。另外,已经致动语音识别元件的部分的指示可以提供给用户和提供给语音识别服务器。在一个最佳实施例中,这样一种指示经发射数据连接232传送到无线数据收发机203,用于发射到与语音识别客户机共同操作的语音识别服务器以提供语音识别元件。
最后,用户单元最好装有一个信号器255,用来响应信号器控制256向用户单元的用户提供响应中断指示器已经致动语音识别功能的指示。信号器255响应中断指示器的探测而致动,并且可以包括一个用来提供可听指示,如有限时段的音调或蜂鸣,的扬声器。(同样,中断指示器的存在能使用基于输入器件的信号260或基于语音的信号260a发信号。)在另一种实施中,信号器的功能经由把声频指向扬声器输出211的DSP202执行的软件程序提供。扬声器可以与用来使声频输出211可听的扬声器271分离或与其相同。要不然,信号器255可以包括一个提供可见指示器的显示器件,如LED或LCD显示器。信号器255的具体形式是设计选择的问题,本发明不必在这方面受限制。更进一步,信号器255可以经双向接口230和车载数据总线208连接到CPU201上。
现在参照图3,示意表明在用户单元内进行的处理的一部分(按照本发明操作)。最好,使用存储的、由CPU201和/或DSP202执行的机器可读指令实现图3中表明的处理。下面呈现的讨论描述在机动车辆内采用的用户单元的操作。然而,一般表明在图3中并且在这里描述的功能同样适用于非基于车辆的用途,该使用或者能从语音识别的使用受益。
麦克风声频220作为输入提供给用户单元。在汽车环境中,麦克风是典型安装在遮光板或车辆的转向柱上或靠近其的免提麦克风。最好,麦克风声频220以数字形式到达回波抵消和环境处理(ECEP)块301。扬声器声频211在经受任何必要的处理之后由ECEP块301输送到扬声器。在车辆中,这样的扬声器能安装在仪表板下方。要不然,扬声器声频211能通过车载娱乐系统以便经娱乐系统的扬声器系统播放。扬声器声频211最好为数字格式。当蜂窝电话呼叫例如在进行中时,来自蜂窝电话的接收声频经接收声频连接210到达ECEP块301。同样,发射声频在发射声频连接221上输送到蜂窝电话。
ECEP块301经发射声频连接221把在输送之前来自麦克风声频220的扬声器声频211的回波抵消提供给无线声音收发机204。这种形式的回波抵消称作声学回波抵消,并且在先有技术中是已知的。例如,授予Amano等和标题为“辅助带声学回波抵消器”的美国专利No.5,136,599、和授予Genter和标题为“具有辅助带衰减和噪声注入控制的回波抵消器”的美国专利No.5,561,668,讲授用来进行声学回波抵消的适当技术,这些专利的讲授由此通过参考包括。
ECEP块301除回波抵消之外,也把环境处理提供给麦克风声频220,以便把更舒适的声音信号提供给接收由用户单元发射的声频的一方。普通使用的一种技术叫做噪声抑制。在车辆中的免提麦克风将典型地拾波由其它方听到的多种类型的声学噪声。这种技术减小其它方听到的感觉背景噪声,并且例如在授予Vilmur等的美国专利No.4,811,404中描述,该专利的讲授由此通过参考包括。
ECEP块301也经一条第一声频路径316提供由语音合成后端304提供的合成语音的回波抵消处理,这种合成语音经声频输出211传送到扬声器。如在使接收声音通向扬声器的情况下那样,抵消到达麦克风声频路径220上的扬声器声频“回波”。这允许在输送到语音识别前端302之前从麦克风声频消除声学联接到麦克风上的扬声器声频。这种类型的处理能够实现在先有技术中称作“闯入”的现象。闯入允许语音识别系统响应输入语音,同时输出语音同时由系统产生。“闯入”实施的例子能在例如美国专利No.4,914,692、5,475,791、5,708,704、和5,765,130中发现。下面更详细地描述对于闯入处理的本发明的应用。
每当正在进行语音识别处理时,回波抵消麦克风声频总是经一条第二声频路径326供给到语音识别前端302。可选择地是,ECEP块301把背景噪声信息经第一数据路径327提供给语音识别前端302。这种背景噪声信息能用来改进用于在噪声环境中操作的语音识别系统的识别性能。用来进行这样的处理的适当技术在授予Gerson等的美国专利No.4,918,732中描述,该专利的讲授由此通过参考包括。
根据回波抵消麦克风声频和可选择的从ECEP块301接收的背景噪声信息,语音识别前端302产生参数化语音信息。语音识别前端302和语音合成后端304一起提供基于客户机-服务器语音识别和合成系统的客户机侧部分的核心功能。参数化语音信息典型地为特征向量的形式,其中每10至20毫秒计算一个新向量。用于语音信号参数化的一种普通使用技术是唛耳逆谱,如由Davis等在“用于在连续口头句子中的单音节文字识别的参数表示的比较”,IEEE Transactions onAcoustics Speech and Signal Processing,ASSP-28(4),pp.357-366,1980年8月中描述的那样,其公开的讲授由此通过参考包括。
由语音识别前端302计算的参数向量经用于本地语音识别处理的第二数据路径325通到本地语音识别块303。参数向量也选择性地经一个第三数据路径323通到包括语音应用协议接口(API)和数据协议的协议处理块306。按照已知技术,处理块306经发射数据连接232把参数向量发送到无线数据收发机203。依次,无线数据收发机203把参数向量运送到起基于客户机-服务器的语音识别器部分的作用的服务器。(要理解,用户单元,而不是发送参数向量,能代之以使用无线数据收发机203或无线声音收发机204把语音信息发送到服务器。这可以以类似于用来支持从用户单元到电话网络的语音发射的方式、或使用语音信号的其它适当表示进行。就是说,语音信息可以包括多种非参数化表示的任一个粗数字声频、已经由蜂窝语音编码器处理的声频、根据诸如IP(互联网协议)之类的特定协议适于发射的声频数据等。依次,服务器在接收非参数化语音信息时能进行必要的参数化。)在表示单个语音识别前端302的同时,本地语音识别器303和基于客户机-服务器的语音识别器事实上可以利用不同的语音识别前端。
本地语音识别器303从语音识别前端302接收参数向量325,并且在其上进行语音识别分析,例如,以便确定在参数化语音内是否有任何可识别发声。在一个实施例中,把识别发声(典型地,话语)从本地语音识别器303经一条第四数据路径324发送到协议处理块306,第四数据路径324又把识别发声通到各种应用程序307以便进一步处理。使用CPU201和DSP202可以实现的应用程序307,能包括一个探测器应用程序,该探测器应用程序根据识别发声确定已经接收到基于语音的中断指示器。例如,探测器把识别发声与查寻匹配的预定发声清单(例如,“唤醒”)相比较。当探测到匹配时,探测器应用程序发出一个表示中断指示器存在的信号260a。中断指示器的存在又用来致动语音识别元件的一部分以开始处理基于声音的命令。这通过供给到语音识别前端的信号260a示意表明在图3中。在响应中,语音识别前端302继续把参数化声频通到本地语音识别器,或者最好通到协议处理块306,以便发射到用于另外处理的语音识别服务器。(也注意,可选择地由输入器件250提供的、基于输入器件的信号260,也可以用于相同功能。)另外,中断指示器的存在可以发送到发射数据连接232,以警告语音识别器的基于基础结构的元件。
语音合成后端304把语音的参量表示取作输入,并且把参量表示转换成经第一声频路径316然后输送到ECEP块301的语音信号。使用的特定参量表示是一个设计选择问题。一种普通使用的参量表示是在Klatt的“Software For A Cascade/Parallel Formant Synthesizer”,Journal of the Acoustical Society of America,Vol.67,1980,pp.971-995中描述的共振峰参数。线性预测参数是另一种普通使用的参量表示,如在Markel等的Linear Prediction of Speech,Springer Verlag,New York,1976中讨论的那样。Klatt和Markel等的出版物的相应讲授通过参考包括在这里。
在基于客户机-服务器的语音合成的情况下,从网络经无线通道105、无线数据收发机203和协议处理块306接收语音的参量表示,其中它经第五数据路径313前进到语音合成后端。在本地语音合成的情况下,应用程序307产生一个要讲出的文本串。该文本串通过协议处理块306经一条第六数据路径314到一个本地语音合成器305。本地语音合成器305把文本串转换成语音信号的参量表示,并且把该参量表示经第七数据路径315通到语音合成后端304以转换到语音信号。
应该注意,接收数据连接231能用来运送除语音合成信息之外的其它接收信息。例如,其它接收信息可以包括数据(如显示信息)和/或从基础结构接收的控制信息、和要下载到系统中的代码。同样,发射数据连接232除由语音识别前端302计算的参量向量之外能用来运送其它发射信息。例如,其它发射信息可以包括器件状态信息、器件能力、及与闯入计时有关的信息。
现在参照图4,表明有按照本发明提供客户机-服务器语音识别和合成系统的服务器部分的语音识别服务器的硬件实施例。这种服务器能驻留在对于图1以上描述的几种环境中。与用户单元或控制实体的数据通信能够通过基础结构或网络连接411实现。这种连接411对于例如无线系统可以是本地的,并且直接连接到无线网络上,如图1中所示。要不然,连接411可以是公共或私人数据网络、或其它的数据通信链接;本发明在这方面不受限制。
一个网络接口405提供在CPU 401与网络连接411之间的连接性。网络接口405把数据从网络411经接收路径408通到CPU401,并且从CPU401经发射路径410通到网络连接411。作为客户机-服务器布置的部分,CPU401经网络接口405和网络连接411与一个或多个客户机通信(最好在用户单元中实现)。在一个最佳实施例中,CPU401实现客户机-服务器语音识别和合成系统的服务器部分。尽管没有表示,表明在图4中的服务器也可以包括一个允许对服务器本地访问的本地接口,由此促进例如服务器维护、状态检查及其它类似功能。
一个存储器403存储在实施客户机-服务器布置的服务器部分时由CPU401执行和使用的机器可读指令(软件)和程序数据。这种软件的操作和结构参照图5进一步描述。
图5表明语音识别和合成服务器功能的实施。与至少一个语音识别客户机合作,表明在图5中的语音识别服务器功能提供一个语音识别元件。来自用户单元的数据经收发机路径408到达接收机(RX)502处。收发机译码数据,并且把语音识别数据503从语音识别客户机通到语音识别分析器504。来自用户单元的其它信息506,如器件状态信息、器件能力、及与闯入上下文有关的信息通过接收机502通到一个本地控制处理器508。在一个实施例中,其它信息506包括来自用户单元已经致动语音识别元件(例如,语音识别客户机)的一部分的指示。这样一种指示能用来启动在语音识别服务器中的语音识别处理。
作为客户机-服务器语音识别布置的部分,语音识别分析器504从用户单元取出语音识别参数向量,并且完成识别处理。识别的话语或发声507然后通到本地控制处理器508。要求把参数向量转换成识别发声的处理的描述能在Lee等的“Automatic Speech RecognitionTheDevelopment of the Sphinx System”,1998中发现,该出版物的讲授通过这种参考包括在这里。如以上描述的那样,也要理解,与其从用户单元接收参数向量,倒不如服务器(就是说,语音识别分析器504)可以接收没有参数化的语音信息。同样,语音信息可以具有上述多种形式的任一种。在这种情况下,语音识别分析器504首先使用例如唛耳逆谱技术参数化语音信息。生成的参数向量如上述那样然后可以转换成识别发声。
本地控制处理器508从语音识别分析器504接收识别发声507和其它信息508。一般地,本发明需要控制处理器基于识别发声而操作,并且根据识别发声提供控制信号。在一个最佳实施例中,这些控制信号用来以后控制用户单元或联接到用户单元上的至少一个器件的操作。为此,本地控制处理器可以最好以两种方式的一种操作。首先,本地控制处理器508能实现应用程序。典型应用程序的一个例子是在美国专利No.5,652,789中描述的电子助手。要不然,这样的应用程序能在远程控制处理器516上远程运行。例如,在图1的系统中,远程控制处理器包括控制实体116。在这种情况下,本地控制处理器508通过经数据网络连接515与远程控制处理器516通信,借助于通过和接收数据像网关那样操作。数据网络连接515可以是公共的(例如,互联网)、私人的(例如,内部网络)、或一些其它数据通信链路。的确,本地控制处理器508可以依据由用户使用的应用程序/服务与驻留在数据网络上的各种远程控制处理器通信。
在远程控制处理器516或本地控制处理器508上运行的应用程序,确定对识别发声507和/或其它信息506的响应。最好,响应可以包括一条合成消息和/或控制信号。控制信号513从本地控制处理器508转发到发射机(TX)510。要合成的信息514,典型的文本信息,从本地控制处理器508发送到文本至语音分析器512。文本至语音分析器512把输入文本串转换成参量语音表示。用来进行这样一种转换的适当技术在Sproat(编辑)的“Multilingual Text-To-Speech SynthesisTheBell Labs Approach”,1997中描述,该出版物的讲授通过这种参考包括在这里。来自文本至语音分析器512的参量语音表示511提供给发射机510,发射机510如必需的那样倍增参量语音表示511和在发射路径410上的控制信息513,以便发射到用户单元。以刚描述的相同方式操作,文本至语音分析器512也可以用来提供合成提示等,以作为在用户单元处的输出声频信号播放。
按照本发明的上下文确定表明在图6中。应该注意,用于表明在图6中的活动的基准点是用户单元的基准点。就是说,图6表明至和来自用户单元的可听信号的时间进行。特别是,表明通过输出声频信号601的时间的进行。输出声频信号601可以通过由第一输出无声时段604a分离的以前输出声频信号602进行,并且可以跟随有由第二输出无声时段604b的以后输出声频信号603。输出声频信号601可以包括任何声频信号,如语音信号、合成语音信号或提示、可听音调或蜂鸣等。在本发明的一个实施例中,每个输出声频信号601-603具有分配给它的一个有关唯一标识符,以帮助辨别在时间中任何给定时刻正在输出什么信号。这样的标识符可以按非实时预分配给各种输出声频信号(例如,合成提示、音调等)或者以实时创建和分配。而且,标识符本身可以与用来提供输出声频信号的信息一起传送,例如使用带内或带外发信号。要不然,在预分配标识符的情况下,标识符本身能提供给用户单元,并且根据标识符,用户单元能合成输出声频信号。具有在本专业方面的普通技巧的人员将认识到,用来提供和使用用于输出声频信号的标识符的各种技术可以容易地设想,并且适用于本发明。
如表示的那样,一个输入语音信号605在某一点处在相对于输出声频信号601的存在时刻产生。这是例如其中输出声频信号601-603是一系列合成语音提示而输入语音信号605是用户对语音提示任意一个的应答的情形。同样,输出声频信号也能是与用户单元通信的非合成语音信号。无论如何,探测输入语音信号,并且建立一个输入开始时间608以记录输入语音信号605的开始。存在用来确定输入语音信号开始的各种技术。一种这样的方法在美国专利No.4,821,325中描述。用来确定输入语音信号的开始的任何方法最好应该能够以好于1/20秒的分辨率分辨开始。
输入语音信号的开始能在两个依次输出开始时间607、610之间的任何时间探测,产生一个代表在其处相对于输出声频信号探测输入语音信号的精确点的间隔609。因而,在输出声频信号的呈现期间在任意点处能有效地探测输入语音信号的开始,输出声频信号可以选择性地包括一个跟随该输出声频信号的无声时段(即,当不是正在提供输出声频信号时)。要不然,一个跟随输出声频信号终止的任意长度的停工时段611可以用来划界输出声频信号的呈现结束。以这种方式,输入语音信号的开始能与各个输出声频信号相联系。要理解,能建立用来建立有效探测时段的其它协议。例如,在一系列输出提示都彼此相关的场合,有效探测时段能从用于提示系列的第一输出开始时间开始,并且在系列中最后提示之后的停工时段、或紧跟随系列的输出声频信号的第一输出开始时间结束。
用来探测输入开始时间的相同方法可以用来建立输出开始时间607、610。这对于其中输出声频信号是从基础结构直接提供的语音信号的那些实例特别真实。在输出声频信号是例如合成提示或其它合成输出的场合,输出开始时间可以更直接地通过时钟周期、样本边界或帧边界的使用确定,如在下面更详细描述的那样。无论如何,输出声频信号建立一个上下文,相对于其能处理输入语音信号。
如以上提到的那样,每个输出声频信号可以已经与其联系一个标识,由此提供在输出声频信号之间的差别。因而,作为确定何时输入语音信号相对于输出声频信号的上下文开始的选择例,也有可能只使用输出声频信号的标识作为描述输入语音信号的上下文的装置。这是例如其中知道在其处输入语音信号相对于输出声频信号开始的精确时间是不重要的情形,输入语音信号事实上进行仅在输出声频信号的呈现期间的某时刻开始。要进一步理解,这样的输出声频信号标识可以联系输入声频开始时间、或与不包括其相反地使用。
不管是否使用输入开始时间和/或输出声频信号标识,本发明在具有未定延迟特性的那些系统中能够实现准确的上下文确定。参照图7和8进一步表明用来实施和使用上述上下文确定技术的方法。
图7表明一种最好在用户单元内实现的、用来在输出声频信号的呈现期间处理输入语音信号的方法。例如,表明在图7中的方法最好使用存储的软件例行程序和由适当平台,如表明在图2中的CPU201和/或DSP202,执行的算法实现。要理解,其它器件,如网络计算机,能用来实现表明在图7中的步骤,并且使用专门的硬件器件,如门阵列或定制集成电路,能实现表示在图7中的一些或所有步骤。
在输出声频信号的呈现期间,在步骤701连续地确定是否已经探测到输入语音信号的开始。同样,用来确定语音信号开始的各种技术在先有技术中是已知的,并且可以同样由本发明用作设计选择的问题。在一个最佳实施例中,一个用来探测输入语音信号开始的有效时段在输出声频信号一开始就开始,并且在下个输出声频信号开始或在当前输出声频信号的结束处启动的停工计时器终止时终止。当探测到输入语音信号的开始时,在步骤702确定由输出声频信号建立的相对于上下文的输入开始时间。可以采用用来确定输入开始时间的各种技术的任一种。在一个实施例中,实时基准可以例如由CPU201保持(使用便利的时基,如秒或时钟周期),由此建立临时上下文。在这种情况下,输入开始时间表示为相对于输出声频信号的上下文的时间标签。在另一个实施例中,可听信号被重新构造和/或在一个样本接一个样本的基础上编码。例如,在使用8kHz声频抽样速率的系统中,每个声频样本与声频输入或输出的125微秒相对应。因而,在时间中的任何点(即输入开始时间)可以由相对于输出声频信号的开始样本的声频样本报索引表示(样本上下文)。在这种情况下,输入开始时间表示为相对输出声频信号的第一样本的样本索引。在又一个实施例中,可听信号在一帧接一帧的基础上重新构造,每帧包括多个样本时段。在这种方法中,输出声频信号建立一个帧上下文,并且输入开始时间表示为在帧上下文内的帧索引。不管如何表示输入开始时间,准确地当输入语音信号相对于输出声频信号开始时,输入开始时间以变化程度的分辨率记录。
至少从输入语音信号开始的探测,能选择性地分析输入语音信号,以便提供参数化语音信号,如由步骤703表示的那样。以上相对于图3讨论了用于语音信号参数化的专用技术。在步骤704,至少输入开始时间供响应输入语音信号之用。当在无线用户单元内实施图7的方法时,这个步骤包括输入开始时间至语音识别/合成服务器的无线发射。
最后,在步骤705,响应至少输入开始时间和在提供时,响应参数化语音信号,选择性地接收信息信号。在本发明的上下文中,这种“信息信号”包括用户单元可以基于其操作的数据信号。例如,这样的数据信号可以包括用来产生用户延迟或用户单元能自动拨叫的电话号码的显示数据。其它例子是容易由具有本专业方面的普通技巧的人员辨别的。本发明的“信息信号”也可以包括用来控制用户单元或联接到用户单元上的任何器件的操作的控制信号。例如,控制信号能指令用户单元提供布置数据或状态更新。同样,在具有本专业方面的普通技巧的人员可以设想多种类型的控制信号。参照图9进一步描述一种通过语音识别服务器用来提供这样的信息信号的方法。然而,对于图8进一步表明用来处理输入语音信号的一个可选择实施例。
图8的方法最好使用存储的软件例行程序和由适当平台,如图2中表明的CPU201和/或DSP202,执行的算法在用户单元内实现。其它器件,如网络计算机,能用来实现表明在图8中的步骤,并且使用专门的硬件器件,如门阵列或定制集成电路,能实现表示在图8中的一些或所有步骤。
在输出声频信号的呈现期间,在步骤801连续地确定是否已经探测到输入语音信号。用来确定语音信号的存在的各种技术在先有技术中是已知的,并且可以由本发明同样用作设计选择的问题。注意,表明在图8中的技术不特别涉及探测输入语音信号的开始,尽管这样一种确定可以包括在探测输入语音信号的存在的步骤中。
在步骤802,确定与输出声频信号相对应的标识。如对于图6在以上提到的那样,标识可以与输出声频信号相分离或包括到其中。最重要的是,输出声频信号标识必须唯一地把输出声频信号与所有其它输出声频信号相区分。在合成提示等的情况下,这能通过分配给每个这样的合成提示一个唯一代码实现。在实时语音的情况下,可以使用非重复代码,如基于基础结构的时间标签。不管如何表示标识,它必须是通过用户单元可确定的。
步骤803等效于步骤703,并且不必更详细地讨论。在步骤804,标识供响应输入语音信号之用。当图8的方法在无线用户单元内实施时,该步骤包括标识至语音识别/合成服务器的无线发射。以基本上与步骤705相同的方式,用户单元在步骤805能至少基于标识从基础结构接收信息信号。
图9表明一种用来通过语音识别服务器提供信息信号的方法。除提到的地方之外,表明在图9中的方法最好使用存储的软件例行程序和由适当平台,如表明在图4和5中的CPU401和/或远程控制处理器516执行的算法,实现。同样,基于其它软件和/或硬件的实施作为设计选择的问题是可能的。
在步骤901,语音识别服务器引起输出声频信号提供在用户单元处。这能使用通过把控制信号提供给指令用户单元合成唯一标识的语音提示或提示系列的用户单元实现。要不然,例如由文本至语音分析器512提供的参量语音表示能发送到用于语音信号的以后重新构造的用户单元。在本发明的一个实施例中,实时语音信号由其中语音识别服务器驻留的基础结构(有或没有语音识别服务器的插入)提供。这是例如其中用户单元经基础结构忙于与另一方声音通信的情形。
不管用来引起在用户单元处的输出声频信号的技术,在步骤902接收上述类型的上下文信息(输入开始时间和/或输出声频信号标识符)。在一种最佳技术中,与一种对应于输入语音信号的参数化语音信号一起,提供输入开始时间和输出声频信号标识符。
在步骤903,至少基于上下文信息,确定包括要传送到用户器件的控制信号和/或数据信号的信息信号。再参照图5,这最好由本地控制处理器508和/或远程控制处理516实现。在最小值处,上下文信息用来建立用于相对于输出声频信号的输入语音信号的上下文。该上下文能用来确定输入语音信号是否响应用来确定间隔的输出声频信号。与特定输出声频信号相对应的唯一标识符最好用来建立其中模糊性是可能的上下文,关于这种模糊性特定输出声频信号建立了用于输入语音信号的上下文。这是例如其中用户试图把电话呼叫放置于电话薄中某人的情形。系统能供给几个可能人员姓名以经声频输出呼叫。用户能借助于诸如“呼叫”之类的命令能中断输出声频。系统然后能根据唯一标识符、和/或输入开始时间,确定当用户中断时正在输出哪个姓名,并且把呼叫置于与姓名有关的电话号码。而且,具有建立的上下文,能分析如果提供的参数化语音信号以提供识别发声。如果任何需要响应输入语音信号,则识别发声又用来确定控制信号或数据信号。如果在步骤903确定任何控制或数据信号,则在步骤904把他们提供给上下文信息源。
上述本发明提供一种用来在输出声频信号的呈现期间处理输入语音信号的唯一技术。通过输入开始时间和/或输出声频信号标识符的使用建立一种用于输入语音信号的适当上下文。以这种方式,提供发送到用户单元的信息信号适当响应输入语音信号的较大确定性。以上已经描述的只表明本发明原理的应用。熟悉本专业的技术人员能实施其它布置和方法,而不脱离本发明的精神和范围。
权利要求
1.一种用来在输出声频信号的呈现期间处理输入语音信号的方法,该方法包括步骤探测输入语音信号的开始;相对于输出声频信号,确定输入语音信号的开始的输入开始时间;及提供输入开始时间供响应输入语音信号之用。
2.根据权利要求1所述的方法,其中输入开始时间包括关于输出声频信号的临时上下文的时间标签、关于输出声频信号的样本上下文的样本索引、和关于输出声频信号的帧上下文的帧索引的任一个。
3.一种带有用来进行权利要求1中所述的步骤的计算机可执行指令的计算机可读介质。
4.一种用来在输出声频信号的呈现期间处理输入语音信号的方法,该方法包括步骤探测输入语音信号;确定一个与输出语音信号相对应的标识;及提标识以供响应输入语音信号之用。
5.一种带有用来进行权利要求4中所述的步骤的计算机可执行指令的计算机可读介质。
6.在与包括一个语音识别服务器的基础结构无线通信的用户单元中,用户单元包括一个扬声器和一个麦克风,其中扬声器提供一个输出声频信号而麦克风提供一个输入语音信号,一种用来处理输入语音信号的方法,该方法包括步骤在输出语音信号的呈现期间探测输入语音信号的开始;相对于输出声频信号,确定输入语音信号的开始的输入开始时间;及把输入开始时间提供给语音识别服务器作为一个控制参数。
7.根据权利要求6所述的方法,进一步包括步骤至少部分基于输入开始时间从语音识别服务器接收至少一个信息信号。
8.根据权利要求6所述的方法,确定开始标记的步骤进一步包括步骤确定不早于输出声频信号的开始和不晚于以后输出声频信号的开始的输入开始时间。
9.根据权利要求6所述的方法,其中输入开始时间是关于输出声频信号的临时上下文的时间标签、关于输出声频信号的样本上下文的样本索引、和关于输出声频信号的帧上下文的帧索引的任一个。
10.根据权利要求6所述的方法,其中输出声频信号包括由基础结构提供的一个语音信号。
11.根据权利要求6所述的方法,其中输出声频信号包括响应由基础结构提供的控制信号由用户单元合成的一个语音信号。
12.根据权利要求6所述的方法,进一步包括步骤分析输入语音信号以提供一个参数化语音信号;把参数化语音信号提供给语音识别服务器;及至少部分根据输入开始时间和参数化语音信号从语音识别服务器接收至少一个信息信号。
13.在与包括一个语音识别服务器的基础结构无线通信的用户单元中,用户单元包括一个扬声器和一个麦克风,其中扬声器提供一个输出声频信号而麦克风提供一个输入语音信号,一种用来处理输入语音信号的方法,该方法包括步骤在输出声频信号的呈现期间探测输入语音信号;确定与输出声频信号相对应的标识;及把标识提供给语音识别服务器作为一个控制参数。
14.根据权利要求13所述的方法,进一步包括步骤至少部分基于标识从语音识别服务器接收至少一个信息信号。
15.根据权利要求13所述的方法,其中输出声频信号包括由基础结构提供的一个语音信号。
16.根据权利要求13所述的方法,其中输出声频信号包括响应由基础结构提供的控制信号由用户单元合成的一个语音信号。
17.根据权利要求13所述的方法,进一步包括步骤分析输入语音信号以提供一个参数化语音信号;把参数化语音信号提供给语音识别服务器;及至少部分根据标识和参数化语音信号从语音识别服务器接收至少一个信息信号。
18.在形成与一个或多个用户单元无线通信的基础结构的一部分的语音识别服务器中,一种用来把信息信号提供给一个或多个用户单元的用户单元的方法,该方法包括步骤使输出声频信号呈现在用户单元处;从用户单元接收与在用户单元处的输出声频信号有关的输入语音信号的开始相对应的至少一个输入开始时间;及至少部分响应输入开始时间,把信息信号提供给用户单元。
19.根据权利要求18所述的方法,其中输入开始时间是关于输出声频信号的临时上下文的时间标签、关于输出声频信号的样本上下文的样本索引、和关于输出声频信号的帧上下文的帧索引的任一个。
20.根据权利要求18所述的方法,其中引起输出声频信号的步骤进一步包括步骤把一个语音信号提供给用户单元。
21.根据权利要求18所述的方法,提供信息信号的步骤进一步包括步骤把信息信号指向用户单元,其中信息信号控制用户单元的操作。
22.根据权利要求18所述的方法,其中用户单元联接到至少一个器件上,提供信息信号的步骤进一步包括步骤把信息信号指向至少一个器件,其中信息信号控制至少一个器件的操作。
23.根据权利要求18所述的方法,其中引起输出声频信号的步骤进一步包括步骤把控制信号提供给用户单元,其中控制信号使用户单元合成一个语音信号作为输出声频信号。
24.根据权利要求18所述的方法,进一步包括步骤接收与输入语音信号相对应的参数化语音信号;和至少部分响应输入开始时间和参数化语音信号,把信息信号提供给用户单元。
25.在形成与一个或多个用户单元无线通信的基础结构的一部分的语音识别服务器中,一种用来把信息信号提供给一个或多个用户单元的用户单元的方法,该方法包括步骤使输出声频信号呈现在用户单元处,其中输出声频信号带有一个对应标识;当在输出声频信号的呈现期间在用户单元处探测到一个输入语音信号时,从用户单元至少接收标识;及至少部分响应标识,把信息信号提供给用户单元。
26.根据权利要求25所述的方法,其中引起输出声频信号的步骤进一步包括步骤把一个语音信号提供给用户单元。
27.根据权利要求25所述的方法,提供信息信号的步骤进一步包括步骤把信息信号指向用户单元,其中信息信号控制用户单元的操作。
28.根据权利要求25所述的方法,其中用户单元联接到至少一个器件上,提供信息信号的步骤进一步包括步骤把信息信号指向至少一个器件,其中信息信号控制至少一个器件的操作。
29.根据权利要求25所述的方法,其中引起输出声频信号的步骤进一步包括步骤把控制信号提供给用户单元,其中控制信号使用户单元合成一个语音信号作为输出声频信号。
30.根据权利要求25所述的方法,进一步包括步骤接收与输入语音信号相对应的参数化语音信号;和至少部分响应标识和参数化语音信号,把信息信号提供给用户单元。
31.一种与包括一个语音识别服务器的基础结构无线通信的用户单元,用户单元包括一个扬声器和一个麦克风,其中扬声器提供一个输出声频信号而麦克风提供一个输入语音信号,用户单元进一步包括用来探测输入语音信号开始的装置;用来相对于输出声频信号确定输入语音信号的开始的输入开始时间的装置;及用来把输入开始时间提供给语音识别服务器作为一个控制参数的装置。
32.根据权利要求31所述的用户单元,进一步包括用来至少部分根据输入开始时间从语音识别服务器接收至少一个控制信号的装置。
33.根据权利要求32所述的用户单元,进一步包括用来分析输入语音信号以提供一个参数化语音信号的装置,其中用来提供的装置进一步起把参数化语音信号提供给语音识别服务器的作用,而用来接收的装置进一步起至少部分根据输入开始时间和参数化语音信号从语音识别服务器接收至少一个控制信号的作用。
34.根据权利要求31所述的用户单元,其中用来确定输入开始时间的装置起确定不早于输出声频信号的开始和不晚于以后输出声频信号的开始的输入开始时间的作用。
35.根据权利要求31所述的用户单元,其中输入开始时间是关于输出声频信号的临时上下文的时间标签、关于输出声频信号的样本上下文的样本索引、和关于输出声频信号的帧上下文的帧索引的任一个。
36.根据权利要求31所述的用户单元,进一步包括用来从基础结构接收一个要提供为输出声频信号的语音信号的装置。
37.根据权利要求31所述的用户单元,进一步包括用来从基础结构接收关于输出声频信号的控制信号的装置;和用来响应控制信号把语音信号合成为输出声频信号的装置。
38.一种与包括一个语音识别服务器的基础结构无线通信的用户单元,用户单元包括一个扬声器和一个麦克风,其中扬声器提供一个输出声频信号而麦克风提供一个输入语音信号,用户单元进一步包括用来在输出声频信号的呈现期间探测输入语音信号开始的装置;用来确定与输出声频信号相对应的标识的装置;及用来把标识提供给语音识别服务器作为一个控制参数的装置。
39.根据权利要求38所述的用户单元,进一步包括用来至少部分根据标识从语音识别服务器接收至少一个控制信号的装置。
40.根据权利要求39所述的用户单元,进一步包括用来分析输入语音信号以提供一个参数化语音信号的装置,其中用来提供的装置进一步起把参数化语音信号提供给语音识别服务器的作用,而用来接收的装置进一步起至少部分根据标识和参数化语音信号从语音识别服务器接收至少一个控制信号的作用。
41.根据权利要求38所述的用户单元,进一步包括用来从基础结构接收一个要提供为输出声频信号的语音信号的装置。
42.根据权利要求38所述的用户单元,进一步包括用来从基础结构接收关于输出声频信号的控制信号的装置;和用来响应控制信号把语音信号合成为输出声频信号的装置。
43.一种形成与一个或多个用户单元无线通信的基础结构的一部分的语音识别服务器,该语音识别服务器进一步包括用来使输出声频信号呈现在一个或多个用户单元的用户单元处的装置;用来从用户单元接收与在用户单元处的输出声频信号有关的输入语音信号的开始相对应的至少一个输入开始时间的装置;及至少部分响应输入开始时间用来把信息信号提供给用户单元的装置。
44.根据权利要求43所述的语音识别服务器,其中输入开始时间是关于输出声频信号的临时上下文的时间标签、关于输出声频信号的样本上下文的样本索引、和关于输出声频信号的帧上下文的帧索引的任一个。
45.根据权利要求43所述的语音识别服务器,其中用来提供信息信号的装置进一步起把信息信号指向用户单元的作用,其中信息信号控制用户单元的操作。
46.根据权利要求43所述的语音识别服务器,其中用户单元联接到至少一个器件上,并且其中用来提供信息信号的装置进一步起把信息信号指向至少一个器件的作用,其中信息信号控制至少一个器件的操作。
47.根据权利要求43所述的语音识别服务器,其中用来引起输出声频信号的装置进一步起提供一个要作为输出声频信号提供的语音信号的作用。
48.根据权利要求43所述的语音识别服务器,其中用来引起输出声频信号的装置进一步起把控制信号提供给用户单元的作用,其中控制信号使用户单元合成语音信号作为输出声频信号。
49.根据权利要求43所述的语音识别服务器,用来接收的装置进一步起接收一个与输入语音信号相对应的参数化语音信号的作用,而用来提供的装置进一步起至少部分响应输入开始时间和参数化语音信号把信息信号提供给用户单元的作用。
50.一种形成与一个或多个用户单元无线通信的基础结构的一部分的语音识别服务器,该语音识别服务器进一步包括用来使输出声频信号呈现在一个或多个客房单元的用户单元处的装置,其中输出声频信号带有一个对应标识;当在输出声频信号的呈现期间在用户单元处探测一个输入语音信号时用来从用户单元至少接收标识的装置;及至少部分响应标识用来把信息信号提供给用户单元的装置。
51.根据权利要求50所述的语音识别服务器,其中用来引起输出声频信号的装置进一步起提供一个要作为输出声频信号提供的语音信号的作用。
52.根据权利要求50所述的语音识别服务器,其中用来引起输出声频信号的装置进一步起把控制信号提供给用户单元的作用,其中控制信号使用户单元合成语音信号作为输出声频信号。
53.根据权利要求50所述的语音识别服务器,用来接收的装置进一步起接收一个与输入语音信号相对应的参数化语音信号的作用,而用来提供的装置进一步起至少部分响应输入开始时间和参数化语音信号把信息信号提供给用户单元的作用。
54.根据权利要求50所述的语音识别服务器,用来提供信息信号的装置进一步起把信息信号指向用户单元的作用,其中信息信号控制用户单元的操作。
55.根据权利要求50所述的语音识别服务器,其中用户单元联接到至少一个器件上,并且其中用来提供信息信号的装置进一步起把信息信号指向至少一个器件的作用,其中信息信号控制至少一个器件的操作。
全文摘要
在输出声频信号的呈现期间探测输入语音信号的开始,并且确定相对于输出声频信号的输入开始时间(701)。然后提供输入开始时间供响应输入语音信号之用。当在输出声频信号的呈现期间探测到输入语音信号时,提供输出声频信号的标识供响应输入语音信号之用。至少响应提供的上下文信息,即声频输出信号的输入开始时间和/或标识,提供包括数据和/或控制信号的信息信号(705)。本发明准确地建立相对于输出声频信号的输入语音信号的上下文,而不顾基础通信系统的延迟特性。
文档编号G10L11/00GK1408111SQ00816730
公开日2003年4月2日 申请日期2000年10月4日 优先权日1999年10月5日
发明者艾拉·A·加森 申请人:约莫拜尔公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1