基于语言独立女性语音数据的男性声学模型适应的制作方法

文档序号：2836065阅读：417来源：国知局

专利名称：基于语言独立女性语音数据的男性声学模型适应的制作方法
基于语言独立女性语音数据的男性声学模型适应技术领域
本发明总体涉及自动语音识别。
技术背景
自动语音识别(ASR)技术使得配备有麦克风的计算设备能够解释语音，从而提供对传统人-机输入设备(诸如键盘和小键盘)的替代方式。ASR系统使用声学模型来识别语音。声学模型是对构成语音话语，如词，或音素或其他子词的一个或多个声音的统计表示。通过训练过程产生话语的声学模型，训练过程包括记录在多个语境下来自许多人的话语的多个实例的音频，以及将这些话语实例编译成话语的一个或多个统计表示。例如，可以通过 50个男人和50个女人每人在一个或多个环境下说出每个数字10次来训练用于数字0-9的声学模型。因此，对于每个数字，将会有500个女性话语实例和500个男性话语实例。每个数字的所有话语实例可以被编译成每个数字的一个或多个不区分男女的统计表示，或者每个数字的女性话语实例可以被编译成每个数字的一个或多个女性统计表示且每个数字的男性话语实例可以被编译成每个数字的一个或多个男性统计表示。
但是ASR遇到的问题是对于某些人口统计的女性说话者来说可能有很少甚至没有训练数据可用。例如，在一些人口中，女性声学模型训练数据很难或无法获得。在另一示例中，在一些人口中，许多女性目前不驾驶，因此缺乏统计学上有意义的车内女性语音数据。这种数据的缺乏使得很难改善对于某些女性用户的语音识别性能。发明内容
根据本发明的一个实施例，提供一种产生在自动语音识别中使用的代理声学模型的方法。所述方法包括步骤(a)根据经由麦克风从第一语言的男性说话者接收的语音训练声学模型；以及(b)响应于来自第二语言的女性说话者的语言独立语音数据使在步骤 (a)中训练的声学模型适应，以产生代理声学模型，从而在对来自第一语言的女性说话者的话语的语音识别运行时间期间使用。
根据本发明的另一实施例，提供一种自动语音识别的方法，包括下述步骤(a)经由麦克风从第一语言的女性说话者接收话语；(b)使用自动语音识别预处理器对该话语进行预处理，以产生声学特征向量；(c)确定所接收话语的至少一个共振峰频率；(d)确认来自第二语言的女性说话者的语音数据中的多个共振峰频率带中的与步骤(c)确定的至少一个共振峰频率相对应的至少一个；以及(e)响应于确认步骤(d)使根据来自第一语言的男性说话者的语音训练的声学模型适应，以产生用于第一语言的女性说话者的代理声学模型。
本发明还提供了如下方案方案1. 一种产生用在自动语音识别中的代理声学模型的方法，包括步骤(a)根据经由麦克风从第一语言的男性说话者接收的语音训练声学模型；以及(b)响应于来自第二语言的女性说话者的语言独立语音数据使在步骤(a)中被训练的声学模型适应，以产生代理声学模型，从而在对来自第一语言的女性说话者的话语的语音识别运行时间期间使用。
方案2.如方案1所述的方法，其中，在语音识别运行时间之前实施适应步骤(b)。
方案3.如方案1所述的方法，其中，在语音识别运行时间期间对来自第一语言的女性说话者的话语实施适应步骤(b)。
方案4.如方案3所述的方法，其中，响应于识别出来自第二语言的女性说话者的语音数据中的多个共振峰频带中的与在来自第一语言的女性说话者的话语中确定的至少一个共振峰频率相对应的至少一个，来实施适应步骤(b)。
方案5.如方案4所述的方法，其中，响应于识别出来自第二语言的女性说话者的语音数据中的多个共振峰频带中的所述至少一个，通过对在步骤(a)中被训练的声学模型进行频率规整来实施适应步骤(b)。
方案6.如方案4所述的方法，其中，在来自第一语言的女性说话者的话语中确定的至少一个共振峰频率是所接收的话语中的多个共振峰频率的平均。
方案7.如方案6所述的方法，其中，所接收的话语中的多个共振峰频率是来自第一共振峰、第二共振峰或第三共振峰中的至少一个。
方案8.如方案6所述的方法，其中，确定步骤(C)的至少一个共振峰频率包括第一共振峰、第二共振峰和第三共振峰。
方案9. 一种自动语音识别的方法，包括步骤(a)经由麦克风从第一语言的女性说话者接收话语；(b)使用自动语音识别预处理器对话语进行预处理，以产生声学特征向量；(c)确定所接收话语的至少一个共振峰频率；(d)识别来自第二语言的女性说话者的语音数据中的多个共振峰频带中的与步骤(C) 中确定的至少一个共振峰频率相对应的至少一个；以及(e)响应于识别步骤(d)使根据来自第一语言的男性说话者的语音训练的声学模型适应，以得到代理声学模型，从而用于第一语言的女性说话者。
方案10.根据方案9所述的方法，还包括步骤(f)，其使用处理器以及在步骤(e) 被适应的声学模型对在步骤(b)产生的声学特征向量进行解码，以产生所接收话语的多个假设。
方案11.根据方案10所述的方法，还包括步骤(g)，其对所述多个假设进行后处理，从而将所述多个假设中的一个识别为所接收的语音。
方案12.根据方案9所述的方法，其中确定步骤(c)的至少一个共振峰频率是所接收话语的多个共振峰频率的平均。
方案13.根据方案12所述的方法，其中所接收话语的所述多个共振峰频率包括第一共振峰、第二共振峰或第三共振峰中的至少一个。
方案14.根据方案9所述的方法，其中确定步骤(c)的至少一个共振峰频率包括第一共振峰、第二共振峰和第三共振峰。
方案15.根据方案9所述的方法，其中适应步骤(e)包括对声学模型进行频率规整以产生代理声学模型。

下面将结合附图描述本发明的一个或多个优选的示例性实施例，其中，相同的标号表示相同的元件，其中图1是描绘能够利用在此公开的方法的通信系统的示例性实施例的框图；图2是示出能够与图1的系统一起使用且用于实施语音识别的示例性方法的自动语音识别(ASR)系统的示例性实施例的框图；图3是示出产生在能够在图2的ASR系统中被执行的在自动语音识别中使用的声学模型的方法的示例性实施例的流程图；以及图4是示出能够在图2的ASR系统中被执行的自动语音识别的方法的示例性实施例的流程图。
具体实施方式
下面的描述描述了示例通信系统、可以与所述通信系统一起使用示例ASR系统以及可以与上述系统的一者或全部两者一起使用的一个或多个示例方法。车辆远程信息处理单元(VTU)可以使用下面描述的方法，VTU是识别VTU的用户说出的语音的部件。尽管下面描述的方法是可被执行以用于VTU，但是将理解，该方法在任何类型车辆语音识别系统和其他类型语音识别系统中是可用的。例如，所述方法可以实施在启用ASR的移动计算设备或系统，个人计算机等中。
通信系统-参照图1，示出包括移动车辆通信系统10且可以用于实现在此公开的方法的示例性操作环境。通信系统10通常包括车辆12、一个或多个无线载波系统14、地面通信网络16、计算机18和呼叫中心20。应该理解，公开的方法可以与任何数量的不同系统一起使用，并且不被具体地限制到在此示出的操作环境。另外，系统10的架构、结构、设置和操作以及其各个部件是本领域公知的。因此，下面的段落仅提供对一个这种示例性系统10的简要概述，然而，在此没有示出的其他系统也可以采用公开的方法。
在示出的实施例中将车辆12描述为小客车，但是应该理解，也可以使用任何其他车辆，包括摩托车、卡车、运动型多功能车(SUV)、休闲车(RV)、船只、航空器等。图1中总体示出部分车辆电子设备观，包括远程信息处理单元30、麦克风32、一个或多个按钮或其他控制输入34、音频系统36、可视显示器38和GPS模块40以及多个车辆系统模块(VSM)42。这些设备的一部分可以直接连接到远程信息处理单元，例如，麦克风32和按钮34，而其他的是使用一个或多个网络连接(诸如通信总线44或娱乐总线46)间接连接的。适当网络连接的示例包括控制器局域网络(CAN)、面向媒体的系统传输(MOST)、本地互连网络(LIN)、局域网(LAN)和其他适当连接，诸如符合已知IS0、SAE和IEEE标准和规范的以太网或其他，仅列出一些。
远程信息处理单元30可以OEM是安装的(嵌入的)或后市场设备，其能够通过无线载波系统14和通过无线联网进行无线话音和/或数据通信，从而车辆能够与呼叫中心20、其他启用远程信息处理的车辆、或一些其他实体或设备进行通信。远程信息处理单元优选地使用无线电传输来建立与无线载波系统14的通信信道(话音信道和/或数据信道)，从而能够通过信道发送和接收话音和/或数据传输。通过提供话音和数据通信，远程信息处理单元30使车辆能够提供多种不同服务，包括与导航、电话、紧急援助、诊断、娱乐信息等相关的服务。可以使用现有技术中已知的技术通过数据连接(诸如通过数据信道的包数据传输)或者通过话音信道发送数据。对于包括话音通信(例如，与在呼叫中心20处的在线顾问或话音响应单元)和数据通信(例如，向呼叫中心20提供GPS位置数据或车辆诊断数据)的组合服务，系统可以使用通过话音信道的单独呼叫以及按照需要在话音信道上进行话音和数据传输之间的切换，并且这可以使用本领域技术人员公知的技术来实现。
根据一个实施例，远程信息处理单元30使用根据GSM或CDMA标准的蜂窝通信，并因此包括用于话音通信(例如，免提呼叫)的标准移动电话芯片组50、用于数据传输的无线调制解调器、电子处理设备52、一个或多个数字存储设备M和双天线56。应该理解，可以通过存储在远程信息处理单元中且通过处理器52执行的软件实现调制解调器，并且调制解调器可以是位于远程信息处理单元30内部或外部的单独硬件部件。调制解调器可以使用任何不同标准或协议来操作，诸如EVDO、CDMA、GPRS和EDGE。也可以使用远程信息处理单元30实现车辆与其他联网的设备之间的无线联网。为此，远程信息处理单元30可以被配置为根据一个或多个无线协议进行无线通信，诸如IEEE 802. 11协议、WiMAX或蓝牙中的任一个。当用于诸如TCP/IP的分组交换数据通信时，远程信息处理单元可以配置有静态IP 地址或者能够设置为自动从网络上的另一设备(诸如路由器)或者从网络地址服务器接收所分配的IP地址。
处理器52可以是能够处理电子指令的任何类型的设备，包括微处理器、微控制器、主处理器、控制器、车辆通信处理器和专用集成电路(ASIC)。其可以是仅用于远程信息处理单元30的专用处理器，或者可以与其他车辆系统共享。处理器52执行各种类型的数字化存储指令，诸如存储器M中存储的软件或固件程序，这些指令使远程信息处理单元30 能够提供多种类型的服务。例如，处理器52能够执行程序或处理数据，以实现在此讨论的方法的至少一部分。
远程信息处理单元30可以用于提供多样化范围的车辆服务，包括来自车辆的无线通信和/或到车辆的无线通信。这些服务包括结合基于GPS的车辆导航模块40提供的建议路线指向和其他导航相关服务；结合一个或多个碰撞传感器接口模块(诸如车身控制模块)(未示出)提供的安全气囊部署通知和其他紧急或路边援助相关的服务；使用一个或多个诊断模块的诊断报告；以及娱乐信息相关服务，其中，音乐、网页、电影、电视节目、视频游戏和/或其他信息通过娱乐信息模块(未示出)下载且被存储以用于当前或以后播放。上述列出的服务不是远程信息处理单元30的所有功能的详尽列表，而是仅是远程信息处理单元30能够提供的一些服务的列举。此外，应该理解，可以以远程信息处理单元30内部或外部存储的软件指令的形式实现上述模块的至少一部分，上述模块的至少一部分可以是位于远程信息处理单元30内部或外部的硬件部件，或者上述模块的至少一部分可以彼此之间或者与车辆内的其他系统集成和/或共享，仅阐述了几种可能性。在将模块实现为远程信息处理单元30外部的VSM 42的情况下，模块可以使用车辆总线44与远程信息处理单元 30交换数据和命令。
GPS模块40从GPS卫星的星座60接收无线电信号。根据这些无线电信号，模块 40可以确定车辆位置，用于向车辆驾驶员提供导航和其他位置相关服务。可以在显示器38 (或者车辆内的其他显示器)上呈现导航信息，或者可以用言辞地表示导航信息，诸如当提供建议路线导航时用言辞进行。可以使用车辆中专用导航模块(可以是GPS模块40的一部分)提供导航服务，或者可以通过远程信息处理单元30完成部分或全部导航服务，其中，为了向车辆提供导航地图、地图标注(感兴趣的点、餐馆等)、路线计算等，向远程位置发送位置信息。为了其他目的，诸如车队管理，位置信息可以提供给呼叫中心20或其他远程计算机系统，诸如计算机18。另外，可以通过远程信息处理单元30将新的或更新的地图数据从呼叫中心20下载到GPS模块40。
除了音频系统36和GPS模块40之外，车辆12可以包括电子硬件部件形式的其他车辆系统模块(VSM)42，其遍布车辆定位且通常从一个或多个传感器接收输入，且使用感测的输入执行诊断、监测、控制、报告和/或其他功能。优选地，每个VSM 42通过通信总线44 连接到其他VSM以及连接到远程信息处理单元30，并且可以被编程以运行车辆系统和子系统诊断测试。作为示例，一个VSM 42可以是引擎控制模块(ECM)，其控制引擎操作的各个方面，诸如燃料点火和点火正时，另一 VSM 42可以是动力系控制模块，其调整车辆动力系的一个或多个部件的操作，另一 VSM 42可以是车身控制模块，其管理遍布车辆定位的各个电部件，例如，车辆的电动门锁和前灯。根据一个实施例，引擎控制模块配备有车载诊断(OBD) 特征，其提供诸如从包括车辆排放物传感器的各种传感器接收的各种实时数据，并且提供标准化的一系列诊断故障码(DTC)，这些码允许技术人员快速识别和消除车辆内的故障。如本领域的技术人员所知，上述VSM仅是可以在车辆12中使用的部分模块的示例，许多其他情况也是可行的。
车辆电子设备观还包括多个车辆用户接口，该接口向车辆占用者提供用于提供和/或接收信息的手段，包括麦克风32、按钮34、音频系统36和可视显示器38。如在此使用，术语“车辆用户接口，，广泛地包括任何适当形式的电子设备，包括硬件和软件部件，该电子设备位于车辆上且使车辆用户能够与车辆的部件通信或者通过车辆的部件进行通信。麦克风32向远程信息处理单元提供音频输入，以使驾驶员或其他占用者能够通过无线载波系统14提供话音命令和实现免提呼叫。为此，可以利用现有技术中已知的人机接口(HMI) 技术将麦克风连接到车载自动话音处理单元。按钮34允许到远程信息处理单元30的手动用户输入，以启动无线电话呼叫和提供其他数据、响应或控制输入。相对于一般服务援助呼叫，可以使用单独的按钮向呼叫中心20发起紧急呼叫。音频系统36向车辆占用者提供音频输出，并且可以是专用独立系统或者是主车辆音频系统的一部分。根据在此示出的具体实施例，音频系统36可操作地连接到车辆总线44和娱乐总线46，并且能够提供AM、FM、卫星无线电、⑶、DVD和其他多媒体功能。可以结合或者独立于上述娱乐信息模块提供此功能。可视显示器38优选地是图形显示器，诸如仪表板上的触摸屏或者挡风玻璃反射出来的抬头显示器，并且可以用于提供多种输入和输出功能。由于图1的接口仅是一个具体实施例的示例，因此也可以使用各种其他车辆用户接口。
无线载波系统14优选地是无线电话系统，包括多个手机信号塔70 (仅示出一个)，一个或多个移动交换中心(MSC) 72以及将无线载波系统14与地面网络16连接所需的任何其他联网部件。每个手机信号塔70包括发送和接收天线以及基站，其中，来自不同手机信号塔的基站直接连接到MSC 72或者通过诸如基站控制器的中间设备连接。无线系统14 可以实现任何适当的通信技术，例如，包括诸如AMPS的模拟技术，或者诸如CDMA (例如， CDMA2000)或GSM/GPRS的更新的数字技术。如本领域的技术人员所理解，各种手机信号塔/基站/MSC布置都是可行的，并且可以与无线系统14 一起使用。例如，基站和手机信号塔可以共同位于相同地点，或者他们可以彼此远离地定位，每个基站可以负责单个手机信号塔或者单个基站可以服务于各个手机信号塔，以及不同的基站可以连接到单个MSC，仅列出一些可行布置。
除了使用无线载波系统14之外，可以使用卫星通信形式的不同无线载波系统，来提供与车辆的单向或双向通信。可以使用一个或多个通信卫星62和上行链路发射站64来实现此功能。例如，单向通信可以是卫星无线电服务，其中，发射站64接收节目内容(新闻、音乐等)，节目内容被打包用于上载，然后发送到卫星62，卫星62向订购者广播节目内容。例如，双向通信可以是使用卫星62在车辆12与站64之间中继电话通信的卫星电话服务。如果被使用，则该卫星电话可以在无线载波系统14的基础上或者代替无线载波系统14地被使用。
地面网络16可以是传统基于地面的电信网络，其连接到一个或多个陆上通信线电话并且将无线载波系统14连接到呼叫中心20。例如，地面网络16可以包括公共交换电话网(PSTN)，诸如用于提供硬线电话、分组交换数据通信和互联网基础设施的那些。可以通过使用标准有线网络、光纤或其他光网络、电缆网络、电源线、诸如无线局域网(WLAN)的其他无线网络或者提供宽带无线接入的网络或者其组合实现地面网络16的一段或多段。此外，呼叫中心20不必通过地面网络16被连接，而是可以包括无线电话设备，从而其可以直接与无线网络进行通信，诸如无线载波系统14。
计算机18可以是通过诸如互联网的私有或公共网络可访问的多个计算机之一。每个这种计算机18可以用于一种或多种目的，诸如可由车辆通过远程信息处理单元30和无线载波14访问的web服务器。例如，其他这种可访问的计算机18可以是服务中心计算机，用该计算机可以通过远程信息处理单元30从车辆上载诊断信息和其他车辆数据；车辆拥有者或其他订购者使用的用于访问或接收车辆数据或者设置或配置订购者优选项或控制车辆功能目的的客户计算机；或者第三方存储器，通过与车辆12或呼叫中心20或与这两者通信来提供车辆数据或其他信息到该第三方存储器或从其接收所述车辆数据或其他信息。计算机18还可以用于提供互联网连接性，诸如DNS服务或者作为网络地址服务器，其使用DHCP或其他适当协议向车辆12分配IP地址。
呼叫中心20被设计为向车辆电子设备观提供多个不同系统后端功能，并且根据在此示出的示例性实施例，呼叫中心20通常包括一个或多个交换机80、服务器82、数据库 84、在线顾问86以及自动话音应答系统(VRS)88，所有这些都是本领域已知的。这些不同的呼叫中心部件优先地通过有线或无线局域网90彼此连接。交换机80可以是专用交换 (PBX)交换机，路由进入信号，从而通常通过普通电话将话音传输发送到在线顾问86或者使用VoIP将话音传输发送到自动话音应答系统88。在线顾问电话也可以使用VoIP，如图 1的虚线所指示。可以通过交换机80与网络90之间连接的调制解调器(未示出)实现通过交换机80的VoIP和其他数据通信。数据传输经由调制解调器被传送到服务器82和/或数据库84。数据库84可以存储账户信息，诸如订购者认证信息、车辆标识、个人资料记录、行为模式和其他相关订购者信息。还可以通过无线系统，诸如802. llx、GPRS等进行数据传输。尽管所示出的实施例已被描述为它将被与使用在线顾问86的人工呼叫中心20联合使用，但是可以理解，呼叫中心可以替代地使用VRS 88作为自动顾问，或者可以使用VRS 88与在线顾问86的组合。
自动语音识别系统-现转到图2，示出可以用于实施当前公开的方法的ASR系统210的示例性架构。通常，车辆占用者为了下面的一个或多个基本目的用言辞与自动语音识别系统(ASR)进行交互训练系统以理解车辆占用者的特定话音；存储离散语音，诸如说出的用户标签或说出的控制词，如数字或关键字；或者为了诸如话音拨号、菜单导航、转录、服务请求、车辆设备或设备功能控制等的任何适当目的而识别车辆占用者语音。通常，ASR从人类语音提取声学数据，将该声学数据与存储的子词数据进行对照和对比，选择能够与其他选择的子词连结的适当子词，并且输出连结后的各子词或词以用于后处理，诸如口述或转录、地址簿拨号、存储到存储器、训练ASR模型或适应参数等。
ASR系统通常是本领域技术人员已知的，且图2仅示出一个特定示例性ASR系统 210。系统210包括接收语音的设备，诸如远程信息处理麦克风32，以及声学接口 33，诸如远程信息处理单元30的具有模数转换器以将语音转换为声学数据的声卡。系统210还包括存储器，诸如远程信息处理存储器M，用于存储声学数据以及存储语音识别软件和数据库，以及处理器52，诸如远程信息处理处理器52，以处理声学数据。处理器与存储器一起并且联合下面的模块来正常运行一个或多个前端处理器、预处理器或者预处理器软件模块212，用于将语音的声学数据流解析成参数表示，诸如声学特征；一个或多个解码器或解码器软件模块214，用于将声学特征解码以产生与输入语音话语相对应的数字子词或词输出数据；以及一个或多个后端处理器、后处理器或后处理器软件模块216，以用于将来自解码器模块 214的输出数据用于任何适当目的。
系统210还可以从任何其他适当的音频源31接收语音，该音频源能够如实线所示地直接与预处理器软件模块212通信或者经由声学接口 33与预处理器软件模块212间接通信。例如，音频源31可以包括音频的远程信息处理源，诸如话音邮件系统，或者任何类型的其他远程信息处理服务。
一个或多个模块或模型可以用作解码器模块214的输入。首先，语法和/或词素模型218可以提供管理哪个词逻辑上可以在其他词之后以形成正确句子的规则。从广义上讲，词素或语法可以定义系统210在任意给定时间在任意给定ASR模式中期望的词汇总体。例如，如果系统210处于用于训练命令的训练模式，则词素或语法模型218可以包括系统 210已知和使用的所有命令。在另一示例中，如果系统210处于主菜单模式，则有效词素或语法模型218可以包括系统210期望的所有主菜单命令，诸如呼叫、拨号、退出、删除、目录等。第二，声学模型220帮助选择与来自预处理器模块212的输入相对应的最可能的子词或词。第三，词模型222和句子/语言模型2M在将选择的子词或词排列成词或句子上下文时提供规则、语法和/或语义。另外，句子/语言模型2M可以定义系统210在任意给定时间在任意给定ASR模式中期望的句子总体，和/或可以提供管理哪些句子逻辑上可以在其他句子之后以形成正确扩展语音的规则等。
根据替换性示例性实施例，ASR系统210的部分或全部可以驻留在处于车辆12的远程位置的诸如呼叫中心20的计算设备上，以及使用该计算设备进行处理ASR系统210的部分或全部。例如，语法模型、声学模型等可以存储在呼叫中心20的服务器82和/或数据库84之一的存储器中且通信到车辆远程信息处理单元30用于车内语音处理。类似地，可以使用呼叫中心20中的服务器82之一的处理器处理语音识别软件。换句话说，ASR系统 210可以驻留在远程信息处理单元30中，或者以任何期望方式分布在呼叫中心20和车辆 12。
首先，从人类语音提取声学数据，其中，车辆占用者向麦克风32说话，麦克风32将话语转换成电信号且将此信号通信到声学接口 33。麦克风32中的声音响应元件捕获占用者的语音话语作为空气压力的变化，并且将话语转换为模拟电信号的相应变化，诸如直流或电压。声学接口 33接收模拟电信号，首先对该模拟电信号进行采样，从而在离散时刻捕获模拟信号的值，然后对其量化从而在每个采样时刻将模拟信号的幅值转换为连续数字语音数据流。换句话说，声学接口 33将模拟电信号转换为数字电信号。数字数据是二进制比特，其可以在远程信息处理存储器M中进行缓冲，然后由远程信息处理处理器52进行处理，或者可以在由处理器52最初接收时被实时处理。
第二，预处理器模块212连续数字语音数据流变换为声学参数的离散序列。更具体地，处理器52执行预处理器模块212，以将数字语音数据分段为例如10-30 ms持续时间的交叠的语音或声学帧。所述帧与声学子词相对应，诸如音节、半音节、单音、双连音、音素等。预处理器模块212还执行语音分析，以从每一帧内从占用者语音提取声学参数，诸如随时间变化的特征向量。占用者语音内的话语可以被表示为这些特征向量的序列。例如，如本领域技术人员所知，可以提取特征向量，并且特征向量可以包括，例如，音高、能线图、光谱属性和/或倒频谱系数，这些可以通过执行帧的傅里叶变换以及使用余弦变换对声谱进行解相关来获得。覆盖特定语音持续时间的声学帧和相应参数被连结成将被解码的未知语音测试模式。
第三，处理器执行解码器模块214，以处理每个测试模式的进入特征向量。解码器模块214也被称为识别引擎或分类器，并且使用存储的已知语音参考模式。如测试模式，参考模式也被定义为相关声学帧和相应参数的连结。解码器模块214将待被识别的子词测试模式与存储的子词参考模式的声学特征向量进行对照和对比，评估它们之间的差异或相似度的大小，并且最终使用判决逻辑选择最佳匹配子词作为识别后的子词。通常，最佳匹配子词是这样的子词其和通过本领域技术人员已知的各种分析和识别子词的技术中的任一种确定的与该测试模式具有最小不相似度的或最有可能是该测试模式的存储的已知参考模式相对应。这些技术可以包括动态时间规整分类器、人工智能技术、神经网络、自由音素识别器和/或概率模式匹配器，诸如隐马尔可夫模型(HMM)弓丨擎。
HMM引擎是本领域的技术人员公知的用于产生声学输入的多个语言识别模型假设。这些假设在最终通过语音的特征分析识别和选择代表声学输入的最可能的正确解码的识别输出中被考虑。更具体地，HMM引擎产生子词模型假设的“N-最佳”列表形式的统计模型，这些子词模型假设根据HMM计算的信赖值或者例如通过应用贝氏定理赋予一个或另一个子词的声学数据的观察序列的可能性排列。
贝叶斯HMM过程确定与给定的声学特征向量的观察序列的最可能话语或子词序列相对应的最佳假设，并且其信赖值可以取决于多种因素，包括与进入声学数据相关联的声学信号噪声比。HMM还可以包括称为混合对角高斯的统计分布，其产生每个子词的每个观察的特征向量的可能性分数，该分数可以用于将假设的N-最佳列表重新排序。HMM引擎还可以识别和选择其模型可能性分数最高的子词。
以类似的方式，可以连结子词序列的各个HMM，以建立单个或多个词HMM。其后，可以产生和进一步评估单个或多个词参考模式的N最佳列表和相关参数值。
在一个示例中，语音识别解码器214使用适当的声学模型、语法和算法处理特征向量以产生参考模式的N最佳列表。如在此使用，术语参考模式可与模型、波形、模板、富信号模型、示例、假设或其它类型参考互相替换。参考模式可以包括代表一个或多个词和子词的一系列特征向量，并且可以基于特定说话者、说话风格和听得见的环境状况。本领域的技术人员将认识到，可以通过ASR系统的适当参考模式训练产生参考模式且将其存储在存储器中。本领域的技术人员还将认识到，可以操纵存储的参考模式，其中基于参考模式训练和 ASR系统的实际使用之间的语音输入信号中的差异调整参考模式的参数值。例如，基于来自不同车辆占用者或不同声学状况的有限量的训练数据，针对一个车辆占用者或某些声学状况训练的一组参考模式可以被调整且存储为针对不同车辆占用者或不同声学状况的另一组参考模式。换句话说，参考模式没有必要固定，且可以在语音识别期间被调整。
使用词汇内语法以及任何适当解码器算法和声学模型，处理器从存储器访问了解释该测试模式的若干参考模式。例如，处理器可以产生且在存储器中存储N-最佳词汇结果或参考模式的列表以及相应的参数值。示例性参数值可以包括词汇的N-最佳列表中的每个参考模式的信赖分数以及相关段持续时间、可能性分数、和/或信号噪声比(SNR)值等。可以按照参数值大小的下降排列词汇的N-最佳列表。例如，具有最高信赖分数的词汇参考模式是第一最佳参考模式等。一旦建立了被识别的子词串，这些子词就可以被用于使用来自词模型222的输入构建词并且使用来自语言模型224的输入构建句子。
最终，后处理器软件模块216从解码器模块214接收输出数据以用于任何适当目的。在一个示例中，后处理器软件模块216可以从单个或多个词参考模式的N-最佳列表识别或选择参考模式之一作为被识别的语音。在另一示例中，后处理器软件模块216可以用于将声学数据转换为文本或数字，以用于ASR系统的其他方面或其它车辆系统。在另一示例中，后处理器模块216可以用于向解码器214或预处理器212提供训练反馈。更具体地，后处理器软件模块216可以用于训练解码器模块214的声学模型，或者训练预处理器模块 212的适应参数。
方法-现转到图3和图4，示出语音识别相关方法300、400，可以使用车辆远程处理单元30的操作环境内的图2的ASR系统210的适当编程以及使用图1所示的适当硬件和其它部件的编程来实施方法300、400。基于上述系统描述以及下面结合剩余附图描述的方法的讨论，上述编程和上述硬件的使用对本领域技术人员将是明显的。本领域的技术人员还将认识到，可以使用其它操作环境内的其它ASR系统实施所述方法。
通常，声学模型产生方法300响应于来自第二语言的女性说话者的语言独立语音数据，通过使根据从第一语言的男性说话者接收的语音训练的声学模型适应，改进自动语音识别。因此，产生代理声学模型，以在对第一语言的女性说话者的话语的语音识别运行时间期间使用。因为尽管某些女性的声学模型训练数据不可获得，但是可以使用给定语言的好的女性代理声学模型，所以可以改善对女性说话者的语音的识别。
参照图3，方法300以任何适当方式在步骤305开始。
在步骤310，可以使用第一语言的男性说话者训练声学模型。声学模型训练可以包括最大可能性估计技术、最小分类错误技术、有条件最大可能性技术，这些技术通常是本领域的技术人员已知的，并且可以使用任何其他适当的技术。声学模型可以是词模型、音素模型或子词模型。可以使用任何适当数量的男性说话者。第一语言可以是阿拉伯语、汉语或任何其他语言。
在步骤315，响应于第二语言的女性说话者的语言独立语音数据使步骤310中训练的声学模型适应，以产生代理声学模型，从而在对第一语言的女性说话者的话语的语音识别运行时间期间使用。例如，最大可能性线性回归(MLLR)技术可以使用来自英语女性说话者的语音数据，以调整阿拉伯语男性语音的声学模型的中心频率。可以使用任何适当的MLLR技术，且此MLLR技术对本领域的普通技术人员是已知的，如通过Variance compensation within the MLLR framework for robust speech recognition and speaker adaptation, Gales, Μ. , D. Pye, and P. Woodland, In Proc. ICSLP, pp. 1832 - 1835, (1996)所反应的。
在步骤320，在自动语音识别运行时间期间可以使用在步骤315产生的代理声学模型，以用于识别来自第一语言的女性说话者的语音。
在步骤325，方法可以以任何适当的方式结束。
在步骤315的一个实施例中，在语音识别运行时间之前使声学模型适应。例如，可在应用语言独立语音数据的共振峰频率或频带的模板中使用最大可能性线性回归技术或任何其他适当适应技术，以调整声学模型的中心频率，从而得到女性代理声学模型。
在步骤315的另一实施例中，在语音运行时间期间使声学模型适应。下面参照图 4和方法400进一步详细描述此实施例。
通常，语音识别方法400响应于在来自第二语言的女性说话者的语音数据中识别与从第一语言的女性说话者接收的语音中的至少一个共振峰频率相对应的多个共振峰频带中的至少一个，通过使根据来自第一语言的男性说话者的语音训练的声学模型适应，来改进语音识别。因为尽管某些女性的声学模型训练数据不可获得，但是可以使用给定语言的好的女性代理声学模型，所以可以改善对女性说话者的语音的识别。
参照图4，方法400以任何适当方式在步骤405开始。例如，车辆用户开始与远程信息处理单元30的用户界面的交互，优选地通过按下用户界面按钮34以开始会话，在会话中，用户输入话音命令，该话音命令被同时以语音识别模式操作的远程信息处理单元30解释。使用音频系统36，远程信息处理单元30可以通过播放声音或者提供对来自用户或占用者的命令的言辞请求来确认按钮激活。在语音识别运行时间期间实施方法400。
在步骤410，以任何适当的方式接收语音。例如，远程信息处理麦克风32可以接收用户说出的语音，并且声学接口 33可以将语音数字化为声学数据。在一个实施例中，语音是命令，例如，在系统菜单中期望的命令。在更具体的实施例中，在方法300开始之后，该命令是系统主菜单的第一命令词。语音可以包括一个或多个话语。
在步骤415，接收到的语音被预处理以产生声音特征向量。例如，可以通过上述 ASR系统210的预处理器模块212对来自声学接口 33的声学数据进行预处理。
在步骤420，确定接收到的语音的语言独立语音数据。例如，可以估计、检测或以任何适当方式中的其他方式确定所接收语音的音高和/或一个或多个共振峰频率。在一个示例中，倒频谱分析提供对基本谐波、音高频率等的较好估计，并且提供关于声门脉冲和声道响应的信息。其他示例可以包括在语音信号的时域中的过零率分析、线性预测编码算法和/或在该时域中的语音自相关分析。这些技术是本领域的普通技术人员已知的，如在各种公开中所反应的，包括0ppenheim，Α. V. , Johnson, D. H. (1972) Discrete representation of signals, Proceedings of the IEEE, vol. 60, no. 6, pp. 681 -691, June 1972 ；Speech and Audio Signal Processing, Processing & Perception of Speech and Music, Ben Gold and Nelson Morgan, John Wiley & Sons, 2001 ；禾口 Fundamentals of Speech Recognition, Lawrence Rabiner & Biing-Hwang Juang, Prentice Hall, 1993。
在步骤425，语音识别预处理器可以识别来自第二语言的女性说话者的与在步骤 420确定的语言独立语音数据相对应的语言独立语音数据。例如，语言独立语音数据可以包括来自由第二语言的女性说话者所说的语音的音高和/或多个共振峰频带或区的至少一个。来自第二语言的女性说话者的语音数据可以包括预记录语音话语、统计模型、和/或语音话语的共振峰频率的一个或多个模板等的数据库。在具体说明中，语音数据可以包括共振峰频率的模板分布，其包括交叠频率范围的20个带或区和间隔开中心频率。模板中第一共振峰频率可以在20个区中的12个上，处于以50 Hz为间隔从600 Hz到1200 Hz的范围。在此情况下，来自第一语言的女性说话者的话语可以包括与模板的第八带或区相对应的900 Hz共振峰频率。
在步骤430，响应于来自步骤425的语言独立语音数据的识别，使根据来自第一语言的男性说话者的语音训练的声学模型适应。声学模型适应通常是本领域的普通技术人员已知的且可以使用任何适当技术。例如，可以通过利用来自第一语言的女性说话者的共振峰频率数据对声学模型进行频率规整来使声学模型适应，从而使声学模型适应成更好地与接收的语音协调。可以使用的特定技术包括声道长度归一化(VTLN)，其中，第一语言的女性说话者的音高和/或共振峰频率用于使男性声学模型适应。VTLN是本领域的普通技术人员己知的，如通过Vocal Tract Length Normalization in Speech Recognition-Compensation for Systematic Speaker Variability, Kamm. Τ. , Andreou A, Cohen J., Proceedings of 15th Annual Speech Research Symposium, Baltimore, MY, June 1995所反应的。
在一个实施例中，确定步骤420的共振峰频率可以包括接收的话语的多个共振峰频率的平均。更具体地，接收的话语的多个共振峰频率可以包括第一共振峰、第二共振峰或第三共振峰中的至少一个。在一个示例，第一共振峰频率可以被如下表征平均Fl =Fl (辅音1) +Fl (辅音2) +Fl (元音1) +Fl (辅音3)......Fl (第N个音节)/N。类似表征可以应用于F2和/或F3共振峰。
在另一实施例中，确定步骤420的共振峰频率包括第一共振峰、第二共振峰和第三共振峰。在此示例中，三个共振峰频率，即Fl，F2和F3用于对男性声学模型中的滤波器频带的中心频率再调整。如果F中心=函数(F1, F2，F3),则λ转换后=函数(λ男性，F中心)。
继续来自步骤425的示例，可以基于识别出的频率处于特定带或区，例如，第八带或区中，对男性声学模型执行任何适当的频率规整技术。因此，可以在带方面的基础上对声学模型进行频率规整。
在步骤435，使用来自步骤425的被适应后的声学模型对产生的声学特征向量进行解码，以产生所接收的语音的多个假设。例如，多个假设可以是假设的N最佳列表，并且 ASR系统210的解码器模块214可以用于对声学特征向量进行解码。
在步骤440，对多个假设进行后处理，以将多个假设中的一个识别为所接收的语音。例如，ASR系统210的后处理器216可以对假设进行后处理，以将第一最佳假设识别为所接收的语音。在另一示例中，后处理器216可以按照任何适当方式对假设的N最佳列表进行重新排序，并且识别重新排序的第一最佳假设。
在步骤445，方法400可以以任何适当的方式结束。
可以计算机程序产品中实施该方法或其一部分，所说程序产品包括在计算机可读介质上承载供一个或多个计算机的一个或多个处理器使用来实施一个或多个方法步骤的指令。计算机程序产品可以包括一个或多个软件程序，其包括源代码、目标代码、可执行代码或其他格式的程序指令；一个或多个固件程序；或者硬件描述语言(HDL)文件；以及任何程序相关数据。所述数据可以包括数据结构、查找表、或任何其他适当格式的数据。所述程序指令可以包括程序模块、例程、程序、对象、和/或组成部分等。可以在一个计算机上或者在彼此通信的多个计算机上执行计算机程序。
程序可以体现在计算机可读介质上，所述计算机可读介质可以包括一个或多个存储设备、制品等。示例性计算机可读介质包括计算机系统内存，例如，RAM (随机访问存储器)、R0M (只读存储器)；半导体存储器，例如，EPROM (可擦除可编程ROM)、EEPROM (电可擦除可编程ROM)、闪存；磁盘或光盘或带；和/或其他。计算机可读介质还可以包括计算机到计算机连接，例如，当通过网络或另一通信连接(有线、无线或其组合)传递或提供数据时。上述示例的任何组合也包括在计算机可读介质的范围内。因此，可以理解，可以通过能够执行与公开的方法的一个或多个步骤相对应的指令的任何电子产品和/或设备至少部分地执行方法。
可以理解，上面是本发明的一个或多个优选示例性实施例的描述。本发明不限于在此公开的具体实施例，而是仅由所附权利要求限定。此外，上述描述中包含的陈述与具体实施例相关，并且不被解释为限制本发明的范围或者限定权利要求中使用的术语的定义的限定，除非上文中对术语或短语有明确定义。各种其他实施例以及对公开的实施例的各种改变和修改对于本领域的技术人员将是明显的。例如，本发明可应用于其他领域的语音信号处理，诸如移动通信、互联网协议话音技术应用等。所有这些其他实施例、改变和修改意在落入所附权利要求的范围内。
如在此说明书和权利要求中所使用，当结合一个或多个部件或其他项的列表使用时，术语“例如”，“比如”，“诸如”和“像”以及动词“包括”，“具有”，“包含”以及它们的其他动词形式，每一个都被解释为开放式，意味着所述列出不被认为是排除其他附加部件或项。其他术语被解释为使用它们的最广泛的合理含义，除非它们被应用于要求不同解释的上下文中。
权利要求
1.一种产生用在自动语音识别中的代理声学模型的方法，包括步骤(a)根据经由麦克风从第一语言的男性说话者接收的语音训练声学模型；以及(b)响应于来自第二语言的女性说话者的语言独立语音数据使在步骤(a)中被训练的声学模型适应，以产生代理声学模型，从而在对来自第一语言的女性说话者的话语的语音识别运行时间期间使用。
2.如权利要求1所述的方法，其中，在语音识别运行时间之前实施适应步骤(b)。
3.如权利要求1所述的方法，其中，在语音识别运行时间期间对来自第一语言的女性说话者的话语实施适应步骤(b)。
4.如权利要求3所述的方法，其中，响应于识别出来自第二语言的女性说话者的语音数据中的多个共振峰频带中的与在来自第一语言的女性说话者的话语中确定的至少一个共振峰频率相对应的至少一个，来实施适应步骤(b)。
5.如权利要求4所述的方法，其中，响应于识别出来自第二语言的女性说话者的语音数据中的多个共振峰频带中的所述至少一个，通过对在步骤(a)中被训练的声学模型进行频率规整来实施适应步骤(b)。
6.如权利要求4所述的方法，其中，在来自第一语言的女性说话者的话语中确定的至少一个共振峰频率是所接收的话语中的多个共振峰频率的平均。
7.如权利要求6所述的方法，其中，所接收的话语中的多个共振峰频率是来自第一共振峰、第二共振峰或第三共振峰中的至少一个。
8.如权利要求6所述的方法，其中，确定步骤(c)的至少一个共振峰频率包括第一共振峰、第二共振峰和第三共振峰。
9.一种自动语音识别的方法，包括步骤(a)经由麦克风从第一语言的女性说话者接收话语；(b)使用自动语音识别预处理器对话语进行预处理，以产生声学特征向量；(c)确定所接收话语的至少一个共振峰频率；(d)识别来自第二语言的女性说话者的语音数据中的多个共振峰频带中的与步骤(C) 中确定的至少一个共振峰频率相对应的至少一个；以及(e)响应于识别步骤(d)使根据来自第一语言的男性说话者的语音训练的声学模型适应，以得到代理声学模型，从而用于第一语言的女性说话者。
10.根据权利要求9所述的方法，还包括步骤(f)，其使用处理器以及在步骤(e)被适应的声学模型对在步骤(b)产生的声学特征向量进行解码，以产生所接收话语的多个假设。
全文摘要
本发明涉及基于语言独立女性语音数据的男性声学模型适应。一种产生用在自动语音识别中的代理声学模型的方法，包括根据经由麦克风从第一语言的男性说话者接收的语音训练声学模型；以及响应于第二语言的女性说话者的语言独立语音数据使声学模型适应，以产生代理声学模型，从而在对来自第一语言的女性说话者的话语的语音识别运行时间期间使用。
文档编号G10L15/06GK102543077SQ20111040830
公开日2012年7月4日申请日期2011年12月9日优先权日2010年12月10日
发明者G.塔尔瓦, R.琴加尔瓦拉延申请人:通用汽车有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：G.塔尔瓦;R.琴加尔瓦拉延
技术所有人：通用汽车有限责任公司
我是此专利的发明人

上一篇：用于鼓的可变击打器的制作方法
上一篇：一种检测数字亚音频信号的方法及装置的制作方法