用在语音识别中的环境噪声注入的制作方法

文档序号:2830987阅读:581来源:国知局
专利名称:用在语音识别中的环境噪声注入的制作方法
技术领域
本发明涉及语音信号处理,并且更具体地涉及自动语音识别(ASR)。
背景技术
ASR技术使配备有麦克风的计算装置能够解释语音,从而提供诸如 键盘或小键盘的传统的人机输入装置的可选方案。典型的ASR系统包括 几个基本元件。麦克风和声学接口接收用户说出的字的发音,并将该发 音数字化为声学数据。声学预处理器将该声学数据解析为带有信息的声 学特征。解码器使用声学模型将声学特征解码为发音假设。解码器为每 种假设生成置信度值来反映每种假设从语音上与每个发音的子字 (subword)相匹配的程度,并为每个子字选择最佳假设。解码器使用 语言模型将子字连接到与用户说出的字对应的输入字中。
ASR系统准备好接收命令之前,该系统的用户有时向ASR系统说出 命令。例如,用户启动ASR系统,系统播放"准备好(Ready)"提示 符,表明系统准备好接收命令,短时间后系统启动能够接收并记录命令 的监听周期。所以如果用户在监听周期开始之前过早地发出命令,则系 统只听到所说出命令的一部分,因此难以理解该发音。
本发明人发现过早发出命令致使ASR参数失调。ASR解码器假定在 Ready提示符之后的最初几个声学数据帧仅仅是环境噪声。所以当最初 的那几个帧实际包含部分发音时,噪声抑制、信道补偿及语音/无声检 测参数的实际值与期望的参数值偏离。这种偏离导致包括解码器重调的 加长超时周期,重放Ready提示符出现"请放慢速度(Slower Please )" 的错误回答。本发明人还发现这种长延时加剧了该问题,使用户讲话更 早更大声。

发明内容
本发明提供了一种用于生产车辆(production vehicle)中的语音 识别的环境噪声注入方法。根据一个实施例,该方法包括以下步骤 监控包括用户语音的音频;
接收来自所述用户语音的发音;
检索(retrieve)车辆特有(vehicle-specif ic )环境噪声;和 在预处理及解码所述发音之前,将所述车辆特有环境噪声前加 (prepend)给所述发音。
该方法通过处理音频提高了语音识别性能,使得语音识别解码不会 变得失调。


下面将结合附图对本发明的优选示范性实施例进行描迷,图中相同 的附图标记表示相同的元件,其中
图l是描绘远程信息处理(telematics)系统的示例的框图,该远 程信息处理系统可用来实现示范性的语音识另"方法;
图2是图解说明示例ASR体系架构的框图,该ASR体系架构可以被 嵌入在图1的远程信息处理系统中,并用来实现示范性的语音识别方法;
图3是示范性环境噪声注入方法的实施例的流程图,该方法可使用 图1和图2的远程信息处理系统和ASR体系架构来执行;
图4是示范性的车辆特有环境噪声收集方法的实施例的流程图,该 方法可使用图1和图2的远程信息处理系统和ASR体系架构来执行;和
图5是示范性的车辆特有环境噪声检索方法的实施例的流程图,该 方法可使用图l和图2的远程信息处理系统和ASR体系架构来执行。
具体实施例方式
示范性的操作环境在图1中示出,该示范性操作环境可用来实现本 公开的环境噪声注入方法以改进语音识别。可使用任何适当的远程信息 处理系统来执行本方法,并且优选地结合如系统100的车辆远程信息处 理系统来执行本方法。本领域技术人员会认识到系统100的总体体系架 构、装置、操作和各个部件在本领域是广为人知的。因此,虽然以下系 统描述仅是对这样 一 个示范性远程信息处理系统的简要概述,但是这里 未示出的其它系统和部件也支持本公开的方法。
示范性的远程信息处理系统IOO包括车辆102和无线通信系统104, 车辆102用来运送一个或多个乘客或用户,无线通信系统104用来提供 与车辆102的双向无线通信。并且,系统IOO可以包括第二通信系统106,
用于使无线通信系统104与web服务器(未示出)和/或向车辆102提 供服务的系统100的呼叫中心108进行通信。
系统100通常可为车辆乘客提供一种或多种适当服务,如车辆导航、 转弯驾驶方向(turn-by-turn driving direction)、信息娱乐、紧急 服务、车辆诊断、车辆系统更新和使用自动语音识别的免提电话和车辆 交互。为此目的,系统IOO处理数据和指令,并促进无线话音和数据在 位于车辆102上的硬件和远程呼叫中心108的硬件之间的传输。例如, 系统IOO使得车辆乘客能够发起与呼叫中心108或服务中心111的话音 通信。
车辆
在所图示的实施例中将车辆102描绘为客车,应该认识到可使用包 括摩托车、船舶、飞机、旅行车和其它汽车(如货车、卡车等)的任何 其它车辆,而不偏离本发明的范围。各种电子模块可位于车辆102上, 并可包括一个或多个车辆系统模块(VSM) 110、车载车辆通信总线112 和由总线112连接至VSM 110的一个或多个车辆远程信息处理单元114。
VSM IIO便于实现任何适当的车载功能,如车辆诊断、监控、控制、 报告和/或其它功能。例如,VSM 110可用来控制发动机运转、监控并部 署气嚢或其它安全装置和/或经由各种车辆传感器诊断车辆系统。VSM 110广义上代表任何软件、电子器件或机电子系统以及车辆中与远程信 息处理单元114交互的相关传感器或其它部件。在特定示例中,如果呼 叫中心108向车辆102发送打开车门的信号,则远程信息处理单元114 命令机电门锁VSM打开车门。
车辆通信总线112便于各个车辆系统(如VSM 110和/或远程信息 处理单元114 )之间的交互,并且使用任何适当的网络通信配置,而不 管是有线的还是无线的。适当的接口可以被插入到总线112和各个车辆 系统之间。如这里使用的,术语接口广义上指任何适当形式的电子装置 或适配器,或者甚至是使得一台设备能够与另一台设备通信或控制另一 台设备的软件模块或适配器。总线的 一些例子包括控制器局域网(CAN )、 々某体定向系统传输(MOST)、本地互连网(LIN)、以太网U0baseT, 100baseT)、局域网(LAN)、无线局域网(WAN)和/或任何适当的国 际标准组织(ISO)或汽车工程师协会(SAE)通信标准。
车辆远程信息处理单元114便于在车辆102或其乘客和包括呼叫中心108的各个远程位置之间的通信和其它服务。远程信息处理单元114 经由车辆通信总线112与各个VSM 110对接(interface)。远程信息 处理单元114可以任何适当配置实施,并可包括处理器116、经由一个 或多个天线120与车辆102进行双向无线通信的通信装置118、存储计 算机程序124和/或一个或多个数据库126的存储器122和用户接口 128。远程信息处理单元114还包括用于在上述装置之间互相通信的一 个(或多个)任何适当接口。
尽管在图1中将远程信息处理单元114描绘为单独的各个模块,但 本领域技术人员会认识到它的许多部件可以集成在一起,或与其它车辆 系统集成和/或分享。例如,存储器122可以被合并到处理器116中, 或位于远程信息处理单元114的外部并为一个或多个其它车辆系统(如 车辆中央处理单元)共享。尽管显示的VSM 110与远程信息处理单元114 分开,但这些VSM 110的任何组合可能被集成在远程信息处理单元114 内。而且,远程信息处理单元114可包括未显示的附加单元,或可省去 所示的一些部件。
远程信息处理器116是用本领域技术人员已知的各种方式中的任何 一种方式实现的,如实现为控制器、微处理器、微控制器、主处理器、 车辆通信处理器、专用集成电路(ASIC)或其它任何合适的处理器类型 的形式。可选地,处理器116可结合执行通用计算机的功能的中央处理 单元(未显示)进行工作。处理器116可以与其它适当的装置和/或模 块(未显示)关联,所述适当的装置和/或模块诸如提供准确日期和时 间信息的实时时钟装置和/或跟踪时间间隔的定时器模块。
处理器116执行存储在存储器122中的一个或多个程序124以实现 各种功能,如系统监控、数据处理和使远程信息处理单元114与VSM 110、 车辆乘客和远程位置之间进行通信。例如,处理器116可执行一个或多 个控制程序及处理程序和/或数据以能够单独或与呼叫中心108结合实 现环境噪声注入方法。在另一个示例中,处理器116控制、生成并接受 在远程信息处理单元114和呼叫中心108之间、远程信息处理单元114 和连接到各VSM 110的车辆通信总线112之间传输的信号。在一种^t式 中,这些信号用来激活VSM 110的编程模式和工作模式。
远程信息处理存储器122可以是提供数据和程序的计算机可读存储 以供处理器116使用的任何电子存储装置。存储器122可包括易失性和
/或非易失性存储装置,如RAM、 NVRAM、硬盘、闪存和/或类似装置,并 且存储器122可被实现为一个或多个单独的物理装置。程序124包括由 处理器116作为指令执行以实现远程信息处理单元114的各个功能的一
个或多个计算机程序,所述功能诸如发消息、诊断、通信、语音识别等。 例如,驻存在存储器122中并由处理器116执行的程序124可以用来实 现环境噪声注入方法。数据库126可用来存储消息数据、诊断故障代码 数据或其它诊断数据、车辆数据上载(VDU)记录、事件激活表、语音 识别数据等。数据库126可以被实施为数据库表,其使得能够对存储于 数据库126中的数据进行查找,并且这可使用已知的索引技术、数据库 查询、在这种表中的直接顺序搜索和/或其它任何适当的存储和查找技 术来实现。
远程信息处理通信装置118和相关的天线120向无线通信系统104 发送话音和数据,并从无线通信系统104接收话音和数据,使得远程信 息处理单元114能与呼叫中心108通信,例如经由第二通信系统106与 呼叫中心108通信。通信装置118经由蜂窝式、卫星和/或其它无线路 径提供这种无线通信,并且通信装置118可促进话音和/或数据通信, 其中话音信号和数据信号都可以在话音信道上发送和接收,并且/或者 反之亦然。本领域技术人员会认识到通信装置118可以通过合并在蜂窝 芯片组中的声码器或语音编解码器应用任何适当类型的编码或调制以 转换数字数据用于通信,来在声音信道上发送接收数据。可以使用提供 可接受的数据速率和误码率的任何适当的编码或调制技术。通信装置 118可包括如下讨论的任何其它适当模块。
通信装置118可包括含有通信软件和诸如无线调制解调器和/或移 动电话之类的硬件的电话通讯模块。该移动电话可以是任何适当的无线 电话通讯装置,如可以是模拟的、数字的、双模式、双频带、多模式和 /或多频带的移动电话。移动电话可包括单独的处理器和存储器和/或标 准蜂窝芯片组。而且,移动电话可使用任何适当的蜂窝技术,如高级移 动电话系统(AMPS ),码分多址(CDMA )、时分多址(TDMA )、全球移 动通信系统(GSM)等,但也可采用专有的技术或其它无线技术以与无 线通信系统104通信。
远程信息处理用户接口 128包括一个或多个输入和输出接口以从远 程信息处理用户处接收输入或向其发送输出。如本文使用的,术语"用
户"包括远程信息处理服务订户、包括驾驶员和乘客在内的车辆乘客等。 并且,如本文使用的,术语"用户接口"广义上指任何适当形式的电子 装置或适配器,或者甚至是使得车辆乘客与另一台设备通信或控制另一
台设备的软件模块或适配器。用户接口 128可包括车辆中分布的各个部 件,和/或可以集成为单个单元,如人/机接口 (HMI)、多媒体中心等。 多媒体中心可接收并存储内容的下载,所述内容诸如音乐、网页、电影、
电视节目、视频游戏等,用于当前或延迟重放。
输入接口可包括一个或多个触觉装置130、 一个或多个麦克风132 或任何其它类型的输入技术。首先,触觉输入装置130使得车辆乘客能 够激活远程信息处理单元114的一个或多个功能,并可包括位于车辆 102内的车辆乘客可到达范围中的一个或多个按钮开关、小键盘、键盘 或其它适当输入装置。例如,触觉输入装置130可用来发起与远程位置 的远程通信和/或发起车辆更新、诊断等,所述远程位置如呼叫中心108 或移动电话。其次,麦克风132允许车辆乘客向远程信息处理单元114 提供语音输入(vocal input),并使得能够通过通信装置118与各个 远程位置进行语音通信。来自车辆乘客的语音输入可使用麦克风132和 处理器116之间的诸如声卡(未示出)的模拟-数字接口和/或数字信号 处理器,以及存储在存储器122内的话音语音识别程序及数据来解释。
输出接口可包括一个或多个扬声器134、诸如液晶显示器、等离子 体屏幕、触摸屏、仰视显示器(未显示)等的视觉显示装置或任何其它 类型的视觉输出技术。扬声器134使得远程信息处理单元114能够传送 可听语音、信号、音频文件等给车辆乘客,扬声器134可以是车辆音频 系统的一部分或者是专用于远程信息处理单元114的独立部件。诸如声 卡(未显示)的适当接口可以插入到扬声器134和远程信息处理器116 之间。
通信系统
通信系统104、 106可以单独实现,或可以组合为整体系统。并且, 如果有适当设备,呼叫中心108可直接与无线通信系统104进行无线通 信,而不需要第二系统106。
无线通信系统104可包括一个或多个模拟和/或数字蜂窝网络136, 诸如广域网(WAN)、无线局域网(WLAN)、宽带无线区域(BWA)网络 的无线计算机网络和/或用来在车辆102和诸如呼叫中心108的各个远
程位置之间传送话音信号和/或数据信号的任何其它适当的无线网络。
示范性的蜂窝网络136可以被实施为CDMA, GSM或能够在车辆102和第 二通信系统106之间交换话音和数据的其它蜂窝通信网络。网络1 36可 包括手机塔(cell tower)、基站和/或移动交换中心(MSC)的任何适 当组合。例如,仅例举几种可能布置,基站和手机塔可共同位于相同的 地点,或者可彼此远离,每个基站可为单个手机塔或多个手机塔服务, 各基站可耦合到单个MSC。语音编解码器或声码器可并入系统104中, 诸如并入一个或多个基站,但根据无线网络的特定体系架构,它可并入 MSC内或一些其它网络部件中。
系统104也可以或可选地通过卫星传输来执行无线通信,该卫星传 输使用一个或多个卫星138经由地基卫星收发器140使车辆102与呼叫 中心108通信。作为示范性的实施方式,卫星收发器140和一个(或多 个)卫星138可向车辆102发射无线电信号。例如,卫星传输可以在由 美国联邦通信委员会为基于卫星的数字音频无线电业务(MRS)的国家 广播分配的"S,,频带的频谱上广播。更具体地,可使用XMTM品牌的卫 星无线电服务来进行卫星传输。
第二通信系统106可以是陆基有线系统,如公共电话交换网(PTSN )、 网际协议(IP)网、光网络、光纤网络、电缆网和/或公用电输电线。 系统106也可以是类似于系统104的另一个无线通信系统、WAN、 WLAN 或BWA网络,或者前面提到示例的任意组合,任何一种都可用于或适用 于话音和/或数据通信。
呼叫中心
呼叫中心108通过处理并存储数据以及与车辆102通信来向车辆 102提供服务。呼叫中心108可向车辆远程信息处理单元114提供后端 功能,并可包括位于一个或多个位置处的一个或多个固定或移动数据中 心。呼叫中心108可包括顾问142以监控各种车辆状况,响应服务请求 并提供诸如与车内安全保险系统有关的远程车辆辅助的车辆服务。顾问 142可^t实施为真人顾问或实施为响应用户请求的自动机器或计算机程 序。
呼叫中心108包括一个或多个话音和/或数据接口 144,诸如有线或 无线调制解调器、交换机(如专用小交换机(PBX))和/或路由器。一 个(或多个)接口 144例如借助车辆数据上载(VDU)在车辆远程信息
处理单元114和呼叫中心108之间通过通信系统104, 106中的一个或 两者发射并接收话音和/或数据信号。对于话音上数据 (data-over-voice )通信, 一个(或多个)接口 144优选地应用一些 信。、, 一… "…、一 一5' , 一
呼叫中心108可进一步包括一个或多个通信业务管理器146、处理 数据的一个或多个服务器148、存储诸如订户概况(profile)和认证数 据之类的用户数据的 一个或多个适当的数据库15 0以及任何其它适当数 据。呼叫中心108也可包4舌一个或多个诸如UN或WLAN的有线和/或无 线网络152,以将呼叫中心部件与该一个或多个顾问142使用的任何计 算机连接在一起。例如,服务器148和数据库15G执行并存储一个或多 个控制程序和数据以单独实现或与车辆102的远程信息处理单元114结 合实现改进语音识别的环境噪声注入方法。换言之,本公开的方法可以 由车辆102的远程信息处理单元114实现,由呼叫中心108中的计算设 备和/或人员实现,或由它们的任意组合实现。
示范性ASR系统
一般,车辆乘客出于下述基本目的中的一个或多个目的与自动语音 识别系统(ASR)进行声音交互训练该系统理解车辆乘客的特定话音; 存储离散语音,如类似数字或关键字的口头控制字或口头标志 (nametag);或出于诸如话音拨号、菜单导航、转录、服务请求等的 任何适当目的识别车辆乘客的语音。通常,ASR从人的语音中提取声学 数据,将该声学数据与所存储的子字数据进行比较和对照,选择可以与 其它所选子字连接的合适子字,并输出所连接的子字或字以用于后续处 理,如听写或转录、地址簿拨号、存储到存储器、训练ASR模型或自适 应参数等。
ASR系统通常为本领域技术人员所知,图2图解说明了可用来实现 本公开的方法的ASR系统210的特定的示范性体系架构。系统210包括 接收语音的装置(如远程信息处理麦克风132)和声学接口 133 (如远 程信息处理用户接口 128的声卡)以将语音数字化成声学数据。系统210 还包括诸如远程信息处理存储器122之类的存储器以存储声学数据及存 储语音识别软件和数据库,以及包括如远程信息处理器116的处理器以 处理声学数据。处理器116与存储器一起并结合以下模块起作用前端
处理器或预处理器软件;溪块212,用于将语音的声学数据流解析成诸如 声学特征的参数化表示;解码器软件冲莫块214,用于解码声学特征以产 生对应于输入语音发音的数字子字或字输出数据;和后处理器软件;漠块 216,以使用来自解码器模块214的输出数据用于任何适当目的。
可使用一个或多个模块或模型作为解码器模块2H的输入。首先, 一个(或多个)语法和/或词汇模型218可提供对哪些字从逻辑上可接 在其它字后面形成有效句子进行管理的规则。广义上讲,语法可定义系 统210在任意给定时刻任意给定ASR;漢式下期望的词汇总体。例如,如 果系统210处在用于训练命令的训练模式,则一个(或多个)语法模型 218可包括系统210知道并使用的所有命令。在另一个示例中,如果系 统210处于主菜单模式,则一个(或多个)活动语法模型218可包括系 统210期望的所有主菜单命令,如呼叫、拨号、退出、删除、目录等。 其次, 一个(或多个)声学模型220帮助选择对应于预处理器模块212 的输入的最可能的子字或字。第三, 一个(或多个)字模型222和一个 (或多个)句子/语言模型224提供将所选的子字或字放置在字或句子 语境中的规则、句法和/或语义。同样, 一个(或多个)句子/语言模型 224可定义系统210在任意给定时刻在任意给定ASR模式下期望的句子
延长语音进行管理的规则等。
根据可选的示范性实施例, 一些或所有ASR系统210可驻存在远离 车辆102的位置处(如呼叫中心108)的计算设备上,并且可使用该计 算设备来处理。例如,语法模型、声学模型等可存储在呼叫中心108中 的数据库150和/或其中一个服务器148的存储器中,并被传送到车辆 远程信息处理单元114以用于车内语音处理。类似地,可使用呼叫中心 108中的其中一个服务器148的处理器处理语音识别软件。换言之,ASR 系统210可以驻存在远程信息处理系统114中,或以任何所需方式分布 在呼叫中心108及车辆102中。
首先,从人的语音中提取声学数据,其中车辆乘客对着麦克风132 讲话,麦克风132将发音转换成电信号,并将这种信号传送给声学接口 133。麦克风132中的声音响应(sound-responsive )元件随气压的变 化捕获乘客的语音发音,并将该发音转换成诸如直流电流或电压的^^莫拟 电信号的相应变化。声学接口 133接收模拟电信号,这些模拟电信号首
先被采样,使得模拟信号的值在离散时刻被捕获,之后将其量化使得模 拟信号的幅值在每个采样时刻被转换成数字语音数据的连续流。换言
之,声学接口 133将模拟电信号转换成数字电信号。数字数据是二进制 位,其緩存在远程信息处理存储器122中,之后被远程信息处理器116 处理,或者可以在最初由处理器116实时地接收时即被处理。
其次,预处理器模块212将数字语音数据的连续流变换成声学参数 的离散序列。更具体地,处理器116执行预处理器模块212以将数字语 音数据分割成如持续时间为10-30ms的重叠表音(phonetic)帧或声学 帧。这些帧对应于声学子字,如音节、半音节、单音、双音、音素等。 预处理器模块212还执行语音学分析以从乘客的语音中提取声学参数, 如从每一帧中提取时变特征向量。乘客语音中的发音可以表示为这些特 征向量的序列。例如,如本领域技术人员已知的,特征向量可^L提取, 并可包括例如声音音调、能量分布曲线、语属性和/或通过对帧进行傅 立叶变换并使用余弦变换对声谱去相关可得到的倒频谱(cepstral )系 数。声学帧和包含特定语音持续时间的相应参数被连接为待解码的未知 语音测试模式。根据下面描述的方法,预处理器模块212还可以接收来 自存储器的车辆特有环境噪声数据,所述存储器如远程信息处理存储器 122或呼叫中心数据库15 0。
再次,处理器执行解码器模块214以处理每个测试模式的输入特征 向量。解码器模块214也被称为识别引擎或分类器,并使用已存储的语 音的已知参考模式。象测试模式一样,参考模式被定义为相关声学帧和 相应参数的连接。解码器模块214将待识别的子字测试模式的声学特征 向量和所存储的子字参考模式进行比较和对照,评估差值的幅度或它们 之间的相似性,并最终使用决策逻辑来选择最佳的匹配子字为所识别的 子字。通常,最佳匹配子字是对应于所存储的已知参考模式、相比测试 模式具有最小的非相似性或者是测试模式的可能性最高的子字,所述测 试模式是本领域技术人员已知的分析和识别子字的各种技术中的任何 一种技术确定的。这类技术可以包括动态时间弯曲分类器、人工智能技 术、神经网络、自由音素识别器和/或如隐马尔可夫模型(HMM)引擎的 概率模式匹配器。
HMM引擎对于本领域技术人员是已知的,用来产生声学输入的多个 语音识别模型假设。在通过语音的特征分析最终识别并选择表示最可能
正确的声学输入解码的那个识别输出时,考虑该假设。更具体地,H丽 引擎生成以子字模型假设的"N个最佳(N-best)"列表为形式的统计 模型,该子字模型假设的N个最佳列表是根据HMM计算的置信度值或在 给定一个或另一个子字的情况下诸如由应用贝叶斯定理得出的所观察 到的声学数据序列的概率进行分等级(rank)的。
贝叶斯HMM过程针对于声学特征向量的给定观察序列识别对应于最 可能的发音或子字序列的最佳假设,并且最佳假设的置信度值可取决于 包括与输入声学数据相关的声学信噪比的各种因素。丽M还可包括称为 混合对角高斯(mixture of diagonal Gaussian)的统计分布,它为每 个子字的每个观察到的特征向量产生似然得分(likelihood score), 该似然得分可用来重新排序假设的N个最佳列表。H醒引擎还可识别并 选择其模型的似然得分最高的子字。为了识别字,子字序列的各个H薩 可#皮连接以建立字HMM。
语音识别解码器214使用合适的声学^t型、语法和算法处理特征向 量以生成参考模式的N个最佳列表。如本文所使用的,术语"参考模式" 与模型、波形、模板、纯信号(rich signal )模型、样本、假设或其 它参考类型可互换。参考^t式可包括一系列表示字或子字的特征向量, 并可基于特定的讲话者、讲话风格及可听环境条件。本领城技术人员会 认识到参考模式可通过ASR系统的适当参考模式训练来生成,并可存储 在存储器中。本领域技术人员还会认识到所存储的参考模式可被操纵, 其中参考模式的参数值可基于参考模式训练和ASR系统的实际使用之间 的语音输入信号的差来修改。例如,为一个车辆乘客或特定声学条件训 练的 一组参考模式可基于来自不同车辆乘客或不同声学条件的有限的 训练数据量被修改,并保存为用于该不同车辆乘客或不同声学条件的另 一组参考模式。换言之,参考模式不必是固定的,并且可以在语音识別 过程中进行调节。
Y吏用词汇内的(in-vocabulary)语法和任何适当的解码器算法以 及一个(或多个)声学模型,处理器从存储器访问解释测试模式的几个 参考模式。例如,处理器能生成一列N个最佳词汇结果或参考模式及相 应的参数值,并将它们存储到存储器中。示范性的参数值可包括在N个 最佳词汇列表和相关片段持续时间(segment duration)中的每个参考 模式的置信度分数、似然得分、信噪比(SNR)值等。可按照一个(或
多个)参数值的幅值的降序来对N个最佳词汇列表进行排序。例如,具 有最高置信度分数的词汇参考模式是第一最佳参考模式,以此类推。一
旦建立了一连串被识别的子字,就可以使用这些子字用来自字模型222 的输入构建字,并且用来自语言模型224的输入构建句子。
最后,后处理器软件模块216接收来自解码器模块214的输出数据 以用于任何适当目的。例如,可以用后处理器模块216将声学数据转换 成文本或数字以用于ASR系统的其它方面或其它车辆系统。在另一个示 例中,可使用后处理器模块216来向解码器214或预处理器212提供训 练反馈。更具体地,可使用后处理器216来为解码器模块214训练声学 模型,或者为预处理器模块212训练自适应参数。
环境噪声注入方法
本文提供了 一种用于生产车辆中的语音识别的环境噪声注入方法, 并且通过使用上述远程信息处理系统100的操作环境内的ASR系统210 的体系架构可以将该方法实现为 一个或多个计算机程序。本领域技术人 员还可认识到可使用其它操作环境内的其它ASR系统来实现本方法。
通过将车辆特有环境噪声前加到用户发音,所提供的方法可提高语 音识别性能,使得语音识别解码不会变得失调。通常,监控包括用户语 音的音频,接收来自用户语音的发音,检索车辆特有环境噪声,并在预 处理和解码该发音之前将其附加到该发音。因此,由于声学数据流被注
入了车辆特有环境噪声来抵消过早发出的发音对解码器的降级效应,所 以语音识别性能可通过这种改进而得以提高。
图3图解说明用于车内语音识别的示范性环境噪声注入方法,该方 法将在下文详细描述。
在步骤305,可发起ASR会话。例如,用户可按下远程信息处理系 统100的远程信息处理单元114的激活按钮来发起当前的ASR会话。
在步骤310,可提示用户说出命令或以其它方式开始与ASR系统的 对话。例如,ASR系统210可播放所记录的提示,如"准备好(Ready)" 或可播放蜂鸣声,闪灯等。
在步骤315,用户可开始对ASR系统讲话,或输入发音到ASR系统。 例如,用户可以说出诸如"拨号"或"呼叫"的命令。有时,用户讲话 发生在提示这样做的提示完成之前,或者发生在ASR系统210开始监听 用户语音的周期之前。这种过早的发音可导致下游解码过程失调,除非
如下文所述采取措施。
在步骤320, ASR系统可监控音频,使得来自用户的发音可以由ASR 系统接收。例如,来自步骤315的用户发音的全部或一部分可由ASR系 统210接收。更具体地,当用户过早地发音时,只有一部分用户发音被 接收到,如接收到"号',而不是"拨号"或接收到"叫"而不是"呼叫"。
在步骤325,可确定从用户接收的语音是否是第一发音。例如,可 确定用户的发音是否是车辆购买之后输入到ASR系统210的第一发音, 或者是否是当前ASR会话的第一发音输入,等等。如果该确定是肯定的, 则该方法前进到步骤330,否则前进到步骤365。
在步骤330,可选择车辆特有环境噪声。例如,使用图4举例说明 并且下面描述的方法400可选择至少一个车辆特有环境噪声帧。
在步骤335,车辆特有环境噪声被注入到所接收的音频中,使得该 噪声被前加到用户发音。例如,步骤330中所选择的车辆特有环境噪声 帧可坤皮前加到对应于在步骤32 0接收的用户发音的声学数据,该声学数 据可以任何适当方式緩存到存储器中。换言之,车辆特有环境噪声帧可 以是被加入到步骤320中表示用户发音的声学数据起始处的声学数据。 在另一个实施例中,可前加多于一个(如3个,9个或单个车辆特有环 境噪声帧的任何其它倍数)的车辆特有环境噪声帧。如本文所使用的, 术语"前加到用户发音,,可包括将车辆特有环境噪声放置或注入到用户 发音前的任何位置,不管是紧接用户发音,还是覆盖或相对于用户发音 在前隔开等。
在步骤340,对应于用户发音的声学数据和前加到其上的车辆特有 环境噪声可被预处理。例如,步骤335中所前加的声学数据可由预处理 器212预处理以从其中提取任何适当的声学特征。
在步骤345,对应于前加了车辆特有环境噪声的用户发音的声学特 征可^皮解码。例如,在步骤340中经预处理的前加的声学数据可由解码 器214解码以产生包括识别结果、假设、语音标签、无声标签等的任何 适当输出。
在步骤350,可确定当前的ASR会话是否完成。如果完成,则该方 法在步骤355结束,否则可在步骤360检索后续发音,之后步骤循环回 到步骤325。
根据另一个实施例,在步骤365,可确定是否能够进行自适应环境 噪声注入例程。如果不能,则该方法前进到步骤330,否则,该方法前 进到步骤37 0。这种例程使当前车辆内的当前用户发音前加了环境噪声, 该环境噪声跟在前一个用户发音后面。这可能导致比使用实验车辆环境 噪声更为准确的环境噪声匹配。
在步骤370,检索对应于前一个发音的车内环境噪声。例如,车内 环境噪声帧可以是从存储器中检索的,并且是以前记录的与前一个发音 相关的车内环境噪声帧,或者可以是其代理,如下文关于步骤375以及
下列等等步骤讨论的。
在步骤375,可识别与用户发音相关的后缀帧(trailing frame), 并且可检索对应的数据。可识别任何适当数量的后缀帧。解码器214能 区分语音和无声,并可相应对每一个做标记。而且,可检索诸如原始数 字声学数据或从预处理器输出的声学特征的后缀帧语音数据。可使用后 处理器216来执行从步骤375到步骤390的任一步骤或所有步骤以例如 通过步骤370反馈回预处理器212。
在步骤380,可确定与用户发音相关的一个或多个后缀帧是否包括 语音数据。如果包括,则存储一个(或多个)后缀帧,并且该方法前进 到步骤385。如杲不包括,则^人为后缀帧包括无语音(speechless)数 据,该方法前进到步骤370。无语音数据可以与环境噪声数据、无声数 据等同义。
在步骤385,可估计来自与用户发音相关的至少一个后缀帧的语音 能量。例如,可使用估计语音能量的任何适当技术来估计来自一个(或 多个)后缀帧的最后一帧的语音能量。作为许多具体示例中的一个示例, 可使用短时能量技术来区分有声音片段和无声音片段,原因是无声音片 段的短时能量明显小得多。
在步骤390,所估计的来自与用户发音相关的至少一个后缀帧的语
音能量可与来自多个车辆特有环境噪声帧的语音能量进行比较,并且可 选择与一个(或多个)后缀帧最对应的至少其中一个车辆特有环境噪声 帧。然后可在步骤370检索一个(或多个)最对应的车辆特有环境噪声帧。
图4图解说明了选择车辆特有环境噪声的示范性方法400,并结合 车辆运动参数和车辆速度参数进行了描述。该方法400只是可用于参考 以上方法300描述的图3的步骤330的一个具体示例。因此,可使用包
括任何其它适当的车辆特有参数、倾向于影响车内环境噪声的其它示
例。例如,可使用车辆供暖、通风和空调(HVAC)参数,如风扇速度、 出口类型(挡风玻璃除霜器,仪表板通气孔,底板通气孔)等。在另一 个示例中,可使用窗户或可开式车顶开口参数。实际上,可使用任何可 了解的车辆设置或条件参数,如转弯指示灯开/关,无线电或GPS开/关, 无线电或GPS音量大小,听不见的背景语音,道路类型或道路状况等。 可以任何适当方式进行车辆特有环境噪声的数据收集,如使用下文结合 示范性图5描述的示范性方法。可将所收集的车辆特有环境噪声存储在 数据库D中,如远程信息处理单元114的存储器122中,呼叫中心108 的数据库150中或两者中等。
在步骤405,可确定执行ASR的车辆是否在移动。如果不是,则该 方法前进到步骤410,否则该方法前进到步骤420。
在步骤410,如果车辆没有移动,则可以例如从数据库D中纟全索所 记录的车辆空闲环境噪声数据,并输出以在步骤415进行处理。
在步骤415,可将所记录的车辆特有环境噪声分割成一个或多个声 学数据帧。例如,以16kHz的采样率记录的车辆特有环境噪声可#:分割 产生包括240个样本的15ms的帧。
在步骤420,可确定正在冲丸行ASR的车辆的当前速度。例如,如果 该车辆以低于3固PH的速度行驶,则该方法前进到步骤425,如果该车 辆在介于30MPH和6謹PH之间的某个速度行驶,则该方法可前进到步骤 430,否则该方法前进到步骤435。
在步骤425中,可以从存储器中检索预先记录的低水平(low level ) 的车辆特有环境噪声。例如,低水平的环境噪声可记录在行驶速度在 OMPH和30MPH之间的实验车辆中。
在步骤430中,可从存储器中检索预先记录的中等水平的车辆特有 环境噪声。例如,中等水平的环境噪声可记录在行驶速度在3謹PH和 6 OMPH之间的实马全车辆中。
在步骤435中,可从存储器中检索预先记录的高水平的车辆特有环 境噪声。例如,高水平的环境噪声可记录在行驶速度大于6謹PH的实验 车辆中。
图5图解说明了记录车辆特有环境噪声的示范性方法。该方法是结 合车辆速度和HVAC设置参数描述的,但也可使用之前关于图4阐述的
任何其它适当的车辆特有的参数。车辆特有环境噪声受几个外部噪声和 内部噪声的影响,所述外部噪声和内部噪声诸如车辆行驶的道路类型,
车辆行驶的速度,风噪声,车辆外部的噪声,HVAC设置及许多其它因素。 车辆特有环境噪声可由车辆在不同速度下的环境噪声记录以及变化的 内部和外部环境噪声组合组成。用于记录车辆噪声的示例状况可包括以
每小时45英里的速度在一段混凝土道路上行驶的车辆,其中空调系统 设置在水平3,或者包括以每小时60英里在柏油路面的道路上行驶的车 辆,其中驾驶员和乘客窗户被降低等。
在步骤505,可选择车辆。该车辆可以是对应于要纟丸4于ASR的生产 车辆的实〗全车辆。可通过牌子(make)和/或型号(model)、车辆类型 (如公车、卡车、轿车、双门小汽车等)或通过像豪华、运动、经济等 的级距(segment)来选择车辆。针对类型和级距,可选择一种类型或 级距的所有车辆,并且对它们的环境噪声记录进行平均,或者可选择一 种类型或级距的所有车辆的某个子集,如表示特定类型或级距的一种车 辆。换言之,可使用实-验车辆,并且该试-验车辆可以与实际扭a行ASR的 生产车辆为相同牌子和型号,或者可以是相同类型(汽车对卡车对SUV 对酷越(crossover)等)等。
在步骤510,可以给定速度驾驶车辆。例如,在第一通道中,步骤 505中所选择的车辆可以在特定速度下驾驶,所述速度诸如大约15MPH, 或在0-30MPH的低范围内。在第二通道,所选择的车辆可在另一速度下 驾驶,如大约45MPH,或在30-6謹PH的中等范围内。在第三通道中,所 选车辆可在又一速度下被驾驶,如大约75MPH,或在60+ MPH的高范围 内。可以任何所需速度和/或在任何所需大小的任何数目的速度范围内 驾驶该车辆,或者该车辆可以无运动和/或闲置。
在步骤515,可选择车辆HVAC设置。例如,在第一通道中,可将步 骤505中所选择的车辆的HVAC设置设为关,并在步骤510驾驶。在第 二通道中,可将HVAC设置设为相对低的数值或在低范围内等。在第三 通道中,可将HVAC设置设为中间数值或在中等范围内等。在第四通道 中,可将HVAC设置设为相对高的数值或在高范围内等。可使用任何HVAC 设置,如风扇速度、通风口位置等,或者可以将其设置为任何所需水平。
在步骤520中,记录车辆中的环境噪声。例如,集成车用麦克风(IVM) 可以放置在步骤5 05中所选择的车辆的座舱内,该车辆在步骤510中被
驾驶,并在步骤515中被设置。IVM是连接到远程信息处理单元的内置 麦克风,并且在正常车辆运转期间使用。可选地, 一个或多个单独的麦 克风可放置在座舱内,并与任何与车辆分离的适当音频记录设备通信。 换言之,可使用内置生产车辆设备或使用测试设备或仪表设备记录环境 噪声。
在步骤525,车辆中环境噪声的记录可存储在存储器中。例如,步 骤520中的记录可存储在数据库中,该数据库可加载到对应于试验车辆 的生产车辆中,诸如与试验车辆相同的类型或牌子/型号。此外,除原 始环境噪声数据之外的其它音频参数可与每个记录一起存储。例如,每 个记录的平均声能可以与每个记录相关地存储为其属性。
在步骤530,可确定是否已经为所有希望的HVAC设置记录了车辆中 的环境噪声。如果没有,则该方法前进到步骤535,在步骤535中,获 得下一个HVAC设置,然后循环回到步骤515。否则,该方法前进到步骤 540。
在步骤540,可确定是否已经为所有希望的车辆速度记录了车辆中 的环境噪声。如果没有,则该方法前进到步骤545,在步骤545中,获 得下一个车辆速度,然后循环回到步骤510。否则,该方法前进到步骤 550。
在步骤550,可确定是否已经为所有希望的车辆记录了环境噪声。 如果没有,则该方法前进到步骤555,在步骤555中,获得下一个车辆, 然后循环回到步骤505。该下一个车辆可以是相同类型或牌子/型号的车 辆,其中对一个类型或牌子/型号的车辆进行了多次试车并进行平均。 或者该下一个车辆可以是不同类型或牌子/型号的车辆。否则,该方法 结束。
应理解前述说明不是对本发明的限定,而是对本发明的一个或多个 优选示范性实施例的描述。本发明不局限于本文所公开的一个(或多个) 具体实施例,而是仅由下面的权利要求书限定。而且,前面描述中所包 括的声明涉及具体实施例,不应该被解释为对发明范围的限制,或对权 利要求书中所使用的术语的限定,除非上文对术语或短语进行了明确定 义。对所公开的实施例的各种其它实施例和各种变化和修改对本领域技 术人员是显而易见的。所有这种其它实施例、变化和修改旨在落入随附 的权利要求书的范围内。
如本说明书和权利要求书中使用的术语"例如"和"如,,及动词"包 括","具有","包含"和其它动词形式,当与一个或多个部件或其 它项目的列表结合使用时,都被解释为是开放式的,意味着该列表不应 被认为是排除其它、附加部件或项目。其它术语也使用它们最广泛合理 的意义来解释,除非它们用在要求不同解释的上下文。
权利要求
1.一种用于生产车辆中的语音识别的环境噪声注入方法,该方法包括以下步骤监控包括用户语音的音频;接收来自所述用户语音的发音;检索车辆特有环境噪声;和在预处理及解码所述发音之前,将所述车辆特有环境噪声前加给所述发音。
2. 如权利要求1所述的方法,其中所述车辆特有环境噪声是在与 所述生产车辆相同的牌子和型号的至少一个试验车辆中产生的。
3. 如权利要求1所述的方法,其中所述车辆特有环境噪声是在与 所述生产车辆相同类型的至少 一个试验车辆中产生的。
4. 如权利要求1所述的方法,其中所述车辆特有环境噪声是在与 所述生产车辆相同级距的至少 一 个试验车辆中产生的。
5. 如权利要求1所述的方法,其中所述车辆特有环境噪声是根据 多个不同车辆速度产生的。
6. 如权利要求1所述的方法,其中所述车辆特有环境噪声是根据 多个不同HVAC设置产生的。
7. 如权利要求1所述的方法,其中所迷车辆特有环境噪声是根据 多个不同车辆参数产生的。
8. 如权利要求1所述的方法,其中所述车辆特有环境噪声来自至 少 一个后缀帧,该后缀帧与所接收的发音之前的用户发音相关。
9. 如权利要求1所述的方法,其中所述车辆特有环境噪声是在与 所述生产车辆相对应的至少一个试验车辆中产生的,并且被选择为与所 接收的发音之前的用户发音相关的至少 一个后缀帧的代理。
10. 如权利要求l所述的方法,进一步包括以下步骤 预处理包括一个(或多个)环境噪声帧的所述发音; 解码包括所述一个(或多个)环境噪声帧的经过预处理的发音; 识别尾随所述发音的至少一个无语音帧;存储该一个(或多个)无语音帧; 接收来自所述用户语音的后续发音; 检索所存储的一个(或多个)无语音帧;和 将所述一个(或多个)无语音帧前加到所述后续发音。
11. 如权利要求l所述的方法,进一步包括 预处理包括一个(或多个)环境噪声帧的所述发音;以及 解码包括所述一个(或多个)环境噪声帧的经过预处理的发音; 识別没有无语音帧尾随所述发音; 估计尾随所述发音的至少一帧中的语音能量; 将所估计的语音能量和所述环境噪声帧的语音能量进行比较,所述环境噪声帧^支预先记录在对应于所述生产车辆的至少一个试验车辆中; 识别具有对应于所估计的语音能量的语音能量的预先记录的环境噪声帧中的至少一个环境噪声帧;存储对应的预先记录的一个(或多个)环境噪声帧; 接收来自所述用户语音的后续发音; 检索所存储的预先记录的一个(或多个)环境噪声帧;和 将所检索的预先记录的一个(或多个)环境噪声帧前加到所述后续发音。
12. —种用于生产车辆中语音识别的环境噪声注入方法,该方法包 括以下步骤发起当前语音识别会话; 监控包括用户语音的音频; 接收来自所述用户语音的发音;确定所接收的发音是所述当前语音识别会话发起后的第一发音; 从预先记录在对应于所述生产车辆的试验车辆中的环境噪声帧中 检索至少 一 个车辆特有环境噪声帧;将一个(或多个)车辆特有环境噪声帧前加到一个(或多个)发音; 预处理包括所述一个(或多个)环境噪声帧的发音;和 解码包括所述一个(或多个)环境噪声帧的经过预处理的发音。
13. 如权利要求12所述的方法,进一步包括以下步骤 识别尾随所述发音的至少一个无语音帧;和 存储该一个(或多个)无语音帧。
14. 如权利要求13所述的方法,进一步包括以下步骤 接收来自所述用户语音的后续发音; 检索所存储的一个(或多个)无语音帧;和 将所述一个(或多个)无语音帧前加到所述后续发音。
15. 如权利要求12所述的方法,进一步包括以下步骤 识别没有无语音帧尾随所述发音; 估计在尾随所述发音的至少一帧中的语音能量; 将所估计的语音能量和预先记录的环境噪声帧的语音能量进行比较;识别具有对应于所估计的语音能量的语音能量的预先记录的环境 噪声帧中的至少一个环境噪声帧;和存储对应的预先记录的一个(或多个)环境噪声帧。
16. 如权利要求15所述的方法,进一步包括以下步骤 接收来自所迷用户语音的后续发音; 检索所存储的预先记录的一个(或多个)环境噪声帧;和 将所检索的预先记录的一个(或多个)环境噪声帧前加到所述后续发音。
全文摘要
本发明涉及用在语音识别中的环境噪声注入。公开了一种用在生产车辆中的语音识别的环境噪声注入方法。该方法包括以下步骤监控包括用户语音在内的音频;接收来自所述用户语音的发音;检索车辆特有环境噪声;和在预处理及解码所述发音之前,将所述车辆特有环境噪声前加给所述发音。
文档编号G10L15/20GK101354887SQ200810133500
公开日2009年1月28日 申请日期2008年7月25日 优先权日2007年7月25日
发明者R·切高尔瓦雷恩, T·J·格罗斯特 申请人:通用汽车公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1