不流畅语言的自动语音识别的制作方法

文档序号:11459422阅读:321来源:国知局
不流畅语言的自动语音识别的制造方法与工艺

本发明涉及自动语音识别(asr),更具体地涉及一种不流畅语言的asr。



背景技术:

自动语音识别(asr)在广泛的各种应用中用以解释从人那里接收到的语音。通常,一个人听到声音提示或命令并对那些提示作出语言响应。asr系统可以处理语言响应以解释其内容并采取适当的行动。asr系统确定语言响应内容是否成功可以在很大程度上取决于语言响应的清晰度。但是,许多人很难清楚地表达单词和短语。例如,人们可能会口吃,结巴,或者无法及时生成语言响应。asr系统可以使用诸如语言听起来像没有这些困难这样的假设来编程。因此,asr系统可能不能准确地解释那些说话困难的人所提供的语言。



技术实现要素:

根据本发明的一个实施例,提供了一种自动语音识别(asr)系统中处理不流畅语音的方法。该方法包括通过麦克风接收来自说话人的语音;确定所接收的语音包括不流畅语音;响应于该确定,访问不流畅语音语法或声学模型;并且使用不流畅语音语法来处理所接收的语音。

根据本发明的另一个实施例,提供了一种自动语音识别(asr)系统中处理不流畅语音的方法。该方法包括通过麦克风接收来自说话人的语音;根据多个不同的不流畅语音类型的其中之一,对所接收的语音进行分类;修改补偿所划分的不流畅语音类型的一个或多个asr变量;并且使用修改后的asr变量处理所接收的语音。

附图说明

以下将结合附图,对本发明的一个或多个实施例进行描述,其中相同的附图标记表示相同的元件,并且其中:

图1是示出了能够利用本发明所公开方法的通信系统的一个实施例的框图;并且

图2是示出了自动语音识别(asr)系统的一个实施例的框图;并且

图3是示出了自动语音识别(asr)系统中处理不流畅语音的方法的一个实施例的流程图。

具体实施方式

以下描述的系统和方法涉及asr系统,其接收来自用户的语音并对其内容进行解释。作为解释所接收的语音的一部分,asr系统可以被配置为确定何时存在不流畅语音,然后补偿不流畅语音,使它可以被成功地解释。一般来说,不流畅语音或语音不流畅形容那些包括发生在所接收的语音内的中断、不规则、咕噜声或非词汇声音的语音。不流畅语音可以由许多不同因素造成,例如年龄大、意外事故、中风或偏瘫(例如,bell麻痹)。不流畅语音不仅可以通过其存在进行识别,而且还可以通过所接收的不流畅语音类型进行识别。例如,不流畅语音类型包括结巴、口吃、过度呼吸、语速慢或鼻音。asr系统可以通过构建并部署统计语言模型来补偿不流畅语音,这些模型经过优化以理解普通或特定类型的不流畅语音中的不流畅语音。还可以改变那些通常设立以利于识别流畅语音的一个或多个asr变量。因为已经识别了语音障碍或情绪失调的类型,所以可以使用专用的声学模型来提高语音识别性能。这将在下面更详细地讨论。

通信系统

参照图1,示出了包括移动车辆通信系统10并且可以用于实施本发明所公开的方法的操作环境。通信系统10通常包括车辆12,一个或多个无线载波系统14,陆地通信网络16,计算机18和呼叫中心20。应当理解的是,所公开的方法可以与任何数量的不同系统一起使用,并没有特别限于本文所示的操作环境。同样,系统10及其各个部件的架构、构造、设置和操作通常是本领域已知的。因此,以下段落简单地提供一个这种通信系统10的简要概述;但是,本文未示出的其他系统也可以采用本发明所公开的方法。

车辆12在所示实施例中被示为小客车,但是,应当理解的是,也可以使用任何其他车辆,包括摩托车、卡车、运动型多用途车(suvs)、休闲车(rvs)、船舶、飞机等等。一些车辆电子装置28通常在图1中示出,包括远程信息处理单元30、麦克风32、一个或多个按钮或其他控制输入34、音频系统36、可视显示器38和gps模块40,以及多个车辆系统模块(vsms)42。这些装置中的一些可以直接连接到远程信息处理单元,例如麦克风32和按钮34,而其他装置使用一个或多个网络连接(例如通信总线44或娱乐总线46)间接连接到远程信息处理单元。合适的网络连接的示例包括控制器局域网(can)、面向媒体的系统传输(most)、局域互联网络(lin)、局域网(lan)以及其他适当的连接(例如以太网或其他符合已知的iso、sae和ieee标准和规范的网络),仅举几个例子。

远程信息处理单元30可以是安装在车辆中并通过无线载波系统14以及经由无线联网实现无线语音和/或数据通信的oem安装(嵌入)式装置或售后装置。这使得车辆能够与呼叫中心20、其他启用远程信息处理的车辆或一些其他实体或装置进行通信。远程信息处理单元优选地使用无线电传输来与无线载波系统14建立通信信道(语音信道和/或数据信道),从而可以通过信道发送并接收语音和/或数据传输。通过提供语音和数据通信,远程信息处理单元30使车辆能够提供许多不同服务,包括那些与导航、电话、紧急援助、诊断、信息娱乐等相关的服务。可以通过数据连接(例如通过数据信道进行的分组数据传输)发送数据,或者通过使用本领域已知技术的语音信道发送数据。对于涉及语音通信(例如,与呼叫中心20的现场顾问或语音响应单元)和数据通信(例如,向呼叫中心20提供gps位置数据或车辆诊断数据)的组合服务,系统可以利用语音信道上的单个呼叫,并且根据需要通过语音信道在语音和数据传输之间进行切换,这可以使用本领域技术人员已知的技术来完成。

根据一个实施例,远程信息处理单元30利用根据gsm、cdma或lte标准的蜂窝通信,并因此包括用于语音通信(例如免提呼叫)的标准蜂窝芯片组50,用于数据传输的无线调制解调器,电子处理装置52,一个或多个数字存储装置54,以及双天线56。应当理解的是,调制解调器可以通过存储在远程信息处理单元中并由处理器52执行的软件来实现,或者它可以是位于远程信息处理单元30内部或外部的单独硬件部件。调制解调器可以使用任何数量的不同标准或协议(诸如lte、evdo、cdma、gprs和edge)来操作。车辆和其他联网装置之间的无线联网也可以使用远程信息处理单元30来执行。为了这个目的,远程信息处理单元30可以被配置为根据一个或多个无线协议进行无线通信,无线协议包括短距离无线通信(srwc),例如ieee802.11协议、wimax、zigbeetm、wi-fi直连,蓝牙或近场通信(nfc)。当用于诸如tcp/ip等分组交换数据通信时,远程信息处理单元可以配置有静态ip地址,或者可以设置为从网络上的另一个装置(例如路由器)或从网络地址服务器自动接收分配的ip地址。

处理器52可以是能够处理电子指令的任何类型的装置,包括微处理器、微控制器、主机处理器、控制器、车辆通信处理器和专用集成电路(asics)。它可以是仅用于远程信息处理单元30的专用处理器,或者可以与其他车辆系统共享。处理器52执行各种类型的数字存储指令,例如存储在存储器54中的软件或固件程序,使得远程信息处理单元能够提供各种各样的服务。例如,处理器52可以执行程序或处理数据以执行本发明所述的方法的至少一部分。

远程信息处理单元30可以用于提供多种车辆服务,这些服务涉及面向和/或来自车辆的无线通信。这种服务包括:结合基于gps的车辆导航模块40所提供的路线规划(turn-by-turndirections)和其他导航相关服务;结合一个或多个碰撞传感器接口模块(例如车身控制模块(未示出)所提供的安全气囊展开通知和其他紧急或道路救援相关服务;使用一个或多个诊断模块的诊断报告;以及信息娱乐相关服务,其中音乐、网页、电影、电视节目、视频游戏和/或其他信息通过信息娱乐模块(未示出)下载并且被存储用于当前或稍后回放。上面列出的服务绝不是远程信息处理单元30的所有性能的详尽列表,而仅仅是远程信息处理单元能够提供的一些服务的列举。而且,应当理解的是,上述模块中的至少一些模块可以以保存在远程信息处理单元30内部或外部的软件指令的形式来实施,它们可以是位于远程信息处理单元30内部或外部的硬件部件,或者它们可以彼此集成和/或共享或者与位于整个车辆中的其他系统集成和/或共享,仅举出几种可能的例子。在模块以位于远程信息处理单元30外部的vsms42来实施的情况下,它们可以利用车辆总线44来与远程信息处理单元进行数据和命令交换。

gps模块40接收来自gps卫星的卫星群60的无线电信号。从这些信号,模块40可以确定车辆位置,车辆位置用于向车辆驾驶员提供导航和其他位置相关服务。导航信息可以呈现在显示器38(或车辆内的其他显示器)上,或者可以用言语呈现,例如在提供路线规划时所做的。可以使用专用车载导航模块(其可以是gps模块40的一部分)来提供导航服务,或者可以通过远程信息处理单元30完成一些或所有导航服务,其中将位置信息发送到远程位置,以实现为交通工具提供导航地图、地图注释(目标点、餐馆等)、路线计算等的目的。可以向呼叫中心20或其他远程计算机系统(例如计算机18)提供位置信息,以实现其他目的(例如车队管理)。同样,新的或更新的地图数据可以通过远程信息处理单元30从呼叫中心20下载到gps模块40。

除了音频系统36和gps模块40之外,车辆12可以包括电子硬件部件形式的其他车辆系统模块(vsms)42,这些模块位于整个车辆中并且通常接收来自一个或多个传感器的输入,使用所感测到的输入来执行诊断、监测、控制、报告和/或其他功能。vsms42中的每个优选地通过通信总线44连接到其他vsms以及远程信息处理单元30,并且可以被编程以进行车辆系统和子系统诊断测试。例如,一个vsm42可以是控制发动机操作的各个方面(例如燃料点火和点火正时)的发动机控制模块(ecm),另一个vsm42可以是调节车辆动力系的一个或多个部件的操作的动力系控制模块,另一个vsm42可以是控制位于整个车辆上的各种电气部件(例如车辆的电动门锁和前照灯)的车身控制模块。根据一个实施例,发动机控制模块配有车载诊断(obd)特征件,这些特征件提供多种实时数据,例如接收来自各种传感器(包括车辆排放传感器)的数据,并且提供一系列标准化的诊断故障代码(dtc),其允许技术人员快速识别和补救车辆内的故障。如本领域技术人员所理解的,上述vsms仅仅是可以在车辆12中使用的一些模块的示例,而许多其他模块也是可能的。

车辆电子装置28还包括多个车辆用户接口,其为车辆乘客提供提供和/或接收信息的装置,包括麦克风32、按钮34、音频系统36和可视显示器38。如本文所使用的,术语“车辆用户界面”广义地包括任何合适形式的电子装置,包括硬件和软件部件,它们位于车辆上并且使车辆用户能够与车辆的部件进行通信或通过车辆的部件进行通信。麦克风32向远程信息处理单元提供音频输入,以使驾驶员或其他乘客能够通过无线载波系统14提供语音命令并执行免提呼叫。为了这个目的,它可以利用本领域已知的人机接口(hmi)技术连接到机载自动语音处理单元。按钮34允许用户手动输入到远程信息处理单元30以启动无线电话呼叫并提供其他数据、响应或控制输入。单独的按钮可以用于向呼叫中心20发起相对于常规服务辅助呼叫的紧急呼叫。音频系统36向车辆乘客提供音频输出,并且可以是专用的独立系统或主车辆音频系统的一部分。根据本文所示的特定实施例,音频系统36可操作地联接到车辆总线44和娱乐总线46,并且可以提供am、fm和卫星广播、cd、dvd和其他多媒体功能。这个功能可以与上述信息娱乐模块结合或独立地提供。可视显示器38优选地是图形显示器,例如仪表板上的触屏或者从挡风玻璃反射的平视显示器,并且可以用于提供多种输入和输出功能。也可以利用各种其他车辆用户接口,而图1的接口仅是一个具体实施的示例。

无线载波系统14优选地是蜂窝电话系统,其包括多个蜂窝塔70(仅示出一个),一个或多个移动交换中心(mscs)72,以及将无线载波系统14与陆地网络16连接所需的任何其他联网部件。每个蜂窝塔70包括发射和接收天线以及基站,来自不同蜂窝塔的基站直接地或通过诸如基站控制器等中间设备连接到msc72。蜂窝系统14可以实施任何合适的通信技术,包括例如模拟技术(例如amps)或新的数字技术(例如cdma(例如cdma2000)或gsm/gprs)。如本领域技术人员将理解的,各种蜂窝塔/基站/msc设置都是可能的,并且可以与无线系统14一起使用。例如,基站和蜂窝塔可以共同定位于相同的位置,或者它们可以彼此远离地定位,每个基站可以对单个蜂窝塔负责或者单个基站可以服务于各种蜂窝塔,各种基站可以联接到单个msc,仅举几个可能的设置。

除了使用无线载波系统14之外,可以使用卫星通信形式的不同无线载波系统以提供与车辆的单向或双向通信。这可以通过使用一个或多个通信卫星62和上行链路发送站64来完成。单向通信可以是例如卫星广播服务,其中节目内容(新闻、音乐等等)由发射站64接收,打包以供上载,然后发送到卫星62,向订户广播节目。双向通信可以是例如使用卫星62在车辆12和站64之间转播电话通信的卫星电话服务。如果使用,那么除了无线载波系统14之外或作为无线载波系统14的替代,可以利用这个卫星电话。

陆地网络16可以是连接到一个或多个固定电话并将无线载波系统14连接到呼叫中心20的传统陆基电信网络。例如,陆地网络16可以包括公共交换电话网(pstn),例如用于提供硬连线电话、分组交换数据通信和因特网基础设施的公共交换电话网。陆地网络16的一个或多个段可以通过使用标准有线网络、光纤或其他光网络、电缆网络、电力线路、诸如无线局域网(wlan)等其他无线网络或提供宽带无线接入(bwa)的网络,或其任何组合来实施。而且,呼叫中心20不需要通过陆地网络16进行连接,但可以包括无线电话设备,这样它可以与诸如无线载波系统14等无线网络直接通信。

计算机18可以是通过诸如因特网等专用或公共网络可访问的许多计算机中的一个。每个这种计算机18可以用于一个或多个目的,例如由车辆通过远程信息处理单元30和无线运营商14可访问的web服务器。其他这种可访问计算机18可以是例如:服务中心计算机,其中可以通过远程信息处理单元30从车辆上载诊断信息和其他车辆数据;由车主或其他订户使用的客户计算机,用于访问或接收车辆数据或设置或配置订户偏好或控制车辆功能的目的;或第三方数据仓库,通过与车辆12或呼叫中心20或两者进行通信向其或从其提供车辆数据或其他信息。计算机18还可以用于提供诸如dns服务等因特网连接,或者作为使用dhcp或其他合适协议向车辆12分配ip地址的网络地址服务器。

呼叫中心20被设计为向车辆电子设备28提供许多不同的系统后端功能,根据本文所示的示例性实施例,通常包括一个或多个交换机80、服务器82、数据库84、现场顾问86以及自动语音响应系统(vrs)88,所有这些都是本领域已知的。这些各种呼叫中心部件优选地通过有线或无线局域网90彼此联接。交换机80可以是专用分支交换(pbx)交换机,对输入信号进行路由,使得语音传输通常通过常规电话发送到现场顾问86或者使用voip发送到自动语音响应系统88。现场顾问电话还可以使用如图1中虚线所示的voip。通过交换机80的voip和其他数据通信由连接在交换机80和网络90之间的调制解调器(未示出)来实现。通过调制解调器将数据传输到服务器82和/或数据库84。数据库84可以存储帐户信息,例如订户认证信息、车辆标识符、简档记录、行为模式和其他相关订户信息。还可以通过诸如802.11x、gprs等无线系统来进行数据传输。虽然已经描述了所示实施例将结合使用现场顾问86的人工呼叫中心20来使用,但是应当理解的是,呼叫中心还可以替代地使用vrs88作为自动顾问,或者可以使用vrs88与现场顾问86的组合。

现在参照图2,示出了asr系统210的说明性架构,其可用于实现本发明所公开的方法。通常,车辆乘客与自动语音识别系统(asr)进行语音交互,用于以下一个或多个基本目的:训练系统以理解车辆乘客的特定语音;存储不连续语音,例如口头名牌或诸如数字或关键词等口头控制词;或者识别车辆乘客的语言,用于任何合适的目的,例如语音拨号、菜单导航、转录、服务请求、车辆装置或装置功能控制等等。通常,asr从人类语言中提取声学数据,将声学数据与所存储的子词数据进行比较和对比,选择可与其他所选子词级联的适当子词,并输出所级联的子词或词用于后处理,例如听写或转录、地址薄拨号、存储到存储器、训练asr模型或适配参数等等。

asr系统通常是本领域技术人员已知的,图2仅示出一个具体的说明性asr系统210。系统210包括用于接收语音的装置,例如远程信息处理麦克风32,以及声学接口33,例如远程信息处理单元30的声卡,其具有用于将语音数字化为声学数据的模数转换器。系统210还包括存储器,例如用于存储声学数据并存储语音识别软件和数据库的远程信息处理存储器54,以及处理器,例如用于处理声学数据的远程信息处理器52。处理器与存储器以及以下模块结合起作用:一个或多个前端处理器或预处理器软件模块212,用于将语音的声学数据流解析成诸如声学特征等参数表征;一个或多个解码器软件模块214,用于解码声学特征以产生对应于输入语音话语的数字子词或词输出数据;以及一个或多个后处理器软件模块216,用于将来自解码器模块214的输出数据用于任何合适的目的。

系统210还可以接收来自任何其他合适的音频源31的语音,其可以直接与预处理器软件模块212通信,如实线所示,或者通过声学接口33间接地与之通信。音频源31可以包括例如电话音频源(例如语音邮件系统)或任何类型的其他电话服务。

一个或多个模块或模型可以用作面向解码器模块214的输入。首先,语法和/或词典模型218可以提供规则,这些规则控制哪些单词可以逻辑地跟随其他单词以形成有效句子。从广义上讲,语法可以定义系统210在任何给定时间在任何给定asr模式中所期望的词汇的集合。例如,如果系统210处于用于训练命令的训练模式,那么语法模型218可以包括系统210已知的并由系统210使用的所有命令。在另一个示例中,如果系统210处于主菜单模式,那么主动语法模型218可以包括系统210所期望的所有主菜单命令,例如呼叫、拨号、退出、删除、目录等等。其次,声学模型220有助于选择与来自预处理器模块212的输入相对应的最可能的子词或单词。再者,单词模型222和句子/语言模型224提供将所选子词或单词放在单词或句子环境中的规则、句法和/或语义。此外,句子/语言模型224可以定义系统210在任何给定时间在任何给定asr模式中所期望的句子的集合,和/或可以提供规则等,这些规则控制哪些句子可以逻辑地跟随其他句子以形成有效扩展语音。

根据可选的说明性实施例,asr系统210中的一些或全部可以驻存在远离车辆12的位置的计算设备(例如呼叫中心20)上并使用该计算设备进行处理。例如,语法模型、声学模型等可以存储在呼叫中心20中的服务器82和/或数据库84中的其中之一的存储器中,并且传达到车辆远程信息处理单元30用于车内语音处理。同样,可以使用呼叫中心20中的服务器82中的其中之一的处理器来处理语音识别软件。换言之,asr系统210可以驻存在远程信息处理单元30中,以任何所期望的方式分布在呼叫中心20和车辆12之间,和/或驻存在呼叫中心20。

首先,从人类语音提取声学数据,其中车辆乘客对着麦克风32说话,麦克风32将话语转换成电信号并将这些信号传达到声学接口33。麦克风32中的声音响应元件捕获乘客的话语作为空气压力的变化并将话语转换成模拟电信号(例如直流或电压)的相应变化。声学接口33接收模拟电信号,这些模拟电信号首先被采样,使模拟信号的值在时间的离散时刻被捕获,然后进行量化,使得模拟信号的振幅在每个采样时刻被转换成连续的数字语音数据流。换言之,声学接口33将模拟电信号转换为数字电子信号。数字数据是二进制位,这些二进制位被缓存在远程信息处理存储器54中,然后由远程信息处理器52进行处理,或者可以在处理器52最初接收时进行实时处理。

其次,预处理器模块212将数字语音数据的连续流转变成声参数的离散序列。更具体地,处理器52执行预处理器模块212以将数字语音数据分割成例如10-30ms持续时间的重叠语声或声学帧。这些帧对应于声学子词,例如音节、半音节、电话、双音素、音素等等。预处理器模块212还进行语音分析以从每个帧内从乘客语音中提取声参数,例如时变特征向量。乘客语音内的话语可以表示为这些特征向量的序列。例如并且如本领域技术人员已知的,特征向量可以被提取,并且可以包括例如声音音调、能量分布、频谱属性和/或倒谱系数,这些可以通过进行帧的傅立叶变换并使用余弦变换将声谱进行去相关而获得。覆盖特定持续时间的语音的声学帧及相应参数被级联成待解码的语音的未知测试模式。

再者,处理器执行解码器模块214以处理每个测试模式的输入特征向量。解码器模块214也称为识别引擎或分类器,并且使用所存储的已知语音参考模式。类似于测试模式,参考模式被定义为相关声学帧及相应参数的级联。解码器模块214将待识别的子词测试模式的声学特征向量与所存储的子词参考模式进行比较和对比,评估两者之间的差异或相似性的大小,并且最终使用决策逻辑来选择最佳匹配子词作为被识别的子词。通常,最佳匹配子词是那些对应于所存储的已知参考模式的子词,所存储的已知参考模式最相似于或者最可能是如通过本领域技术人员已知的用于分析和识别子词的各种技术中的任一种所确定的测试模式。这种技术可以包括动态时间扭曲分类器、人工智能技术、神经网络、自由音素识别器和/或诸如隐马尔可夫模型(hmm)引擎的概率模式匹配器。

hmm引擎对于本领域技术人员来说是已知的,其用于产生声学输入的多个语音识别模型假设。该假设在最终识别和选择识别输出中考虑,所述识别输出表示通过语音的特征分析最可能正确解码声学输入。更具体地,hmm引擎生成统计模型,其形式是根据hmm所计算的置信值或者在给定一个或另一个子词的情况下所观察的声学数据序列的概率进行排序(例如通过应用贝叶斯定理)的子词模型假设的“n-最佳”列表。

贝叶斯hmm方法识别用于给定的声学特征向量的观察序列的对应于最可能的话语或子词序列的最佳假设,其置信值可以取决于多种因素,包括与输入的声学数据相关联的声学信噪比。hmm还可以包括称为对角高斯混合的统计分布,其产生每个子词的每个所观察的特征向量的似然分数,该分数可以用于重新对假设的“n-最佳”列表进行排序。hmm引擎还可以识别并选择其模型似然分数最高的子词。

以类似的方式,用于子词序列的各个hmm可以级联以建立单个或多个词hmm。接着,可以生成并进一步评估单个或多个词参考模式及相关参数值的n-最佳列表。

在一个示例中,语音识别解码器214使用适当的声学模型、语法和算法来处理特征向量,以生成参考模式的n-最佳列表。如本文所使用的,术语参考模式可与模型、波形、模板、丰富的信号模型、示例、假设或其他类型的参考互换。参考模式可以包括表示一个或多个词或子词的一系列特征向量,并且可以基于特定的说话人、说话风格和声音环境条件。本领域技术人员将理解的是,参考模式可以通过asr系统的合适的参考模式训练来生成并且存储在存储器中。本领域技术人员还将理解的是,可以操纵所存储的参考模式,其中,根据asr系统的参考模式训练和实际使用之间的语音输入信号的差异来适配参考模式的参数值。例如,根据来自不同车辆乘客或不同声学条件的有限数量的训练数据,可以适配针对一个车辆乘客或某些声学条件训练的一组参考模式,并保存为用于另一个车辆乘客或不同声学条件的另一组参考模式。换言之,参考模式不一定是固定的,可以在语音识别时进行调整。

使用词汇内语法及任何合适的解码器算法和声学模型,处理器从存储器访问解释测试模式的几个参考模式。例如,处理器可以生成n-最佳词汇结果或参考模式的列表以及对应的参数值,并将其存储到存储器。说明性参数值可以包括词汇的n-最佳列表及相关段持续时间中的每个参考模式的置信分数、似然分数、信噪比(snr)值等等。词汇的n-最佳列表可以通过参数值的下降幅度来排序。例如,具有最高置信分数的词汇参考模式是第一最佳参考模式,诸如此类。一旦建立了所识别的子词串,那么它们可以用于利用来自词模型222的输入来构造词,并且用于利用来自语言模型224的输入来构造语句。

最后,为了任何合适的目的,后处理器软件模块216接收来自解码器模块214的输出数据。在一个示例中,后处理器软件模块216可以识别或选择来自单个或多个词参考模式的n-最佳列表的参考模式中的一个,作为被识别的语音。在另一个示例中,后处理器模块216可以用于将声学数据转换成文本或数字,用于asr系统或其他车辆系统的其他方面。在又另一个示例中,后处理器模块216可以用于向解码器214或预处理器212提供训练反馈。更具体地,后处理器216可以用于训练用于解码器模块214的声学模型,或者用于训练用于预处理器模块212的适应参数。

该方法或其部分可以在计算机程序产品中实施,这些计算机程序产品包含在计算机可读介质中,包括可由一个或多个系统的一个或多个计算机的一个或多个处理器使用的指令,以使系统实施一个或多个方法步骤。计算机程序产品可以包括一个或多个软件程序,其包括源代码、目标代码、可执行代码或其他格式的程序指令;一个或多个固件程序;或硬件描述语言(hdl)文件;以及任何程序相关数据。数据可以包括数据结构、查找表或任何其他合适格式的数据。程序指令可以包括程序模块、例程、程序、对象、部件和/或类似物。计算机程序可以在一个计算机上或在彼此通信的多个计算机上执行。

程序可以体现在计算机可读介质上,计算机可读介质可以是非暂态的,并且可以包括一个或多个存储装置,制造品等等。示例性计算机可读介质包括计算机系统存储器,例如,ram(随机存取存储器)、rom(只读存储器);半导体存储器(例如,eprom(可擦除可编程rom)、eeprom(可电擦除可编程rom)、闪存;磁盘或光盘或磁带;和/或类似物。计算机可读介质还可以包括计算机到计算机连接,例如,当通过网络或另一个通信连接(有线、无线或其组合)传输或提供数据时的计算机到计算机连接。上述示例的任何组合也包括在计算机可读介质的保护范围内。因此,应当理解的是,该方法可以至少部分地由能够执行对应于所公开的方法的一个或多个步骤的指令的任何电子制品和/或装置来执行。

方法-

现在参照图3,示出了使用asr系统210处理不流畅语音的方法。方法300开始于步骤310,通过麦克风32接收来自说话人的语音。车辆乘客可以启动asr系统210并将其设置为系统210聆听语音的状态。然后预处理器模块212可以从语音提取声学参数,这些参数的形式是声音数据,可以分析这些数据以确定所接收的语音不流畅或流畅。方法300进行到步骤320。

在步骤320,asr系统210确定所接收的语音包括不流畅语音。预处理器模块212可将所接收的语音传递到解码器模块214,解码器模块214使用hmm引擎来产生针对给定的声学特征向量的观察序列的最可能的话语或子词序列的最佳假设。该假设可以采取置信值的形式,表示有多大可能假设是正确的。当置信值高于特定阈值时,asr系统210可以确定所接收的语音是流畅的,并继续处理剩余的语音。但是,如果置信值低于这个特定阈值,那么asr系统210可以确定所接收的语音包括不流畅语音。同时,可以采用额外的模式分类技术对给定的语音段进行分类,分为正常语音或“不流畅”语音。

hmm引擎可以有效地识别不流畅语音。即使不流畅语音可能对聆听者而言是散乱的和/或无意义的,但是hmm引擎可以将看起来散乱的声音识别为不流畅语音,而非无意义声音。例如,hmm可以识别与语音相关的变化音调和声调,即使该语音的内容可能不可解释。相反,以噪声为形式的非语音话语通常具有不变的音调和声调。因此,即使asr系统210可以生成低于特定阈值的置信值,但是asr系统210可以依赖于hmm引擎将输入声音识别为不能可靠识别的语音,而非随机噪声。

除了识别不流畅语音的存在之外,hmm引擎还可以对所接收的不流畅语音的类型进行分类。asr系统210可以被配置为接收来自hmm引擎的不流畅语音分类。不流畅语音分类的类型包括结巴、口吃、过度呼吸、语速慢或鼻音。可以预先训练hmm引擎,以便使用那些语音可以是由这些分类中的每一个来表征的人来识别这些分类中的每一个。以针对这些语音问题的每个类别的语音为形式的训练数据很容易得到。可以通过hmm引擎来识别属于不流畅语音的许多感知的语音属性,例如音调、响度、音质、韵律、呼吸和发音。hmm可以用那些重复特定单词的音节作为结巴的一部分的人来训练,或者用那些往往在说话时过度呼吸的人来训练,用于过度呼吸分类。同样,hmm可以用那些说话异常缓慢或说话有鼻音的人来训练。根据存在不流畅语音的结论以及特定类型的不流畅语音分类,asr系统210可以改变其处理所接收的语音的方式。方法300进行到步骤330。

在步骤330,asr系统210以不同于处理流畅语音的方式处理不流畅语音。asr系统210可以访问语音语法218、声学模型220或这两者,它们已针对已经由asr系统210识别的一般或特定类型的不流畅语音中的不流畅语音进行优化。例如,asr系统210可以存储用于不流畅语音的声学模型220,其是响应于存在不流畅语音的确定而选择的。或者asr系统210可以存储用于每种类型的不流畅语音的各个语音语法218和声学模型220。这样,当asr系统210识别出不流畅语音的类型时,可以选择为该类型的不流畅语音而生成的各个语音语法218或声学模型220,以供解码器214使用,从而生成更准确的语音内容的假设。

可选地或者额外地,asr系统210可以修改补偿所划分的不流畅语音类型的一个或多个asr变量。例如,asr系统210可以加载不流畅asr变量集,该集合改变诸如最大语音超时值或允许重复命令词的错误值等变量。不流畅asr变量集可以允许车辆乘客有更多时间来响应声音提示,更灵活地重复命令词,同时asr系统210不产生错误提示。方法300进行到步骤340。

在步骤340,使用不流畅语音语法、修改后的asr变量或这两者来处理不流畅语音。使用针对不流畅语音而选择的语法模型218和/或声学模型220处理不流畅语音之后,解码器模块214可以将不流畅语音的最佳假设输出到后处理器模块216。然后方法300结束。

应当理解的是,前述是本发明的一个或多个实施例的描述。本发明不限于在本文所公开的具体实施方式,而是仅仅由以下权利要求书限定。此外,包括在前述描述中的声明涉及具体的实施方式,并不构成对本发明的范围或权利要求书中所使用的术语的定义的限制,除非上面明确定义了术语或短语。各种其他实施方式以及对所公开的实施方式的各种变形和修改对于本领域技术人员而言将显而易见。各种其他实施方式、变形和修改都旨在落入所附权利要求书的保护范围内。

如本说明书和权利要求书中所使用的,当与一个或多个部件或其他物件的列表结合使用时,术语“如”、“例如”、“比如”、“诸如”和“像”以及动词“包含”,“具有”,“包括”均被解释为开放式的,意味着列表不被认为是排除其他额外部件或物件。其他术语采用其最广泛的合理含义来解释,除非它们在需要不同解释的上下文中使用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1