一种车载语音交互系统的制作方法

文档序号:2830790阅读:257来源:国知局
专利名称:一种车载语音交互系统的制作方法
一种车载语音交互系统技术领域
本发明涉及语音识别技术领域,尤其涉及一种车载语音交互系统。背景技术
随着汽车电子技术的飞速发展,车载信息娱乐和信息通讯系统正逐渐成为 汽车厂商追捧的热点。车载信息娱乐和信息通讯系统是为了给汽车提供更多的娱乐、通信及移动办公功能,它和汽车本身的安全、动力性能并无直接关系,包括车载通讯系统、电子导航系统(GPS, Global Positioning System)、智能交通系统、车载网络、汽车音响系统(车载MP3)、车载电视娱乐系统(车载DVD) 等等。语音交互技术在这些系统扮演着十分重要的角色,语音交互技术就是让机 器通过识别和理解过程把语音信号转变为相应的文本或命令,实现人与机器的 交流。在车载信息娱乐和信息通讯系统中,采用语音交互技术利用语音代替手 操作具有安全、方便等优点。1、 车载信息娱乐和信息通讯系统的语音控制和交互对于汽车环境中的移 动终端用户,基于开车时安全性和便捷性的要求,语音控制取代手操作无疑最 佳的解决方案。语音控制发出各种质量开启、修改或关闭信息娱乐和信息通讯 系统,语音控制检索信息娱乐和信息通讯系统的多媒体内容,如歌曲、视频、 电视节目、导航指令、导航地名等等。2、 车载信息娱乐和信息通讯系统中的语音"免提"通讯通过语音命令接 通手机或其他车载通信设备,建立通信链接后,采用免提通话方式,整个过程 避免手的复杂操作,同时不需要眼睛离开路面,无疑是最为安全、快捷、方便 的车载通信方式。3、 GPS导航系统的自然语音输入地名查询、人机交互等功能随着城市道 路地方和人员流动性不断增加,GPS导航技术成为驾车人士的必备之物。特别 是驾车到陌生的大中城市,GPS导航更成为到达目的地的必备依赖设备。采用 语音输入地名,并且分层人机交互,最终确定目的地将极大的方便GPS的使用,同时可以达到在开车过程中随时确定和修改目的地。但是,由于每个用户的口音各不相同,并且实际车载环境较为复杂,要提 高车载语音交互的识别率和识别内容,提高其在实际车载环境下工作的性能, 需要提高车载系统的运算能力。另一方面,基于汽车电子中微处理芯片的硬件资源是有限的,其芯片的运算能力非常有限, 一般只有100MIPS,且不支持浮 点运算;另外芯片的存储空间也很小, 一般为128K Byte的ROM和32KByte 的RAM。这就导致目前的车载声控产品的功能单一,语音识别率低,识别内容 少而简单,在实际车载环境工作的性能差。
发明内容本发明的目的是提供一种车载语音交互系统,以达到在复杂真实的车载环 境下,在硬件资源有限的嵌入式平台上实现高性能语音交互引擎,以智能人机 交互为核心,实现用自然语音方便地控制与汽车安全行驶无关的车载信息系统 模块。为达到上述目的,本发明提出以下的技术方案一种车载语音交互系统,包括语音采集模块,用于采集模拟语音信号,并 转换成数字语音信号;语音识别核心模块,用于对输入的数字语音信号进行概 率计算和搜索匹配,得到语音识别结果;语音反馈模块,用于将所述语音识别 结果以文本或语音的方式与用户交互;所述语音识别核心模块包括声学模型和发音字典模块、上下文不相关文法 CFG模块,以及路径搜索模块,所述声学模型和发音字典模块用于根据统计算 法建立一套对应于口音等变化特点的映射对应表;所述上下文不相关文法CFG 模块,用于构建待识别的自然连续语音的文法和规则结构;所述路径搜索模块 用于对计算量最大的观察概率计算部分进行近似简化。其中,在所述声学模型和发音字典模块中根据统计算法建立一套对应于 口音等变化特点的映射对应表;上下文相关和上下文不相关的单元混合使用, 并采用有效的自适应和平滑算法;对声学模型建立和发音字典生成采用离线生 成的方式,对传统的声学单元进行分类处理;上下文不相关文法CFG模块,用于构建待识别的自然连续语音的文法和规 则结构;所述CFG模块包括规则单元和子规则单元,通过使用正则表达式语言 来描述自然语言;在所述路径搜索模块中采用概率动态剪枝的方法进行路径搜索识别,对 设计路径动态扩展算法和/或多高斯分布近似简化成单高斯计算进行近似简化; 根据芯片硬件条件和计算能力,在搜索识别过程中采用改进的动态丢帧以及高 斯分布有选择计算的算法。优选地,所述语音核心模块还包括-噪声模型模块,通过相关的录音设备,在实际的车载环境下采集数据样本, 对所述数据样本进行处理和参数提取,采用概率统计模型的方法构建车载环境 噪声模型。优选地,所述语音核心模块还包括口音处理模块,从训练数据和样本中, 利用统计方法得出适应口音处理的模型,并结合声学模型进行重建基于口音和发音特点的变化,建立辅助决策树声学聚类模型,通过辅助树 中参数信息描述实际语音中各种变化的特征,再通过声学模型重建,将该特征 通过高斯分布和声学参数弓I入;基于统计的数据驱动方法找出训练数据中的发音变异映射,并利用置信度测量对其过滤;对语音层发音变异混淆度度量,用非对称距离度量准则对声学层发音变异 混淆度度量,根据声学层和语音层混淆度高低的分类信息,在语音识别系统中 建立选择性多发音字典和采用声学模型重建的发法处理多口音和混合口音中的 发音变异。优选地,还包括语音激活检测模块,用于判断是否为有效的语音或音频输入信号,并判断 是否启动语音识别引擎。 优选地,还包括语音信号定点处理模块,用于对语音信号进行定点处理,大幅度降低计算 消耗;语音参数提取及降维处理模块,用于对语音参数在保证充分的语音信息的情况下,采用LDA方法对多维参数进行压縮,同时结合汉语的特点,维持声调 维的信息。优选地,还包括实时语音端点检测模块,用于对语音、噪声、非正常语 音等输入响应的动态判断;对语音信号的进行非平均分帧处理和分帧计算;动 态阈值设定和调整。优选地,还包括抗噪声模块,与所述噪声模型模块结合,采用语音增强 算法,在时域和频域对语音信号进行预处理,利用自适应算法和归一化算法对 语音识别的声学模型进行噪声处理,同时采用区分性训练和混合训练相结合的 方法进行抗噪声处理。优选地,还包括拒识别模块,用于对相关的语音控制命令或定义的词汇/短语进行识别,对无关的语音进行拒识别,所述无关语音包括音乐声、人群谈话声和环境噪声;声学模型和垃圾模型的建立、训练、区分以及在识别过程中 概率比较;语音输入分帧处理技术,对每一帧语音输入进行识别/拒识别判断, 并累积概率。优选地,还包括识别结果处理模块,用于按照需要对识别结果进行处理, 结合自然语言理解技术,对不同用户不同的语音输入方法进行自动理解,自然 归类及模糊匹配技术。从以上技术方案可以看出,在本发明技术方案中,面对芯片有限的计算能 力和存储空间,在嵌入式语音识别系统中,简化语音参数的维数并做压縮处理, 采用动态帧间重叠方式对语音输入进行分帧处理;对声学模型建立和发音字典 生成采用离线生成的方式,同时,对传统的声学单元进行分类处理,达到识别 率和识别速度以及存储单元大小的一个平衡;对最关键的路径搜索识别方法采 用概率动态剪枝的方法,同时对计算量最大的观察概率计算部分进行近似简化, 包括设计路径动态扩展算法,多高斯分布近似简化成单高斯计算等。同时,根 据芯片硬件条件和计算能力,在搜索识别过程中采用改进的动态丢帧以及高斯 分布有选择计算的算法,达到算法和芯片硬件条件相结合的平衡。同时,高性能语音交互系统包括了独特的抗噪声模块和抗口音变化模块,可以在实际车载环境下,不同说话人特点和口音的情况下,仍能进行自然语音 交互。语音交互系统采用CFG文法结构的语音识别器,可以接受短语、命令、连 接词、具有一定文法结构的连续语音,真正实现自然人机交互过程。在本发明 的使用中,用户可以很方面的只使用语音交互系统模块完成对车载信息系统相 关模块的控制和操作,不需要眼和手的参与。在汽车电子附加功能上,让用户 充分感觉到以语音交互系统为核心构建的车载信息系统具有高智能、方便、安 全、简单的现代高科技产品。用户可以在驾车的任何时间,在任何路况和环境 的情况下,在无需眼和手操作的安全模式下,实现对车载信息系统和与安全驾 驶无关的模块的高智能控制。通过本发明摆脱了以往车载声控产品的功能单一,识别率低,识别内容少 而简单,在实际车载环境工作性能差等致命缺点,实现了短语命令、连接词和 自然语音输入的人机交互并具有初步的自然语言理解的能力,具有很好的抗各 种车载噪声和不同用户口音的能力,可实时分层识别达到10000词字典大小的 能力等。通过本发明完全摆脱了驾车时候操作控制汽车电子附件的危险性和避 免了驾车时分心造成的事故危险性,降低交通事故。
图1为本发明系统的基本结构框图;图2为本发明系统优选实施例的结构框图。具体实施方式
下面结合具体的实施例对本发明的技术方案进行详细描述。 本发明系统主要包括离线部分和在线部分两部分,离线部分各个模块的主要功 能是提供语音交互系统工作所必需的资源,保证语音交互系统在实际车载环境 情况和不同的用户使用过程中能够正常工作。在线模块主要完成语音处理和识 别。语音识别的结果根据不同的需要可以反馈用户或作为输出的标志控制相关 的车载信息系统模块。本发明提供一种车载语音交互系统,如图1所示, 一种车载语音交互系统, 包括语音采集模块,用于采集模拟语音信号,并转换成数字语音信号;语音识 别核心模块,用于对输入的数字语音信号进行概率计算和搜索匹配,得到语音 识别结果;语音反馈模块,用于将所述语音识别结果以文本或语音的方式与用 户交互;所述语音识别核心模块包括声学模型和发音字典模块、上下文不相关文法 (Context-Free-Grammar, CFG)模块,以及路径搜索模块,所述声学模型和发音字典模块用于根据统计算法建立一套对应于口音等变化特点的映射对应 表;所述上下文不相关文法CFG模块,用于构建待识别的自然连续语音的文法 和规则结构;所述路径搜索模块用于对计算量最大的观察概率计算部分进行近 似简化。在所述声学模型和发音字典模块中根据统计算法建立一套对应于口音等 变化特点的映射对应表;上下文相关和上下文不相关的单元混合使用,并采用 有效的自适应和平滑算法以降低数据稀疏的问题;对声学模型建立和发音字典 生成采用离线生成的方式,对传统的声学单元进行分类处理;所述上下文不相关文法模块用于构建待识别的自然连续语音的文法和规则 结构;所述CFG模块包括规则单元和子规则单元,通过使用正则表达式语言来 描述自然语言;在所述路径搜索模块中采用概率动态剪枝的方法进行路径搜索识别,对 设计路径动态扩展算法和/或多高斯分布近似简化成单高斯计算进行近似简化; 根据芯片硬件条件和计算能力,在搜索识别过程中采用改进的动态丢帧以及高 斯分布有选择计算的算法。对于声学模型模块,声学模型是具有鲁棒性的声学模型。多高斯分布的 Triphone语音声学模型的调整和重建。目前最先进的基于Triphone模型和连续 隐马尔可夫模型的语音识别方法,不能全部覆盖实际用户不同发音特点和口音 等造成的复杂发音变化。特别是在进行数据聚类时, 一方面造成Triphone模型 中大量的高斯分布的效率低下甚至成为冗余参数,另外一方面,相当多的混合 发音模式无法用相关的参数进行表示,声学模型的分辨率大幅度下降,从而引起识别器无法给出正确的概率分,造成识别错误。为解决此问题,建立鲁棒性 的声学模型采用的方法是1、 通过统计算法和计算语言学知识,建立一套对应于口音等变化特点的判2、 上下文相关和上下文不相关的单元混合使用,并采用有效的自适应和平 滑算法以降低数据稀疏的问题。对于发音字典模块,发音字典采用基于决策树结构的多发音概率字典。基 于嵌入硬件条件,采用离线生成的方式,同时,对传统的声学单元进行分类处 理,达到识别率和识别速度以及存储单元大小的一个平衡。对于所述语音核心模块上下文不相关文法(CFG)模块,用于构建待识别的自然连续语音的文法和规则结构;所述CFG模块包括规则单元和子规则单元, 通过使用正则表达式语言来描述自然语言。对于CFG模块构建待识别的自然连续语音的文法和规则结构。典型的CFG 文法由两部分组成规则和子规则, 一个CFG文法中可以没有子规则,但是必 须存在规则的定义。规则可以引用子规划, 一个子规则也可以被另外的子规则 引用,但是不能出现递归引用的情况。这规则和子规则体中,通过使用类似"正 则表达式"语言,描述自然语言。在实际应用中经常涉及语言的语义描述,例如"香格里拉饭店"和"香格里拉大酒店"是一个概念, 一个语音描述"一百二十六",在计算机中,这个字符串本身不能进行数据的运算,包括大小比较等操作。通过语义操作可以把它转变为数字"126",就可以进行相应的操作。为 了方便这方面的处理,在CFG文法中包含了语义操作的功能。CFG文法构建的 详细样例如下所示例一-.Rule(_SilName:$Vl 一Sil {"$Vl":person}) Name([总经理{王经文}王经文王总{王经文}刘闪张前])) 子规则变量化处理也可以出现在子规则中,通过层次性的转递,最后返回 到规则中。另外,在规则中,也可以采用下面的方法处理同一语义不同语言描述的问题,例如,在上面的例子中,"总经理"和"王总"都表示一个人"王经 文",可以在变化说法的后面直接给出代表的人名"{王经文}"。 例二.Price (一Sil Front—filler HotelName:$V RoomType Price End—filler 一Sil {$V:HotelPrice}).PIace( —Sil Front一f川er HotelName:$V Place End—filler—Sil {$V:HotelPlace})Front一filler( [( 请问)想知道])EncLf川er([可以吗行吗])HotelName([瑞和饭店牡丹宾馆])RoomType([标准间双人刚)Price([多少钱贵不贵])Place(在[哪里什么地方])_语音交互系统支持以CFG(context-free-grammar)文法为原型语音识别器, 根据设定的CFG文法和模板,支持自然语音输入能力,包括连接词和具有一定 文法结构的连续语音。同时采用自然语言理解技术,具有初步理解功能。如理 解"南山科技园附近的湘菜馆"的真实用户命令要求(即"附近"的含义)。语音交互系统还支持单一命令中中英文双语混合的短语和GPS地名识别及 人名语音识别功能(如打开CD, Sigma大厦)。中文命令,英文命令和中英文 双语混合命令可以同时存在于同一命令集合。核心算法采用协同设计并与芯片硬件条件相结合的方法嵌入式语音识别系统核心主要由四大部分组成,参数提取,声学模型建立, 发音字典生成和路径搜索识别。在本项目中,语音识别核心算法采用目前世界上最流行最常用的基于隐马尔可夫模型统计算法,基于汽车电子中微处理芯片的有限硬件资源,如CPU运算速度,RAM和ROM的存储单元大小,釆用协同设计 的方法,对核心组件的四大模块进行移植和优化。由于芯片的运算能力非常有 限(如只有100MIPS, PC的CPU为3G Hz),芯片的运算能力不到PC的1/30, 并且不支持浮点运算等;芯片的存储空间很小(如为128K Byte的ROM和32KByte 的RAM, PC—般为512M/1G RAM,硬盘空间相当于芯片的ROM,可高达500G)。面对芯片有限的计算能力和存储空间,在嵌入式语音识别系统中,简化语 音参数的维数并做压缩处理,采用动态帧间重叠方式对语音输入进行分帧处理;对声学模型建立和发音字典生成采用离线生成的方式,同时,对传统的声 学单元进行分类处理,达到识别率和识别速度以及存储单元大小的一个平衡;对最关键的路径搜索识别方法采用概率动态剪枝的方法,同时对计算量最 大的观察概率计算部分进行近似简化,包括设计路径动态扩展算法,多高斯分 布近似简化成单高斯计算等。同时,根据芯片硬件条件和计算能力,在搜索识别过程中采用改进的动态 丢帧(Frame Dropping)以及高斯分布有选择计算(Gaussian Selection)的 算法,达到算法和芯片硬件条件相结合的平衡。 系统软件工程实现坚持效率优先,核心模块通用化的原则为提高语音识别系统的效率,程序采用模块化设计,并以标准C语言书写 为主,汇编语言为辅的原则。对于运算量大并会反复调用的部分,例如语音识 别的参数提取模块中的频域特征计算和抽取,路径搜索识别模块中的观察概率 的计算,结合芯片硬件的特点,用汇编完成,并给出通用的调用函数接口,集 成到标准C程序中。在工程实现中,基于效率优先的准则,对系统的计算进行 优化,同时采用存储单元复用技术实现在芯片有限存储空间上保存足够的声学 信息,发音信息及其他资源信息。本着效率优先的原则,嵌入式语音识别系统 采用先进的实时处理技术(基于硬件条件限制,目前很多嵌入式识别系统只能 做到语音输入完后才能开始进行识别)。本系统采用语音信号分帧计算,以及 采用动态丢帧(Frame Dropping)以及动态阈值调整进行端点检测的方法,对 输入语音进行实时计算,大大提高了识别效率和识别速度。另外,嵌入式语音识别的核心采用模块化的设计思想和通用接口调用技术,实现通用化,以及灵 活和可扩展的体系结构。语音识别核心模块。综合以上不同流程和模块,包括离线生成的各种资源模型,如噪声模型,声学模型,CFG文法,发音字典和口音处理模型等,联合 拒识别模块和输入的语音参数,对其进行概率计算,得到语音识别结果。对最 关键的路径搜索识别方法采用概率动态剪枝的方法,同时对计算量最大的观察 概率计算部分进行近似简化,包括设计路径动态扩展算法,多高斯分布近似简 化成单高斯计算等。同时,根据芯片硬件条件和计算能力,在搜索识别过程中 采用改进的动态丢帧(Frame Dropping)以及高斯分布有选择计算(Gaussian Selection)的算法,达到算法和芯片硬件条件相结合的平衡。如图2所示,在较优的实施例中,本发明系统的语音识别核心模块还包括 噪声模型模块,通过相关的录音设备,在实际的车载环境下采集数据样本,对 所述数据样本进行处理和参数提取,采用概率统计模型的方法构建车载环境噪 声模型。对于噪声模型模块,其是适用于车载环境的噪声模型。噪声模型采用统计 的方法构建。通过相关的录音设备,在实际的车载环境下采集大量的数据样本, 包括各种真实的车载环境和车载信息系统使用环境,如高速公路/市区等不同时 速,100公里,80公里,60公里,40公里及以下;不同路况,高速公路路况, 市区路况等;车内不同情况,不同背景声音,车内只有发动机及汽车驾驶声音, 音乐背景声音,不同人员等;汽车窗户不同状态等,完全封闭, 一般及大部分 摇下等情况。通过对数据的处理和参数提取,并采用概率统计模型的方法构建 车载环境噪声模型,应用于语音识别时的抗噪声处理。在较优的实施例中,本发明系统的语音识别核心模块还包括口音处理模块, 从训练数据和样本中,利用统计方法得出适应口音处理的模型,并结合声学模 型进行重建基于口音和发音特点的变化,建立辅助决策树声学聚类模型,通过辅助树 中参数信息描述实际语音中各种变化的特征,再通过声学模型重建,将该特征通过高斯分布和声学参数引入;基于统计的数据驱动方法找出训练数据中的发音变异映射,并利用置信度测量对其过滤;对语音层发音变异混淆度度量,用非对称距离度量准则对声学层发音变异 混淆度度量,根据声学层和语音层混淆度高低的分类信息,在语音识别系统中 建立选择性多发音字典和采用声学模型重建的发法处理多口音和混合口音中的 发音变异。对于口音处理模块口音处理采用概率统计方法,即从训练数据和样本中, 利用统计方法得出适应口音处理的模型,并结合声学模型进行重建。如基于口 音和发音特点的变化,建立辅助决策树声学聚类模型,通过辅助树中参数信息 描述实际语音中各种变化的特征,再通过声学模型重建,将该特征通过高斯分 布和声学参数引入。基于统计的数据驱动方法找出训练数据中的发音变异映射,并利用置信度测量对其过滤。采用log likelihood ratio test准则对语音层发音变 异混淆度度量,用非对称距离度量准则对声学层发音变异混淆度度量。根据声 学层和语音层混淆度高低的分类信息,在语音识别系统中建立选择性多发音字 典和采用声学模型重建的发法处理多口音和混合口音中的发音变异。语音交互系统具有特制的口音处理模块。采用单一识别引擎能同时接受带 多种口音和普通话输入对带有口音的语音输入自动进行口音自适应,对于混合 口音等,识别率无显著降低,不超过5%离线处理部分的工作流程为A、 训练声学模型对收集到的大量语音先进性内容标注,然后提取隐马可夫模型(HMM)参数, 为语音和噪声分别建立一个HMM数学统计模型。B、 编译CFG文法根据CFG文法规则编写好的文法文件,可以经由的CFG文法编译器,生成一个二进制的CFG文法文件,供在线处理模块进行语音识别之用。__工作环境 用户人数无限;识别技术基于隐马尔可夫模型的嵌入式非特定人语音识别; 识别芯片处理能力要求200MIPS或以上 ROM: 2M字节或以上 RAM: 1M字节或以上使用电压外置电源直流5伏,内置电源3.7伏功率不超过600毫瓦识别速度l秒内;识别效果识别准确率95%以上使用距离0.5米到1米使用环境安静或带有车内关窗时的噪声环境以上是离线部分的模块,下面介绍在线部分的模块。一、 语音输入和输出模块录音模块用于采集人声和外界环境声音的模拟语音信号,并且通过AD转换器转换成数字语音信号,供语音识别引擎进行处理。放音模块用于将各种数字语音信号转换成模拟语音信号,经过放大后输出到喇 叭,反馈给用户。实现驾车时,无需用手,通过自然语音控制汽车电子产品, 以及通过语音播报,给出电子产品的反馈(如包括短信等)。二、 语音激活检测模块,用于判断是否为有效的语音或音频输入信号,并 判断是否启动语音识别引擎。三、 语音信号定点处理模块和语音参数提取及降维处理模块。语音信号定点处理模块用于对语音信号进行定点处理,大幅度降低计算消耗基于嵌入式 平台有限的计算和处理能力,必须对语音信号进行定点处理,大幅度降低计算 消耗以达到识别率和识别速度的平衡。语音参数提取及降维处理模块,用于对语音参数在保证充分的语音信息的情况下,采用LDA方法对多维参数进行压縮,同时结合汉语的特点,维持声调维的信息语音参数提取及嵌入式资源环境下降维处理。基于嵌入车载硬件条件的限制,对语音参数在保证充分的语音信息的情况下,采用LDA方法对多维 参数进行压縮,同时结合汉语的特点,保留声调维的信息不压縮。四、 实时语音端点检测模块,用于对语音、噪声、非正常语音等输入响应 的动态判断;对语音信号的进行非平均分帧处理和分帧计算;动态阈值设定和 调整。实时语音端点检测和处理技术。动态语音端点检测技术,包括对语音、 噪声、非正常语音等输入响应的动态判断;语音信号的非平均分帧处理和分帧 计算技术,包括帧间重叠及实时计算技术;动态阈值设定和调整,避免冲击信 号的误触发以及无关信号的干扰,提高系统的抗噪性能。五、 抗噪声模块,与所述噪声模型模块结合,针对实际车载噪声的特点, 采用语音增强算法,在时域和频域对语音信号进行预处理,利用自适应算法和 归一化算法对语音识别的声学模型进行噪声处理,同时采用区分性训练和混合 训练相结合的方法进行抗噪声处理。抗噪声处理。结合离线处理部分完成的车载环境噪声模型,针对实际车载 噪声的特点,采用语音增强算法,在时域和频域对语音信号进行预处理,去除 噪声利用自适应算法和归一化算法对语音识别的声学模型进行处理,增加声学 模型的鲁棒性和抗噪声能力,同时采用区分性训练和混合训练相结合的方法进 行抗噪声处理。实际车载环境下(如高速公路/市区等不同时速,100公里,80 公里,60公里,40公里及以下;不同路况,高速公路路况,市区路况等;车内 不同情况,不同背景声音,车内只有发动机及汽车驾驶声音,音乐背景声音, 不同人员等;汽车窗户不同状态等,完全封闭, 一般及大部分摇下;),车载环境下高性能的自适应麦克风阵列、自适应回声消除、混响抑制算法以及整合以上算法和语音识别交互系统;车载环境下的自适应回声消除回声抑制增益达到20dB。六、 拒识别模块,用于对相关的语音控制命令或定义的词汇/短语进行识别, 对无关的语音进行拒识别,所述无关语音包括音乐声、人群谈话声和环境噪声;声学模型和垃圾模型的建立、训练、区分以及在识别过程中概率比较;语音输 入分帧处理技术,对每一帧语音输入进行识别/拒识别判断,并累积概率。语音交互系统具有智能拒绝功能。对不相关的语音输入,噪声输入,无关 的命令等能够拒绝,不进行识别或提示用户输入正确语音。正确拒绝率超过90%; 拒识别模块。只对相关的语音控制命令或定义的词汇/短语进行识别,对无关的 语音进行拒识别。无关语音包括各种垃圾声音(如音乐声,人群谈话声,环境 噪声)等;声学模型和垃圾模型的建立、训练、区分以及在识别过程中概率比 较;语音输入分帧处理技术,对每一帧语音输入进行识别/拒识别判断,并累积 概率。七、 识别结果处理模块,用于按照需要对识别结果进行处理,结合自然语 言理解技术,对不同用户不同的语音输入方法进行自动理解,自然归类及模糊 匹配技术。识别结果处理模块。按照需要,对识别结果进行不同的处理。同时 结合自然语言理解技术,对不同用户不同的语音输入方法(即对每一个目标命 令或连续语音),进行自动理解,并自然归类。如"南山医院","南山区人民医 院","南山区医院""深圳市南山区人民医院","南山的医院"等是具有同一概 念的地名。八、 接口模块嵌入式语音交互系统的模块化设计以及与其他模块的有机 结合。系统的模块化设计。不同模块间的通讯和互相调用方法;接口连接,中断控制,多外围接口设计和集成,控制单元和存储单元的协同工作。在线处理部分的工作流程为每接收到一帧语音数据之后,就启动语音处理模块,先进行抗噪声处理, 利用反相波抵消原理进行降噪处理,然后将降噪后的语音送入参数提取模块, 计算得到39维语音参数,再通过LDA降维处理,将维数降低至16-20维。 根据离线训练的声学模型和噪声模型的参数以及指定的CFG文法,语音识别的 核心模块对16-20维的语音参数进行概率运算,得到一个候选结果列表。拒识 别模块对这个候选结果列表进行评分,最后得到一个按分数从高到低排序的候 选结果列表,如果拒识别模块判定该条语音为噪音或者非法命令,则返回语音被拒绝的结果,否则,语音识别引擎从其中选出分数最高的若干个结果,反馈 给系统接口模块,系统接口模块使用文字或语音提示的方式将结果呈现给用户 进行确认。系统对用户确认的结果,通过硬件接口控制各种GPS、蓝牙、音视频播放模 块、移动电话、移动电视等外部设备。模块化设计与实现软硬件部分全部采用模块化设计,硬件部分包括CPU控制和存储模块CPU处理器是嵌入式系统的核心器件,用于运行控制 程序和语音识别引擎。系统上电后,CPU处理器就从存储模块中读取程序指令, 根据特定的流程进行运行。录音放音模块录音模块用于采集人声和外界环境声音的模拟语音信号, 并且通过AD转换器转换成数字语音信号,供语音识别引擎进行处理。放音模块 用于将各种数字语音信号转换成模拟语音信号,经过放大后输出到喇叭,反馈 给用户。实现驾车时,无需用手,通过自然语音控制汽车电子产品,以及通过 语音播报,给出电子产品的反馈(如包括短信等)。通讯模块通讯模块用于嵌入式系统和其他外部电子设备进行通讯,使多 个电子设备连接成一个网络,以蓝牙模块微核心,协同工作。外设接口模块外设接口模块,用于控制各种外部设备,比如马达,LED发 光管等,使嵌入式系统具备灵活的控制功能。嵌入式语音识别引擎嵌入式语音识别引擎是软件部分的核心模块,它对 录音模块提供的数字语音信号进行声学特征提取,通过语音识别算法与声学模 型进行比较运算,选取最优的识别结果。嵌入式语音识别引擎针对不同的CPU 处理器进行算法优化,能够实时运行在各种低端低成本的芯片上。控制程序控制程序用于控制嵌入式系统的任务调度和命令控制。硬件设备驱动程序硬件设备驱动程序为各个硬件模块提供统一的驱动支 持,降低开发维护成本。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域 的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和 改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附 权利要求为准。
权利要求
1. 一种车载语音交互系统,包括语音采集模块,用于采集模拟语音信号,并转换成数字语音信号;语音识别核心模块,用于对输入的数字语音信号进行概率计算和搜索匹配,得到语音识别结果;语音反馈模块,用于将所述语音识别结果以文本或语音的方式与用户交互,其特征在于所述语音识别核心模块包括声学模型和发音字典模块、上下文不相关文法CFG模块,以及路径搜索模块,所述声学模型和发音字典模块用于根据统计算法建立一套对应于口音等变化特点的映射对应表;所述CFG模块用于构建待识别的自然连续语音的文法和规则结构;所述路径搜索模块用于对计算量最大的观察概率计算部分进行近似简化。
2、 根据权利要求1所述的一种车载语音交互系统,其特征在于 在所述声学模型和发音字典模块中根据统计算法建立一套对应于口音等变化特点的映射对应表;上下文相关和上下文不相关的单元混合使用,并采用 有效的自适应和平滑算法;对声学模型建立和发音字典生成采用离线生成的方 式,对传统的声学单元进行分类处理;上下文不相关文法CFG模块,用于构建待识别的自然连续语音的文法和规 则结构;所述CFG模块包括规则单元和子规则单元,通过使用正则表达式语言 来描述自然语言;在所述路径搜索模块中采用概率动态剪枝的方法进行路径搜索识别,对 设计路径动态扩展算法和/或多高斯分布近似简化成单高斯计算进行近似简化; 根据芯片硬件条件和计算能力,在搜索识别过程中采用改进的动态丢帧以及高 斯分布有选择计算的算法。
3、 根据权利要求2所述的一种车载语音交互系统,其特征在于,所述语音 核心模块还包括噪声模型模块,通过相关的录音设备,在实际的车载环境下采集数据样本, 对所述数据样本进行处理和参数提取,采用概率统计模型的方法构建车载环境 噪声模型。
4、 根据权利要求2所述的一种车载语音交互系统,其特征在于,所述语音 核心模块还包括口音处理模块,从训练数据和样本中,利用统计方法得出适应 口音处理的模型,并结合声学模型进行重建基于口音和发音特点的变化,建立辅助决策树声学聚类模型,通过辅助树 中参数信息描述实际语音中各种变化的特征,再通过声学模型重建,将该特征 通过高斯分布和声学参数引入;基于统计的数据驱动方法找出训练数据中的发音变异映射,并利用置信度测量对其过滤;对语音层发音变异混淆度度量,用非对称距离度量准则对声学层发音变异 混淆度度量,根据声学层和语音层混淆度高低的分类信息,在语音识别系统中 建立选择性多发音字典和采用声学模.型重建的发法处理多口音和混合口音中的 发音变异。
5、 根据权利要求1~4中任一项所述的一种车载语音交互系统,其特征在于, 还包括语音激活检测模块,用于判断是否为有效的语音或音频输入信号,并判断 是否启动语音识别引擎。
6、 根据权利要求1 4中任一项所述的一种车载语音交互系统,其特征在于, 还包括语音信号定点处理模块,用于对语音信号进行定点处理,大幅度降低计算 消耗;语音参数提取及降维处理模块,用于对语音参数在保证充分的语音信息的 情况下,采用LDA方法对多维参数进行压縮,同时结合汉语的特点,维持声调 维的信息。
7、 根据权利要求1~4中任一项所述的一种车载语音交互系统,其特征在于, 还包括实时语音端点检测模块,用于对语音、噪声、非正常语音等输入响应的动 态判断;对语音信号的进行非平均分帧处理和分帧计算;动态阈值设定和调整。
8、 根据权利要求7中任一项所述的一种车载语音交互系统,其特征在于,还包括抗噪声模块,与所述噪声模型模块结合,采用语音增强算法,在时域和频 域对语音信号进行预处理,利用自适应算法和归一化算法对语音识别的声学模 型进行噪声处理,同时采用区分性训练和混合训练相结合的方法进行抗噪声处理。
9、 根据权利要求8中任一项所述的一种车载语音交互系统,其特征在于, 还包括拒识别模块,用于对相关的语音控制命令或定义的词汇/短语进行识别,对 无关的语音进行拒识别,所述无关语音包括音乐声、人群谈话声和环境噪声; 声学模型和垃圾模型的建立、训练、区分以及在识别过程中概率比较;语音输 入分帧处理技术,对每一帧语音输入进行识别/拒识别判断,并累积概率。
10、 根据权利要求9中任一项所述的一种车载语音交互系统,其特征在于, 还包括识别结果处理模块,用于按照需要对识别结果进行处理,结合自然语言理 解技术,对不同用户不同的语音输入方法进行自动理解,自然归类及模糊匹配 技术。
全文摘要
本发明公开了一种车载语音交互系统,包括语音采集模块、语音识别核心模块和语音反馈模块,所述语音识别核心模块包括声学模型和发音字典模块、上下文不相关文法模块,以及路径搜索模块,所述声学模型和发音字典模块用于根据统计算法建立一套对应于口音等变化特点的映射对应表;所述上下文不相关文法模块,用于构建待识别的自然连续语音的文法和规则结构;所述路径搜索模块用于对计算量最大的观察概率计算部分进行近似简化。本发明实现用自然语音(包括命令短语、连接词和具有一定规则的连续语音)对车载信息系统的控制和操作,提高了驾车的安全性能并实现了车载信息系统中与汽车安全行驶和动力性能无关的智能人机交互。
文档编号G10L15/193GK101281745SQ20081006735
公开日2008年10月8日 申请日期2008年5月23日 优先权日2008年5月23日
发明者轶 刘, 杨永胜 申请人:深圳市北科瑞声科技有限公司;深港产学研基地产业发展中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1