汽车唤醒词系统及其控制方法

文档序号:10723853阅读:2986来源:国知局
汽车唤醒词系统及其控制方法
【专利摘要】本发明揭示了一种汽车唤醒词系统及其控制方法,其特征在于:系统包括唤醒词处理模块和车机音频模块;所述唤醒词处理模块中音频采集单元实时输送音频信号至解码器,所述解码器输出解码信号至DSP,所述DSP设有闪存;所述车机音频模块与唤醒词处理模块的DSP通信,所述车机音频模块中音频译码器与处理器通信,并输出译码信号至音效处理器,所述音效处理器连接音频功放,所述处理器输出控制信号至音频处理器。本发明的优点在于能够准确的快速的相应,运行稳定可靠,方便驾驶员行驶过程中通过唤醒词启动语音系统,提高行车安全性。
【专利说明】
汽车唤醒词系统及其控制方法
技术领域
[0001 ]本发明涉及车辆智能控制领域。
【背景技术】
[0002]随着语音产业链日新月异的爆发,各行各业对于语音操控的需求越来越强烈,为了全面进入语音时代,各行业对于语音唤醒的需求也越来越迫切,特别是在车载领域,在一般进行语音交互时还需要用户手动按下启动按钮,这样给行车带来一定的不安全因素,现在智能空调、音响设备方面对唤醒也迫不及待,为了完全解放双手,语音唤醒应运而生为用户带来更加人性化的操作。

【发明内容】

[0003]本发明所要解决的技术问题是实现一种运行可靠、识别精准、使用方法的唤醒词系统。
[0004]为了实现上述目的,本发明采用的技术方案为:汽车唤醒词系统及其控制方法,其特征在于:系统包括唤醒词处理模块和车机音频模块;所述唤醒词处理模块中音频采集单元实时输送音频信号至解码器,所述解码器输出解码信号至DSP,所述DSP设有闪存;所述车机音频模块与唤醒词处理模块的DSP通信,所述车机音频模块中音频译码器与处理器通信,并输出译码信号至音效处理器,所述音效处理器连接音频功放,所述处理器输出控制信号至音频处理器。
[0005]所述音效处理器输出回声消除参考信号至唤醒词处理模块的解码器。
[0006]基于所述汽车唤醒词系统的控制方法,唤醒词处理模块实时采集车内音频信号,并与存储的唤醒词比对,若比对近似度在设定范围内,则语音系统启动,并通过车机音频模块发出提示音。
[0007 ] 所述唤醒词发音时长为1-4秒,唤醒词最少由4个音节构成。
[0008]所述唤醒词中无相近似或重复的音节。
[0009]所述唤醒词录音至少由300人员参与录制,其中男女人数相同同时进行,采样率16Khz,采样精度16bit,并采用单声道。
[0010]唤醒词录音前静音音最短0.25s,唤醒词录音后静音最短0.5s,唤醒词录音幅度上限范围[5000,25000],下限范围[-25000,-5000]。
[0011]本发明的优点在于能够准确的快速的相应,运行稳定可靠,方便驾驶员行驶过程中通过唤醒词启动语音系统,提高行车安全性。
【附图说明】
[0012]下面对本发明说明书中每幅附图表达的内容作简要说明:
[0013]图1为汽车唤醒词系统框图。
【具体实施方式】
[0014]汽车唤醒词系统如图1所示,包括唤醒词处理模块和车机音频模块,其中唤醒词处理模块中音频采集单元实时输送音频信号至解码器,解码器输出解码信号至DSP,DSP设有闪存;
[0015]车机音频模块与唤醒词处理模块的DSP通信,车机音频模块中音频译码器与处理器通信,并输出译码信号至音效处理器,音效处理器连接音频功放,所述处理器输出控制信号至音频处理器。音效处理器输出回声消除参考信号至唤醒词处理模块的解码器。
[0016]汽车唤醒词系统的模块特性:
[0017]运算能力:双核DSP,最高运算能力800MIPS;
[0018]音频特性:内置2路24bitADC、2路24bit DAC;
[0019]DAC:94dB SNR,_84dB THD;
[0020]ADC:90dB SNR,_80dB THD;
[0021]音频接口:模拟、IIS;
[0022]接口定义:支持IIC通讯接口,复位接口;
[0023]软件唤醒引擎:唤醒资源集成到唤醒模块引擎中,资源运算量大、唤醒精度高、易于维护优化。软+硬一体化唤醒引擎:配合唤醒模块硬件降噪单元,实现语音唤醒、回声消除(车机系统媒体播放情况下仍能正常唤醒)功能。
[0024]基于上述汽车唤醒词系的控制方法:
[0025]唤醒词处理模块实时采集车内音频信号,并与存储的唤醒词比对,若比对近似度在设定范围内,则语音系统启动(能够语音控制导航、空调、电话等),并通过车机音频模块发出提示音。
[0026]为提高唤醒词的识别稳定性,唤醒词的选择应该遵循以下原则:
[0027]a、唤醒词发音时长建议最少I秒,最长不能超过4秒。
[0028]b、唤醒词由最少4个音节(对应到中文由最少4个汉字组成)。
[0029]C、唤醒词要覆盖尽可能多的音节,避免出现相近或者重复的音节。
[0030]d、唤醒词相邻音节之间的差异尽可能大。
[0031 ]例如:“你好,小翼!”是一个相邻音节差异大的一个例子,效果较好;而“语音在线”前两个音节相近,不是一个好的唤醒词。
[0032]组成唤醒词的字如果具有以下属性,能够提搞唤醒效果:
[0033]a、开口度大、响度大、发音较清晰的字。
[0034]b、韵母是复韵母。
[0035]C、尽量选择一些平时较为不常用的词,以减少误唤醒的可能性。
[0036]存储的唤醒词通过录音录制,在唤醒词录音数据采集时,每一个唤醒的录音,必须满足以下的要求:
[0037]在每一个录音环境(可能包含家庭环境、户外环境、车载环境、办公室环境、会议室环境等)中至少300来自五湖四海人员参与录制,必须保证男女人数相同同时进行。
[0038]每人录制20句:20句语速稍快、20句语速正常、20句语速稍慢。
[0039]采样率16Khz,采样精度16bit,必须为单声道
[0040]音量和实际说话一致、清晰
[0041]对录音环境、录音设备和录音距离的要求与具体应用需求相关。
[0042]首先,需要明确应用环境,比如家庭应用、户外应用、车载应用、办公室应用、会议室应用,如果有多个应该环境,就需要多个环境的录音。
[0043]其次,需要明确应用针对那些设备,手机、家电、车机等,据此选择录音设备。
[0044]最后,对每个应用环境、每个应用设备选择该环境设备最常用的录音距离。
[0045]在进行某个平台唤醒词定制时,除了需要进行唤醒词录音外,还需要对应平台的误唤醒测试集合一般建议采集该唤醒词会使用的真实场景的噪音数据,例如唤醒词为手机平台应用的唤醒词“你好Siri”,则考虑手机可能出现的各个场景,需要有办公室/会议室/家庭/电视机噪音等误唤醒测试集合。每种场景的误唤醒测试集合语音不少于10个小时。
[0046]每个录音文件包含一句唤醒词录音,唤醒词录音前静音音最短0.25s,唤醒词录音后静音最短0.5s。对于16bit采样精度,录音幅度范围是[-32768,32767],唤醒词录音的有限信息必须在这范围内:推荐的唤醒词录音幅度上限范围[5000,25000],下限范围[-25000,-5000]ο
[0047]上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。
【主权项】
1.汽车唤醒词系统,其特征在于:系统包括唤醒词处理模块和车机音频模块; 所述唤醒词处理模块中音频采集单元实时输送音频信号至解码器,所述解码器输出解码信号至DSP,所述DSP设有闪存; 所述车机音频模块与唤醒词处理模块的DSP通信,所述车机音频模块中音频译码器与处理器通信,并输出译码信号至音效处理器,所述音效处理器连接音频功放,所述处理器输出控制信号至音频处理器。2.根据权利要求1所述的汽车唤醒词系统的控制方法,其特征在于:所述音效处理器输出回声消除参考信号至唤醒词处理模块的解码器。3.基于权利要求1或2所述汽车唤醒词系统的控制方法,其特征在于:唤醒词处理模块实时采集车内音频信号,并与存储的唤醒词比对,若比对近似度在设定范围内,则语音系统启动,并通过车机音频模块发出提示音。4.根据权利要求3所述控制方法,其特征在于:所述唤醒词发音时长为1-4秒,唤醒词最少由4个音节构成。5.根据权利要求4所述控制方法,其特征在于:所述唤醒词中无相近似或重复的音节。6.根据权利要求5所述控制方法,其特征在于:所述唤醒词录音至少由300人员参与录制,其中男女人数相同同时进行,采样率16Khz,采样精度16bit,并采用单声道。7.根据权利要求6所述控制方法,其特征在于:唤醒词录音前静音音最短0.25s,唤醒词录音后静音最短0.5s,唤醒词录音幅度上限范围[5000,25000],下限范围[-25000,-5000]。
【文档编号】G10L15/20GK106094673SQ201610765783
【公开日】2016年11月9日
【申请日】2016年8月30日
【发明人】卢礼华, 雷永富, 万中留, 钟捷河, 芮开闩
【申请人】奇瑞商用车(安徽)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1