声学脉冲响应模拟的制作方法

文档序号：9752202阅读：721来源：国知局

声学脉冲响应模拟的制作方法
【专利说明】
【背景技术】
[0001]在汽车车厢中可以设置语音识别系统和/或免提呼叫系统。然而，由于车辆环境的极其嘈杂性质，在车辆中实现良好的语音识别和/或良好的免提电话通话质量可能是有问题的。噪音源包括由风、机械和结构部件、轮胎、乘客、发动机、排气装置、暖通空调(HVAC)空气压力等产生的声音。车厢音响效果也影响语音识别和免提通话质量。车辆内部材料、几何形状等，将对用户的声音到负责语音识别和/或免提电话呼叫任务的免提麦克风的传播有影响。
[0002]语音识别引擎的训练和评估或者免提通话质量的评估的传统的方法包括在各种测试条件下在各种路面上驾驶车辆。在免提麦克风的输出端录制嵌入在各种车辆背景声音中的人的话音。这些录制然后用于随后的语音识别或用于免提电话通话评估。这种传统的方法是非常耗费时间、逻辑困难、昂贵的，并且充满实验可变性。
【附图说明】
[0003]图1是用于生成车辆语音文件的第一示例性系统的框图；
[0004]图2是用于生成车辆语音文件的第二示例性系统的框图；
[0005]图3是用于生成车辆语音文件的第三示例性系统的框图；
[0006]图4是说明用于生成语音文件的示例性程序的程序流程图。
【具体实施方式】
[0007]这里公开了包括生成在语音识别训练和/或评估、免提麦克风评估等中使用的语音文件的车辆车厢声学脉冲响应的有利系统和方法。目前公开的主题有利地消除了对车辆的长期或持续使用的需求，因为车辆仅需要背景噪音条件和车厢脉冲响应的总体上一次性录制。在那之后，车辆是没有必要的。车厢脉冲响应以及通常也录制的背景噪音，可以与话音相结合，话音可以在实验室环境中实时提供，和/或来自预录的数据库。公开的系统和方法也有潜力生成大的语音数据库，大的语音数据库可以用于包括自动语音识别引擎的训练的许多目的。
[0008]图1是用于生成车辆语音文件36的第一示例性系统10的框图。系统10包括用于生成车辆背景声音的子系统11。车辆声音数据库12存储从车辆录制的声音。例如，可以根据例如不同的路面、不同的速度、不同的环境条件等这样的各种参数在试车跑道上驾驶车辆。例如使用位于车辆车厢中的一个或多个位置处的具有麦克风的录制装置，可以录制声音文件以用于这样的参数的各种排列，并且声音文件存储在数据库12中。
[0009]可以以已知的方式设置房间均衡器14，以根据设置有扬声器16的房间、实验室等的声学特性来调整从声音数据库12中的文件提供的声音。使用均衡器14的目的是使来自扬声器16的声音具有相同或相似的频谱形状，频谱形状是当数据库12中的录制的声音根据录制声音用的参数提供到车辆中的免提麦克风时数据库12中的录制的声音的频率应该具有的频谱形状。例如，可以根据房间的已知特性调节均衡器14，并且仅当房间配置一一即房间音响效果一一改变时，重新调整均衡器14。可选地，通过监控到麦克风28的输入并且根据这个输入来调整均衡器14以相对于在房间中播放的来自扬声器16的声音在麦克风28处提供平坦的频率响应，可以实时或实质上实时地控制均衡器14。进一步可选地，房间、实验室等的声学脉冲响应可以被测量，并且可以与数据库12中的车辆声音卷积。
[0010]扬声器16用于播放来自数据库12的声音。注意，为了便于描述和说明，图1中包括并且在本说明书中涉及一个扬声器16，但是子系统11可以包括位于房间、实验室等中不同位置处的多个扬声器16。此外，应当理解的是，针对房间中不同位置处的不同的扬声器16，可以不同地调整均衡器14。
[0011]系统10进一步地包括用于模拟车辆乘员语音一一即用于提供一个或多个话音的子系统17。比如已知的，麦克风28接收通过扬声器16以及头部和躯干模拟器(HATS) 26播放的声音。子系统17进一步地包括录制的话音数据库18，录制的话音数据库18包括根据在寂静、非混响的环境中的人类说话者的话音录制的一个或多个声音文件。例如，数据库18中的声音文件可以包括到免提电话系统的命令、用于语音识别训练的样本话音等。声音文件从录制的话音数据库18提供到HATS 26。提供HATS均衡器20和房间均衡器22以在声音从HATS 26输出之前调整来自录制的话音数据库18的声音文件。使用除房间均衡器22之外的HATS均衡器20的目的是当声音从HATS 26输出时防止来自数据库18的话音被HATS 26频谱地改变。房间均衡器22与房间均衡器14不同，因为房间均衡器22将提供从HATS 口到麦克风的平坦的频率响应，而房间均衡器14提供从扬声器16到麦克风的平坦频率响应。
[0012]此外，具有处理器和存储器的计算装置可以使用存储的车辆声学脉冲响应24来调整来自录制的话音数据库18的声音。也就是说，脉冲响应24可以与均衡的录制的话音卷积以在麦克风28处生成来自HATS 26的具有频谱整形和由于车辆车厢音响效果而将存在的混响的话音。可以以已知的方式测量声学脉冲响应24，并且，如已知的，声学脉冲响应24描述声学空间或隔声罩的声学特性。
[0013]如上所述，一旦通过均衡器20、22并且根据车辆脉冲响应24处理来自数据库18的声音，并且也如上所述，当来自车辆声音数据库12的、由均衡器14处理的声音是通过扬声器16播放时，HATS 26可以用于向麦克风28提供录制的话音，从而产生包括由扬声器16产生的车辆声音的输出声音30。输出声音30可以提供给计算机32，即具有处理器和存储器的装置，存储由处理器可执行的指令的存储器用于执行包括在这里描述的步骤的各种步骤。计算机32可以使用输出声音30来生成一个或多个语音文件36。
[0014]此外，除使通过麦克风28接收的声音简单地数字化为比如WAV(声音资源文件)文件诸如此类的声音文件之外，计算机32可以执行附加处理。例如，当生成语音文件或文件36的目的是评估车辆中的免提麦克风时，在生成语音文件或文件36期间，免提麦克风脉冲响应34可以应用于输出声音30。如上所述，比如麦克风脉冲响应34这样的声学脉冲响应是已知的，而且可以与输出声音30卷积以生成语音文件36。
[0015]可以以各种方式使用语音文件36以评估免提通话质量或自动语音识别系统的性能。例如，通过将语音文件36应用于产生蓝牙输出信号诸如此类的免提电话处理系统，可以评估免提通话质量。这个蓝牙输出信号连同来自话音数据库18的语音文件以及输出声音30，为欧洲电信标准协会(ETSI)标准EG 202396-3和TS 103106的执行提供必要的信号。其他免提通话质量措施也可以与这些信号一起使用。此外，来自蓝牙输出、声音输出30或语音文件36的语音数据可以供应给自动语音识别引擎，以用受车辆背景噪音、车辆音响效果、免提麦克风频率响应和蓝牙处理影响的语音话音来评估语音识别引擎的性能。语音文件也可以用于自动语音识别引擎的训练。
[0016]图2是用于生成车辆语音文件36的第二示例性系统10’的框图。代替HATS 26，系统10’利用人类测试者38向麦克风28提供话音。因此，系统10’的背景声音模拟子系统11’省略在系统10的子系统11中看到的房间均衡器14和扬声器16。相反，在系统10’中，声音从车辆声音数据库12直接提供到可以由测试者38戴着的耳机40。向耳机40提供车辆声音的目的是应对所谓的伦巴效应(Lombard effect)，即其中人类可以调整音量和/或语音的音调以补偿背景噪音的现象。
[0017]此外，系统10’的语音模拟子系统17’省略录制的话音数据库18连同均衡器20、22，因为话音是由测试者38提供给“近距离”麦克风28，因此不需要来自数据库18的话音。(注意，可以包括从背景声音数据库12提供到耳机40的声音的耳机均衡从而为耳机提供平坦的频率响应。)。与系统10不同，在系统10’中，麦克风28位于足够靠近说话者的位置，因此不需要系统10中包括的均衡器22。相反，根据从测试者38接收到的语音，从麦克风28提供输出声音30。然后，计算机32可以将声音30与车辆脉冲响应34卷积。然后将卷积的话音添加到来自车辆声音数据库12的车辆背景噪音中。其结果然后与免提麦克风响应34卷积以生成一个或多个语音文件36，语音文件36已经被强加免提麦克风、车辆音响效果和车辆背景噪音的影响。
[0018]比如关于系统10描述的那些这样的输出信号也可用于系统10’中的免提通话质量和语音识别评估。系统10’的麦克风28输出总体上相当于系统10的话音数据库18中存储的数据。与车辆脉冲响应24外加来自车辆声音数据库12的车辆背景噪音卷积的输出声音30可以提供与来自系统10的输出声音30的那些信号总体上等效的信号。最后，语音文件36到产生蓝牙输出信号诸如此类的免提电话处理系统的应用将为免提通话质量评估提供必要的信号。此外，来自蓝牙输出、输出声音30或语音文件36的语音数据可以供应给自动语音识别引擎，以用受车辆背景噪音、车辆音响效果、免提麦克风频率响应和蓝牙处理影响的语音话音来评估语音识别引擎的性能。语音文件也可以用于自动语音识别引擎的训练。
[0019]图3是用于生成车辆语音文件36的第三示例性系统10”的框图。系统10”省略HATS 26和人类测试者38两者。以与上面关于系统10’讨论的子系统11’相似的方式提供背景声音模拟子系统11”。然而，在系统10”中，系统17”与其他变体不同之处在于录制的话音18与车辆脉冲响应卷积并且直接提供给计算机32。在计算机32中，将卷积的话音添加到来自车辆声音数据库12的车辆背景噪音中。产生的声音进一步地与免提麦克风脉冲响应卷积。计算机32从而生成一个或多个语音文件36，语音文件36已经被强加

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：迈克·艾伦·布洛默;斯科特·安德鲁·安曼;布丽奇特·弗朗西丝·莫拉·理查森;弗朗索瓦·沙雷特;马克·爱德华·波特;吉恩特·普什科留斯;安东尼·德韦恩·库普里德;
技术所有人：福特全球技术公司;
我是此专利的发明人

上一篇：一种语音驱动的智能人机交互方法
上一篇：用lstm循环神经网络模型进行语音识别的方法和装置的制造方法