抗噪感知敏感度曲线建立及语音合成方法与流程

文档序号：23164191发布日期：2020-12-04 13:57阅读：187来源：国知局

本发明属于声学技术领域，尤其涉及一种抗噪感知敏感度曲线建立及语音合成方法。

背景技术：

等响度曲线是指典型听音者感知响度相同的纯音的声压级与频率关系的曲线。双耳测听的等响度曲线，其中阈值最低一条的虚线，即纯音最小可听声场，作为双耳测听的听阈曲线。响度主要决定于声强，提高声强，响度级也相应增加。但是声音的响度并不是单纯由声强决定的，还取决于频率，不同频率的纯音有不同的响度增长率，其中低频纯音的响度增长率比中频纯音要快。

因此，和等响度曲线类似，说话人对环境噪声的感知在不同频率，不同噪声等级不同，相应触发的抗噪发声模式也不同。确定说话人对环境噪声分贝级变化的分辨阈值曲线，可以指导建立基于lombard效应的抗噪发声模型，适时启动相应的抗噪语音转换，保证转换后的抗噪语音和各类真实噪声场景的一致性。然而，现有技术重点关注lombard效应改变的声学特征，以及声学特征对提高抗噪语音的可懂度的重要性。由于缺乏抗噪感知敏感度的指导，会导致转换后的抗噪语音和真实场景不匹配，进而影响后续语音应用的体验。

为了充分利用人们在不同的噪声环境下的感知特性，从听觉感知的角度，研究抗噪发声机理，建立说话人对环境噪声的感知敏感度曲线，解决目前抗噪语音发声缺乏听觉感知模型指导，导致抗噪语音转换与真实场景脱节的问题，本发明提出了一种抗噪感知敏感度曲线建立及语音合成方法。

技术实现要素：

本发明为解决目前抗噪语音发声缺乏听觉感知模型指导的问题，缩小在频率上的细节性差异，提出了一种抗噪感知敏感度曲线建立及语音合成方法。

本发明所采用的技术方案是一种抗噪感知敏感度曲线建立方法，包括以下步骤，

步骤1，使用带通滤波，将噪声按人耳感知的临界频带划分，得到若干临界频带噪声；

步骤2，针对步骤1中每个临界频带噪声，按不同的噪声分贝级，录制对应的抗噪语音序列；

步骤3，基于sii客观测试指标确定感知阈值，对每个临界频带做噪声分贝级感知测试，得到更新后的临界分贝；

步骤4，根据步骤3所得更新后的临界分贝生成抗噪感知敏感度曲线。

而且，步骤1中，所述噪声采用白噪声。

而且，步骤1中，所述人耳感知的临界频带使用bark带或mel带。

而且，步骤2的实现方式为，首先针对步骤1所得每个临界频带噪声，通过人工头采集数据，根据预设的信噪比对每个临界频带噪声进行相应调整，校准分贝级；然后针对每个临界频带噪声，对不同的分贝级，分别录制语音序列。

而且，根据预设的信噪比范围下限min和上限max、步长d，分别按信噪比为min、min+d、min+2d、…、max录制，得到相应的语音序列。

而且，步骤3中，对每个临界频带做噪声分贝级感知测试采用mushra标准实现。

本发明还提供一种基于抗噪感知敏感度曲线建立的语音合成方法，包括以下步骤，

步骤1，使用带通滤波，将噪声按人耳感知的临界频带划分，得到若干临界频带噪声；

步骤2，针对步骤1中每个临界频带噪声，按不同的噪声分贝级，录制对应的抗噪语音序列；

步骤3，基于sii客观测试指标确定感知阈值，对每个临界频带做噪声分贝级感知测试，得到更新后的临界分贝；

步骤4，根据步骤3所得更新后的临界分贝生成抗噪感知敏感度曲线；

步骤5，从步骤4所得抗噪感知敏感度曲线获取临界分贝值，选取不同临界分贝值的抗噪语音，训练抗噪语音特征映射模型，利用映射后的抗噪语音特征进行语音合成。

而且，步骤5中，采用world声码器提取声学特征，所述包括基频和频谱包络。

而且，步骤5中，所述抗噪语音特征映射模型是采用高斯混合模型，使用em方法对频谱包络训练得到的。

而且，基于抗噪语音特征映射模型所得频谱包络特征转换结果，并结合基频特征进行语音合成。

本发明方法利用人们在噪声环境下的听觉特性和特殊的发声机理，提出了一种抗噪感知敏感度曲线建立及语音合成方法，更有利于抗噪语音转换的实际应用场景，准确性高，具有广泛的应用前景，例如在语音分离和会议转录的实际应用中需要大量的抗噪语音数据集，该发明方法能为此提供指导性意见，并合成需要的数据集。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供的方法能够用计算机软件技术和其他硬件设备实现流程，以下是对本发明的流程进行一个具体的阐述。

实施例一

本发明实施例一提供的一种基于抗噪感知敏感度曲线建立的语音合成方法，具体实施步骤如下：

步骤1：使用带通滤波，将噪声按人耳感知的临界频带划分，得到若干临界频带噪声；

本实施例中使用的噪声是白噪声，人耳感知的临界频带使用bark带，利用带通滤波，将白噪声按bark带划分。

步骤2：针对步骤1中所得每个临界频带噪声，按不同的噪声分贝级，录制对应的抗噪语音序列；

针对步骤2，本实施例可以采用以下步骤实现：

步骤2.1：针对步骤1中每个bark带噪声，通过人工头采集数据，根据预设的信噪比对每个bark带噪声进行相应调整，校准分贝级。

考虑到常见场景噪声为35db左右，人耳听觉痛阈为85db，实施例中预设的信噪比范围为40-85db，即min＝40，max＝85，步长d为5db。对每个bark带噪声，分别按信噪比为40、45、…80、85db录制，得到相应的语音数据。

实施例优选采用的录音材料和具体设置如下：

实施例采用人工头设备进行录制，例如g.r.a.s.kemar45ba1/2英寸低噪声耳模拟系统，包含高仿真延伸耳道。为了避免墙壁反射等其他噪音，人工头戴耳机，耳机内播放各类环境噪声，人工头录音，可以得到准确的信噪比。

本领域中信噪比计算方式如下：

其中，s(n)为语音信号，d(n)为噪声信号，ps为语音信号功率，pd为噪声信号功率，其中n为采样点，n为采样点长度。

步骤2.2：针对每个bark带噪声，对不同的分贝级，分别录制语音序列。

具体实施时，可以每个说话人佩戴耳机，耳机播放步骤2.1中校准后的噪声，针对每个bark带噪声，对不同的分贝级，录制每个说话人的语音序列。实施例方案的相应实验在武汉大学的消音室进行，使用高保真麦克风进行录制，得到对应分贝级的语音数据。

具体实施，可以预先进行步骤1和步骤2，作为输入数据。

步骤3：基于语音可懂度指数(speechintelligibilityindex，sii)客观测试指标确定感知阈值，然后使用mushra(multi-stimulustestwithhiddenreferenceandanchor)标准对每个临界频带做噪声分贝级感知测试，得到更新后的临界分贝；

具体实施时，还可以采用其他客观测试指标，例如；也可以采用其他标准进行测试，例如清晰度指数(articulationindex，ai)

针对步骤3，本实施例可以采用以下步骤实现：

步骤3.1：基于清晰度指数sii进行改进，sii取决于听者在频谱信息中的可听比例，本步骤使用sii的定义公式，在确定的sii分值的情况下计算临界分贝，sii的定义公式如下：

其中，sii分值为0-1，实施例为了确定分贝阈值，取0.35；nf为频带总数，为20；wf代表该频带f的人耳感知权重；lf表示语音水平失真的一个变量元素；ef和df分别代表语音和干扰噪声的分贝；表示该频带的可听阈值。

通过以上公式，在保证语音可懂度的同时，并得到该抗噪语音对应的噪声信噪比——临界分贝，即为ef-df。

步骤3.2：对步骤3.1中的临界分贝值进行微调：在每个bark带噪声做噪声分贝级感知实验，这里采用mushra标准进行听力感知测试，计算字错率(worderrorrate，wer)。为了使识别出来的词序列和标准序列保持一致，需要进行替换，删除，或者插入某些词，这些词的总个数除以标准序列中总词数，乘以百分比。最后的字错率计算公式如下：

所得字错率为分数，需要统计显著性为基准，首先计算每个语音序列的平均得分

其中，scoreijk表示第i个测听者在第j个信噪比等级下对第k个语音的评分，n为主观实验中测听者人员总数。然后计算每个平均分数的置信区间：

这里置信度取95％，通过比较不同信噪比的置信区间，找到不重复的边界值，更新临界分贝。

步骤4：根据步骤3中的测试结果(步骤3.2所得更新后的临界分贝)生成抗噪感知敏感度曲线。

本实施例中使用的是bark带，所以这里的敏感度曲线绘制横轴为bark带，纵轴为bark带噪声分贝级，具体实施时也可使用其他频带，例如mel带，生成相应取消。

步骤5：从步骤4中的抗噪感知敏感度曲线获取临界分贝值，选取不同临界分贝值的抗噪语音，训练抗噪语音特征映射模型，利用映射后的抗噪语音特征进行语音合成。

针对步骤5，本实施例可以采用以下步骤实现：

步骤5.1：选取抗噪感知敏感度曲线中，不同临界分贝值的抗噪语音以及对应的普通语音，提取声学特征如基频(f0)，频谱包络(spec)。

本实施例中采用world声码器提取声学特征，包括：

f0＝dio(x,fs)

spec＝cheaptrick(x,fs,f0)

其中x为输入的语音信号，fs为采样率，dio和cheaptrick是world声码器中现有技术，本发明不予赘述。

步骤5.2：利用步骤5.1中提取的声学特征，训练抗噪语音特征映射模型,，利用特征映射模型进行特征转换。

本实施例中使用的抗噪语音特征映射模型是高斯混合模型(gaussianmixturemodels,gmm)，使用最大期望算法(expectation-maximizationalgorithm,em)对步骤5.1中的spec训练对应的gmm，其中spec特征取24维，gmm为现有技术不作赘述

本实施例中采用的是gmm作为特征映射模型，还可以使用cyclegan和stargan等神经网络模型。

步骤5.3：利用步骤5.2中映射模型转换spec特征为spe’，并结合步骤5.1中其他特征进行语音合成。

本步骤采用world声码器进行语音合成，包括：

source＝platinum(x,f0,spec)

y＝synthesisbyworld(source,spec')

其中y为合成语音，platinum和synthesisbyworld为world声码器中现有技术，本发明不予赘述。

本实施例中分析和合成语音优选使用的是world声码器，其中分析语音还可以使用straight声码器等，合成语音还可以使用wavenet和wavegan等神经网络模型。

实施例二

本发明实施例二充分利用人们在噪声环境下的听觉特性，提出了一种抗噪感知敏感度曲线建立方法，能给实际应用中抗噪语音转换提出关键性指导。具体实施时，实现实施例一中步骤1-4即可。

具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，进行生成抗噪感知敏感度曲线、语音合成等操作。运行方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨玉红;冯佳倩;蔡林君;陈旭峰;刘青沐;郭佳昊;余洪江;涂卫平;艾浩军;王晓晨;高戈
技术所有人：武汉大学
我是此专利的发明人

上一篇：一种超细颗粒和重金属汞高效吸附及团聚脱除的装置和方法与流程
上一篇：化纤空调专用节能风机的制作方法