语音信号的处理方法及装置的制造方法_3

文档序号：9525221阅读：来源：国知局

环路传递函数及播音信号，可应用如下公式<6〉，计算回声信号的估计值：
[0120]E(η) =Η_1οορ·Υ(η)
[012。 <6〉
[012引其中，Ε(η)为回声信号的估计值。
[0123] 405、移动终端获取录音信号的功率特征值、播音信号的功率特征值及回声信号的功率特征值。
[0124] 其中，录音信号的功率特征值为对录音信号的功率谱进行衡量的一种量度，可通过对录音信号的功率谱进行处理得到，在本实施例中，录音信号的功率特征值可用VAD_x 表示。VAD_x为一种二值状态，具有true和flase两种状态。当VAD_x=true时，表示录音信号较强；当VAD_x=flase时，表示录音信号较弱。
[0125] 播音信号的功率特征值为对播音信号的功率谱进行衡量的一种量度，可通过对播音信号的功率谱进行处理得到，在本实施例中，播音信号的功率特征值可用VAD_y表示。 VAD_y为一种二值状态，具有true和flase两种状态。当VAD_y=true时，表示播音信号较强；当VAD_y=flase时，表示播音信号较弱。
[0126] 回声信号的功率特征值为对回声信号的功率谱进行衡量的一种量度，在本实施例中，回声信号的功率特征值可用VAD_e表示。VAD_e为一种二值状态，具有true和flase两种状态。当VAD_e=true时，表示回声信号较强；当VAD_e=flase时，表示回音信号较弱。此处需要说明的是，在获取回声信号的功率特征值时，可预先根据回声信号的频谱估计值，计算一个回声信号的功率谱，进而通过对回声信号的功率谱进行处理，得到回声信号的功率特征值。此处计算得到的回声信号的功率谱为对回声信号的功率谱的一种估计，对于回声信号的功率谱是否为此处计算得到的回声信号的功率谱，需要通过下述步骤406进一步判断。
[0127] 406、移动终端判断录音信号的功率特征值是否大于第一阔值、播音信号的功率特征值是否大于第二阔值、回声信号的功率特征值是否大于第Ξ阔值，如果是，执行步骤407。 [012引为了将回声信号、噪声信号及近端信号进行区分，本实施例应用信号检测和分类模块W及语音激活检测机制，并根据录音信号的功率特征值、回声信号的功率特征值W及播音信号的功率特征值，按时间区分近端信号和非近端信号，W获取回声信号的功率谱、噪声信号的功率谱。具体判断时，移动终端需要判断录音信号的功率特征值是否大于第一阔值，播音信号的功率特征值是否大于第二阔值、回声信号的功率特征值是否大于第Ξ阔值。其中，第一阔值、第二阔值、第Ξ阔值为预设口限值，在本实施例中，第一阔值可用Τχ表示，第二阔值可用Ty表示，第Ξ阔值可用Te表示，第一阔值、第二阔值、第Ξ阔值取值越小，移动终端对噪声的反应越敏感，反之，移动终端仅当噪声能量非常大时，才对噪声作出反应。
[0129] 上述判断过程，可用如下公式<7〉表示：
[0130]
[0131] 一般情况下，移动终端通过麦克风所采集到的录音信号中可能并不存在近端信号，为了进一步判断录音信号中是否存在近端信号，可采用如下公式<8〉进行判断：
[013引当VAD_y=flase，并且VAD_e=flase时，VAD_v=VAD_x<8〉
[0133] 也即是，当移动终端的扬声器并没用播放声音（即VAD_y=flase)时，且未检测到回声信号（即VAD_e=flase),则此时麦克风所收集到的录音信号即为近端信号，此时用户正在说话，否则说明用户未在说话。
[0134] 在判断过程中，如果判断出录音信号的功率特征值大于第一阔值、播音信号的功率特征值大于第二阔值、回声信号的功率特征值大于第Ξ阔值，则执行下述步骤407 ;如果判断出录音信号的功率特征值大于第一阔值、播音信号的功率特征值大于第二阔值、回声信号的功率特征值小于或等于第Ξ阔值，或者，录音信号的功率特征值大于第一阔值、播音信号的功率特征值小于或等于第二阔值，则忽略本次获取到的录音信号和播音信号；则忽略本次获取到的录音信号和播音信号。
[0135] 407、移动终端计算回声信号的频谱估计值的平方，作为回声信号的功率谱。
[0136] 当录音信号的功率特征值是大于第一阔值、播音信号的功率特征值大于第二阔值、回声信号的功率特征值大于第Ξ阔值时，移动终端通过计算回声信号的频谱估计值的平方，获取回声信号的功率谱，具体计算时，可应用W下公式<9〉：
[0137] Pe=E(n).~2 <9〉
[0138] 其中，P。为回声信号的功率谱。
[0139] 408、移动终端判断录音信号的功率特征值是否小于第一阔值、回声信号的功率特征值是否小于第Ξ阔值，如果是，执行步骤409。
[0140] 基于上述步骤407,移动终端还将继续判断录音信号的功率特征值是否小于第一阔值、回声信号的功率特征值是否小于第Ξ阔值，W获取噪声信号的功率谱。
[0141] 在判断过程中，如果判断出录音信号的功率特征值小于第一阔值且回声信号的功率特征值小于第Ξ阔值，则执行下述步骤409 ;如果判断出录音信号的功率特征值小于第一阔值、回声信号的功率特征值大于或等于第Ξ阔值，则忽略本次获取到的录音信号和播音信号。
[0142] 409、移动终端将录音信号的功率谱减去回声信号的功率谱，作为噪声信号的功率谱。
[0143]当判断出录音信号的功率特征值小于第一阔值且回声信号的功率特征值小于第 Ξ阔值，此时可认为未检测到近端信号，也即是用户此时并未讲话，此时移动终端通过将录音信号的功率谱减去回声信号的功率谱，作为噪声信号的功率谱。具体实施时，可参见下述公式<10〉：
[0144] Ρη=Ρχ-Ρβ <1〇>
[014引其中，Ρ。为噪声信号的功率谱。
[0146] 410、移动终端根据回声信号的功率谱和噪声信号的功率谱，计算频率加重系数。
[0147] 移动终端在根据回声信号的功率谱和噪声信号的功率谱，计算频率加重系数时，可采用如下步骤4101~4102 :
[0148] 4101、移动终端根据回声信号的功率谱及噪声信号的功率谱，构建语音可懂度函数。
[0149] 在声学领域，语音可懂度函数（SII)具有多套标准，本实施例中采用ASNI-S3. 5中的标准[4]为了进行计算，在标准[4]中，语音可懂度函数可W表示为W回声信号的功率谱及噪声信号的功率谱为自变量的函数。因此，当移动终端计算出回声信号的功率谱和噪声信号的功率谱之后，即可构建出语音可懂度函数。构建的语音可懂度函数可参见如下公式 <11〉：「01501
<11>
[0151]其中，im。为所拆分的频带总数，i为im。诚的任一频带，SII为语音可懂度函数，化1为回声信号在第i个频带内的功率谱，Pn1为噪声信号在第i个频带内的功率谱，Pu1为标准语音强度在第i个频带内功率谱，Ii为分频带加权权重，Pd1为中间变量，可用如下公式<12〉表示：
[0152]
<12>
[015引其中，fk表示第i个频带内的第k个频点，Ck为中间变量，可用如下公式<13〉表示：
[0154] Ck= 0. 6 (max{化k, f*ek_24}+101ogi〇fk-6. 353)-80 <13〉
[0155] 其中，Pek为回声信号在第k个频点上的功率谱，Prik为噪声信号在第k个频点上的功率谱。
[0156]需要说明的是，上述化1和Ii的具体取值可W参考ANSI-S3.5标准[4]中规定的数值，也可W由设计人员根据需要自行确定。
[0157] 4102、在回声信号的功率谱保持不变的条件下，移动终端计算语音可懂度函数的极大值，作为频率加重系数。
[015引在本实施例中，频率加重系数即为移动终端中加重滤波器的系数，用于调节移动终端输出的播音信号的频点幅值。在不同时刻时，移动终端所计算出的频率加重系数是不同的。
[0159] 通过观察上述步骤4101中所构建的语音可懂度函数可W看出，语音可懂度函数为W回声信号的功率谱和噪声信号的功率谱为自变量的函数，也即是，语音可懂度函数中的变量有两个，此时很难计算计算语音可懂度函数的极大值。为此，本实施例提供的方法作了一个近似计算，设定第η时刻的噪声信号的功率谱近似等于n-1时刻的噪声信号的功率谱，运样在计算第η时刻的频率加重系数时，移动终端可直接使用第n-1时刻所计算出的噪声信号的功率谱。通过采用该种处理方式，移动终端将语音可懂度函数转换为W回声信号的功率谱为自变量的函数。
[0160] 为了提高用户扬声器播放的语音信号的语音可懂度，移动终端在将包括录音信号和播音信号在内的语音信号通过扬声器播放之前，还将采用加重滤波器对录音信号和播音信号进行处理，W提高录音信号和播音信号在指定频点上的幅值，增加录音信号和播音信号的能量。受限于移动终端的尺寸，扬声器播放的最大声功率具极大值，为了避免扬声器不会过载，本实施例在基于所构建的语音可懂度函数，计算频率加重系数时，需采用加重滤波器增强前后的回声信号功率谱保持不变，运时再计算语音可懂度函数的极大值，在数学上运一方法称为有约束条件下求极值问题。该极值问题，可用如下公式<14〉表示：
[0161] <14>
[0162] 其中，Pei为增强前的回声信号在第i个频点上的功率谱，Pe'1为增强后的回声信号在第i个频点上的功率谱，公iS
巧证了增强前后的回声信号功率谱不变，从而确保扬声器不会过载。
[0163] 需要注意的是，通过加重滤波器处理后的信号为电信号，电信号需通过扬声器转换后才变成声波。由于不同型号的移动终端的扬声器的输出频率响应是不同的，如果要获取不同移动终端的扬声器的输出功率响应，就需要分别测量每个移动终端的扬声器，并在运行时进行校正补偿，由此将产生硬件碎片化问题。为了避免该问题，本实施例提供的方法将采用如下方法，W避免对扬声器频响的直接测量。
[0164]通过对上述公式<6〉的观察可W发现，E(η)与Y(η)可通过环路传递函数建立起映射关系。本实施例将扬声器的频率响应记为Hgpk，将麦克风的频率响应记为Hmi。，根据公式<6〉，则可得出：
[01 财
<15>
[0166]对上述公式<15〉，可将公式<14〉求极值问题转化为求偏导的问题，通过计算公式 <15〉的偏导数，可得到语音可懂度函数的拐点，具体过程可参见下述公式<16〉：「mR7]
[016引其中，|W|2为频率加重系数，|H_iwp|2可通过上述公式<3〉得到，Pyi可通过上述公式<5〉得到，SII可通过公式<11〉得到。
[0169] 通过对上述公式<16〉进行计算，可得到当前时刻的|W|2。
[0170] 411、基于频率加重系数，移动终端对播音信号的频点幅值进行调节。
[0171] 基于所确定的频率加重系数，移动终端通过动态地跟踪并调整语音可懂度函数， W实现对噪声信号的功率谱P。、回声信号的功率谱P。进行调整。
[0172] 412、移动终端输出调节后的播音信号。
[0173] 为了提高移动终端当前时刻所输出的播音信号的准确性，移动终端将结合当前时刻之前的一段时间内所输出的语音信号及相应的频率加重系数，确定当前时刻所输出的播音信号。最终输出的播音信号，可参见下述公式<17〉。
[0174] 詞

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6