检测语音信号的方法和装置制造方法

文档序号：2825581阅读：213来源：国知局

检测语音信号的方法和装置制造方法
【专利摘要】一种检测语音信号的方法和装置。方法包括：以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个第一时帧的能量，通过分析多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧；以第二时帧帧长为单位，对连续语音样本进行分帧以得到多个第二时帧，每个第二时帧帧长为第一时帧帧长的整数倍，其中，包括目标第一时帧的第二时帧为目标第二时帧；对每个第二时帧进行处理以获取音调特征，通过分析至少一个包括至少一个目标第二时帧的第二时帧的音调特征，以确定目标第二时帧所包括的目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常。该技术方案能够提高检测语音信号的异常的准确性。
【专利说明】检测语音信号的方法和装置
【技术领域】
[0001]本发明涉及音频处理领域，更具体地，涉及检测语音信号的方法和装置。
【背景技术】
[0002]音频技术中，出于分析方便，语音信号的异常开始(英文为abrupt start)和/或异常结束(英文为abrupt stop)在本文中指示两类情形:一种是出现在同一段语音段中的持续时间较短的成对出现的异常结束及异常开始，上下文中简称异常间断。例如，在讲话过程中，一段语音信号丢失中间的部分信息，就会造成异常间断。另一种是单独出现的异常开始或单独出现的异常结束，上下文中简称为异常开始或异常结束。例如，开始讲话时语音信号的异常开始，或是结束讲话时语音信号的异常结束。下文中，语音信号的异常可以包括语音信号的异常间断、异常开始和异常结束之一。
[0003]语音信号的异常主要是由于信号处理过程中丢包及VAD误判等引起的，会对语音信号还原后的语义(英文为semantic)及句法(英文为syntactic)造成损伤。由于语义及句法是与语言内容(英文为language content)相关的，与非母语测试者相比，语音信号的异常开始或异常结束会对母语测试者造成更大的影响。现有的语音质量评估模型在评估语音信号的质量时，通常并不会去分析语言内容，因此无法体现出语音信号的异常对于音质的影响。针对该问题，需要在基本的评估模型的基础上，能够检测出语音信号的异常，进而针对全部语音信号中出现的语音信号的异常单独进行质量评估。
[0004]现有技术中，检测语音信号的异常的准确性较低。

【发明内容】

[0005]有鉴于此，本发明实施例提供一种检测语音信号的方法和装置，能够解决检测语音信号的异常的准确性较低的问题。
[0006]第一方面，提供了一种检测语音信号的方法，包括:以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个第一时帧的能量，通过分析多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，潜在的语音信号的异常包括潜在的语音信号的异常间断、异常开始和异常结束之一；以第二时帧帧长为单位，对连续语音样本进行分帧以得到多个第二时帧，每个第二时帧帧长为第一时帧帧长的整数倍，其中，包括目标第一时帧的第二时帧为目标第二时帧；对每个第二时帧进行处理以获取音调特征，通过分析至少一个包括至少一个目标第二时帧的第二时帧的音调特征，以确定目标第二时帧所包括的目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常。
[0007]在第一种可能的实现方式中，以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧；获取每一个第一时帧的能量frame_energy_short (i),其中第i巾贞为多个第一时巾贞中的第i个第一时巾贞，且i为自然数。
[0008]结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，如果第一时中贞的能量之间的关系满足(frame_energy_short (i_l)-frame_energy_short (i) ^ a2)并且(frame_energy_short (i)〈a),则第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中S1和a2分别为预设的第一阈值和第二阈值,其中i≥1。
[0009]结合第一方面的第一种可能的实现方式，在第三种可能的实现方式中，如果第一时中贞的能量之间的关系满足(frame_energy_short (i_2) _frame_energy_short (i) ^ a2)并且(frame_energy_short⑴〈aj ,其中S1和a2分别为预设的第一阈值和第二阈值，并且第(1-Ι)帧及第(1-2)帧均不是包含潜在的语音信号的异常结束的目标第一时帧，则第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i > 2且第O帧和第I帧预设为不包含潜在的语音信号的异常结束的第一时帧。
[0010]结合第一方面的第一种可能的实现方式，在第四种可能的实现方式中，如果第一时中贞的能量之间的关系满足(frame_energy_short (i_3)-frame_energy_short (i) ^ a2)并且(frame_energy_short⑴〈aj ,其中S1和a2分别为预设的第一阈值和第二阈值，并且第(1-Ι)帧至第(1-3)帧均不是包含潜在的异常结束的目标第一时帧，则第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i > 3且第O帧、第I帧和第2帧预设为不包含潜在的语音信号的异常结束的第一时帧。
[0011]结合第一方面的第一种可能的实现方式，在第五种可能的实现方式中，如果第一时中贞能量之间的关系满足(frame_energy_short (i)-frame_energy_short (i_l) ^ a2)并且(frame_energy_short (1-1)〈a),则第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中S1和a2分别为预设的第一阈值和第二阈值,其中i≥1。
[0012]结合第一方面的第一种可能的实现方式，在第六种可能的实现方式中，如果第一时中贞能量之间的关系满足(frame_energy_short (i)_frame_energy_short (i_2) ^ a2)并且(frame_energy_short (1-2)〈aj ,其中S1和a2分别为预设的第一阈值和第二阈值,并且第(1-Ι)帧及第(1-2)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i > 2且第O帧和第I帧预设为不包含潜在的语音信号的异常开始的第一时帧。
[0013]结合第一方面的第一种可能的实现方式，在第七种可能的实现方式中，如果第一时中贞能量之间的关系满足(frame_energy_short (i)_frame_energy_short (i_3) ^ a2)并且(frame_energy_short (1-3)〈aj ,其中S1和a2分别为预设的第一阈值和第二阈值,并且第(1-Ι)帧至第(1-3)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i > 3且第O帧、第I帧和第2帧预设为不包含潜在的语音信号的异常开始的第一时帧。
[0014]结合第一方面或第一方面的上述任一种可能的实现方式，在第八种可能的实现方式中，对多个第二时帧按照时间顺序执行音调检测处理；获取第k帧的总声压级spl_total (k)、音调分量声压级spl_tonal (k)和非音调分量声压级spl_non_tonal (k)作为第k帧的音调特征，其中第k帧为多个第二时帧中的第k个第二时帧，且k为自然数。
[0015]结合第一方面的第八种可能的实现方式，在第九种可能的实现方式中，如果目标第二时帧的音调特征满足spl_tonal (k) ^ a3，则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，或如果目标第二时帧的音调特征满足(a4< spl_tonal (k)〈a3)并且(spl_total (k) >=a5)，则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，其中，a3、a4和&5分别为预设的第三阈值、第四阈值和第五阈值。
[0016]结合第一方面的第八种可能的实现方式，在第十种可能的实现方式中，判断spl_total (k)、spl_total (k_l)及 spl_total (k+1)的其中之一是否增长过于迅速，若 spl_total (k)、spl_total (k-1)及spl_total (k+1)的其中之一是否增长过于迅速,且,第二时中贞的音调特征满足:(spl_tonal (k+1)≥ a7)，(spl_tonal (k) <a8)，
[0017](spl_tonal (k+1) _sp_non_tonal (k) >0), (spl_non_tonal (k_l)〈a9)，则第 k 帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；或判断spl_total(k)、spl_total (k-1)及 spl_total (k+1)的其中之一是否增长过于迅速，若 spl_total (k)、spl_total (k-1)及spl_total (k+1)的其中之一增长过于迅速,且，
[0018]第二时帧的音调特征满足:(spl_tonal(k+2)≥ a10), (spl_tonal (k+1) <an),
[0019](spl_tonal (k+2) _sp_non_tonal (k+1) >0), (spl_non_tonal (k) <a12),贝U 第 k 中贞包括的潜在的语音信号的异常为真正的语音信号的异常开始；其中，a7至a12为预设的第七阈值至第十二阈值；并且，判断 spl_total (k)、spl_total (k_l)及 spl_total (k+1)的其中之一是否增长过于迅速，包括:如果第二时帧的音调特征满足(spl_t0tal(k)-spl_total (k-1)≥ a6)并且(spl_total (k_l)及 spl_total (k_2)增长平缓)，则 spl_tonal (k)增长过于迅速，其中k ^ 2且预设第O帧和第I帧的总声压级增长平缓；或如果第二时中贞的音调特征满足(spl_total (k) -spl_total (k-2)≥ a6)并且(spl_total (k) >spl_total (k-1))并且(spl_total(k_l)>spl_total(k_2))并且(spl_total(k_l)及 spl_total (k-2)增长平缓)，贝丨J spl_tonal (k)增长过于迅速,其中k≥2且预设第O中贞和第I帧的总声压级增长平缓，其中a6为预设的第六阈值；或如果第二时帧的音调特征同时不满足上述两个条件，则spl_tonal(k)增长平缓。
[0020] 结合第一方面的第八种可能的实现方式，在第十一种可能的实现方式中，判断spl_total (k)、spl_total (k-1)及 spl_total (k+1)的其中之一是否下降过于迅速，若 spl_total (k)、spl_total (k-1)及spl_total (k+1)的其中之一是否下降过于迅速，且,第二时中贞的音调特征满足:(spl_tonal (k_l) ≥ a7), (spl_tonal (k) <a8), (spl_tonal (k_l) _sp_non_tonal (k) >0), (spl_non_tonal (k+1) <a9),则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常结束，其中k≥1 ;或判断spl_total (k)、spl_total (k-1)及spl_total (k+1)的其中之一是否下降过于迅速，若 spl_total (k)、spl_total (k_l)及 spl_total (k+1)的其中之一是否下降过于迅速，且，第二时帧的音调特征满足:
[0021](spl_tonal (k_2) ^≥a10), (spl_tonal (k_l) <an), (spl_tonal (k_l) _sp_non_tonal (k-2) >0), (spl_non_tonal (k) <a12),则第k帧包括的潜在的语音信号的异常真正的语音信号的异常结束，其中k > 2 ;其中，a7至a12为预设的第七阈值至第十二阈值；并且判断spl_total (k)、spl_total (k-Ι)及spl_total (k+1)的其中之一是否增长过于迅速，包括:如果第二时帧的音调特征满足(spl_total (k-1)-spl_total (k) ^ a6)并且(spl_total (k-1)及 spl_total (k-2)下降平缓)，则 spl_total (k)下降过于迅速，其中k > 2且预设第O帧和第I帧的总声压级下降平缓；或如果第二时帧的音调特征满足(spl_total (k-2) -spl_total (k) ^ a6)并且(spl_total (k-1) >spl_total (k))并且(spl_total (k-2) >spl_total (k-1))并且(spl_total (k_l)及 spl_total (k_2)下降平缓)，则spl.total (k)下降过于迅速，其中k≥2且预设第O帧和第I帧的总声压级下降平缓；或如果同时不满足上述两个条件，则spl_total (k)下降平缓，其中a6为预设的第六阈值。
[0022]第二方面，提供了一种检测语音信号的装置，包括第一检测单元、帧单元和第二检测单元，其中，第一检测单元用于以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个第一时帧的能量，通过分析多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，潜在的语音信号的异常包括潜在的语音信号的异常间断、异常开始和异常结束之一；帧单元用于以第二时帧帧长为单位，对连续语音样本进行分帧以得到多个第二时帧，每个第二时帧帧长为第一时帧帧长的整数倍，其中，包括目标第一时帧的第二时帧为目标第二时帧；第二检测单元用于以对每个第二时帧进行处理以获取音调特征，通过分析至少一个包括至少一个目标第二时帧的第二时帧的音调特征，以确定目标第二时帧所包括的目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常。
[0023]在第一种可能的实现方式中，第一检测单元包括第一获取模块和第一确定模块:第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧，获取每一个第一时帧的能量frame_energy_short (i),其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块:用于确定如果第一时帧的能量之间的关系满足(frame_energy_short (i_l) -frame_energy_short (i)≥a2)并且(frame_energy_short (i)〈a),则第i帧为包含潜在的语音信号的异常结束的目标第一时帧,其中B1和a2分别为预设的第一阈值和第二阈值,其中i > I。
[0024]结合第二方面，在第二种可能的实现方式中，第一检测单元包括第一获取模块和第一确定模块，第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧,获取每一个第一时帧的能量frame_energy_short (i),其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块，第一确定模块，用于确定如果第一时帧的能量之间的关系满足(frame_energy_short (1-2) -frame_energy_short (i) ^ a2)并且(frame_energy_short (i) Ca1),其中 B1 和a2分别为预设的第一阈值和第二阈值，并且第(1-Ι)帧及第(1-2)帧均不是包含潜在的语音信号的异常结束的目标第一时帧，则第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i > 2且第O帧和第I帧预设为不包含潜在的语音信号的异常结束的第一时帧。
[0025]结合第二方面，在第三种可能的实现方式中，第一检测单元包括第一获取模块和第一确定模块:第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧,获取每一个第一时帧的能量frame_energy_short (i),其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块:第一确定模块，用于确定如果第一时帧的能量之间的关系满足(frame_energy_short (1-3) -frame_energy_short (i) ^ a2)并且(frame_energy_short (i) Ca1),其中 B1 和a2分别为预设的第一阈值和第二阈值，并且第(1-Ι)帧至第(1-3)帧均不是包含潜在的异常结束的目标第一时帧，则第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i > 3且第O帧、第I帧和第2帧预设为不包含潜在的语音信号的异常结束的第一时帧。
[0026]结合第二方面，在第四种可能的实现方式中，第一检测单元包括第一获取模块和第一确定模块:第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧,获取每一个第一时帧的能量frame_energy_short (i),其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块，用于确定如果第一时帧能量之间的关系满足(framr_energy_short (i) -frame_energy_short (i_l)≥ a2)并且(frame_energy_short (i_l)〈a),则第 i 帧为包含潜在的语音信号的异常开始的目标第一时帧，其中％和a2分别为预设的第一阈值和第二阈值，其中i≥1。
[0027]结合第二方面，在第五种可能的实现方式中，第一检测单元包括第一获取模块和第一确定模块:第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧,获取每一个第一时帧的能量frame_energy_short (i),其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块，用于确定如果第一时帧能量之间的关系满足(frame_energy_short (i) -frame_energy_short (i~2) ^ a2)并且(frame_energy_short (i~2) Ka1),其中 a!和 a2 分别为预设的第一阈值和第二阈值，并且第(1-Ι)帧及第(1-2)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i > 2且第O帧和第I帧预设为不包含潜在的语音信号的异常开始的第一时帧。
[0028]结合第二方面，在第六种可能的实现方式中，第一检测单元包括第一获取模块和第一确定模块:第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将连续语音样本按照时间顺序划分为多个第一时帧,获取每一个第一时帧的能量frame_energy_short (i),其中第i帧为多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块，用于确定如果第一时帧能量之间的关系满足(frame_energy_short (i)_frame_energy_short (i~3) ≥a2)并且(frame_energy_short (i~3) Ka1),其中 a!和 a2 分别为预设的第一阈值和第二阈值，并且第(i-1)帧至第(1-3)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i > 3且第O帧、第I帧和第2帧预设为不包含潜在的语音信号的异常开始的第一时帧。
[0029]结合第二方面或第二方面的上述任一种可能的实现方式，在第七种可能的实现方式中，第二检测单元包括第二获取模块和第二确定模块:第二获取模块，用于对多个第二时帧按照时间顺序执行音调检测处理，获取第k帧的总声压级spl_total (k)、音调分量声压级spl_tonal(k)和非音调分量声压级spl_non_tonal (k),其中第k帧为多个第二时帧中的第k个第二时帧，且k为自然数；第二确定模块，用于确定如果目标第二时帧的音调特征满足spl_tonal (k)≥ a3，则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，或如果目标第二时帧的音调特征满足(a4≤apl_tonal (k) <a3)并且(spl_total (k) >=a5)，则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，其中，a3、a4和a5分别为预设的第三阈值、第四阈值和第五阈值。
[0030]结合第二方面或第二方面的上述一种可能的实现方式，在第八种可能的实现方式中，第二检测单元包括第二获取模块和第二确定模块:第二获取模块，用于对多个第二时帧按照时间顺序执行音调检测处理，获取第k帧的总声压级spl_total (k)、音调分量声压级spl_tonal (k)和非音调分量声压级spl_non_tonal (k),其中第k帧为多个第二时帧中的第k个第二时帧，且k为自然数；第二确定模块,用于判断spl_total (k)、spl_total (k-1)及spl_total (k+1)的其中之一是否增长过于迅速，若 spl_total (k)、spl_total (k-1)及 spl_total (k+1)的其中之一是否增长过于迅速，且，第二时帧的音调特征满足:
[0031](spl—tonal (k+1) ≥ a7)
[0032](spl—tonal (k) <a8)，
[0033](spl—tonal (k+1) _sp—non—tonal (k) >0)
[0034](spl—non—tonal (k_l) <a9)，
[0035]则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；或判断spl—total (k)、spl—total (k-1)及 spl—total (k+1)的其中之一是否增长过于迅速，若 spl—total (k)、spl—total (k-1)及spl—total (k+1)的其中之一增长过于迅速，且，第二时帧的音调特征满足:
[0036](spl—tonal (k+2) ≥a10),
[0037](spl—tonal (k+1) <an)，
[0038](spl—tonal (k+2) _sp—non—tonal (k+1) >0)
[0039](spl—non—tonal (k) <a12)，
[0040]则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；其中，a7至a12为预设的第七阈值至第十二阈值；并且，判断spl—total (k)、spl—total (k-1)及spl—total (k+1)的其中之一是否增长过于迅速包括:如果第二时帧的音调特征满足(spl—total (k)-spl—total (k_l) ≥ a6)并且(spl—total (k_l)及 spl—total (k_2)增长平缓)，则spl—tonal (k)增长过于迅速，其中k≥2且预设第0帧和第I帧的总声压级增长平缓；或如果第二时帧的音调特征满足(spl—total (k)-spl—total (k-2) ≥ a6)并且(spl—total(k)>spl—total(k_l))并且(spl—total (k_l)>spl—total(k_2))并且(spl—total (k-1)及spl—total (k-2)增长平缓)，则 spl—tonal (k)增长过于迅速，其中k≥2且预设第O帧和第I帧的总声压级增长平缓，其中a6为预设的第六阈值；或如果第二时帧的音调特征同时不满足上述两个条件，则spl—tonal (k)增长平缓。
[0041]结合第二方面或第二方面的任一种可能的实现方式，在第九种可能的实现方式中，第二检测单元包括第二获取模块和第二确定模块:第二获取模块，用于对多个第二时帧按照时间顺序执行音调检测处理，获取第k帧的总声压级spl—total (k)、音调分量声压级spl—tonal (k)和非音调分量声压级spl—non—tonal (k)，其中第k帧为多个第二时帧中的第k个第二时帧，且k为自然数；第二确定模块，用于判断spl—total (k)、spl—total (k-1)及spl—total (k+1)的其中之一是否下降过于迅速，若 spl—total (k)、spl—total (k-1)及 spl—total (k+1)的其中之一是否下降过于迅速，且，第二时帧的音调特征满足:
[0042](spl—tonal (k_l) ≥ a7),
[0043](spl—tonal (k) <a8)，
[0044](spl—tonal (k_l) _sp—non—tonal (k) >0)，
[0045](spl—non—tonal (k+1) <a9)，
[0046]则第k帧包括的潜在的语音信号的异常为真正的语音信号的异常结束，其中k ≥1 ;或判断 spl—total (k)、spl—total (k-1)及 spl—total (k+1)的其中之一是否下降过于迅速，若spl—total (k)、spl—total (k_l)及spl—total (k+1)的其中之一是否下降过于迅速，且，第二时帧的音调特征满足:
[0047](spl—tonal (k_2) ≥ a10),[0048](spl_tonal(k_l)<an),
[0049](spl_tonal(k_l)_sp_non_tonal(k_2) >0)，
[0050](spl_non_tonal (k) <a12),
[0051]则第k帧包括的潜在的语音信号的异常真正的语音信号的异常结束，其中k≥ 2 ;其中，a7至a12为预设的第七阈值至第十二阈值；判断spl_total (k)、spl_total (k_l)及spl_total(k+l)的其中之一是否增长过于迅速，包括:如果第二时帧的音调特征满足(spl_total (k-1) -spl_total (k) ≥a6)并且(spl_total (k_l)及 spl_total (k_2)下降平缓)，则spl_total(k)下降过于迅速，其中k≥2且预设第O帧和第I帧的总声压级下降平缓；或如果第二时帧的音调特征满足(spl_total (k-2)-spl_total (k)≥a6)并且(spl_total(k-1)>spl_total(k))并且(spl_total(k_2)>spl_total(k_l))并且(spl_total (k-1)及spl_total (k_2)下降平缓)，则spl_total (k)下降过于迅速，其中k≥2且预设第O帧和第I帧的总声压级下降平缓；或如果同时不满足上述两个条件，则spl_total (k)下降平缓，其中a6为预设的第六阈值。
[0052]通过上述技术方案，可以通过首先检测潜在的语音信号的异常和进一步分析潜在的语音信号的异常的音调特征，可以确定真正的语音信号的异常，从而有效地提高检测语音信号的异常的准确性。
【专利附图】

【附图说明】
[0053]为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0054]图1A和图1B是相关技术的检测语音信号的异常的检测结果的示意截图。
[0055]图2A和图2B是相关技术的检测语音信号的异常的检测结果的示意截图。
[0056]图3是本发明实施例的检测语音信号的异常的方法的示意流程图。
[0057]图4是本发明另一实施例的检测语音信号的异常的方法的示意流程图。
[0058]图5A和图5B是根据本发明另一实施例的声压级分布曲线的示意图。
[0059]图6A和图6B是根据本发明另一实施例的声压级分布曲线的示意图。
[0060]图7A和图7B分别是根据本发明实施例的检测语音信号的装置的示意框图。
[0061]图8是根据本发明另一实施例的检测语音信号的装置的示意框图。
【具体实施方式】
[0062]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。
[0063]图1A和图1B是相关技术的检测语音信号的异常的检测结果的示意截图。其中，图1A是通过与原始语音比较，人工标定的检测结果，图1B是现有技术的检测结果。图1A和图1B中，横轴表不样本点，纵轴表不归一化幅值。对于出现在同一段语音信号中的持续时间较短的异常间断，为方便显示，图1A和图1B中只标示出其异常结束的位置，如图中线段11所示。与人工标定的检测结果相比，图1B中大部分的持续时间短的语音信号的异常间断均没有检测出来，如图中箭头12所示。
[0064]图2A和图2B是相关技术的检测语音信号的异常的检测结果的示意截图。图2A是通过与原始语音比较，人工标定的检测结果，图2B是现有技术的检测结果。图2A和图2B中，横轴表不样本点，纵轴表不归一化幅值。对于出现在同一段语音信号中的持续时间较短的异常间断，为方便显示，图2A和图2B中只标示出其异常结束的位置，此外，还标示出单独出现的异常开始或异常结束，如图中线段21所示。与人工标定的检测结果相比，图2B中，对于能量相对较小的语音信号的异常开始或异常结束没有检测出来，如图中箭头22所示。
[0065]针对相关技术中存在的检测语音信号的异常的准确性较低的问题，本发明实施例提供了一种检测语音信号的方法，可以基于音调特征分析来检测语音信号的异常，从而有效地提高检测语音信号的异常的准确性。
[0066]图3是本发明实施例的检测语音信号的异常的方法30的示意流程图，包括以下内容。
[0067]S31,以第一时巾贞巾贞长为单位对连续语音样本进行分巾贞以得到多个第一时巾贞,检测每一个所述第一时帧的能量，通过分析所述多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，所述潜在的语音信号的异常包括潜在的语音信号的异常间断、异常开始和异常结束之一。
[0068]语音信号的异常如前所述包括语音信号的异常间断、异常开始和异常结束之一。可以通过比较多个第一时帧的能量大小，并且将具体第一时帧的能量与预设阈值比较大小等等，确定包含潜在的语音信号的异常的第一时帧。包含潜在的语音信号的异常的第一时帧上下文中也称为目标第一时帧。
[0069]S32，以第二时帧帧长为单位，对所述连续语音样本进行分帧以得到多个第二时帧，每个所述第二时帧帧长为所述第一时帧帧长的整数倍，其中，包括所述目标第一时帧的第二时帧为目标第二时帧。
[0070]S33，对每个所述第二时帧进行处理以获取音调特征，通过分析至少一个包括至少一个所述目标第二时帧的所述第二时帧的音调特征，以确定所述目标第二时帧所包括的所述目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常。
[0071]语音信号的异常本文中也简称为异常，潜在的语音信号的异常也简称为潜在的异常，语音信号的异常开始或异常结束也分别简称为异常开始或异常结束。异常间断是出现在同一段语音段中的持续时间较短的成对出现的异常结束及异常开始。异常开始或异常结束分别指单独出现的异常开始或单独出现的异常结束。
[0072]当第二时帧帧长为第一时帧的整数倍时，则以第二时帧帧长为单位对连续语音样本进行分帧后，得到一个或多个第二时帧。一个第二时帧可以包括多个第一时帧。然而，所有第二时帧中，可以有一个或可以有一些第二时帧分别包括一个目标第一时帧，这类的第二时帧是本发明实施例中精细检测分析的对象，此处也称为目标第二时帧。作为现有技术，为了消除语音信号处理时的边界效应，相邻的两个第二时帧可以有部分重叠。举例来说，如果第一个第二时帧为从第O样本点到第511样本点，则第二个第二时帧为从第255样本点到第767样本点。接下来，通过对所有第二时帧的每一个进行包括快速傅里叶变换等的音调特征的处理，接下来分析一个或多个第二时帧是否满足预定关系，从而能够确定其中的目标第二时帧所包括的潜在的语音信号的异常是否是真正的语音信号的异常，其中所确定的目标第二时帧已知包括一个目标第一时帧。
[0073]本发明实施例提供了一种检测语音信号的方法，通过首先检测潜在的语音信号的异常和进一步分析潜在的语音信号的异常的音调特征，可以确定真正的语音信号的异常，从而有效地提高检测语音信号的异常的准确性。
[0074]图4是本发明另一实施例的检测语音信号的异常的方法40的示意流程图，包括以下内容。
[0075]S41，以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧。
[0076]以第一时帧帧长对一段连续语音样本顺序分帧，获得连续的多个第一时帧。多个第一时帧中的第i个，称为第i个第一时帧，下面简称为第i中贞。
[0077]S42，计算每一个第一时帧的能量。
[0078]设frame_energy_short (i)表示第i帧的能量，其中i为自然数:
【权利要求】
1.一种检测语音信号的方法，其特征在于，包括: 以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个所述第一时帧的能量，通过分析所述多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，所述潜在的语音信号的异常包括潜在的语音信号的异常间断、异常开始和异常结束之一；以第二时帧帧长为单位，对所述连续语音样本进行分帧以得到多个第二时帧，每个所述第二时帧帧长为所述第一时帧帧长的整数倍，其中，包括所述目标第一时帧的第二时帧为目标第二时帧；对每个所述第二时帧进行处理以获取音调特征，通过分析至少一个包括至少一个所述目标第二时帧的所述第二时帧的音调特征，以确定所述目标第二时帧所包括的所述目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常。
2.根据权利要求1所述的方法，其特征在于，所述以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个所述第一时帧的能量包括: 以第一时帧帧长为单位对连续语音样本进行分帧，以将所述连续语音样本按照时间顺序划分为多个第一时帧；获取每一个所述第一时帧的能量frame_energy_short(i),其中第i帧为所述多个第一时帧中的第i个第一时帧，且i为自然数。
3.根据权利要求2所述的方法，其特征在于，所述通过分析所述第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，包括: 如果所述第一时帧的能量之间的关系满足(frame_energy_short (i_l) -frame_energy_short (i)≤a2)并且(frame_energy_short (i) ^al),则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中％和a2分别为预设的第一阈值和第二阈值，其中i ^ I。
4.根据权利要求2所述的方法，其特征在于，所述通过分析所述第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，包括: 如果所述第一时帧的能量之间的关系满足(frame_energy_short (i_2) -frame_energy_short (i)≤ a2)并且(frame_energy_short (i)〈a^ ,其中 S1 和 a2 分别为预设的第一阈值和第二阈值，并且第(1-Ι)帧及第(1-2)帧均不是包含潜在的语音信号的异常结束的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i > 2且第O帧和第I帧预设为不包含潜在的语音信号的异常结束的第一时帧。
5.根据权利要求2所述的方法，其特征在于，所述通过分析所述第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，包括: 如果所述第一时帧的能量之间的关系满足(frame_energy_short (i_3) -frame_energy_short (i)≤ a2)并且(frame_energy_short (i) ^al),其中 a1 和 a2 分别为预设的第一阈值和第二阈值，并且第(1-Ι)帧至第(1-3)帧均不是包含潜在的异常结束的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i > 3且第O帧、第I帧和第2帧预设为不包含潜在的语音信号的异常结束的第一时帧。
6.根据权利要求2所述的方法，其特征在于，所述通过分析所述第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧包括:如果所述第一时帧能量之间的关系满足(frame_energy_short (i) -frame_energy_short (1-1)≥a2)并且(frame_energy_short (i_l)〈aj ,则所述第i中贞为包含潜在的语音信号的异常开始的目标第一时帧，其中％和a2分别为预设的第一阈值和第二阈值，其中i ^ I。
7.根据权利要求2所述的方法，其特征在于，所述通过分析所述第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧包括: 如果所述第一时帧能量之间的关系满足(frame_energy_short (i) -frame_energy_short (1-2)≥ a2)并且(frame_energy_short (i_2)〈a),其中 B1 和 a2 分别为预设的第一阈值和第二阈值，并且第(1-Ι)帧及第(1-2)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i > 2且第O帧和第I帧预设为不包含潜在的语音信号的异常开始的第一时帧。
8.根据权利要求2所述的方法，其特征在于，所述通过分析所述第一时帧的能量之间的关系确定潜在的语音信号的异常还包括: 如果所述第一时帧能量之间的关系满足(frame_energy_short (i) -frame_energy_short (1-3)≥ a2)并且(frame_energy_short (i_3)〈a),其中 B1 和 a2 分别为预设的第一阈值和第二阈值，并且第(1-Ι)帧至第(1-3)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i > 3且第O帧、第I帧和第2帧预设为不包含潜在的语音信号的异常开始的第一时帧。
9.根据权利要求1至8任一所述的方法，其特征在于，所述对每个所述第二时帧进行处理以获取音调特征包括: 对所述多个第二时帧按照时间顺序执行音调检测处理；获取第k帧的总声压级spl_total (k)、音调分量声压级spl_tonal (k)和非音调分量声压级spl_n0n_tonal (k)作为所述第k帧的音调特征，其中所述第k帧为所述多个第二时帧中的第k个第二时帧，且k为自然数。
10.根据权利要求9所述的方法，其特征在于，所述通过分析至少一个包括至少一个所述目标第二时帧的所述第二时帧的音调特征，以确定所述目标第二时帧所包括的所述目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常，包括: 如果所述目标第二时帧的音调特征满足spl_tonal (k) ^ a3，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，或如果所述目标第二时帧的音调特征满足(a4< spl_tonal (k)〈a3)并且(spl_total (k) >=a5)，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，其中， a3、a4和a5分别为预设的第三阈值、第四阈值和第五阈值。
11.根据权利要求9所述的方法，其特征在于，所述通过分析至少一个包括至少一个所述目标第二时帧的所述第二时帧的音调特征，以确定所述目标第二时帧所包括的所述目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常，包括: 判断spl_total (k)、spl_total (k_l)及spl_total (k+1)的其中之一是否增长过于迅速,若spl_total (k)、spl_total (k_l)及spl_total (k+1)的其中之一是否增长过于迅速，且，所述第二时帧的音调特征满足:(spl_tonal (k+1) ≥ a7)
(spl_tonal (k) <a8)
(spl_tonal (k+1)_sp—non_tonal(k) >0)
(spl—non_tonal (k_l) <a9)，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；或判断spl—total (k)、spl—total (k_l)及spl—total (k+1)的其中之一是否增长过于迅速，若 spl—total (k)、spl—total (k_l)及 spl—total (k+1)的其中之一增长过于迅速，且，所述第二时帧的音调特征满足:
(spl—tonal (k+2)≥a10)
(spl_tonal(k+1) <an)
(spl_tonal (k+2)_sp—non_tonal(k+1) >0)，
(spl—non_tonal (k) <a12) 则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；其中， a7至a12为预设的第七阈值至第十二阈值；并且，所述判断 spl—total (k)、spl—total (k-Ι)及 spl—total (k+1)的其中之一是否增长过于迅速，包括: 如果所述第二时帧的音调特征满足(spl—total (k)-spl—total (k-1) ^ a6)并且(spl—total (k-1)及spl—total (k_2)增长平缓)，贝丨J spl—tonal (k)增长过于迅速，其中k≥2且预设第O帧和第I帧的总声压级增长平缓；或如果所述第二时帧的音调特征满足(spl—total (k)-spl—total (k-2) ^ a6)并且(spl—total(k)>spl—total(k_l))并且(spl—total (k_l)>spl—total(k_2))并且(spl—total (k-1)及spl—total (k_2)增长平缓)，贝丨J spl—tonal (k)增长过于迅速，其中k≥2且预设第O帧和第I帧的总声压级增长平缓，其中a6为预设的第六阈值；或如果所述第二时帧的音调特征同时不满足上述两个条件，则spl—tonal (k)增长平缓。
12.根据权利要求9所述的方法，其特征在于，所述通过分析至少一个包括至少一个所述目标第二时帧的所述第二时帧的音调特征，以确定所述目标第二时帧所包括的所述目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常，包括: 判断spl—total (k)、spl—total (k-1)及spl—total (k+1)的其中之一是否下降过于迅速，若spl—total (k)、spl—total (k_l)及spl—total (k+1)的其中之一是否下降过于迅速，且，所述第二时帧的音调特征满足:
(spl_tonal (k-1) ^ a7)，
(spl_tonal (k) <a8)，
(spl_tonal (k-1)_sp—non—tonal(k) >0)，
(spl—non_tonal (k+1) <a9)，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常结束，其中k≥1 ;或判断spl—total (k)、spl—total (k-1)及spl—total (k+1)的其中之一是否下降过于迅速，若spl—total (k)、spl—total (k_l)及spl—total (k+1)的其中之一是否下降过于迅速，且，所述第二时帧的音调特征满足:
(spl_tonal (k_2) ^ a10)，
(spl_tonal(k_l)<an)，
(spl_tonal (k_l)_sp_non_tonal(k_2)>0),
(spl_non_tonal (k) <a12)，则所述第k帧包括的潜在的语音信号的异常真正的语音信号的异常结束，其中k > 2 ; 其中，a7至a12为预设的第七阈值至第十二阈值；并且所述判断spl_total (k)、spl_total (k_l)及spl_total (k+1)的其中之一是否增长过于迅速，包括: 如果所述第二时帧的音调特征满足(spl_total (k-l)-spl_total (k) ^ a6)并且(spl_total (k-1)及spl_total (k_2)下降平缓)，贝丨J spl_total (k)下降过于迅速,其中k≥2且预设第O帧和第I帧的总声压级下降平缓；或如果所述第二时帧的音调特征满足(spl_total (k-2) _spl_total (k) ^ a6)并且(spl_total(k-1)>spl_total(k))并且(spl_total(k_2)>spl_total(k_l))并且(spl_total (k-1)及spl_total (k-2)下降平缓)，贝丨J spl_total (k)下降过于迅速,其中k≥2且预设第O帧和第I帧的总声压级下降平缓；或如果同时不满足上述两个条件，则spl_total(k)下降平缓，其中a6为预设的第六阈值。
13.—种检测语音信号的装置，其特征在于，包括: 第一检测单元，用于以第一时帧帧长为单位对连续语音样本进行分帧以得到多个第一时帧，检测每一个所述第一时帧的能量，通过分析所述多个第一时帧的能量之间的关系确定包含潜在的语音信号的异常的目标第一时帧，所述潜在的语音信号的异常包括潜在的语音信号的异常间断、异常开始和异常结束之一；帧单元，用于以第二时帧帧长为单位，对所述连续语音样本进行分帧以得到多个第二时帧，每个所述第二时帧帧长为所述第一时帧帧长的整数倍，其中，包括所述目标第一时帧的第二时帧为目标第二时帧；第二检测单元，用于对每个所述第二时帧进行处理以获取音调特征，通过分析至少一个包括至少一个所述目标第二时帧的所述第二时帧的音调特征，以确定所述目标第二时帧所包括的所述目标第一时帧所包含的潜在的语音信号的异常是否为真正的语音信号的异常
14.根据权利要求13所述的装置，其特征在于，所述第一检测单元包括: 第一获取模块，所述第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将所述连续语音样本按照时间顺序划分为多个第一时帧，获取每一个所述第一时帧的能量frame_energy_short (i),其中第i帧为所述多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块:用于确定如果所述第一时帧的能量之间的关系满足(frame_energy_short (1-1) -frame_energy_short (i) ^ a2)并且(frame_energy_short (i) Ca1)，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中％和a2分别为预设的第一阈值和第二阈值，其中i > I。
15.根据权利要求13所述的装置，其特征在于，所述第一检测单元包括: 第一获取模块，所述第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将所述连续语音样本按照时间顺序划分为多个第一时帧，获取每一个所述第一时帧的能量frame_energy_short (i),其中第i帧为所述多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块，所述第一确定模块，用于确定如果所述第一时帧的能量之间的关系满足 frame_energy_short(i_2)_frame_energy_short(i) > a2)并且(frame_energy_ShortaXa1),其中&1和&2分别为预设的第一阈值和第二阈值，并且第(1-Ι)帧及第(1-2)帧均不是包含潜在的语音信号的异常结束的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i > 2且第O帧和第I帧预设为不包含潜在的语音信号的异常结束的第一时中贞。
16.根据权利要求13所述的装置，其特征在于，所述第一检测单元包括: 第一获取模块，所述第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将所述连续语音样本按照时间顺序划分为多个第一时帧，获取每一个所述第一时帧的能量frame_energy_short (i),其中第i帧为所述多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块:所述第一确定模块，用于确定如果所述第一时帧的能量之间的关系满足(frame_energy_short(i~3)-frame_energy_short(i) > 并且(frame_energy_ShortaXa1),其中&1和&2分别为预设的第一阈值和第二阈值，并且第(1-Ι)帧至第(1-3)帧均不是包含潜在的异常结束的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常结束的目标第一时帧，其中i > 3且第O帧、第I帧和第2帧预设为不包含潜在的语音信号的异常结束的第一时中贞。
17.根据权利要求13所述的装置，其特征在于，所述第一检测单元包括: 第一获取模块，所述第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将所述连续语音样本按照时间顺序划分为多个第一时帧，获取每一个所述第一时帧的能量frame_energy_short (i),其中第i帧为所述多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块，用于确定如果所述第一时帧能量之间的关系满足(frame_energy_short (i) -frame_energy_short (i~l) 3?)并且(frame_energy_short (i_l)〈aj，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中％和a2分别为预设的第一阈值和第二阈值，其中i > 1。
18.根据权利要求13所述的装置，其特征在于，所述第一检测单元包括: 第一获取模块，所述第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将所述连续语音样本按照时间顺序划分为多个第一时帧，获取每一个所述第一时帧的能量frame_energy_short (i),其中第i帧为所述多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块，用于确定如果所述第一时帧能量之间的关系满足(frame_energy_short (i) -frame_energy_short (i~2) 3?)并且(frame_energy_short (i_2) Ca1),其中 B1和a2分别为预设的第一阈值和第二阈值，并且第(1-Ι)帧及第(1-2)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i > 2且第O帧和第I帧预设为不包含潜在的语音信号的异常开始的第一时帧。
19.根据权利要求13所述的装置，其特征在于，所述第一检测单元包括: 第一获取模块，所述第一获取模块用于以第一时帧帧长为单位对连续语音样本进行分帧，以将所述连续语音样本按照时间顺序划分为多个第一时帧，获取每一个所述第一时帧的能量frame_energy_short (i),其中第i帧为所述多个第一时帧中的第i个第一时帧，且i为自然数；第一确定模块，用于确定如果所述第一时帧能量之间的关系满足(frame_energy_short (i) -frame_energy_short (i~3) ≥a2)并且(frame_energy_short (i_3) Ca1)，其中 B1和a2分别为预设的第一阈值和第二阈值，并且第(1-Ι)帧至第(1-3)帧均不是包含潜在的语音信号的异常开始的目标第一时帧，则所述第i帧为包含潜在的语音信号的异常开始的目标第一时帧，其中i≥3且第O帧、第I帧和第2帧预设为不包含潜在的语音信号的异常开始的第一时中贞。
20.根据权利要求13至19任一项所述的装置，其特征在于，所述第二检测单元包括: 第二获取模块，用于对所述多个第二时帧按照时间顺序执行音调检测处理，获取第k中贞的总声压级spl_total (k)、音调分量声压级spl_tonal(k)和非音调分量声压级spl_non_tonal (k),其中所述第k帧为所述多个第二时帧中的第k个第二时帧,且k为自然数；第二确定模块，用于确定如果所述目标第二时帧的音调特征满足spl_tonal(k)≥a3，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，或如果所述目标第二时帧的音调特征满足(a4≤spl_tonal (k) <a3)并且(spl_total (k) >=a5)，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常间断，其中， a3、a4和a5分别为预设的第三阈值、第四阈值和第五阈值。
21.根据权利要求13至19所述的任一项所述的装置，其特征在于，所述第二检测单元包括: 第二获取模块，用于对所述多个第二时帧按照时间顺序执行音调检测处理，获取第k中贞的总声压级spl_total (k)、音调分量声压级spl_tonal(k)和非音调分量声压级spl_non_tonal (k),其中所述第k帧为所述多个第二时帧中的第k个第二时帧,且k为自然数；第二确定模块，用于判断 spl_total (k)、spl_total (k-1)及 spl_total (k+1)的其中之一是否增长过于迅速，若spl_total (k)、spl_total (k_l)及spl_total (k+1)的其中之一是否增长过于迅速，且，所述第二时帧的音调特征满足:
(spl_tonal (k+1) ≥a7)，
(spl_tonal (k) <a8)
(spl_tonal (k+1)_sp_non_tonal(k)>0)
(spl_non_tonal (k-1) <a9)，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；或判断spl_total (k)、spl_total (k-1)及spl_total (k+1)的其中之一是否增长过于迅速,若 spl_total (k)、spl_total (k-Ι)及 spl_total (k+1)的其中之一增长过于迅速，且，所述第二时帧的音调特征满足:
(spl_tonal (k+2) ≥ a10)
(spl_tonal(k+1)<an)
(spl_tonal (k+2)_sp_non_tonal(k+1)>0)
(spl_non_tonal (k) <a12) 则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常开始；其中， a7至a12为预设的第七阈值至第十二阈值；并且，所述判断 spl_total (k)、spl_total (k-1)及 spl_total (k+1)的其中之一是否增长过于迅速包括: 如果所述第二时帧的音调特征满足(spl_total (k)-spl_total (k-1) ≥a6)并且(spl_total (k-1)及spl_total (k-2)增长平缓)，则 spl_tonal (k)增长过于迅速,其中k≥2且预设第O帧和第I帧的总声压级增长平缓；或如果所述第二时帧的音调特征满足(spl_total (k) -spl_total (k-2) ≥a6)并且(spl_total(k)>spl_total(k_l))并且(spl_total(k_l)>spl_total(k_2))并且(spl_total (k-1)及spl_total (k-2)增长平缓)，则 spl_tonal (k)增长过于迅速,其中k≥2且预设第O帧和第I帧的总声压级增长平缓，其中a6为预设的第六阈值；或如果所述第二时帧的音调特征同时不满足上述两个条件，则spl_tonal(k)增长平缓。
22.根据权利要求13至19所述的任一项所述的装置，其特征在于，所述第二检测单元包括:第二获取模块，用于对所述多个第二时帧按照时间顺序执行音调检测处理，获取第k中贞的总声压级spl_total (k)、音调分量声压级spl_tonal (k)和非音调分量声压级spl_non_tonal (k),其中所述第k帧为所述多个第二时帧中的第k个第二时帧,且k为自然数；第二确定模块，用于判断 spl_total (k)、spl_total (k-1)及 spl_total (k+1)的其中之一是否下降过于迅速，若spl_total (k)、spl_total (k_l)及spl_total (k+1)的其中之一是否下降过于迅速，且，所述第二时帧的音调特征满足:
(spl_tonal (k-1) ≥ a7)，
(spl_tonal (k) <a8)，
(spl_tonal (k-1)_sp_non_tonal(k)>0),
(spl_non_tonal (k+1) <a9)，则所述第k帧包括的潜在的语音信号的异常为真正的语音信号的异常结束，其中k≥1 ;或判断spl_total (k)、spl_total (k-1)及spl_total (k+1)的其中之一是否下降过于迅速,若spl_total (k)、spl_total (k_l)及spl_total (k+1)的其中之一是否下降过于迅速，且，所述第二时帧的音调特征满足:
(spl_tonal (k-2) ≥a10)，
(spl_tonal(k-1)<an)，(spl_tonal (k-1)_sp_non_tonal(k-2)>0),
(spl_non_tonal (k) <a12)，则所述第k帧包括的潜在的语音信号的异常真正的语音信号的异常结束，其中k > 2 ; 其中，a7至a12为预设的第七阈值至第十二阈值；所述判断spl_total (k)、spl_total (k-1)及spl_total (k+1)的其中之一是否增长过于迅速，包括: 如果所述第二时帧的音调特征满足(spl_total (k-l)-spl_total (k) ≥a6)并且(spl_total (k-1)及spl_total (k-2)下降平缓)，贝丨J spl_total (k)下降过于迅速,其中k≥2且预设第O帧和第I帧的总声压级下降平缓；或如果所述第二时帧的音调特征满足(spl_total (k-2) _spl_total (k) ≥ a6)并且(spl_total(k-1)>spl_total(k))并且(spl_total(k_2)>spl_total(k_l))并且(spl_total (k-1)及spl_total (k-2)下降平缓)，则 spl_total (k)下降过于迅速,其中k≥2且预设第O帧和第I帧的总声压级下降平缓；或如果同时不满足上述两个条件，则spl_total(k)下降平缓，其中a6为预设的第六阈值。
【文档编号】G10L25/90GK103903633SQ201210580541
【公开日】2014年7月2日申请日期:2012年12月27日优先权日:2012年12月27日
【发明者】许丽净申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许丽净
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：一种语音验证方法、装置及系统的制作方法
上一篇：残留回声的检测方法及装置制造方法