语音检测方法

文档序号:10540939阅读:1091来源:国知局
语音检测方法
【专利摘要】本发明涉及一种语音检测方法,这使得它能够在来自麦克风的嘈杂声信号x(t)中检测语音信号的存在,其包括以下连续的步骤:基于差函数D(τ)的计算而计算检测函数FD(τ)步骤,根据开始于时间t0的长度W的集成窗口上的位移τ的改变,其中:根据在所述当前间隔中确立的声信号x(t)计算的值,在所述当前间隔适应阈值的步骤;搜索和比较步骤,搜索检测函数FD(τ)的最小值和该最小值与阈值进行比较,在称为当前间隔的确定的时间间隔内,其中τ变化以便在当前间隔内检测语音信号的基频F0特性存在的可能。其中0≤τ≤max(τ)。
【专利说明】
语音检测方法
技术领域
[0001] 本发明涉及一种语音检测方法,该方法允许在来自麦克风的噪声声信号中检测语 音信号的存在。
[0002] 更特别的是,它涉及在单一传感器无线音频通信系统中使用语音检测方法。
[0003] 本发明属于语音活动检测的特定领域,用于语音活动检测中一般称为《VAD》,其包 括检测在声学信号中来自麦克风的语音,换句话说是语音信号。
[0004] 本发明的一个优选,而不是限制的,一个多用户无线音频通信系统类型的时分多 路转换或全双通通信系统中的应用,在一些自发通信终端之间,也就是说没有连接到传输 基站或网络,且易于使用,也就是说没有一个技术员的干预以便建立通信。
【背景技术】
[0005] 这样的通信系统,主要区别于文件W010149864A1,W010149875A1和EP1843326A1, 通常用在嘈杂的甚至非常嘈杂的环境中,例如在海洋环境中,作为在室内或室外的节目或 体育赛事,在建筑工地等。
[0006] 语音活动检测一般由具体量化的标准而限定,在噪声声信号中单词和/或句子的 开始和结束,换句话说,在一个给定的音频流。这种检测是适用于例如语音编码,噪声降低, 甚至是语音识别的领域。
[0007] 在音频通信系统的处理链中的语音检测方法的实现允许在静默期间特别允许不 发送声音或音频信号。因此,在这些期间周围的噪音不会被发送,为了提高音频通信补偿或 降低传输速率。例如,在语音编码中,当《VAD》方法指示活动时使用语音活动检测完全编码 的音频信号是已知的。因此,当没有语音和它是一段时间静默时期,编码率显著降低,平均 的在全部信号上,其可以达到较低的速率。
[0008] 因此,有许多方法用于检测语音活动,但后者在所有的噪声环境中甚至非常嘈杂 的环境中的性能较差或不工作,如运动比赛(户外或室内),比赛中裁判必须以音频和无线 方式通信。事实上,当语音信号被噪声影响时,已知的语音活动检测方法给出了不好的结 果。
[0009] 已知的语音活动检测方法中,一些实施语音信号的基频特性的检测,尤其是在文 件FR 2 988 894中被披露。在语音信号的情况下,称为浊音信号或声音,信号确实有称为基 频的频率,一般称为《基音(pi tch )》,相当于说话者的声带振动的频率,通常延伸在70和400 赫兹之间。这一基频的演变决策了语音的旋律,其程度取决于说话者的习惯,也取决于他的 身心状态。
[0010] 因此,为了进行语音信号的检测,假定这样的语音信号是准周期性的且,因此,相 关性或与该信号本身的差异是已知的,但移位将有在基频和它的倍数的附近的最大值或最 小值。
[0011 ] 文件《YIN,语音和音乐的基频估计》,由Alain de cheveigne和Hideki Kawahara 撰写,美国声学学会杂志111卷,第4号,pp. 1917-1930,2002年4月,提供且开发一个基于信 号和同一时间移位信号之间的差异的方法。
[0012] 以下几种方法是基于在嘈杂的声信号x(t)中对语音信号的基频或基音的检测的 描述。
[0013] 用于检测基频的第一种方法实现了由以下关系定义的自相关函数R(t)的最大值 的研究:
[0015] 这第一种方法使用的自相关函数是不令人满意的,因为有一个相对显著的噪声。 此外,自相关函数存在的最大值不对应基频或其倍数,而是对应其子倍数。
[0016] 用于检测基频的第二种方法实现了由以下关系定义的差函数D(t)的最小值的研 究:
[0018] 其中| |表示绝对值,这个差函数在基频及其倍数的附近最低,然后这个最小值和 阈值比较以便由此推断出语音存在或者不存在的决策。
[0019] 相对于自相关函数R(〇,差函数D(〇具有较低的计算负载,从而使该第二种方法 在实时应用中更为有趣。然而,这第二种方法是不完全令人满意的,因为有噪音。
[0020] 检测的基频的第三种方法实现的,考虑一个长度H处理窗口,其中H<N,由以下关 系定义的平方差函数dt(T)的计算:
[0021 ] dt(T〇 = 丨(X广 JQ + T)2,
[0022]然后继续做用于平方差函数dtb)的最小值的研究,这个平方差函数在基频及其 倍数附近是最小的,最后以最小值与阈值比较以推断出语音存在或不存在的决策。
[0023]第三种方法已知的改进包括标准化方差函数dt (T ),通过计算满足如下关系的标 准化方差函数d't(T):
[0025]另外,虽然具有更好的抗噪性且在这方面给予更好的检测结果,但第三种方法在 语音检测方面有限制,特别是噪声环境的噪声区域在低信噪比SNR(信噪比)特征。
[0026]现有技术中也可以通过申请专利FR 2 825 505的启示予以说明,其实现了上述第 三种方法的基频检测,用于对这一基频的提取。在这项专利申请中,标准化方差函数d'tb) 不能与一个阈值进行比较,以确定这个基频-这个阈值可以是固定的或根据时间变化T而变 化的-和这种方法有上述第三种方法相关联的缺点。
[0027]使用语音检测实施基频的检测方法是已知的,文件《基音检测与平均幅度差函数 的自适应阈值算法估算微光和抖动》,由Hae Young Kim等人撰写,医学与生物工程学会, 1998,在IEEE第二十届年度国际会议,第6卷,1998年10月29日,第3162-6164页XP010320717 的会议记录中。在这个文档中,它描述了一种方法,包括自相关函数的最小值的搜索,通过 实施一个与自适应阈值的比较,所述自适应阈值在当前帧中的信号的最小值和最大值的函 数。然而,这种阈值的适应是非常有限的。事实上,在信号-噪声比的不同值的音频信号的但 具有相同的信号幅度的情况下,所有情况下的阈值将是相同的,而不需要后者取决于噪声 水平的改变,从而导致在句子或甚至非检测的声音开始的削减,当被检测的信号是声音时, 特别是在散开的观众的噪音的背景下,因此,它完全不会像一个语音信号。

【发明内容】

[0028] 本发明的目的是提供一种语音检测方法,该方法提供了一种包含在嘈杂声信号中 的语音信号的检测,特别是在噪音的环境中,或特别是在嘈杂声音的环境中。
[0029] 它提供了特别的声音检测方法,其非常适合于通信(主要是在裁判之间)在赛场噪 音水平相对很强和非平稳的情况下,配合检测步骤,避免由于观众的歌声,吹奏乐器、鼓、音 乐和口哨声而产生的特别坏或错误的检测(一般称为《tonches》)。
[0030] 为此,它提供了一种语音检测方法,允许检测来自麦克风的在嘈杂的声音信号x (t)的语音信号的存在,包括以下连续步骤:
[0031] --个初步抽样步骤,包括削减声信号x(t)为离散声信号{Xl},离散声信号组由与 长度N的时间帧i相关联的向量序列组成,N对应采样点的数量,其中每一个向量反映声音内 容,其与帧i相关联且由N个样本X(i-1)N+1,X(i-l)N+2'",XiN-1,XiN组成,i是一个正整数;
[0032]-一个计算检测函数FD ( t )的步骤,基于一个差函数计算D ( t )按照长度W从时间tO 开始的集成窗口的移位T的变化:
[0033] D(t)=.[二 -x(n. +T)j其中0<T<max(T);
[0034]其中这一计算检测函数FD ( t )的步骤,包括计算与帧i相关联的离散检测函数FDi ⑴;
[0035] --个所述当前区间的自适应阈值步骤,根据声信号x(t)计算的值表示当前区间, 特别的和表示声信号x(t)的最大值,其中这适应阈值的步骤包括,对于每一帧i,针对帧i适 应阈值,其取决于离散声信号{ Xl}所述帧i的样本值计算的参考值。
[0036] -搜索检测函数rob)最小值和最小值与阈值比较的步骤,在一个称为当前区间的 确定时间间隔中t变化以便在所述当前区间内检测语音信号的基频Fo特征存在或不存在; [0037]在这一步骤中,搜索最小的检测函数rob)的最小值且最小值与阈值比较是通过, 在每一帧i中,对于离散检测函数rodO的最小值 rr(i)进行搜索和针对帧i通过最小值与 阈值Qi进行比较实现的;
[0038]其中对于每帧i适应阈值Q i的步骤包括以下步骤:
[0039] a)-细分包括N采样点的帧i到长度L的T子帧,其中N是T的倍数,以便长度L = N/T是 一个整数,从而使在帧i的指数j的子帧中离散声信号{^}的样本包括以下L样本:
[0040] X(i-l)N+(j-l)L+l,X(i-l)N+(j-l)L+2,…,X(i-l)N+jL,j 是一个正整数,包括在 1 和T之间;
[0041 ] b)_计算离散声信号{xi}的最大值mi,j,在每一个帧i的指数j的子帧的中,其中:
[0042] mi,j=max{x(i-i)N+(j-i)L+i,x(i-i)N+(j-i)l+2,…,x(i-i)N+jL};
[0043] c)_计算至少一个参考值Refi.hMRefi.j针对帧i的子帧j,所述或每个参考值 Refi, j,MRef i, j每个子帧j从最大值mi, j被计算,在帧i的子帧j中;
[0044] d)-建立针对帧i的阈值Q i的值,其取决于所有的参考值Ref i, j,MRef i, j在帧i的子 帧j中被计算。
[0045] 因此,这种方法是基于自适应阈值的原则,这将是在噪音或静默期间相对低的和 在语音期间相对高的。因此,错误的检测将被最小化,并在单词的开始和结束,语音将在适 当的削减的最低限度被检测。根据本发明的方法,在子帧j中建立最大值mi, j,以使其在整个 帧i上(声音或不存在声音)作出决策。
[0046] 根据第一种可能性,检测函数rob)对应于差函数D(t)。
[0047] 根据第二种可能性,检测函数ro(T)对应于标准化差函数DN(T),其从差函数D(T) 计算得到,如下:
[0048] DN(T) = 1 如果 t = 〇,
如果T辛0;
[0050] 其中计算标准化差函数DN(t)考虑与帧i相关联的离散标准化查函数DNJt)的计 算,其中:
[0051] DNi(T) = l 如果 t = 〇,
如果T辛0;
[0053]在一个特定的实施例中,相对于帧i的离散差函数计算如下:
[0054] _细分帧i到长度H的K子帧,例如:
[0056] 其中|_」表示对整数部分的四舍五入的操作,因此,在帧i的指数P的子帧中,离散 声信号{xi}的样本包括H样本:
[0057] X(i-l)N+(p-l)H+l,X(i-l)N+(p-l)H+2,…,X(i-1)N+pH,P是一个正整数,包括在 1 和K之间;
[0058] -指数p的每个子帧,我们计算下列差函数ddP(T):
[0059] ddp(l) = SU-DN+fP-DHuN _ Xj + T 5
[0060] -相对于帧i的离散差函数计算计算作为帧i的指数p的子帧的差函数ddP(T) 的总和,即:
[0061 ] D,(t)=[:、丨 ddp(T).
[0062] 根据一个特点,在步骤c)中,在每个帧i上进行下面的子步骤:
[0063] cl)_计算平滑最大值包络线,在帧i的指数j的每个子帧中:
[0064] =入?%1 + (1-入)mu,其中入是一个预定义的系数包括在〇和1之间;
[0065] c2)_计算变信号A i,」,在帧i的指数j的每个子帧中;
[0066] ~=niij - m:i,j =入(rriij - Mip);
[0067]其中至少一个参考值称为主要参考值Refi,j,每个子帧j由变化信号A i,j在帧i的 子帧j中被计算。
[0068] 因此,平滑包络线的变化信号A i,j在子帧j中是为了对整个帧做决策(声音或声音 缺失),使得语音(或声音)检测更可靠。
[0069] 根据另一个特点,在步骤c)和随后的子步骤c2)中,下面子步骤在每一帧i中进行:
[0070] c3)_计算变化最大值Si, j在帧i的指数j的每个子帧中,其中Si, j对应于变化信号 A ^最大值,其在所述子帧j之前的长度Lm的滑动窗口被计算,所述长度Lm是可变的,其取 决于帧i的子帧j是否对应一段静默期间或语音存在。
[0071] c4)_计算变化差5^在帧i的指数j的每个子帧中,其中:
[0072]
[0073]其中,帧i的每个子帧j,两个主要的参考值Refu被分别由变化信号A ^和变化差 Si,j计算。
[0074] 因此,在子帧j建立的变化信号A ^和变化差是共同考虑为了选择自适应阈 值Q i的值从而对整个帧i做出决策(声音的或声音缺失),加强语音检测。换句话说,对 (八:1,」;3^)是为了确定自适应阈值〇1而考虑的。
[0075] 有利的是,在步骤c)中和作为一个子步骤c4)的结果,子步骤c5)计算标准化变化 信号A和标准化变化差8'^在帧i的指数j的每子帧中被执行,如下:
[0078]在那里,帧i的每个子帧j,标准化变化信号A 和标准化差8'^构成每一个主要 的参考值Ref i, j,那么,在步骤d)的针对帧i的阈值i的值取决于在帧i的子帧j中的一对标 准化变化信号(A ' U,S ' 1;」)和标准化变化差S ' 1;」的建立。
[0079]在这种方式中,处理独立于信号A ^和8^的水平的阈值Q :的变化是可能的,通 过标准化信号A和8'^计算而标准化它们。因此,从这些标准化信号A和8'^选择 的阈值将不依赖离散声信号{Xl}的水平。换句话说,对(A '^;8'^)被研究,以确定自适 应阈值Qi的值。
[0080] 有利的是,在步骤d)期间,针对帧i的阈值Q i的值是通过划分由对(A ' i,」;S ' i, j) 的值定义的空间和根据对(A J的值区域在一个或多个连续子帧上(例如在1和3之 间)通过检查对(A '^;8'^)的值而建立的。
[0081] 因此,阈值Qi的计算程序是基于一个空间的实验分区,其通过对(A J的 值而确定。在一个,两个或更多连续的子帧根据对的值区域而详细检查对(A 的 值,一个决策机制被添加在其中。对定(AJ的值的定位测试条件主要依靠于语音 检测在之前帧和在一个、两个或更多连续子帧的轮询机制中也使用了一个实验分区。
[0082]根据一个特点,在子步骤c3)中,滑动窗口的长度Lm满足以下方程:
[0083] -Lm = L0,如果帧i的子帧j相当于一段静默时间;
[0084] -Lm = Ll,如果帧i的子帧j对应于一段语音存在时间;
[0085] 其中,L1<L0,特别是Ll = kl.L和L0 = k0.L,是指数j的子帧的长度,k0,kl是正整 数。
[0086]根据另一个特点,子步骤c3)中,对于在帧i的子帧j中每个变化最大值Si, j的计算, 关于所述子帧j长度N的帧Mm延迟长度Lm的滑动窗口。
[0087]根据另一特点,提供了以下改进:
[0088]-在子步骤c3)中,在帧i的指数j的每个子帧中也计算标准化变化最大值s'i,j,其 中s'U对应标准化变化信号A 的最大值,在所述子帧j之前长度Lm的滑动窗口中被计 算,其中:
[0090]其中每个标准化变化最大值s'u是根据一个最小化的方法计算的,其包括以下步 骤: S~N.'
[0091 ] _计算s i, j =max{s i, j-1; A i-,j}和 s'y = max {s i'j-i ; A 卜
[0092] 如果rem( i,Lm) = 0,其中rem是两个整数的整数除法运算余数,然后:
[0093] 二 maX {S iH ;么,卜_},
[0094] ij - ^ i'Mmj
[0095] 其中 s'〇, i = 0 和没:如=〇;
[0096] 其中,在步骤c4)中,计算标准化变化差在帧i的指数j的每个子帧中计算如 下:
[0097] S i,j= A i,j-s i,j〇
[0098] 有利的是,在步骤c)中,执行子步骤c6),其中在帧i的指数j的每个子帧中最大值 qu的最大值被计算,其中对应于最大值mu的最大值,所述最大值在所述子帧j之前固 定长度Lq的滑动窗口中被计算,其中所述长度Lq的滑动窗口被长度N的Mq帧延迟,关于所述 子帧j,并且其中在帧i的子帧j另一个参考值称为次要参考值MRefi,j每子帧j对应所述最大 值qi,j的最大值。
[0099] 因此,为了进一步避免错误的检测,有利于也考虑到这样的信号(次要参考值 MRefi,j = qi,j),其计算方式类似于上述信号Si,j的计算,但是操作最大值mi,j而不是操作变 化信号A ^或标准化化变化信号A ' ^。
[0100] 在具体的实施例中,在步骤d),针对帧i的阈值i被削减成针对帧i的每个子帧j 的若干子阈值Q i, j,其每个子阈值Q i,j的值至少是根据参考值Refi, j,MRefi, j建立的,其在 帧i的子帧j中被计算。
[0101 ]因此,我们有Qi={Qi,l;Qi,2;...;Qi,T},表不阈值Q i削减成针对子帧j的若干 子阈值Q i, j,建立自适应阈值Q i也提供了一个额外纯度。
[0102] 有利的是,在步骤d),针对帧i的子帧j的每个阈值Q i, j的值是通过对(A ' i, j,S ' i, j)的值与几对固定阈值比较而被建立的,每个阈值Q i, j的值是从取决于对(A ' i, j,S ' i, j) 与所述几对固定阈值的比较而来的几个固定值中选择的。
[0103] 这些对固定阈值,例如,是通过值(A 的空间分布在决策区域的实验测 定的。
[0104] 互补地,针对帧i的子帧j的每个阈值的值,通过在一个或多个连续子帧根据 对(A 的初始区域进行对(A 的比较而被建立。
[0105] 对(A '^,8、J值的定位测试条件取决于语音检测在前一帧期间和一个或多个 连续子帧的比较过程也使用了一个实验性分区。
[0106] 当然,它也可以针对帧i的子帧j建立每个阈值Qi,j的值,通过比较:
[0107]-对(A \」,6'^)(主要参考值1?也,」)与几对固定阈值的值;
[0108] _qi,j(次要参考值MRefi,j)与其他几个固定阈值的值。
[0109] 因此,基于比较对(A 与几对固定阈值的决策机制,通过采用基于q1;J与 其他固定阈值的比较的另一个决策机制而完成。
[0110] 有利的是,在步骤d),执行称为决策过程的过程,包括以下步骤,针对每一帧i: -对帧i的每个子帧j,建立决策DECi( j)的指数,其拥有一个语音信号的检测的状 态《1》或语音信号的非检测的状态《0》;
[0112] -建立一个临时决策VAD( i ),其基于决策DECi(j)的指数与逻辑运算符《0R》的比 较,以便如果至少一个所述决策DECdj)的指数持有语音信号检测的这种状态《1》,临时决 策VAD(i)拥有一个语音信号检测状态《1》。
[0113] 因此,为了避免后期检测(早期检测联用),最后决策(声音或声音缺失)被认为是 这一决策过程的结果,其依靠临时决策VAD( i)且其本身呈现整个帧,通过在子帧j实施决策 的逻辑运算符《0R》,最好是在在短期和从帧i的开始完成范围的连续子帧j。
[0114] 在这个决策过程中,下面的子步骤对每个帧可以进行:
[0115] -存储阈值的最大值Lastmax,其对应一个比较阈值的变量,用于离散声信号{Xi} 的幅度值,在它被认为声信号不包括语音信号之下,在指数k的最后一帧期间这个变量值被 确定,其优于所述帧i和在临时决策VAD(k)中具有一个语音信号检测的状态《1》;
[0116] -存储一个平均最大值A^,对应于该帧i的子帧j中的离散声信号的平均最大值, 计算如下:
[0117] Ai, j = 9Ai, j-i+(l-9)ai,j
[0118] 其中ai,j对应于离散声信号{xi}最大值,包含在帧k中,由帧i的子帧j和至少一个 或多个优先于所述子帧j的连续子帧形成,和
[0119] 0是一个预定义的包含在0和1之间的系数,且0〈入;
[0120]-建立每个子阈值i,j的值,其取决于在所述阈值最大值Lastmax以及平均最大值 Ai, j和Ai, j-i之间的比较,其中Ai, j和Ai, j-i考虑两个连续子帧j和j_l。
[0121] 在许多情况下,错误的检测到达幅度低于语音信号(麦克风被位于通信的人的嘴 的附近)。因此,这个决策过程目的是进一步通过更新于最后的活化时期的存储语音信号中 的阈值最大值Lastmax和平均最大值Ai,j和消除不良检测,其中Ai,j和Ai,j-i对应于在帧 i的子帧j和j -l中的离散声音信号{xi}的平均最大值。考虑到这些值(Lastmax,Ai, j和 Ai, h ),在自适应阈值Q i的成立条件被添加。
[0122] 0值低于系数A以便阻碍的波动是很重要的。
[0123] 上述决策过程中,每当方法被认为帧k的子帧p包含语音信号时,阈值最大值 Las tmax被更新,通过执行以下步骤:
[0124] -在一段没有语音的时期之后检测在帧k的子帧p中的语音信号,在这种情况下 Lastmax需要更新值[a(Ak,P+LastMax)],其中a是一个预定义的系数包含在〇和1之间,且例 如包含在由0.2和0.7之间;
[0125] -在一段存在语音的时期之后检测在帧k的子帧p的语音信号,在这种情况下 Las tmax取得更新后的值Ak, P如果Ak, P>Las tmax。
[0126] 因此,值Lastmax更新只有在这个方法的激活期间被执行(换句话说,语音检测周 期)。在语音检测的情况下,值Lastmax相当于Ak, P当我们具有Ak,P>LastMax时。然而,重要的 是执行该更新如下进行,第一子帧P的激活跟随一静默区域:值Lastmax相当于[a(A k,P+ LastMax)]〇
[0127] 这个阈值的最大值Lastmax的更新机制允许方法来检测用户的声音,即使后者降 低了他的声音强度(换句话说,更安静的讲话)相比较于上次他说话时方法检测到的。
[0128] 换句话说,为了进一步提高免除错误检测,精细加工被执行,其中阈值的最大值 Las tmax是可变的,且与谨慎的声信号的平均最大值Ai, j和Ai, j-i比较。
[0129] 事实上,遥远的声音可以用方法收集,因为这样的声音有基频可能被检测到,如用 户的语音。为了确保遥远的声音,其在很多情况下可能是令人讨厌的,不被本方法考虑,一 种处理过程被考虑在信号(在两个连续的帧)的平均最大值,在这种情况下,和Am,与 Lastmax比较,根据过去激活中测量的用户声音的大小其包含一个可变阈值。因此,阈值Qi 的值被设置在一个非常低的最小值,当信号低于阈值时。
[0130] 这个建立取决于阈值的最大值Lastmax的阈值Q i的值的条件是有利于基于在以 下之间的比较:
[0131] -阈值的最大值Lastmax;和
[0132] -值[Kp.Ai,」]和[Kp.Ai,」-0,其中Kp是一个包含在1和2之间的固定的加权系数。
[0133] 在这种方式中,阈值的最大值Lastmax与离散声信号{xi}平均最大值比较在子帧j 和j-1 (Ai, jand A i,因加权系数Kp加权,其包含在1和2之间,以增强检测。这个比较仅当前 面帧没有导致语音检测时产生。
[0134] 有利的是,该方法还包括一个称为阻断阶段的阶段包括从一个语音信号的非检测 状态到语音信号的检测状态的转换,在已检测到语音信号在N P连续时间帧i的存在之后。
[0135] 因此,该方法实现了一种挂起类型步骤,其被配置以便从不存在语音的情况下到 存在声音的情况下的过渡只发生在存在声音的NP连续帧之后。
[0136] 类似地,该方法还包括一种称为阻断阶段的阶段,该阶段包括转换步骤,从语音信 号的检测状态到语音信号的非检测状态,在Na连续时间帧i上已经检测语音信号不存在之 后。
[0137] 因此,该方法实现了一个挂起类型步骤,以便从一种存在声音的情况下到没有声 音的情况下的过渡只发生在没有音声的Na连续帧之后。
[0138] 如果没有这些转换步骤,该方法可能会偶尔削减声音信号在所说的句子或甚至在 所说的单词中间。为了克服这一点,这些转换步骤在给定的一系列帧上实施阻断或挂起步 骤。
[0139] 根据本发明的一个可能性,该方法包括一个中断阻断阶段的步骤在决策领域,发 生在单词的结束和无噪声的情况下,所述决策领域是通过分析离散检测函数rodi)的最小 值rr (i)而被检测的。
[0140] 因此,在决策空间中一个特定的检测过程,阻断阶段再单词或句子的结尾处被中 断。这种中断只发生在一个无噪音或噪音很小的情况下。因此,该方法提供了一个特定的决 策区域用于隔离,其只发生在单词的结尾处和在一个非噪音的情况下。为了加强这区域的 检测决策,本方法也利用离散检测函数^^^)的最小值 rr(i),离散检测函数rodW对应的 离散差函数Di(T)或离散标准化差函数DNi(T)。因此,在语音结束时,语音就会被更快速地切 断,从而使系统有更好的音频质量。
[0141] 本发明的一个目的是包括代码指令的计算机程序可以控制声音检测方法的步骤, 当由处理器执行时如本文中定义的方法被执行。
[0142] 本发明的另一个目的是用于记录数据的记录介质,在其上计算机程序如本文所定 义的被存储。
[0143] 本发明的另一个目的是一个计算机程序规则,如本文中定义的在电信网络上提供 下载。
【附图说明】
[0144] 本发明的其他特性和优点,将在以下详细描述,对所述的实施例进行详细的描述, 参考引用的附图标记:
[0145] -图1是根据本发明的方法的概要图;
[0146] -图2是通过称为挂起类型步骤的阻断步骤决策而实施的限制循环的的示意图;
[0147] -图3显示了声音检测方法的结果,在顶部,用检测函数的最小值rr(i)和固定阈值 线Q fix的曲线表示固定阈值和,在底部,用离散声信号{Xl}和输出信号DK的曲线表示;
[0148] -图4显示了声音检测方法的结果,在顶部,用检测函数的最小值rr(i)和自适应阈 值线Q i的曲线表不自适应阈值,在底部,用离散声信号{xi}和出信号DFi的曲线表不。
【具体实施方式】
[0149] 声音的检测方法的描述参照图1,是示意性地示出了在嘈杂的环境中来自单麦克 风的操作在嘈杂的声信号x(t)中的用于检测语音(或声音)存在的所要求的连续的不同步 骤。
[0150] 该方法开始于初步抽样步骤101,其包括削减声信号x(t)为离散声信号{Xi},包含 与长度N的时间帧i相关联的一系列向量,N对应的米样点数量,其中每个向量反映与帧i相 关联的声内容且包含N个样本X(i-1)N+1,X(i-l)N+2"_,XiN-1,XiN,i是一个正整数:
[0151] 例如,噪声的声信号x(t)被分为240个或256个样品的帧,其中,在采样频率为8 千赫兹,对应于30或32毫秒的时间帧。
[0152] 该方法继续用步骤102计算离散差函数Dib)相对于该帧i,计算如下:
[0153] -细分每个帧i到长度H的子帧k,关系如下:
[0155] 其中,[_」表示整数部分的四舍五入的操作符,
[0156] 以便,该样本的离散声信号{xi}在帧i的指数p的子帧中,包括以下H的样本:
[0157] X(i-l)N+(p-l)H+l,X(i-l)N+(p-l)H+2,…,X(i-l)N+pH,P是一个正整数,包括在 1和K之间;然后
[0158]-指数p的每子帧,计算下列差ddp( t ): 1 1 , \ ^-^(i-1 )N+pH
[0159] ddp(r) = XHM)N+(p_1)H+i^-^-5
[0160]-计算离散差函数口:卜)相对于帧i作为帧i的指数p的子帧的差函数ddP(T)的总和, 即:
[0161] D.(x) = Xp=iddP(1:) ?
[0162] 也有可能步骤102还包括一个离散标准化函数dNi(〇的计算,来自离散差函数Di (t),如下:
[0163] DNi(T) = 1 如果 t = 〇,
:如果t乒0.
[0165] 该方法继续步骤103,其中,对于每帧i:
[0166] -细分帧i包括N个采样点到长度L的子帧T,其中N是T的倍数,以便长度L = N/T是整 数,并使离散声信号{Xl}的样本在帧i的指数j的子帧中包含以下L样本:
[0167] X(i-l)N+(j-l)L+l,X(i-l)N+(j-l)L+2,…,X(i-l)N+jL,j 是一个正整数,包括在 1 和T之间;
[0168] b):计算帧i的指数j的每个子帧中的离散声信号{Xi}的最大值mi, j:
[0169] mi,j=max{x(i-i)N+(j-i)L+i,x(i-i)N+(j-i)l+2,…,x(i-i)N+jL};
[0170] 举例来说,长度240(N = 240)的每帧i被细分为长度60(即T = 4和L = 60)的四个子 帧。
[0171] 然后,在步骤104中,平滑的最大值:力ij的包络在帧i的指数j的每个子帧中被计算, 定义如下:
[0172] 呵j = + (1-A) mu,其中A是一个预定义的系数包含在0和1之间。
[0173] 然后,在步骤105中,变化信号A ^在帧i的指数j的每个子帧中被计算,定义如下:
[0174] A,j = mir 賤)=入(mir 賤卜,)
[0175] 然后,在步骤106,标准化变化信号A 被计算,定义如下:
[0177] 然后,在步骤107中,变化最大值Si, j在帧i的指数j的每个子帧被计算,其中,Si, j对 应变化信号A ^的最大值,在所述子帧j之前计算于长度Lm的滑动窗口。在这步骤106中,根 据帧i的子帧j对应于静默时期或对应于语音存在,长度Lm是变量:
[0178] -Lm = L0,如果帧i的子帧j对应于一段沉默时期;
[0179] -Lm = Ll,如果帧i的子帧j对应于一个存在语音的时期;
[0180] L1<L0。举例来说,Ll=kUL和L0 = k0.L,作为一个提醒,对指数j和k0的子帧的长 度是正整数,其中kl〈k0。此外,长度Lm的滑动窗口通过长度N的Mm帧被延迟与所述子帧j相 比。
[0181] 步骤106中,标准化变化最大值s'i,j也在帧i的指数j的每子帧中被计算,其中:
[0183] 可以想象的是计算标准化偏差最大值s'u根据最小化的方法包括以下迭代步骤:
[0184] _计算8';1,」=11^{8';1,」-1;八':1-_,]和4 = 111狀{3、-1;厶'丨_|\^}
[0185 ]-如果rem (i,Lm) = 0,其中rem是两个整数的整数除法余数运算符,然后:
[0186] Sij= max{s^
[0187] S'j| = &'i,iVtm,j
[0188] -如果
[0189] s'o.^O^PSqj =0:.
[0190]然后,在步骤108中,变化差心,」在帧i的指数j的每个子帧中,被定义:
[0191] Si; j= A i, j-si, j.
[0192] 在这一步骤108中,标准化变化差S'i,j在帧i的指数j的每个子帧中,被定义:
[0194] 然后,在步骤109中的最大值qi, j的最大值在帧i的指数j的每个子帧中对应于最大 值mi, j的最大值,在所述子帧j之前其计算于固定长度Lq的滑动窗口,其中长度Lq的滑动窗 口是被与所述子帧j相比长度N的帧Mq所延迟。有利地,Lq>L0,且主要的Lq = kq. L。其中kq是 一个正整数和kq>k0。此外,我们有Mq>Mm。
[0195] 在这一步骤109中,根据一个最小化方法,计算最大值qi,j的最大值,包括以下迭代 步骤:
[0196] -计算91,」=11^{91,」-1;1]1卜1^,」}和知=.丨113乂{^_1;(11丨_|^}
[0197] -如果rem(i,Lq)=0,这是两个整数的整数除法余数运算符,然后:
[0198] qij = max 说}, fi,j = n%咖,j
[0199] -如果
[0200] q(u = 0 和 f〇,l = 0。
[0201]然后,在步骤110中,阈值Qi针对每帧i在多个固定值Qa,Qb,Qc,等中被建立。 更细的子阈值U勺值针对帧i的每个子帧j被建立,阈值Q :被分割成几个子阈值Q u,通 过举例的方式,每个阈值Qi或子阈值Qi,j得到一个固定值,从六个固定值Qa, Qb, nc, n d, Qe, Qf中选择,这些固定值,例如包含在0.05和1之间,特别是在0.1和0.7之间。
[0202] 每个阈值Qi或子阈值Qi,j是被设置在固定值Qa,Qb,Qc,Qd,Qe,Qf之一,通 过两个分析实现的:
[0203] -第一分析:在帧i的指数j的子帧中对(A 的值与几对固定阈值比较;
[0204] -第二分析:在帧i的指数j的子帧中,最大值的最大值与固定阈值比较。
[0205] 这些分析之后,称为决策程序的过程将给出最终决策在帧中的声音的存在。这一 决策程序包括以下每一帧i的子步骤:
[0206]-对帧i的每个子帧j,决策DECi(j)的指数被建立,其拥有一个语音信号检测状态 《1》或语音信号的非检测状态《0》;
[0207] -建立一个临时决策VAD(i)基于决策DECi(j)的指数与逻辑运算符《0R》的比较,以 便临时决策VAD(i)拥有一个语音信号的检测状态《1》,如果至少一个所述决策DECdj)的指 数持有这种语音信号的检测状态《1》,换句话说,我们有以下的关系:
[0208] VAD(i)=DECi(l)+DECi(2) + . ? .+DECi(T),其中〃+"是运算符《0R》。
[0209] 因此,根据第一和第二分析的比较,并根据临时决策VAD(i)的状态,阈值Qi被设 置在固定值Qa, Qb,Qc,Qd,Qe, Qf之一,通过最小值rr(i)与阈值Qi比较,阈值被设置 在六个固定值之一上(见下文描述),最后决策被推导出。
[0210] 在许多情况下,错误检测(或tonches)到达比语音信号的量级更低的量级,麦克风 位于靠近使用者的嘴。通过考虑到这一点,有可能通过存储从《VAD》的激活的最后时期的语 音信号中推导的阈值最大值La s tma x和由基于该阈值最大值La s tmax的方法中增加一个条 件,以进一步消除所述错误检测。
[0211] 因此,在上文描述步骤109中,有被添加存储阈值最大值Lastmax,其对应于比较阈 值的变量(或更新)值,用于离散声信号{ Xl}的大小低于不包含语音信号的声音信号,在指 数k的最后帧中此变量值被确定,其优先于所述帧i且其中所述临时决策VAD( k)持有语音信 号的检测状态《1》。
[0212] 在这一步骤109中,还存储了一平均最大值Ai,j,其对应于离散声信号{Xi}的平均 最大值,在计算帧i的子帧j中,如下:
[0213] Ai,j = 0Ai,j-i+(l-0)aij
[0214] 其中ai,j对应离散声信号{Xi}的最大值,包含在由帧i的子帧j以及至少一个或多 个连续子帧形成的理论帧k中,连续子帧优于所述子帧j;且0是一个预定义的系数包含在0 和1之间,且0〈入。
[0215]在这一步骤109中,阈值的最大值Lastmax被更新,每当方法考虑到帧k的子帧p包 含语音信号时,通过执行以下步骤:
[0216] -在一段非语音时期之后在帧k的子帧p中检测语音信号,在这种情况下,Lastmax 需要更新值[a(Ak,P+LastMax)],其中a是一个预定义的系数包含在〇和1之间,例如在0.2和 0.7之间;
[0217] -在一段存在语音时期之后在帧k的子帧p中检测语音信号,在这种情况下, Las tmax 需要更新值 Ak, p 如果Ak, P>Las tmax。
[0218] 然后,在上述步骤110中描述,基于阈值的最大值Lastmax的条件被加入i以便设置 阈值Qi。
[0219] 对于每一帧,这个条件是基于以下的比较:
[0220] -阈值的最大值Lastmax,和
[0221] -值[Kp.Ai,j]和[Kp. Ai,j-!],其中Kp是一个固定加权系数包含在1和2之间。
[0222] 它也可以被想到在给定超时时间后降低阈值最大值Lastmax(例如设置在几秒钟 和几十秒之间)在帧i和指数k的最后上述帧之间,以便如果用户/讲话者明显降低他的声音 的量级则避免语音的无损检测。
[0223]然后,在步骤ill中,每个当前帧i被计算,离散检测函数roi(〇的最小值rr(i)对 应离散差函数Di ( t )或离散标准化函数DNi ( t )。
[0224] 最后,在最后步骤112中,每一当前帧i,这个最小值rr (i)与针对帧i的阈值Q i比 较,以检测语音信号是否存在(或浊音信号),其中:
[0225] -如果,则帧i被考虑表示语音信号且所述方法提供一个输出信号0巧获 得值《1》(换句话说,对帧i的最终决策是《帧i中声首存在》);
[0226] -如果rrGDQi,则帧i被考虑作为没有语音信号和所述方法提供一个输出信号 DFi获得值《0》(换句话说,对帧i的最终决策是《帧i中无声音》)。
[0227] 参考附图1和2,提供改进的方法是可能的,通过引入一个额外决策阻断步骤113 (或挂起步骤),以避免在一个句子和在发音期间,声音销减,这一决策阻断步骤113旨在加 强对语音的存在/不存在的决策,执行以下两个步骤:
[0228] -在NP连续的时间帧i上检测到语音信号的存在后,从一个语音信号的非检测状态 切换到一个语音信号的检测状态;
[0229] -在Na连续的时间帧i上检测到语音信号不存在后,从一个语音信号的检测状态切 换到一个语音信号的非检测状态。
[0230] 因此,这一阻断步骤113允许输出声音Dv的检测决策信号,其获得值《1》对应声音 的检测决策,且值《〇》对应于声音的非检测决策,其中:
[0231] -声音Dv检测决策信号从状态《1》切换到状态《0》,当且仅当输出信号DFi获得值《0》 在Na连续时间帧i上;和
[0232]-声音Dv检测决策信号从状态《0》切换到状态《1》,当且仅当输出信号DFi获得值《1》 在Np连续时间帧i上。
[0233] 参见图2,如果我们假设我们从一个状态《Dv=l》开始,我们切换到状态《Dv = 0》,如 果输出信号DFi获得值《0》在Na连续时间帧上,否则状态保持在《Dv=l》(Ni表示在该系列的 开始帧的数量)。同样,如果我们假设我们从一个状态《Dv = 0》开始,我们切换到状态《Dv=l》 如果输出信号DFi取值《1》在NP连续帧上,否则状态保持在《Dv = 0》。
[0234] 最终决策适用于处理帧的第一 H样本。优选地,Na是大于NP,例如Na=100和NP = 3, 因为冒险检测静默更好,而不是削减对话。
[0235] 在描述的其余部分集中于两种声音检测结果,通过使用固定的阈值(图3)的常规 方法获得,和根据本发明的方法利用自适应阈值(图4)获得。
[0236] 在图3和4(在底部)中,应该注意的是,两种方法在同一离散声信号{Xl}工作,具有 在纵坐标的量级和横坐标的样本。这种离散声信号{ Xl}有语音《PAR》存在的单一区域,和不 必要的噪音,如音乐,鼓,人群呼喊和口哨存在的许多区域。这种离散声信号{^}反映环境 表示在人(如裁判)之间通信,其在体育场或体育馆内噪音具有相对非常强的水平,且是非 常不稳定的。
[0237] 在图3和4(在顶部)中,应该注意的是,这两种方法利用同一函数rr(i),其对应,通 过提醒的方式,所选择的离散检测函数FDi(i)的最小值。
[0238] 在图3 (在顶部)中,最小函数rr (i)被比较,与一个固定的固定阈值Q f ix以确保语 音的检测最佳地选择。在图3(在底部)中,持有状态《1》的输出信号DFi的形状应该被注意, 如果:rr(iX Q fix和状态《0》如果rr(i)> Q fix。
[0239] 在图4(在顶部)中,最小函数rr(i)与根据上述附图1描述的步骤计算的自适应阈 值1比较,在图4(在底部)中,持有状态《1》的输出信号DFi的形状值得被注意,如果rr⑴彡 ^^且状态《〇》如果^(1)>〇1。
[0240]在图3中指出,根据本发明的方法允许声音检测在具有保持状态《1》的输出信号 DFi的语音《PAR》存在区域,而同样的输出信号DFi持有几倍状态《1》在此语音尚未存在的其 它区域,这与传统的方法不需要的错误检测相对应。
[0241]然而,在图4中应注意的是,根据本发明的方法允许最佳的声音检测在具有保持状 态《1》的输出信号DFi的语音《PAR》存在区域,而持有状态《0》的同样输出信号DFi在此语音尚 未存在的其它区域。因此,按照本发明的方法确保强还原错误检测的数量的声音检测。 [0242]当然,上面提到的实施例中并不限制根据本发明的方法可能涉及的特征和其他改 进和细节,而不脱离本发明的范围的情况,其中检测函数FD(t)的其他计算算法可以被使 用。
【主权项】
1. 一种语音检测方法,其允许检测来自麦克风的嘈杂声信号X(t)中的语音信号的存 在,包括下列连续的步骤: -初步采样步骤,包括声信号x(t)削减成离散声信号{Xl},所述离散声信号由与长度N的 时间帧i相关联的一系列向量组成,N对应于样本点的数量,其中每个向量反映相关帧i的声 学内容,并且由N个样本X(i-1)N+1,X(i-1)Ν+2,…,XiN-1,XiN组成,i是一个正整数; -基于差函数D(T)的计算而计算检测函数ro(T)步骤,根据开始于时间to的长度W的集 齒 π 卜的亦甘士I .其中计算检测函数FD(T)步骤在于计算与帧i相关的离散检测函数FD1(T); -根据在所述当前间隔中建立的声信号x(t)计算的值,在所述当前间隔适应阈值的步 骤; 其中适应阈值的步骤包括,对于每个帧i,根据从在所述帧i的离散声信号{^丨的样本中 的值计算的参考值,适应针对帧i的适应阈值Ω i; -搜索和比较步骤,搜索检测函数FD(T)的最小值和该最小值与阈值进行比较,在称为 当前间隔的确定的时间间隔内,其中τ变化以便在当前间隔内检测语音信号的基频Fo特性 存在或不存在, 其中,检测函数Π )(τ)的最小值的搜索和该最小值与阈值比较的步骤是通过在每个帧i 上,离散检测函数FD1⑴的最小值rr⑴进行搜索,和最小值rr⑴与针对帧i的阈值Q1进行 比较; 且其中适应每个帧i的所述阈值〇,的步骤包括以下的步骤: a) _细分包括N个采样点的帧i到长度L的T子帧,其中N是T的倍数,以便长度L = N/T是一 个整数,从而使在帧i的指数j的子帧中离散声信号{^}的样本包括以下L个样本: X(i-l)N+(j-1)L+1,X(i-l)N+(j-l)L+2,…,X(i-l)N+jL,,j是一个正整数,包括在 I 和T之间; b) _计算离散声信号{^}的最大值ΠΗ,」,在每一个帧i的指数j的子帧的中,其中: ΠΗ, j=max{x(i-l)N+(j-l)L+l ,X(i-l)N+(j-l)L+2, ··· ,X(i-l)N+jL}; C)-计算至少一个参考值此5,」,1如5,」针对帧丨的子帧九所述或每个参考值此5丄 MRef i, j每子帧j由最大值mi, j被计算,在帧i的子帧j中; d)-建立针对帧i的阈值Ω i的值,其取决于在帧i的子帧j中计算的所有的参考值Ref i, j, MRefijo2. 根据权利要求1所述的检测方法,其中,检测函数FD(T)对应于差函数D(t)。3. 根据权利要求1所述的检测方法,其中,检测函数Π )(τ)对应于标准化差函数DN(T), 其从差函数D(T)计算得到,如下: DN(T) = I 如果 τ = 〇,其中计算标准化差函数DN(T)在于与帧i相关联的离散标准化差函数DN1(T)的计算,其 中: DNi(T) = I 如果 τ = 〇,4. 根据权利要求1至3中任一所述的方法,其中,相对于帧i的离散差函数D1(T)计算如 下: -细分帧i到长度H的K子帧,伊'^其f€示对整数部分的四舍五入的操作,因此,在帧i的指数p的子帧中,离散声信 号{Xl}的样本包括H个样本: X(i-l)N+(p-1)H+1,X(i-l)N+(p-1)Η+2,…,X(i-1)Ν+ρΗ,Ρ 是一个正整数,包括在 I 和K之间; -对于指数P的每个子帧,计算下列差函数Cldp(T):-计算相对于帧i的离散差函数D i (τ),作为帧i的指数P的子帧的差函数d d P (τ)的总和, 即:5. 根据前述任一权利要求所还的万法,具中,在步骤c)中,在每个帧i上进行下面的子 步骤: cl)-计算平滑最大值歡泡络线,在帧i的指数j的每个子帧中:,其中λ是一个预定义的系数包括在〇和1之间; c2)-计算变化信号」龙rflrifi.的佑撒·;的毎木其中至少一个参考值祢为主要参考值Refi,j母于帧j由变化信号Δ i;j在帧i的子帧j中 被计算。6. 根据前述权利要求5所述的方法,其中,在步骤c)和随后的子步骤c2)中,下面子步骤 在每个帧i上进行: c3)_计算变化最大值si, j在帧i的指数j的每个子帧中,其中si, j对应于变化信号△ i,j最 大值,其在所述子帧j之前的长度Lm的滑动窗口被计算,所述长度Lm是可变的,其取决于帧i 的子帧j是否对应一段静默期间或语音存在; c4)_计算变化差Si, j在帧i的指数j的每个子帧中,其中: Sij= Δ ij-sij; 其中,帧i的每个子帧j,两个主要的参考值Ref^被分别由变化信号△^和变化差Slij 计算。7. 根据前述权利要求6所述的方法,其中,在步骤c)中和作为一个子步骤c4)的结果,子 步骤c5)计算标准化变化信号和标准化变化差δ'^在帧i的指数j的每子帧中被执行, 如下:其中,帧i的每个子帧j,标准化变化信号A 和标准化差δ'^构成每一个主要的参考 值Ref i, j,那么,在步骤d)中,针对帧i的阈值Ω i的值被建立,其取决于在帧i的子帧j中的一 对标准化变化信号(A ' u,δ ' 1;」)和标准化变化差δ ' 1;j。8. 根据前述权利要求7所述的检测方法,其中,在步骤d)期间,针对帧i的阈值Q1的值是 通过划分由对(4'1^3'1,」)的值定义的空间和根据对(4'1^3'^)的值区域在一个或多 个连续子帧上通过检查对(A J的值而建立的。9. 根据前述权利要求6至8任一所述的方法,其中,在子步骤c3)中,滑动窗口的长度Lm 满足以下方程: -Lm=LO,如果帧i的子帧j对应于一段静默时间; -Lm=Ll,如果帧i的子帧j对应于一段语音存在时间; 其中,L1〈L0,特别地其中Ll = kl.L和L0 = k0.L是指数j的子帧的长度,k0,kl是正整数。10. 根据前述权利要求6所述的方法,其中,子步骤c3)中,对于在帧i的子帧j中每个变 化最大值si, j的计算,关于所述子帧j长度N的帧Mm延迟长度Lm的滑动窗口。11. 根据前述权利要求6和10所述的方法,其中,在子步骤c3)中,在帧i的指数j的每个 子帧中也计算标准化变化最大值s'U,其中s'U对应标准化变化信号A的最大值,在所 述子帧j之前长度Lm的滑动窗口中被计筧,其中 :其中每个标准化变化最大值s'u是根据一个最小化的方法计算的,其包括以下步骤:_{十算S i,j -max { S i,j-1; Δ i-Mm.如果γθπι( i,Lm)= 0,其中"rpTri县而救撒r的救撒^全纟丰彳r曾全 撒r ?然后:其中S'Q,1 = 0 和S1a1 =〇; 其中,在步骤c4)中,计算标准化变化差δ'?在帧i的指数j的每个子帧中计算如下: δ i,j= A i, j_s i, j〇12. 根据前述权利要求5至11中任一所述的方法,其中,在步骤c)中,执行子步骤c6),其 中在帧i的指数j的每个子帧中最大值的最大值被计算,其中对应于最大值mu的最 大值,所述最大值在所述子帧j之前固定长度Lq的滑动窗口中被计算,其中所述长度Lq的滑 动窗口被长度N的Mq帧延迟,关于所述子帧j,并且其中在帧i的子帧j另一个参考值称为次 要参考值MRef i, j每子帧j对应所述最大值qi,j的最大值。13. 根据前述权利要求5至12中任一所述的方法,其中,在步骤d),针对帧i的阈值Ω 1被 划分成针对帧i的每个子帧j的若干子阈值Ω u,且每个子阈值Ω u的值至少是根据参考值 Refi, j,MRefi, j建立的,其在帧i的子帧j中被计算。14. 根据前述权利要求7和13所述的方法,其中,在步骤d),针对帧i的子帧j的每个阈值 Ω i, j的值是通过比较对(△ ' i, j,δ ' i,」)的值和几对固定阈值而被建立的,每个阈值Ω i,」的值 是从几个固定值中选择的,所述固定值取决于对(A J与所述几对固定阈值的比 较。15. 根据前述权利要求5至14中任一所述的方法,其中,在步骤d),执行称为决策过程的 过程,包括以下子步骤,针对每一帧i : -对帧i的每个子帧j,建立决策DECi( j)的指数,其拥有一个语音信号的检测的状态《1》 或语音信号的非检测的状态《〇》; -建立一个临时决策VAD( i ),其基于决策DECi (j)的指数与逻辑运算符《OR》的比较,以便 如果至少一个所述决策DECi( j)的指数持有语音信号检测的状态《1》时,临时决策VAD( i)持 有一个语音信号检测的状态《1》。16. 根据前述权利要求13和15所述的方法,其中,在所述决策过程中,下面的子步骤对 于每个帧i可以进行: -存储阈值的最大值La s tmax,其对应一个比较阈值的可变值,用于离散声信号{Xi}的量 级,在它被认为声信号不包括语音信号之下,在指数k的最后一帧期间这个可变值被确定, 其先于所述帧i,且其中临时决策VAD(k)持有一个语音信号检测的状态《1》; -存储一个平均最大值A1,」,对应于被计算的帧i的子帧j中的离散声信号{^}的平均最 大值,计算如下: Ai,j = 0Ai,j-i+(l-0)ai,j 其中ai,j对应于离散声信号{xi}最大值,包含在由帧i的子帧j和至少一个或多个优先于 所述子帧j的连续子帧形成的帧中,和 Θ是一个预定义的包含在0和1之间的系数,且θ〈λ; -建立每个子阈值Ω i, j的值,其取决于在所述阈值最大值Lastmax以及平均最大值Ai, j 和Ai,j-i之间的比较,其中Ai,j和Ai,j-i考虑在两个连续子帧j和j-1上。17. 根据前述权利要求16所述的方法,其中,在决策过程中,每当方法被认为帧k的子帧 P包含语音信号时,阈值的最大值Lastmax被更新,通过执行以下步骤: -在一段没有语音的时期之后检测在帧k的子帧p中的语音信号,在这种情况下Lastmax 需要更新值[a(Ak,P+LastMax)],其中α是一个预定义的系数包含在〇和1之间,且例如包含在 由0.2和0.7之间; -在一段存在语音的时期之后检测在帧k的子帧ρ的语音信号,在这种情况下Lastmax取 得更新后的值Ak,t^I^Ak,P>Lastmax。18. 根据前述权利要求16或17所述的方法,其中,建立取决于阈值的最大值Las tmax的 阈值〇,的值的条件是有利于基于在以下之间的比较: -阈值的最大值La s tmax;和 -值[Kp.Ai,j]和[Kp.Ai^1],其中Kp是一个包含在1和2之间的固定的加权系数。19. 根据前述任一权利要求所述的方法,其中,进一步包括一个称为阻断阶段的阶段, 在已检测到语音信号在^连续时间帧i的存在之后,该阶段包括从一个语音信号的非检测 状态转换到语音信号的检测状态。20. 根据前述任一权利要求所述的方法,其中,还包括称为阻断阶段的阶段,该阶段包 括转换步骤,从语音信号的检测状态转换到语音信号的非检测状态,在Na连续时间帧i上已 经检测语音信号不存在之后。21. 根据前述权利要求19和20任一所述的方法,其中,在决策领域包括一个中断阻断阶 段的步骤,发生在单词的结束和无噪声的情况下,所述决策区域是通过分析离散检测函数 FDi (τ)的最小值rr (i)而被检测的。22. -种计算机程序,其特征在于包含代码指令,当处理器执行所述代码指令时,能够 控制根据前述任一权利要求所述的语音检测方法的执行。23. -种数据记录介质存储根据前述权利要求22所述的计算机程序。24. -种计算机程序规则,用于在通信网络下载根据前述权利要求22所述的计算机程 序。
【文档编号】G10L25/78GK105900172SQ201480065834
【公开日】2016年8月24日
【申请日】2014年11月27日
【发明人】开里姆·玛欧彻
【申请人】阿多尼斯Rf公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1