音频数据的增益控制方法及装置的制造方法_3

文档序号:9580335阅读:来源:国知局
进而根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息、所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,获得所述第Ν帧音频数据的控制增益,使得能够利用所述控制增益,对所述第Ν帧音频数据进行增益控制处理,从而将待识别音频数据的幅度数值控制在识别阈值之上,能够有效避免语音识别性能的降低。
[0100] 本发明中,所获取的第Ν帧音频数据的VAD信息,是利用VAD技术,在噪声环境中检测语音的存在与否,通常可以用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。VAD信息可以包括语音帧和噪声帧两种,具体可以利用变量值来表示,例如,可以利用1表示语音帧,利用0表示噪声帧。
[0101] 可选地,在本实施例的一个可能的实现方式中,本发明中,若所获取的某帧音频数据,不满足101中所获取的音频数据对帧号的要求,即获取第Q帧音频数据和所述第Q帧音频数据的VAD信息,Q为小于或等于Μ的整数,那么,则可以直接利用增益初始值,对所述第Q帧音频数据进行增益控制处理。具体来说,所述增益初始值,可以设置为1,也就是说,可以不对所述第Q帧音频数据进行增益控制处理。
[0102] 可选地,在本实施例的一个可能的实现方式中,在103中,具体可以根据所述第Ν帧音频数据的VAD信息,确定所述第Ν帧音频数据是否为语音帧。具体可以通过判断所述第Ν帧音频数据的VAD信息的变量值,确定所述第Ν帧音频数据是否为语音帧。若变量值为0,则可以确定所述第Ν帧音频数据为非语音帧即噪声帧;若变量值为1,则可以确定所述第Ν帧音频数据为语音帧。这样,通过根据所述第Ν帧音频数据的VAD信息,确定所述第Ν帧音频数据是否为语音帧,无需进行模型参数估计,从而减小了运算量,能够有效提高语音识别性能。
[0103] 在一个具体的实现过程中,若所述第Ν帧音频数据为语音帧,则可以进一步对所述第N帧音频数据的VAD信息和所述第N帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息进行运算处理,以获得运算结果。例如,进行求和运算处理,以获得一个求和值。
[0104]然后,可以对所述运算结果进行判断,判断其是否满足预先设置的控制条件。例如,判断求和值是否大于2/3 (Μ+1)。若所述运算结果满足预先设置的控制条件,那么,则可以根据所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,获得所述第Ν帧音频数据的控制增益。
[0105]具体来说,具体可以根据所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,选择Ρ个最小的期望增益,Ρ为大于1且小于或等于Μ的奇数,对所述Ρ个最小的期望增益进行中值滤波处理,以获得所述第Ν帧音频数据的最小增益。
[0106]然后,对所述第Ν帧音频数据的最小增益进行判断,判断其是否小于最小增益值。该最小增益值,在进行初始化时,可以设置一个初始值例如,100。
[0107]若所述第Ν帧音频数据的最小增益小于最小增益值,则可以进一步利用所述第Ν帧音频数据的最小增益更新所述最小增益值;若所述第Ν帧音频数据的最小增益大于或等于所述最小增益值,维持所述最小增益值,并记录所述最小增益值的持续时间。接着,则可以根据所述最小增益值,获得所述第Ν帧音频数据的控制增益。
[0108]当所在场景相对固定时,音频数据在相邻帧之间其峰值变化较小,可能会出现若所述第Ν帧音频数据的最小增益大于或等于所述最小增益值的Κ3倍的情况,说明所述第Ν帧音频数据为噪声帧,那么,则可以进一步将所述最小增益值,作为所述第Ν帧音频数据的控制增益。
[0109]在记录所述最小增益值的持续时间之后,如果所述最小增益值发生变化,则将所记录的该最小增益值的持续时间进行清零处理。若所述最小增益值一直没有发生变化,则持续记录所述的持续时间。
[0110]若所述最小增益值的持续时间大于最小增益跟踪窗长的Κ1倍,Κ1为大于0且小于1的数值例如,〇.5,且所述第Ν帧音频数据的最小增益小于最小增益暂时值,则可以进一步利用所述第Ν帧音频数据的最小增益更新所述最小增益暂时值。该最小增益暂时值,在进行初始化时,可以设置一个初始值例如,100。
[0111]其中,关于最小增益跟踪窗长的取值,一般可以根据每帧音频数据的时间进行灵活设置,以尽量保证Μ+1帧的音频数据中能够包含一个完整的意思即包含3个音节?4个音节,假设每帧音频数据的时间长度为10ms,那么,最小增益跟踪窗长的取值可以为960ms。这样,通过跟踪最小增益跟踪窗长内的最小增益值,能够有效降低音频数据帧与音频数据帧之间的音频跳变,能够进一步有效提高语音识别性能。
[0112]若所述最小增益值的持续时间大于最小增益跟踪窗长的K2倍,K2为大于K1的数值例如1.5,则可以进一步利用所述最小增益暂时值更新所述最小增益值,并将所述最小增益值的持续时间设置为最小增益跟踪窗长的K1倍,将所述最小增益暂时值恢复为初始值。
[0113]更为具体地说,具体可以根据增益平滑因子、所述第N-1帧音频数据的控制增益和所述最小增益值,获得所述第N帧音频数据的控制增益。该增益平滑因子,在进行初始化时,可以设置一个固定值例如,0.98。例如,具体可以对增益平滑因子与所述第N-1帧音频数据的控制增益的乘积,与,1-增益平滑因子的差值与所述最小增益值的乘积,进行求和处理,将其结果作为所述第N帧音频数据的控制增益。
[0114]这样,通过对加载在音频数据上的控制增益进行平滑处理,使得在调整音频数据幅度的同时,能够尽可能多的保留了音频数据的包络信息。
[0115]可选地,在本实施例的一个可能的实现方式中,在104中,为了保证所述第N帧音频数据不会被截幅,还可以进一步对所述第N帧音频数据的控制增益,与,所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益中最小期望增益,进行比较,以对所述第Ν帧音频数据进行增益控制处理的增益,进行额外的限制。
[0116]若所述第Ν帧音频数据的控制增益小于或等于所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益中最小期望增益,则可以进一步利用所述控制增益,对所述第Ν帧音频数据进行增益控制处理;
[0117]若所述第Ν帧音频数据的控制增益大于所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益中最小期望增益,则可以进一步利用所述最小期望增益,对所述第Ν帧音频数据进行增益控制处理。
[0118]可选地,在本实施例的一个可能的实现方式中,若所述第Ν帧音频数据为噪声帧,则可以进一步利用对所述第Ν帧音频数据前一帧音频数据即所述第Ν-1帧音频数据进行增益控制处理的增益,对所述第Ν帧音频数据进行增益控制处理。
[0119]可选地,在本实施例的一个可能的实现方式中,若所获得的所述运算结果不满足预先设置的控制条件,则可以进一步利用对所述第Ν-1帧音频数据进行增益控制处理的增益,对所述第Ν帧音频数据进行增益控制处理。
[0120]本实施例中,通过获取第Ν帧音频数据和所述第Ν帧音频数据的VAD信息,以及根据期望幅度数值和所述第Ν帧音频数据,获得所述第Ν帧音频数据的期望增益,进而根据所述第Ν帧音频数据的VAD信息、所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息、所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,获得所述第Ν帧音频数据的控制增益,使得能够利用所述控制增益,对所述第Ν帧音频数据进行增益控制处理,从而将待识别音频数据的幅度数值控制在识别阈值之上,能够有效避免语音识别性能的降低。
[0121]另外,采用本发明所提供的技术方案,同时提高识别系统的稳健性。
[0122]另外,采用本发明所提供的技术方案,通过根据所述第Ν帧音频数据的VAD信息,确定所述第Ν帧音频数据是否为语音帧,无需进行模型参数估计,从而减小了运算量,能够有效提尚语首识别性能。
[0123]另外,采用本发明所提供的技术方案,通过跟踪最小增益跟踪窗长内的最小增益值,能够有效降低音频数据帧与音频数据帧之间的音频跳变,能够进一步有效提高语音识另IJ性能。
[0124]另外,采用本发明所提供的技术方案,通过对加载在音频数据上的控制增益进行平滑处理,使得在调整音频数据幅度的同时,能够尽可能多的保留了音频数据的包络信息。
[0125]另外,采用本发明所提供的技术方案,采用流式操作方式,可以实时地对输入的每帧音频数据进行增益控制处理,并且得到了稳健的识别性能,更加适合线上语音识别系统的实时性处理要求。
[0126]另外,采用本发明所提供的技术方案,无需设定处理曲线以及处理次数,对于各种输入的每帧音频数据,只需要一次就能够将每帧音频数据的幅度调整到最优幅度。
[0127]需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
[0128]在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0129]图2为本发明另一实施例提供的音频数据的增益控制装置的结构示意图,如图2所示。本实施例的音频数据的增益控制装置可以包括获取单元21、期望增益获得单元22、控制增益获得单元23和控制单元24。其中,获取单元21,用于获取第N帧音频数据和所述第N帧音频数据的VAD信息,N为大于Μ的整数,Μ为大于或等于1的整数;期望增益获得单元22,用于根据期望幅度数值和所述第Ν帧音频数据,获得所述第Ν帧音频数据的期望增益;控制增益获得单元23,用于根据所述第Ν帧音频数据的VAD信息、所述第Ν帧音频数据之前相邻的Μ帧音频数
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1