音频数据的增益控制方法及装置的制造方法_3

文档序号：9580335阅读：来源：国知局

进而根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息、所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益，获得所述第Ν帧音频数据的控制增益，使得能够利用所述控制增益，对所述第Ν帧音频数据进行增益控制处理，从而将待识别音频数据的幅度数值控制在识别阈值之上，能够有效避免语音识别性能的降低。
[0100] 本发明中，所获取的第Ν帧音频数据的VAD信息，是利用VAD技术，在噪声环境中检测语音的存在与否，通常可以用于语音编码、语音增强等语音处理系统中，起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。VAD信息可以包括语音帧和噪声帧两种，具体可以利用变量值来表示，例如，可以利用1表示语音帧，利用0表示噪声帧。
[0101] 可选地，在本实施例的一个可能的实现方式中，本发明中，若所获取的某帧音频数据，不满足101中所获取的音频数据对帧号的要求，即获取第Q帧音频数据和所述第Q帧音频数据的VAD信息，Q为小于或等于Μ的整数，那么，则可以直接利用增益初始值，对所述第Q帧音频数据进行增益控制处理。具体来说，所述增益初始值，可以设置为1，也就是说，可以不对所述第Q帧音频数据进行增益控制处理。
[0102] 可选地，在本实施例的一个可能的实现方式中，在103中，具体可以根据所述第Ν帧音频数据的VAD信息，确定所述第Ν帧音频数据是否为语音帧。具体可以通过判断所述第Ν帧音频数据的VAD信息的变量值，确定所述第Ν帧音频数据是否为语音帧。若变量值为0,则可以确定所述第Ν帧音频数据为非语音帧即噪声帧；若变量值为1，则可以确定所述第Ν帧音频数据为语音帧。这样，通过根据所述第Ν帧音频数据的VAD信息，确定所述第Ν帧音频数据是否为语音帧，无需进行模型参数估计，从而减小了运算量，能够有效提高语音识别性能。
[0103] 在一个具体的实现过程中，若所述第Ν帧音频数据为语音帧，则可以进一步对所述第N帧音频数据的VAD信息和所述第N帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息进行运算处理，以获得运算结果。例如，进行求和运算处理，以获得一个求和值。
[0104]然后，可以对所述运算结果进行判断，判断其是否满足预先设置的控制条件。例如，判断求和值是否大于2/3 (Μ+1)。若所述运算结果满足预先设置的控制条件，那么，则可以根据所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益，获得所述第Ν帧音频数据的控制增益。
[0105]具体来说，具体可以根据所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益，选择Ρ个最小的期望增益，Ρ为大于1且小于或等于Μ的奇数，对所述Ρ个最小的期望增益进行中值滤波处理，以获得所述第Ν帧音频数据的最小增益。
[0106]然后，对所述第Ν帧音频数据的最小增益进行判断，判断其是否小于最小增益值。该最小增益值，在进行初始化时，可以设置一个初始值例如，100。
[0107]若所述第Ν帧音频数据的最小增益小于最小增益值，则可以进一步利用所述第Ν帧音频数据的最小增益更新所述最小增益值；若所述第Ν帧音频数据的最小增益大于或等于所述最小增益值，维持所述最小增益值，并记录所述最小增益值的持续时间。接着，则可以根据所述最小增益值，获得所述第Ν帧音频数据的控制增益。
[0108]当所在场景相对固定时，音频数据在相邻帧之间其峰值变化较小，可能会出现若所述第Ν帧音频数据的最小增益大于或等于所述最小增益值的Κ3倍的情况，说明所述第Ν帧音频数据为噪声帧，那么，则可以进一步将所述最小增益值，作为所述第Ν帧音频数据的控制增益。
[0109]在记录所述最小增益值的持续时间之后，如果所述最小增益值发生变化，则将所记录的该最小增益值的持续时间进行清零处理。若所述最小增益值一直没有发生变化，则持续记录所述的持续时间。
[0110]若所述最小增益值的持续时间大于最小增益跟踪窗长的Κ1倍，Κ1为大于0且小于1的数值例如，〇.5,且所述第Ν帧音频数据的最小增益小于最小增益暂时值，则可以进一步利用所述第Ν帧音频数据的最小增益更新所述最小增益暂时值。该最小增益暂时值，在进行初始化时，可以设置一个初始值例如，100。
[0111]其中，关于最小增益跟踪窗长的取值，一般可以根据每帧音频数据的时间进行灵活设置，以尽量保证Μ+1帧的音频数据中能够包含一个完整的意思即包含3个音节?4个音节，假设每帧音频数据的时间长度为10ms，那么，最小增益跟踪窗长的取值可以为960ms。这样，通过跟踪最小增益跟踪窗长内的最小增益值，能够有效降低音频数据帧与音频数据帧之间的音频跳变，能够进一步有效提高语音识别性能。
[0112]若所述最小增益值的持续时间大于最小增益跟踪窗长的K2倍，K2为大于K1的数值例如1.5,则可以进一步利用所述最小增益暂时值更新所述最小增益值，并将所述最小增益值的持续时间设置为最小增益跟踪窗长的K1倍，将所述最小增益暂时值恢复为初始值。
[0113]更为具体地说，具体可以根据增益平滑因子、所述第N-1帧音频数据的控制增益和所述最小增益值，获得所述第N帧音频数据的控制增益。该增益平滑因子，在进行初始化时，可以设置一个固定值例如，0.98。例如，具体可以对增益平滑因子与所述第N-1帧音频数据的控制增益的乘积，与，1-增益平滑因子的差值与所述最小增益值的乘积，进行求和处理，将其结果作为所述第N帧音频数据的控制增益。
[0114]这样，通过对加载在音频数据上的控制增益进行平滑处理，使得在调整音频数据幅度的同时，能够尽可能多的保留了音频数据的包络信息。
[0115]可选地，在本实施例的一个可能的实现方式中，在104中，为了保证所述第N帧音频数据不会被截幅，还可以进一步对所述第N帧音频数据的控制增益，与，所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益中最小期望增益，进行比较，以对所述第Ν帧音频数据进行增益控制处理的增益，进行额外的限制。
[0116]若所述第Ν帧音频数据的控制增益小于或等于所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益中最小期望增益，则可以进一步利用所述控制增益，对所述第Ν帧音频数据进行增益控制处理；
[0117]若所述第Ν帧音频数据的控制增益大于所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益中最小期望增益，则可以进一步利用所述最小期望增益，对所述第Ν帧音频数据进行增益控制处理。
[0118]可选地，在本实施例的一个可能的实现方式中，若所述第Ν帧音频数据为噪声帧，则可以进一步利用对所述第Ν帧音频数据前一帧音频数据即所述第Ν-1帧音频数据进行增益控制处理的增益，对所述第Ν帧音频数据进行增益控制处理。
[0119]可选地，在本实施例的一个可能的实现方式中，若所获得的所述运算结果不满足预先设置的控制条件，则可以进一步利用对所述第Ν-1帧音频数据进行增益控制处理的增益，对所述第Ν帧音频数据进行增益控制处理。
[0120]本实施例中，通过获取第Ν帧音频数据和所述第Ν帧音频数据的VAD信息，以及根据期望幅度数值和所述第Ν帧音频数据，获得所述第Ν帧音频数据的期望增益，进而根据所述第Ν帧音频数据的VAD信息、所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息、所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益，获得所述第Ν帧音频数据的控制增益，使得能够利用所述控制增益，对所述第Ν帧音频数据进行增益控制处理，从而将待识别音频数据的幅度数值控制在识别阈值之上，能够有效避免语音识别性能的降低。
[0121]另外，采用本发明所提供的技术方案，同时提高识别系统的稳健性。
[0122]另外，采用本发明所提供的技术方案，通过根据所述第Ν帧音频数据的VAD信息，确定所述第Ν帧音频数据是否为语音帧，无需进行模型参数估计，从而减小了运算量，能够有效提尚语首识别性能。
[0123]另外，采用本发明所提供的技术方案，通过跟踪最小增益跟踪窗长内的最小增益值，能够有效降低音频数据帧与音频数据帧之间的音频跳变，能够进一步有效提高语音识另IJ性能。
[0124]另外，采用本发明所提供的技术方案，通过对加载在音频数据上的控制增益进行平滑处理，使得在调整音频数据幅度的同时，能够尽可能多的保留了音频数据的包络信息。
[0125]另外，采用本发明所提供的技术方案，采用流式操作方式，可以实时地对输入的每帧音频数据进行增益控制处理，并且得到了稳健的识别性能，更加适合线上语音识别系统的实时性处理要求。
[0126]另外，采用本发明所提供的技术方案，无需设定处理曲线以及处理次数，对于各种输入的每帧音频数据，只需要一次就能够将每帧音频数据的幅度调整到最优幅度。
[0127]需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
[0128]在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0129]图2为本发明另一实施例提供的音频数据的增益控制装置的结构示意图，如图2所示。本实施例的音频数据的增益控制装置可以包括获取单元21、期望增益获得单元22、控制增益获得单元23和控制单元24。其中，获取单元21，用于获取第N帧音频数据和所述第N帧音频数据的VAD信息，N为大于Μ的整数，Μ为大于或等于1的整数；期望增益获得单元22，用于根据期望幅度数值和所述第Ν帧音频数据，获得所述第Ν帧音频数据的期望增益；控制增益获得单元23，用于根据所述第Ν帧音频数据的VAD信息、所述第Ν帧音频数据之前相邻的Μ帧音频数

完整全部详细技术资料下载

当前第3页1 2 3 4 5