用于语音识别系统的增益处理方法及装置的制造方法

文档序号：9598799阅读：466来源：国知局

用于语音识别系统的增益处理方法及装置的制造方法
【技术领域】
[0001] 本申请涉及语音识别处理技术领域，尤其涉及一种用于语音识别系统的增益处理方法及装置。
【背景技术】
[0002] 随着语音识别技术的发展，语音识别系统的应用领域越来越广。现有的语音识别系统通常利用海量的音频数据来训练一个通用的模型用于语音识别。
[0003] 然而，在实际使用语音识别系统时，待识别的音频数据的统计特性和训练数据不可避免的会出现不匹配，这种不匹配尤其体现在音频信号的幅度上。另外，语音识别系统通常要求麦克风接收到的音频幅值高于一定的门限，一旦音频幅值低于该门限，则识别系统的性能大大降低。

【发明内容】

[0004] 本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005] 为此，本申请的第一个目的在于提出一种用于语音识别系统的增益处理方法，该方法实现了对音频数据进行自动的增益调整，使得麦克风接收到的音频信号的幅值大于语音识别系统的门限值，而且与语音识别系统中的训练数据相匹配，提高了语音识别系统的稳健性。
[0006] 本申请的第二个目的在于提出一种用于语音识别系统的增益处理装置。
[0007] 为达上述目的，本申请第一方面实施例提出了一种用于语音识别系统的增益处理方法，包括：从输入的预设帧长的第一音频数据中，根据预设的分割长度获取每个音频段的峰值；根据每个音频段的峰值以及预设的音频期望幅值，获取每个音频段的分块增益，其中，所述音频期望幅值与语音识别系统中的训练数据匹配；从所有分块增益中从小到大选择预设的Μ个分块增益值进行中值滤波处理，获取所述第一音频数据的期望增益；应用所述期望增益对所述第一音频数据进行幅度调整。
[0008] 本申请实施例的用于语音识别系统的增益处理方法，首先从输入的预设帧长的第一音频数据中，根据预设的分割长度获取每个音频段的峰值；然后根据每个音频段的峰值以及预设的音频期望幅值，获取每个音频段的分块增益，其中，所述音频期望幅值与语音识别系统中的训练数据匹配；从所有分块增益中从小到大选择预设的Μ个分块增益值进行中值滤波处理，获取所述第一音频数据的期望增益；最后应用所述期望增益对所述第一音频数据进行幅度调整。由此，实现了对音频数据进行自动的增益调整，使得麦克风接收到的音频信号的幅值大于语音识别系统的门限值，而且与语音识别系统中的训练数据相匹配，提高了语音识别系统的稳健性。
[0009] 为达上述目的，本申请第二方面实施例提出了一种用于语音识别系统的增益处理装置，包括：第一获取模块，用于从输入的预设帧长的第一音频数据中，根据预设的分割长度获取每个音频段的峰值；第二获取模块，用于根据每个音频段的峰值以及预设的音频期望幅值，获取每个音频段的分块增益，其中，所述音频期望幅值与语音识别系统中的训练数据匹配；第一处理模块，用于从所有分块增益中从小到大选择预设的Μ个分块增益值进行中值滤波处理，获取所述第一音频数据的期望增益；调整模块，用于应用所述期望增益对所述第一音频数据进行幅度调整。
[0010] 本申请实施例的用于语音识别系统的增益处理装置，通过第一获取模块从输入的预设帧长的第一音频数据中，根据预设的分割长度获取每个音频段的峰值；通过第二获取模块根据每个音频段的峰值以及预设的音频期望幅值，获取每个音频段的分块增益，其中，所述音频期望幅值与语音识别系统中的训练数据匹配；通过第一处理模块从所有分块增益中从小到大选择预设的Μ个分块增益值进行中值滤波处理，获取所述第一音频数据的期望增益；通过调整模块应用所述期望增益对所述第一音频数据进行幅度调整。由此，实现了对音频数据进行自动的增益调整，使得麦克风接收到的音频信号的幅值大于语音识别系统的门限值，而且与语音识别系统中的训练数据相匹配，提高了语音识别系统的稳健性。
【附图说明】
[0011] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
[0012] 图1是本申请一个实施例的用于语音识别系统的增益处理方法的流程图；
[0013] 图2是本申请另一个实施例的用于语音识别系统的增益处理方法的流程图；
[0014] 图3是本申请另一个实施例的用于语音识别系统的增益处理方法的流程图；
[0015] 图4是本申请另一个实施例的用于语音识别系统的增益处理方法的流程图；
[0016] 图5是本申请一个实施例的用于语音识别系统的增益处理装置的结构示意图；
[0017] 图6是本申请另一个实施例的用于语音识别系统的增益处理装置的结构示意图；
[0018] 图7是本申请另一个实施例的用于语音识别系统的增益处理装置的结构示意图；
[0019] 图8是本申请另一个实施例的用于语音识别系统的增益处理装置的结构示意图。
【具体实施方式】
[0020] 下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。
[0021] 下面参考附图描述本申请实施例的用于语音识别系统的增益处理方法及装置。
[0022] 图1是本申请一个实施例的用于语音识别系统的增益处理方法的流程图。
[0023] 如图1所示，该用于语音识别系统的增益处理方法包括：
[0024] 步骤101，从输入的预设帧长的第一音频数据中，根据预设的分割长度获取每个音频段的峰值。
[0025] 具体来说，本发明实施例提供的用于语音识别系统的增益处理方法应用于语音识别系统中，对输入的音频数据的幅度进行增益调整。
[0026] 首先，根据预设帧长从语音识别系统输入的音频数据中确定当前待处理的音频数据帧，即第一音频数据，（为了避免与本实施例中其他的音频数据混淆，预设帧长的当前待处理的音频数据帧为第一音频数据），其中，预设帧长可以根据应用需要和识别性能要求进行灵活设置，例如从50ms到250ms的音频范围内选取80ms这个值作为预设帧长，则从当前输入的音频数据中选取80ms的音频数据作为第一音频数据进行处理。
[0027] 然后从第一音频数据中，根据预设的分割长度获取每个音频段的峰值。其中，预设的分割长度可以根据应用需要和识别性能要求进行灵活设置，例如将分割长度设置为l〇ms 时，对80ms的第一音频数据进行分割处理即获取8个音频段，进而获取与8个音频段分别对应的峰值。
[0028] 步骤102,根据每个音频段的峰值以及预设的音频期望幅值，获取每个音频段的分块增益，其中，所述音频期望幅值与语音识别系统中的训练数据匹配。
[0029] 预先根据语音识别系统中的训练数据设置音频期望幅值，从而使进行增益调整后的第一音频数据的音频信号的幅值大于语音识别系统的门限值，而且与语音识别系统中的训练数据相匹配。
[0030] 根据获取的每个音频段的峰值以及预设的音频期望幅值，获取每个音频段的分块增益，需要注意的是，获取每个音频段的分块增益的算法很多，可以根据应用需要进行选择，例如，预设的音频期望幅值与每个音频段的峰值的比值作为每个音频段的分块增益。
[0031] 步骤103,从所有分块增益中从小到大选择预设的Μ个分块增益值进行中值滤波处理，获取所述第一音频数据的期望增益。
[0032] 具体地，从所有分块增益中从小到大选择预设的Μ个分块增益值进行中值滤波处理，其中，Μ可以根据应用需要进行设置，比如为3,或者5,将Μ个分块增益的中间值作为所述第一音频数据的期望增益。
[0033] 步骤104,应用所述期望增益对所述第一音频数据进行幅度调整。
[0034] 应用获取的期望增益与该第一音频数据进行相乘，对第一音频数据的幅度进行调整，并采用语音识别系统对调整后的第一音频数据进行识别处理。
[0035] 为了更加清楚的描述本实施例提供的用于语音识别系统的增益处理方法，以第一音频数据的预设帧长为80ms ;预设的分割长度为10ms ;预设的音频期望幅值为25000为例具体说明如下：
[0036] 对80ms的第一音频数据按照每10ms分割计算其增益，
[0038] 上式中PeakLeveli表示第i个10ms数据的峰值。
[0039] 为了防止冲击噪音对增益控制的影响，从8个增益中取出3个最小值，并对3个最小值进行中值滤波，得到相对于预设的音频期望幅值，当前80ms的期望增益g_。
[0040] 本实施例的用于语音识别系统的增益处理方法，首先从输入的预设帧长的第一音频数据中，根据预设的分割长度获取每个音频段的峰值；然后根据每个音频段的峰值以及预设的音频期望幅值，获取每个音频段的分块增益，其中，所述音频期望幅值与语音识别系统中的训练数据匹配；从所有分块增益中从小到大选择预设的Μ个分块增益值进行中值滤波处理，获取所述第一音频数据的期望增益；最后应用所述期望增益对所述第一音频数据进行幅度调整。由此，实现了对音频数据进行自动的增益调整，使得麦克风接收到的音频信号的幅值大于语音识别系统的门限值，而且与语音识别系统中的训练数据相匹配，提高了语音识别系统的稳健性。
[0041] 基于上述实施例，为了进一步的避免不同音频段之间增益存在跳变，保证音频在段与段之间的连续性，进一步地提高识别性能，通过图2所示实施例对第一音频

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐杨飞;魏建强;崔玮玮;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：一种基于多重自适应的模型补偿语音识别方法
上一篇：智能眼镜应用于汽车维保领域的语音指令识别方法