音频数据的增益控制方法及装置的制造方法_2

文档序号:9580335阅读:来源:国知局
时值更新所述最小增益值,并将所述最小增益值的持续时间设置为最小增益跟踪窗长的K1倍,将所述最小增益暂时值恢复为初始值。
[0053]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述控制增益获得单元,具体用于
[0054]根据增益平滑因子、所述第Ν-l帧音频数据的控制增益和所述最小增益值,获得所述第N帧音频数据的控制增益。
[0055]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述控制增益获得单元,还用于
[0056]若所述第N帧音频数据的最小增益大于或等于所述最小增益值的K3倍,K3为指定数值,将所述最小增益值,作为所述第N帧音频数据的控制增益。
[0057]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述控制单元,具体用于
[0058]若所述第N帧音频数据的控制增益小于或等于所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益中最小期望增益,利用所述控制增益,对所述第Ν帧音频数据进行增益控制处理;
[0059]若所述第Ν帧音频数据的控制增益大于所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益中最小期望增益,利用所述最小期望增益,对所述第Ν帧音频数据进行增益控制处理。
[0060]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述控制增益获得单元,还用于
[0061]若所述第Ν帧音频数据为噪声帧,利用对所述第Ν-l帧音频数据进行增益控制处理的增益,对所述第Ν帧音频数据进行增益控制处理。
[0062]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述控制增益获得单元,还用于
[0063]若所述运算结果不满足预先设置的控制条件,利用对所述第Ν-l帧音频数据进行增益控制处理的增益,对所述第Ν帧音频数据进行增益控制处理。
[0064]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,
[0065]所述获取单元,还用于
[0066]获取第Q帧音频数据和所述第Q帧音频数据的VAD信息,Q为小于或等于Μ的整数;
[0067]所述控制单元,还用于
[0068]利用增益初始值,对所述第Q帧音频数据进行增益控制处理。
[0069]由上述技术方案可知,本发明实施例通过获取第Ν帧音频数据和所述第Ν帧音频数据的VAD信息,以及根据期望幅度数值和所述第Ν帧音频数据,获得所述第Ν帧音频数据的期望增益,进而根据所述第Ν帧音频数据的VAD信息、所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息、所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,获得所述第Ν帧音频数据的控制增益,使得能够利用所述控制增益,对所述第Ν帧音频数据进行增益控制处理,从而将待识别音频数据的幅度数值控制在识别阈值之上,能够有效避免语音识别性能的降低。
[0070]另外,采用本发明所提供的技术方案,同时提高识别系统的稳健性。
[0071]另外,采用本发明所提供的技术方案,通过根据所述第Ν帧音频数据的VAD信息,确定所述第Ν帧音频数据是否为语音帧,无需进行模型参数估计,从而减小了运算量,能够有效提尚语首识别性能。
[0072]另外,采用本发明所提供的技术方案,通过跟踪最小增益跟踪窗长内的最小增益值,能够有效降低音频数据帧与音频数据帧之间的音频跳变,能够进一步有效提高语音识另IJ性能。
[0073]另外,采用本发明所提供的技术方案,通过对加载在音频数据上的控制增益进行平滑处理,使得在调整音频数据幅度的同时,能够尽可能多的保留了音频数据的包络信息。
[0074]另外,采用本发明所提供的技术方案,采用流式操作方式,可以实时地对输入的每帧音频数据进行增益控制处理,并且得到了稳健的识别性能,更加适合线上语音识别系统的实时性处理要求。
[0075]另外,采用本发明所提供的技术方案,无需设定处理曲线以及处理次数,对于各种输入的每帧音频数据,只需要一次就能够将每帧音频数据的幅度调整到最优幅度。
【【附图说明】】
[0076]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0077]图1为本发明一实施例提供的音频数据的增益控制方法的流程示意图;
[0078]图2为本发明另一实施例提供的音频数据的增益控制装置的结构示意图。
【【具体实施方式】】
[0079]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
[0080]需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer, PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。
[0081]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0082]图1为本发明一实施例提供的音频数据的增益控制方法的流程示意图,如图1所不ο
[0083]101、获取第Ν帧音频数据和所述第Ν帧音频数据的语音活动检测(VoiceActivity Detect1n,VAD)信息,N为大于Μ的整数,Μ为大于或等于1的整数。
[0084]所谓的音频数据,是指由对音频信号转换而来的数字信号,例如,对所述音频信号进行抽样、量化和编码处理,所获得的脉冲编码调制(Pulse Code Modulat1n, PCM)数据。编码处理的详细描述可以参见现有技术中的相关内容,此处不再赘述。
[0085]在一个具体的实现过程中,具体可以利用声音采集设备例如,麦克风等,实时采集说话者的音频信号,然后,对所述音频信号进行抽样、量化和编码处理,以获得待处理的音频数据。
[0086]在另一个具体的实现过程中,具体可以从终端的存储设备中获取预先录制或下载的音频文件,进而,对所述音频文件进行解码,以获得待处理的音频数据。
[0087]其中,所述音频文件可以包括现有技术中各种编码格式的音频文件,例如,动态图像专家组(Moving Picture Experts Group,MPEG)层 3 (MPEGLayer_3,MP3)格式音频文件、WMA (Windows Media Aud1)格式音频文件、高级音频编码(Advanced Aud1 Coding, AAC)格式音频文件或APE格式音频文件等,本实施例对此不进行特别限定。
[0088]例如,所述终端的存储设备可以慢速存储设备,具体可以为计算机系统的硬盘,或者还可以为手机的非运行内存即物理内存,例如,只读存储器(Read-Only Memory, ROM)和内存卡等,本实施例对此不进行特别限定。
[0089]或者,再例如,所述终端的存储设备还可以为快速存储设备,具体可以为计算机系统的内存,或者还可以为手机的运行内存即系统内存,例如,随机存储器(Random AccessMemory, RAM)等,本实施例对此不进行特别限定。
[0090]通常来说,对所输入的音频数据,对所述音频数据进行分帧处理,帧间没有重叠部分,以获得若干帧音频数据,例如,可以按照预设时间大小如10毫秒(ms)等。这样,可以对每帧音频数据,执行101?104的处理。
[0091]关于Μ的取值,一般可以根据每帧音频数据的时间进行灵活设置,以尽量保证Μ+1帧的音频数据中能够包含一个音节,例如,在汉语中一般一个汉字的读音即为一个音节,假设每帧音频数据的时间长度为10ms,那么,Μ的取值可以为7。
[0092]102、根据期望幅度数值和所述第Ν帧音频数据,获得所述第Ν帧音频数据的期望增益。
[0093] 其中,期望幅度数值,在进行初始化时,可以设置一个初始值例如,25000。
[0094] 可选地,在本实施例的一个可能的实现方式中,具体可以将期望幅度数值与所述第N帧音频数据的幅度峰值即最大幅度值的比值,作为所述第N帧音频数据的期望增益。
[0095] 103、根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息、所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,获得所述第Ν帧音频数据的控制增益。
[0096] 104、利用所述控制增益,对所述第Ν帧音频数据进行增益控制处理。
[0097]需要说明的是,101?104的执行主体可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
[0098] 可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
[0099] 这样,通过获取第N帧音频数据和所述第N帧音频数据的VAD信息,以及根据期望幅度数值和所述第N帧音频数据,获得所述第N帧音频数据的期望增益,
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1