音频处理方法、装置及存储介质与流程

文档序号:22433352发布日期:2020-10-02 10:20阅读:173来源:国知局
音频处理方法、装置及存储介质与流程

本发明涉及数据处理技术领域,具体涉及一种音频处理方法、装置及存储介质。



背景技术:

近些年来,移动端k歌软件的市场规模逐渐扩大,用户群体遍布各个年龄段以及各种音乐层次。特别是随着智能手机、平板电脑等智能终端的普及,使得用户足不出户进行k歌成为了一种可能。比如,用户在智能手机上安装了k歌软件后,无需走进ktv便可实现歌曲演唱。其中此类软件的主要场景之一就是录歌,也就是伴奏与人声两路音频信号,通过信号处理技术最终产生合成作品的一路音频信号数据。

在现有技术当中,一般都是通过加法器对多路信号进行合成,也就是说将输入的每段音频的某个时间点的采样点数值进行相加,单纯叠加会造成相加后的值会超出阈值范围,也就是溢出。再通过平均分配除以输入路数的方式,或是作上限和下限的饱和防溢出。

在实现本发明过程中,发明人发现采用上述两种防溢出方式都无法应对各路输入音频音量相不平衡场景下的理想混合效果输出。如,其中某一路的输入音频音量过小或过爆,以及多路音频相互挤压效应都会降低混音后的音频质量。



技术实现要素:

本发明实施例提供一种音频处理方法、装置及存储介质,可以实现平滑防溢出,从而提升多路音频合成后的音频质量。

本发明实施例提供一种音频处理方法,包括:

获取多路音频数据,并对所述多路音频数据中的每路音频数据进行音量调节;

对经过音量调节后的多路音频数据分别进行第一压限处理,以使每路音频数据的音量处于预设音量范围内;

将经过所述第一压限处理后的多路音频数据通过加法电路计算数和,以得到初始合成数据;

对所述初始合成信号进行第二压限处理,生成目标合成数据。

本发明实施例还提供一种音频处理装置,包括:

调节单元,用于获取多路音频数据,并对所述多路音频数据中的每路音频数据进行音量调节;

第一处理单元,用于对经过音量调节后的多路音频数据分别进行第一压限处理,以使每路音频数据的音量处于预设音量范围内;

合成单元,用于将经过所述第一压限处理后的多路音频数据通过加法电路计算数和,以得到初始合成数据;

第二处理单元,用于对所述初始合成信号进行第二压限处理,生成目标合成数据。

本发明实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一音频处理方法。

本发明实施例提供的音频处理方案,可以获取多路音频数据,并对多路音频数据中的每路音频数据进行音量调节,对经过音量调节后的多路音频数据分别进行第一压限处理,以使每路音频数据的音量处于预设音量范围内,将经过第一压限处理后的多路音频数据通过加法电路计算数和,以得到初始合成数据,对初始合成信号进行第二压限处理,生成目标合成数据。本申请实施例所提供的方案可以合成前针对每一路音量进行调节并应用第一阶段压限,合成后再应用第二阶段压限从而实现平滑防溢出,从而提升合成后的音频质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的音频处理方法的第一流程示意图;

图1b是本发明实施例提供的音频处理方法的第二流程示意图;

图1c是本发明实施例提供的音频处理方法的第三流程示意图;

图2a是本发明实施例提供的音频处理装置的第一种结构示意图;

图2b是本发明实施例提供的音频处理装置的第二种结构示意图;

图3是本发明实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

本发明实施例提供一种音频处理方法,该音频处理方法的执行主体可以是本发明实施例提供的音频处理装置,或者集成了该音频处理装置的服务器,其中该音频处理装置可以采用硬件或者软件的方式实现。

在描述本发明的技术方案之前,先对相关的技术术语进行简单解释:

混音器(mixer):是将多个音频文件、线路输入音频信号混音后,合成单独的音频文件。

压限器(limiter):是压缩与限制器的简称。压缩器:是一种随着输入信号电平增大而本身增益减少的放大器。限制器:是一种这样的放大器,输出电平到达一定值以后,不管输入电平怎样增加,其最大输出电平保持恒定的放大器。该最大输出电平是可以根据需要调节的。

音量调节器(volumer):经过它,你可以分别对铃声、歌曲、音乐、闹钟、语音电话和零碎的声响音量大小进行不同的设置。

在现有技术当中,为了防溢出,在音频混合上回采用一些算法进行处理,比如多路信号做加法器后,为防止溢出,平均分配除以输入路数:

x(mix)=[x(0)+x(1)+...+x(n-1)]/n

或者在多路信号做加法器后,作上限和下限的饱和防溢出,比如输出16bit位深的音频,表达的范围为[-32768,32767],则表达为:

x(mix)=saturate(-32768,32767,x(0)+x(1)+....+x(n-1))

按照上述两种算法进行处理,随着要混合的音频的路数越多,平均分配后的输出音量会越来越低,饱和防溢出会产生削波效应,对输出音质量产生瑕疵。另外无法应对各路输入音频音量相不平衡场景下的理想混合效果输出,比如某路输入音频音量太小,即使加入了音量调节器,其预先设定的调节范围也无法适应这种情形达到理想的混音质量输出。如果一路输入音频音量过爆,在时域上看已经充满了能量范围,则这样一路音频和另外一路普通音量的音频混音后会产生互相挤压的效应,即调节一路音频的音量,输出的混音音频里头这路音频的音量无法增大,反而把另外一路音频的音量挤压下去。因此本申请实施例提供一种音频处理方法,实现平滑防溢出,从而提升多路音频合成后的音频质量。

如图1a所示,图1a是本发明实施例提供的音频处理方法的第一流程示意图,该音频处理方法的具体流程可以如下:

101、获取多路音频数据,并对多路音频数据中的每路音频数据进行音量调节。

在一实施例中,上述多路音频数据可以包括一路伴奏音频数据和一路干声音频数据,其中,该伴奏音频数据可以为用户所要翻唱的目标音频对应的伴奏音频数据,比如根据目标音频的标识(歌曲名、专辑名、演唱者等)向服务器发送请求,然后接收服务器根据上书请求返回的伴奏音频数据,该伴奏音频数据代目标音频当中的纯伴奏部分。

上述干声音频数据可以用户输入的音频,比如在播放伴奏的同时通过终端设备的麦克风输入的人声。比如用户在录歌时现根据目标音频的歌名获取该歌曲的伴奏音频数据,然后通过麦克风输入自己翻唱的干声音频数据。

在其他实施例当中,上述多路音频数据还可以包括一路伴奏音频数据和多路干声音频数据。比如多个用户采用合唱的方式对目标音频进行翻唱,若一首歌曲的时长为四分钟,而用户a对前两分钟的部分进行翻唱,用户b对后两分钟的部分进行翻唱,此时可以在根据歌曲名获取到路伴奏音频数据之后,通过麦克风分别获取用户a输入的前两分钟对应的第一干声音频数据以及用户b输入的后两分钟对应的第二干声音频数据,以得到上述多路音频数据。

在一实施例中,对多路音频数据中的每路音频数据进行音量调节的方法可以有多种,比如可以分别获取多路音频数据中的每路音频数据的响度,然后计算上述多路音频数据的响度平均值,最后将该均值作为标准分别对每路音频数据进行音量调节。再比如还可以在多路音频数据中选取一路音频数据作为标准,然后根据该路音频数据的响度分别对其他的音频数据进行音量调节。上述两种调节方法都可以使多路音频数据中每一路音频数据的音量保持相同,一致性较好。

在一实施例中,还可以在对多路音频数据中的每路音频数据进行音量调节之前,先对多路音频数据中的干声音频数据进行降噪处理。比如确定多路音频数据中的干声音频数据,该干声音频数据可以为一路也可以为多路,然后对该干声音频数据进行降噪处理。在实际应用中,用户使用场景中可能会存在环境噪声及背景人声,会极大地影响伴奏音频数据与干声音频数据合成后音频的音质。因此,对干声音频数据进行降噪处理,可以克服用户使用场景中噪声的影响。举例来说,可以采用噪声对消法、谐波增强法、基于参数估计的语音再合成法、基于语音短时谱估计的增强算法等一种或多种方法进行降噪处理,以减小噪声对干声音频数据的影响。

102、对经过音量调节后的多路音频数据分别进行第一压限处理,以使每路音频数据的音量处于预设音量范围内。

在一实施例中,上述压限器是压缩与限制器的简写。这里指的是数字信号处理中的压限器。信号经过采样量化后,得到数字序列表达,其中每个采样点的数字格式(位深)决定着表达这一点采样的精确范围。比如16bit的位深能表达的精确范围为[-32768,32767]。如果超出这个范围的值,则要通过处理变换为这个范围才能输出。饱和算法即clip,伪代码表示为如下:

ifsample<-32768thensample:=32768endif

ifsample>32767thensample:=32767endif

压限采用压缩的思路,即某采样点的值溢出,计算这一点的压缩比率,同时往前一定的时间内(attacktime)的采样点和之后一定时间内(releasetime)的采样点都缓慢乘以一定的比率缓慢从1.0过渡到这个点的压缩比率,在从这个压缩比率缓慢恢复到1.0的比率,c代码表示如下:

使用压限算法后可以避免饱和算法带来的clip效应产生的音质瑕疵,还能防止过曝产生的挤压效应。

103、将经过第一压限处理后的多路音频数据通过加法电路计算数和,以得到初始合成数据。

在一实施例中,量化的语音信号的叠加等价于空气中声波的叠加,也就是说将输入的每段音频的某个时间点的采样点数值进行相加,即可将声音信号加入到输出的音频中。因此可以使用加法器来对第一压限处理后的多路音频数据进行合成,得到初始合成数据。

在其他实施例中,还可以通过其他方式来对第一压限处理后的多路音频数据进行合成,比如分别获取多路音频数据的时间戳信息,然后根据该多路音频数据各自的时间戳信息进行合成。

104、对初始合成信号进行第二压限处理,生成目标合成数据。

在一实施例中,上述多路音频数据包括伴奏音频数据以及干声音频数据,因此在经过合成后得到的初始合成数据即为完整的翻唱作品,但由于通过加法器进行合成后,该初始合成信号还可能出现溢出的情况,因此还需要进行第二次压线处理。其中该第二次压限处理过程可以参考上述第一次压限处理,即某采样点的值溢出,计算这一点的压缩比率,同时往前一定的时间内(attacktime)的采样点和之后一定时间内(releasetime)的采样点都缓慢乘以一定的比率缓慢从1.0过渡到这个点的压缩比率,在从这个压缩比率缓慢恢复到1.0的比率。

在本申请实施例中,多路音频混音器在混音之前,一般都经过音量调节器,单独调节这一路的音量,然后通过加法器之后,经过实践发现传统方法遇到的问题,可以通过经过音量调节器后,加法器之前,加入单独这一路的压限器,称为第一阶段压限,使到每一路音频的音量足以调节并且控制在这一路的最大范围内,防止过爆产生的挤压效应。经过加法器合成一路音频之后,再应用一路合成后处理的压限器,保证输出没有溢出并且不会产生传统饱和算法的clip效应,这一阶段压限器成为第二阶段压限器。

由上所述,本发明实施例提出的音频处理方法可以获取第一音频信号,对第一音频信号进行截幅失真处理得到第二音频信号,将预设网络模型的因果膨胀卷积层替换为非因果膨胀卷积层,根据第一音频信号和第二音频信号对替换后的网络模型进行训练,以得到训练后的预测模型,将待处理音频信号输入至预测模型,以对待处理音频信号的截幅失真部分进行修复。本申请实施例所提供的方案可以针对待修复的截幅失真的音频,通过预测模型进行音频信号修复,从而提升音频音质。

根据前面实施例所描述的方法,以下将作进一步详细说明。

请参阅图1b,图1b是本发明实施例提供的音频处理方法的第二流程示意图。所述方法包括:

201、获取多路音频数据以及多路音频数据对应的原唱音频数据。

在一申请实施例中,上述多路音频数据包括伴奏音频数据和干声音频数据。上述多路音频数据对应的原唱音频数据为用户需要翻唱的目标音频对应的原唱音频数据,该原唱音频数据可以根据目标音频的标识(歌曲名、专辑名、演唱者等)向服务器发送请求,然后接收服务器根据上书请求返回的原唱音频数据。

202、根据原唱音频数据分别对伴奏音频数据和干声音频数据进行音量调节。

在一实施例中,可以先分别计算原唱音频数据中的原始伴奏音频数据以及原始干声音频数据的响度,然后根据原始伴奏音频数据的响度对伴奏音频数据进行音量调节,根据原始干声音频数据的响度对干声音频数据进行音量调节,以保证合成后的音频听起来与原唱音频的听感接近。

进一步的,可以使用ebur128函数来分别计算原始伴奏音频数据以及原始干声音频数据的响度,其中,ebu规定的响度单位有三个,分别是响度电平、响度范围和真实峰值电平。

其中响度电平用来描述节目的响度,即被测音频节目在指定的重放条件及相同的播出时长下,其主观音量相较于标准参考节目的大小。ebu制式的响度电平为lufs和lu两种,-lufs=lu,数值越大,节目越响。ebu沿用itu-r定义的、基于k计权的响度算法来获得响度电平。响度范围则是用来描述节目的响度反差,即节目短时响度电平的离散度,或者说最常出现的那85%的响度的分布范围。真实峰值电平与平时常用的ppm“峰值电平”不同,模拟准峰值表的瞬态响应受上升时间的限制,无法显示短于上升时间的峰值,而以采样峰值表方式实现的数字ppm表,指示的是采样点的极大值,无法反映采样点之间的峰值。真实峰值电平表是改进的采样峰值表,它先对音频进行至少4倍的升采样,再读取采样峰值。

在其他实施例中,上述原始伴奏音频数据以及原始干声音频数据的响度还可以根据平均振幅或最大振幅等方法来进行计算,本申请对此不做进一步限定。

在一实施例中,还可以根据原始伴奏音频数据以及原始干声音频数据的响度计算原唱音频数据的声伴比,然后根据所述声伴比分别对所述伴奏音频数据和干声音频数据进行音量调节,以使得调节后的伴奏音频数据和干声音频数据的声伴比与原唱音频数据的声伴比一致或接近,进一步提升合成后的音频的听感。也即根据所述原唱音频数据分别对所述伴奏音频数据和干声音频数据进行音量调节的步骤,包括:

计算所述原唱音频数据的声伴比;

根据所述声伴比分别对所述伴奏音频数据和干声音频数据进行音量调节。

203、对音频数据进行采样以及量化处理,以生成音频数据的数字序列。

在分别对伴奏音频数据和干声音频数据进行音量调节之后,还需分别针对该伴奏音频数据和干声音频数据进行第一压限处理,具体的,可以对伴奏音频数据和干声音频数据进行采样以及量化处理,以生成音频数据的数字序列。

其中,采样过程就是按一定的频率,即每一小段时间,测得模拟信号的模拟量值。量化过程是通过采样时测的模拟电压值,要进行分级量化,按整个电压变化的最大幅度划分成几个区段,把落在某区段的采样到的样品值归成一类,并给出相应的量化值。经过采样和量化即可得到音频数据的数字序列。

204、根据数字序列确定音频数据当中数值超出的目标采样点,并计算目标采样点的压缩比率。

其中,描述一个采样点,横轴(时间)代表采样率,纵轴(幅度)代表位深度。16bit表示用16位(2个字节)来表示对该采样点的电平(通俗点来说和音量大小成正比)进行编码时所能达到的精确程度,也就是把纵轴分为16份描述电平大小。16bit被认为是专业音频领域里面最低的位深度标准,和44.1khz的采样率一样,共同作为专业音频和消费产品的标准。位深度也直接关系到信号噪声比的大小,直接影响到所录制信号的整体动态范围。本申请实施例中音频数据的采样率可以设置为44.1khz,位深度可以为16bit。

在一实施例中,每个采样点的位深度决定着表达这一点采样的精确范围。比如16bit的位深能表达的精确范围为[-32768,32767]。如果超出这个范围的值,即为溢出值,而该溢出值对应的采样点即为目标采样点,再确定目标采样点之后可以进一步计算该目标采样点的压缩比率。也即根据所述数字序列确定所述音频数据当中数值溢出的目标采样点,并计算所述目标采样点的压缩比率的步骤,包括:

获取所述音频数据的位深度,并根据所述位深度确定对应的数值精确范围;

获取所述数字序列当中溢出所述数值精确范围的目标数值;

确定所述目标数值对应的采样点为目标采样点,并计算所述目标采样点的压缩比率。

在一实施例中,在计算所述目标采样点的压缩比率时,可以根据目标采样点的溢出值来进行计算,比如目标采样点的溢出值较高时,其压缩比率也较大,而当目标采样点的溢出值较低时,其压缩比率也较小。

205、根据目标采样点的压缩比率对音频数据进行第一压限处理。

在一实施例中,在进行第一压限处理时,可以只对目标采样点根据其对应的压缩比率进行压限。在其他实施例中还可以对目标采样点以及附近的其他采样点都进行压限处理,以此提升平滑度。比如在计算出目标采样点的压缩比率后,同时往前一定的时间内(attacktime)的采样点和之后一定时间内(releasetime)的采样点都缓慢乘以一定的比率缓慢从1.0过渡到目标采样点的压缩比率,在从这个压缩比率缓慢恢复到1.0的比率。

也即根据所述目标采样点的压缩比率对所述音频数据进行第一压限处理的步骤,包括:

获取所述音频数据当中与所述目标采样点相邻的预设数量的多个采样点;

分别获取所述多个采样点与目标采样点之间的距离,并根据所述距离计算所述多个采样点分别对应的压缩比率;

根据所述多个采样点以及目标采样点分别对应的压缩比率对所述音频数据进行压限处理。

其中,上述与目标采样点相邻的预设数量的多个采样点,可以包括分别位于目标采样点前面以及后面的数量相同的多个采样点,比如上述预设数量为100,则可以分别获取位于目标采样点前面的50个采样点,以及位于目标采样点后面的50个采样点。进一步的,上述预设数量可以根据预设时间跟采样率计算,比如根据采样率获取目标采样点前10秒内的多个采样点,以及目标采样点后10秒内的多个采样点。

206、将第一压限处理后的多路音频数据进行合成,得到初始合成数据。

在一实施例中,量化的语音信号的叠加等价于空气中声波的叠加,也就是说将输入的每段音频的某个时间点的采样点数值进行相加,即可将声音信号加入到输出的音频中。因此可以使用加法器来对第一压限处理后的多路音频数据进行合成,得到初始合成数据。

在其他实施例中,还可以通过其他方式来对第一压限处理后的多路音频数据进行合成,比如分别获取多路音频数据的时间戳信息,然后根据该多路音频数据各自的时间戳信息进行合成。

207、对初始合成信号进行第二压限处理,生成目标合成数据。

在一实施例中,上述多路音频数据包括伴奏音频数据以及干声音频数据,因此在经过合成后得到的初始合成数据即为完整的翻唱作品,但由于通过加法器进行合成后,该初始合成信号还可能出现溢出的情况,因此还需要进行第二次压线处理。其中该第二次压限处理过程可以参考上述第一次压限处理此处不再赘述。

在本申请实施例中,请参阅图1c,以三路音频数据为例进行说明,该三路音频数据可以包括一路伴奏音频数据和两路干声音频数据。上述三路音频混音器在混音之前,一般都经过音量调节器,单独调节这一路的音量,然后通过加法器之后,经过实践发现传统方法遇到的问题,可以通过经过音量调节器后,加法器之前,加入单独这一路的压限器,称为第一阶段压限,使到每一路音频的音量足以调节并且控制在这一路的最大范围内,防止过爆产生的挤压效应。经过加法器合成一路音频之后,再应用一路合成后处理的压限器,保证输出没有溢出并且不会产生传统饱和算法的clip效应,这一阶段压限器成为第二阶段压限器。

由上所述,本发明实施例提出的音频处理方法可以获取多路音频数据以及多路音频数据对应的原唱音频数据,根据原唱音频数据分别对伴奏音频数据和干声音频数据进行音量调节,对音频数据进行采样以及量化处理,以生成音频数据的数字序列,根据数字序列确定音频数据当中数值溢出的目标采样点,并计算目标采样点的压缩比率,根据目标采样点的压缩比率对音频数据进行第一压限处理,将第一压限处理后的多路音频数据进行合成,得到初始合成数据,对初始合成信号进行第二压限处理,生成目标合成数据。本申请实施例所提供的方案可以针对待修复的截幅失真的音频,通过预测模型进行音频信号修复,从而提升音频音质。

为了实施以上方法,本发明实施例还提供一种音频处理装置,该音频处理装置具体可以集成在终端设备如手机、平板电脑等设备中。

例如,如图2a所示,是本发明实施例提供的音频处理装置的第一种结构示意图。该音频处理装置可以包括:

调节单元301,用于获取多路音频数据,并对所述多路音频数据中的每路音频数据进行音量调节。

在一实施例中,对多路音频数据中的每路音频数据进行音量调节的方法可以有多种,比如可以分别获取多路音频数据中的每路音频数据的响度,然后计算上述多路音频数据的响度平均值,最后将该均值作为标准分别对每路音频数据进行音量调节。再比如还可以在多路音频数据中选取一路音频数据作为标准,然后根据该路音频数据的响度分别对其他的音频数据进行音量调节。上述两种调节方法都可以使多路音频数据中每一路音频数据的音量保持相同,一致性较好。

第一处理单元302,用于对经过音量调节后的多路音频数据分别进行第一压限处理,以使每路音频数据的音量处于预设音量范围内。

压限采用压缩的思路,即某采样点的值溢出,计算这一点的压缩比率,同时往前一定的时间内(attacktime)的采样点和之后一定时间内(releasetime)的采样点都缓慢乘以一定的比率缓慢从1.0过渡到这个点的压缩比率,在从这个压缩比率缓慢恢复到1.0的比率。

合成单元303,用于将经过所述第一压限处理后的多路音频数据通过加法电路计算数和,以得到初始合成数据。

在一实施例中,量化的语音信号的叠加等价于空气中声波的叠加,也就是说将输入的每段音频的某个时间点的采样点数值进行相加,即可将声音信号加入到输出的音频中。因此可以使用加法器来对第一压限处理后的多路音频数据进行合成,得到初始合成数据。

第二处理单元304,用于对所述初始合成信号进行第二压限处理,生成目标合成数据。

在一实施例中,上述多路音频数据包括伴奏音频数据以及干声音频数据,因此在经过合成后得到的初始合成数据即为完整的翻唱作品,但由于通过加法器进行合成后,该初始合成信号还可能出现溢出的情况,因此还需要进行第二次压线处理。其中该第二次压限处理过程可以参考上述第一次压限处理,此处不在进一步赘述。

在一实施例中,请参阅图2b,其中所述第一处理单元302或所述第二处理单元304可以包括:

生成子单元3021或生成子单元3041,用于对所述音频数据进行采样以及量化处理,以生成所述音频数据的数字序列;

计算子单元3022或计算子单元3042,用于根据所述数字序列确定所述音频数据当中数值溢出的目标采样点,并计算所述目标采样点的压缩比率;

处理子单元3023或计算子单元3043,用于根据所述目标采样点的压缩比率对所述音频数据进行压限处理。

在一实施例中,所述多路音频数据包括伴奏音频数据和干声音频数据,所述调节单元301包括:

获取子单元3011,用于获取所述多路音频数据对应的原唱音频数据;

调节子单元3012,用于根据所述原唱音频数据分别对所述伴奏音频数据和干声音频数据进行音量调节。

本发明实施例提出的音频处理装置,可以获取第一音频信号,对第一音频信号进行截幅失真处理得到第二音频信号,将预设网络模型的因果膨胀卷积层替换为非因果膨胀卷积层,根据第一音频信号和第二音频信号对替换后的网络模型进行训练,以得到训练后的预测模型,将待处理音频信号输入至预测模型,以对待处理音频信号的截幅失真部分进行修复。本申请实施例所提供的方案可以针对待修复的截幅失真的音频,通过预测模型进行音频信号修复,从而提升音频音质。

本发明实施例还提供一种终端,如图3所示,该终端可以包括射频(rf,radiofrequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(wifi,wirelessfidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解,图3中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

rf电路601可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器608处理;另外,将涉及上行的数据发送给基站。通常,rf电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(sim,subscriberidentitymodule)卡、收发信机、耦合器、低噪声放大器(lna,lownoiseamplifier)、双工器等。此外,rf电路601还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(gsm,globalsystemofmobilecommunication)、通用分组无线服务(gprs,generalpacketradioservice)、码分多址(cdma,codedivisionmultipleaccess)、宽带码分多址(wcdma,widebandcodedivisionmultipleaccess)、长期演进(lte,longtermevolution)、电子邮件、短消息服务(sms,shortmessagingservice)等。

存储器602可用于存储软件程序以及模块,处理器608通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及信息处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元603可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器608,并能接收处理器608发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元603还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板,可选的,可以采用液晶显示器(lcd,liquidcrystaldisplay)、有机发光二极管(oled,organiclight-emittingdiode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器608以确定触摸事件的类型,随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图3中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路606、扬声器,传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路606接收后转换为音频数据,再将音频数据输出处理器608处理后,经rf电路601以发送给比如另一终端,或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔,以提供外设耳机与终端的通信。

wifi属于短距离无线传输技术,终端通过wifi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图3示出了wifi模块607,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器608可包括一个或多个处理核心;优选的,处理器608可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器608中。

终端还包括给各个部件供电的电源609(比如电池),优选的,电源可以通过电源管理系统与处理器608逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端中的处理器608会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器608来运行存储在存储器602中的应用程序,从而实现各种功能:

获取多路音频数据,并对所述多路音频数据中的每路音频数据进行音量调节;

对音量调节后的多路音频数据分别进行第一压限处理,以使每路音频数据的音量处于预设音量范围当中;

将所述第一压限处理后的多路音频数据进行合成,得到初始合成数据;

对所述初始合成信号进行第二压限处理,生成目标合成数据。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对音频处理方法的详细描述,此处不再赘述。

由上可知,本发明实施例的终端可以获取第一音频信号,对第一音频信号进行截幅失真处理得到第二音频信号,将预设网络模型的因果膨胀卷积层替换为非因果膨胀卷积层,根据第一音频信号和第二音频信号对替换后的网络模型进行训练,以得到训练后的预测模型,将待处理音频信号输入至预测模型,以对待处理音频信号的截幅失真部分进行修复。本申请实施例所提供的方案可以针对待修复的截幅失真的音频,通过预测模型进行音频信号修复,从而提升音频音质。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种音频处理方法中的步骤。例如,该指令可以执行如下步骤:

获取多路音频数据,并对所述多路音频数据中的每路音频数据进行音量调节;

对音量调节后的多路音频数据分别进行第一压限处理,以使每路音频数据的音量处于预设音量范围当中;

将所述第一压限处理后的多路音频数据进行合成,得到初始合成数据;

对所述初始合成信号进行第二压限处理,生成目标合成数据。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

其中,该存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、磁盘或光盘等。

由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种音频处理方法中的步骤,因此,可以实现本发明实施例所提供的任一种音频处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

以上对本发明实施例所提供的一种音频处理方法、装置、存储介质以及终端进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1