音视频直播中的音频降噪方法及系统、存储器及电子设备与流程

文档序号:13448106阅读:760来源:国知局
音视频直播中的音频降噪方法及系统、存储器及电子设备与流程

本发明涉及音视频直播领域,特别是涉及音视频直播中的音频降噪方法及系统、存储介质及电子设备。

版权申明

本专利文件披露的内容包含受版权保护的材料。该版权为版权所有人所有。版权所有人不反对任何人复制专利与商标局的官方记录和档案中所存在的该专利文件或者该专利披露。



背景技术:

现阶段的音视频直播主要集中在移动直播、电视现场直播、广播节目直播等领域。随着互联网的发展和便携式手持设备用户的增多,通过手机等移动终端进行移动直播已经获得越来越多的人,尤其是年轻人的青睐。移动直播作为一种实时展示方式,是由移动终端通过无线移动网络将现场音视频数据进行采集、处理并向外传送,再由外部服务端进行视频直播、录制和流媒体分发的过程。

在音视频直播的过程中,音视频数据的采集场景会非常灵活,可以是在室内或室外,也可以是在室内和室外之间随时转换,这就导致了采集的音视频数据的中会夹杂着一些环境噪音,对观众的观赏体验造成不利影响。



技术实现要素:

为了解决上述的以及其他潜在的技术问题,本发明的实施例提供了一种音视频直播中的音频降噪方法,包括:采集音频数据,所述音频数据为脉冲编码调制格式;获取所述音频数据的音频参数信息;若所述音频参数信息有效,则判断其与目标降噪参数信息是否匹配;若不匹配,则对所述音频数据进行重采样操作,直至所述音频数据的音频参数信息与目标降噪参数信息相匹配;按照预设时间间隔对所述音频数据进行分块,并对各分块的音频数据进行降噪处理后编码输出。

于本发明一实施例中,所述音频参数信息及所述目标降噪参数信息分别至少包括:采样率信息。

于本发明一实施例中,判断所述音频参数信息是否有效,包括:获取所述音频数据的采样率信息;判断所述采样率信息是否属于预设采样率信息集合;若属于所述预设采样率信息集合,则将所述音频参数信息确定为有效;否则,则将所述音频参数信息确定为无效。

于本发明一实施例中,所述音频参数信息及所述目标降噪参数信息分别还包括:采样声道数信息、和/或量化位数信息。

于本发明一实施例中,对各分块的音频数据的降噪处理由webrtc网页实时通信架构下的webrtcns_process函数来实现。

为了解决上述的以及其他潜在的技术问题,本发明的实施例提供了一种音视频直播中的音频降噪系统,包括:音频采集模块,用于采集音频数据,所述音频数据为脉冲编码调制格式;以及,用于获取有效的音频参数信息,并判断其与目标降噪参数信息是否匹配;若不匹配,则对所述音频数据进行重采样操作,直至所述音频数据的音频参数信息与目标降噪参数信息相匹配;音频降噪模块,用于按照预设时间间隔对所述音频数据进行分块,并对各分块的音频数据进行降噪处理后编码输出。

于本发明一实施例中,所述音频参数信息及所述目标降噪参数信息分别至少包括:采样率信息。

于本发明一实施例中,所述音频降噪模块判断所述音频参数信息是否有效是通过以下方式实现的:获取所述音频数据的采样率信息;判断所述采样率信息是否属于预设采样率信息集合;若属于所述预设采样率信息集合,则将所述音频参数信息确定为有效;否则,则将所述音频参数信息确定为无效。

于本发明一实施例中,所述音频参数信息及所述目标降噪参数信息分别还包括:采样声道数信息、和/或量化位数信息。

于本发明一实施例中,所述音频降噪模块对各分块的音频数据的降噪处理由网页实时通信架构webrtc下的webrtcns_process函数来实现。

为了解决上述的以及其他潜在的技术问题,本发明的实施例提供了一种存储介质,其中存储有计算机程序,所述计算机程序被处理器加载执行时,实现如上任一所述的音视频直播中的音频降噪方法。

为了解决上述的以及其他潜在的技术问题,本发明的实施例提供了一种电子设备,包括:处理器、及存储器;其中,所述存储器用于存储计算机程序;所述处理器用于加载执行所述计算机程序,以使所述电子设备执行如上任一所述的音视频直播中的音频降噪方法。

如上所述,本发明的音视频直播中的音频降噪方法及系统、存储器及电子设备,能够有助于降低甚至消除音视频直播中的环境噪音,保障数据源音频的清晰度,改善观众的体验效果,为音视频直播用户提供优良的观赏体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1显示为本发明一实施例中的音视频直播中的音频降噪方法的流程示意图。

图2a~2b显示为本发明一仿真实例中的降噪前后的音频时域波形图。

图3显示为本发明一实施例中的音视频直播中的音频降噪系统的模块示意图。

元件标号说明

s102~s107步骤

301音频采集模块

302音频降噪模块

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。

在通过电子设备采集音视频数据进行音视频直播的过程中,数据采集的场景可以是任何实际生活中的场景,在这种情况下,音频数据的采集势必会夹杂着一些环境噪声。数据采集场景的多样化将导致环境噪音的多样化,有周期性噪音,如:吹电风扇的声音、马达转动的声音等;也有刺激性噪音,如:金属的偶然撞击声、人的尖叫声等。

鉴于以上问题,本实施例提供一种音视频直播中的音频降噪方法以对采集的音频数据进行降噪,从而提高音频的信噪比。优选的,本方法应用于能够采集并处理音视频数据的电子设备,如:智能手机、便携式电脑等。所述电子设备利用本方法实现了对采集的音频数据的降噪,保证了音频数据的清晰度,随后,所述电子设备对降噪后的音频数据进行编码压缩,并通过网络发布至通信连接的服务器。

如图1所示,本实施例的音频降噪方法包括以下步骤:

s102:采集音频数据,例如:通过声卡采集音频数据、通过麦克风采集音频数据,以及通过网络获取音频数据等,其中,所述音频数据为脉冲编码调制格式(pcm)。

s103:获取所述音频数据的音频参数信息。所述音频参数信息至少包括采样率信息,还进一步包括采样声道数信息(如:单声道数值为1、双声道数值为2)、量化位数信息(如:8位、16位、32位)等。

s104:判断所述音频参数信息是否有效,若有效则执行步骤s105。例如:首先,获取所述音频数据的采样率信息;然后,判断所述采样率信息是否属于预设采样率信息集合;若是,则将所述音频参数信息确定为有效,反之,则将所述音频参数信息确定为无效。假设预设采样率信息集合为(8000hz、11025hz、12000hz、16000hz、22050hz、24000hz、32000hz、44100hz、48000hz、64000hz、88200hz、96000hz、128000hz),现有音频参数信息的采样率为44100hz,则该音频参数信息即为有效。

s105:判断所述有效的音频参数与目标降噪参数信息是否匹配;若不匹配,则执行s106;若匹配,则执行s107。所述目标降噪参数信息至少包括采样率信息,还进一步包括采样声道数信息(如:单声道数值为1、双声道数值为2)、量化位数信息(如:8位、16位、32位)等。

s106:对所述音频数据进行重采样操作,随后返回步骤s105进行判断,直至获取的重采样后的所述音频数据的音频参数信息与所述目标降噪参数信息相匹配。例如,现有采样率为44100hz的音频数据(双声道16位),然而目标音频参数信息的采样率为16000hz,则需要将该双声道16位的音频数据进行重采样至16000hz、单声道的pcm数据。

s107:按照预设时间间隔对所述音频数据进行分块,并对各分块的音频数据进行降噪处理后编码输出。

一般情况下,人的发音器官在10毫秒内发出的音频的幅度基本恒定,据以将预设时间间隔设置为10毫秒,降噪每次按照10毫秒的数据进行处理,降噪则可以采用汉宁加窗、噪音估计、静音检测、线性滤波、频谱滤波等多种方式的结合,最后通过离散傅里叶变换后得到消除噪音的语音音频数据。

在一较佳的实施方式中,步骤s101~s107是利用一种支持实时的语音视频对话的开源多媒体框架——网页实时通信(webreal-timecommunication,简称webrtc)来实现的。在该实施方式中,降噪时处理的数据是音频原始数据(即pcm格式),不管是声卡采集的、麦克风采集的,还是网络上接收的音频数据,都要先将数据处理成pcm格式的,并且获取到音频的相关的参数。webrtc每次处理的数据为10毫秒的pcm数据。先调用webrtc的接口webrtcns_create,webrtcns_init对webrtc组件进行初始化和设置降噪音频的采样率为16000hz。在接收到数据后,首先对数据进行分块处理,由于采样率16000hz,即是每秒采样16000个音频点,10毫秒的采样点为16000÷100=160,而采样16位(双字节)的字节数为160×2=320,也即每次送入采样的数据大小为320字节数据块。数据分块完成后,将分块后的pcm数据逐一调用接口webrtcns_process对数据处理,最后得到消除噪音的语音音频数据。处理完毕后调用webrtcns_free销毁webrtc组件。

图2a和图2b分别显示了采集的音频数时域波形图,以及利用本实施例所提方法进行降噪后的音频时域波形图。从时域波形上可以看出,降噪前语音中带有很多环境噪音,而通过音频降噪后,将环境噪音基本消除。

如图3所示,本发明的另一实施例提供一种音视频直播中的音频降噪系统以对采集的音频数据进行降噪,从而提高音频的信噪比。优选的,本系统搭载于能够采集并处理音视频数据的电子设备,如:智能手机、便携式电脑等。所述电子设备利用本系统实现了对采集的音频数据的降噪,保证了音频数据的清晰度,随后,所述电子设备对降噪后的音频数据进行编码压缩,并通过网络发布至通信连接的服务器。

所述音视频直播中的音频降噪系统包括:音频采集模块301、音频降噪模块302。

首先,音频采集模块301采集音频数据,例如:通过声卡采集音频数据、通过麦克风采集音频数据,以及通过网络获取音频数据等,其中,所述音频数据为脉冲编码调制格式(pcm),并获取所述音频数据的音频参数信息。所述音频参数信息至少包括采样率信息,还进一步包括采样声道数信息(如:单声道数值为1、双声道数值为2)、量化位数信息(如:8位、16位、32位)等。

随后,音频采集模块301判断所述音频参数信息是否有效,例如:首先,获取所述音频数据的采样率信息;然后,判断所述采样率信息是否属于预设采样率信息集合;若是,则将所述音频参数信息确定为有效,反之,则将所述音频参数信息确定为无效。假设预设采样率信息集合为(8000hz、11025hz、12000hz、16000hz、22050hz、24000hz、32000hz、44100hz、48000hz、64000hz、88200hz、96000hz、128000hz),现有音频参数信息的采样率为44100hz,则该音频参数信息即为有效。

再次,音频采集模块301判断所述有效的音频参数与目标降噪参数信息是否匹配。所述目标降噪参数信息至少包括采样率信息,还进一步包括采样声道数信息(如:单声道数值为1、双声道数值为2)、量化位数信息(如:8位、16位、32位)等。具体的:若判断结果不匹配,对所述音频数据进行重采样操作,直至获取的重采样后的所述音频数据的音频参数信息与所述目标降噪参数信息相匹配。例如,现有采样率为44100hz的音频数据(双声道16位),然而目标音频参数信息的采样率为16000hz,则需要将该双声道16位的音频数据进行重采样至16000hz、单声道的pcm数据。

音频降噪模块302在所述有效的音频参数与目标降噪参数信息匹配的情况下,按照预设时间间隔对所述音频数据进行分块,并对各分块的音频数据进行降噪处理后编码输出。

一般情况下,人的发音器官在10毫秒内发出的音频的幅度基本恒定,据以将预设时间间隔设置为10毫秒,降噪每次按照10毫秒的数据进行处理,降噪则可以采用汉宁加窗、噪音估计、静音检测、线性滤波、频谱滤波等多种方式的结合,最后通过离散傅里叶变换后得到消除噪音的语音音频数据。

在一较佳的实施方式中,所述音频降噪系统是利用一种支持实时的语音视频对话的开源多媒体框架——网页实时通信(webreal-timecommunication,简称webrtc)来实现的。在该实施方式中,降噪时处理的数据是音频原始数据(即pcm格式),不管是声卡采集的、麦克风采集的,还是网络上接收的音频数据,都要先将数据处理成pcm格式的,并且获取到音频的相关的参数。webrtc每次处理的数据为10毫秒的pcm数据。音频降噪模块302先调用webrtc的接口webrtcns_create,webrtcns_init对webrtc组件进行初始化和设置降噪音频的采样率为16000hz。在接收到数据后,首先对数据进行分块处理,由于采样率16000hz,即是每秒采样16000个音频点,10毫秒的采样点为16000÷100=160,而采样16位(双字节)的字节数为160×2=320,也即每次送入采样的数据大小为320字节数据块。数据分块完成后,将分块后的pcm数据逐一调用接口webrtcns_process对数据处理,最后得到消除噪音的语音音频数据。处理完毕后调用webrtcns_free销毁webrtc组件。

图2a和图2b分别显示了采集的音频数时域波形图,以及利用本实施例所提系统进行降噪后的音频时域波形图。从时域波形上可以看出,降噪前语音中带有很多环境噪音,而通过音频降噪后,将环境噪音基本消除。

除此之外,本发明还包括一种存储介质和一种电子设备,由于前述实施例中的技术特征可以应用于存储介质实施例、电子设备实施例,因而不再重复赘述。

所述存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质,其中存储有计算机程序,该计算机程序在被处理器加载执行时,实现前述实施例中音视频直播中的音频降噪方法的全部或部分步骤。

所述电子设备为包括处理器(cpu/mcu/soc)、存储器(rom/ram)、通信模块(有线/无线网络)、显示模块的设备,优选为智能手机。特别的,该存储器中存储有计算机程序,该处理器在加载执行所述计算机程序时,实现前述实施例中音视频直播中的音频降噪方法的全部或部分步骤。

综上所述,本发明的音视频直播中的音频降噪方法、系统、存储器及电子设备,有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1