本申请属于蓝牙音频编解码,特别是涉及一种基于深度学习的直达声与环境声的提取方法、系统、存储介质及设备。
背景技术:
1、目前主流的蓝牙音频编码器如下:sbc:a2dp协议强制要求,使用最为广泛,是所有的蓝牙音频设备必须支持的,但音质一般;aac-lc:音质较好且应用较为广泛,很多主流的手机都支持,但与sbc相比,内存占用较大,且运算复杂度高,很多蓝牙设备都基于嵌入式平台,电池容量有限,处理器运算能力较差且内存有限,而且,其专利费较高;aptx系列:音质较好,但码率很高,aptx需要码率384kbps,而aptx-hd的码率为576kbps,且为高通独有的技术,较为封闭;ldac:音质较好,但码率也很高,分别是330kbps,660kbps和990kbps,由于蓝牙设备所处的无线环境特别复杂,稳定支持如此高的码率有一定的困难,且为索尼独有的技术,也很封闭;lhdc:音质较好,但码率也很高,典型的包括400kbps,600kbps和900kbps,如此高的码率,对于蓝牙的基带/射频设计提出了很高的要求。
2、基于上述原因,蓝牙国际联盟bluetooth sig联合众多厂商推出了lc3,主要面向低功耗蓝牙,也可以用于经典蓝牙,其具有较低延迟、较高的音质和编码增益以及在蓝牙领域无专利费的优点,受到广大厂商的关注。
3、蓝牙音箱目前比较普及,除了欣赏立体声,人们更希望能提高沉浸感。5.1声道环绕声是使用比较广泛的音频格式,其能提供较好的用户体验。但5.1声道格式的音源偏少,网络上比较流行的音源以双声道为主,在使用多声道音箱播放时,无法充分发挥多声道音箱的性能,尤其沉浸感不足。
4、现有的双声道上混到多声道技术中,pca(principal component analysis,即主成分分析)使用较多,在杜比环绕声解码器中也有使用,由于多声道信号间的相关、非线性关系的时变特性,其生成的环绕声与原始的环绕声差别较大,上混音频的空间感和沉浸感不足。
技术实现思路
1、针对现有技术中存在的上述技术问题,本申请提供了一种基于深度学习的直达声与环境声的提取方法、系统、存储介质及设备,基于双声道音源信号,通过采用深度学习技术,在蓝牙接收端提取直达声和环境声,从而实现双声道到多声道的上混,提高用户体验。
2、为了实现上述目的,本申请采用的第一个技术方案是:提供一种基于深度学习的直达声与环境声的提取方法,包括:在蓝牙接收端,对标准双声道音源的左右声道码流解码至变换域噪声整形,输出左声道谱系数和右声道谱系数;根据左声道谱系数和右声道谱系数,执行特征提取,得到由预定帧数的幅度谱组成的特征向量;将特征向量输入预训练神经网络模型中,得到每一个频仓的环境声增益和直达声增益;分别根据环境声增益和直达声增益,生成对应的环境声谱系数和直达声谱系数;以及分别对环境声谱系数和直达声谱系数执行低延迟改进型离散余弦逆变换,得到对应的环境声的pcm和直达声的pcm。
3、本申请采用的第二个技术方案是:提供一种基于深度学习的直达声与环境声的提取系统,包括:用于在蓝牙接收端,对标准双声道音源的左右声道码流解码至变换域噪声整形,输出左声道谱系数和右声道谱系数的模块;用于根据左声道谱系数和右声道谱系数,执行特征提取,得到由预定帧数的幅度谱组成的特征向量的模块;用于将特征向量输入预训练神经网络模型中,得到每一个频仓的环境声增益和直达声增益的模块;用于分别根据环境声增益和直达声增益,生成对应的环境声谱系数和直达声谱系数的模块;以及用于分别对环境声谱系数和直达声谱系数执行低延迟改进型离散余弦逆变换,得到对应的环境声的pcm和直达声的pcm的模块。
4、本申请采用的第三个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行方案一中的基于深度学习的直达声与环境声的提取方法。
5、本申请采用的第四个技术方案是:提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中处理器操作计算机指令以执行方案一中的基于深度学习的直达声与环境声的提取方法。
6、本申请技术方案可以达到的有益效果是:本申请的技术方案既可以应用于低功耗蓝牙,也可以应用于经典蓝牙,通过利用现有的时频变换和重叠相加技术,避免了算法延时的增加;基于双声道的原始音源,采用深度学习技术,在蓝牙接收端提取直达声和环境声,能够给用户提供比双声道立体声更好的沉浸感,从而充分发挥多声道音箱的功能。
1.一种基于深度学习的直达声与环境声的提取方法,其特征在于,包括:
2.根据权利要求1所述的基于深度学习的直达声与环境声的提取方法,其特征在于,分别根据所述环境声增益和所述直达声增益,生成对应的环境声谱系数和直达声谱系数,包括:
3.根据权利要求1所述的基于深度学习的直达声与环境声的提取方法,其特征在于,所述环境声增益与所述直达声增益的和为1。
4.根据权利要求1所述的基于深度学习的直达声与环境声的提取方法,其特征在于,所述预训练神经网络模型的训练过程,包括:
5.根据权利要求4所述的基于深度学习的直达声与环境声的提取方法,其特征在于,所述根据所述估计的增益,计算所述神经网络的误差,包括:
6.根据权利要求4所述的基于深度学习的直达声与环境声的提取方法,其特征在于,所述对所述环境声的双声道音源和所述直达声的双声道音源执行混音,得到混音的双声道信号,包括:
7.根据权利要求4所述的基于深度学习的直达声与环境声的提取方法,其特征在于,所述环境声特征和所述混音特征分别为各自对应的所述预定帧数的幅度谱特征。
8.一种基于深度学习的直达声与环境声的提取系统,其特征在于,包括:
9.一种计算机可读存储介质,其存储有计算机指令,其中所述计算机指令被操作以执行权利要求1-7任一项所述的基于深度学习的直达声与环境声的提取方法。
10.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机指令,其中所述处理器操作所述计算机指令以执行权利要求1-7任一项所述的基于深度学习的直达声与环境声的提取方法。