语音增强方法、装置、计算机设备及存储介质与流程

文档序号:15969955发布日期:2018-11-16 23:25阅读:204来源:国知局

本发明涉及信号处理领域,尤其涉及一种语音增强方法、装置、计算机设备及存储介质。

背景技术

随着语音识别技术的广泛使用,语音信号处理技术的需求也随之扩大。目前,在计算机设备采集到的语音信号,既包含说话人说话声音对应的语音信息,该语音信息属于有效信息,也包含除了说话人说话声音以外的其他声音形成的噪声信息。在语音识别过程中,若直接对计算机设备采集到的语音信号进行识别,由于噪声信息的存在,会影响语音识别的准确性。因此,需要对计算机设备采集到的语音信号进行增强处理(即对语音信号进行降噪处理),以从该语音信号中尽可能提取到更纯净的语音信号,以使语音识别更加准确。当前对语音信号进行语音增强处理后提取的语音信号精度不高,不利于后续进行语音识别。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种可以提升语音增强处理后语音信号精度的语音增强方法、装置、计算机设备及存储介质。

一种语音增强方法,包括:

对原始语音信息进行转换,获取数字语音信号;

基于所述数字语音信号,获取汉克尔矩阵;

对所述汉克尔矩阵进行奇异值分解运算处理,获取至少两个奇异值;

对至少两个所述奇异值进行奇异值分解逆运算,获取目标语音信号;

对所述目标语音信号进行还原处理,获取目标语音信息。

一种语音增强装置,包括:

数字语音信号获取模块,用于对原始语音信息进行转换,获取数字语音信号;

汉克尔矩阵获取模块,用于基于所述数字语音信号,获取汉克尔矩阵;

奇异值获取模块,用于对所述汉克尔矩阵进行奇异值分解运算处理,获取至少两个奇异值;

目标语音信号获取模块,用于对至少两个所述奇异值进行奇异值分解逆运算,获取目标语音信号;

目标语音信息获取模块,用于对所述目标语音信号进行还原处理,获取目标语音信息。

一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音增强方法的步骤。

一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音增强方法的步骤。

上述语音增强方法、装置、计算机设备及存储介质中,先对原始语音信息进行转换,获取数字语音信号,将数字语音信号构建为汉克尔矩阵,以便对汉克尔矩阵进行奇异值分解运算处理,获取至少两个奇异值,由于奇异值往往对应着矩阵中隐含的重要信息,且重要性和奇异值大小正相关。通过获取奇异值,能够直观的观察出奇异值中所包含的有效信息量的程度。然后,对至少两个奇异值进行奇异值分解逆运算,以获取每一奇异值对应的语音信号即目标语音信号,以达到对数据进行降维的目的。最后,对目标语音信号进行还原处理,以获取目标语音信息,实现了语音增强的目的。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音增强方法的一应用环境图;

图2是本发明一实施例中语音增强方法的一流程图;

图3是图2中步骤s30的一具体流程图;

图4是图2中步骤s40的一具体流程图;

图5是图4中步骤s411的一具体流程图;

图6是图2中步骤s40的一具体流程图;

图7是本发明一实施例中语音增强装置的一示意图;

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供的语音增强方法,可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。

该语音增强方法具体可应用在银行、证券、保险等金融机构或者其他机构配置的计算机设备上,用于在语音识别过程中对语音信号进行语音增强,以提高识别的准确率。

在一个实施例中,如图2所示,以该语音增强方法应用于图1中的服务器为例进行说明,包括如下步骤:

s10:对原始语音信息进行转换,获取数字语音信号。

其中,原始语音信息是计算机设备中的录音模块(如麦克风)采集到的说话人的语音信息。该原始语音信息可以是wav、mp3或其他格式的语音信息。数字语音信号是指将原始语音信息进行转换所获取的离散数字信号。由于计算机设备是不能直接处理原始语音信息的,它只能处理二进制数据,因此需要将原始语音信息转换为数字语音信号。

具体地,服务器接收计算机设备发送的原始语音信息,并采用python模块中的读取音频文件的命令函数对该原始语音信息读取,获取数字语音信号。例如,该读取音频文件的命令函数可以为wave.open(file(原始语音信息),rb(读取文件操作)),通过该读取音频文件的命令函数对原始语音信息进行读取,获取到的音频文件的一维数组即为数字语音信号。python模块是一种由面向对象的解释型计算机程序设计语言编写的包含大量的封装函数的模块。本实施例中,采用python模块中的读取音频文件的命令函数直接读取原始语音信息,即可获取数字语音信号,实现简单。

综上,数字语音信号是对原始语音信息进行转换处理后获取到的一维数字信息,具体是采用python模块中的读取音频文件的命令函数直接读取原始语音信息所获取的一维数字信号。

s20:基于数字语音信号,获取汉克尔矩阵。

其中,数字语音信号是对原始语音信息进行转换处理后获取到的一维数字信息的一维数字信号。汉克尔矩阵(hankelmatrix)是指每一条副对角线上的元素都相等的方阵。

具体地,汉克尔矩阵具有如下表示形式:假设数字语音信号(一维数字信号序列)为x(i),长度为n,i=1,2,3…n,则

其中,n为矩阵元素数量。汉克尔矩阵中第j行的元素是通过上一行的元素左移一个元素形成的,使得汉克尔矩阵中每一条副对角线上的元素相等,即每一行中的元素与其左下角相邻的元素相等。右上角到左下角的对角线是副对角线。

本实施例中,需预先定义汉克尔矩阵的第一列元素和最后一行元素,以便确定汉克尔矩阵的行和列,根据这两个参数构建汉克尔矩阵,为后续进行奇异值分解运算提供技术支持。可以理解地,最后一行元素的首位元素与第一列元素的末位元素相同。例如,给定矩阵的第一列元素为a=(1,2,3,4),矩阵的最后一行元素b=(4,4.5,5.5),则基于这两个参数构建的汉克尔矩阵为

s30:对汉克尔矩阵进行奇异值分解运算处理,获取至少两个奇异值。

其中,奇异值分解(singularvaluedecomposition,简称svd分解)是线性代数中一种重要的矩阵分解,该奇异值分解运算处理能够有效对大批量数据进行降维,以减少运算量,节省运算时间。具体地,服务器对汉克尔矩阵进行奇异值分解会得到两个酉矩阵和一个半正定对角矩阵,半正定对角矩阵对角线上的值即为奇异值,奇异值一般含有n(n>2)个,按从大到小的顺序排列。奇异值可表征矩阵中隐含的重要信息,且重要性和奇异值大小正相关。可以理解地,奇异值越大,则该奇异值包含的数字语音信号的有效信息量越大;反之,奇异值越小,则该奇异值包含的数字语音信号的有效信息量越少,本实施例中认定包含越多的噪声。服务器通过对汉克尔矩阵进行奇异值分解运算处理,获取至少两个奇异值,能够直观的观察出奇异值中所包含的有效信息量的程度,便于进行降噪处理。

具体地,可将奇异值分解运算采用奇异值分解公式进行表示,即h=udv*,其中,u、v为两个酉矩阵,d为半正定对角矩阵。酉矩阵(unitarymatrix)是指满足矩阵中n个列向量是两两正交的单位向量的条件的矩阵,即酉矩阵的共轭转置和它的逆矩阵相等。设a是数域上的一个n阶方阵,若在相同数域上存在另一个n阶矩阵b,使得ab=ba=e(e为单位矩阵即从左上角到右下角的对角线上的元素均为1的n阶方阵),则称b是a的逆矩阵。共轭转置是指把矩阵转置后,再把矩阵中的每一个元素换成它的共轭复数。共轭复数是指两个实部相等,虚部互为相反数的复数。例如,z=a+bi(a,b∈r)中,z的共轭复数为zˊ=a-bi(a,b∈r)。半正定对角矩阵是指既是半正定矩阵又是对角矩阵的矩阵。半正定矩阵是对任何非零向量x,都有x'ax≥0,(x’表示x的转置)的n阶方阵,其中,a为半正定矩阵。对角矩阵是一个主对角线(从左上角到右下角的对角线)之外的元素皆为0的矩阵。

在一实施例中,如图3所示,步骤s30中,即对汉克尔矩阵进行奇异值分解运算处理,获取至少两个奇异值,具体包括如下步骤:

s31:计算汉克尔矩阵的转置矩阵。

其中,汉克尔矩阵的转置矩阵是指将汉克尔矩阵的所有元素绕着一条从第1行第1列元素出发的右下方45度的射线作镜面反转所得到的矩阵。例如,设汉克尔矩阵则汉克尔矩阵的转置矩阵通过获取汉克尔矩阵的转置矩阵为后续获取特征值提供技术支持。

s32:基于汉克尔矩阵和转置矩阵的乘积,获取至少两个特征值。

具体地,设a为汉克尔矩阵,at为转置矩阵,即可采用公式b=aat和b'=ata计算汉克尔矩阵和转置矩阵的乘积对应的矩阵b和矩阵b’,依据bx=mx进行计算即可获取至少两个特征值。若b是n阶方阵,如果存在实数m和非零n维列向量x,使得bx=mx等式成立,则称m是b的一个特征值,特征值反映了对矩阵进行变换的伸缩倍数,通过对矩阵进行伸缩变换,以实现对数据进行降维的目的。

具体地,若汉克尔矩阵汉克尔矩阵的转置矩阵则基于汉克尔矩阵和转置矩阵的乘积,获取至少两个特征值,具体包括如下过程:

(1)采用公式b=aat和b'=ata计算汉克尔矩阵和转置矩阵的乘积对应的矩阵b和矩阵b’,例如,采用公式b=aat计算得到通过公式b'=ata计算得到

(2)采用矩阵行列式的计算公式对矩阵b和矩阵b’进行处理,获取至少两个特征值。其中,矩阵行列式的计算公式为矩阵σ号表示对一切排列求和,τ表示排列k1k2…kn的逆序数,d称为矩阵的行列式。逆序数的计算公式为以b’为例,通过计算矩阵b’的矩阵行列式得到特征值λ1=3和λ2=1。

(3)通过公式bui=λiui和公式b'vi=λivi进行对至少两个特征值λi进行处理,获取与每一特征值对应的特征向量,其中,ui为与矩阵b的特征值对应的特征向量,vi为与矩阵b’的特征值对应的特征向量。服务器基于汉克尔矩阵和转置矩阵的乘积,获取特征值和特征向量,以实现数据降维的目的。

s33:按照预设计算方法对至少两个特征值进行运算,获取至少两个奇异值。

其中,预设计算方法是指预先定义的用于对特征值进行计算获取奇异值的计算方法。该预设计算方法包括采用公式对奇异值进行开方运算或者采用公式avi=σiui对至少两个特征值进行计算。

具体地,服务器采用公式对至少两个特征值进行开方运算,即可获取至少两个奇异值,其中,σi为奇异值,λi为特征值。服务器对特征值进开方运算,以获取奇异值的方法,计算简单,提高效率。

或者,服务器采用公式avi=σiui对至少两个特征值进行计算,获取至少两个奇异值。ui为与矩阵b的特征值对应的特征向量,vi为与矩阵b’的特征值对应的特征向量。

最终,基于奇异值σi、特征向量ui和特征向量vi,得到对汉克尔矩阵进行奇异值分解的表达式即h=udv*,其中,

本实施例中,先计算汉克尔矩阵的转置矩阵,以便基于汉克尔矩阵和转置矩阵的乘积,获取至少两个特征值,再基于获取到的特征值,对基于汉克尔矩阵和转置矩阵的乘积所得到的矩阵进行伸缩变换,以实现对数据进行降维的目的。最后,至少两个特征值进行开方运算,获取至少两个奇异值,该奇异值的获取方法计算简单,容易实现。

s40:对至少两个奇异值进行奇异值分解逆运算,获取目标语音信号。

其中,奇异值分解逆运算是指将每一个奇异值还原成半正定对角矩阵,并将该半正定对角矩阵与先前奇异值分解运算得到的两个酉矩阵进行相乘,以得到目标语音信息的运算。目标语音信号是通过对数字语音信号进行奇异值分解得到的去噪后的语音信号。具体地,服务器对至少两个奇异值进行奇异值分解逆运算,以获取每一奇异值对应的语音信号(即目标语音信号),以达到语音增强的目的。

在一实施例中,如图4所示,步骤s40中,即对至少两个奇异值进行奇异值分解逆运算,获取目标语音信号,具体包括如下步骤:

s411:对至少两个奇异值分别进行奇异值分解逆运算处理,获取每一奇异值对应的原始信号分量。

其中,原始信号分量是对至少两个奇异值分别进行奇异值分解逆运算处理所获取的信号分量。具体地,将每一奇异值还原(奇异值在矩阵中的位置不变)成半正定对角矩阵,并与先前奇异值分解运算得到的两个酉矩阵进行相乘,获取与每一奇异值对应的原始信号分量。

s412:将原始信号分量与数字语音信号进行相关性计算,获取相关性系数。

其中,相关性系数是对数字语音信号和第一信号分量进行相关性计算所获取的计算结果。第一相关性系数反映了数字语音信号和第一信号分量的相关程度,并且也反映了信号分量中包含有效信息量的程度。

具体地,相关性计算公式为其中,x为原始信号分量,y为数字语音信号,cov(x,y)为x与y的协方差,var[x]为x的方差,var[y]为y的方差,r为相关性系数。

其中,cov(x,y)的计算公式为:的计算公式为var[x]=e(x2)-e2(x);var[y]的计算公式为var[y]=e(y2)-e2(y);其中,e(x)表示原始信号分量的均值,e(y)表示数字语音信号的均值,n表示原始信号分量的数量,yj表示时间尺度上的第j个数字语音信号。xj表示同一时间尺度上的第j个原始信号分量。

s413:选取相关性系数大于预设阈值的原始信号分量,作为目标信号分量。

其中,预设阈值是预先定义好的用于筛选原始信号分量的阈值。目标信号分量是利用预设阈值对原始信号分量进行筛选操作后获取的原始信号分量。

由于相关性系数是0到1之间的实数,因此,该预设阈值的选取为0到1之间的实数。若相关性系数大于预设阈值,则表示该原始信号分量与数字语音信号的相关性大,原始信号分量中包含数字语音信号的有效信息量多。若相关性系数不大于预设阈值,则表示原始信号分量与数字语音信号的相关性小,原始信号分量中包含的有效信息量少,可默认为噪声。本实施例中,通过对原始信号分量进行筛选,以获取与数字语音信号的相关性较大的原始信号分量作为目标信号分量,以减少噪声干扰,达到语音增强的目的。并且,该原始信号分量的筛选方法实现简单,提高语音增强的效率。

s414:对目标信号分量进行线性叠加处理,获取目标语音信号。

具体地,服务器采用公式w=x1+x2+…xn对获取到的n个目标信号分量进行线性叠加,以获取目标语音信号,其中,w为目标语音信号,x为目标信号分量。

本实施例中,服务器先通过对每一奇异值分别进行奇异值分解逆运算处理,获取每一奇异值对应的原始信号分量,以便对原始信号分量与数字语音信号进行相关性计算,获取相关性系数,反映了数字语音信号和第一信号分量的相关程度,并且也反映了信号分量中包含有效信息量的程度。服务器再通过对每一原始信号分量进行筛选,以获取与数字语音信号的相关性较大的原始信号分量作为目标信号分量,以更细致的减少噪声干扰,达到语音增强的目的。最后,对目标信号分量进行线性叠加处理,获取目标语音信号,该获取目标语音信号的过程计算简单,容易实现,提高了语音增强的处理效率。

在一实施例中,如图5所示,步骤s411中,对至少两个奇异值分别进行奇异值分解逆运算处理,获取每一奇异值对应的原始信号分量,具体包括如下步骤:

s4111:基于奇异值,获取奇异值矩阵。

其中,奇异值矩阵是将每一奇异值在半正定对角矩阵中进行还原所获取的矩阵。具体地,服务器将每一奇异值在半正定对角矩阵中还原,以获取奇异值矩阵。本实施例中,对每一奇异值进行还原,以获取对应的奇异值矩阵可按照如下公式表示

其中,dn表示第n个奇异值对应的奇异值矩阵。

s4112:基于奇异值矩阵,获取每一奇异值对应的原始信号分量。

具体地,按照如下公式对每一奇异值矩阵进行运算,以获取与每一奇异值对应的原始信号分量。

h=udv*u和v*为两个两个酉矩阵,d为每一奇异值对应的奇异值矩阵,即d1、d2…dn,h为每一奇异值对应的原始信号分量,uik是由bui=λiui计算得到的第i个特征向量对应的矩阵。vik是由公式b'vi=λivi计算得到的第i个特征向量对应的矩阵。

本实施例中,先将每一奇异值在半正定对角矩阵中进行还原,以获取奇异值矩阵,然后将每一奇异值对应的奇异值矩阵与奇异值分解运算得到的两个酉矩阵进行相乘运算,以获取每一奇异值对应的原始信号分量,为后续对原始信号分量进行筛选获取目标信号分量提供技术支持。

在一实施例中,如图6所示,步骤s40中,即对至少两个所述奇异值进行奇异值分解逆运算,获取目标语音信息,具体包括如下步骤:

s421:计算至少两个奇异值的总和,将总和与预设阈值进行乘法运算,获取对应的评价阈值。其中,预设阈值为不大于1的正数。

其中,预设阈值是预先定义好的用于计算评价阈值的阈值。评价阈值是用于筛选奇异值的阈值。该预设阈值为不大于1的正数。具体地,计算所有奇异值的总和,然后将总和与预设阈值进行乘法运算,以获取评价阈值。即评价阈值的计算公式为:其中,t为预设阈值,p为评价阈值,σi为奇异值。

s422:将至少两个奇异值按从大到小的顺序进行线性叠加,获取叠加和值,若叠加和值大于评价阈值,则获取叠加和值对应的n项奇异值。其中,n为正整数。

具体地,奇异值是按照从大到小的顺序进行排列,因此按照奇异值从大到小顺序进行线性相加,获取叠加和值,若叠加和值大于评价阈值,则获取该叠加和值对应的n项奇异值,其中,n为正整数。可以理解地,按照奇异值从大到小顺序进行线性相加直至叠加的n项奇异值之和大于评价阈值,则停止叠加,以获取n项奇异值。由于奇异值越大,则该奇异值所包含的数字语音信号的有效信息量越大,反之,奇异值越小,则该奇异值所包含的数字语音信号的有效信息量越少,则认为主要包含了噪声。因此,服务器按照奇异值从大到小的顺序进行线性相加,直至叠加的n项奇异值的叠加和值大于评价阈值,并将剩余的m项奇异值去除,以减少噪声干扰。该奇异值筛选过程无需将每一奇异值进行分解逆运算,再进行相关性分析,直接根据评价阈值即可筛选出所需奇异值,操作简单,提高效率。

s423:对n项奇异值进行批量重构,获取目标语音信号。

其中,批量重构是指对n项奇异值进行批量还原处理以获取目标语音信息的方法。

具体地,对n项奇异值进行批量重构,获取目标语音信号的具体实现过程如下:将选取的n项奇异值在奇异值分解运算得到的原始半正定对角矩阵d中保留,大小位置不变,去除掉的奇异值(即代表噪声的奇异值)在半正定对角矩阵中大小归0,位置不变,以获取包含选取的n项奇异值的目标半正定对角矩阵m。然后,将目标半正定对角矩阵m代入上述奇异值分解公式中,u、v不变,得到新的汉克尔矩阵h',其中,h'=udnv*,将新的汉克尔矩阵h'按照汉克尔矩阵的性质(即每一条副对角线上的元素都相等的性质)进行展开,即可获取得到去噪后的语音信号,即本实施例中的目标语音信号。

综上,本实施例中,奇异值逆分解包括对每一奇异值进行逆分解或者对奇异值进行批量重构,以获取目标语音信号。

本实施例中,通过计算至少两个奇异值的总和,并将总和与预设阈值进行乘法运算,以获取评价阈值,以便将至少两个奇异值从大到小顺序进行线性相加直至叠加的n项奇异值之和大于评价阈值,则停止叠加,以获取n项奇异值,并将剩余的m项奇异值去除,以减少噪声干扰,达到语音增强的目的。最后,对n项奇异值进行批量重构,获取目标语音信号,该获取目标语音信号的过程可将选取的n项奇异值直接在奇异值分解运算得到的原始半正定对角矩阵d中还原,并与奇异值分解运算得到的两个酉矩阵进行相乘运算,以获取目标语音信号,通过批量重构的方式获取目标语音信号,提高目标语音信号的获取效率,进而提高语音增强的处理效率。

s50:对目标语音信号进行还原处理,获取目标语音信息。

其中,目标语音信息是对目标语音信号按照所需音频格式进行还原所获取的语音信息。进一步地,服务器可采用如下方法对矩阵形式的目标语音信号进行还原:先将汉克尔矩阵按对副角线元素进行展开,即可得到降噪后的一维数字信号,通过附加采样频率参数和一维数字信号,即可获取目标语音信息。其中,采样频率也称为采样速度或者采样率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(hz)来表示。

本实施例中,采用python模块中的读取音频文件的命令函数直接读取原始语音信息即可获取采样频率参数。具体地,python模块中有生成不同格式音频文件的函数,直接调用该函数并赋予采样频率参数和一维数字信号,即可生成需格式的目标语音信息。例如,可通过调用python模块中生成wav格式文件的函数wave,对获取到的采样频率参数和一维数字信号进行处理,生成wav格式的音频文件(即目标语音信息)。

本实施例中,先对原始语音信息进行转换,获取数字语音信号,将数字语音信号构建为汉克尔矩阵,以便对汉克尔矩阵进行奇异值分解运算处理,获取至少两个奇异值,奇异值可表征矩阵中隐含的重要信息,且重要性和奇异值大小正相关,可根据获取到奇异值,直观地观察出奇异值中所包含的有效信息量的程度。然后,服务器对至少两个奇异值进行奇异值分解逆运算,以获取每一奇异值对应的语音信号即目标语音信号,以抑制噪声干扰,实现语音增强。最后,对目标语音信号进行还原处理,以获取所需格式的音频文件即目标语音信息,该还原过程可直接调用python模块中的函数进行还原,操作简单。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

在一个实施例中,图7示出与上述实施例中语音增强方法一一对应的语音增强装置的示意图。如图7所示,该语音增强装置包括数字语音信号获取模块10、汉克尔矩阵获取模块20、奇异值获取模块30、目标语音信号获取模块40和目标语音信息获取模块。各功能模块详细说明如下:

数字语音信号获取模块10,用于对原始语音信息进行转换,获取数字语音信号。

汉克尔矩阵获取模块20,用于基于数字语音信号,获取汉克尔矩阵。

奇异值获取模块30,用于对汉克尔矩阵进行奇异值分解运算处理,获取至少两个奇异值。

目标语音信号获取模块40,用于对至少两个奇异值进行奇异值分解逆运算,获取目标语音信号。

目标语音信息获取模块50,用于对目标语音信号进行还原处理,获取目标语音信息。

具体地,奇异值获取模块30包括转置矩阵计算单元31、特征值获取单元32和奇异值获取单元33。

转置矩阵计算单元31,用于计算汉克尔矩阵的转置矩阵。

特征值获取单元32,用于基于汉克尔矩阵和转置矩阵的乘积,获取至少两个特征值。

奇异值获取单元33,用于按照预设计算方法对至少两个特征值进行运算,获取至少两个奇异值。

具体地,目标语音信号获取模块40包括原始信号分量获取单元411、相关性系数获取单元412、目标信号分量获取单元413和目标语音信号获取单元414。

原始信号分量获取单元411,用于对至少两个奇异值分别进行奇异值分解逆运算处理,获取每一奇异值对应的原始信号分量。

相关性系数获取单元412,用于将原始信号分量与数字语音信号进行相关性计算,获取相关性系数。

目标信号分量获取单元413,用于选取相关性系数大于预设阈值的原始信号分量,作为目标信号分量。

目标语音信号获取单元414,用于对目标信号分量进行线性叠加处理,获取目标语音信号。

具体地,原始信号分量获取单元411包括奇异值矩阵获取子单元4111和原始信号分量获取子单元4112。

奇异值矩阵获取子单元4111,用于基于奇异值,获取奇异值矩阵。

原始信号分量获取子单元4112,用于基于特征值和奇异值矩阵,获取每一奇异值对应的原始信号分量。

具体地,相关性计算公式为其中,x为原始信号分量,y为数字语音信号,cov(x,y)为x与y的协方差,var[x]为x的方差,var[y]为y的方差,r为相关性系数。

具体地,目标语音信号获取模块40包括评价阈值获取单元421、n项奇异值获取单元422和目标语音信号获取单元423。

评价阈值获取单元421,用于计算至少两个奇异值的总和,将总和与预设阈值进行乘法运算,获取对应的评价阈值。其中,预设阈值为不大于1的正数。

n项奇异值获取单元422,用于将至少两个奇异值按从大到小的顺序进行线性叠加,获取叠加和值,若叠加和值大于评价阈值,则获取叠加和值对应的n项奇异值;其中,n为正整数。

目标语音信号获取单元423,用于对n项奇异值进行批量重构,获取目标语音信号。

关于语音增强装置的具体限定可以参见上文中对于语音增强方法的限定,在此不再赘述。上述语音增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于用于存储执行语音增强方法过程中生成或获取的数据,如目标语音信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音增强方法。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:对原始语音信息进行转换,获取数字语音信号;基于数字语音信号,获取汉克尔矩阵;对汉克尔矩阵进行奇异值分解运算处理,获取至少两个奇异值;对至少两个奇异值进行奇异值分解逆运算,获取目标语音信号;对目标语音信号进行还原处理,获取目标语音信息。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:计算汉克尔矩阵的转置矩阵;基于汉克尔矩阵和转置矩阵的乘积,获取至少两个特征值;按照预设计算方法对至少两个特征值进行运算,获取至少两个奇异值。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:对至少两个奇异值分别进行奇异值分解逆运算处理,获取每一奇异值对应的原始信号分量;将原始信号分量与数字语音信号进行相关性计算,获取相关性系数;选取相关性系数大于预设阈值的原始信号分量,作为目标信号分量。

对目标信号分量进行线性叠加处理,获取目标语音信号。

具体地,相关性计算公式为其中,x为原始信号分量,y为数字语音信号,cov(x,y)为x与y的协方差,var[x]为x的方差,var[y]为y的方差,r为相关性系数。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于奇异值,获取奇异值矩阵;基于特征值和奇异值矩阵,获取每一奇异值对应的原始信号分量。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:计算至少两个奇异值的总和,将总和与预设阈值进行乘法运算,获取对应的评价阈值;其中,预设阈值为不大于1的正数。将至少两个奇异值按从大到小的顺序进行线性叠加,获取叠加和值,若叠加和值大于评价阈值,则获取叠加和值对应的n项奇异值;其中,n为正整数。对n项奇异值进行批量重构,获取目标语音信号。

在一个实施例中,提供了一种非易失性存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:对原始语音信息进行转换,获取数字语音信号;基于数字语音信号,获取汉克尔矩阵;对汉克尔矩阵进行奇异值分解运算处理,获取至少两个奇异值;对至少两个奇异值进行奇异值分解逆运算,获取目标语音信号;对目标语音信号进行还原处理,获取目标语音信息。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:计算汉克尔矩阵的转置矩阵;基于汉克尔矩阵和转置矩阵的乘积,获取至少两个特征值;按照预设计算方法对至少两个特征值进行运算,获取至少两个奇异值。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对至少两个奇异值分别进行奇异值分解逆运算处理,获取每一奇异值对应的原始信号分量;将原始信号分量与数字语音信号进行相关性计算,获取相关性系数;选取相关性系数大于预设阈值的原始信号分量,作为目标信号分量。

对目标信号分量进行线性叠加处理,获取目标语音信号。

具体地,相关性计算公式为其中,x为原始信号分量,y为数字语音信号,cov(x,y)为x与y的协方差,var[x]为x的方差,var[y]为y的方差,r为相关性系数。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于奇异值,获取奇异值矩阵;基于特征值和奇异值矩阵,获取每一奇异值对应的原始信号分量。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:计算至少两个奇异值的总和,将总和与预设阈值进行乘法运算,获取对应的评价阈值;其中,预设阈值为不大于1的正数。将至少两个奇异值按从大到小的顺序进行线性叠加,获取叠加和值,若叠加和值大于评价阈值,则获取叠加和值对应的n项奇异值;其中,n为正整数。对n项奇异值进行批量重构,获取目标语音信号。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1