语音视频的降噪方法、装置、存储介质和设备与流程

文档序号:29125684发布日期:2022-03-04 23:52阅读:141来源:国知局
语音视频的降噪方法、装置、存储介质和设备与流程

1.本技术涉及音频降噪领域,尤其涉及一种语音视频的降噪方法、装置、存储介质和设备。


背景技术:

2.随着科技的快速发展,提供人工智能的客服服务,即人工智能与用户进行语音视频交互,成为了当今人工智能行业的热点。在语音视频交互过程中,需要利用硬件设备采集用户的语音视频,并将语音视频传输给人工智能进行语音识别,得到用户需求,而后人工智能再根据用户需求提供相应的服务。受限于硬件设备和环境因素的影响,硬件设备所采集到的语音具有噪音,噪音会导致语音识别的结果出现偏差,从而给后续的服务带来不良影响。
3.为此,如何有效地对语音视频进行降噪,成为本领域亟需解决的问题。


技术实现要素:

4.本技术提供了一种语音视频的降噪方法、装置、存储介质和设备,目的在于提高语音视频的信噪比,实现对语音视频的有效降噪。
5.为了实现上述目的,本技术提供了以下技术方案:
6.一种语音视频的降噪方法,包括:
7.获取预设的深度摄像设备所采集的人物视频,以及获取预设的麦克风阵列所采集的多路音频信号;
8.基于所述人物视频,获取人体图像;
9.对所述人体图像进行人体姿态估计,得到人体头部坐标;
10.利用所述人体头部坐标,计算得到人体头部的方位角和俯仰角;
11.将所述方位角、所述俯仰角作为指向性因数,计算得出波束形成的超指向性;
12.依据所述波束形成的超指向性,对所述多路音频信号进行波束形成,得到波束;
13.对不归属于所述波束所属声源方向的音频信号进行删除,得到有效语音信号;
14.将所述有效语音信号和所述人物视频进行合成,得到语音视频。
15.可选的,所述人物视频包括各个深度图像帧;
16.所述基于所述人物视频,获取人体图像,包括:
17.对各个所述深度图像帧进行前景分割,得到每个所述深度图像帧的前景图像;
18.利用各个所述前景图像,对所述人物视频中的人体目标进行跟踪估计,得到人体图像。
19.可选的,所述人物视频包括深度图像帧序列;所述深度图像帧序列包括各个深度图像帧;各个所述深度图像帧按照生成时间由早到晚的顺序进行排序;
20.所述利用所述人体头部坐标,计算得到人体头部的方位角和俯仰角,包括:
21.对目标深度图像帧进行解析,得到深度距离;所述目标深度图像帧为:所述深度图
像帧序列中序位为最后一位的深度图像帧;所述深度距离用于指示人体所在平面到所述深度摄像设备的距离;
22.利用所述人体头部坐标和所述深度距离,计算得到人体头部的方位角和俯仰角。
23.可选的,所述将所述方位角、所述俯仰角作为指向性因数,计算得出波束形成的超指向性,包括:
24.从预设数据表中,获取与俯仰角对应的麦克风坐标系俯仰角;其中,所述麦克风坐标系俯仰角,基于所述深度摄像头的预设空间位置和所述麦克风阵列的预设空间位置计算得到;
25.将所述方位角、所述麦克风坐标系俯仰角作为指向性因数,计算得出波束形成的超指向性。
26.可选的,所述依据所述波束形成的超指向性,对所述多路音频信号进行波束形成,得到波束,包括:
27.对于每路所述音频信号,对所述音频信号进行预处理,得到目标信号;
28.生成所述目标信号的对数谱,并计算所述目标信号的对数谱与预设对数谱之间的对数谱偏差,得到目标数值;
29.在所述目标数值大于预设阈值的情况下,将所述目标信号标识为语音信号;
30.依据所述波束形成的超指向性,对各个所述语音信号进行波束形成,得到波束。
31.可选的,所述对于每路所述音频信号,对所述音频信号进行预处理,得到目标信号,包括:
32.对于每路所述音频信号,对所述音频信号进行滤波,得到有效音频信号;
33.对所述有效音频信号进行降采样处理,得到目标音频信号;
34.对所述目标音频信号进行子带分析,得到频域信号;
35.对所述频域信号进行回声消除,得到目标信号。
36.可选的,所述生成所述目标信号的对数谱,并计算所述目标信号的对数谱与预设对数谱之间的对数谱偏差,得到目标数值之后,还包括:
37.在所述目标数值不大于所述预设阈值的情况下,将所述目标信号标识为噪声信号。
38.一种语音视频的降噪装置,包括:
39.信号获取单元,用于获取预设的深度摄像设备所采集的人物视频,以及获取预设的麦克风阵列所采集的多路音频信号;
40.图像获取单元,用于基于所述人物视频,获取人体图像;
41.姿态估计单元,用于对所述人体图像进行人体姿态估计,得到人体头部坐标;
42.角度计算单元,用于利用所述人体头部坐标,计算得到人体头部的方位角和俯仰角;
43.指向性计算单元,用于将所述方位角、所述俯仰角作为指向性因数,计算得出波束形成的超指向性;
44.波束形成单元,用于依据所述波束形成的超指向性,对所述多路音频信号进行波束形成,得到波束;
45.信号过滤单元,用于对不归属于所述波束所属声源方向的音频信号进行删除,得
到有效语音信号;
46.视频合成单元,用于将所述有效语音信号和所述人物视频进行合成,得到语音视频。
47.一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序执行所述的语音视频的降噪方法。
48.一种语音视频的降噪设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
49.所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行述的语音视频的降噪方法。
50.本技术提供的技术方案,获取预设的深度摄像设备所采集的人物视频,以及获取预设的麦克风阵列所采集的多路音频信号。基于人物视频,获取人体图像。对人体图像进行人体姿态估计,得到人体头部坐标。利用人体头部坐标,计算得到人体头部的方位角和俯仰角。将方位角、俯仰角作为指向性因数,计算得出波束形成的超指向性。依据波束形成的超指向性,对多路音频信号进行波束形成,得到波束。对不归属于波束所属声源方向的音频信号进行删除,得到有效语音信号。将有效语音信号和人物视频进行合成,得到语音视频。基于本技术所示方案,基于从人物视频中获得的人体头部的方位角和俯仰角,计算波束形成的超指向性,并利用波束形成的超指向性对音频信号进行波束形成,得到波束,以及基于波束进一步确定有效语音信号,通过有效语音信号所合成得到语音视频的信噪比得到明显提高,从而实现对语音视频的有效降噪。
附图说明
51.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
52.图1a为本技术实施例提供的一种语音视频的降噪方法的流程示意图;
53.图1b为本技术实施例提供的一种语音视频的降噪方法的流程示意图;
54.图1c为本技术实施例提供的一种骨架模型示意图;
55.图2为本技术实施例提供的另一种语音视频的降噪方法的流程示意图;
56.图3为本技术实施例提供的一种语音视频的降噪装置的架构示意图。
具体实施方式
57.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
58.如图1a和图1b所示,为本技术实施例提供的一种语音视频的降噪方法的流程示意图,包括如下步骤:
59.s101:获取预设的深度摄像设备所采集的人物视频,以及获取预设的麦克风阵列
所采集的多路音频信号。
60.其中,人物视频包括深度图像帧序列,深度图像帧序列中的各个深度图像帧,按照生成时间由早到晚的顺序进行排序。深度摄像设备的工作原理,为本领域技术人员所熟悉的公知常识,这里不再赘述。
61.需要说明的是,本技术实施例所示的麦克风阵列,包括但不限于为多基元麦克风阵列。
62.s102:对各个深度图像帧进行前景分割,得到每个深度图像帧的前景图像。
63.其中,可以采用背景减除方法,对各个深度图像帧进行前景分割。具体的,所谓的背景减除方法,实质就是利用深度图像帧与未记录有用户人体姿态的背景图像进行差分,得到仅包含有人体目标(即用户的人体特征)的图像区域(即前景),其实现原理如公式(1)所示。
[0064][0065]
在公式(1)中,x代表图像,ib(x)代表未记录有人体姿态的深度图像(即背景图像),ic(x)代表深度图像帧,t代表预设的门限值。
[0066]
s103:利用各个前景图像,对人物视频中的人体目标进行跟踪估计,得到人体图像。
[0067]
其中,可以采用基于粒子滤波的目标跟踪方法,对人物视频中的人体目标进行跟踪估计。具体的,基于粒子滤波的目标跟踪方法的实现原理如下所示:
[0068]
1、将各个前景图像作为粒子,对粒子群进行初始化。
[0069]
具体的,将人体目标的初始位置设为x0,并在x0附近随机分布n个粒子。
[0070]
需要说明的是,人体目标的初始位置具体可以为第一深度图像帧的前景图像。所谓的第一深度图像帧,为深度图像帧序列中序位为首位的深度图像帧。
[0071]
2、对粒子的重要性进行采样。
[0072]
需要说明的是,人体目标会处于x1,x2…
xn等状态(x1,x2…
xn均代表前景图像),将每个xi视为一个粒子,一个粒子表示为中心目标在深度图像帧上的大小为宽高的图像块,每个深度图像帧中的信息是已知的,每个粒子可包括位置信息、颜色信息、边缘信息等,合为粒子当前时刻的状态,故根据深度图像帧的观测值z,可以得到粒子的概率分布情况p(zk|xk),k代表深度图像帧的索引。
[0073]
要想估计人体目标的准确位置x,需要计算周围粒子xi的重要性,当前粒子代表的目标图像块和原始目标的图像块相似度越高,该粒子的权重wi就越高,再根据将粒子和权重加权平均,得到人体目标的当前位置。具体的,根据将粒子和权重加权平均,得到人体目标的准确位置的实现过程,如公式(2)所示。
[0074]
x=x1*w1+x2*w1+...+xn*wnꢀꢀꢀ
(2)
[0075]
3、对粒子群中的所有粒子进行重采样。
[0076]
需要说明的是,粒子权重不同,深度图像帧的数量越多时,权重就会集中在小部分粒子上,进行下一步预测时,需要重置权重,让每个粒子同样重要,所有对粒子进行重采样,重新生成n个粒子x'1,x'2…
x'n,新粒子来源于原始粒子集x1,x2…
xn。
[0077]
4、对粒子群中的粒子进行更新。
[0078]
需要说明的是,进入下一帧时,状态转移,对粒子进行更新,从x'n变成x”n
,变换概率就是状态转移概率p(xk|x
k-1
)。更新后,假设人体目标的运动速度为v,则下一帧的人体目标为x”=x'+v+n,n代表图像随机噪声。
[0079]
5、依据预设的迭代次数,迭代预设步骤,得到人体图像。
[0080]
需要说明的是,预设步骤为:对粒子的重要性进行采样,以及对粒子群中的粒子进行更新。
[0081]
s104:对人体图像进行人体姿态估计,得到人体头部坐标。
[0082]
其中,人体姿态估计(human pose estimation,hpe)是在给定的图像(即人体图像)中对人体的关键部位或主要关节进行检测,最终输出人体全部或局部肢体相关参数(各个关节点的相对位置关系)的过程。
[0083]
目前,人体姿态估计研究方向可以分为三种:第一种是基于模型的人体姿态估计,该方法主要从搜索空间、人体结构、部位外观模型和推理方式方法四个方面进行研究;第二种是基于整体特征的人体姿态估计,该方法主要从提取图像特征和将特征定位到各个部位上的映射两方面进行研究;第三种是基于深度学习模型的人体姿态估计,该方法主要从利用深度学习模型提取图像特征和将特征定位到各个部位上的非线性映射两方面进行研究,即采用人体运动学模型所带来的人体形状和结构的先验知识,约束人体姿态的估计过程。
[0084]
需要说明的是,本技术实施例所采用的人体姿态估计方法为:基于深度学习模型的人体姿态估计。具体的,本技术实施例所采用的人体运动学模型可以为棍棒模型(俗称为骨架模型),由图1c所示的骨架模型可知,骨架模型为由一组相连接的线段构成的三维模型。骨架模型将人体各个关节抽象为点,躯干和四肢抽象为直线,各部位之间的位置关系由旋转角度确定,其获得的人体姿态参数为各个关节点的位置坐标及各个关节的旋转角度。
[0085]
一般来讲,利用骨架模型实现对人体图像的人体姿态估计,其实现原理如下所示:
[0086]
1、根据人体图像的轮廓、边缘、纹理等参数,将整个人体划分成不同区域的图像块,例如头、躯干、四肢等,从各个图像块中提取出人体的各个关节点位置,将各个关节点位置,作为人体姿态的初始参数。
[0087]
2、根据初始参数,在每个关节点可存在的空间中进行搜索,找到与人体图像最匹配的最优关节点位置。
[0088]
3、将最优关节点位置更新至初始参数中,得到更新参数,后续的人体姿态参数估计以更新参数作为参考。
[0089]
需要说明的是,为了进一步提高姿态估计的准确性,可利用人体运动的先验知识来约束人体姿态估计。运动学约束是指人体作为一个动态系统,运动必须符合的约束条件,包括人体各个关节点旋转角度范围等有关人体生理极限的约束,人体各个部分不能互相穿透交叉的物理约束,可以将人体状态空间进行裁剪,将空间分为合法空间和非法空间,缩小关节点的搜索范围。
[0090]
s105:对目标深度图像帧进行解析,得到深度距离。
[0091]
其中,目标深度图像帧为:深度图像帧序列中序位为最后一位的深度图像帧。深度距离用于指示人体所在平面到深度摄像设备的距离。
[0092]
s106:利用人体头部坐标和深度距离,计算得到人体头部的方位角和俯仰角。
[0093]
其中,方位角的计算过程如公式(3)所示,俯仰角的计算过程如公式(4)所示。
[0094][0095][0096]
在公式(3)和(4)中,θ代表方位角,x代表人体头部横坐标,d代表深度距离,y代表人体头部纵坐标,h代表深度摄像设备距离地面的高度。
[0097]
s107:从预设数据表中,获取与俯仰角对应的麦克风坐标系俯仰角。
[0098]
其中,麦克风坐标系俯仰角基于深度摄像头的预设空间位置和麦克风阵列的预设空间位置计算得到,具体的计算原理如下所示:
[0099]
1、依据深度摄像头所在位置作为坐标原点,建立摄像头坐标系,以及依据麦克风阵列所在位置作为坐标原点,建立麦克风坐标系。
[0100]
需要说明的是,在摄像头坐标系中,深度摄像头所在位置的坐标o1设为(0,0,0),麦克风阵列所在位置的坐标o2设为(δx,δy,δz)。
[0101]
2、以摄像头坐标系o1x1y1z1作为参考,假设人体的俯仰角为声源(xs,ys,zs)与坐标平面o1x1y1之间的夹角φ,且夹角φ的取值范围为[-90
°
,90
°
]。
[0102]
3、在[-90
°
,90
°
]的取值范围内,每间隔1
°
取一个夹角φ的值,得到一组夹角值φ1,φ2,...,φ
180
,φ
181
,并通过夹角值φ1,φ2,...,φ
180
,φ
181
,计算得出一组声源坐标(x
s1
,y
s2
,z
s1
),(x
s2
,y
s2
,z
s2
),...,(x
x181
,y
s181
,z
s181
)。
[0103]
需要说明的是,基于夹角值φ1对应计算得出(x
s1
,y
s2
,z
s1
),基于夹角值φ2对应计算得出(x
s2
,y
s2
,z
s2
),依此类推,基于夹角值φm对应计算得出(x
sm
,y
sm
,z
sm
),m=3,4,...,181。
[0104]
4、假设麦克风坐标系俯仰角为φ',φ'的计算公式如公式(5)所示。
[0105][0106]
5、将(x
s1
,y
s2
,z
s1
),(x
s2
,y
s2
,z
s2
),...,(x
x181
,y
s181
,z
s181
),依次代入公式(5)中,计算得出φ'1,φ'2,...,φ'
180
,φ'
181
,并将夹角φ与麦克风坐标系俯仰角φ'的对应关系,存储至预设数据表中。
[0107]
需要说明的是,夹角φ1与麦克风坐标系俯仰角φ'1对应,夹角φ2与麦克风坐标系俯仰角φ'2对应,依次类推,夹角φm与麦克风坐标系俯仰角φ'm对应。
[0108]
6、对于取值范围[-90
°
,90
°
]之外的夹角φ,其对应的麦克风坐标系俯仰角,则通过对麦克风阵列俯仰角进行线性差值拟合计算得到。
[0109]
需要说明的是,麦克风阵列俯仰角具体可为|φ'1,φ'2,...,φ'
180
,φ'
181
|。另外,对麦克风阵列俯仰角进行线性差值拟合,其实现方式为本领域技术人员所熟悉的公知常识,这里不再赘述。此外,对于与取值范围[-90
°
,90
°
]之外的夹角φ对应的麦克风阵列俯仰角,也将存储至预设数据表中。
[0110]
s108:对于每路音频信号,对音频信号进行滤波,得到有效音频信号。
[0111]
其中,对音频信号进行滤波,目的是为了去除音频信号中的直流分量。
[0112]
s109:对有效音频信号进行降采样处理,得到目标音频信号。
[0113]
其中,对有效音频信号进行降采样处理的具体实现方式,为本领域技术人员所熟悉的公知常识,这里不再赘述。
[0114]
s110:对目标音频信号进行子带分析,得到频域信号。
[0115]
其中,目标音频信号的类型为时域信号,对目标音频信号进行子带分析,目的是为了将时域信号变换到子带域,得到与该时域信号对应的频域信号。
[0116]
需要说明的是,对目标音频信号进行子带分析的具体实现方式,为本领域技术人员所熟悉的公知常识,这里不再赘述。
[0117]
s111:对频域信号进行回声消除,得到目标信号。
[0118]
其中,由于语音视频交互是双向的,为此,麦克风阵列还会对外播放语音,从而产生回声,如此一来,麦克风阵列所采集的音频信号中无可避免地会包含有回声,因此,对频域信号进行回声消除,消除音频信号中的回声。
[0119]
s112:生成目标信号的对数谱,并计算目标信号的对数谱与预设对数谱之间的对数谱偏差,得到目标数值。
[0120]
其中,生成目标信号的对数谱的具体实现方式,为本领域技术人员所熟悉的公知常识,这里不再赘述。
[0121]
需要说明的是,预设对数谱为噪声信号的对数谱,并且,目标信号的对数谱与预设对数谱之间的对数谱偏差的计算过程,为本领域技术人员所熟悉的公知常识,这里不再赘述。
[0122]
s113:在目标数值大于预设阈值的情况下,将目标信号标识为语音信号。
[0123]
其中,若目标数值不大于预设阈值,则将目标信号标识为噪声信号。
[0124]
s114:将方位角、与俯仰角对应的麦克风坐标系俯仰角作为指向性因数,计算得出波束形成的超指向性。
[0125]
其中,麦克风阵列之所以能够分辨方位不同的声音,是因为麦克风阵列对不同方向入射的平面波(即波束)具有不同的响应,这种响应称为指向性。对于麦克风阵列而言,如何定量地衡量波束指向性的优劣,需要定义一个用于评估波束形成的指向性优劣的指标函数,即所谓的指向性因数(directivity factor,df)。在本技术实施例中,指向性因数的表达式如公式(6)所示。
[0126][0127]
在公式(6)中,pb(θ0,φ0)代表所有方向入射平面波(即波束)的功率响应,pb(θ,φ)代表不用方向入射波束的功率响应,θ0代表方位角,φ0代表与俯仰角对应的麦克风坐标系俯仰角。
[0128]
对于公式(6)而言,取等号右端最大即可得到波束形成的超指向性的解(即波束形成的最优指向性),并等效看作为在分子为1的条件下分母最小,具体的,可参见公式(7)所示。
[0129][0130]
在公式(7)中,α代表保证期望方向波束输出不失真的参数,ρn代表预设的噪声互谱矩阵。
[0131]
s115:依据波束形成的超指向性,对各个语音信号进行波束形成,得到波束。
[0132]
其中,依据波束形成的超指向性,对各个语音信号进行波束形成,其实现原理为:
[0133]
1、依据波束形成的超指向性,设置波束的加权向量。
[0134]
在本技术实施例中,波束的加权向量的表达式,具体可记为w(θ0,φ0)=[w0(θ0,φ0),w1(θ1,φ1),...,w
m-1
(θ0,φ0)]
t

[0135]
需要说明的是,在加权向量的表达式中,(θ0,φ0)代表波束期望方向(即波束形成的超指向性),w代表加权向量,w0,w1,...,w
m-1
代表不同波束的加权向量。对于常用的延迟求和波束形成方法,波束的加权向量还可记为w(θ0,φ0)=p(θ0,φ0)/m。一般来讲,m代表波束的数量。
[0136]
2、依据波束的加权向量,对各个语音信号进行加权求和,得到波束。
[0137]
需要说明的是,对各个语音信号进行加权求和,其具体实现过程如公式(8)所示。
[0138]
y(f)=wh(θ0,φ0)x(f)=wh(θ0,φ0)[xs(f)+xn(f)]
ꢀꢀꢀ
(8)
[0139]
在公式(8)中,y(f)代表波束,wh(θ0,φ0)代表加权向量,x(f)代表多路音频信号,xs(f)代表语音信号,xn(f)代表噪声信号。
[0140]
s116:对不归属于波束所属声源方向的音频信号进行删除,得到有效语音信号。
[0141]
其中,由于麦克风阵列能够感知每路音频信号的声源方向,为此,对于不归属于波束所属声源方向的音频信号也是能够区分的,将不归属于波束所属声源方向的音频信号进行删除,能够过滤掉麦克风阵列中所采集到噪声信号,得到有效语音信号,从而提高语音视频的信噪比,实现对语音视频的有效降噪。
[0142]
s117:将有效语音信号和人物视频进行合成,得到语音视频,并将语音视频发送给人工智能。
[0143]
综上所述,基于本实施例所示方案,基于从人物视频中获得的人体头部的方位角和俯仰角,计算波束形成的超指向性,并利用波束形成的超指向性对音频信号进行波束形成,得到波束,以及基于波束进一步确定有效语音信号,通过有效语音信号所合成得到语音视频的信噪比得到明显提高,从而实现对语音视频的有效降噪。
[0144]
需要说明的是,上述实施例提及的s109,为本技术所述语音视频的降噪方法的一种可选的实现方式。此外,上述实施例提及的s110,也为本技术所述语音视频的降噪方法的一种可选的实现方式。为此,上述实施例提及的流程可以概括为图2所示的方法。
[0145]
如图2所示,为本技术实施例提供的另一种语音视频的降噪方法的流程示意图,包括如下步骤:
[0146]
s201:获取预设的深度摄像设备所采集的人物视频,以及获取预设的麦克风阵列所采集的多路音频信号。
[0147]
s202:基于人物视频,获取人体图像。
[0148]
s203:对人体图像进行人体姿态估计,得到人体头部坐标。
[0149]
s204:利用人体头部坐标,计算得到人体头部的方位角和俯仰角。
[0150]
s205:将方位角、俯仰角作为指向性因数,计算得出波束形成的超指向性。
[0151]
s206:依据波束形成的超指向性,对多路音频信号进行波束形成,得到波束。
[0152]
s207:对不归属于波束所属声源方向的音频信号进行删除,得到有效语音信号。
[0153]
s208:将有效语音信号和人物视频进行合成,得到语音视频。
[0154]
综上所述,基于本实施例所示方案,基于从人物视频中获得的人体头部的方位角和俯仰角,计算波束形成的超指向性,并利用波束形成的超指向性对音频信号进行波束形成,得到波束,以及基于波束进一步确定有效语音信号,通过有效语音信号所合成得到语音视频的信噪比得到明显提高,从而实现对语音视频的有效降噪。
[0155]
与上述本技术实施例提供的语音视频的降噪方法相对应,本技术实施例还提供了一种语音视频的降噪装置。
[0156]
如图3所示,为本技术实施例提供的一种语音视频的降噪装置的架构示意图,包括:
[0157]
信号获取单元100,用于获取预设的深度摄像设备所采集的人物视频,以及获取预设的麦克风阵列所采集的多路音频信号。
[0158]
其中,人物视频包括深度图像帧序列;深度图像帧序列包括各个深度图像帧;各个深度图像帧按照生成时间由早到晚的顺序进行排序。
[0159]
图像获取单元200,用于基于人物视频,获取人体图像。
[0160]
其中,图像获取单元200具体用于:对各个深度图像帧进行前景分割,得到每个深度图像帧的前景图像;利用各个前景图像,对人物视频中的人体目标进行跟踪估计,得到人体图像。
[0161]
姿态估计单元300,用于对人体图像进行人体姿态估计,得到人体头部坐标。
[0162]
角度计算单元400,用于利用人体头部坐标,计算得到人体头部的方位角和俯仰角。
[0163]
其中,角度计算单元400具体用于:对目标深度图像帧进行解析,得到深度距离;目标深度图像帧为:深度图像帧序列中序位为最后一位的深度图像帧;深度距离用于指示人体所在平面到深度摄像设备的距离;利用人体头部坐标和深度距离,计算得到人体头部的方位角和俯仰角。
[0164]
指向性计算单元500,用于将方位角、俯仰角作为指向性因数,计算得出波束形成的超指向性。
[0165]
其中,指向性计算单元500具体用于:从预设数据表中,获取与俯仰角对应的麦克风坐标系俯仰角;其中,麦克风坐标系俯仰角,基于深度摄像头的预设空间位置和麦克风阵列的预设空间位置计算得到;将方位角、麦克风坐标系俯仰角作为指向性因数,计算得出波束形成的超指向性。
[0166]
波束形成单元600,用于依据波束形成的超指向性,对多路音频信号进行波束形成,得到波束。
[0167]
其中,波束形成单元600具体用于:对于每路音频信号,对音频信号进行预处理,得到目标信号;生成目标信号的对数谱,并计算目标信号的对数谱与预设对数谱之间的对数谱偏差,得到目标数值;在目标数值大于预设阈值的情况下,将目标信号标识为语音信号;依据波束形成的超指向性,对各个语音信号进行波束形成,得到波束。
[0168]
波束形成单元600具体用于:对于每路音频信号,对音频信号进行滤波,得到有效音频信号;对有效音频信号进行降采样处理,得到目标音频信号;对目标音频信号进行子带分析,得到频域信号;对频域信号进行回声消除,得到目标信号。
[0169]
波束形成单元600还用于:在目标数值不大于预设阈值的情况下,将目标信号标识为噪声信号。
[0170]
信号过滤单元700,用于对不归属于波束所属声源方向的音频信号进行删除,得到有效语音信号。
[0171]
视频合成单元800,用于将有效语音信号和人物视频进行合成,得到语音视频。
[0172]
综上所述,基于本实施例所示方案,基于从人物视频中获得的人体头部的方位角和俯仰角,计算波束形成的超指向性,并利用波束形成的超指向性对音频信号进行波束形成,得到波束,以及基于波束进一步确定有效语音信号,通过有效语音信号所合成得到语音视频的信噪比得到明显提高,从而实现对语音视频的有效降噪。
[0173]
本技术还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,程序执行上述本技术提供的语音视频的降噪方法。
[0174]
本技术还提供了一种语音视频的降噪设备,包括:处理器、存储器和总线。处理器与存储器通过总线连接,存储器用于存储程序,处理器用于运行程序,其中,程序运行时执行上述本技术提供的语音视频的降噪方法,包括如下步骤:
[0175]
获取预设的深度摄像设备所采集的人物视频,以及获取预设的麦克风阵列所采集的多路音频信号;
[0176]
基于所述人物视频,获取人体图像;
[0177]
对所述人体图像进行人体姿态估计,得到人体头部坐标;
[0178]
利用所述人体头部坐标,计算得到人体头部的方位角和俯仰角;
[0179]
将所述方位角、所述俯仰角作为指向性因数,计算得出波束形成的超指向性;
[0180]
依据所述波束形成的超指向性,对所述多路音频信号进行波束形成,得到波束;
[0181]
对不归属于所述波束所属声源方向的音频信号进行删除,得到有效语音信号;
[0182]
将所述有效语音信号和所述人物视频进行合成,得到语音视频。
[0183]
具体的,在上述实施例的基础上,所述人物视频包括各个深度图像帧;
[0184]
所述基于所述人物视频,获取人体图像,包括:
[0185]
对各个所述深度图像帧进行前景分割,得到每个所述深度图像帧的前景图像;
[0186]
利用各个所述前景图像,对所述人物视频中的人体目标进行跟踪估计,得到人体图像。
[0187]
具体的,在上述实施例的基础上,所述人物视频包括深度图像帧序列;所述深度图像帧序列包括各个深度图像帧;各个所述深度图像帧按照生成时间由早到晚的顺序进行排序;
[0188]
所述利用所述人体头部坐标,计算得到人体头部的方位角和俯仰角,包括:
[0189]
对目标深度图像帧进行解析,得到深度距离;所述目标深度图像帧为:所述深度图像帧序列中序位为最后一位的深度图像帧;所述深度距离用于指示人体所在平面到所述深度摄像设备的距离;
[0190]
利用所述人体头部坐标和所述深度距离,计算得到人体头部的方位角和俯仰角。
[0191]
具体的,在上述实施例的基础上,所述将所述方位角、所述俯仰角作为指向性因数,计算得出波束形成的超指向性,包括:
[0192]
从预设数据表中,获取与俯仰角对应的麦克风坐标系俯仰角;其中,所述麦克风坐标系俯仰角,基于所述深度摄像头的预设空间位置和所述麦克风阵列的预设空间位置计算得到;
[0193]
将所述方位角、所述麦克风坐标系俯仰角作为指向性因数,计算得出波束形成的超指向性。
[0194]
具体的,在上述实施例的基础上,所述依据所述波束形成的超指向性,对所述多路音频信号进行波束形成,得到波束,包括:
[0195]
对于每路所述音频信号,对所述音频信号进行预处理,得到目标信号;
[0196]
生成所述目标信号的对数谱,并计算所述目标信号的对数谱与预设对数谱之间的对数谱偏差,得到目标数值;
[0197]
在所述目标数值大于预设阈值的情况下,将所述目标信号标识为语音信号;
[0198]
依据所述波束形成的超指向性,对各个所述语音信号进行波束形成,得到波束。
[0199]
具体的,在上述实施例的基础上,所述对于每路所述音频信号,对所述音频信号进行预处理,得到目标信号,包括:
[0200]
对于每路所述音频信号,对所述音频信号进行滤波,得到有效音频信号;
[0201]
对所述有效音频信号进行降采样处理,得到目标音频信号;
[0202]
对所述目标音频信号进行子带分析,得到频域信号;
[0203]
对所述频域信号进行回声消除,得到目标信号。
[0204]
具体的,在上述实施例的基础上,所述生成所述目标信号的对数谱,并计算所述目标信号的对数谱与预设对数谱之间的对数谱偏差,得到目标数值之后,还包括:
[0205]
在所述目标数值不大于所述预设阈值的情况下,将所述目标信号标识为噪声信号。
[0206]
本技术实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本技术实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
[0207]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
[0208]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1