说话人定位方法、装置及设备与流程

文档序号:32421065发布日期:2022-12-02 23:01阅读:57来源:国知局
说话人定位方法、装置及设备与流程

1.本技术涉及语音处理技术领域,具体涉及说话人定位方法和装置,会议终端。


背景技术:

2.说话人定位在语音通信中的应用非常广泛,如用于波束成形进行高质量拾音,用于距离估计进行视频缩放等。音视频通信系统对于多说话人的声源定位一直都是业界亟需解决的难题之一。
3.定位信息中的重要指标包括声源的方向角度(direction-of-arrival,doa)和声源的距离(distance)。通常而言,由于假设麦克风阵列采集到的语音信号来自远场模型,因此更多关注doa估计问题。目前,doa估计主要采用基于空间谱估计(如多信号分类法music、可控波束响应srp-phat)等。相较于doa估计,声源距离估计在行业里得到的关注并不多。
4.然而,发明人发现现有方案至少存在如下问题:基于近端信号传输模型对doa估计方案改进的估计方式,并不能较好地兼顾doa角度估计。尤其是目前的doa估计大多基于全指向式麦克风阵列,未考虑指向式麦克风的应用。


技术实现要素:

5.本技术提供说话人定位方法,以解决现有技术存在的无法较好兼顾说话人方向和距离、且无法兼容不同类型麦克风的问题。本技术另外提供说话人定位装置,会议终端。
6.本技术提供一种说话人定位方法,包括:
7.通过麦克风阵列,采集多路声音信号;
8.将声源范围划分为多个声源位置;
9.根据麦克风阵列形态信息和所述声源位置,获取所述声源位置到各麦克风位置的声音信号传输因子;
10.根据所述传输因子、声源信号和所述多路声音信号,形成声音信号传输模型;
11.根据所述传输模型,从所述多个声源位置中选取至少一个目标声源位置,所述目标声源位置包括说话人的方向信息和距离信息。
12.可选的,所述麦克风阵列为全向麦克风阵列;所述根据麦克风阵列形态信息和所述声源位置,获取所述声源位置到各麦克风位置的声音信号传输因子,包括:
13.根据麦克风阵列形态信息和所述声源位置,获取所述声源位置和所述麦克风位置之间的角度信息;
14.根据所述角度信息,获取所述声源位置和所述麦克风位置之间的距离信息;
15.根据所述声源位置和所述麦克风位置之间的距离信息,获取声源信号传播到所述麦克风位置的衰减信息和相移信息;
16.根据所述衰减信息和相移信息形成所述声音信号传输因子。
17.可选的,所述麦克风阵列为指向性麦克风阵列;所述根据麦克风阵列形态信息和所述声源位置,获取所述声源位置到各麦克风位置的声音信号传输因子,包括:
18.根据麦克风阵列形态信息和所述声源位置,获取所述声源位置和所述麦克风位置之间的角度信息;
19.根据所述角度信息,获取所述声源位置和所述麦克风位置之间的距离信息;
20.根据所述声源位置和所述麦克风位置之间的距离信息,获取声源信号传播到所述麦克风位置的衰减信息和相移信息;
21.根据所述角度信息,获取所述声源位置和所述麦克风位置之间的幅值响应信息;
22.根据所述衰减信息、相移信息和幅值响应信息,获取所述声音信号传输因子。
23.可选的,还包括:
24.获取麦克风的噪声信号;
25.所述根据所述传输因子、声源信号和所述多路声音信号,形成声音信号传输模型,包括:
26.将所述传输因子和声源信号的乘积作为衰减后的声源信号;
27.将所述多路声音信号为多个衰减后的声源信号与所述噪声信号的和作为所述声音信号传输模型。
28.可选的,所述根据所述传输模型,从所述多个声源位置中选取至少一个目标声源位置,包括:
29.将所述传输模型作为说话人定位的先验知识,将声源信号作为潜在变量,通过稀疏贝叶斯学习方式,从所述多个声源位置中选取至少一个目标声源位置。
30.可选的,所述通过稀疏贝叶斯学习方式,从所述多个声源位置中选取至少一个目标声源位置,包括:
31.采用最大期望算法,通过稀疏贝叶斯学习方式,从所述多个声源位置中选取至少一个目标声源位置息。
32.可选的,所述通过稀疏贝叶斯学习方式,从所述多个声源位置中选取至少一个目标声源位置,包括:
33.通过稀疏贝叶斯学习方式,从所述多个声源位置中选取三维空间谱中的至少一个第一目标声源位置;
34.将所述三维空间谱中的目标声源位置映射到二维空间频谱,以得到二维空间谱中的至少一个第二目标声源位置。
35.可选的,所述声音信号包括多说话人的声音信号。
36.本技术还提供一种说话人定位装置,包括:
37.信号采集单元,用于通过麦克风阵列,采集多路声音信号;
38.声源范围划分单元,用于将声源范围划分为多个声源位置;
39.传输因子获取单元,用于根据麦克风阵列形态信息和所述声源位置,获取所述声源位置到各麦克风位置的声音信号传输因子;
40.传输模型获取单元,用于根据所述传输因子、声源信号和所述多路声音信号,形成声音信号传输模型;
41.联合估计单元,用于根据所述传输模型,从所述多个声源位置中选取至少一个目标声源位置,所述目标声源位置包括说话人的方向信息和距离信息。本技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得
计算机执行上述各种方法。
42.本技术还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
43.与现有技术相比,本技术具有以下优点:
44.本技术实施例提供的说话人定位方法,通过麦克风阵列,采集多路声音信号;将声源范围划分为多个声源位置;根据麦克风阵列形态信息和所述声源位置,获取所述声源位置到各麦克风位置的声音信号传输因子;根据所述传输因子、声源信号和所述多路声音信号,形成声音信号传输模型;根据所述传输模型,从所述多个声源位置中选取至少一个目标声源位置,所述目标声源位置包括说话人的方向信息和距离信息。采用这种处理方式,使得能够联合估计多说话人场景中的说话人方向和距离,避免单独优化说话人方向或者距离,因此可以较好兼顾说话人方向和距离,并同时兼容不同麦克风指向性和多说话人定位场景。
附图说明
45.图1本技术提供的说话人定位方法的实施例的流程示意图;
46.图2本技术提供的说话人定位方法的实施例的声音信号传输示意图;
47.图3本技术提供的说话人定位方法的实施例的稀疏贝叶斯学习示意图;
48.图4本技术提供的说话人定位方法的实施例的空间频谱映射示意图。
具体实施方式
49.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
50.在本技术中,提供了说话人定位方法和装置,会议终端。在下面的实施例中逐一对各种方案进行详细说明。
51.第一实施例
52.请参看图1,其为本技术的说话人定位方法的实施例的流程示意图。在本实施例中,所述方法可包括如下步骤:
53.步骤s101:通过麦克风阵列,采集多路声音信号。其中,所述多路声音信号包括两路或两路以上的声音信号。
54.所述方法可应用在音视频会议系统中的会议终端设备中,适于对两个或两个以上具有不同位置的多人进行定位或区分。音视频会议系统通过会议终端及传输线路等,将两个或两个以上不同位置的个人或群体的声音、影像及文件资料进行互传,实现即时且互动的沟通,以实现高效和即时会议沟通。
55.在单一说话人场景中,声源定位只需要确定说话人方向(doa,波达方向/角度)即可。在多说话人场景中,可能在同一个角度上有两个声源,这个时候就需要距离的信息(前后),基于距离信息可在多说话场景中实现更精确的声源定位。本技术实施例提供的方法,能够联合估计多个近场声源的到达方向(doa)和距离。
56.所述会议终端,包括麦克风阵列。通过麦克风阵列,可采集本地会场的声音信号,
麦克风阵列可采集到多路声音信号。从麦克风类型角度而言,麦克风阵列可以是由全向麦克风组成的阵列,也可以是由指向性麦克风组成的阵列。从阵列形状角度而言,麦克风阵列可以是线性阵列或者是圆形阵列,也可以是不规则形状的阵列。
57.麦克风指向性用于表示麦克风对来自空间各个方向声音灵敏度模式,是麦克风的一个重要属性。例如,对于一般全指向式(omnidirectional),其对于来自不同角度的声音具有相同的灵敏度,而对于心型指向(cardioid),超心型指向(hypercardioid),双指向式(bi-directional)等其它类型麦克风,对于来自不同角度的声音的灵敏度各不相同。
58.步骤s103:将声源范围划分为多个声源位置。
59.本技术实施例提供的方法要联合估计多说话人的方向信息和距离信息,需要将声源范围离散为多个潜在声源位置,然后可从多个潜在声源位置中确定出至少一个目标声源位置,即多个说话人的方向信息和距离信息。
60.在本实施例中,近场声源信号带有距离信息,将近场声源范围划分为多个潜在声源位置,如将距离麦克风阵列距离5至6米左右的范围空间划分为几百个潜在声源位置,可记为,其中k表示划分的潜在声源位置的数量,如k=640表示将声源范围划分为640个声源位置,后续步骤将从这640个潜在声源位置中确定出至少一个目标声源位置。
61.具体实施时,可以采用任意方式将声源范围划分为多个声源位置,如划分为多个面积较小的长方形,选取长方形中的某个位置(如中点)作为该长方形代表的声源位置,或者是划分为其它能密铺的图形,如三角形或者正六边形等。
62.步骤s103:根据麦克风阵列形态信息和所述声源位置,获取所述声源位置到各麦克风位置的声音信号传输因子。
63.所述传输因子与声源位置到麦克风位置之间的传输路径有关。传输路径包括声源位置和麦克风位置之间的距离和角度。同一声源位置到麦克风阵列中的不同麦克风的传输路径与麦克风阵列形态有关。以线性指向性麦克风阵列为例,阵列形态信息可包括麦克风之间的距离,麦克风指向方向可以是垂直于阵列指向一侧。以圆形指向性麦克风阵列为例,麦克风阵列形态数据可包括圆形阵列半径r、麦克风与麦克风阵列水平方向之间的夹角此外,传输因子的参数还可以是声源标识,通过声源标识可覆盖多声源场景。
64.在一个示例中,所述麦克风阵列为全向麦克风阵列,所述传输因子表示信号传播期间的衰减和相移。步骤s105可包括如下子步骤:
65.步骤s201:根据麦克风阵列形态信息和所述声源位置,获取所述声源位置和所述麦克风位置之间的角度信息。
66.在本实施例中,麦克风阵列可由多个(如2m+1个)麦克风组成,麦克风之间的距离为d,如图2所示,将中间位置的麦克风作为参考麦克风,第i个声源位置和参考麦克风之间的距离为ri,角度为θi,第m个麦克风与参考麦克风之间的距离为md,第i个声源位置和第m个麦克风之间的角度信息可采用如下公式表示:
[0067][0068]
步骤s203:根据所述角度信息,获取所述声源位置和所述麦克风位置之间的距离信息。
[0069]
在本实施例中,第i个声源位置和第m个麦克风之间的距离信息可采用如下公式表示:
[0070][0071]
步骤s205:根据所述声源位置和所述麦克风位置之间的距离信息,获取声源信号传播到所述麦克风位置的衰减信息和相移信息。
[0072]
步骤s207:根据所述衰减信息和相移信息形成所述声音信号传输因子。
[0073]
在本实施例中,第i个声源位置到第m个麦克风的声音信号传输因子可采用如下公式表示:
[0074][0075]
其中表示衰减信息,表示相移信息。
[0076]
在一个示例中,所述麦克风阵列为指向性麦克风阵列,所述传输因子不仅表示信号传播期间的衰减和相移,还表示麦克风指向性引起的幅值响应。步骤s105可包括如下子步骤:
[0077]
步骤s301:根据麦克风阵列形态信息和所述声源位置,获取所述声源位置和所述麦克风位置之间的角度信息。
[0078]
步骤s303:根据所述角度信息,获取所述声源位置和所述麦克风位置之间的距离信息。
[0079]
步骤s305:根据所述声源位置和所述麦克风位置之间的距离信息,获取声源信号传播到所述麦克风位置的衰减信息和相移信息。
[0080]
步骤s307:根据所述角度信息,获取所述声源位置和所述麦克风位置之间的幅值响应信息。
[0081]
在本实施例中,第i个声源位置和第m个麦克风之间的幅值响应信息可采用如下公式表示:
[0082][0083]
其中α是麦克风形状参数,α=1表示全向麦克风,而0《α《1表示指向性麦克风。
[0084]
步骤s309:根据所述衰减信息、相移信息和幅值响应信息,获取所述声音信号传输因子。
[0085]
在本实施例中,传输因子包含麦克风指向性引起的幅值响应以及传输过程中的相位和衰减,第i个声源位置到第m个麦克风的声音信号传输因子可采用如下公式表示:
[0086]hm,i
=g
m,iam,i
[0087]
由上述公式可见,传输因子可涵盖声源的波达方向(θi)、距离(ri)、声源个数、麦克风指向性关联参数等。
[0088]
在本实施例中,将近场范围离散为k个潜在源位置展开的传输因子矩阵和声源信号矩阵可以分别表示为:
[0089][0090][0091]
其中,h是2m+1(麦克风数量)行、k(划分声源位置的数量)列的传输因子矩阵,是一个i行稀疏矩阵,对于每个其非零行分别为
[0092]
步骤s107:根据所述传输因子、声源信号和所述多路声音信号,形成声音信号传输模型。
[0093]
所述声音信号传输模型是指麦克风采集的声音信号与多个声源信号之间的关系,可与多个声源分别到各个麦克风之间的传输因子相关。
[0094]
在一个示例中,步骤s107可采用如下方式实现:将所述传输因子和声源信号的乘积作为衰减后的声源信号;将所述多路声音信号为多个衰减后的声源信号的和作为所述声音信号传输模型。对于声音信号传输的建模(所述声音信号传输模型)可采用如下公式:
[0095][0096]
在另一个示例中,步骤s107可采用如下方式实现:将所述传输因子和声源信号的乘积作为衰减后的声源信号;将所述多路声音信号为多个衰减后的声源信号与所述噪声信号的和作为所述声音信号传输模型。对于声音信号传输的建模(所述声音信号传输模型)可采用如下公式:
[0097][0098]
在不考虑稀疏声源信号矩阵中零行的情况下,对于声音信号传输的建模(所述声音信号传输模型)可采用如下公式:
[0099][0100]
在该公式中,n为时间轴,取值范围从1到第n个时刻;i为声源数量。xm表示第m个麦克风采集的声音信号(即步骤s01采集的第m路声音信号),其中包括来自多个声源的声音;si表示第i个声源的信号;wm表示第m个麦克风的噪声;h
m,i
表示第i个声源到第m个麦克风之
间的传输因子;h
m,i
si(n)表示第m路麦克风采集的第i个声源的衰减后声源信号。
[0101]
步骤s109:根据所述传输模型,从所述多个声源位置中选取至少一个目标声源位置,所述目标声源位置包括说话人的方向信息和距离信息。
[0102]
本步骤可采用机器学习方式实现,机器学习方式包括但不限于稀疏贝叶斯学习方式,还可以是神经网络学习模式。
[0103]
在一种具体实施方式中,步骤s109可采用如下方式实现:将所述传输模型作为说话人定位的先验知识,将声源信号作为潜在变量,通过稀疏贝叶斯学习方式,从所述多个声源位置中选取至少一个目标声源位置。
[0104]
本技术实施例提供的方法,将传输因子中的参数:波达方向和距离(θi,ri)作为目标函数,采用稀疏贝叶斯学习方式,根据麦克风采集的多路声音信号进行估计。
[0105]
如图3所示,本实施例采用稀疏贝叶斯学习方式,根据采集的多路麦克风信号(x,观测样本信息)来估计波达方向和距离(θi,ri)。候选声源信号s是潜在变量,其先验服从零均值复杂高斯分布,该分布是声源位置相关精度参数γ=[γ1,γ2,

,γk],稀疏贝叶斯学习在多说话人定位场景中的应用方式,可采用如下概率公式来表示:
[0106][0107]
加性噪声w的先验服从零均值复杂高斯分布,精度参数δ,可采用如下概率公式来表示:
[0108][0109]
边缘化概率密度函数(pdf)可以表示为:
[0110][0111]
在上述概率公式中,γ为估计参数,包括波达方向和距离(θi,ri);δ表示噪声信号。
[0112]
在一个示例中,所述通过稀疏贝叶斯学习方式,获取至少一个目标声源位置,可采用如下方式实现:采用最大期望算法,通过稀疏贝叶斯学习方式,获取至少一个目标声源位置息。
[0113]
为了估计出γ和δ,可采用期望最大化算法(expectation maximization algorithm,em)。em算法是在依赖于无法观测的隐藏变量的概率模型中,寻找参数最大似然估计或者最大后验估计的算法,可采用如下公式:
[0114][0115]
[0116][0117][0118]
采用上述公式来估算参数,使得大规模和高度超完备问题的更快收敛。
[0119]
在一个示例中,步骤s109可采用如下方式实现:通过稀疏贝叶斯学习方式,从所述多个声源位置中选取三维空间谱中的至少一个第一目标声源位置;将所述三维空间谱中的目标声源位置映射到二维空间频谱,以得到二维空间谱中的至少一个第二目标声源位置。
[0120]
在一种具体实施方式中,可通过稀疏贝叶斯学习方式,根据所述多路声音信号,以及确定的麦克风选型以及阵列拓扑结构(h),获取上述em算法里e-step的对数似然的期望值和m-step的参数(γ,δ)估计,通过多次迭代(通过设定好的阈值来控制),得到代表波达方向和距离的参数γ。将所述估计参数的说话人定位信息映射到二维空间频谱,以得到说话人的方向信息和距离信息。
[0121]
具体来说,如图4所示,在通过em算法确定说话人定位信息后(参数γ)后,可以将该参数映射到2维的空间频谱上来确定波达方向和距离(θi,ri)。
[0122]
从上述实施例可见,本技术实施例提供的说话人定位方法,通过麦克风阵列,采集多路声音信号;将声源范围划分为多个声源位置;根据麦克风阵列形态信息和所述声源位置,获取所述声源位置到各麦克风位置的声音信号传输因子;根据所述传输因子、声源信号和所述多路声音信号,形成声音信号传输模型;根据所述传输模型,从所述多个声源位置中选取至少一个目标声源位置,所述目标声源位置包括说话人的方向信息和距离信息。采用这种处理方式,使得能够联合估计多说话人场景中的说话人方向和距离,避免单独优化说话人方向或者距离,因此可以较好兼顾说话人方向和距离,并同时兼容不同麦克风指向性和多说话人定位场景。
[0123]
第二实施例
[0124]
在上述的实施例中,提供了一种说话人定位方法,与之相对应的,本技术还提供一种说话人定位装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
[0125]
本技术另外提供一种说话人定位装置,包括:信号采集单元,声源范围划分单元,传输因子获取单元,传输模型获取单元,联合估计单元。
[0126]
信号采集单元,用于通过麦克风阵列,采集多路声音信号;声源范围划分单元,用于将声源范围划分为多个声源位置;传输因子获取单元,用于根据麦克风阵列形态信息和所述声源位置,获取所述声源位置到各麦克风位置的声音信号传输因子;传输模型获取单元,用于根据所述传输因子、声源信号和所述多路声音信号,形成声音信号传输模型;联合估计单元,用于根据所述传输模型,从所述多个声源位置中选取至少一个目标声源位置,所
述目标声源位置包括说话人的方向信息和距离信息。
[0127]
在一个具体实施例中,所述麦克风阵列为全向麦克风阵列;传输因子获取单元,具体用于根据麦克风阵列形态信息和所述声源位置,获取所述声源位置和所述麦克风位置之间的角度信息;根据所述角度信息,获取所述声源位置和所述麦克风位置之间的距离信息;根据所述声源位置和所述麦克风位置之间的距离信息,获取声源信号传播到所述麦克风位置的衰减信息和相移信息;根据所述衰减信息和相移信息形成所述声音信号传输因子。
[0128]
在一个具体实施例中,所述麦克风阵列为指向性麦克风阵列;传输因子获取单元,具体用于根据麦克风阵列形态信息和所述声源位置,获取所述声源位置和所述麦克风位置之间的角度信息;根据所述角度信息,获取所述声源位置和所述麦克风位置之间的距离信息;根据所述声源位置和所述麦克风位置之间的距离信息,获取声源信号传播到所述麦克风位置的衰减信息和相移信息;根据所述角度信息,获取所述声源位置和所述麦克风位置之间的幅值响应信息;根据所述衰减信息、相移信息和幅值响应信息,获取所述声音信号传输因子。
[0129]
在一个具体实施例中,所述装置还可包括:噪声信号获取单元,用于获取麦克风的噪声信号;所述传输模型获取单元,具体用于将所述传输因子和声源信号的乘积作为衰减后的声源信号;将所述多路声音信号为多个衰减后的声源信号与所述噪声信号的和作为所述声音信号传输模型。
[0130]
在一个具体实施例中,所述联合估计单元,具体用于将所述传输模型作为说话人定位的先验知识,将声源信号作为潜在变量,通过稀疏贝叶斯学习方式,从所述多个声源位置中选取至少一个目标声源位置。
[0131]
在一个具体实施例中,所述联合估计单元,具体用于采用最大期望算法,通过稀疏贝叶斯学习方式,从所述多个声源位置中选取至少一个目标声源位置息。
[0132]
在一个具体实施例中,所述联合估计单元,具体用于通过稀疏贝叶斯学习方式,从所述多个声源位置中选取三维空间谱中的至少一个第一目标声源位置;将所述三维空间谱中的目标声源位置映射到二维空间频谱,以得到二维空间谱中的至少一个第二目标声源位置。
[0133]
所述声音信号包括多说话人的声音信号。
[0134]
第三实施例
[0135]
在上述的实施例中,提供了一种说话人定位方法,与之相对应的,本技术还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
[0136]
本技术另外提供一种电子设备,包括:麦克风阵列;处理器;以及存储器。其中,存储器用于存储实现上述任一项方法的程序,该终端通电并通过所述处理器运行该方法的程序。
[0137]
所述电子设备,可以是音视频会议终端,也可以是拾音设备。
[0138]
本技术虽然以较佳实施例公开如上,但其并不是用来限定本技术,任何本领域技术人员在不脱离本技术的精神和范围内,都可以做出可能的变动和修改,因此本技术的保护范围应当以本技术权利要求所界定的范围为准。
[0139]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0140]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0141]
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0142]
2、本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1