用于二维声源定位的无量化误差的位置编解码方法

文档序号:37297154发布日期:2024-03-13 20:45阅读:10来源:国知局
用于二维声源定位的无量化误差的位置编解码方法

本技术实施例涉及声源定位,特别涉及一种用于二维声源定位的无量化误差的位置编解码方法。


背景技术:

1、声源定位技术是一种利用麦克风阵列接收到的多通道信号来估算声源位置的技术,声源定位技术可以作为许多应用场景的辅助技术,例如人机交互、无人机应用、语音分离和目标说话人提取等。声源定位技术可以通过分析多个麦克风接收到的信号,来确定声源在空间中的位置。

2、声源定位技术中的关键一步是位置编解码。业内常用的位置编解码方法是将房间划分为多个网格,将每个网格视为一个类别,并使用独热编码(one-hot)对网格进行标签编码。在这种方法中,包含声源的网格标记为1,而其他网格标记为0。在解码过程中,将具有最高概率的网格中心作为声源位置。然而,本技术的发明人发现,这种位置编码方法存在较大的量化误差,在解码过程中得到的声源坐标存在更大的误差。


技术实现思路

1、本技术实施例的目的在于提供一种用于二维声源定位的无量化误差的位置编解码方法,能够消除量化误差,大幅提升了声源定位的精度,即使在噪声和混响等恶劣条件下也有很好的定位效果。

2、为解决上述技术问题,本技术的实施例提供了一种用于二维声源定位的无量化误差的位置编码方法,包括以下步骤:在声源所在的空间建立笛卡尔坐标系,将所述空间划分为若干个网格;基于预设的分辨率,分别根据所述空间在x轴方向上的长度和在y轴方向上的长度,将所述空间在x轴方向上和y轴方向上离散化为若干段,并根据所述声源的坐标,确定所述声源在x轴方向上的类别和在y轴方向上的类别;基于所述声源在x轴方向上的类别,使用无偏标签分布向量对所述声源进行x轴方向的位置编码,并基于所述声源在y轴方向上的类别,使用无偏标签分布向量对所述声源进行y轴方向的位置编码;基于所述和所述生成二维无偏标签分布矩阵ρ,完成对所述声源的位置编码。

3、本技术的实施例还提供了一种用于二维声源定位的无量化误差的位置解码方法,包括以下步骤:获取各麦克风接收到的目标声源的信号,将所述各麦克风接收到的目标声源的信号输入至预训练解码网络中,获得所述解码网络输出的预测二维无偏标签分布矩阵以及所述目标声源在x轴方向上的峰值类别和在y轴方向上的峰值类别;其中,所述的采用的编码方法与如权利要求1至4中任一项所述的用于二维声源定位的无量化误差的位置编码方法相同;基于所述获取预测无偏标签分布向量和预测无偏标签分布向量根据所述所述目标声源在x轴方向上的峰值类别及其相邻类别、所述和所述目标声源在y轴方向上的峰值类别及其相邻类别,解出所述目标声源的坐标,完成对所述目标声源的定位。

4、本技术的实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的用于二维声源定位的无量化误差的位置编码方法,或者执行上述的用于二维声源定位的无量化误差的位置解码方法。

5、本技术的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的用于二维声源定位的无量化误差的位置编码方法,或者实现上述的用于二维声源定位的无量化误差的位置解码方法。

6、本技术的实施例提供的用于二维声源定位的无量化误差的位置编解码方法,在编码过程中,使用无偏标签分布算法来对声源的位置进行编码,将寻找声源位置的问题转换为分类问题,在声源所在空间中建立笛卡尔坐标系以将该空间网格化,分别将该空间在x轴方向上和y轴方向上离散化为若干段,再基于声源的横纵坐标完成对声源在x轴方向上和在y轴方向上的分类,分类后就可以使用无偏标签分布向量和对声源的位置进行编码,与独热编码技术相比,无偏标签分布算法并非使用一个数对声源位置进行编码,而是使用包含更多、更精准信息的二维无偏标签分布矩阵来编码,能大大减少量化误差。在解码过程中,使用加权相邻解码算法进行解码,如果只考虑峰值类别的话,量化误差仍然是不可避免的,而本技术除了峰值类别外,还要考虑多个相邻的类别,对声源定位进行更准确的加权近似,在解码过程中克服了量化误差,从而大大减少了声源定位的误差,即使在噪声和混响等恶劣条件下也有很好的定位效果。

7、在一些可选的实施例中,所述基于预设的分辨率,分别根据所述空间在x轴方向上的长度和在y轴方向上的长度,将所述空间在x轴方向上和y轴方向上离散化为若干个段,包括:基于预设的分辨率i,分别根据所述空间在x轴方向上的长度lx和在y轴方向上的长度ly,确定所述空间在x轴方向上的分段长度lx和在y轴方向上的分段长度ly;基于所述lx和所述i,将所述空间在x轴方向上离散化为若干段,所述空间在x轴方向上的若干段表示为{0,lx,…,(i-1)·lx,i·lx};基于所述ly和所述i,将所述空间在y轴方向上离散化为若干段,所述空间在y轴方向上的若干段表示为{0,ly,…,(i-1)·ly,i·ly};所述根据所述声源的坐标,确定所述声源在x轴方向上的类别和在y轴方向上的类别,通过以下公式实现:

8、χ=px/lx

9、ξ=py/ly

10、其中,px为所述声源的横坐标,py为所述声源的纵坐标,χ表示所述声源在x轴方向上的类别,ξ表示所述声源在y轴方向上的类别。对空间进行离散化,即将空间在x轴方向上和y轴方向上各分为若干段,同一方向上,每一段的长度相同,使用声源位置的横纵坐标除以对应方向的分段长度,即可完成对声源位置的分类,其类别χ和ξ是实数,不一定是整数,这样的分类相较于独热编码更加科学。

11、在一些可选的实施例中,所述表示为{x0,x1,…,xi,…,xi},所述表示为{y0,y1,…,yj,…,yi},所述基于所述声源在x轴方向上的类别,使用无偏标签分布向量对所述声源进行x轴方向的位置编码,通过以下公式实现:

12、

13、其中,deci(·)为取小数函数,int(·)为取整函数,xi为所述中的第i项;所述基于所述声源在y轴方向上的类别,使用无偏标签分布向量对所述声源进行y轴方向的位置编码,通过以下公式实现:

14、

15、其中,yj为所述中的第j项。使用和对声源进行位置编码时,对于每个方向来说,实际上是使用相邻的两个整数用来近似一个位于二者之间的实数,而独热编码是将一个实数四舍五入近似为最接近的整数,由此可见,本技术提出的无偏标签分布算法的精度大大高于独热编码。

16、在一些可选的实施例中,所述基于所述和所述生成二维无偏标签分布矩阵ρ,包括:将所述转置为(i+1)×1的列向量并将所述转置为1×(i+1)的行向量将所述乘以所述生成二维无偏标签分布矩阵ρ,所述ρ表示为:

17、

18、在一些可选的实施例中,所述为(i+1)×(i+1)的矩阵,所述基于所述获取预测无偏标签分布向量和预测无偏标签分布向量通过以下公式实现:

19、

20、

21、其中,表示所述的第i行,表示所述的第i列。

22、在一些可选的实施例中,所述根据所述所述目标声源在x轴方向上的峰值类别、所述和所述目标声源在y轴方向上的峰值类别,解出所述目标声源的坐标,包括:根据所述所述目标声源在x轴方向上的峰值类别及其相邻类别、以及预设的x轴方向上的分段长度,解出所述目标声源的横坐标;根据所述所述目标声源在y轴方向上的峰值类别及其相邻类别、以及预设的y轴方向上的分段长度,解出所述目标声源的纵坐标。

23、在一些可选的实施例中,所述根据所述所述目标声源在x轴方向上的峰值类别及其相邻类别、以及预设的x轴方向上的分段长度,解出所述目标声源的横坐标,通过以下公式实现:

24、

25、其中,为所述目标声源在x轴方向上的峰值类别,为所述目标声源在x轴方向上的峰值类别左侧相邻的类别,为所述目标声源在x轴方向上的峰值类别右侧相邻的类别,lx为所述预设的x轴方向上的分段长度,为解出的所述目标声源的横坐标;所述根据所述所述目标声源在y轴方向上的峰值类别及其相邻类别、以及预设的y轴方向上的分段长度,解出所述目标声源的纵坐标,通过以下公式实现:

26、

27、其中,为所述目标声源在y轴方向上的峰值类别,为所述目标声源在y轴方向上的峰值类别左侧相邻的类别,为所述目标声源在y轴方向上的峰值类别右侧相邻的类别,ly为所述预设的y轴方向上的分段长度,为解出的所述目标声源的纵坐标。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1