基于麦克风阵列的动态数量声源跟踪方法

文档序号：9826337阅读：663来源：国知局

基于麦克风阵列的动态数量声源跟踪方法
【技术领域】
[0001] 本发明涉及的是一种阵列音频信号处理领域的方法，尤其涉及一种基于数据关联和粒子滤波的多声源跟踪方法。
【背景技术】
[0002] 在声源定位与跟踪的许多应用中，如人机交互、远程会议、虚拟现实等，都需要对应用场景中的说话人进行定位与跟踪。由于实际应用场景中存在噪声，回响以及其他声源的干扰，如何在复杂环境下完成对说话人实时的定位与跟踪并保证系统的鲁棒性一直是研究的热点。除此之外，由于语音信号本身的非平稳特性，声源沉默与活跃状态的随机性，更使得这一问题更具有挑战性。
[0003] 目前，对于单声源的定位与跟踪技术已经非常成熟，主要采用基于TD0A的声源定位算法与基于粒子滤波的声源跟踪算法。对于多声源定位的问题，目前存在的主流方法主要分为两类:基于可控波束形成的方法和基于现代高分辨率谱估计的方法，其中，后者需要对声源数量具有先验假设，而前者没有这种限制。对于多声源跟踪的问题，由于存在观测与跟踪目标的匹配模糊问题，所以在对多个跟踪目标位置更新之前，需要对观测进行分类。目前存在的多声源跟踪算法主要采用最近邻的原则对观测与跟踪声源进行匹配。然而，这种处理方式忽略了实际情况下存在的很多其他可能性。并且，现有的多声源跟踪方法应用的场景是一种较为理想的环境，即，假设声源数量可知且在跟踪过程中不会变化，这意味着说话人在跟踪过程中会不间断地说话，这种限制使得现有的多声源跟踪算法难以应用于实际的场景。

【发明内容】

[0004] 本发明针对现有技术存在的上述不足，提供一种基于数据关联和粒子滤波的多声源跟踪方法，既可提升声源定位与跟踪的准确度，又可以实现动态声源数量的目标跟踪，可应用在动态变化的复杂场景中。
[0005] 为了实现上述目的，本发明提供了一种基于麦克风阵列的动态数量声源跟踪方法，包括以下步骤：
[0006] S1、接收音频信号，计算空间谱，检测空间谱谱峰位置，得到观测值；
[0007] S2、根据观测值与当前时刻的K个跟踪声源进行数据关联，计算空间谱峰与跟踪声源的匹配概率；
[0008] S3、检查当前时刻粒子滤波器或检查当前时刻跟踪目标数量；
[0009] 若粒子滤波器已经初始化或跟踪目标数量不等于0,进入步骤S4;
[0010] 若粒子滤波器尚未初始化或跟踪目标数量等于0,进入步骤S8;
[0011] S4、评估试用声源存在概率并删除伪声源，监测跟踪声源活跃状态并删除非活跃声源；
[0012] S5、根据谱峰-声源匹配边缘后验概率定义声源的似然函数，并更新各声源的粒子权重；
[0013] S6、根据粒子权重和粒子位置计算当前时刻各声源的位置；
[0014] S7、根据贝叶斯推断预测各声源的先验活跃概率；
[0015] S8、检测各谱峰的匹配概率，若各谱峰的匹配概率大于预设的判定阈值，激活新声源；
[0016] S9、预测下一个时刻各声源粒子状态；
[0017] S10、判断各声源的有效粒子数量，若有效粒子数量少于预设的粒子数量值，则重新采样声源的粒子，并进入步骤S1;反之，进入步骤S1。
[0018] 作为优选的，步骤S2包括以下步骤：
[0019] S2.1、列举所有谱峰-声源匹配的组合；
[0020] S2.2、根据谱峰-声源匹配的组合计算谱峰-声源匹配联合先验概率；
[0021 ] S2.3、若存在跟踪声源，计算预测性似然概率;反之，直接进入步骤S2.4;
[0022] S2.4、根据所述谱峰-声源匹配联合先验概率以及预测性似然概率计算谱峰-声源匹配联合后验概率；
[0023] S2.5、重复步骤S2至S4,计算谱峰-声源匹配边缘后验概率；
[0024] S2.6、归一化谱峰-声源匹配边缘后验概率。
[0025]作为优选的，步骤S4包括以下步骤：
[0026] S4.1、计算各声源当前观测下的活跃概率；
[0027] S4.2、检查各个声源当前所处阶段：
[0028] 若声源处于试用阶段，进入步骤S4.3;
[0029]若声源处于跟踪阶段，进入步骤S4.4;
[0030] S4.3、评估试用声源存在概率，删除伪声源；
[0031] S4.4、监测跟踪声源活跃状态，并删除非活跃声源。
[0032] 进一步的，步骤S4.3包括以下步骤：
[0033] S4.31、更新试用声源累积活跃概率；
[0034] S4.32、检查试用期计时器，若试用期未满，进入步骤S5;
[0035]若试用期已满，进入步骤S4.33;
[0036] S4.33、计算试用声源在试用期间平均存在概率，若试用声源在试用期间平均存在概率高于预设的存在性阈值，标记新声源，并进入跟踪阶段;反之，删除该试用声源的粒子滤波器。
[0037] 进一步的，步骤S4.4包括以下步骤：
[0038] S4.41、检验跟踪声源当前时刻非活跃程度，
[0039]若非活跃程度小于预设的活跃值，非活跃计数器自加1，并进入步骤S4.42;
[0040] 反之，非活跃计数器清零，并进入步骤S5;
[0041] S4.42、检查非活跃计数器，若非活跃计数器的值等于预设的次数，删除该非活跃声源。
[0042]作为优选的，步骤S8包括以下步骤：
[0043] S8.1、检测各谱峰的匹配概率，若各谱峰的匹配概率大于预设的判定阈值，进入步骤S8.2,反之，进入步骤S9;
[0044] S8.2、初始化新声源粒子状态，对粒子赋予均匀权值；
[0045] S8.3、初始化新声源活跃概率；
[0046] S8.4、为新声源分配ID;
[0047] S8.5、标记新声源进入试用阶段，开启试用期计时器。
[0048] 与现有技术相比，本发明将数据关联纳入粒子滤波的框架之中，通过对观测-声源目标匹配先验与后验的精确建模解决了观测与声源之间的匹配模糊问题，由于数据关联考虑了几乎所有的匹配可能，本发明提出的方法能够应对各种各样不同的运动模式。另外，通过将新声源的加入机制与非活跃声源的删除机制纳入数据关联与粒子滤波的框架，实现了动态声源数量的多目标跟踪，并且，不需要加入单独的声源活跃状态检测模块，有效地降低了算法的运算时间，保证了跟踪的实时性。
【附图说明】
[0049] 图1是本发明一实施例的工作主流程图。
[0050] 图2是本发明一实施例中步骤S2的流程示意图。
[0051]图3是本发明一实施例中步骤S4的流程示意图。
[0052]图4是本发明一实施例中声源经历的阶段图。
[0053]图5是本发明一实施例中实验环境俯视图。
【具体实施方式】
[0054] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。
[0055] 为解决上述技术问题，本发明的第一实施方式提供了一种基于麦克风阵列的动态数量声源跟踪方法，如图5所示，在听音室的中心位置布置8阵元圆形麦克风阵列，每个阵元采用平衡式测试麦克风接收空间声场信息，每个通道的麦克风通过卡农头连接到听音室外部的幻象电源，并通过多通道数据采集卡连接到PC计算机。由于本实施例中采用的是单个麦克风阵列，故而波束形成的搜索空间为以阵列中心为圆心的三维空间方位，即将一个单位球面分为足够密的格点，实际应用过程中，格点数量的选取只要满足分辨率的需要即可。整个声源定位与跟踪过程中，采样率设置32KHz，帧长取为1024点，具体的步骤如下：
[0056] S1、打开音频输入流，将麦克风阵列读取的音频数据分帧并存入缓冲区，从缓冲区取出一帧数据并运用波束形成算法计算空间谱，对空间谱进行谱峰检测得到一系列观测

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：江晓波;蒋三新;应忍冬;刘佩林;
技术所有人：上海交通大学;
我是此专利的发明人

上一篇：身体状况建议方法及电子装置的制造方法
上一篇：改进的数据比较方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。