基于手机的多通路环绕声动态双耳重放系统的实现方法与流程

文档序号：12917656阅读：395来源：国知局

本发明涉及电声技术领域，尤其涉及一种基于手机的多通路环绕声动态双耳重放系统的实现方法。

背景技术：

多通路环绕声采用多个环绕倾听者的扬声器布置及相应的信号通路，产生声音的空间听觉效果。例如日本放送协会(nhk)提出的22.2通路环绕声系统，22个全频带通路扬声器在空间分为三层分布，顶层通路仰角φ＝45°有8个扬声器(另加1个正上方扬声器)，中层通路仰角φ＝0°有10个扬声器，底层通路仰角φ＝-30°有3个扬声器，以及2个次低音扬声器，共同提供三维空间环绕声的听觉效果。国际上也有其他的多通路环绕声系统，包括传统的5.1通路、7.1通路水平面环绕声系统，近年发展的9.1通路、10.2通路、11.1通路、dolbyatmos等三维空间环绕声系统等。这些环绕声系统是为扬声器重放而设计的，主要用在家庭或影院的声重放。但在一些应用中，如各种手持播放设备等，需要通过耳机来重放多通路环绕声信号。但多通路环绕声直接向下混合成两通路信号使用耳机重放，会破坏其中声音的空间信息，不能获得正确的立体声虚拟声源。

为改善耳机重放多通路环绕声的效果，可采用各扬声器方向的头相关脉冲响应对信号进行卷积(或头相关传输函数滤波)，合成双耳声信号并用耳机重放。国内外已经有多个这方面的专利技术，如dolby耳机技术和华南理工大学的耳机虚拟5.1通路环绕声技术(中华人民共和国国家发明专利授权，zl02134415.9)。这相当于用信号处理的方法虚拟出多通路环绕声的多个扬声器。虽然这类耳机虚拟重放技术可以改善声音空间信息的重放，但还是存在一定缺陷，例如虚拟声源前后混乱与上下混乱、感知的虚拟声源方向与期望值有偏差等。通过采用个性化或者定制的头相关脉冲响应进行信号处理以及个性化的耳机—外耳传输特性均衡处理(中华人民共和国国家发明专利授权，zl201310109533.9)，可以部分减少上述缺陷。

上面的方法只是考虑了稳态双耳重放，也就是头部固定的情况。而现实中倾听者头部的运动会带来动态信息，这对听觉主观感知非常重要。因此也需要在多通路环绕声的耳机虚拟重放中加入动态信息，以改善听觉效果。这可以通过各种方法检测倾听者头部运动信息，然后采用动态合成双耳信号的方法实现。已有的实验结果表明，动态双耳重放可以降低虚拟声源前后混乱率与上下混乱率、提高虚拟声源定位准确度等。

可以采用各种专业的头踪迹跟踪器检测倾听者头部运动信息，并且可以达到很高的技术指标。例如采用polhemusfastrak电磁跟踪器，距离测量精度为0.08cm、分辨率0.0005cm，角度测量精度0.15°、分辨率0.025°。华南理工大学的虚拟听觉环境实时绘制系统就是采用这类的头踪迹跟踪器(中华人民共和国国家发明专利授权，cn201210014504.x)。上述的头踪迹跟踪器可输出六个自由度的头部运动参数,因而可以实现三维空间声的动态双耳重放。但其体积大并且价格较高，只适用于科学研究、工程技术等专业的应用，而不适用于消费类电子产品应用。

华南理工大学也公开了一种适用于多媒体个人计算机等应用的多通路环绕声的动态双耳虚拟重放方法(中华人民共和国国家发明专利申请，2016106936029)。该方法采用体感摄像头作为头部运动跟踪器,实时获取头部三个旋转自由度的运动信息，并以个人计算机作为信号处理与控制系统，产生类似扬声器重放的多通路环绕声效果。但上述两种系统，都需要固定设备，如个人计算机、声卡等，不能实现便携式动态听觉重放。

华南理工大学还公开了一种适用于手持式播放设备等消费电子类应用的5.1通路环绕声的动态双耳重放方法(中华人民共和国国家发明专利授权，cn201410387541.4)。该方法采用廉价的磁传感器和加速度传感器获取头部在水平面运动引起的一个自由度的物理信息变化。这种头踪迹跟踪器比较简单，可以近似实现水平面动态双耳重放，但不能实现整个三维空间的动态双耳重放。

2016年5月谷歌公司发布了googlevrsdk，成功地在手机上使用虚拟ambisonics技术实现动态虚拟听觉重放。但其虚拟声源的数目是有限的。

检测倾听者头部运动信息的技术是多样的，其技术性能、复杂程度与成本、信号处理和实现方法也不同。对于不同的应用，可以根据实际情况采用不同的技术检测倾听者头部运动信息，实现多通路环绕声的动态双耳重放，包括三维空间的动态双耳重放。

技术实现要素：

为了克服现有技术存在的缺点与不足，本发明提供一种基于手机的多通路环绕声动态双耳重放系统的实现方法，通过手机获取头部三个旋转自由度的运动信息，使用球谐插值得到对应虚拟声源方向的双耳时间差，使用双线性插值得到对应的最小相位头相关脉冲响应主成分分解系数，使用公共滤波器组处理信号，动态、实时地模拟多通路环绕声的各个虚拟扬声器，产生类似扬声器重放的多通路环绕声效果；本发明能消除大部分前后混乱和部分上下混乱现象，提升空间定位精度。

为解决上述技术问题，本发明提供如下技术方案：一种基于手机的多通路环绕声动态双耳重放系统的实现方法，包括如下步骤：

s1、输入初始数据，包括多通路环绕声信号、虚拟扬声器的位置参数和头相关脉冲响应数据；

s2、使用智能移动设备的内置检测装置实时检测倾听者头部的运动信息,并计算倾听者头部转动后虚拟扬声器相对于倾听者头部的方向；

s3、根据虚拟扬声器相对于倾听者头部的方向，计算对应的双耳时间差；根据头相关脉冲响应数据计算对应的最小相位头相关脉冲响应的主成分分解系数；

s4、根据双耳时间差，对输入的多通路环绕声信号进行延时处理得到左、右耳待处理信号；将左、右耳待处理信号，与最小相位头相关脉冲响应主成分分解系数相乘；然后用最小相位头相关脉冲响应经过主成分分解后得到的公共滤波器组，对主成分分解系数相乘后得到的信号进行滤波，得到公共滤波器组的输出信号；

s5、将公共滤波器组的输出信号进行混合操作，并经过逆滤波均衡处理后得到多通路环绕声的双耳重放信号馈给耳机重放。

进一步地，所述步骤s2，具体为：

21)使用智能移动设备的内置检测装置实时检测倾听者头部的运动信息，对运动信息进行计算，得到对应的旋转矩阵r；

22)计算倾听者头部转动后虚拟扬声器相对于倾听者的方向，包括瞬时方位角θ’和仰角φ’，虚拟声源新的方向由下面的矩阵公式计算：

其中，虚拟声源相对于倾听者的初始方向采用初始方位角θ和初始仰角φ表示，0°≤θ<360°，-90°≤φ≤90°。

进一步地，所述智能移动设备的内置检测装置包括电子罗盘、加速度传感器以及陀螺仪。

进一步地，所述步骤s3，具体为：

31)根据虚拟扬声器相对于倾听者头部的方向，计算前l阶球谐函数在该空间方向的值并由如下公式计算得到该空间方向的双耳时间差itd(90°-φ,θ)：

其中，l和m分别表示球谐函数的阶数和度数；blm表示前l阶球谐系数；虚拟声源相对于倾听者的初始方向采用初始方位角θ和初始仰角φ表示，0°≤θ<360°，-90°≤φ≤90°；

32)空间声源方向被划分成方格；头相关脉冲响应数据将包括正上方、正下方以及方格顶点空间方向的最小相位头相关脉冲响应主成分分解系数，空间中的任意方向的最小相位头相关脉冲响应主成分分解系数可由如下公式计算得到：

a1＝(1-aθ)(1-aφ)a2＝aθ(1-aφ)

a3＝aθaφa4＝(1-aθ)aφ

其中，w(1,q)至w(4,q)为方格顶点1至4空间方向的主成分分解系数，a1至a4是对应的插值系数，δθ是待插值方向到顶点1的方位角差值，δφ是待插值方向到顶点1的仰角差值，θgrid是方位角间隔，φgrid是仰角间隔。

进一步地，所述步骤s4，具体为：

41)根据第i个虚拟扬声器方向的双耳时间差，ei(t)是多通路环绕声信号的第i路信号，异侧耳信号是ei(t)延时双耳时间差绝对值后得到，同侧耳信号不需要延时，从而得到左、右耳待处理信号ei,l(t)和ei,r(t)；

42)根据最小相位头相关脉冲响应的主成分分解，将左耳、右耳任意方向的最小相位头相关脉冲响应数据分别分解为q个脉冲响应基函数dq(t)的权重组合加上一个最小相位头相关脉冲响应的平均函数hav(t)：

其中，wq,l(θi,φi)和wq,r(θi,φi)是与方向有关的主成分分解系数。

进一步地，所述步骤s5具体为：将平均函数hav(t)和q个脉冲响应基函数滤波器的输出信号进行混合叠加，再经过耳机—耳道传输特性hpl(t)和hpr(t)逆滤波均衡处理后，即可得到双耳声信号el(t)和er(t)，具体公式为：

进一步地，所述多通路环绕声动态双耳重放系统，包括信号处理参数计算模块、头踪迹跟踪模块以及信号处理模块，其中

所述信号处理参数计算模块用于对虚拟声源方向的双耳时间差和最小相位头相关脉冲响应的主成分分解系数的进行插值计算，以及根据所述头踪迹跟踪模块传递的信息，通过球谐函数插值和双线性插值计算得到上述双耳时间差主成分分解系数参数；

所述头踪迹跟踪模块用于实时检测倾听者的头部运动和计算虚拟声源方位；所述头踪迹跟踪模块采用智能移动设备的内置检测装置检测倾听者运动信息，通过互补滤波器实现数据融合，继而求得对应的旋转矩阵，然后通过空间坐标转换得到虚拟声源相对倾听者的方位角和仰角并传递给其他模块，为动态处理提供依据；

所述信号处理模块用于接收所述头踪迹跟踪模块传递的虚拟声源方向信息，并从所述信号处理参数计算模块得到虚拟声源的双耳时间差和最小相位头相关脉冲响应，实现动态双耳信号的合成。

采用上述技术方案后，本发明至少具有如下有益效果：

1、本发明可在手机上实现多通路环绕声双耳信号的动态合成处理，实现三维多通路环绕声的耳机动态虚拟重放，能消除大部分前后混乱和部分上下混乱现象，提升空间定位精度；

2、本发明只需要一台手机就能实现头踪迹的跟踪和动态虚拟重放信号的合成，不需要固定设备，能快速便携地实现动态听觉重放，适合室内和户外等多种使用场景；

3、本发明的系统简单，价格低，适合个人消费电子应用。

附图说明

图1是本发明多通路环绕声动态双耳重放系统的结构示意图；

图2是本发明基于手机的多通路环绕声动态双耳重放系统的实现方法的输入数据示意图；

图3是本发明基于手机的多通路环绕声动态双耳重放系统的实现方法的步骤流程图；

图4是本发明方法的多通路环绕声中表示声源位置的坐标系统图；

图5是本发明方法的实施例中手机坐标以及转动示意图；

图6是本发明方法的实施例中多通路环绕声扬声器到双耳传输的示意图；

图7是本发明方法的实施例中合成双耳信号处理的方块图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本申请作进一步详细说明。

实施例

如图1所示，本发明采用了一种多通路环绕声动态双耳重放系统，包括信号处理参数计算模块、头踪迹跟踪模块以及信号处理模块。头相关脉冲响应数据包包含公共滤波器数据，球谐系数，正上方、正下方以及方格顶点的最小相位头相关脉冲响应主成分分解系数。声音播放是指调用手机操作系统的函数将合成后的双耳虚拟听觉信号复制至底层系统播放。三个主要功能模块作用为：

(a)信号处理参数计算模块

信号处理参数计算模块用于虚拟声源方向的双耳时间差和最小相位头相关脉冲响应主成分分解系数的插值计算。根据头踪迹跟踪模块传递的信息，通过球谐函数插值和双线性插值得到上述两个参数。

(b)头踪迹跟踪模块

头踪迹跟踪模块用于实时检测倾听者的头部运动和计算虚拟声源方位。采用手机的电子罗盘、加速度传感器、陀螺仪检测倾听者运动信息，通过互补滤波器实现数据融合，继而求得对应的旋转矩阵。然后通过空间坐标转换得到虚拟声源相对倾听者的方位角和仰角并传递给其他模块，为动态处理提供依据。

(c)信号处理模块

信号处理模块是系统的核心部分，接收头踪迹跟踪模块传递的虚拟声源方向信息，并从信号处理参数计算模块得到虚拟声源的双耳时间差和最小相位头相关脉冲响应，实现动态双耳信号的合成，它包括了信号的延时处理和滤波处理。

本发明提供一种基于手机的多通路环绕声动态双耳重放系统的实现方法，其中，本发明除了基于手机设备外，还可用于其他智能移动设备，例如平板电脑、ipod等。如图2所示，为本发明方法所需要的输入数据，包括输入初始数据(多通路环绕声输入信号、扬声器位置以及头相关脉冲响应数据)、动态信号处理及双耳信号合成、耳机重放三个部分。

如图3所示，本发明一种基于手机的多通路环绕声动态双耳重放系统的实现方法，其步骤大致包括：

s1、输入初始数据，包括多通路环绕声信号、虚拟扬声器的位置参数和头相关脉冲响应数据；

s2、使用智能移动设备的内置检测装置实时检测倾听者头部的运动信息,并计算倾听者头部转动后虚拟扬声器相对于倾听者头部的方向；

s5、将公共滤波器组的输出信号进行混合操作，并经过逆滤波均衡处理后得到多通路环绕声的双耳重放信号馈给耳机重放。

图4是多通路环绕声中表示声源位置的坐标系统图。虚拟声源相对于倾听者的方向用方位角0°≤θ<360°和仰角-90°≤φ≤90°表示。而φ＝-90°、0°和90°分别表示正下方、水平面与正上方；θ＝0°，90°，180°和270°分别表示正前方、正右方、正后方、正左方。

图5是手机坐标以及转动示意图。展示出手机本地坐标系的一种定义。通过vr眼镜将手机固定在双眼前面，手机质心与头部中心是相对固定的。当头部发生转动时，根据几何关系，手机围绕自身质心转动的角度与头部转动的角度是一致的。所以使用三个旋转角a、b、c来描述头部转动，表示围绕坐标的z轴、x轴、y轴转动。

手机的世界坐标定义是x轴指向正东方，y轴指向正北方，z轴指向天空，三个坐标轴两两垂直。当手机水平放置，且手机本地坐标系的y轴指向正北面时，两种坐标系统重合。根据加速度传感器、电子罗盘、陀螺仪的信息，安卓系统提供描述本地坐标系相对于世界坐标系转动的旋转矩阵。

系统刚启动瞬间称为起始时刻。起始时刻本地坐标相对与世界坐标的旋转矩阵是r1，此后任意时刻本地坐标相对与世界坐标的旋转矩阵是r2。倾听者头部转动后，虚拟声源相对于倾听者的瞬时方位角为θ’，仰角为φ’。虚拟声源新的空间方向由下面的矩阵公式计算：

其中，r表示头部相对于起始时刻的转动所对应的旋转矩阵。虚拟声源相对于倾听者的初始方向用初始方位角0°≤θ<360°和初始仰角-90°≤φ≤90°表示。

对于不同的手机的操作系统，坐标系定义与旋转矩阵r计算方法并不一致。这里展示的是本发明实例使用的安卓系统手机的定义与计算方法。

图6是多通路环绕声扬声器到双耳传输的示意图。在多通路环绕声重放中，m个扬声器布置在环绕倾听者的圆周或球面上，第i个重放扬声器的方向是(θi,φi)，信号是ei(t)。异侧耳信号是ei(t)延时对应方向的双耳时间差的绝对值后得到，同侧耳信号不需要延时，从而得到左、右耳待处理信号ei,l(t)和ei,r(t)。将多通路环绕声的各扬声器左、右耳待处理信号分别用对应方向的左、右耳最小相位头相关脉冲响应hl(θi,φi,t)和hr(θi,φi,t)滤波后并叠加，再分别经过一对左、右的耳机—耳道传输特性hpl(t)和hpr(t)逆滤波均衡处理后，即可得到双耳声信号el(t)和er(t)：

其中t是时域采样点。将合成的双耳声信号用一对耳机重放，即可虚拟出多通路环声的m个扬声器所产生相应的主观听觉效果。

对于m个通路的环绕声，直接实现(2)式的双耳声信号合成需要2m次最小相位头相关脉冲响应的滤波处理。当通路数较多时，可以采用最小相位头相关脉冲响应主成分分解和公共滤波器的方法简化信号处理。根据最小相位头相关脉冲响应主成分分析，左、右耳的任意方向最小相位头相关脉冲响应可以分别分解为q个脉冲响应基函数dq(t)的权重组合加上一个最小相位头相关脉冲响应的平均函数hav(t)：

其中，wq,l(θi,φi)和wq,r(θi,φi)是与方向有关的分解系数。

利用(3)式的主成分分析，(2)式的信号处理可变为：

图7是根据(4)式设计的合成双耳信号处理的方块图，图中只画出了对左耳信号处理部分，对右耳的信号处理部分完全类似。所有m个通路的环绕声左耳待处理信号相加后经过平均函数hav(t)滤波；每个通路的信号ei.l(t)与最小相位头相关脉冲响应主成分分解系数wq,l(θi,φi)相乘，然后再经过最小相位头相关脉冲响应主成分分解得到的脉冲响应基函数dq(t)而设计的公共滤波器组；将平均函数和q个脉冲响应基函数滤波器的输出混合叠加，再经过耳机—耳道传输特性逆滤波均衡处理后，即可得到双耳声信号。图6的双耳合成信号处理是通过一组q个公共的脉冲响应基函数滤波器和一个平均函数滤波实现，滤波器的数目是固定在每个耳(q+1)个，双耳是2×(q+1)个，与多通路环绕声的通路数目m无关。

对于动态双耳重放，通过头踪迹跟踪模块得到虚拟声源相对于倾听者头部的方向，信号处理模块实时地调整或切换(4)式的系数wq,l(θi,φi)和wq,r(θi,φi)，从而适应倾听者头部的瞬时位置，实现多通路环绕声动态双耳信号合成。选择主成分分析设计公共滤波器信号处理的另一个优点是只要切换系数wq,l(θi,φi)和wq,r(θi,φi)即可实现动态双耳合成，避免了直接切换头相关脉冲响应带来的可听缺陷。

实例效果与验证：

选取的实验用手机是：魅族pro5。主要参数是：exynos7420处理器(-a57^tm2.1ghzx4+-a53^tm1.5ghzx4)，malit760图形处理器，3gblpddr4内存，包含重力感应、陀螺仪、电子罗盘等一系列感应器，运行的系统是安卓5.1。

本实例是在谷歌公司提供的安卓集成开发环境androidstudio上使用java编程实现。其中还使用了jtransforms开源库，它提供了在java环境下的多线程fft计算功能，以及commonsmath组件库，它是一个轻量级包含数学与统计计算的库。

表1列出了测量得到的系统实例的动态性能参数。其中系统刷新率指的是单位时间内的信号处理(场景)刷新次数。系统滞后时间指的是从倾听者运动到某个位置与系统输出相应的响应信号之间的时间差。最高支持虚拟声源数量是指系统能同时最多处理不同方位虚拟声源方位的数目。

表1系统性能参数列表

心理声学实验的目的是验证虚拟扬声器(声源)合成的实际效果。

实验采用全可听频带粉红噪声作为原始信号，粉红噪声信号是在计算机中通过软件产生(采样率44.1khz、量化精度16bit)，信号长度是10s。采用边界元方法计算得到的kemar人工头的远场头相关脉冲响应数据，分别作稳态和动态虚拟扬声器信号处理，对比虚拟扬声器(虚拟声源)方向的定位结果。最小相位头相关脉冲响应的长度是128点。在最小相位头相关脉冲响应的主成分分解中，采用q＝9个脉冲响应基函数组成公共滤波器，可使得最小相位头相关脉冲响应的累积能量变化达到99.2％。采用10°间隔划分空间声源方向，头相关脉冲响应数据包中只包括614个方向的主成分分解系数。采用6阶球谐函数重构双耳时间差，前6阶球谐函数贡献的累计百分比达到97.8％。上述参数设定均能满足听觉上的要求。

由于22.2通路环绕声系统的扬声器布置和人类头部的左右对称性，实验只选取22.2通路环绕声系统中的14个扬声器方向。其中，顶层有6个扬声器(正上方扬声器，仰角φ＝90°)，仰角为φ＝45°，方位角为θ＝0°，45°，90°，135°，180°；中层有6个扬声器，仰角为φ＝0°，方位角为θ＝0°，30°，60°，90°，135°，180°底层有2个扬声器，仰角为φ＝-30°，方位角为θ＝0°，45°。其中方位角的定义是θ＝0°为倾听者正前方，θ＝90°为倾听者正右方。

共有8名受试者(男女各4名)参加实验，受试者的编号为s1到s8。对稳态和动态信号，每名受试者对每个虚拟声源方向分别作4次判断。根据实验结果，对每名受试者虚拟源定位的上下混乱率、前后混乱率、平均空间角度偏差δ四个统计误差指标进行分析。其中上下混乱率不考虑φ＝0°的情况，前后混乱率不考虑θ＝90°的情况。按照扬声器分布的层次区分统计。

表2受试者个体统计结果

表2受试者个体统计结果(续)

表3使用动态重放后方位角偏差改善结果对比

表2给出了稳态重放和动态重放时，每名受试者定位实验的统计结果。最后对顶层和中层数据采用数理统计的t-检验方法，底层数据采用wilcoxon符号秩检验，在显著性水平α＝0.05下，检验使用动态双耳重放和传统稳态双耳重放是否有显著性差异，结果由表3给出。其中“☆”表示动态重放定位效果明显改善，“-”表示两者无明显差异。

总体而言，本系统实现的动态双耳重放能消除虚拟声源定位的大部分前后混乱和部分消除上下混乱。由于使用了只包含头部和颈部的非个性化头相关脉冲响应，改善的情况存在个体差异，且对于底层虚拟扬声器定位的改善并不明显。

本发明的研究得到国家自然科学基金(11674105)、广州市科技计划项目《编号：2014y2-00021》和华南理工大学亚热带建筑科学重点实验室自主研究课题的资助。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解的是，在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型，本发明的范围由所附权利要求及其等同范围限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林慧镔;谢菠荪;
技术所有人：华南理工大学;
我是此专利的发明人

上一篇：一种可调节承载平台的制作方法与工艺
上一篇：实现90度剥离强度试验用夹具的快速拆装装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。