一种用于会议的耳机信号馈给方法与流程

文档序号:20204758发布日期:2020-03-27 21:08阅读:293来源:国知局
一种用于会议的耳机信号馈给方法与流程

本发明涉及信号处理技术领域,尤其涉及一种用于会议的耳机信号馈给方法。



背景技术:

会议室是以语言为主的声学场所,用于会议、学术报告、学习培训等,要求语言清晰度足够高,听众感知到的声像方向与发言人所在方向一致。由于发言人的声音在会议室传播时随着距离增大而衰减,为使会议室各听众席都有足够大的声压级,大部分会议室都是通过安装扩声系统来提高听众席处的声压级。但也有些场合是通过听众佩戴的耳机来播放发言人的声音,或将发言人的讲话内容翻译成其他语言后再通过听众佩戴的耳机播放出来。

为使得会议室具有较好的效果,《电子会议系统工程设计规范》(gb50799-2012)对会议系统的各个部分提出了要求,其中包括会议扩声系统的分类与组成、功能设计与要求、性能设计要求、主要设备设计要求。但对听众佩戴耳机接收发言人的讲话信息这种情况,并没有对耳机播放的声信号设置声学特性指标,且声信号是单声道的,没有方向信息。

针对其他应用,已有采用耳机重放声音空间信息的技术。常用的是基于头相关传输函数(hrtf)技术,基本原理如下:

设声源s相对倾听者头部中心的空间位置用球坐标(r,θ,φ)表示,如图1所示。其中r为声源距离;-90°≤φ≤90°和-180°≤θ<180°分别表示仰角和方位角;φ=0°和+90°分别表示水平面和正上方;在水平面θ=0°、90°、-90°分别表示正前、正右方、正左方。hrtf定义为自由场点声源到双耳的声学传输函数(1);

其中,pl和pr分别是位置为(r,θ,φ)的声源在双耳产生的频域声压;p0是头部移开后头中心位置处的声压。一般情况下,hrtf与声源位置以及频率f有关,并且和个体有关。对声源距离r≥1.0m的远场,hrtf近似与距离无关。但对于r<1.0m的近场,hrtf与距离有关,因而包含距离定位的因素。hrtf的时域表示是头相关脉冲响应(hrir),它们由傅立叶变换相联系。

为了合成自由场中空间位置为(r,θ,φ)的虚拟点声源,可以将单路的时域信号e0(t)作适当的延时处理和幅度标度后和一对相应的hrir卷积,得到双耳声信号(2);

其中hl与hr分别是声源到左和右耳的hrir,t是时间。t=r/c是声源到倾听者的传输延时,c是声速;幅度标度1/r模拟了自由场中球面声波的幅度随距离衰减。

将通过以上方法得到的双耳声信号馈给一对耳机重放,则倾听者双耳处的声压正比于自由场中实际的点声源所产生的双耳声压,从而能够虚拟出相应空间位置的虚拟声源。

为了使效果更加贴近实际声场环境,还可以用实际环境中的双耳脉冲响应(brir)代替上述信号处理过程中的hrir。但这种方法数据量和运算量太大,实现起来有较大难度。为此可以通过虚源法来模拟声场中的早期反射声,用感知模型来模拟后期混响声。

用虚声源法来模拟早期反射声的基本思路是将界面的反射用等效的虚声源来代替,图2(a)为一次反射声的虚声源。对有界空间,反射声有可能是二次、三次甚至更高次,则可用二阶、三阶及更高阶的虚声源表示,图2(b)是二维矩形房间的虚声源示意图。对任意形状的房间,并不是所有的虚声源都对接收点的声波有贡献,而需要做可视性检验。虚声源模拟的是界面的镜面反射,而不能模拟扩散反射。

在一些对反射声精确度要求并不高的场合,并不需要某个具体的物理模型相联系,可采用人工延时和混响算法来模拟室内反射声,得到相应的主观听觉效果。由于这种方法是从人的感知角度出发,所以又称为感知模拟方法。大部分延时混响算法都是单通路的,用于虚拟听觉重放时,需要生成两个通路的混响信号,并对它们进行去相关处理。

以上是静态处理技术,然而实际应用场合中,即使声源固定,双耳声压也是会随倾听者头部的运动而变化的。因此动态的虚拟听觉环境系统应能模拟出声源和倾听者运动引起的双耳声压的改变,以便得到更为精确的定位效果和真实的听觉环境感知。在三维空间中倾听者头部的运动可用6个自由度来表示,分别是3个平移自由度和3个转动自由度,图3是头部转动示意图,包括绕x轴的转动(倾斜,pitch)、绕y轴的转动(滚动,roll)、绕z轴的转动(转动,yaw)。

头部运动可采用头踪迹跟踪器来检测,常用的有电磁跟踪器、超声跟踪器、光学跟踪器、混合惯性跟踪器等。利用头踪迹跟踪器输出的头部运动参数,根据几何关系,可以实时计算出虚拟声源相对头中心的距离和方向(r,θ,φ),然后就可以据此调用相应方向的hrtf对输入信号进行滤波处理。

除上述hrtf技术之外,还有矢量基幅度调整(vbap)、高保真度立体声响复制(ambisonics)、波场合成(wfs)三项技术。由于这三项技术实现较为复杂,因此一般不会将它们用于重放语言的场合。

现有技术的缺点在于:

(1)现有会议系统中采用耳机重放声音信号时用的是单声道信号,听众听到的声音信号无方向感,声像出现在头中位置,与发言人所在方位不一致。

(2)采用hrtf技术虽然可以生成所需方向的虚拟声源,但是也存在一些问题:一是距离感不强,听众感知到的虚拟声源就在头皮附近,与实际场景相差较远;二是需要存储的hrtf数据量较大,包括整个三维方向成百上千组数据;三是采用brir代替hrir(或hrtf)虽然效果更接近实际声学场景,但数据量和运算量都大好几个量级。若通过加上早期反射声和混响声来代替brir,数据量和运算量都会相应降低,但实时实现仍有较大难度;四是加上动态处理后虽然效果更好,但是hrtf一般按1度进行刷新,运算量特别大,实时实现对硬件要求较高。

(3)采用非hrtf之外的技术,如矢量基幅度调整(vbap)、高保真度立体声响复制(ambisonics)、波场合成(wfs)等技术,技术实现都较为复杂,一般不会将它们用于仅重放语言的场合。



技术实现要素:

本发明提供了一种用于会议的耳机信号馈给方法,实现了听众能感知到声音来自发言人方向;根据目标区域的布置情况计算出每个听众席的角度参数,根据角度参数结合对单声道的发言信号进行运算,得到双耳声信号,可以实现虚拟出发言人的方位信息,使听众感知到声像在发言人方向;并通过检测听众的头部转动计算变化角度,令听众感知到的声像仍来自于发言人方向,从而在静态和动态的情况下均能实现发言席的信号馈给效果。

为了解决上述技术问题,本发明实施例提供了一种用于会议的耳机信号馈给方法,包括:

获取目标区域的空间参数,并根据所述空间参数计算得到目标区域的平均吸声系数;

建立所述目标区域的直角坐标系,并在所述直角坐标系中标注发言席和听众席的坐标参数,计算各听众席相对于所述发言席的相对角度;

获取发言席方向水平面的直达声hrir数据,以及获取水平面的反射声hrir数据;

根据各听众席相对于所述发言席的相对角度选择对应的直达声hrir数据和反射声hrir数据,结合目标区域的平均吸声系数计算静态情况下的双耳声信号;

根据各听众席耳机的水平角度变化值更新各听众席相对于所述发言席的相对角度后,选择对应的直达声hrir数据和反射声hrir数据,结合目标区域的平均吸声系数计算动态情况下的双耳声信号。

作为优选方案,所述获取发言席方向水平面的直达声hrir数据,具体包括:

在所述相对角度的0°~90°角度范围内,分布式选择九个不同的相对角度的hrir数据作为候选直达声hrir数据。

作为优选方案,所述获取水平面的反射声hrir数据,具体包括:

在所述相对角度的-180°~-90°和-90°~0°的角度范围内,分别选择两个角度方向,共采用四个固定角度方向的hrir数据作为反射声hrir数据。

作为优选方案,所述根据各听众席相对于所述发言席的相对角度选择对应的直达声hrir数据和反射声hrir数据,结合目标区域的平均吸声系数计算静态情况下的双耳声信号,具体包括:

根据所述相对角度选择其对应的所述直达声hrir数据计算得到左耳直达声信号和右耳直达声信号;

根据所述平均吸声系数以及根据所述相对角度选择其对应的所述反射声hrir数据计算得到左耳反射声信号和右耳反射声信号;

根据所述左耳直达声信号和所述左耳反射声信号计算得到总的左耳声信号;根据所述右耳直达声信号和所述右耳反射声信号计算得到总的右耳声信号。

作为优选方案,所述根据各听众席耳机的水平角度变化值更新各听众席相对于所述发言席的相对角度,具体包括:

获取各听众席耳机的水平角度初始值;

实时获取各听众席耳机的水平角度实时值;

根据所述水平角度初始值和所述水平角度实时值计算更新各听众席相对于所述发言席的相对角度。

作为优选方案,所述根据所述相对角度选择其对应的所述直达声hrir数据计算得到左耳直达声信号和右耳直达声信号,具体包括:

将所述相对角度与分布式选择的九个相对角度进行对比,选择与九个相对角度最接近的角度所对应的一对时域离散hrir数据;

将所述时域离散hrir数据的的左耳数据和右耳数据分别与发言席信号的单路时域离散数据卷积,计算得到左耳直达声信号和右耳直达声信号。

作为优选方案,所述根据所述平均吸声系数以及根据所述相对角度选择其对应的所述反射声hrir数据计算得到左耳反射声信号和右耳反射声信号,具体包括:

分别确定所述四个固定角度反射声相对于直达声的延时样本点数值;

根据所述平均吸声系数进行调整计算得到反射声的强度系数;

根据各反射声对应的一对时域离散hrir数据、发言席信号的单路时域离散数据、不超过20ms的延时样本点数值和反射声的强度系数,计算得到左耳反射声信号和右耳反射声信号。

作为优选方案,在将所述相对角度与分布式选择的九个相对角度进行对比时,还包括:

当所述相对角度属于0°~90°角度范围内时,将所述相对角度直接与分布式选择的九个相对角度进行对比;

当所述相对角度属于-90°~0°角度范围内时,计算所述相对角度的绝对值后,将所述绝对值与分布式选择的九个相对角度进行对比;

当所述相对角度属于-90°~0°角度范围内时,计算得到的总的左、右耳声信号进行互换。

作为优选方案,所述各听众席耳机的水平角度变化值的获取,是通过在耳机的耳罩上或头梁上安装陀螺仪传感器,用于监测耳机的水平角度变化;所述陀螺仪传感器不会随着头部转动而与耳机发生相对位置变化;

所述陀螺仪传感器输出的水平角度范围为-180°至180°;当水平角度为0°时,表示正前方;当水平角度为90°时,表示正右方;当水平角度为-90°时,表示正左方。

作为优选方案,所述根据所述空间参数计算得到目标区域的平均吸声系数,具体包括:

在听众席均匀取多个位置进行混响时间测量,计算出平均混响时间;

根据所述平均混响时间和所述空间参数进行计算得到目标区域的平均吸声系数。

相比于现有技术,本发明实施例具有如下有益效果:

1、本发明根据目标区域的布置情况计算出每个听众席的角度参数,根据角度参数结合对单声道的发言信号进行运算,得到双耳声信号,可以实现虚拟出发言人的方位信息,使听众感知到声像在发言人方向;并通过检测听众的头部转动计算变化角度,令听众感知到的声像仍来自于发言人方向,从而在静态和动态的情况下均能实现发言席的信号馈给功能,实现了听众能感知到声音来自发言人方向的效果。

2、只需要知道会议室尺寸和混响时间,发言席和听众席坐标,水平面方向的hrtf(hrir)数据,头部在水平面的朝向,就能计算出各听众席的双耳声信号。

3、不管是接收发言人本人的声音还是经翻译以后的声音,各听众席通过耳机重放感知到的声音方向来自发言人,声像在头外,完全消除头中定位效应。

4、数据量少、运算量小。只需存储直达声和反射声的hrtf(hrir)数据,发言人不管在哪个方向,均可通过相同的反射声来增加声像距离感。比完整的三维hrtf(hrir)数据库成百上千个方向的数据少很多,且反射声只通过4个固定方向的hrir来模拟就获得较好效果,接近于通过虚源法计算到二阶(共36个方向)的反射声所获得的声像距离感。

5、与耳机重放单声道语言信号相比,声音清晰度有所提升,反射声与直达声的时间间隔控制在20ms以内,且声像带有方向信息。

附图说明

图1:为现有技术实施例中的听者头部的坐标系统示意图;

图2:为现有技术实施例中的虚声源示意图;其中,图2(a)为一次反射声的虚声源示意图,图2(b)为二维矩形房间的虚声源示意图;

图3:为现有技术实施例中的头部绕3个轴转动示意图;

图4:为本发明实施例中的直角坐标系示意图;

图5:为本发明实施例中的用于会议的耳机信号馈给方法步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参照图1-图5,本发明优选实施例提供了一种用于会议的耳机信号馈给方法,包括:

s1,获取目标区域的空间参数,并根据所述空间参数计算得到目标区域的平均吸声系数;在本实施例中,所述根据所述空间参数计算得到目标区域的平均吸声系数,具体包括:s11,在听众席均匀取多个位置进行混响时间测量,计算出平均混响时间;s12,根据所述平均混响时间和所述空间参数进行计算得到目标区域的平均吸声系数。

首先,测量房间的长宽尺寸,记为l、w、h,单位为米。在听众席均匀取3个位置测量混响时间rtk(k=1,2,3),计算出平均混响时间:

再计算房间平均吸声系数α:

s2,建立所述目标区域的直角坐标系,并在所述直角坐标系中标注发言席和听众席的坐标参数,计算各听众席相对于所述发言席的相对角度;

在房间上建立o-xy坐标系,o-xy平面为会议桌平面,x轴为长边,y轴为短边。如图4所示。发言人的位置坐标设为(xs,ys),听众席的位置坐标设为(xi,yi)(i=1,2,……,n。n为听众席个数)。

在水平面θ=0°和90°分别表示正前和正右方,各听众席相对发言席的角度设为θi(i=1,2,……,n)。

根据听众席和发言席的坐标计算出θi:

s3,获取发言席方向水平面的直达声hrir数据,以及获取水平面的反射声hrir数据;

在本实施例中,所述获取发言席方向水平面的直达声hrir数据,具体包括:在所述相对角度的0°~90°角度范围内,分布式选择九个不同的相对角度的hrir数据作为直达声hrir数据。

在本实施例中,所述获取水平面的反射声hrir数据,具体包括:在所述相对角度的-180°~-90°和-90°~0°的角度范围内,分别选择两个角度方向,共采用四个固定角度方向的hrir数据作为反射声hrir数据。

具体地,用测量或计算的方法获取水平面直达声(发言席方向)的hrir数据,由于会议中发言席在听众席前方或侧向,因此只要-90°~90°之间的hrir数据。另外人耳对前方声音虽然分辨能力较强,但也存在一定的误差,特别是越靠近侧向分辨误差越大。而且会议系统中声像方向无需非常精确,再考虑到人的双耳近似左右对称,因此只需右前方0°~90°之间部分角度的hrir数据,本发明取θq,q=1,2,3,……,9。θq对应的值分别为0°、5°、10°、20°、30°、40°、55°、70°、90°的hrir数据。

用测量或计算的方法获取水平面反射声的hrir数据。本发明采用4个方向的声音来模拟早期反射声,分布在-180°~0°之间,其中-180°~-90°、-90°~0°之间分别取2个方向,例如-25°、-69°、-102°、-151°。这些方向一经确定,则对所有方向的直达声(发言席方向)均采用这4个固定的方向作为反射声。

s4,根据各听众席相对于所述发言席的相对角度选择对应的直达声hrir数据和反射声hrir数据,结合目标区域的平均吸声系数计算静态情况下的双耳声信号;

在本实施例中,所述步骤s4具体包括:

s41,根据所述相对角度选择其对应的所述直达声hrir数据计算得到左耳直达声信号和右耳直达声信号;

在本实施例中,所述步骤s41具体包括:s411,将所述相对角度与分布式选择的九个相对角度进行对比,选择与九个相对角度最接近的角度所对应的一对时域离散hrir数据;在本实施例中,当所述相对角度属于0°~90°角度范围内时,将所述相对角度直接与分布式选择的九个相对角度进行对比;当所述相对角度属于-90°~0°角度范围内时,计算所述相对角度的绝对值后,将所述绝对值与分布式选择的九个相对角度进行对比;当所述相对角度属于-90°~0°角度范围内时,计算得到的总的左、右耳声信号进行互换。s412,将所述时域离散hrir数据的的左耳数据和右耳数据分别与发言席信号的单路时域离散数据卷积,计算得到左耳直达声信号和右耳直达声信号。

s42,根据所述平均吸声系数以及根据所述相对角度选择其对应的所述反射声hrir数据计算得到左耳反射声信号和右耳反射声信号;

在本实施例中,所述步骤s42具体包括:s421,分别确定所述四个固定角度反射声相对于直达声的延时样本点数值;s422,根据所述平均吸声系数进行调整计算得到反射声的强度系数;s423,根据各反射声对应的一对时域离散hrir数据、发言席信号的单路时域离散数据、延时样本点数值和反射声的强度系数,计算得到左耳反射声信号和右耳反射声信号。

s43,根据所述左耳直达声信号和所述左耳反射声信号计算得到总的左耳声信号;根据所述右耳直达声信号和所述右耳反射声信号计算得到总的右耳声信号。

具体地,对各听众席的θi进行调整,下面先考虑0°≤θi≤90°的情况。将θi与θq对比,将θi调整为最接近的θq值,记为θ’i。设发言者的信号用单路时域离散信号e0(n)表示,hli(n)、hri(n)为θ’i对应的一对时域离散hrir。

计算各听众席直达声(发言席方向)的双耳声信号:

eli(n)=hli(n)*e0(n)

eri(n)=hri(n)*e0(n)(6)

其中eli(n)、eri(n)分别表示各听众席的左、右耳直达声信号。

计算各听众席反射声(发言席方向)的双耳声信号:hlj(n)、hrj(n)为表示第j个反射声的一对时域离散hrir,j=1,2,3,4。这4个反射声相对于直达声的延时样本点数dj的取值范围为0.01fs~0.02fs(即10ms~20ms),且4个dj值各不相等,其中fs是系统的采样频率。例如dj=[810,699,591,953],fs=48000hz。双耳声信号通过(7)式计算得到。

e′lj(n)=hlj(n)*β*e0(n-dj)

e′rj(n)=hrj(n)*β*e0(n-dj)(7)

其中e’lj(n)、e’rj(n)分别表示第j个反射声的左、右耳声信号。β表示反射声的强度系数,在(4)计算出来的会议平均吸声系数α基础上进行调整得到。为保证双耳信号有较好的声像距离感,β的取值在0.5~0.7之间,由(8)映射得到:

由上述计算结果,可以计算各听众席总的双耳声信号:

其中eall_li(n)、eall_ri(n)分别表示各听众席直达声与反射声相加后总的左、右耳声信号。

对于-90°≤θi<0°的情况,对各听众席的θi按下述方法进行调整:对θi取绝对值,将|θi|与θq对比,将θi调整为最接近的θq值,记为θ’i。设发言者的信号用单路时域离散信号e0(n)表示,hli(n)、hri(n)为θ’i对应的一对时域离散hrir。执行步骤s3。

则,计算各听众席总的双耳声信号:

其中eall_li(n)、eall_ri(n)分别表示各听众席直达声与反射声相加后总的左、右耳声信号。

s5,根据各听众席耳机的水平角度变化值更新各听众席相对于所述发言席的相对角度后,选择对应的直达声hrir数据和反射声hrir数据,结合目标区域的平均吸声系数计算动态情况下的双耳声信号。

在本实施例中,所述根据各听众席耳机的水平角度变化值更新各听众席相对于所述发言席的相对角度,具体包括:s51,获取各听众席耳机的水平角度初始值;s52,实时获取各听众席耳机的水平角度实时值;s53,根据所述水平角度初始值和所述水平角度实时值计算更新各听众席相对于所述发言席的相对角度。

在本实施例中,所述各听众席耳机的水平角度变化值的获取,是通过在耳机的耳罩上或头梁上安装陀螺仪传感器,用于监测耳机的水平角度变化;所述陀螺仪传感器不会随着头部转动而与耳机发生相对位置变化;所述陀螺仪传感器输出的水平角度范围为-180°至180°;当水平角度为0°时,表示正前方;当水平角度为90°时,表示正右方;当水平角度为-90°时,表示正左方。

具体地,在听众使用的耳机的耳罩上或头梁上安装一个陀螺仪传感器,用于监测耳机的水平角度变化。该陀螺仪传感器要求固定好,不会随着头部转动而与耳机发生相对位置变化。若装在耳罩上则可以是左耳罩也可以是右耳罩。陀螺仪输出的水平角范围定义为-180°≤θ<180°,θ=0°、90°、-90°分别表示正前、正右方、正左方。

首先,测量听众席耳机的水平角度初始值θref_i。会议开始前,将各听众席的耳机放在桌面上,朝向正前方。记录下各听众席耳机的水平角度初始值θref_i。

然后,测量听众席耳机的水平角度实时值θref_i。会议开始后,听众戴上耳机收听发言内容。实时记录下各听众席耳机的水平角度实时值θrt_i。数据刷新率要求为20hz以上。

更新计算出来的听众席相对于发言席的角度θi:

θi=θi–(θrt_i-θref_i)(10)

刷新双耳声信号。对于0°≤θi≤90°的情况,执行步骤s4,对于-90°≤θi<0°的情况,计算所述相对角度的绝对值后,执行步骤s4。

本技术方案的优点在于:

1、各听众席通过耳机重放发言人声信号(或经过翻译后的声信号),听众感知到的声音方位与实际声源基本一致。听众头部转动后,听众感知到的声音方位仍与实际声源基本一致。

2、数据量少、运算量小,易于实现。只需存储13个方向(9个直达声、4个反射声)的hrtf(hrir)数据,只需4个固定方向的hrir来模拟反射声,接近于通过虚源法计算到二阶(共36个方向)的反射声所获得的声像距离感。

3、与耳机重放单声道语言信号相比,声音清晰度有所提升,反射声与直达声的时间间隔控制在20ms以内,且有声像带有方向信息。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1