一种全景声扬声器体感实时交互系统及交互方法与流程

文档序号:12698089阅读:282来源:国知局
一种全景声扬声器体感实时交互系统及交互方法与流程

本申请涉及音频处理技术领域,特别涉及一种全景声扬声器体感实时交互系统及交互方法。



背景技术:

随着音频处理技术的不断发展,音频的质量也在不断攀升。目前,人们对于音频的需求已经不仅仅在于要求更高的音质,而是想要获得沉浸式的音效体验。

当前,人们可以在家中安装家庭音响,从而构成环绕的立体音效。然而,家庭音响的音频扬声器无法满足人们对于音乐的全方位互动需求。当前,人们希望音频扬声器播放的音乐能够随着自己肢体的动作而实时发生改变。例如,人们希望能够随时改变整个声场的环绕效果以及随时调整各个音轨在回放声场中的方位和运动轨迹。

然而,现有的音频扬声器无法满足人们的这种需求。



技术实现要素:

本申请的目的在于提供一种全景声扬声器体感实时交互系统及交互方法,能够通过用户的肢体动作实时地对音频扬声器播放的音频信号进行调整。

为实现上述目的,本申请一方面提供了一种全景声扬声器体感实时交互系统,所述系统包括全景声场信号转换单元、扬声器阵列信号转换单元以及体感设备,其中:所述全景声场信号转换单元,用于将至少一个声源信号转换为具备预设格式的全景声场信号;其中,所述全景声场信号为ambisonic格式信号,包括各个声源信号的能量以及方位角和俯仰角信息;所述体感设备,用于向所述全景声场信号转换单元发送控制信号,以改变所述全景声场信号中各个声源信号的方位角和俯仰角;其中,所述控制信号通过所述体感设备中的至少一个感应器生成;所述扬声器阵列信号转换单元,用于将改变了方位角和俯仰角的全景声场信号转换为扬声器阵列信号,并通过按照预设布局进行配置的至少一个音箱播放所述扬声器阵列信号;其中,所述扬声器阵列信号中信号的数量与所述音箱的数量一致。

进一步地,所述全景声场信号包括一阶ambisonic格式信号和高阶ambisonic格式信号;

对于一阶ambisonic格式信号,共有四个声道信号,其中包括用于表征全方向声波的第一声道信号以及用于分别表征三个垂直方向声波的第二声道信号、第三声道信号以及第四声道信号;相应地,当所述声源信号为音频对象的信号时,所述第一声道信号、第二声道信号、第三声道信号以及第四声道信号分别按照下述公式确定:

其中,W表示所述第一声道信号,X表示所述第二声道信号,Y表示所述第三声道信号,Z表示所述第四声道信号,si表示第i个声源信号,θi表示第i个声源信号的方位角,φi表示第i个声源信号的俯仰角,k表示所述声源信号的总数。

进一步地,所述全景声场信号转换单元包括:判断模块,用于在所述声源信号为声场录音信号时,判断所述声场录音信号的类型;转换模块,用于当所述声场录音信号为ambisonic A格式的信号时,将所述ambisonic A格式的信号转换为ambisonic B格式的信号;当所述声场录音信号为第一阶的ambisonic格式的信号时,通过upmix的方式将所述第一阶的ambisonic格式的信号转换为第二阶的ambisonic格式的信号;其中,所述第二阶高于所述第一阶;当所述声源信号为对象音频时,将所述对象音频信号转换为ambisonic格式信号。

进一步地,所述感应器包括光学传感器、惯性传感器以及机械传感器中的至少一种。

进一步地,所述扬声器阵列信号转换单元按照下述公式转换得到所述扬声器阵列信号:

其中,[L1 L2 … LN]T表示所述扬声器阵列信号,G表示解码矩阵,[W1 X1 Y1 Z1]T表示一阶ambisonic B格式的全景声场信号,N表示所述音箱的数量。

进一步地,所述解码矩阵由所述音箱的布局确定。

为实现上述目的,本申请另一方面还提供一种全景声扬声器体感实时交互方法,所述方法包括:其中,所述全景声场信号为ambisonic格式信号,包括各个声源信号的能量以及方位角和俯仰角信息;通过体感设备向所述全景声场信号转换单元发送控制信号,以改变所述全景声场信号中各个声源信号的方位角和俯仰角;其中,所述控制信号通过所述体感设备中的至少一个感应器生成;利用扬声器阵列信号转换单元将改变了方位角和俯仰角的全景声场信号转换为扬声器阵列信号,并通过按照预设布局进行配置的至少一个音箱播放所述扬声器阵列信号;其中,所述扬声器阵列信号中信号的数量与所述音箱的数量一致。

进一步地,所述全景声场信号包括一阶ambisonic格式信号和高阶ambisonic格式信号;对于一阶ambisonic格式信号,共有四个声道信号,其中包括用于表征全方向声波的第一声道信号以及用于分别表征三个垂直方向声波的第二声道信号、第三声道信号以及第四声道信号;相应地,当所述声源信号为音频对象的信号时,所述第一声道信号、第二声道信号、第三声道信号以及第四声道信号分别按照下述公式确定:

其中,W表示所述第一声道信号,X表示所述第二声道信号,Y表示所述第三声道信号,Z表示所述第四声道信号,si表示第i个声源信号,θi表示第i个声源信号的方位角,φi表示第i个声源信号的俯仰角,k表示所述声源信号的总数。

进一步地,利用全景声场信号转换单元将至少一个声源信号转换为具备预设格式的全景声场信号包括:在所述声源信号为声场录音信号时,判断所述声场录音信号的类型;当所述声场录音信号为ambisonic A格式的信号时,将所述ambisonic A格式的信号转换为ambisonic B格式的信号;当所述声场录音信号为第一阶的ambisonic格式的信号时,通过upmix的方式将所述第一阶的ambisonic格式的信号转换为第二阶的ambisonic格式的信号;其中,所述第二阶高于所述第一阶;当所述声源信号为对象音频时,将所述对象音频信号转换为ambisonic格式信号。

进一步地,所述扬声器阵列信号按照下述公式确定:

其中,[L1 L2 … LN]T表示所述扬声器阵列信号,G表示解码矩阵,[W1 X1 Y1 Z1]T表示一阶ambisonic B格式的全景声场信号,N表示所述音箱的数量。

由上可见,本申请可以将常规的声源信号转换为全景声场信号,该全景声场信号可以体现声源信号的方位角和俯仰角。用户通过体感设备,可以将自身的肢体动作转换为控制信号,该控制信号可以改变全景声场信号中的方位角和俯仰角,从而使得用户的肢体动作能够对全景声场信号进行调节,调节后的全景声场信号可以通过按照预设布局进行配置的音箱进行播放。随着控制信号对方位角和俯仰角的影响,可以改变各个音箱播放的信号分量的大小,从而使得各个信号分量在空间叠加的声波矢量产生变化,从而达到通过肢体动作调节音效的效果。

附图说明

图1为本申请一个实施方式中实时交互系统的结构示意图;

图2为本申请一个实施方式中实时交互方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本申请保护的范围。

请参阅图1,本申请实施方式提供一种全景声扬声器体感实时交互系统,所述系统包括全景声场信号转换单元100、扬声器阵列信号转换单元200以及体感设备300。

其中,所述全景声场信号转换单元100,用于将至少一个声源信号转换为具备预设格式的全景声场信号;其中,所述全景声场信号为ambisonic格式信号,包括各个声源信号的能量以及方位角和俯仰角信息。

所述体感设备300,用于向所述全景声场信号转换单元发送控制信号,以改变所述全景声场信号中各个声源信号的方位角和俯仰角;其中,所述控制信号通过所述体感设备中的至少一个感应器生成。

所述扬声器阵列信号转换单元200,用于将改变了方位角和俯仰角的全景声场信号转换为扬声器阵列信号,并通过按照预设布局进行配置的至少一个音箱播放所述扬声器阵列信号;其中,所述扬声器阵列信号中信号的数量与所述音箱的数量一致。

在本实施方式中,所述体感设备可以实现用户肢体动作的捕捉,并将捕捉的动作转换为能够控制音效的控制信号。该控制信号可以通过低功率蓝牙设备传输给所述全景声场信号转换单元。所述全景声场信号转换单元通过输入的控制信号来改变音频信号的方位、音色、节奏、音高等信息,并将输出声音通过按照预设布局进行排列的多只音箱回放出来,从而实现通过肢体动作控制声音回放的功能。在实施过程中,佩戴体感设备的用户只需通过简单的动作,就能操作音乐的音量大小、开关、音色、节奏、音高和方位等多种音效功能。当然,体感设备也可以用来同步控制现场灯光系统等设备,配合音乐表演元素进行实时同步演出。在本实施方式中,所述体感设备可以具备加速计、陀螺仪与磁力计等一系列感应器。所述体感设备甚至可以检测手臂肌肉活动的细节数据(例如压力),从而可以在音频信号播放过程中进行更加细节的调控。

在本实施方式中,所述全景声场信号包括一阶ambisonic格式信号和高阶ambisonic格式信号;对于一阶ambisonic格式信号,共有四个声道信号,其中包括用于表征全方向声波的第一声道信号以及用于分别表征三个垂直方向声波的第二声道信号、第三声道信号以及第四声道信号;相应地,当所述声源信号为音频对象的信号时,所述第一声道信号、第二声道信号、第三声道信号以及第四声道信号分别按照下述公式确定:

其中,W表示所述第一声道信号,X表示所述第二声道信号,Y表示所述第三声道信号,Z表示所述第四声道信号,si表示第i个声源信号,θi表示第i个声源信号的方位角,φi表示第i个声源信号的俯仰角,k表示所述声源信号的总数。

在本实施方式中,一阶的ambisonic B格式的全景声场信号可以表示为[W X Y Z]T

此外,还可以将音频对象的信号转换为更高阶的ambisonic格式的信号。将音频对象的信号转换为一阶、二阶以及三阶的ambisonic格式的信号可以参阅表1。

表1 0至3阶的ambisonic格式的信号转换

在本实施方式中,所述全景声场信号转换单元还可以包括:

判断模块,用于在所述声源信号为声场录音信号时,判断所述声场录音信号的类型;

转换模块,用于当所述声场录音信号为ambisonic A格式的信号时,将所述ambisonic A格式的信号转换为ambisonic B格式的信号;当所述声场录音信号为第一阶的ambisonic格式的信号时,通过upmix的方式将所述第一阶的ambisonic格式的信号转换为第二阶的ambisonic格式的信号;其中,所述第二阶高于所述第一阶;当所述声源信号为对象音频时,将所述对象音频信号转换为ambisonic格式信号。

在本实施方式中,所述扬声器阵列信号转换单元可以按照下述公式转换得到所述扬声器阵列信号:

其中,[L1 L2 … LN]T表示所述扬声器阵列信号,G表示解码矩阵,[W1 X1 Y1 Z1]T表示一阶ambisonic B格式的全景声场信号,N表示所述音箱的数量。

具体地,所述解码矩阵可以通过求伪逆矩阵来得出。在本实施方式中,音箱的布局决定了上述的解码矩阵。伪逆矩阵(pseudo-inverse)是常用的求解方法,可以使用比如Matlab函数G=pinv(C)=CT(C*CT)-1来求解得到。其中C是重编码矩阵,用来实现从扬声器信号到ambisonic信号的映射。

在本实施方式中,体感设备通常基于光学或惯性传感器,基于惯性的运动感应器套件,通常包括加速度计、陀螺仪和磁力计。在运动跟踪和绝对方向方面每种感应器都有自己固有的强项和弱点。因此常用做法是采用感应器“融合”(sensor fusion)将来自各感应器的信号组合在一起,产生一个更加精确的运动检测结果。从而利用这个信息来控制声源的位置和运动轨迹。也就是说,通过体感设备可以产生控制信号,该控制信号可以影响上述每个声源在空间中的方位角和俯仰角,从而达到交互的目的。在本实施方式中,所述感应器包括光学传感器、惯性传感器以及机械传感器中的至少一种。本系统同时支持两种方位变化(1)改变声源在听觉空间中的位置而听者位置固定;(2)改变听者的位置而固定声源位置。

需要说明的是,Ambisonic A格式在这里是指声场麦克风录制的原始声场信号格式,比较常见的是4路正四面体声场麦克风,当然并不局限于此。Ambisonic B格式是指经过转换的通用的声场格式。具体转换矩阵根据声场麦克风的类型而不同。此外,从低阶到高阶Ambisonic所需要的上混(upmixing)模块通常需要对声场进行主成分和环境成分的分析。

请参阅图2,本申请还提供一种全景声扬声器体感实时交互方法,所述方法包括:

S1:利用全景声场信号转换单元将至少一个声源信号转换为具备预设格式的全景声场信号;其中,所述全景声场信号为ambisonic格式信号,包括各个声源信号的能量以及方位角和俯仰角信息;

S2:通过体感设备向所述全景声场信号转换单元发送控制信号,以改变所述全景声场信号中各个声源信号的方位角和俯仰角;其中,所述控制信号通过所述体感设备中的至少一个感应器生成;

S3:利用扬声器阵列信号转换单元将改变了方位角和俯仰角的全景声场信号转换为扬声器阵列信号,并通过按照预设布局进行配置的至少一个音箱播放所述扬声器阵列信号;其中,所述扬声器阵列信号中信号的数量与所述音箱的数量一致。

在本实施方式中,所述全景声场信号包括一阶ambisonic格式信号和高阶ambisonic格式信号;对于一阶ambisonic格式信号,共有四个声道信号,其中包括用于表征全方向声波的第一声道信号以及用于分别表征三个垂直方向声波的第二声道信号、第三声道信号以及第四声道信号;相应地,当所述声源信号为音频对象的信号时,所述第一声道信号、第二声道信号、第三声道信号以及第四声道信号分别按照下述公式确定:

其中,W表示所述第一声道信号,X表示所述第二声道信号,Y表示所述第三声道信号,Z表示所述第四声道信号,si表示第i个声源信号,θi表示第i个声源信号的方位角,φi表示第i个声源信号的俯仰角,k表示所述声源信号的总数。

在本实施方式中,利用全景声场信号转换单元将至少一个声源信号转换为具备预设格式的全景声场信号包括:

在所述声源信号为声场录音信号时,判断所述声场录音信号的类型;

当所述声场录音信号为ambisonic A格式的信号时,将所述ambisonic A格式的信号转换为ambisonic B格式的信号;

当所述声场录音信号为第一阶的ambisonic格式的信号时,通过upmix的方式将所述第一阶的ambisonic格式的信号转换为第二阶的ambisonic格式的信号;其中,所述第二阶高于所述第一阶;

当所述声源信号为对象音频时,将所述对象音频信号转换为ambisonic格式信号。

在本实施方式中,所述扬声器阵列信号按照下述公式确定:

其中,[L1 L2 … LN]T表示所述扬声器阵列信号,G表示解码矩阵,[W1 X1 Y1 Z1]T表示一阶ambisonic B格式的全景声场信号,N表示所述音箱的数量。

由上可见,本申请可以将常规的声源信号转换为全景声场信号,该全景声场信号可以体现声源信号的方位角和俯仰角。用户通过体感设备,可以将自身的肢体动作转换为控制信号,该控制信号可以改变全景声场信号中的方位角和俯仰角,从而使得用户的肢体动作能够对全景声场信号进行调节,调节后的全景声场信号可以通过按照预设布局进行配置的音箱进行播放。随着控制信号对方位角和俯仰角的影响,可以改变各个音箱播放的信号分量的大小,从而使得各个信号分量在空间叠加的声波矢量产生变化,从而达到通过肢体动作调节音效的效果。

上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述,本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此,虽然已经具体讨论了一些另选的实施方式,但是其它实施方式将是显而易见的,或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化,以及落在上述申请的精神和范围内的其它实施方式。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1