一种获得空间音频定向向量的方法、装置及设备与流程

文档序号：11216439阅读：469来源：国知局

本发明涉及声信号处理技术领域，特别涉及一种获得空间音频定向向量的方法、装置及设备。

背景技术：

在视听技术的发展历史上，从多角度多声道音频技术独立开发(如多平面三维，360°vr等)显示技术一直是个热门领域。随着环绕声的普及，比如：杜比5.1、7.1和最先进的环绕声系统更是高达22.2的24个扬声器，多平面三维显示、vr、ar和mr(混合现实)是一种全新的用户体验，如何满足观众对声音方向/深度信息的需要是急需解决的问题。

技术实现要素：

本发明实施例的主要目的在于提出一种获得空间音频定向向量的方法、装置及设备，提高观众对声音方面的体验度。

为实现上述目的，本发明提供了一种获得空间音频定向向量的方法，包括：

确定多音响系统中声源的位置；

设定参数；其中，所述参数包括：人的反应时间δt、容差率δ；

从所述声源获得声音信号；

利用所述参数对所述声音信号进行处理，获得每一时间段δt内对应的空间音频定向向量

优选地，还包括：

根据所述空间音频定向向量确定向量的向量角θe。

优选地，还包括：

根据向量角θe，确定比例常数d的取值范围；

根据比例常数d的取值范围确定比例常数d的取值。

优选地，所述空间音频定向向量根据向量集合r中元素的个数确定；其中，

集合r的表达方式为：其中，1≤j≤j，根据第j个声道的信号波形在每一时间段δt内所有采样点所对应的幅值的平方的总和确定；j表示多音响系统中声道的总个数；j表示多音响系统中声道的索引值；

当集合r中有且只有一个元素时，当集合r中至少有两个元素时，通过向量集合r中的各向量相加确定；其中，表示第j个声道的时间段δt内对应的信号向量。

优选地，所述比例常数d的取值范围为：

当-90°≤θe≤90°时，则0＜d≤1；

当-180°≤θe＜-90°或90°＜θe≤180°，则-1≤d＜0。

优选地，所述比例常数d的取值为：

当0＜d≤1时，则比例常数d根据向量的模、集合r中每个向量模的平方之和确定；当-1≤d＜0时，则比例常数d根据向量的模、集合r中每个向量模的平方之和的基础上取负确定。

优选地，还包括：

当输入至多音响系统的实际声频不符合所述多音响系统所需声频要求时，对输入至多音响系统的实际声频通过聚合函数或者分解函数进行处理，变换成符合所述多音响系统所需要的声频要求。

对应地，为实现上述目的，本发明还提供了一种获得空间音频定向向量的装置，包括：

声源确定单元，用于确定多音响系统中声源的位置；

参数确定单元，用于设定参数；其中，所述参数包括：人的反应时间δt、容差率δ；

声音信号获取单元，用于从所述声源获得声音信号；

空间音频定向向量获取单元，用于利用所述参数对所述声音信号进行处理，获得每一时间段δt内对应的空间音频定向向量

优选地，还包括：

空间音频定向向量角获取单元，用于根据所述空间音频定向向量确定向量的角度θe。

优选地，还包括：

比例常数取值范围单元，用于根据角度θe，确定比例常数d的取值范围；

比例常数取值单元，用于根据比例常数d的取值范围确定比例常数d的取值。

优选地，所述空间音频定向向量获取单元根据向量集合r中元素的个数确定空间音频定向向量其中，

优选地，所述比例常数取值范围单元确定的比例常数d的取值范围为：

当-90°≤θe≤90°时，则0＜d≤1；

当-180°≤θe＜-90°或90°＜θe≤180°，则-1≤d＜0。

优选地，所述比例常数取值单元确定的比例常数d的取值为：

优选地，还包括：

预处理单元，用于当输入至多音响系统的实际声频不符合所述多音响系统所需声频要求时，对输入至多音响系统的实际声频通过聚合函数或者分解函数进行处理，变换成符合所述多音响系统所需要的声频要求。

为实现上述目的，本发明还提供了一种设备，其中，所述设备包括上述所述的获得空间音频定向向量的装置。

上述技术方案具有如下有益效果：

通过本技术方案获得空间音频定向向量运用该向量为环绕音频信号对应的虚拟影像提供深度和方向方面的空间信息，实现音频信号与影像的匹配，提高观众的观赏感。另外，可以根据空间音频定向向量对家用多音响系统进行调整，优化音箱和用户之间的关系，提高用户的体验度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的方法流程示意图之一；

图2为本发明实施例提供的方法流程示意图之二；

图3为本发明实施例提供的方法流程示意图之三；

图4为比例常数d为正值时的空间音频定向向量示意图；

图5为比例常数d为负值时的空间音频定向向量示意图；

图6为本发明实施例提供的装置框图之一；

图7为本发明实施例提供的装置框图之二；

图8为本发明实施例提供的装置框图之三；

图9为本发明实施例提供的设备框图；

图10为本实施例为裸眼下的3d音视频系统示意图；

图11为本实施例的分析示意图之一；

图12为本实施例的分析示意图之二；

图13为本实施例的参数设置示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种获得空间音频定向向量的方法、装置及系统。

在本文中，需要理解的是，所涉及的术语中：

1、多声道：在多音响系统上使用多个音轨重建声音。在系统中，根据音轨的数量设置不同种类的扬声器或音箱，两个数字通过一个小数点分开，用来分类不同的音响系统。比如：2.1声道、5.1声道、7.1声道、22.1声道等。

2、向量：包括向量大小和向量角。比如：向量r＝x+iy；向量大小通过表示，向量角通过表示。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本技术方案涉及一种设备、方法和装置，用于将多声道音频输入信号转换成空间信息。以下我们称之为空间音频定向向量。多声音音频信号可为5.1环绕声信号、7.1环绕声信号或10.1环绕声信号等等。空间音频定向向量是任何给定时间内多通道信号中的主音频信号，该主音频信号能够被用来控制3d图像的深度或3d视频的深度、以及在三维显示、喷泉表演，广告和交互设备这些方面的应用，对观众的感知方面带来最大的影响。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

在三维、音视频系统中的应用方面，根据空间音频定向向量的比例常数d，确定3d影像呈现在显示屏前面还是在显示屏后面，可以为环绕音频信号的深度和方向方面提供空间信息，实现音频信号与三维影像的匹配，提高观众的观赏感。

对于喷泉主题公园来说，根据喷泉音乐音频获得空间音频定向向量空间音频定向向量可以在喷泉运动或交互投影图像方面提供附加方向，该附加方向为空间音频定向向量的方向，该方向通过向量角θe表示。随着音乐的变化，喷泉喷射方向可以在0°～360°之间变化，提高观众的观赏感。

在虚拟现实中，例如以交互游戏为例，游戏以玩家为中心点，聆听着多音响系统挡放的音乐，玩家前方可以看到前置的左方位、中间、右方位的扬声器，玩家后方有后置的左方位、右方位的扬声器。蝴蝶作为目标，它根据空间音频定向向量的方向呈现在游戏中，玩家可通过头部移动描准目标(蝴蝶)，便可累积得分。在该应用场景中，空间音频定向向量的方向为向量角θe。

示例性方法

下面结合应用场景，参考图1、图2、图3分别对本发明示例性实施方式的方法进行介绍。

需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

参见图1，为本发明实施例提供的方法流程示意图之一。如图所示，获得空间音频定向向量的方法的步骤包括：

步骤101)：确定多音响系统中声源的位置；

在本实施例中，当输入至多音响系统的实际声频不符合所述多音响系统所需声频要求时，对输入至多音响系统的实际声频通过聚合函数或者分解函数进行处理，变换成符合所述多音响系统所需要的声频要求。

步骤102)：设定参数；其中，所述参数包括：人的反应时间δt、容差率δ；

步骤103)：从所述声源获得声音信号；

步骤104)：利用所述参数对所述声音信号进行处理，获得每一时间段δt内对应的空间音频定向向量

在技术方案中，获得的空间音频定向向量是该通道中声音能量最强的声音信号。

对于本实施例来说，步骤104获得的每一时间段δt内对应的空间音频定向向量是根据向量集合r中元素的个数确定；其中，

集合r的表达方式为：其中，1≤j≤j，根据第j个声道的信号波形在每一时间段δt内所有采样点所对应的幅值的平方的总和确定的；j表示多音响系统中声道的总个数；j表示多音响系统中声道的索引值；

比如：在一单声道里传输的声音信号的频率为44100hz，这就意味着声音信号一秒内有44100个采样点。那么，在0.25秒内有11025个采样点。如果设定δt＝0.25s。那么在每一0.25s内，是基于信号波形内11025个采样点各自对应的幅值的平方的总和确定的。然后利用上述步骤104的算法确定每一0.25s内对应的空间音频定向向量

图2为本发明实施例提供的方法流程示意图之二。在图1的基础上，还包括：

步骤105)：根据所述空间音频定向向量确定向量的角度θe。

对于本步骤来说，根据空间音频定向向量就可以直接确定该向量的向量角。

图3为本发明实施例提供的方法流程示意图之三。在图2的基础上，还包括：

步骤106)：根据角度θe，确定比例常数d的取值范围；

如图4所示，比例常数d为正值时的空间音频定向向量示意图。当-90°≤θe≤90°时，则0＜d≤1；

如图5所示，比例常数d为负值时的空间音频定向向量示意图。当-180°≤θe＜-90°或90°＜θe≤180°，则-1≤d＜0。

步骤107)：根据比例常数d的取值范围确定比例常数d的取值。

当0＜d≤1时，则当-1≤d＜0时，则

其中，表示向量的模。表示集合r中每个向量模的平方之和。

当-1≤d＜0时，虚拟影像呈现在显示屏后方，呈现的虚拟影像到显示屏的距离h总的离散个数为其中，δz根据z确定。目标离散间隔数为当0＜d≤1时，虚拟影像呈现在显示屏前方，呈现的虚拟影像到显示屏的距离h总的离散个数为目标离散间隔数为在本实施例中，h表示虚拟影像到显示屏前方的距离最大值，h表示虚拟影像到显示屏后方的距离最大值。对h、h进行离散处理，虚拟影像呈现在以显示屏为起点相应方向的第个δz位置处。比如：比例常数d确定为1，且δz为2，h取值为8，则确定为4，则表示该虚拟影像会在显示屏前方的第4个δz位置处呈现。比例常数d确定为-0.5，且δz为2，h取值为6，则确定为1，则表示该虚拟影像会在显示屏后方的第1个δz位置处呈现。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图7、图8、图9分别对本发明示例性实施方式的装置进行介绍。

如图6所示，为本发明实施例提供的装置框图之一。获得空间音频定向向量的装置包括：

声源确定单元601，用于确定多音响系统中声源的位置；

在本实施例中，当输入至多音响系统的实际声频不符合所述多音响系统所需声频要求时，声源确定单元601，还用于对输入至多音响系统的实际声频通过聚合函数或者分解函数进行处理，变换成符合所述多音响系统所需要的声频要求。

参数确定单元602，用于设定参数；其中，所述参数包括：人的反应时间δt、容差率δ；

声音信号获取单元603，用于从所述声源获得声音信号；

空间音频定向向量获取单元604，用于利用所述参数对所述声音信号进行处理，获得每一时间段δt内对应的空间音频定向向量

对于本实施例来说，空间音频定向向量获取单元604获得的每一时间段δt内对应的空间音频定向向量是根据向量集合r中元素的个数确定；其中，

在获得空间音频定向向量之后，对空间音频定向向量进行处理，获得角度θe和比例常数d。那么，如图7所示，为本发明实施例提供的装置框图之二。在图6的基础上，还包括：

空间音频定向向量角获取单元605，用于根据所述空间音频定向向量确定向量的角度θe。

对于本实施例来说，空间音频定向向量角获取单元605根据空间音频定向向量就可以直接确定该向量的向量角。

如图8所示，为本发明实施例提供的装置框图之三。在图7的基础上，还包括：

比例常数取值范围单元606，用于根据角度θe，确定比例常数d的取值范围；

比例常数取值单元607，用于根据比例常数d的取值范围确定比例常数d的取值。

对于本实施例来说，当-90°≤θe≤90°时，则比例常数取值范围单元606确定比例常数d的取值范围为0＜d≤1，比例常数取值单元607通过表达式确定比例常数取值；当-180°≤θe＜-90°或90°＜θe≤180°，则比例常数取值范围单元606确定比例常数d的取值范围为-1≤d＜0，比例常数取值单元607通过表达式确定比例常数取值。

在上述基础上，当-1≤d＜0时，虚拟影像呈现在显示屏后方，呈现的虚拟影像到显示屏的距离h总的离散个数为其中，δz根据z确定。目标离散间隔数为当0＜d≤1时，虚拟影像呈现在显示屏前方，呈现的虚拟影像到显示屏的距离h总的离散个数为目标离散间隔数为在本实施例中，h表示虚拟影像到显示屏前方的距离最大值，h表示虚拟影像到显示屏后方的距离最大值。对h、h进行离散处理，虚拟影像呈现在以显示屏为起点相应方向的第个δz位置处。比如：比例常数d确定为1，且δz为2，h取值为8，则确定为4，则表示该虚拟影像会在显示屏前方的第4个δz位置处呈现。比例常数d确定为-0.5，且δz为2，h取值为6，则确定为1，则表示该虚拟影像会在显示屏后方的第1个δz位置处呈现。

此外，尽管在上文详细描述中提及装置的若干单元，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。同样，上文描述的一个单元的特征和功能也可以进一步划分为由多个单元来具体化。

示例性设备

基于上述示例性装置和方法，本实施例还提出一种设备，如图9所示。该系统用于获得空间音频定向向量；包括：

存储器a，用于存储请求指令；

处理器b，其与所述存储器耦合，该处理器被配置为执行存储在所述存储器中的请求指令，其中，所述处理器被配置的应用程序用于：

确定多音响系统中声源的位置；

设定参数；其中，所述参数包括：人的反应时间δt、容差率δ；

从所述声源获得声音信号；

利用所述参数对所述声音信号进行处理，获得每一时间段δt内对应的空间音频定向向量

对空间音频定向向量作进一步处理，处理器b进一步被配置的应用程序还用于：

根据所述空间音频定向向量确定向量的角度θe；

根据角度θe，确定比例常数d的取值范围；

根据比例常数d的取值范围确定比例常数d的取值。

本发明实施例还提供一种计算机可读程序，其中当在电子设备中执行所述程序时，所述程序使得计算机在所述电子设备中执行如图1、图2、以及图3所述的获得空间音频定向向量的方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在电子设备中执行如图1、图2、以及图3所述的获得空间音频定向向量的方法。

实施例

为了能够更加直观的描述本发明的特点和工作原理，下文将结合一个实际运用场景来描述。

如图10所示，为本实施例为裸眼下的3d音视频系统示意图。该应用涉及sadev^tm实验，目标是：在裸眼下的3d音视频系统下运用空间音频定向向量来提高观众的体验度。

在本实施例中，以5.1声道为例。5.1声道是指中央声道，前置左、右声道、后置左、右环绕声道，及所谓的0.1声道重低音声道。一套系统总共可连接6个喇叭。5.1声道已广泛运用于各类传统影院和家庭影院中，一些比较知名的声音录制压缩格式，譬如杜比ac-3(dolbydigital)、dts等都是以5.1声音系统为技术蓝本的，其中，“0.1”声道，则是一个专门设计的超低音声道，这一声道可以产生频响范围20～120hz的超低音。5.1声道就是使用5个喇叭和1个超低音扬声器来实现一种身临其境的音乐播放方式，它是由杜比公司开发的，所以叫做“杜比5.1声道”。在5.1声道系统里采用左(l)、中(c)、右(r)、左后(ls)、右后(rs)五个方向输出声音，使人产生犹如身临音乐厅的感觉。五个声道相互独立，其中“.1”声道，则是一个专门设计的超低音声道。正是因为前后左右都有喇叭，所以就会产生被音乐包围的真实感。

假设：

1、五个相同型号的扬声器，该扬声器设置在前方、中央、四周等。

2、对于听众来说，离上述五个扬声器的距离均相同。

3、根据观众的视线方向的角度调整：中央(c)角度为0°，左方(l)角度为-θf，右方(r)角度为θf，左后方(sl)角度为-θs，右后方(sr)角度为θs。

如图11所示，为本实施例的分析示意图之一。在图12中，以屏幕为参照物，outward表示3d影像呈现在屏幕的前方的方向，inward表示3d影像呈现在屏幕的后方的方向。比例常数d取值情况会影响虚拟影像在显示屏的前方还是后方呈现。h表示虚拟影像到显示屏前方的距离最大值，h表示虚拟影像到显示屏后方的距离最大值。h、h两个参数均人为设置。

如图12所示，为本实施例的分析示意图之二。利用本实施例的方法和/装置，设定下列参数。

δ：容差率，取值δ>0；在本实施例中，δ＝0.2。

δt：时间间隔；在本实施例中，δt＝2s。

θf：前置左、右声道的位置角；在本实施例中，θf的绝对值为30°。

θs：后置左、右环绕声道的位置角。在本实施例中，θs的绝对值为120°。

在图13的下方，显示出5个声道传输的声信号的波形。第一幅波形图是左前方声道的信号波形图，第二幅波形图是右前方声道的信号波形图，第三幅波形图是中央声道的信号波形图，第四幅波形图是左后方声道的信号波形图，第五幅波形图是右后方声道的信号波形图。经过本技术方案处理，得到比例常数d在不同的时间段内的取值情况。通过图13下方的第六幅图展示。

有一段音频，多音响系统出厂设置下录制。出厂设置的意思是；录音频时音箱所摆放的特定位置。运用本技术方案获得出厂设置下的比例常数d1。当用户通过家用5.1多音响系统播放这一音频时，用户所设置的音箱的位置未必是出厂设置的位置。为了提高观众的体验度，用户可以自行设定音箱位置，播放这一音频，再通过本技术方案获得比例常数d2.然后比较比例常数d1和比例常数d2之间的大小。如果没有大的分别，即说明用户的自行设置跟出厂设置是比较接近的。反之，如果比例常数之间有一定的相差程度，用户需要继续调节音箱位置，以便贴近出厂设置。从而优化音箱和用户之间的位置关系，提高用户的整体体验度。

以上具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李应樵;林浩生;李天惠
技术所有人：万维数码有限公司
我是此专利的发明人

上一篇：标签检索方法、装置、系统及计算机可读存储介质与流程
上一篇：一种基于深度学习的舆情热点类别划分方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。