音频处理方法及终端设备与流程

文档序号：18515524发布日期：2019-08-24 09:25阅读：216来源：国知局

本发明涉及音频处理技术领域，具体而言，本发明涉及一种音频处理方法及终端设备。

背景技术：

随着人们对ar(augmentedreality，增强现实技术)产品的关注，许多公司和组织都专注于发展ar技术。ar音频是ar领域中的一个关键技术，ar音频能够为用户提供带有空间分辨率的听觉内容，将ar应用的音频信号完美的与真实场景融合在一起，使用户能够有身临其境的ar体验。

当用户佩戴基于ar的终端设备时，终端设备可以在向用户显示图像的同时播放图像内容所对应的音频，使得用户能够在视觉上观看到图像内容的同时，从听觉上听到该图像内容所发出的声音，从而给用户带来沉浸感。

在现实生活中，用户听到的声音实际上是直达声和反射声混响后的声音。如果场景环境不同，即使是同一声源发出的同样的声音，混响后的声音效果也不相同；例如同样的声源，同样的内容，在密闭的空间和在空旷的广场的声音效果是完全不同的。

然而，本发明的发明人发现，现有的ar音频处理方法，只考虑到了获取真实环境中的混响，然后使用该混响对虚拟声音进行渲染。但在ar应用中，通常会添加/删除/移动真实对象或虚拟对象，或改变应用场景，但是现有技术并没有考虑这些操作对真实环境的改变，进而对真实环境声音产生了影响。

由上可见，现有的ar音频处理方法并没有考虑到环境变化对声音的影响，导致用户在ar应用中听到的声音不自然，与ar场景不匹配，这极大的降低了用户的ar体验。

技术实现要素：

本发明针对现有方式的缺点，提出一种音频处理方法及终端设备，用以解决现有技术存在ar音频与ar场景(图像)不匹配的问题。

本发明根据一个方面，提供了一种音频处理方法，包括：

确定出虚拟现实ar操作涉及的真实场景和/或操作后ar场景的混响参数；

根据所述真实场景和/或操作后ar场景的混响参数，确定所述操作后ar场景对应的ar音频。

本发明根据另一个方面，还提供了一种终端设备，包括：

存储器；

处理器；

至少一个程序，存储于所述存储器中，被配置为由所述处理器执行时实现本发明提供的音频处理方法。

本发明中真实场景和操作后ar场景的混响参数，能够反映ar操作对场景的混响效果的影响，根据真实场景和/或操作后ar场景的混响参数确定出的操作后ar场景对应的ar音频，可以使得用户可以听到与ar场景相匹配的声音，增强了用户针对ar场景的沉浸感，提升了用户的体验。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为空间遗留声对听者的影响示意图；

图2a为本发明的空间中的直达声和反射声的一个特例的示意图；

图2b为本发明的对空间添加虚拟障碍物对混响的影响的一个特例的示意图；

图2c为本发明的对空间移除虚拟障碍物对混响的影响的一个特例的示意图；

图3为本发明的音频处理方法的流程示意图；

图4a为本发明实施例一的音频处理方法的流程示意图；

图4b为本发明实施例一的与机器人在场景中对话的一个实例的示意图；

图4c为本发明实施例一的用户与机器人在场景中对话对应的音频处理方法的原理框架图；

图4d为本发明各实施例通用的空间内混响成分示意图；

图4e为本发明各实施例通用的空间内混响参数计算示意图；

图4f为本发明各实施例通用的空间内早期反射参数计算示意图；

图5a为本发明实施例二的音频处理方法的流程示意图；

图5b为本发明实施例二的改变与说话人对话的场景的一个特例的示意图；

图5c为本发明实施例二的改变与说话人对话的场景对应的音频处理方法原理框架图；

图6a为本发明实施例三的音频处理方法的流程示意图；

图6b为本发明实施例三的移除场景内说话人及其声音的一个特例的示意图；

图6c为本发明实施例三的移除场景内说话人及其音频信号对应的音频处理方法原理框架图；

图6d为本发明多个实施例通用的音频信号反相消除的原理示意图；

图6e为本发明多个实施例通用的音频信号自适应滤波的原理示意图；

图7a为本发明实施例四的音频处理方法的流程示意图；

图7b为本发明实施例四的移动场景内说话人位置及其声音的一个特例的示意图；

图7c为本发明实施例四的移动场景内说话人位置及其音频信号对应的音频处理方法原理框架图；

图8a为本发明实施例五的音频处理方法的流程示意图；

图8b为本发明实施例五的移除场景内障碍物的一个特例的示意图；

图8c为本发明实施例五的移除场景内障碍物对应的音频处理方法原理框架图；

图9a为本发明实施例六的音频处理方法的流程示意图；

图9b为本发明实施例六的向场景内添加新角色且保持对话的一个特例的示意图；

图9c为本发明实施例六的向场景内添加新角色且保持对话对应的音频处理方法原理框架图；

图10a为本发明实施例七的移除场景内障碍物并移动场景内说话人位置及其声音的一个特例的示意图；

图10b为本发明实施例七的移除场景内障碍物并移动场景内说话人位置及其音频信号对应的音频处理方法原理框架图；

图11a为本发明实施例八的音频处理方法的流程示意图；

图11b为本发明实施例八的将不同场景说话人及其声音移动至同一空间的一个特例的示意图；

图11c为本发明实施例八的将不同场景说话人及其音频信号移动至同一空间对应的音频处理方法原理框架图；

图12为本发明实施例九的终端设备的内部结构的框架示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；pcs(personalcommunicationsservice，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；pda(personaldigitalassistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(globalpositioningsystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是pda、mid(mobileinternetdevice，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本发明的发明人发现，现有的ar音频处理方法，只考虑到了获取真实环境中的混响，然后使用该混响对虚拟声音进行渲染。但在ar应用中，通常会添加/删除/移动真实对象或虚拟对象，或改变应用场景，但是现有技术并没有考虑这些操作对真实环境的改变，进而对真实环境声音产生了影响。

例如，当用户在真实场景中移动说话人a的位置，由于a位置的改变，混响环境也发生了改变。若使用现有技术对这一情景进行处理，则混响环境始终固定，这并不符合实际情况。

又例如，当用户希望与虚拟机器人的对话发生在真实环境中时，用户会使用ar操作向真实环境中添加虚拟机器人。若使用现有技术对这一情景进行处理，则获取的混响为添加机器人之前的混响。而实际在向真实场景添加机器人后，真实场景的混响应该随之改变。

由上可见，现有的ar音频处理方法导致用户在ar应用中听到的声音不自然，与ar场景不对应且不匹配。

此外，本发明的发明人还发现，当用户佩戴终端设备收听声音时，由于终端设备中的耳机大多存在漏音的情况，不能完全隔绝周围环境的真实声音，因此听者实际会听到两种声音，分别为经过耳机直放的声音信号，和声音经过空间传播后遗留的声音信号。

如图1所示，如果此时用户通过佩戴的耳机设备接收ar音频或正在和某些智能设备或智能应用(如虚拟机器人等)进行语音交互，那么用户实际听到的声音中，不仅包含经过ar处理后的音频(由设备播放的声音所表示)，还包括耳机设备的漏音，即周围环境的真实声音(由外界空间的遗留声表示)，而且真实声音和处理后的声音存在一定时延，因此用户听到的声音与ar场景不匹配，不自然。

综上所述，现有技术的ar音频处理有如下的问题：

1)现有的ar音频处理方法并没有考虑到环境变化对声音的影响，导致用户在ar应用中听到的声音不自然，与ar场景不匹配，这极大的降低了用户的ar体验。

2)现有的音频渲染技术没有考虑到耳机设备的漏音情况，即使用户戴上耳机，仍然无法完全隔绝外界的声音，因此使得用户听到的音频与ar场景不匹配，降低了用户的ar体验。

本发明的发明人针对声音在环境中的传播方式进行了研究，下面具体介绍直达声和反射声。

本发明的发明人经过研究发现，图2a为本发明的空间中的直达声和反射声的一个特例的示意图，如图2a所示，在空间中，声音经过传播后会形成两种声音——直达声和反射声。直达声即从声源直接到达听者的声音信号；而经过建筑物或其他物体反射后进入人耳的声音，被称为反射声。由于经过了障碍物的反射，反射声较直达声会更晚到达人耳，通常延时在50ms(毫秒)以内，但也能更好的反映空间中的声源信息。由于周围空间环境的不同，反射声也会随之改变，因而不同的空间环境会产生不同的混响。

由于ar场景与实际场景不同，如果想让用户有身临其境的听觉感受，用户听到的声音应该与ar场景一致，即用户听到的声音应为按照ar场景环境进行混响后的声音。也就是说，结合空间内的混响考虑，需要结合实际空间情况或需求，完成对ar音频声音效果的改变。举例场景如下：

图2b为本发明的对空间添加虚拟障碍物对混响的影响的一个特例的示意图，如图2b所示，当在用户处于ar环境中时，从声源到听者的传播途径中，如果有新的虚拟障碍物产生，那么该障碍物会阻断部分直达声和反射声的传播，对空间混响产生影响。因而需要按照添加障碍物后的ar环境对声音进行混响处理，使听者获取的声音更加自然，更贴近ar场景。

图2c为本发明的对空间移除虚拟障碍物对混响的影响的一个特例的示意图，如图2c所示，当在用户处于真实环境中时，从声源到听者的传播途径中，有障碍物存在对空间混响产生了影响，会干扰听者对声源声音的获取。但是在ar环境中，可以移除该障碍物，因而需要按照移除障碍物后的ar环境对声音进行混响处理，使听者获取的声音更加自然，更贴近ar场景。

综上所述，针对ar场景，为了使用户听到的声音与ar环境一致，让用户有更贴近ar场景的声音感受，可以根据ar场景环境，对需要播放给用户的声音进行混响重建渲染，然后再呈现给用户。

在ar应用中，虚拟对象的位置和用户位置都是已知的。当用户佩戴耳机设备收听ar音频或进行交互时，可以对待播放给用户的音频使用双耳渲染技术进行渲染处理，然后再播放给用户。

下面结合附图介绍本发明的技术方案。

本发明提供了一种音频处理方法，该方法的流程示意图如图3所示，包括：s301确定出虚拟现实ar操作涉及的真实场景和/或操作后ar场景的混响参数；s302根据真实场景和/或操作后ar场景的混响参数，确定操作后ar场景对应的ar音频。

本发明中确定出的操作后ar场景的混响参数，包括了ar操作对场景的混响效果的影响，根据操作后ar场景的混响参数，对目标对象的音频信号进行渲染，可以得到该目标对象与操作后ar场景相配的音频信号；进而可以得到ar操作后的ar场景的音频信号，播放该音频信号可以使得用户可以听到与ar场景相匹配的声音，增强了用户针对ar场景的沉浸感，提升了用户的体验。

较佳地，本发明中的ar操作包括下述至少一项：

添加虚拟对象至真实场景；

切换真实对象所在的场景；

从真实场景中移除真实对象；

在真实场景中移动真实对象；

移除真实场景中的遮挡物。

较佳地，本发明提供的音频处理方法的s301中，确定出ar操作涉及的真实场景的混响参数，包括：根据真实场景的视频信号，确定出真实场景的三维信息；根据真实场景的三维信息和ar操作，确定出ar操作涉及的真实对象在真实场景中的位置；根据真实场景的三维信息和真实对象在真实场景中的位置，估计出真实场景的混响参数。需要说明的是，在后续的多个实施例(例如实施例二～八)中，ar操作涉及的真实对象可以相同，也可以有所不同，具体在后续实施例中详细介绍，此处不赘述。

较佳地，本发明提供的音频处理方法的s302中，确定操作后ar场景对应的ar音频，包括：根据真实场景的混响参数，对真实场景中ar操作涉及的真实对象的音频信号进行去混响处理，得到真实对象的原始音频信号；根据真实对象的原始音频信号和真实场景的音频信号，确定操作后ar场景对应的ar音频。详细处理流程可以参见后续的实施例三～八。

进一步的，根据真实对象的原始音频信号和真实场景的场景音频信号，确定操作后ar场景对应的ar音频，包括：根据操作后ar场景的混响参数，对真实对象的原始音频信号进行渲染，得到真实对象在操作后ar场景下的音频信号；将真实对象在操作后ar场景下的音频信号和真实场景的音频信号进行混音处理，得到操作后ar场景对应的ar音频。详细处理流程可以参见后续的实施例四～八。

此外，对于用于用户而言，如果ar场景的外界环境(真实场景)只有稳定的环境声，则不需要处理；如果外界环境中存在干扰的人声(例如ar操作的真实对象的声音)，则可以考虑空间遗留声的问题。

下面结合附图具体介绍本发明的多个实施例。

实施例一

本发明实施例一的音频处理方法的流程示意图如图4a所示，包括下述步骤：s401当ar操作为添加虚拟对象至真实场景时，确定出添加虚拟对象后的ar场景的混响参数；s402根据添加虚拟对象后的ar场景的混响参数，对虚拟对象的音频信号进行渲染，得到虚拟对象在ar场景下的音频信号；s403对真实场景的环境音频信号和虚拟对象在ar场景下的音频信号进行混音处理，得到添加虚拟对象后的ar场景对应的ar音频。

较佳地，步骤s401的确定出添加虚拟对象后的ar场景的混响参数包括：根据真实场景的三维信息和ar操作，确定出虚拟对象在ar场景中的位置；根据真实场景的三维信息和虚拟对象在ar场景中的位置，估计出添加虚拟对象后的ar场景的混响参数。

下面结合应用场景具体介绍本发明实施例的音频处理方法。

本发明实施例公开了一种用户使用ar应用时，希望与添加的虚拟对象在真实场景中进行交互(如添加虚拟语音机器人，在真实场景中与该虚拟语音机器人进行对话，下文以虚拟机器人为例进行说明)，通过修改耳机中播放的音频信号，使场景和听到音频信号匹配、听觉更舒适的方法。

场景：

用户佩戴ar设备和耳机；用户希望与机器人的对话发生在真实场景中(如图4b)。需要将机器人音频信号放入真实场景中，匹配对应的混响环境，使音频信号听起来更自然。

图4c为本发明实施例一中用户与机器人在场景中对话对应的音频处理方法的原理框架图。

假设用户的位置为puser，用户希望将虚拟语音机器人放置在真实场景的位置为p1，目标是修正真实场景内加入机器人后的混响，输出适应场景的音频信号，使音频信号听起来自然、与场景匹配。

步骤1：ar应用内部模拟得到虚拟的音频信号svirtual，通过麦克风阵列得到真实场景的音频信号sreal_scene；通过摄像头得到真实场景的视觉信号v。

步骤2：对视觉信号v，使用视觉环境信息检测器来估计当前场景的三维信息，以及检测用户自身在场景中的位置puser。

对于终端设备而言，终端设备上播放的图像与预设的用户观测位置(双眼位置)之间的真实距离是固定可测得的，根据该真实距离可以估计出用户在图像所表示的场景中的位置。当图像所表示场景为真实场景时，即为用户在真实场景中的位置。

步骤3：利用步骤2得到的用户自身的位置puser和场景的三维信息，以及用户的ar操作，进行虚拟对象位置检测，得到机器人的目标位置p1。

步骤4：利用步骤3得到的位置p1、用户自身的位置puser以及场景的三维信息，估计出场景混响参数r。下面将举例可使用的混响参数获得方法。

前文介绍到空间内混响由直达声和反射声组成，其中反射声又分为早期反射声和晚期反射声。早期反射声只在空间内经过了一次或两次反射，图4d中可以看出，早期反射声因为反射次数较少，能够被清晰分辨；晚期反射声则由于经过不断的反射而无法被分辨。因此，早期反射声和晚期反射声的混响参数计算方法不同。图4e为空间内混响参数计算示意图。其中，可以根据用户位置和声源位置，确定声源传输方向。

根据声源位置、声源传输方向及场景的三维信息，可以模拟获得空间内早期反射声的反射路径，图4f为空间内早期反射参数计算示意图，如图4f所示，利用这些模拟的传输路径，可以计算出音频信号经过反射前后的角度变化，从而得到早期反射参数。

晚期反射参数则可以通过场景的三维信息与brir(binauralroomimpulseresponse双耳腔脉冲响应)模型库(已知)匹配，获得相似场景的brir，并计算场景的edr(energydecayrelief，能量衰减释放)参数，根据能量衰减参数对晚期反射参数进行修改，合成得到brir，并结合早期反射参数获得最终的混响参数。

步骤5：对虚拟音频信号svirtual，提取虚拟语音机器人(属于虚拟对象)的音频信号s1，对于举例场景，虚拟音频信号svirtual即为虚拟语音机器人的音频信号s1；对真实场景音频信号sreal_scene，提取真实场景的环境声s1_ambient，对于举例场景，真实场景音频信号sreal_scene即为环境声s1_ambient。

步骤6：使用r对虚拟语音机器人的音频信号s1进行音频渲染，得到新混响环境下的音频信号s1_rerender，其中既包括直达声也包括反射声。

本发明中可以采用多种渲染，下面举例介绍可使用的具体渲染办法。①将角度和距离分解，分别采用hrtf(head-responsetransferfunction，头相关变换函数)和rir(roomimpulseresponse，房间脉冲响应)进行渲染；②采用brir进行渲染。

①角度/距离分解渲染法

hrtf的获得：

人耳能定位来自三维空间的音频信号，这得力于人耳对音频信号的分析系统。从空间任意一点传到人耳的信号都可以用一个滤波系统来描述。假设这个传输系统是一个黑盒子，且已知音源和双耳信号，如果得到这组描述空间信息的滤波器(传递函数)，即hrtf(可以看成是一个特定位置的音频信号传输到左右耳的频率响应)，就能还原来自空间这个方位的音频信号(如通过双声道耳机就可以获取到双耳信号)。

公式(1)和(2)中，pl、pr是声源在听音者左、右耳产生的复数声压；p0是空间内无人时原人头中心位置处的复数声压。hrtf是声源的水平方位角θ、仰角声源至人头中心的距离r和声波的角频率ω的函数，且与人头的大小a有关。

在时域里，头部相关传输函数hl、hr对应于hrir(head-relatedimpulseresponse，头相关脉冲响应)hl、hr，也称双耳脉冲响应，并与hl、hr互为傅立叶变换对：

及

若用半径与人头相似的钢球模型来类比人头，根据理论声学中的声波散射理论，可计算出近似的hrtf。在水平面情况下，把人头近似成一个中心在原点、半径为a的固定不动的钢球，人的双耳位于钢球上相对的左右两点。对于水平面内θ方向的声源，可以作为远场平面波近似。这样，水平方位角为θ的点声源在双耳处产生的复声压为

式中，pm为m阶勒让德多项式，k为波数，p0为常数，a为人头半径，θ为声源的水平方位角(-180°<θ≤180°，θ＝0°为正前方，θ＝90°为正左方)，bm由下式给出，其中hm为m阶第一类球汉开尔函数：

根据hrtf的定义式，并经过进一步的整理，可以得到计算hrtf的公式：

角度定位使用hrtf函数来渲染：

y(t)＝s(t)*h(t).......................(公式12)

式中，y(t)为接收到的信号，s(t)为源信号，h(t)即为hrtf。hrtf可通过测量计算获得，或使用已知的hrtf数据库。

距离定位使用rir函数来渲染：

房间脉冲响应(roomimpulseresponse)可以模拟音频信号在一定的反射环境下到达人耳的过程，营造音频信号在特定环境下的三维混响效果。

在已知空间条件下，可以通过多组声源和声接受位置的组合，测量得出此空间的rir。

房间脉冲响应也可通过合成方法获得。设能量脉冲响应长度为n，采样时间间隔为t(一般为5ms或1ms)，则能量脉冲响应e(k)可表示为：

公式(13)中i为对应中心频率为31.5hz～16khz(根据实际需要)的10个倍频带。

由于能量脉冲响应不含有相位信息，因而可以用产生和房间能量脉冲响应长度相等、采样间隔相同的白噪声信号：

n(k)＝n(t)|t＝kt＝n(t)δ(t-kt)............(公式14)

并将上述白噪声信号复制多份(如10份)，用各倍频带能量脉冲响应的均方根分别调制对应频带的白噪声信号，即

然后，采用iir(infiniteimpulseresponse，无限冲击脉冲响应)数字滤波器去掉各倍频带多余的频率成分。为了提高处理速度，在满足采样定理的条件下，对各倍频带信号进行重采样。例如，当t＝1ms，对中心频率为31.5hz，63hz，250hz等倍频带进行m倍下采样，

j为n/m的最大整数。对中心频率为500hz～16khz等倍频带信号进行l倍上采样，

将各倍频带的脉冲响应进行ri倍上采样，使采样频率为44.1khz。

ni为各倍频带房间脉冲响应的长度。最后，将得到的各倍频带房间脉冲响应相加得：

p(t)为合成的房间脉冲响应，式中t′＝1/fs。

房间声信号传播的传统模型认为房间是一个线性时不变系统，因而可以利用房间脉冲响应描述。在时域可以表示为

y(t)＝s(t)*h(t).......................(公式20)

公式(20)中，y(t)为接收到的信号，s(t)为源信号，h(t)即为rir。rir可通过测量计算获得，或使用已知的rir数据库。在频域可以写为

y(jω,m)＝s(jω,m)h(jω,m)..............(公式21)

公式(21)中，m为帧数标号。

②brir渲染法

brir的测量测量需要将双耳传声器采用封闭耳道方法佩戴在被测对象的耳道入口处，用于声压信号的捡拾。设置两组或以上的声源和声接受位置，采用mls(maximumlengthsequence，最大长度序列)信号作为测量激励信号，并由佩戴在被测对象上的双耳传声器捡拾声压信号，经适调放大器放大后，再经声卡的a/d(analog/digital，模拟/数字)变换器输入到计算机，最后进行解卷积运算得到brir。

y(t)＝s(t)*h(t).......................(公式22)

由于在已知空间条件下，则此空间的brir函数已知，可通过直接卷积获得新混响。公式(22)中，y(t)为接收到的信号，s(t)为源信号，h(t)即为brir。brir可通过测量计算获得，或使用已知的brir数据库。

步骤7：利用混音器混合s1_rerender和s1_ambient，并通过耳机播放，得到添加虚拟语音机器人的音频信号至真实场景后的ar音频信号sout。

sout＝s1_rerender+1_ambient...............(公式23)

本发明实施例一中，利用添加虚拟对象后的ar场景的混响参数对虚拟对象的音频信号进行渲染，与传统的利用未添加虚拟对象的原始场景的混响参数对虚拟对象的音频信号进行渲染相比，显然前者渲染后得到的虚拟对象在操作后ar场景下的音频信号，与ar场景更为匹配，从而使得基于虚拟对象在操作后ar场景下的音频信号混音处理得到的ar音频，与ar场景更为匹配；使用用户可以听到与ar场景更为匹配的ar音频，大大增强用户的沉浸感。

实施例二

本发明实施例二的音频处理方法的流程示意图如图5a所示，包括下述步骤：s501、当ar操作为将第一真实对象从所在的第一场景切换到第二场景时，确定第一场景和切换到第二场景后形成的ar场景的混响参数；s502、根据第一场景的混响参数，对需切换的第一真实对象的音频信号进行去混响处理，得到第一真实对象的原始音频信号；s503、根据ar场景的混响参数，对第一真实对象的原始音频信号进行渲染，得到第一真实对象在ar场景下的音频信号；s504、将第一真实对象在ar场景下的音频信号和第二场景的环境音频信号进行混音处理，得到ar场景对应的ar音频。

较佳地，步骤s501中，确定第一场景和切换到第二场景后形成的ar场景的混响参数，包括：根据第一场景的三维信息和第一真实对象在第一场景中的位置，估计出第一场景的混响参数；根据第二场景的三维信息和ar操作，确定出第一真实对象在ar场景中的位置；根据第一真实对象在ar场景中的位置和第二场景的三维信息，估计出ar场景的混响参数。其中，第二场景的三维信息可以是已知的，也可以是实时根据切换后ar场景的视频信号确定的。

较佳地，当ar操作为切换真实对象所在的场景时，ar操作涉及的真实对象为切换场景的真实对象。

下面结合应用场景具体介绍本发明实施例的音频处理方法。

本发明实施例公开了一种用户使用ar应用时，改变了与说话人(即上述真实对象)的对话场景，通过修改耳机中播放的音频信号，使场景和听到音频信号匹配、听觉更舒适的方法。

场景：

用户佩戴ar设备和耳机；用户改变了真实对象(如说话人a1)发生对话的场景(如图5b)。需要将说话人a1的声音从真实场景一移至真实/虚拟场景二中，匹配对应的混响环境，使声音听起来更自然。

图5c为本发明实施例二中改变与说话人对话的场景对应的音频处理方法原理框架图。

假设用户的位置为puser，用户改变了对话场景，且可能导致说话人的位置也发生了改变，目标是修正改变场景后用户接收到的音频信号，使音频信号听起来自然、与场景匹配。

步骤1：ar应用通过麦克风阵列得到切换前的真实场景(场景一)的音频信号sreal_scene1；通过摄像头得到切换前的真实场景(场景一)的视觉信号v1；若切换至真实场景，可通过摄像头得到切换后的真实场景(场景二)的视觉信号v2，通过麦克风得到切换后真实场景(场景二)的环境音频信号s2_ambient；若切换至虚拟场景，可通过ar应用内部模拟得到切换后的虚拟场景(场景二)的虚拟场景视觉信号v2，切换后的虚拟场景的环境音频信号s2_ambient。

步骤2：对场景一的视觉信号v1，使用视觉环境检测器来估计当前场景一的三维信息，以及检测用户自身在场景中的位置puser(用户在场景一或二中的位置相同)。

步骤3：利用步骤2估计出的场景一的三维信息，以及用户的ar操作，得到目标说话人a1(属于用户的说话对象或目标)的在场景一中的原位置p1。

步骤4：利用步骤3得到的位置p1，用户自身的位置puser以及场景的三维信息，估计出原混响参数rori。具体实施办法参见实施例一步骤4。

步骤5：对视觉信号v2，估计目标场景二的三维信息，根据场景二的三维信息以及用户的ar操作，得到目标说话人在场景二中的目标位置(即新位置)p2。其中，场景二的三维信息也可以是已知的，例如预存的。

步骤6：利用步骤5得到的目标说话人的位置p2，用户的位置puser及场景二的三维信息，得到修改后的现混响参数rmod。具体实施办法见实施例一步骤4。位置p2可能与位置p1相同。本实施例中步骤5-6与步骤3-4顺序可颠倒。

步骤7：利用rori对a1的音频信号s1(s1为从sreal_scene1中进说话人原位置提取获得的)进行去混响，得到目标说话人的原始音频信号s1_raw。

本发明中采用多种去混响方法。例如可以基于复倒谱滤波的语音去混响。在复倒频域语音和rir很容易分离的情况，或rir的复倒谱为很突出的峰值便于检测的情况，可以通过复倒谱滤波的方式实现去混响。对混响语音信号分帧加汉明窗，对每帧分别计算其复倒谱和倒谱，再通过低通滤波器滤出后转换到时域，重构原始纯净的语音信号。

步骤8：利用rmod对去混响后的目标说话人的原始音频信号s1_raw进行音频渲染，得到新混响环境下的音频信号s1_rerender，其中既包括直达声也包括反射声。具体实施办法见实施例一步骤6。

步骤9：利用混音器混合s1_rerender和s2_ambient，得到ar音频信号sout，并通过耳机播放。

sout＝s1_rerender+s2_ambient

本发明实施例二中，利用切换真实对象所在场景后的ar场景的混响参数对真实对象的音频信号进行渲染，与传统的利用切换前的原始场景的混响参数对真实对象的音频信号进行渲染相比，显然前者渲染后得到的真实对象在切换后ar场景下的音频信号，与切换后ar场景更为匹配，从而使得基于真实对象在切换后ar场景下的音频信号混音处理得到的ar音频，与切换后ar场景更为匹配；使得用户可以听到与切换后ar场景更为匹配的ar音频，大大增强用户的沉浸感。

实施例三

本发明实施例三的音频处理方法的流程示意图如图6a所示，包括下述步骤：s601、当ar操作为从真实场景中移除真实对象时，确定出真实场景的混响参数；s602、根据真实场景的混响参数，对真实场景中需移除的真实对象的音频信号进行去混响处理，得到真实对象的原始音频信号；s603、根据真实对象的原始音频信号和真实场景的音频信号，确定移除真实对象后的ar场景对应的ar音频。

较佳地，上述步骤s601中，确定出真实场景的混响参数，包括：根据真实场景的三维信息和ar操作，确定需移除的真实对象在真实场景中的位置；根据真实场景的三维信息和真实对象在真实场景中的位置，估计出真实场景的混响参数。

较佳地，上述步骤s603中，确定移除真实对象后的ar场景对应的ar音频，包括：根据真实场景的混响参数和真实对象的原始音频信号，确定真实对象的反射音频信号；根据真实场景中真实对象的音频信号，确定真实对象的直达音频信号；从真实场景的音频信号中消除真实对象的反射音频信号和直达音频信号，得到移除真实对象后的ar场景对应的ar音频。

在本发明实施例三中，ar操作涉及的真实对象为移除的真实对象。

下面结合应用场景具体介绍本发明实施例的音频处理方法。

本发明实施例公开了一种用户使用ar应用时，移除真实场景中的物体后，通过修改耳机中播放的音频信号，使场景和听到音频信号匹配、听觉更舒适的方法。

场景：

用户佩戴ar设备和耳机；用户希望移除真实场景中的说话人a1(如图6b所示)。在移除说话人a1的同时，空间的混响环境随之发生改变，需要对音频信号重新渲染，以便和新的混响环境相匹配。

图6c为本发明实施例三的移除场景内说话人及其音频信号对应的音频处理方法原理框架图。

假设用户的位置为puser，目标是去除在位置p1的说话人a1发出的音频信号s1，修正场景内的混响，使音频信号听起来自然、与场景匹配。

步骤1：ar应用通过麦克风阵列得到真实场景的音频信号sreal_scene；通过摄像头得到真实场景的视觉信号v。

步骤2：对视觉信号v，使用视觉环境信息检测器来估计当前场景的三维信息，以及检测用户自身在场景中的位置puser。

步骤3：利用步骤2估计出的三维信息，以及用户的ar操作，得到目标说话人a1的位置p1。

步骤4：利用步骤3得到的位置p1，用户自身的位置puser以及场景的三维信息，估计出原混响参数rori。具体实施办法见实施例一步骤4。

步骤5：利用rori对a1的音频信号s1(s1为根据位置p1，从sreal_scene中的说话人原位置提取获得的)进行去混响，得到目标说话人的原始音频信号s1_raw。具体实施办法见实施例二步骤7。

步骤6：利用rori对原始音频信号s1_raw进行人声反射声合成，得到s1_reverb，其中只包含反射声，不包含直达声。具体实施办法见实施例一步骤6。

步骤7：提取a1的音频信号s1中的人声特征，如音高(pitch)特征等，并根据特征预测，合成人声的直达声成分s1_direct。具体的：根据人声特征预测得到基频、线性预测系数，然后根据基频、线性预测系数和码本，使用码激励线性预测编码(celp，codeexcitedlinearprediction)技术(或其他编码技术)合成直达声。

步骤8：需要对真实场景的音频信号sreal_scene进行人声消除，消除部分为步骤7和步骤8得到的s1_reverb、和s1_direct信号，得到处理后消去人声的ar音频信号sout(也是环境音频信号s1_ambient)。

较佳地，本发明中可以采用多种方法消除人声。下文将举例人声消除方法。

①反相处理

图6d为音频信号反相消除一个特例的示意图，声音消除可以通过反相处理实现。通过发出与输入音频相位相反，频率、振幅相同的声波与原输入音频干涉，实现相位抵消。

②lms(leastmeansquare，最小均方)误差算法

图6e为自适应滤波的原理方法示意图，自适应滤波器是以输入和输出信号的统计特性的估计为依据，采取特定算法自动地调整滤波器系数，使其达到最佳滤波特性的一种算法或装置。自适应滤波器对输入信号序列x(n)的每一个样值，按特定的算法，更新、调整加权系数，使输出信号序列y(n)与期望输出信号序列d(n)相比较的均方误差为最小，即输出信号序列y(n)逼近期望信号序列d(n)。

lms算法即最小均方误差算法，是一种搜索算法，它通过对目标函数进行适当的调整，简化了对梯度向量的计算方法。自适应滤波器是用线性组合器来实现，在多个输入信号的情形时，线性组合器输出了自适应滤波器参数的最优解。最优解是通过以下步骤计算的：

第一步，滤波器输出：y(n)＝w^t(n)x(n)

第二步，计算误差：e(n)＝d(n)-y(n)

第三步，权值更新：w(n+1)＝w(n)+2μe(n)x(n)

其中μ是收敛因子，即表示单次调节的步长，是一个常数需要在实际的应用中进行确定。w(n)是自适应滤波器的权系数。

对应本步骤中的声音信号，参数分别为：

x(n)：sreal_scene

y(n)：sout

d(n)：s1_reverb+s1_direct

③rls(recursiveleastsquare，递归最小二乘)算法

rls算法即递推最小二乘法，它是考察一个由平稳信号输入的自适应系统在一段时间内输出误差信号的平均功率，并使该平均功率达到最小作为自适应系统的性能准则。

第一步，初始化：w(0)＝0，r(0)＝δ^-1i

第二步，滤波器输出：y(n)＝w^h(n-1)u(n)

计算误差：e(n)＝d(n)-y(n)

第三步，更新k(n)：

更新权向量w(n)：w(n)＝w(n-1)+k(n)e(n)

更新p(n)：

对应本步骤中的声音信号，参数分别为：

x(n)：sreal_scene

y(n)：sout

d(n)：s1_reverb+s1_direct

此外，移除任何发声物体的处理方法，都可以采用本发明实施例三的音频处理方法。

本发明实施例三中，利用移除真实对象后ar场景的混响参数对真实对象位置处的音频信号进行渲染，与传统的利用移除前的原始场景的混响参数对真实对象位置处的音频信号进行渲染相比，显然前者渲染后得到的真实对象位置处在切换后ar场景中的音频信号，与移除真实对象后ar场景更为匹配，从而使得基于更为匹配的真实对象位置处在移动后ar场景中的音频信号混音处理得到的ar音频，与移除真实对象后ar场景更为匹配；使得用户可以听到与移除真实对象后ar场景更为匹配的ar音频，大大增强用户的沉浸感。

而且，本发明实施例三中，当耳机漏音中包括真实对象的音频信号时，也可以从真实场景的环境音频信号中消除真实对象的音频信号，得到消除真实对象的音频信号后的真实场景的环境音频信号，作为ar操作后ar场景的环境音频信号，使得该操作后ar场景的环境音频信号与真实对象在该操作后ar场景中的音频信号混音后，从而在漏音情况下得到与移除真实对象后ar场景更加契合的ar音频信号。

实施例四

本发明实施例四的音频处理方法的流程示意图如图7a所示，包括下述步骤：s701、当ar操作为在真实场景中移动真实对象时，确定出场景和移动真实对象后的ar场景的混响参数；s702、根据真实场景的混响参数，对真实场景中需移动的真实对象的音频信号进行去混响处理，得到真实对象的原始音频信号；s703、根据ar场景的混响参数，对真实对象的原始音频信号进行渲染，得到真实对象在移动真实对象后的ar场景下的音频信号；s704、将真实对象在ar场景下的音频信号和真实场景的环境音频信号进行混音处理，得到移动真实对象后的ar场景对应的ar音频。

较佳地，步骤s701中，确定出真实场景和移动真实对象后的ar场景的混响参数，包括：根据真实场景的三维信息和ar操作，确定出需移动的真实对象移动前的位置和移动后的位置；根据真实对象移动前的位置和真实场景的三维信息，估计出真实场景的混响参数；根据真实场景的三维信息、真实对象移动前的位置和移动后的位置，估计出ar场景的混响参数。

较佳地，本发明实施例中，通过下述方式确定真实场景的环境音频信号；根据真实场景的混响参数和真实对象的原始音频信号，确定真实对象的反射音频信号；根据真实场景中需移除的真实对象的音频信号，确定真实对象的直达音频信号；从真实场景的音频信号中消除真实对象的反射音频信号和直达音频信号，得到真实场景的环境音频信号。

在本发明实施例四中，ar操作涉及的真实对象为移动的真实对象。

下面结合应用场景具体介绍本发明实施例的音频处理方法。

本发明实施例公开了一种用户使用ar应用时，移动真实场景中的物体后，通过修改耳机中播放的被移动对象的音频信号，使场景和听到音频信号匹配、听觉更舒适的方法。

场景：

用户佩戴ar设备和耳机；用户希望和真实场景中的说话人a1进行对话，但是说话人a1却离用户比较远(如图7b所示)。在这种情况下，用户可以使用ar应用来移动说话人a1从原先所处位置p1到近处p2，以便听的更清楚。在移动a1的同时，a1的混响环境随之发生改变，需要对a1的音频信号重新渲染，以便和新的混响环境相匹配。

图7c为本发明实施例四的移动场景内说话人位置及其音频信号对应的音频处理方法原理框架图。

如图7c所示，假设用户的位置为puser，目标是听清在位置p1的说话人a1发出的音频信号s1，但是a1却离用户比较远，导致用户听不清a1的音频信号，故而需要将在位置p1的说话人a1，移至较近的位置p2。

步骤1：ar应用通过麦克风阵列得到真实场景的音频信号sreal_scene；通过摄像头得到真实场景的视觉信号v。

步骤2：对视觉信号v，使用视觉环境信息检测器来估计当前场景的三维信息，以及检测用户自身在场景中的位置puser。

步骤3：利用步骤2估计出的三维信息，以及用户的ar操作，得到目标说话人a1的(ar操作前的)原位置p1和(ar操作后的)新位置p2。

步骤4：利用步骤3得到的位置p1，用户自身的位置puser以及场景的三维信息，估计出原混响参数rori。具体实施办法参见实施例一步骤4。

步骤5：根据步骤2估计出的三维信息，a1的位置p1和新位置p2，确定出移动a1到新位置p2后的新三维信息，根据位置p2，用户自身的位置puser以及新三维信息，估计出移动a1的位置后的(即修改后的)现混响参数rmod。具体实施办法参见实施例一步骤4。本实施例中的步骤5与步骤4顺序可颠倒。

步骤6：利用rori对a1的音频信号s1(s1为根据位置p1，从sreal_scene中的说话人原位置提取获得的)进行去混响，得到原始音频信号s1_raw。具体实施办法见实施例二步骤7。

步骤7：利用rori对原始音频信号s1_raw进行人声反射声合成，得到s1_reverb，其中只包含反射声，不包含直达声。具体实施办法见实施例一步骤6。

步骤8：利用rmod对去混响后的原始音频信号s1_raw进行音频渲染，得到新混响环境下的音频信号s1_rerender，其中既包括直达声也包括反射声。具体实施办法见实施例一步骤6。

步骤9：提取a1的音频信号s1(s1为从根据位置p1，sreal_scene中的说话人原位置提取获得的)中的人声特征，如pitch特征等，并根据特征预测，合成人声的直达声成分s1_direct。

步骤10：由于耳机存在漏音，用户接收到的音频信号仍存在说话人a1的遗留声，需要对真实场景的音频信号sreal_scene进行人声消除，消除部分为步骤7和步骤9得到的s1_reverb、和s1_direct信号，得到处理后消去人声的环境音频信号s1_ambient。具体实施办法见实施例3步骤8。

步骤11：利用混音器混合s1_rerender和s1_ambient，得到移动真实对象后的ar音频信号sout，并通过耳机播放。

sout＝s1_rerender+s1_ambient

本发明实施例四中，利用移动真实对象后ar场景的混响参数对真实对象位置处的音频信号进行渲染，与传统的利用移动前的原始场景的混响参数对真实对象位置处的音频信号进行渲染相比，显然前者渲染后得到的真实对象位置处在切换后ar场景中的音频信号，与移动真实对象后ar场景更为匹配，从而使得基于更为匹配的真实对象位置处在移动后ar场景中的音频信号混音处理得到的ar音频，与移动真实对象后ar场景更为匹配；使得用户可以听到与移动真实对象后ar场景更为匹配的ar音频，大大增强用户的沉浸感。

而且，本发明实施例四中，当耳机漏音中包括真实对象的音频信号时，也可以从真实场景的环境音频信号中消除真实对象的音频信号，得到消除真实对象的音频信号后的真实场景的环境音频信号，作为ar操作后ar场景的环境音频信号，使得该操作后ar场景的环境音频信号与真实对象在该操作后ar场景中的音频信号混音后，从而在漏音情况下得到与移动真实对象后ar场景更加契合的ar音频信号。

实施例五

本发明实施例五的音频处理方法的流程示意图如图8a所示，包括下述步骤：s801、当ar操作为移除真实场景中的遮挡物时，确定出真实场景和移除遮挡物后的ar场景的混响参数；s802、根据真实场景的混响参数，对真实场景中被遮挡物遮挡的真实对象的音频信号进行去混响处理，得到真实对象的原始音频信号；s803、根据移除遮挡物后的ar场景的混响参数，对真实对象的原始音频信号进行渲染，得到真实对象在移除遮挡物后的ar场景下的音频信号；s804、将真实对象在ar场景下的音频信号和真实场景的环境音频信号进行混音处理，得到移除遮挡物后的ar场景对应的ar音频。

较佳地，步骤s801中，确定出真实场景和移除遮挡物后的ar场景的混响参数，包括：根据真实场景的三维信息和ar操作，确定出被遮挡物遮挡的真实对象的位置以及遮挡物的位置；根据真实场景的三维信息、真实对象的位置以及遮挡物的位置，估计出真实场景的混响参数；根据真实场景的三维信息、真实对象的位置以及遮挡物的位置，确定出移除遮挡物后的ar场景的三维信息；根据真实对象的位置和移除遮挡物后的ar场景的三维信息，估计出移除遮挡物后的ar场景的混响参数。

较佳地，本发明实施例中，通过下述方式确定真实场景的环境音频信号：根据真实场景的混响参数和真实对象的原始音频信号，确定真实对象的反射音频信号；从真实场景的音频信号中消除真实对象的反射音频信号，得到真实场景的环境音频信号。

在本发明实施例五中，ar操作涉及的真实对象为遮挡物所遮挡的真实对象以及遮挡物。

下面结合应用场景具体介绍本发明实施例的音频处理方法。

本发明实施例公开了一种用户使用ar应用时，移除真实场景中的障碍物体后，通过修改耳机中播放的被遮挡对象的音频信号，使场景和听到音频信号匹配、听觉更舒适的方法。

场景：

用户佩戴ar设备和耳机；用户希望和真实场景中的说话人a1进行对话，但是a1却被物体遮挡(如图8b)。在这种情况下，用户可以使用ar应用来移除遮挡物。在移除遮挡物的同时，a1的混响环境随之发生改变，需要对a1的音频信号重新渲染，以便和新的混响环境相匹配。

图8c为本发明实施例五的移除场景内障碍物对应的音频处理方法原理框架图。

如图8c所示，假设用户的位置为puser，目标是听清在位置p1的说话人a1发出的音频信号s1，在a1的前面有物体遮挡，导致用户听不清a1的音频信号

步骤1：ar应用通过麦克风阵列得到真实场景的音频信号sreal_scene；通过摄像头得到真实场景的视觉信号v。

步骤2：对视觉信号v，使用视觉环境信息检测器来估计当前场景的三维信息，以及检测用户自身在场景中的位置puser。

步骤3：利用步骤2估计出的三维信息，以及用户的ar操作，得到目标说话人a1的原位置p1和遮挡物ashelter的位置pshelter。

步骤4：利用步骤3得到的位置p1，遮挡物ashelter的位置pshelter，用户自身的位置puser以及场景的三维信息，估计出原混响参数rori。具体实施办法参见实施例一步骤4。

步骤5：根据步骤2估计出的三维信息，a1的位置p1和遮挡物ashelter的位置pshelter，确定出移除遮挡物后的新三维信息，根据位置p1，用户自身的位置puser以及新三维信息，估计出移除遮挡物后的混响参数(即修改后的现混响参数)rmod。具体实施办法参见实施例一步骤4。

步骤6：利用rori对a1的音频信号s1(s1为根据a1的位置p1，从sreal_scene中的说话人原位置提取获得的)进行去混响，得到原始音频信号s1_raw。具体实施办法见实施例二步骤7。

步骤7：利用rori对原始音频信号s1_raw进行人声反射声合成，得到s1_reverb，其中只包含反射声，不包含直达声。具体实施办法见实施例一步骤6。

步骤8：使用rmod对s1_raw进行音频渲染，得到新混响环境下的音频信号s1_rerender，其中既包括直达声也包括反射声。具体实施办法见实施例一步骤6。

步骤9：此时由于a1被物体遮挡，用户只能接收到的音频信号中不含有直达声部分，只有反射声部分。由于耳机存在漏音，用户接收到的音频信号仍存在说话人a1的遗留声，需要对真实场景的音频信号sreal_scene进行人声消除，消除部分为步骤8得到的s1_reverb信号，得到处理后消去人声的环境音频信号s1_ambient。具体实施办法见实施例3步骤8。

步骤10：利用混音器混合s1_rerender和s1_ambient，得到移除遮挡物之后的ar场景的ar音频信号sout，并通过耳机播放。

sout＝s1_rerender+s1_ambient

此外，移除场景内障碍物或障碍人处理方法，都可以采用本发明实施例的音频处理方法。

本发明实施例五中，利用移除遮挡物后ar场景的混响参数对真实对象的音频信号进行渲染，与传统的利用移除前的原始场景的混响参数对真实对象的音频信号进行渲染相比，显然前者渲染后得到的真实对象在切换后ar场景中的音频信号，与移除遮挡物后ar场景更为匹配，从而使得基于更为匹配的真实对象在移动后ar场景中的音频信号混音处理得到的ar音频，与移除遮挡物后ar场景更为匹配；使得用户可以听到与移除遮挡物后ar场景更为匹配的ar音频，大大增强用户的沉浸感。

而且，本发明实施例五中，当耳机漏音中包括真实对象的音频信号时，也可以从真实场景的环境音频信号中消除真实对象的音频信号，得到消除真实对象的音频信号后的真实场景的环境音频信号，作为ar操作后ar场景的环境音频信号，使得该操作后ar场景的环境音频信号与真实对象在该操作后ar场景中的音频信号混音后，从而在漏音情况下得到与移除遮挡物后ar场景更加契合的ar音频信号。

实施例六

本发明实施例六的音频处理方法的流程示意图如图9a所示，包括下述步骤：s901、当ar操作为添加虚拟对象至真实场景时，确定出真实场景和添加虚拟对象后的ar场景的混响参数；s902、根据真实场景的混响参数，对真实场景中被添加的虚拟对象遮挡的真实对象的音频信号进行去混响处理，得到真实对象的原始音频信号；s903、根据添加虚拟对象后的ar场景的混响参数，对真实对象的原始音频信号进行渲染，得到真实对象在添加虚拟对象后的ar场景下的音频信号；s904、将真实对象在ar场景下的音频信号和真实场景的音频信号进行混音处理，得到添加虚拟对象后的ar场景对应的ar音频。

较佳地，步骤s901中，确定出真实场景和添加虚拟对象后的ar场景的混响参数，包括：根据真实场景的三维信息和ar操作，确定出被添加的虚拟对象遮挡的真实对象的位置和添加的虚拟对象的位置；根据真实对象的位置和真实场景的三维信息，估计出真实场景的混响参数；根据真实场景的三维信息、虚拟对象的位置和真实对象的位置，确定出添加虚拟对象后的ar场景的三维信息；根据真实对象的位置、虚拟对象的位置和添加虚拟对象后的ar场景的三维信息，估计出添加虚拟对象后的ar场景的混响参数。

较佳地，本发明实施例六中，通过下述方式确定真实场景的环境音频信号；根据真实场景的混响参数和真实对象的原始音频信号，确定真实对象的反射音频信号；根据真实场景中需移除的真实对象的音频信号，确定真实对象的直达音频信号；从真实场景的音频信号中消除真实对象的反射音频信号和直达音频信号，得到真实场景的环境音频信号。

在本发明实施例六中，ar操作涉及的真实对象为被添加的虚拟对象遮挡的真实对象。

下面结合应用场景具体介绍本发明实施例的音频处理方法。

本发明实施例公开了一种用户使用ar应用时，向真实场景中添加了新角色，但添加人对说话人造成了遮挡，通过修改耳机中播放的音频信号，使场景和听到音频信号匹配、听觉更舒适的方法。

场景：

用户佩戴ar设备和耳机；用户向场景中添加了新角色a2，但用户正在和真实场景中的说话人a1进行对话(如图9b)。在这种情况下，用户仍然希望保持与说话人a1的对话。在添加新角色a2的同时，场景的混响环境随之发生改变，需要对a1的音频信号重新渲染，以便和新的混响环境相匹配。

图9c为本发明实施例六的向场景内添加新角色且保持对话对应的音频处理方法原理框架图。

如图9c所示，假设用户的位置为puser，目标是在添加新角色a2后保持和位于p1位置说话人a1的对话。

步骤1：ar应用通过麦克风阵列得到真实场景的音频信号sreal_scene；通过摄像头得到真实场景的视觉信号v。

步骤2：对视觉信号v，使用视觉环境信息检测器来估计当前场景的三维信息，以及检测用户自身在场景中的位置puser。

步骤3：利用步骤2估计出的三维信息，以及用户的ar操作，得到目标说话人a1的原位置p1。

步骤4：利用步骤3得到的位置p1，用户自身的位置puser以及场景的三维信息，估计出原混响参数rori。具体实施办法参见实施例一步骤4。

步骤5：利用步骤2估计出的三维信息，以及用户的ar操作，得到添加的新角色(即添加的遮挡物)a2的位置p2。

步骤6：根据步骤2估计出的三维信息，a1的位置p1和a2的位置p2，确定出添加a2后的ar场景的新三维信息，根据a1的位置p1，a2的位置p2，用户自身的位置puser以及新三维信息，估计出添加a2后的ar场景的混响参数rmod。具体实施办法参见实施例一步骤4。本实施例中的步骤5-6与步骤3-4顺序可颠倒。

步骤7：利用rori对a1的音频信号s1(s1为根据a1的位置p1，从sreal_scene中的说话人原位置提取获得的)进行去混响，得到去混响后目标说话人原位置的原始音频信号s1_raw。具体实施办法见实施例二步骤7。

步骤8：利用rori对原始音频信号s1_raw进行人声反射声合成，得到s1_reverb，其中只包含反射声，不包含直达声。具体实施办法见实施例一步骤6。

步骤9：使用rmod对s1_raw进行音频渲染得到新混响环境下的音频信号s1_rerender，其中既包括直达声也包括反射声。具体实施办法见实施例一步骤6。

步骤10：提取a1的音频信号s1中的人声特征，如pitch特征等，并根据特征预测，合成人声的直达声成分s1_direct。

步骤11：由于耳机存在漏音，用户接收到的音频信号仍存在说话人a1的遗留声，需要对真实场景的音频信号sreal_scene进行人声消除，消除部分为步骤8和步骤10得到的s1_reverb、和s1_direct信号，得到处理后消去人声的环境音频信号s1_ambient。具体实施办法见实施例3步骤8。

步骤12：利用混音器混合s1_rerender和s1_ambient，得到添加遮挡物之后的ar场景的ar音频信号sout，并通过耳机播放。

sout＝s1_rerender+s1_ambient

此外，添加新物体时，可以采用本发明实施例的音频处理方法处理添加的新物体的音频信号。

本发明实施例六中，利用增加遮挡物后ar场景的混响参数对真实对象的音频信号进行渲染，与传统的利用增加前的原始场景的混响参数对真实对象的音频信号进行渲染相比，显然前者渲染后得到的真实对象在切换后ar场景中的音频信号，与增加遮挡物后ar场景更为匹配，从而使得基于更为匹配的真实对象在移动后ar场景中的音频信号混音处理得到的ar音频，与增加遮挡物后ar场景更为匹配；使得用户可以听到与增加遮挡物后ar场景更为匹配的ar音频，大大增强用户的沉浸感。

而且，本发明实施例六中，当耳机漏音中包括真实对象的音频信号时，也可以从真实场景的环境音频信号中消除真实对象的音频信号，得到消除真实对象的音频信号后的真实场景的环境音频信号，作为ar操作后ar场景的环境音频信号，使得该操作后ar场景的环境音频信号与真实对象在该操作后ar场景中的音频信号混音后，从而在漏音情况下得到与增加遮挡物后ar场景更加契合的ar音频信号。

实施例七

本发明实施例七的音频处理方法的流程，包括下述步骤：当ar操作为在真实场景中移动真实对象时，确定出场景和移动真实对象后的ar场景的混响参数；根据真实场景的混响参数，对真实场景中需移动的真实对象的音频信号进行去混响处理，得到真实对象的原始音频信号；根据ar场景的混响参数，对真实对象的原始音频信号进行渲染，得到真实对象在移动真实对象后的ar场景下的音频信号；将真实对象在ar场景下的音频信号和真实场景的环境音频信号进行混音处理，得到移动真实对象后的ar场景对应的ar音频。

较佳地，当真实对象在真实场景中被遮挡物遮挡时，确定出真实场景和移动真实对象后的ar场景的混响参数，包括：根据真实场景的三维信息和ar操作，真实对象移动前的位置和移动后的位置、以及遮挡真实对象的遮挡物的位置；根据真实场景的三维信息、真实对象移动前的位置和遮挡物的位置，估计出真实场景的混响参数；根据真实场景的三维信息、真实对象移动前的位置和移动后的位置、遮挡物的位置，估计出ar场景的混响参数。

较佳地，本发明实施例7中，通过下述方式确定真实场景的环境音频信号；根据真实场景的混响参数和真实对象的原始音频信号，确定真实对象的反射音频信号；从真实场景的音频信号中消除真实对象的反射音频信号，得到真实场景的环境音频信号。

在本发明实施例七中，ar操作涉及的真实对象为移动的真实对象。

下面结合应用场景具体介绍本发明实施例的音频处理方法。

本发明实施例公开了一种用户使用ar应用时，移除真实场景中的障碍物体后，移动目标物体，并通过修改耳机中播放的被遮挡对象的音频信号，使场景和听到音频信号匹配、听觉更舒适的方法。

场景：

用户佩戴ar设备和耳机；用户希望和真实场景中的说话人a1进行对话，但是a1却被物体遮挡(如图10a)。在这种情况下，用户可以使用ar应用将说话人a1移至更易对话的位置。在改变说话人位置的同时，a1的混响环境随之发生改变，需要对a1的音频信号重新渲染，以便和新的混响环境相匹配。是否移除遮挡物对产生变动后的现混响参数产生影响，本实施例中以移除遮挡物为例说明。

图10b为本发明实施例七的移除场景内障碍物并移动场景内说话人位置及其音频信号对应的音频处理方法原理框架图。

如图10b所示，假设用户的位置为puser，目标是听清在位置p1的说话人a1发出的音频信号s1，但是a1却离用户比较远，且有障碍物遮挡，导致用户听不清a1的音频信号，故而需要将在位置p1的说话人a1，移至较近的位置p2，并消除障碍物的影响。

步骤1：ar应用通过麦克风阵列得到真实场景的音频信号sreal_scene；通过摄像头得到真实场景的视觉信号v。

步骤2：对视觉信号v，使用视觉环境信息检测器来估计当前场景的三维信息，以及测试用户自身在场景中的位置puser。

步骤3：利用步骤2估计出的三维信息，以及用户的ar操作，得到目标说话人a1的原位置p1和遮挡物ashelter的位置pshelter和a1的新位置p2。

步骤4：利用步骤3得到的位置p1和pshelter，用户自身的位置puser以及场景的三维信息，估计出原混响参数rori，方法参见实施例一步骤4。

步骤5：根据步骤2估计出的三维信息，a1的位置p1和新位置p2、遮挡物ashelter的位置pshelter，确定出移动a1并移除遮挡物后的新三维信息，根据位置p2，用户自身的位置puser以及新三维信息，得到修改后的现混响参数rmod。具体实施办法参见实施例一步骤4。本实施例中的步骤5与步骤4顺序可颠倒。

步骤7：利用rori对原始音频信号s1_raw进行人声反射声合成，得到s1_reverb，其中只包含反射声，不包含直达声。具体实施办法见实施例一步骤6。

步骤8：使用rmod对去混响后的原始音频信号s1_raw进行音频渲染得到新混响环境(即修改后的现混响环境)下的音频信号s1_rerender，其中既包括直达声也包括反射声。具体实施办法见实施例一步骤6。

步骤9：此时由于a1被物体遮挡，用户只能接收到的音频信号中不含有直达声部分，只有反射声部分。由于耳机存在漏音，用户接收到的音频信号仍存在说话人a1的遗留声，需要对真实场景的音频信号sreal_scene进行人声消除，消除部分为步骤7得到的s1_reverb信号，得到处理后消去人声的环境音频信号s1_ambient。具体实施办法见实施例3步骤8。

步骤10：利用混音器混合本实施例的s1_rerender和s1_ambient，得到移除遮挡物且移动真实对象后的ar场景的ar音频信号sout，并通过耳机播放。

sout＝s1_rerender+s1_ambient

另一种情况，如果本发明实施例七中只移动用户a1，不移除遮挡物，则在上述流程中：

在本实施例的步骤5中，根据步骤2估计出的三维信息，a1的位置p1和新位置p2、遮挡物ashelter的位置pshelter，确定出移动a1后的新三维信息，该新三维信息和移动a1并移除遮挡物后的新三维信息不同。

其他步骤和上述步骤一致，不再赘述。

本发明实施例七中，利用移动真实对象且移除遮挡物后ar场景的混响参数对真实对象的音频信号进行渲染，与传统的利用移除前的原始场景的混响参数对真实对象的音频信号进行渲染相比，显然前者渲染后得到的真实对象在切换后ar场景中的音频信号，与移动真实对象且移除遮挡物后ar场景更为匹配，从而使得基于更为匹配的真实对象在移动后ar场景中的音频信号混音处理得到的ar音频，与移动真实对象且移除遮挡物后ar场景更为匹配；使得用户可以听到与移动真实对象且移除遮挡物后ar场景更为匹配的ar音频，大大增强用户的沉浸感。

而且，本发明实施例七中，当耳机漏音中包括真实对象的音频信号时，也可以从真实场景的环境音频信号中消除真实对象的音频信号，得到消除真实对象的音频信号后的真实场景的环境音频信号，作为ar操作后ar场景的环境音频信号，使得该操作后ar场景的环境音频信号与真实对象在该操作后ar场景中的音频信号混音后，从而在漏音情况下得到与移动真实对象且移除遮挡物后ar场景更加契合的ar音频信号。

实施例八

本发明实施例八的音频处理方法的流程示意图如图11a所示，包括下述步骤：s1101、当ar操作为将第一真实对象从所在的第一场景切换到第二场景时，确定第一场景和切换到第二场景后形成的ar场景的混响参数；s1102、根据第一场景的混响参数，对需切换的第一真实对象的音频信号进行去混响处理，得到第一真实对象的原始音频信号；s1103、根据ar场景的混响参数，对第一真实对象的原始音频信号进行渲染，得到第一真实对象在ar场景下的音频信号；s1104、当第二场景中包含第二真实对象时，确定第二场景的混响参数；s1105、根据第二场景的混响参数，对第二真实对象的音频信号进行去混响处理，得到第二真实对象的原始音频信号；s1106、根据ar场景的混响参数，对第二真实对象的原始音频信号进行渲染得到第二真实对象在ar场景下的音频信号；s1107、将第一真实对象在ar场景下的音频信号、第二真实对象在ar场景下的音频信号和第二场景的环境音频信号进行混音处理，得到ar场景对应的ar音频。

较佳地，上述步骤s1101中，确定第二场景的混响参数和ar场景的混响参数，包括：根据第二场景的三维信息和第二真实对象在第二场景中的位置，估计出第二场景的混响参数；根据第二场景的三维信息以及ar操作，确定出第一真实对象在ar场景中的位置；根据第二场景的三维信息、第一真实对象在ar场景中的位置、第二真实对象在ar场景中的位置，估计ar场景的混响参数。

在本发明实施例八中，ar操作涉及的真实对象为切换场景的真实对象。

下面结合应用场景具体介绍本发明实施例的音频处理方法。

本发明实施例公开了用户使用ar应用时，可以模拟两个在不同真实环境下的用户在同一场景内对话的情景，并通过修改耳机中播放的音频信号，使场景和听到音频信号匹配、听觉更舒适的方法。

场景：

如图11b所示，用户佩戴ar设备和耳机；用户a1希望和用户a2进行对话，但是两人并不在同一真实场景中。在这种情况下，用户可以使用ar应用将用户a1移至用户a2所在的场景中。在移动过程中，a2的混响环境随之发生改变，需要对a1和a2的音频信号重新渲染，以便和新的混响环境相匹配。

图11c为本发明实施例八的将不同场景说话人及其音频信号移动至同一空间对应的音频处理方法原理框架图。

如图11c所示，假设用户a1(对应图11c中的用户一)在场景一中的位置为p1，用户a2(对应图11c中的用户二)在场景二中的位置为p2，目标是将用户a1移至用户a2的场景中进行对话，故而需要提取用户a1在位置p1的音频信号，并移至场景二中的位置p12，并调整用户a1、a2的音频信号，使其听起来自然。

步骤1：得到场景一的音频信号和场景二的音频信号，场景一的视频信号和场景二的视频信号。在图11c中，真实场景视觉信号v表示了场景一的视频信号和场景二的视频信号，真实场景音频信号sreal_scene表示了场景一的音频信号和场景二的音频信号。

其中，场景一的音频信号可以通过麦克风阵列采集得到，视频信号可以通过摄像头采集得到，场景二的音频信号和视频信号可以是其他设备采集后发送的。此外，也可以为场景二的音频信号可以通过麦克风阵列采集得到，视频信号可以通过摄像头采集得到，场景一的音频信号和视频信号可以是其他设备采集后发送的。

步骤2：通过场景一的视频信号，使用视觉环境信息检测器来估计场景一的三维信息，通过场景一的三维信息和ar操作，估计出用户a1在场景一中的位置p1；通过场景二的视频信号估计场景二的三维信息以及用户a2在场景二中的位置p2。

步骤3：利用步骤2估计出的场景二的三维信息，以及用户的ar操作，得到用户a1移动至场景二后的位置p12。

步骤4：利用步骤2得到的位置p1、场景一的三维信息、用户的位置puser，估计出场景一的混响参数r1。利用步骤2得到的位置p2、场景二的三维信息、用户的位置puser，估计出场景二的混响参数r2。具体方法参见实施例一中的步骤4。

步骤5：根据步骤2估计出的场景二的三维信息、用户a1移动至场景二后的位置p12、和用户a2在场景二中的位置p2，估计出用户a1移动到新位置p12后的新三维信息，根据新的三维信息、用户的位置puser、用户a1移动至场景二后的位置p12、和用户a2在场景二中的位置p2，估计出用户a1移动至场景二后的混响参数(即修改后的场景二的混响参数或新混响参数)r12。具体实施办法参见实施例一步骤4。

步骤6：使用麦克风阵列，采用人声分离技术，从场景一的音频信号中分离出用户a1的音频信号s1。从场景二的音频信号中分离出用户a2的音频信号s2和场景二的音频信号s2_ambient。

步骤7：利用r1对a1的音频信号s1进行去混响，得到a1的原始音频信号s1_raw。利用r2对a2的音频信号s2进行去混响，得到a2的原始音频信号s2_raw。具体实施办法见实施例二步骤7。

步骤8：使用r12对去混响后的原始音频信号s1_raw和原始音频信号s2_raw分别进行音频渲染得到新混响环境下的音频信号s1_rerender和s2_rerender。具体实施办法见实施例一步骤6。

步骤9：利用混音器混合s1_rerender、s2_rerender和s2_ambient，得到将用户a1移动至用户a2所在场景后的ar场景的ar音频信号sout，并通过耳机播放。

sout＝s1_rerender+s2_rerender+s2_ambient

此外，多人对话时的音频信号处理方法，与本发明实施例八的音频处理方法类似。

本发明实施例八中，利用将第一真实对象切换到第二真实对象所在第二场景后的ar场景的混响参数对真实对象的音频信号进行渲染，与传统的利用切换前的原始场景的混响参数对真实对象的音频信号进行渲染相比，显然前者渲染后得到的真实对象在切换后ar场景下的音频信号，与切换后ar场景更为匹配，从而使得基于真实对象在切换后ar场景下的音频信号混音处理得到的ar音频，与切换后ar场景更为匹配；使得用户可以听到与切换后ar场景更为匹配的ar音频，大大增强用户的沉浸感。

实施例九

基于同一发明构思，对应于本发明的概述内容和上述实施例一至八，本发明实施例九提供了一种终端设备，该终端设备的内部结构的框架示意图如图12所示，包括：存储器1201和处理器1202。

存储器1201与处理器1202电连接。

本发明实施例九的终端设备还包括至少一个程序。

该至少一个程序存储于存储器1201中，被配置为由处理器1202执行时实现下述步骤：

确定出虚拟现实ar操作涉及的真实场景和/或操作后ar场景的混响参数；

根据真实场景和/或操作后ar场景的混响参数，确定操作后ar场景对应的ar音频。

较佳地，本发明实施例九的至少一个程序在实现确定出ar操作涉及的真实场景和/或操作后ar场景的混响参数的过程中，具体实现下述步骤：当ar操作为添加虚拟对象至真实场景时，确定出添加虚拟对象后的ar场景的混响参数；

以及，该一个程序在实现根据真实场景和/或操作后ar场景的混响参数，确定操作后ar场景对应的ar音频的过程中，具体实现下述步骤：

根据添加虚拟对象后的ar场景的混响参数，对虚拟对象的音频信号进行渲染，得到虚拟对象在ar场景下的音频信号；

对真实场景的环境音频信号和虚拟对象在ar场景下的音频信号进行混音处理，得到添加虚拟对象后的ar场景对应的ar音频。

进一步，本发明实施例九的至少一个程序在实现确定出添加虚拟对象后的ar场景的混响参数的过程中，具体实现下述步骤：

根据真实场景的三维信息和ar操作，确定出虚拟对象在ar场景中的位置；

根据真实场景的三维信息和虚拟对象在ar场景中的位置，估计出添加虚拟对象后的ar场景的混响参数。

较佳地，本发明实施例九的至少一个程序在实现确定出ar操作涉及的真实场景和/或操作后ar场景的混响参数的过程中，具体实现下述步骤：当ar操作为将第一真实对象从所在的第一场景切换到第二场景时，确定第一场景和切换到第二场景后形成的ar场景的混响参数；

以及，该至少一个程序在实现根据真实场景和/或操作后ar场景的混响参数，确定操作后ar场景对应的ar音频的过程中，具体实现下述步骤：

根据第一场景的混响参数，对需切换的第一真实对象的音频信号进行去混响处理，得到第一真实对象的原始音频信号；

根据ar场景的混响参数，对第一真实对象的原始音频信号进行渲染，得到第一真实对象在ar场景下的音频信号；

将第一真实对象在ar场景下的音频信号和第二场景的环境音频信号进行混音处理，得到ar场景对应的ar音频。

进一步，本发明实施例九的至少一个程序在实现确定第一场景和切换到第二场景后形成的ar场景的混响参数的过程中，具体实现下述步骤：

根据第一场景的三维信息和第一真实对象在第一场景中的位置，估计出第一场景的混响参数；

根据第二场景的三维信息和ar操作，确定出第一真实对象在ar场景中的位置；

根据第一真实对象在ar场景中的位置和第二场景的三维信息，估计出ar场景的混响参数。

更优地，本发明实施例九的至少一个程序在当第二场景中包含第二真实对象时，实现确定操作后ar场景对应的ar音频的过程中，还实现下述步骤：

确定第二场景的混响参数；

根据第二场景的混响参数，对第二真实对象的音频信号进行去混响处理，得到第二真实对象的原始音频信号；

根据ar场景的混响参数，对第二真实对象的原始音频信号进行渲染得到第二真实对象在ar场景下的音频信号；

将第一真实对象在ar场景下的音频信号和第二场景的环境音频信号进行混音处理，包括：

将第一真实对象在ar场景下的音频信号、第二真实对象在ar场景下的音频信号和第二场景的环境音频信号进行混音处理，得到ar场景对应的ar音频。

进一步，本发明实施例九的至少一个程序在实现确定第二场景的混响参数和ar场景的混响参数的过程中，具体实现下述步骤：

根据第二场景的三维信息和第二真实对象在第二场景中的位置，估计出第二场景的混响参数；

根据第二场景的三维信息以及ar操作，确定出第一真实对象在ar场景中的位置；

根据第二场景的三维信息、第一真实对象在ar场景中的位置、第二真实对象在ar场景中的位置，估计ar场景的混响参数。

较佳地，本发明实施例九的至少一个程序在实现确定出ar操作涉及的真实场景和/或操作后ar场景的混响参数的过程中，具体实现下述步骤：

ar操作为从真实场景中移除真实对象时，确定出真实场景的混响参数；

以及，该至少一个程序在实现根据真实场景和/或操作后ar场景的混响参数，确定操作后ar场景对应的ar音频的过程中，具体实现下述步骤：

根据真实场景的混响参数，对真实场景中需移除的真实对象的音频信号进行去混响处理，得到真实对象的原始音频信号；

根据真实对象的原始音频信号和真实场景的音频信号，确定移除真实对象后的ar场景对应的ar音频。

进一步，本发明实施例九的至少一个程序在实现确定出真实场景的混响参数的过程中，具体实现下述步骤：

根据真实场景的三维信息和ar操作，确定需移除的真实对象在真实场景中的位置；

根据真实场景的三维信息和真实对象在真实场景中的位置，估计出真实场景的混响参数。

进一步，本发明实施例九的至少一个程序在实现确定移除真实对象后的ar场景对应的ar音频的过程中，具体实现下述步骤：

根据真实场景的混响参数和真实对象的原始音频信号，确定真实对象的反射音频信号；

根据真实场景中真实对象的音频信号，确定真实对象的直达音频信号；

从真实场景的音频信号中消除真实对象的反射音频信号和直达音频信号，得到移除真实对象后的ar场景对应的ar音频。

较佳地，本发明实施例九的至少一个程序在实现确定出ar操作涉及的真实场景和/或操作后ar场景的混响参数的过程中，具体实现下述步骤：

当ar操作为在真实场景中移动真实对象时，确定出场景和移动真实对象后的ar场景的混响参数；

以及，该至少一个程序在实现根据真实场景和/或操作后ar场景的混响参数，确定操作后ar场景对应的ar音频的过程中，具体实现下述步骤：

根据真实场景的混响参数，对真实场景中需移动的真实对象的音频信号进行去混响处理，得到真实对象的原始音频信号；

根据ar场景的混响参数，对真实对象的原始音频信号进行渲染，得到真实对象在移动真实对象后的ar场景下的音频信号；

将真实对象在ar场景下的音频信号和真实场景的环境音频信号进行混音处理，得到移动真实对象后的ar场景对应的ar音频。

进一步，本发明实施例九的至少一个程序在实现确定出真实场景和移动真实对象后的ar场景的混响参数的过程中，具体实现下述步骤：

根据真实场景的三维信息和ar操作，确定出需移动的真实对象移动前的位置和移动后的位置；

根据真实对象移动前的位置和真实场景的三维信息，估计出真实场景的混响参数；

根据真实场景的三维信息、真实对象移动前的位置和移动后的位置，估计出ar场景的混响参数。

进一步，本发明实施例九的至少一个程序，通过下述方式确定真实场景的环境音频信号：

根据真实场景的混响参数和真实对象的原始音频信号，确定真实对象的反射音频信号；

根据真实场景中需增加的真实对象的音频信号，确定真实对象的直达音频信号；

从真实场景的音频信号中消除真实对象的反射音频信号和直达音频信号，得到真实场景的环境音频信号。

进一步，本发明实施例九的至少一个程序，当真实对象在真实场景中被遮挡物遮挡时，在实现确定出真实场景和移动真实对象后的ar场景的混响参数的过程中，具体实现下述步骤：

根据真实场景的三维信息和ar操作，真实对象移动前的位置和移动后的位置、以及遮挡真实对象的遮挡物的位置；

根据真实场景的三维信息、真实对象移动前的位置和遮挡物的位置，估计出真实场景的混响参数；

根据真实场景的三维信息、真实对象移动前的位置和移动后的位置、遮挡物的位置，估计出ar场景的混响参数。

进一步，本发明实施例九的至少一个程序，通过下述方式确定真实场景的环境音频信号；

根据真实场景的混响参数和真实对象的原始音频信号，确定真实对象的反射音频信号；

从真实场景的音频信号中消除真实对象的反射音频信号，得到真实场景的环境音频信号。

较佳地，本发明实施例九的至少一个程序在实现确定出ar操作涉及的真实场景和/或操作后ar场景的混响参数的过程中，具体实现下述步骤：

当ar操作为移除真实场景中的遮挡物时，确定出真实场景和移除遮挡物后的ar场景的混响参数；

以及，该至少一个程序在实现根据真实场景和/或操作后ar场景的混响参数，确定操作后ar场景对应的ar音频的过程中，具体实现下述步骤：

根据真实场景的混响参数，对真实场景中被遮挡物遮挡的真实对象的音频信号进行去混响处理，得到真实对象的原始音频信号；

根据移除遮挡物后的ar场景的混响参数，对真实对象的原始音频信号进行渲染，得到真实对象在移除遮挡物后的ar场景下的音频信号；

将真实对象在ar场景下的音频信号和真实场景的环境音频信号进行混音处理，得到移除遮挡物后的ar场景对应的ar音频。

进一步，本发明实施例九的至少一个程序在实现确定出真实场景和移除遮挡物后的ar场景的混响参数的过程中，具体实现下述步骤：

根据真实场景的三维信息和ar操作，确定出被遮挡物遮挡的真实对象的位置以及遮挡物的位置；

根据真实场景的三维信息、真实对象的位置以及遮挡物的位置，估计出真实场景的混响参数；

根据真实场景的三维信息、真实对象的位置以及遮挡物的位置，确定出移除遮挡物后的ar场景的三维信息；

根据真实对象的位置和移除遮挡物后的ar场景的三维信息，估计出移除遮挡物后的ar场景的混响参数。

进一步，本发明实施例九的至少一个程序通过下述方式确定真实场景的环境音频信号：

根据真实场景的混响参数和真实对象的原始音频信号，确定真实对象的反射音频信号；

从真实场景的音频信号中消除真实对象的反射音频信号，得到真实场景的环境音频信号。

较佳地，本发明实施例九的至少一个程序在实现确定出ar操作涉及的真实场景和/或操作后ar场景的混响参数的过程中，具体实现下述步骤：

当ar操作为添加虚拟对象至真实场景时，确定出真实场景和添加虚拟对象后的ar场景的混响参数；

以及，该至少一个程序在实现根据真实场景和/或操作后ar场景的混响参数，确定操作后ar场景对应的ar音频的过程中，具体实现下述步骤：

根据真实场景的混响参数，对真实场景中被添加的虚拟对象遮挡的真实对象的音频信号进行去混响处理，得到真实对象的原始音频信号；

根据添加虚拟对象后的ar场景的混响参数，对真实对象的原始音频信号进行渲染，得到真实对象在添加虚拟对象后的ar场景下的音频信号；

将真实对象在ar场景下的音频信号和真实场景的音频信号进行混音处理，得到添加虚拟对象后的ar场景对应的ar音频。

进一步，本发明实施例九的至少一个程序在实现确定出真实场景和添加虚拟对象后的ar场景的混响参数的过程中，具体实现下述步骤：

根据真实场景的三维信息和ar操作，确定出被添加的虚拟对象遮挡的真实对象的位置和添加的虚拟对象的位置；

根据真实对象的位置和真实场景的三维信息，估计出真实场景的混响参数；

根据真实场景的三维信息、虚拟对象的位置和真实对象的位置，确定出添加虚拟对象后的ar场景的三维信息；

根据真实对象的位置、虚拟对象的位置和添加虚拟对象后的ar场景的三维信息，估计出添加虚拟对象后的ar场景的混响参数。

进一步，本发明实施例九的至少一个程序通过下述方式确定真实场景的环境音频信号；

根据真实场景的混响参数和真实对象的原始音频信号，确定真实对象的反射音频信号；

根据真实场景中需移除的真实对象的音频信号，确定真实对象的直达音频信号；

从真实场景的音频信号中消除真实对象的反射音频信号和直达音频信号，得到真实场景的环境音频信号。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、cd-rom、和磁光盘)、rom(read-onlymemory，只读存储器)、ram(randomaccessmemory，随即存储器)、eprom(erasableprogrammableread-onlymemory，可擦写可编程只读存储器)、eeprom(electricallyerasableprogrammableread-onlymemory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨磊;高巧展;王立众;李云川;马振昌;石迎波;王维钦
技术所有人：北京三星通信技术研究有限公司;三星电子株式会社
我是此专利的发明人

上一篇：电阻法的制作方法
上一篇：一种用于锂离子电池的高性能石墨烯制备方法与流程