音频回放渲染器评价系统的制作方法

文档序号：14253640阅读：653来源：国知局

本发明涉及音频处理，更具体涉及音频回放渲染器评价系统。

背景技术：

音频制作的流程一般分为前期采音，后期制作，以及用户端回放。传统流程上用户端回放环境无法控制，所以也没有加以评估以及设计。目前三维(3d)和虚拟现实(vr)音频，特别是以诸如高保真度立体声像复制(ambisonics)为技术路线的声场保存方式下，对回放渲染器的质量评估的需求和可实现度上都有了新的可能。

技术实现要素：

根据本发明的一个方面，提供一种音频回放渲染器评价系统，包括：

标准渲染器，用于渲染测试信号以得到参考输出信号；

传送模块，用于传送测试信号和参考输出信号；

接收模块，用于接收测试信号和参考输出信号；

用户渲染器，用于渲染接收到的测试信号以得到用户渲染输出信号；

评估模块，用于将接收到的参考输出信号与用户渲染输出信号进行比较，并根据比较结果设置量化标记。

根据本发明的另一个方面，提供一种音频回放渲染器评价方法，包括：

渲染测试信号以得到参考输出信号；

传送测试信号和参考输出信号；

接收测试信号和参考输出信号；

渲染接收到的测试信号以得到用户渲染输出信号；

将接收到的参考输出信号与用户渲染输出信号进行比较，并根据比较结果设置量化标记。

附图说明

下面参考附图结合实施例说明本发明。在附图中：

图1图示说明传统音频内容制作和回放流程。

图2图示说明更详细的传统音频内容制作和回放流程。

图3图示说明3d和vr音频内容制作和回放流程。

图4是html网页开发流程的示意图，本发明的音频内容制作和回放流程可对比和参考该流程。

图5图示说明根据本发明的实施例的音频回放渲染器评价系统。

具体实施方式

下面将结合附图来详细解释本发明的具体实施例。

图1图示说明传统音频内容制作和回放流程。如图1所示，传统音频内容制作和回放流程可以大致分为前期采音，后期制作，和用户端回放三个步骤。

图2图示说明更详细的传统音频内容制作和回放流程。如图2所示，更具体一点，传统的音频内容制作和回放流程包括：前期，通过不同的话筒以及素材库，拿到分散的音频素材；后期，在录音室控制室环境中，录音室用专业监听喇叭进行聆听，加入缩混中的艺术创作，产生出一套标准的音频文件，例如立体声，5.1声道音频，7.1音频等等；这之后通过不同的分发渠道，用户拿到了这些音频文件或者音频流，分别在各自的听音环境中聆听。

用户的听音环境可以是以下中的任何一个：家庭影院，发烧听音室，或者手机扬声器，昂贵耳机，便宜耳机等等。在录音工程师/艺术家创作的过程中，创作者会有一个希望用户听到的版本，但是这种情况下，对回放的环境和质量完全没有控制，所以只能尽量缩混出一个被认为最好的版本，然后希望各种回放环境都可以适应。

在目前的各种三维声系统中，特别是针对vr的系统，监听和回放环境等等的概念仍在此流程中，但发生了比较大的变化。图3图示说明3d和vr音频内容制作和回放流程。

如图3中所示，后期编辑的输出不再仅仅是以前的以音箱声道为准的多轨音频文件，而很多时候是声场以及对象文件：

sh：sphericalharmonics(球面谐波声场)

foa：firstorderambisonics(1阶高保真度立体声像复制)

hoa：higherorderambisonics(高阶高保真度立体声像复制)

声床(5.1，7.1，22.2，等等)+对象(单声道声源，需再次渲染)

前三种都是基于场景的音频表示，第四种是基于声道(channelbased)以及对象的结合。这些以及类似情况，如果没有合适的渲染器，都是无法合理的听到回放的。换句话说，后期编辑的创作者以及终端用户都需要算法渲染器，才可以听，而制作完毕所分发的文件(或流)不再是可以直接听到的声音文件本身了。这样，渲染器的质量显得十分重要，当回放设备是耳机的时候，近场在不同设备间一致度都比较高，所以渲染器很大程度上代表了传统流程中的听音房间或者听音设备。

由于渲染器是数学算法，所以在这种新的流程上，我们可以有新的设计，链接声音创造者以及听音者。

另一种比喻，这样的流程跟html网页开发相似。图4是html网页开发流程相对比的示意图，本发明的音频内容制作和回放流程可对比和参考该流程。

本发明中的录音师相当于图4场景中的网页开发人员，本发明中的录音棚的渲染器相当于图4场景中的开发者本地字体(开发者字体库)，而用户从服务器访问的时候，自己的字体(用户字体库)可能和开发者不一样。解决的方法可以是传输字体，或者找近似的代替。

方案设计

媒体负载渲染器信息

如果创作者、录音师想要用户听到完全一样的渲染，可以将渲染器搭载在媒体文件的头文件或元数据中。对于hoa，音箱的渲染矩阵相对数据量较小，所以已有一些方案放入音箱回放的解码矩阵；相对来说，耳机渲染的算法数据量较大，而且变化更多，可以而由更抽象的特征数据来描述，或提供耳机渲染器的标准接口，这样用户在播放前，播放器可以自动到网上下载(免费或付费)创作者所指定的理想渲染器参数。统一的接口将是标准化进程中一个可以讨论的课题。

渲染器匹配度评估

在不能下载或搭载渲染器的情况下，我们希望能对用户的渲染器质量以及和创作者渲染器的对比上有一个评估。文件中可以带入较短的测试信号(pilotsignal)以及相应的参考渲染输出。这样，播放前或跟播放平行的进程中，用户端可以用用户渲染器处理测试信号以得到输出信号，之后比较输出信号和参考输出来评估用户渲染器的质量。

图5图示说明根据本发明的实施例的音频回放渲染器评价系统。如图5中所示，用户端可以直接从传输码流中读出参考输出m以及测试信号，并用自己的渲染器处理测试信号，之后用一个评估模块来比较两个输出的相似度(方法不限，如最小二乘法(leastsquare)，梅尔倒谱系数(mfcc)，能量，包络等等特征量均可运用)。比较得出的量化标记可以显示、参考、或建议用户，当前的渲染器是否跟创作者理想的很接近或者相差甚远。

无匹配情况下的折中渲染器选择

当渲染器跟录音棚版本完全一致的时候，评估会得出一个最高分。当用户本地有多个渲染器的时候，本地播放器也可以根据评估标准选择一个更为接近理想渲染器的设置(在图4的例子中，相当于用本地字体代替当前缺失的网页字体)。

渲染器客观评价系统

将不同渲染器对于测试信号的渲染输出结果与参考输出比较，我们可以得到不同的匹配度。每一个渲染器的匹配度代表了对作品的保真度。传统音乐中的hifi概念主要是通过评价信噪比，失真度，频响等客观指标。对于渲染器，我们可以引入对测试信号渲染输出结果的匹配度来客观评价渲染器。由此，帮助用户进行选择。

回传信息

在条件允许的情况下，用户端也可以将评估信息(或加上其他时间，地理以及用户个性参数)回传至创作者。这样，录音棚可以进一步跟进，统计用户回放的环境以及和自己开始的设计初衷吻合程度，以追踪一个内容的播放情况以及用户的表现。

上面已经描述了本发明的各种实施例和实施情形。但是，本发明的精神和范围不限于此。本领域技术人员将能够根据本发明的教导而做出更多的应用，而这些应用都在本发明的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：向裴
技术所有人：杭州米谟科技有限公司
我是此专利的发明人

上一篇：一种操作音频生成方法、装置、终端及计算机可读介质与流程
上一篇：一种声学结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。