基于多声道音频内容分析的上混检测的制作方法_2

文档序号：8386000阅读：来源：国知局

示该内容被上混。
[0027] 与语音分量也相反，一些信号分量（诸如与周围环境、背景或其他场景声音相应的那些信号分量（包括，例如，有意的场景噪声））典型地可以集中在离散多声道内容中的一个或多个偏离中心的（例如，非C ;L、R、Ls和/或Rs)声道中。在信号泄漏分析指示从音频内容提取的特征与这些分量在C声道中的存在相关的情况下，该分析可以也指示该内容被上混。
[0028] 传递函数估计可以基于互功率谱密度和/或输入功率谱密度、以及用于计算最小均方（LMS)的算法。
[0029] 上混确定还可以包括：在一段持续时间上分析所提取的特征，并且基于所分析的特征计算一组描述性统计数据，诸如对所提取的特征计算的均值和方差值。
[0030] 实施例还涉及分别处理或存储编码的指令的系统和非暂态计算机可读存储介质，所述编码的指令用于执行、运行、控制基于多通道音频内容的分析的对该内容中的上混的取证检测、或者对该取证检测进行编程。
[0031] 上混器分析输入的立体声内容，并且估计直达信号分量和周围环境信号分量。基于所估计的直达信号分量和周围环境信号分量，上混器对各个输出声道中的每个输出声道产生信号。各种现代上混器应用程序得到使用，包括专有的上混合器，诸如Dolby Pro Logic?、Dolby Pro Logic II?、Dolby Pro Logic I lx?和Dolby Broadcast Upmixer ?，这些都可以在市面上从Dolby Laboratories，Inc.?(在加利福利亚经营业务的公司）购得。在上混中执行的处理和滤波操作可以向上混的内容给予特性特征，并且这些特性中的一些可能在其中被检测为例如上混器的伪像。同一内容部分的用不同上混器处理或平台被独立地上混的每一个单独实例的特性也可以彼此有所不同，可能明显不同。
[0032] 本发明的实施例在本文中参照从立体声内容产生5. 1多声道音频内容的上混器进行描述，并且在一些实例中，参照Dolby Pro Logic?上混器中的一个或多个进行描述。为了清晰、一致、简洁和简单，在本说明书中这样的对于立体声5. 1上混器的参照表示、涵盖并且适用于任何专有的或其他的上混器，包括从较少声道的相应音频内容（诸如立体声）产生四声道（quad)、7. 1、10. 2、22. 2和/或其他多声道音频内容的那些上混器。示例5. 1 多声道音频在本文中参照其L、C、R、Ls和Rs声道进行描述；为了清晰、简洁和简单，在本文中略去对于LFE声道的进一步讨论。
[0033] 示例实施例用于基于从上混器推导的多声道内容的分析来盲检测该上混器。给定内容部分，诸如一个时间块（例如，10秒）的多声道L、C、R、Ls、Rs内容，从其推导特征集。特征包括捕捉可以存在于声道对之间的关系（诸如时间延迟、相位关系和/或传递函数）的那些特征。特征还可以包括捕捉当上混时从声道（例如，典型是C声道）到一个或多个其他声道中的语音泄漏和/或从输入的多声道内容计算的协方差矩阵的阶次分析的那些特征。为了针对特定上混器（例如，Dolby Prologic II?)创建这些特征的分布的统计模型，实施例创建包括正例和反例的离线训练数据集，所述正例为诸如从该特定上混器推导的多声道内容，所述反例为诸如不从该上混器推导的多声道内容（例如，原始内容实例或者可能使用不同上混器被创建的内容）。通过使用该训练数据，实施例学习统计模型以基于这些特征检测特定上混器。
[0034] 给定多声道内容的新颖的测试片段，提取在统计学习过程期间使用的相同的特征，并且计算这些特征在用于上混器的与它们对于已经进行了上混的内容的处理功能的伪像相关的特性、效果和行为的一组竞争统计模型下的概率值。在其下所计算的特征具有最大可能性的统计模型被取证地识别（例如，宣告）为包括创建所接收的输入的多声道内容的上混器。当检测特定地上混的内容时可以使用这样的取证信息来对在上混之后可能发生的各种音频应用程序、功能或操作的一个或多个方面进行控制、调用、编程、优化、设置或配置，例如，以优化上混的内容的感知音频质量。下面更详细地描述与实施例提取的特征以及和其一起使用的统计学习框架相关的例子。
[0035] 本发明的实施例基于已经用特定上混器进行了上混的多声道音频内容的特性特征来识别该上混器（例如，取证地检测该上混器的身份）。特性特征是从分析该特定上混器创建的各种多声道内容学习的。当学习通过特定上混器被给予的特性特征时，实施例存储分析学习的特性特征。各种特征是从所接收的输入的多声道内容推导（例如，提取）的，包括捕捉声道之间的关系、到其他声道中的语音泄漏、从多声道内容计算的协方差矩阵的阶次的特征。使用机器学习方法组合所提取的特征。
[0036] 实施例用基于自适应增强（AdaBoost)算法、高斯混合模型（GMM)、支持矢量机 (SVM)或另一机器学习处理的计算来实现机器学习组件。虽然为了清晰、一致、简单和简洁，本文中参照AdaBoost算法描述了示例实施例，但是该描述表示、涵盖并且适用于可以用于实现实施例的任何机器学习处理，包括（但不限于）AdaBoost、GMM或SVM。Adaboost (或其他）机器学习处理在实施例中用于学习一个或多个分类器，通过该一个或多个分类器来区别从特定上混器推导的内容与所有其他多声道内容。所学习的分类器被存储以供用于测试从特定上混器推导的多声道内容，该特定上混器已产生从其学习分类器的多声道内容。而且，所存储的学习的分类器可以用于取证地识别对特定的多声道音频内容进行了上混的上混器。
[0037] 示例实施例涉及取证地检测对媒体内容或音频信号执行的上混处理功能。例如，实施例检测是否执行了上混操作，例如以基于至少一对声道之间的关系的取证检测推导多声道内容（例如，音频文件）中的单独的声道。实施例还识别对给定多声道内容或某一多声道音频信号进行上混的特定上混器。
[0038] 声道对之间的关系可以包括，例如，这两个声道之间的时间延迟和/或对参考声道执行的推导多声道内容中的多个可观察声道之一的滤波操作。两个声道之间的时间延迟可以用这两个声道中的信号的相关性的计算来估计。滤波操作可以至少部分基于下述操作来检测，即，对于所述声道之一估计参考声道，基于参考声道与所观察的声道之间的传递函数关系提取特征，并且如一个或多个其他实施例那样，基于统计学习模型计算所提取的特征的得分，所述统计学习模型诸如高斯混合模型（GMM)、AdaBoost或支持矢量机（SVM)。
[0039] 参考声道可以是声道之一的滤波后的版本或者至少两个声道的线性组合的滤波后的版本。在另外的或替代的实施例中，参考声道可以具有另一特性。如一个或多个实施例中那样，可以基于离线训练集合来计算统计学习模型。
[0040] 示例取证上混器检测系统
[0041] 图1描绘了根据本发明的实施例的示例取证上混器身份（identity)检测系统 100。取证上混器身份检测系统100基于已经用特定上混器进行了上混的多声道音频内容的特性特征来识别该特定上混器。特性特征是从分析该特定上混器创建的各种多声道内容来学习的。机器学习处理器155 (例如，AdaBoost)关于系统100的实时身份检测功能离线运行。下面更详细地描述机器学习处理。在学习一种或多种特定上混器类型给予给定测试内容的特性特征之后，可以存储被分析学习的特性特征。在实施例中，从用于分析的音频内容提取的特征包括基于阶次分析的特征、基于信号泄漏分析以及传递信号分析的特征。
[0042] 取证上混器身份检测系统100执行实时功能，其中，通过检测并且分析由特定上混器给予作为该系统的输入而被接收的输入多声道音频内容的特性特征来识别该特定上混器。特征提取组件101接收示例5. 1多声道输入，其包括单独的L、C、R、Ls和Rs通道。
[0043] 特征提取器101包括阶次分析模块102、信号泄漏分析模块104、传递函数估计模块106、时间延迟检测模块108以及相位关系检测模块110。基于这些模块中的一个或多个的功能，特征提取器101将特征矢量输出到决策引擎111。决策引擎111计算特征矢量对应于从测试内容离线学习的一个

完整全部详细技术资料下载

当前第2页1 2 3 4 5