基于多声道音频内容分析的上混检测的制作方法

文档序号：8386000阅读：602来源：国知局

基于多声道音频内容分析的上混检测的制作方法
【技术领域】
[0001] 本发明总地涉及信号处理。更特别地，本发明的实施例涉及基于多声道音频内容的分析取证（forensic)检测该内容中的上混。
【背景技术】
[0002] 立体声（stereo)音频内容具有两个声道，这两个声道就它们的相对空间方位而言典型地被称为"左"声道和"右"声道。具有多于两个声道的音频内容通常被称为"多声道"内容。例如，"5. 1"和"7. 1"（以及其他）多声道音频系统生成具有正常双耳听力的用户可以将其感知为"环绕声"的声场。典型的5. 1多声道音频系统具有五个声道，这五个声道就它们的相对空间方位而言典型地被称为"左" (L)、"右" (R)、"中央" (C)、"左环绕" (Ls)、 "右环绕"（Rs)和"低频效果"（LFE)声道。多声道音频内容可以包括各种分量。
[0003] 例如，电影声带的音频内容可以包括语音分量（例如，演员之间的对话）、周围环境自然声音分量（例如，风噪声、海浪声）、与特定场景相关的周围环境声音分量（例如，机器噪声、动物和人类的声音（比如，脚步声或轻敲声））、和/或音乐分量（例如，背景音乐、配乐、音乐声响（诸如歌声或合唱）、场景中的乐队和管弦乐队）。音频内容分量中的一些典型地可以与特定音频声道相关联。例如，语音相关分量常常在中央声道中进行呈现，中央声道驱动中央扩音器（中央扩音器有时位于投影屏幕的后面）。因此，观众可以与"在屏幕上讲话"的人空间对应地感知到语音。
[0004] 多声道音频内容可以像这样直接记录，或者它可以从内容的其本身包括较少声道的实例产生。通过从具有较少声道的内容实例产生多声道音频内容实例的处理典型地被称为上混。因此例如，立体声内容可以被上混为5.1内容。上混器分析输入的立体声内容，并且估计直达信号分量和周围环境信号分量。基于所估计的直达信号分量和周围环境信号分量，上混器对于单独的输出声道中的每个产生信号。对于单独的输出声道中的每个产生的信号然后驱动相应的L、R、C、Ls或Rs扩音器。
[0005] 从上混器推导的多声道音频内容还包括诸如声道对之间的关系的特征性特征。例如，声道对（L/R、Ls/Rs、L/Ls、R/Rs、L/C、R/C等）可以共享某些相对相位取向、相对声道间时间延迟、互声道相关性和/或其他特性。特定内容段或者其一部分的特性中的一些可以是其独有的。而且，特定内容实例的特性可相对于同一内容的另一实例的相应特性是独有的。因此例如，5. 1内容的一部分的上混实例的特性与同一 5. 1内容部分的原始实例的特性可有所不同，可能明显不同。此外，同一内容部分的用不同上混器处理或平台独立地上混的每一个单独实例的特性也可彼此有所不同，可能明显不同。
[0006] 背景章节中所讨论的方法是可以寻求的方法，但是不一定是以前已经设想到或寻求到的方法。因此，除非另有指示，否则不应仅因本章节中所描述的任一方法包括在本章节中就将该方法当作现有技术。类似地，除非另有指示，否则关于一种或多种方法认定的问题不应基于该章节就假定为已经在任何现有技术中被认识到。
【附图说明】
[0007] 本发明的实施例在附图的图中是以举例的方式、而不是以限制的方式例示的，在附图中，相似的标号指代类似的元件，其中：
[0008] 图1描绘根据本发明的实施例的示例取证上混器身份检测系统；
[0009] 图2A描绘根据本发明的实施例的基于阶次分析（rank analysis)的特征检测的示例处理的流程图；
[0010] 图2B描绘基于本发明的实施例的示例实现的阶次估计的第一比较；
[0011] 图3描绘根据本发明的实施例的用于计算语音泄漏特征的示例处理；
[0012] 图4描绘各种多声道内容例子的信号能量泄漏的绘图；
[0013] 图5A和图5B分别描绘示例低通滤波器响应和示例架式滤波器频率响应；
[0014] 图6描绘一对音频声道之间的示例时间延迟估计；
[0015] 图7和图8描绘关于示例上混器的在两种各自的操作模式中的示例相关值分布；
[0016] 图9描绘可以用其实施本发明的实施例的示例计算机系统平台；和
[0017] 图10描绘可以用其实施本发明的实施例的示例集成电路（IC)器件。
【具体实施方式】
[0018] 本文中描述了基于多声道音频内容的分析取证地检测该内容中的上混。在以下描述中，为了说明的目的，阐述了与一个或多个示例实施例相关的许多特定细节，以便提供本发明的透彻理解。然而，将显而易见的是，可以在没有这些特定细节的情况下实施本发明。在其他情况下，为了清晰、简洁和简单，并且为了避免不必要地闭塞、模糊或混淆本发明，不对公知的结构和装置进行详尽描述。
[0019] 概述
[0020] 本文中所描述的示例实施例涉及基于多声道音频内容的分析的该内容中的上混的取证检测。描述取证音频上混器检测。从具有两个或更多个单独的声道的音频信号提取特征集。基于所提取的特征集，确定音频信号是否是从具有较少声道的音频内容上混的。该确定使得可以大体上检测到在产生多声道音频时涉及上混并且识别产生所访问的音频信号的特定上混器。上混确定包括基于统计学习模型计算所提取的特征的得分，该得分可以基于离线训练集计算。在本文中关于自适应增强（AdaBoost)来描述统计学习模型。然而，实施例可以使用高斯混合模型（GMM)、支持矢量机（SVM)和/或另一机器学习处理来实现。
[0021] 所提取的特征可以包括下列中的一个或多个：所访问的音频信号的阶次分析、信号的至少一个分量在所访问的音频信号的两个或更多个声道上的泄漏的分析、所述两个或更多个声道中的至少一对声道之间的传递函数的估计、所述两个或更多个声道中的至少一对声道之间的相位关系的估计、和/或所述两个或更多声道中的至少一对声道之间的时间延迟关系的估计。可以通过计算该对声道中的每个声道之间的相关性来估计时间延迟关系或相位关系中的一个或多个的估计。
[0022] 可以在时域中对所访问的音频信号宽广地执行阶次分析，和/或在与所访问的音频信号的两个或更多个声道相应的多个频带中的每个频带中执行阶次分析。当执行基于宽带时域的阶次分析和相应频带中的每个频带中的阶次分析时，可以比较这些分析。可以按时间（例如，在时间上）对齐声道对的每个声道，其后实施例执行阶次分析。
[0023] 实施例可以重复阶次分析。例如，可以一开始执行一阶分析以获得一阶估计，其后可以对所访问的音频信号的至少一对环绕声声道（例如，Ls、Rs)执行逆去相关。逆去相关一经执行，可以重复阶次分析以获得二阶估计。然后可比较一阶估计和二阶估计。
[0024]信号分量泄漏分析包括将所提取的特征归类为与音频信号的一个或多个分量在声道之间的泄漏有关。一些特定音频信号分量典型地与特定的声道或声道组相关联，因此预期在该声道或声道组中（例如，在多声道音频内容的离散实例中、在除了与它相关联的声道之外的声道中）被找到。
[0025]例如，语音相关的信号分量经常或典型地与诸如内容的原始实例的离散多声道音频中的中央（C)声道相关联。在泄漏分析指示从音频内容提取的特征与同期（同时）存在于音频信号的至少两个声道中的每个声道中的语音分量相关的情况下，该分析可以指示该内容被上混，例如，该内容包括除了其独立或原始实例之外的实例。而且，在其中找到语音分量的所述至少两个声道中的一个或多个声道包括除了中央（C)声道之外的声道，诸如L 声道和R声道或者环绕声声道中的一个或多个。
[0026] 与音频信号的语音相关的分量本身相反，与音乐声响（诸如合声或赞歌）相关的信号分量可以典型地集中在离散多声道音频内容的L声道和R声道中。其他更多的类似语音的音乐声响分量（诸如独唱、抒情、歌剧等）可以在C声道中。在信号泄漏分析指示从音频内容提取的特征与预期在一个或多个声道（例如，L和R)中、但存在于它们不预期位于的一个或多个其他声道（例如，Ls、Rs或C)中（或者例如，非典型地，在离散多声道内容中）的赞歌或演唱声音合声信号分量相关的情况下，该分析可以也指

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：雷古纳赞·拉达克里希南;马克·F·戴维斯;
技术所有人：杜比实验室特许公司;
我是此专利的发明人