内容识别和质量监测的制作方法

文档序号：7736073阅读：134来源：国知局

专利名称：内容识别和质量监测的制作方法
技术领域：
本发明总体上涉及内容识别和质量监测。更具体地说，本发明实施例涉及基于媒体内容指纹的内容识别和质量控制。
背景技术：
媒体内容对应于静止图像、音频媒体、视频媒体或音频/可视(AV)媒体的片段，并且包括通过至少一个媒介被包含的、存储的、发送的、接收的、处理的或另外使用的信息。常用媒体内容格式包括FLV格式(flash视频)、Windows Media Video、RealMedia、 Quicktime、MPEG、MP3、DivX、JPEG、以及位图。如在此使用，术语“媒体剪辑”、“媒体内容”、 “信息内容”以及“内容”可以互换地使用。媒体内容被制作、处理、并且发送给消费者。然而，在制作之后，处理和/或发送可能导致媒体内容的质量劣化。因此，现今的广播装置持续受到这样的挑战，即平衡操作员的数量与用于在媒体内容正被广播给消费者时媒体内容的质量控制OiC)以及连续监测的人工处理的数量。这种挑战归因于这样的事实现今的很多网络和运营商还跨越不同的媒介范围巩固他们的运营并且扩展他们的节目广播可用性，并同时控制他们的进行这种运作的成本。很多广播装置已经变得依赖于某类的处理(或多种处理)，以确保既在播送之前(例如在QC期间)又在正被播送的同时满足他们自己(一般是主观的)准则。处理通常包括在沿着从制作到广播的链条的很多不同步骤的QC检查，并且可以包含操作员在每一步骤验证质量。该部分中描述的方法是可被实行的方法，但不一定是先前已被构思或者实行的方法。因此，除非另外指示，否则不应仅仅由于在该部分中描述的任何方法包含于此部分中而假设它们为现有技术。相似地，除非另外指示，不应基于此部分而认为关于一个或多个方法被识别的问题已经在任何现有技术中被认出。

附图中以示例的方式而非限制的方式示出本发明，并且在附图中相同的附图标记指代相同的元件，其中图1描述根据本发明的一个实施例的质量监测逻辑的示例；图2描述根据本发明的一个实施例的用于确定在处理链中不同点处的媒体内容之间的质量劣化的示例方法；图3A-图;3B描述根据本发明实施例的使用用于检测质量劣化的指纹比较以及用于减少质量劣化的校正动作的系统的示例；
图4描述根据本发明的一个实施例的示例；图5描述示出可在其上实现本发明的一个实施例的计算机系统的框图；以及图6描述根据本发明的一个实施例的示例IC器件。
具体实施例方式在此描述的示例实施例涉及用于媒体内容的基于指纹的质量控制。在以下描述中，为了解释的目的，阐述大量具体细节以提供本发明的透彻理解。然而，本领域技术人员应清楚，可以在没有这些具体细节的情况下实行本发明。在其它情况下，公知结构和设备被以框图形式示出以免不必要地模糊本发明。在此根据以下大纲描述示例实施例1.0 —般概述2.0架构和功能概述3.0示例流程图4.0示例系统示图5. 0实现机制-硬件概述6. 0等同物、扩展、替换以及其它1. 0 一般概述在一个可能的实施例中，从第一媒体内容得出第一指纹。处理第一媒体内容以生成第二媒体内容，并且从第二媒体内容得出第二指纹。然后比较第一指纹与第二指纹，以确定以下中的一个或多个指示第二媒体内容被从第一媒体内容生成的第一指纹与第二指纹之间的相似性，或者用于识别第一媒体内容与第二媒体内容之间的质量劣化的第一指纹与第二指纹之间的差异。第一媒体内容与第二媒体内容之间的质量劣化可与第一指纹与第二指纹之间的不同比特的数量成比例。此外，可以修改第一媒体内容的处理，以减少从第一媒体内容到第二媒体内容的质量劣化。该修改可以基于是否满足质量劣化阈值。质量劣化阈值可以基于从第一指纹到第二指纹的汉明距离(hamming distance)、信噪比(SNR)、峰值信噪比 (PSNR)、视频质量的感知评价(PEVQ)、第一媒体内容与第二媒体内容之间的结构相似性 (SSIM)、通用质量索引(UQI)、视频质量度量(VQM)、音频频率响应、总谐波失真(THD)、通道隔离、立体声相位相关性、有效均方根(rms)功率、响度、加权功率、采样大小、实际峰值、采样比特深度、采样排列顺序(endiarmess)、或者音频数据猝发间隔(burst spacing)。在一个可能的实施例中，处理第一媒体内容以生成第二媒体内容包括将多个处理模块应用于第一媒体内容。可以识别该多个处理模块中的导致从第一媒体内容到第二媒体内容的质量劣化的一个处理模块。此后，可以移除、替换或者校正该被识别的导致从第一媒体内容到第二媒体内容的质量劣化的处理模块，以减少质量劣化。质量劣化可以包括以下中的一个或多个在第二媒体内容中丢失第一媒体内容的至少一部分、媒体通道重排序、媒体内容序列重排序、或者第一媒体内容中的分量的相对对准(alignment)与第二媒体内容中的对应分量的相对对准之间的差异。此外，第一媒体内容中的分量的相对对准与第二媒体内容中的对应分量的相对对准之间的差异在通过第一媒体内容中的多个通道创建的空间效果和通过第二媒体内容中的对应多个通道创建的空间效果中产生差异。在从第一媒体内容得出第一指纹之前，可以验证第一媒体内容的质量。可以基于从第二媒体内容得出的第二指纹验证与第二媒体内容的广播关联的播送时间。在一个可能的实施例中，获得从第一媒体内容得出的第一指纹包括在处理第一媒体内容之前，并行获得来自第一媒体内容的音频部分的第一音频指纹以及来自第一媒体内容的对应视频部分的第一视频指纹，确定第一媒体内容的音频部分相对于第一媒体内容的视频部分的对准，在处理第一媒体内容之后，并行获得来自第二媒体内容的音频部分的第二音频指纹以及来自第一媒体内容的对应视频部分的第二视频指纹，以及基于第一媒体内容的音频部分相对于第二媒体内容的视频部分的对准验证第二媒体内容的音频部分相对于第二媒体内容的视频部分的对准。本发明其它实施例可以包括具有用于执行上述步骤的功能性的系统和计算机可读介质。2. 0架构和功能概述在此描述与用于媒体内容的质量控制有关的可能的实施例的示例。在以下描述中，为了解释的目的，阐述大量具体细节以提供本发明的透彻理解。然而，应理解，可以在没有这些具体细节的情况下实行本发明。在其它情况下，没有详尽地详细描述公知结构和设备，以免不必要地使本发明遮蔽、模糊、或者混乱。图1示出根据一个实施例的质量监测逻辑100的示例。在实施例中，质量监测逻辑100包括媒体处理单元104、指纹得出单元108、指纹比较单元110、处理校正单元112。质量监测逻辑100还可以包括用于发送媒体内容的广播单元。这些组件中的每一个在下文被描述，并且可以位于相同设备(例如服务器、大型机、台式PC、膝上计算机、PDA、电视、分线盒、卫星盒、信息站(kiosk)、电话、移动电话等) 上，或者可以位于通过具有有线和/或无线部分的网络(例如互联网、内联网、外联网、局域网(LAN)、广域网(WAN)等)耦合的分离设备上。在本发明一个或多个实施例中，使用客户机-服务器拓扑实现质量监测逻辑100。质量监测逻辑100自身可以是在一个或多个服务器上运行的企业应用，并且在某些实施例中可以是对等系统，或者驻留在单个计算系统上。此外，可从其它机器使用一个或多个接口、web门户、或用于访问质量监测逻辑100的任何其它工具访问质量监测逻辑100。在一个或多个实施例中，一个或多个用户可通过网络连接 (例如互联网)访问质量监测逻辑100。也可以通过网络连接存储并且访问质量监测逻辑 100提供的信息和/或服务。在此可以参照包括静止图像、视频、和/或音频媒体的一个或多个示例媒体描述媒体内容(例如媒体内容A 102和媒体内容B 106)。在此描述中的示例媒体的选择可以是为了简化并且简明统一而进行，并且除非明显相反地声明，否则不应理解为将实施例限制于特定媒体，这是因为本发明实施例良好地适合于对静止图像、音频媒体、或视频媒体起作用。此外，本发明实施例良好地适合于对可以表现两个或三个空间维度的与音频和视频媒体对应的图像起作用。在一个可能的实施例中，媒体内容处理单元104对应于用于处理媒体内容的软件和/或硬件，其接收媒体内容A 102作为输入并且提供媒体内容B 106作为输出。媒体内容处理单元104可指的是应用于媒体内容A 102的单个处理模块或一组处理模块。用于音频内容的处理模块的示例包括针对环绕声编码、均衡、慢速播放、动态处理、增益改变、通道交换、延迟等的模块。用于视频内容的处理模块的示例包括针对代码转换、图形的添加和覆盖、降噪等的各模块。在一个可能的实施例中，指纹得出单元108对应于用于从媒体内容得出(例如提取、生成、确定、计算等)媒体指纹(“指纹”与“签名”可互换地并且等同地使用)的软件和/或硬件。可以从媒体内容的一部分内的信息或包括媒体内容的一部分的信息得出媒体内容的某些指纹。媒体指纹体现(embody)或者捕获对应媒体的媒体内容的本质，并且可唯一地与其联系在一起。可以从视频剪辑的图像或帧得出视频指纹。可以从具有嵌入的音频信息的图像(例如声谱图)得出音频指纹。指纹得出单元108还可以被配置为使用本领域已知的任何其它方法从媒体内容得出指纹。此外，术语媒体指纹可指的是媒体指纹与其关联并且被从其得出媒体内容的低比特率表示。指纹得出单元108可以被配置为从媒体内容 A 102或媒体内容B 106得出指纹。此外，指纹得出单元108还可以被配置为在媒体内容A 102的处理期间的任何点(例如，沿着从媒体内容A 102到媒体内容B 106的处理链的任何时间)得出指纹。指纹得出单元108也可以被配置为从选择的媒体内容得出多个指纹。例如，指纹得出单元108可以被配置为使用不同的指纹得出技术从相同媒体内容得出多个指纹(例如，具有变化的针对改变的强健性或敏感性的等级的指纹得出技术)。此外，指纹得出单元108也可以被配置为对于媒体内容的不同部分单独地得出指纹。例如，可以使用多路分解器将音频/视频媒体内容分为分离的分量(例如音频分量和视频分量)，并且可以对于每一分量单独地得出指纹。指纹得出单元108可以位于媒体内容处理单元104中的每一处理模块处，用于在处理模块之前或者之后的指纹得出。指纹得出单元108也可以是居中定位的，其中，媒体内容被从处理点发送到指纹得出单元108，以用于得出指纹。在可能的实施例中，指纹比较单元110对应于用于比较从沿着从媒体内容A 102 到媒体内容B 106的处理链的两个或更多个点得出的指纹的硬件和/或软件。例如，指纹比较单元110可以被配置为比较从媒体内容A 102得出的指纹与从媒体内容B 106得出的指纹，如图1所示。指纹比较单元110也可以被配置为比较沿着从媒体内容A 102到媒体内容B 106的处理链的任何其它指纹。在示例中，指纹可以包括1秒和0秒的集合，其中，指纹比较单元110可以比较该指纹并且确定哪些比特是不同的以及哪些是匹配的。指纹比较单元110可以基于各媒体内容的指纹之间的相似性确定一媒体内容是否是从另一媒体内容得出的。例如，如果在指纹之间发现预定数量的匹配数字(或在指纹中使用的其它字符、号码、符号等)，则可以确定各媒体内容是相关的(例如，第一媒体内容被处理以生成第二媒体内容)。还可以其它技术以确定一媒体内容是否是从另一媒体内容 (例如文件命名惯例、时间戳等)得出的。基于匹配数字(或在指纹中使用的其它字符、号码、符号等)的数量，指纹比较单元110可以确定与比较的指纹对应的媒体内容之间的质量劣化。例如，如果媒体内容A 102 的10个指纹比特中的8个与媒体内容B 106的指纹比特匹配，其中，每一比特被以百分之十相等地加权，则指纹比较单元可以确定百分之八十的相似度，或者反之，百分之二十的质量劣化。在其它实施例中，各比特可被不同地加权。例如，可以将不太可能随处理反转的一些比特分类为强比特，并且可以将更可能随处理反转的比特分类为弱比特。被分配给各比特以确定相似程度或质量劣化程度的百分比强度可以与比特的强度成比例。
在一个实施例中，指纹比较单元110可以比较比特(或构成指纹的其它字符、号码、符号等)的序列，以确定比特组的重排序。例如，指纹比较单元110可以确定第一指纹中的两个比特组在第二指纹中互换或者移位。基于互换的组，指纹比较单元110可以确定错误。由指纹比较单元110通过指纹比较识别的错误的示例包括但不限于媒体通道重排序、媒体内容序列重排序、或第一媒体内容中的分量的相对对准与第二媒体内容中的对应分量的相对对准之间的差异。相对对准中的差异可以进一步用于识别与媒体内容关联的元数据 (例如隐藏字幕)的空间效果中的或不适当对准中的差异。元数据也可以包括关于对应媒体内容的质量相关信息。例如，可以在各质量保证点处修改元数据，以记录在该质量保证点处的媒体内容的质量。如图4所示，可以按通道分离媒体内容，并且可以对于每一部分单独地得出指纹，或者可以对于沿着媒体内容的处理链的两个点确定与每一通道对应的组合指纹的一部分并将其存储在指纹服务器中。此后，可以按组验证与不同通道对应的各签名比特组的顺序和相对偏移。相对偏移中的差异可被用于识别作为处理链中的处理的结果的媒体内容的通道信息的交换。因此，指纹比较单元110可以被配置为基于对应媒体内容的指纹的比较，检测沿着处理链的各点处的媒体内容之间的媒体内容相似性、媒体内容质量劣化、上文指定的错误、或其它差异。在实施例中，处理校正单元112对应于被配置为基于指纹比较单元110识别的质量劣化给媒体内容处理单元104提供校正动作的硬件和/或软件。例如，处理校正单元112 可以移除、替换或校正导致从媒体内容A 102到媒体内容B 106的质量劣化的一个或多个处理模块。处理校正单元112还可以包括用于取回或恢复丢失的媒体内容的一个或多个部分(例如数据包、媒体内容通道、剪辑的一部分等)的功能性。处理校正单元112可以连接到接口，从而用户可以选择校正选项。处理校正单元112也可以是完全自动化的，从而选择耗时最少或成本最低校正选项。例如，当检测到通道切换错误时，媒体内容处理单元104可被提供以备用处理模块替换出错处理模块的校正动作。处理校正单元112也可以提供用于出错处理模块的校正的指令，导致通道切换错误的校正。在一个实施例中，可以使用除了出错模块之外的不同模块抵抗误差。例如，如果出错处理模块切换两个通道，则后续处理模块可以被配置为将这两个通道切换回原状，得到原始配置。在实施例中，如果满足预定质量劣化阈值，则可以激活处理校正单元112。例如，检测到的质量劣化可被使用预先定义的度量量化，或者被分配与质量劣化的量成比例的数值。此后，可以比较质量劣化与预定质量劣化阈值。如果质量劣化符合或者超过质量劣化阈值，则可以采取校正动作。如果未符合质量劣化，则不采取校正动作，并且仍将质量劣化看作是满意的。质量劣化阈值可以是静态的、用户定义的、或基于一个或多个因素是动态的。例如，质量劣化阈值可以基于正被测试的各媒体内容指纹之间的汉明距离。在该示例中，正比较的媒体内容两个指纹之间的汉明距离越大，质量劣化阈值就越大，因为预期的是，汉明距离越大，质量劣化量就越大。3. 0示例流程2示出用于确定在处理链中的不同点处媒体内容之间的质量劣化的一个示例方法。图2中所示的一个或多个步骤可被修改、重新排列、或者一起省略。在该示例中，一开始，获得第一媒体内容(步骤20 。在一个实施例中，可以从节目、过程或用户接收第一媒体内容。第一媒体内容可以对应于紧接在制作之后的内容，或者可以是从处理链内的中间点获得的。可以使用自动化装置或人工检查(例如用户观看或者收听)来验证第一媒体内容的质量。接下来，从第一媒体内容得出第一指纹(步骤204)。可以使用本领域已知的任何方法得出指纹。如果已经验证了第一媒体内容的质量，或者如果直接从制作者(其可以已经验证了质量)获得第一媒体内容，则可以将第一指纹分类为主指纹。第一指纹可以用于与在沿着处理链的下游取得的任何指纹比较。如上所述，第一指纹可对应于全部媒体内容、或媒体内容的一部分(例如音频部分或视频部分)。接下来，处理第一媒体内容以生成第二媒体内容(步骤206)。在媒体内容处理单元104包括多个处理模块的示例中，处理模块可以串行地应用于第一媒体内容以生成第二媒体内容。处理模块也可以并行地应用于第一媒体内容。例如，音频处理模块可以应用于第一媒体内容的音频部分，同时视频处理模块可以应用于第一媒体内容的视频部分。并行处理可进一步了解沿着处理链的某些点处测量的质量，并且可导致改进的质量监测(例如在音频与视频之间的同步方面)。在一个实施例中，从第二媒体内容得出第二指纹(步骤208)。可以通过步骤204 中的上文所述的任何方式得出第二指纹。在一个实施例中，可以沿着处理链得出许多不同的指纹并且将它们存储在指纹服务器中。可以使用时间戳或另一合适的机制识别主指纹或最早得出的指纹。此后，根据一个实施例，可以比较第一指纹与第二指纹以确定以下中的一个或多个(1)指示从第一媒体内容得出第二媒体内容的指纹之间的相似性，或⑵指纹之间的差异以及从第一媒体内容到第二媒体内容的质量劣化(步骤210)。第一指纹与第二指纹之间的比较可以包括用于确定匹配比特和不同比特的这两个指纹的各比特的简单比较。如上所述，比较也可以包括用于识别两个指纹之间的互换的或转变的比特组以检测错误的更复杂的比较。当比较多于两个的指纹时，可以识别差异的趋势或模式。例如，可以与处理链中的紧接在前面的点相比较地或与另一点(例如由与主指纹对应的用户对于质量控制进行验证的处理链中的初始点)相比较地分析各点处的质量劣化，以确定质量劣化的趋势。例如，在处理模块的第一集合中的每一个处的质量劣化可以是一致的可接受的百分比。然而，在沿着处理链的某一点之后，质量劣化可能开始以指数速率增加。可以基于趋势识别质量劣化的改变速率明显增加的点，并且可以识别发起指数质量劣化的一个或多个处理模块。也可以使用其它媒体内容质量度量确定质量劣化。媒体内容质量度量的示例包括信噪比 (SNR)、峰值信噪比(PSNR)、视频质量的感知评价(PEVQ)、结构相似性(SSIM) ,Czenakowski 距离(CZD)、通用质量索引(UQI)、视频质量度量(VQM)、音频频率响应、总谐波失真(THD)、通道隔离、立体声相位相关性、有效均方根功率、响度、加权功率、采样大小、实际峰值、采样比特深度、采样排列顺序、音频数据猝发间隔等。如上所述，造成质量劣化的处理模块可以通过比较该处理模块前后的媒体内容的指纹而被识别。然而，在具有大量处理模块的大处理链结束时检测到质量劣化的情况下，可以使用用于出错处理模块的更快速检测的算法。例如，如果在第1处理模块与第50处理模块之间某处检测到质量劣化，则指纹得出单元108可以首先获得在中间点(例如第25处理模块)前后的指纹，以确定是否已出现质量劣化。如果已经出现了质量劣化，则指纹得出单元108可以得出在第1处理模块与第25处理模块之间的一处理模块前后的指纹。如果尚未出现质量劣化，则指纹得出单元108可以得出在第25处理模块与第50处理模块之间的一处理模块前后的指纹。指纹得出单元108可以按上述方式递归地选择处理模块，并且直到识别导致质量劣化的处理模块。也可以重复该处理以识别导致质量劣化的另外的处理模块。除了质量劣化之外，指纹也可以用于验证媒体资产(media asset)是否已经成功地全部穿过系统(例如从帧和/或采样0到资产的末端)。术语“成功地”可以定义为已经通过单个或多个分析点/节点验证视频和/或音频的每一帧。在另一应用中，可以基于媒体内容指纹执行播放列表验证。例如，可以比较根据播放列表播出的音频/视频文件的指纹与期待根据播放列表播出的指纹。这允许验证歌曲/视频标题从播放列表到实际内容文件的映射。在识别到质量劣化的情况下，可以修改处理链以减少质量劣化(步骤212)。在一个可能的实施例中，可以用备用处理模块简单地替换导致质量劣化的出错处理模块。也可以校正或者移除出错处理模块。在一个可能的实施例中，可以使用另一处理模块来抵消质量劣化。质量劣化的识别可以用于自适应地触发内部或外部质量校正处理和/或动作。如果在某一处理模块或节点处识别到质量劣化，则可以向校正质量劣化的不同处理模块发送通知消息。例如，如果在某一节点处识别很多帧失落(frame drop)，则可将误差校正方案应用于音频/视频流，其减轻帧丢失的影响。此外，可以从先前版本等恢复、取回失落的帧、失落的通道、内容内丢失的剪辑、或媒体内容的任何其它丢失部分。如果当前路径被检测为阻塞，则也可以在不同网络路径上重新路由多媒体流。在使用多协议标识交换(MPLS)网络的情况下，这可以通过MPLS扩展或MPLS重新路由机制实现。相似地，在通用IP网络中，可以通过改变在开放式最短路径优先(OSPF)协议中分配的权重实现在不同网络路径上的重新路由。此外，在Diffserv框架中可以给予通知消息最高优先级。在一个实施例中，如下文结合图3A-图;3B所述，当检测到出错处理模块时可以使用备用处理模块。4.0示例系统示3A-图;3B示出根据实施例的使用用于检测质量劣化的指纹比较以及用于减少质量劣化的校正动作的系统的示例。在示例系统内，可以存在用于音频处理的串行布置的N个不同处理模块以及用于视频处理的串行布置的M个不同视频处理模块。在这种架构中，可以在每一处理块之后或者在处理块的一部分之后检查音频/视频的质量。使用指纹的内容识别可以使得能够进行质量的自动验证，并且可以消除对在每一处理块之后进行人工质量检查的需要。在广播处理或内容制作链的前端，可以检查、验证或者证实输入的音频部分和输入的视频部分的质量，以确保满足质量控制度量。在一个可能的实施例中，可以得出原始音频/视频的指纹并且存储在相应的指纹服务器(其也可以实现为单个服务器)中。在每一处理块之后，从经处理的音频/视频再次提取指纹，并且将其发送到指纹服务器。指纹服务器可从原始音频/视频指纹数据库返回匹配指纹的时间戳。因此，可以基于时间戳与音频/视频处理点关联地识别内容和指纹。一旦完成识别，就可将经处理的媒体内容的质量与来自先前处理点的先前媒体内容或接收的原始媒体内容相比较。在该示例中，发现音频处理模块I(A)和视频处理模块2(A)出错，导致质量劣化。因此，如图3B的处理链所示，以音频处理模块1 (B)替换音频处理模块1 (A)，并且以视频处理模块2 (B)替换视频处理模块2 (A)。由此，减少质量劣化。
5. 0实现方式机制图5描述示出了可在其上实现本发明实施例的计算机系统500的框图。计算机系统500包括总线502或用于传送信息的其它通信机制、以及与总线502耦合的用于处理信息的处理器504。计算机系统500还包括耦合到总线502的主存储器506 (诸如随机存取存储器(RAM)或其它动态存储设备)，其用于存储待由处理器504执行的指令以及信息。主存储器506还可以用于存储在待由处理器504执行的指令的执行期间的临时变量或其它中间信息。计算机系统500还包括耦合到总线502的用于存储用于处理器504的静态信息和指令的只读存储器(ROM) 508或其它静态存储设备。存储设备510(例如磁盘或光盘)被提供并且耦合到总线502，以用于存储信息和指令。计算机系统500可以经由总线502耦合到用于将信息显示给计算机用户的显示器 512(例如阴极射线管(CRT)、液晶显示器(IXD)、等离子体屏幕显示器等)。包括字母数字 (或不基于字母表的写入系统和/或不基于阿拉伯数字的)和其它键的输入设备514耦合到总线502，以用于将信息和命令选择传送到处理器504。另一类型的用户输入设备是光标控制器516 (例如鼠标、轨迹球、或光标方向键)，以用于将方向信息和命令选择传送到处理器504，并且控制显示器512上的光标移动。该输入设备典型地在两个轴——第一轴(例如 χ轴)和第二轴(例如y轴)——中具有两个自由度，这样允许设备指定平面中的位置。实施例可以涉及用于实现在此描述的技术的计算机系统500的使用。根据本发明的一个实施例，响应于处理器504执行主存储器506中包括的一个或多个指令的一个或多个序列，由计算机系统500执行这样的技术。可以从另一机器可读介质(例如存储设备 510)将这样的指令读入到主存储器506。主存储器506中包含的指令序列的执行使得处理器504执行在此描述的处理步骤。在替换实施例中，可以使用硬件实现电路来取代软件指令或者与软件指令进行组合以实现本发明。因此，本发明实施例不限于硬件电路和软件的任何具体组合。在此使用的术语“机器可读介质”指的是参与提供使得机器以特定方式操作的数据的任何存储介质。在使用计算机系统500实现的实施例中，例如，各种机器可读介质涉及将指令提供给处理器504以便执行。这样的介质可以采用很多形式，包括但不限于存储介质和传输介质。存储介质包括非易失性介质和易失性介质两者。非易失性介质包括例如光盘或磁盘，诸如存储设备510。易失性介质包括动态存储器，诸如主存储器506。传输介质包括同轴线缆、铜线和光纤，包括包含总线502的线。传输介质也可以采用诸如在无线电波和红外以及其它光学数据通信期间生成的声波或电磁波的形式。这样的介质是有形的，以使得能够通过物理机构检测该介质承载的指令，该物理机构将指令读入机器。机器可读介质的通常形式包括例如软盘、柔性盘、硬盘、磁带或任何其它磁介质、 CD-ROM、任何其它光学介质、穿孔卡、纸带、其它遗留介质、或具有孔或暗斑的图案的任何其它物理介质、RAM、PR0M、以及EPR0M、FLASH-EPR0M、任何其它存储器芯片或盒、下文中描述的载波、或计算机可以读取的任何其它介质。各种形式的机器可读介质可以涉及将一个或多个指令的一个或多个序列运送至处理器504以便执行。例如，可最初在远程计算机的磁盘上承载指令。远程计算机可以将指令加载到其的动态存储器，并且使用调制解调器在电话线路上发送指令。计算机系统500 的本地调制解调器可以在电话线路上接收该数据，并且使用红外发射机将数据转换为红外信号。红外检测器可以接收红外信号中承载的数据，并且适当的电路可以将数据置于总线 502上。总线502将数据运送到主存储器506，处理器504从主存储器506检索并且执行指令。主存储器506接收的指令可任选地在由处理器504执行之前或者之后被存储在存储设备510上。计算机系统500还可以包括耦合到总线502的通信接口 518。通信接口 518提供与连接到本地网络522的网络链路520的双向数据通信耦合。例如，通信接口 518可以是用于提供与对应类型的电话线路的数据通信连接的综合业务数字网络(ISDN)卡或数字用户线路(DSL)或线缆调制解调器(传统地，调制器/解调器)。作为另一示例，通信接口 518 可以是提供与兼容LAN的数据通信连接的局域网(LAN)卡。也可以实现无线链路。在任何这样的实现方式中，通信接口 518发送并且接收承载表示各种类型的信息的数字数据流的电、电磁或光信号。网络链路520典型地提供通过一个或多个网络到其它数据设备的数据通信。例如，网络链路520可以提供通过本地网络522到主机计算机5M或到互联网服务提供商 (ISP) 5 操作的数据设备的连接。ISP 5 进而通过遍及世界的分组数据通信网络(现在通常称为“互联网”)5 提供数据通信服务。本地网络522和互联网528皆使用承载数字数据流的电、电磁或光信号。承载去往以及来自计算机系统500的数字数据的通过各种网络的信号以及在网络链路520上并且通过通信接口 518的信号是传递信息的载波的示例性形式。计算机系统500可以通过网络、网络链路520和通信接口 518发送消息并且接收数据，包括程序代码。在互联网示例中，服务器530可以通过互联网528、ISP 526、本地网络522和通信接口 518发送对于应用程序的请求代码。被接收的代码可在其被接收到时由处理器504执行，并且/或者被存储在存储设备510或其它非易失性存储器中以用于稍后执行。这样，计算机系统500可获得载波的形式的应用代码。图6描述可通过其实现本发明可能的实施例的示例IC器件600。IC器件600可以具有输入/输出(I/O)部件601。I/O部件601接收输入信号，并且经由路由选择结构 610将它们路由到中央处理单元(CPU)602，CPU 602通过存储器603起作用。I/O部件601 还接收来自IC器件600的其它组件部件的输出信号，并且可以控制在路由选择结构610上的信号流的一部分。数字信号处理(DSP)部件至少执行与数字信号处理有关的功能。接口 605存取外部信号，并且将它们路由到I/O部件601，并且允许IC器件600输出信号。路由选择结构610在IC器件600的各组件部件之间路由信号和功率。诸如逻辑门阵列的可配置和/或可编程处理元件(CPPE) 611可以执行IC器件600 的专用功能，其在一个实施例中可涉及得出并且处理通常与媒体内容对应的媒体指纹。存储器612为CPPE 611贡献足够存储单元以高效运作。CPPE可以包括一个或多个专用DSP 部件614。本发明实施例可与以下列举的示例实施例中的一个或多个有关。7.0等同物、扩展、改动及其他在前面说明书中，已经参照可随实现方式而变化的大量具体细节描述了本发明实施例。因此，本发明是什么以及本发明的申请人所预期的唯一且排他的指示符是以权利要求提出的具体形式从该申请提出的权利要求的集合，包括任何后续改正。对于这些权利要求中所包含的术语在此明确阐述的任何定义应囊括如权利要求中所使用的这些术语的意义。因此，权利要求中未明确陈述的限制、元素、特性、特征、优点或属性不应以任何方式来限制所述权利要求的范围。相应地，说明书和附图是说明性的，而非限制的意义。
权利要求
1.一种方法，包括获得从第一媒体内容得出的第一指纹，其中，所述第一媒体内容被处理以生成第二媒体内容；获得从所述第二媒体内容得出的第二指纹；以及比较所述第一指纹与所述第二指纹以确定以下中的一个或多个指示所述第二媒体内容是从所述第一媒体内容生成的所述第一指纹与所述第二指纹之间的相似性；或者用于识别所述第一媒体内容与所述第二媒体内容之间的质量劣化的所述第一指纹与所述第二指纹之间的差异。
2.如列举的示例实施例1中陈述的方法，其中，所述第一媒体内容与所述第二媒体内容之间的质量劣化与所述第一指纹与所述第二指纹之间的不同比特的数量成比例。
3.如列举的示例实施例1中陈述的方法，还包括修改所述第一媒体内容的处理，以减少从所述第一媒体内容到所述第二媒体内容的质量劣化。
4.如列举的示例实施例1中陈述的方法，还包括将质量劣化与质量劣化阈值相比较；以及如果满足所述质量劣化阈值，则修改所述第一媒体内容的处理，以减少从所述第一媒体内容到所述第二媒体内容的质量劣化。
5.如列举的示例实施例4中陈述的方法，其中，所述质量劣化阈值基于以下中的一个或多个从所述第一指纹到所述第二指纹的汉明距离；信噪比(SNI )；峰值信噪比(PSNR)；视频质量的感知评价(PEVQ)；所述第一媒体内容与所述第二媒体内容之间的结构相似性(SSIM)；通用质量索引(UQI)；视频质量度量(VQM)；音频频率响应；总谐波失真(THD)；通道隔离；立体声相位相关性；有效均方根(RMS)功率；响度；加权功率；采样大小；实际峰值；采样比特深度；采样排列顺序；或者音频数据猝发间隔。
6.如列举的示例实施例1中陈述的方法，其中，通过将多个处理模块应用于所述第一媒体内容处理所述第一媒体内容以生成所述第二媒体内容。
7.如列举的示例实施例6中陈述的方法，还包括识别所述多个处理模块中的导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块。
8.如列举的示例实施例7中陈述的方法，还包括以下中的一个或多个移除导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块，以减少质量劣化；以备用处理模块替换导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块，以减少质量劣化；或者校正导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块，以减少质量劣化。
9.如列举的示例实施例1中陈述的方法，其中，质量劣化包括以下中的一个或多个所述第一媒体内容的至少一部分在所述第二媒体内容中丢失；媒体通道重排序；媒体内容序列重排序；或者所述第一媒体内容中的分量的相对对准与所述第二媒体内容中的对应分量的相对对准之间的差异。
10.如列举的示例实施例9中陈述的方法，其中，所述第一媒体内容中的分量的相对对准与所述第二媒体内容中的对应分量的相对对准之间的差异在通过所述第一媒体内容中多个通道创建的空间效果与通过所述第二媒体内容中对应的多个通道创建的空间效果中造成差异。
11.如列举的示例实施例1中陈述的方法，还包括在从所述第一媒体内容得出所述第一指纹之前，验证所述第一媒体内容的质量。
12.如列举的示例实施例1中陈述的方法，其中，基于从所述第二媒体内容得出的第二指纹验证与所述第二媒体内容的广播关联的播放时间。
13.如列举的示例实施例1中陈述的方法，其中，获得从第一媒体内容得出的第一指纹包括在处理所述第一媒体内容之前，并行地从所述第一媒体内容的音频部分获得第一音频指纹以及从所述第一媒体内容的对应视频部分获得第一视频指纹；以及确定所述第一媒体内容的音频部分相对于所述第一媒体内容的视频部分的对准；其中，获得从第二媒体内容得出的第二指纹包括在处理所述第一媒体内容之后，并行地从所述第二媒体内容的音频部分获得第二音频指纹以及从所述第一媒体内容的对应视频部分获得第二视频指纹；以及其中，确定所述第一指纹与所述第二指纹之间的差异包括基于所述第一媒体内容的音频部分相对于所述第二媒体内容的视频部分的对准，验证所述第二媒体内容的音频部分相对于所述第二媒体内容的视频部分的对准。
14.一种具有编码的指令的计算机可读存储介质产品，所述编码的指令在由一个或多个处理器执行时使得所述一个或多个处理器执行以下步骤获得从第一媒体内容得出的第一指纹，其中，所述第一媒体内容被处理以生成第二媒体内容；获得从所述第二媒体内容得出的第二指纹；以及比较所述第一指纹与所述第二指纹以确定以下中的一个或多个指示所述第二媒体内容是从所述第一媒体内容生成的所述第一指纹与所述第二指纹之间的相似性；或者用于识别所述第一媒体内容与所述第二媒体内容之间的质量劣化的所述第一指纹与所述第二指纹之间的差异。
15.如列举的示例实施例14中陈述的计算机可读存储介质，其中，所述第一媒体内容与所述第二媒体内容之间的质量劣化与所述第一指纹与所述第二指纹之间的不同比特的数量成比例。
16.如列举的示例实施例14中陈述的计算机可读存储介质，其中，所述编码的指令当由一个或多个处理器执行时使得所述一个或多个处理器进一步执行修改所述第一媒体内容的处理以减少从所述第一媒体内容到所述第二媒体内容的质量劣化的步骤。
17.如列举的示例实施例14中陈述的计算机可读存储介质，其中，所述编码的指令当由一个或多个处理器执行时使得所述一个或多个处理器进一步执行以下步骤将质量劣化与质量劣化阈值相比较；以及如果满足所述质量劣化阈值，则修改所述第一媒体内容的处理，以减少从所述第一媒体内容到所述第二媒体内容的质量劣化。
18.如列举的示例实施例17中陈述的计算机可读存储介质，其中，所述质量劣化阈值基于以下中的一个或多个从所述第一指纹到所述第二指纹的汉明距离；信噪比(SNR)；峰值信噪比(PSNR)；视频质量的感知评价(PEVQ)；所述第一媒体内容与所述第二媒体内容之间的结构相似性(SSIM)；通用质量索引(UQI)；视频质量度量(VQM)；音频频率响应；总谐波失真(THD)；通道隔离；立体声相位相关性；有效RMS功率；响度；加权功率；采样大小；实际峰值；采样比特深度；采样排列顺序；或者音频数据猝发间隔。
19.如列举的示例实施例14中陈述的计算机可读存储介质，其中，通过将多个处理模块应用于所述第一媒体内容处理所述第一媒体内容以生成所述第二媒体内容。
20.如列举的示例实施例19中陈述的计算机可读存储介质，其中，所述编码的指令当由一个或多个处理器执行时使得所述一个或多个处理器进一步执行识别所述多个处理模块中的导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块的步骤。
21.如列举的示例实施例20中陈述的计算机可读存储介质，其中，所述编码的指令当由一个或多个处理器执行时，使得所述一个或多个处理器进一步执行以下步骤中的一个或多个移除导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块，以减少质量劣化；以备用处理模块替换导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块，以减少质量劣化；或者校正导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块，以减少质量劣化。
22.如列举的示例实施例14中陈述的计算机可读存储介质，其中，质量劣化包括以下中的一个或多个所述第一媒体内容的至少一部分在所述第二媒体内容中丢失；媒体通道重排序；媒体内容序列重排序；或者所述第一媒体内容中的分量的相对对准与所述第二媒体内容中的对应分量的相对对准之间的差异。
23.如列举的示例实施例22中陈述的计算机可读存储介质，其中，所述第一媒体内容中的分量的相对对准与所述第二媒体内容中的对应分量的相对对准之间的差异在通过所述第一媒体内容中多个通道创建的空间效果与通过所述第二媒体内容中对应的多个通道创建的空间效果中造成差异。
24.如列举的示例实施例14中陈述的计算机可读存储介质，还包括在从所述第一媒体内容得出所述第一指纹之前，验证所述第一媒体内容的质量。
25.如列举的示例实施例14中陈述的计算机可读存储介质，其中，基于从所述第二媒体内容得出的第二指纹验证与所述第二媒体内容的广播关联的播放时间。
26.如列举的示例实施例14中陈述的计算机可读存储介质，其中，获得从第一媒体内容得出的第一指纹包括在处理所述第一媒体内容之前，并行地从所述第一媒体内容的音频部分获得第一音频指纹以及从所述第一媒体内容的对应视频部分获得第一视频指纹；以及确定所述第一媒体内容的音频部分相对于所述第一媒体内容的视频部分的对准；其中，获得从第二媒体内容得出的第二指纹包括在处理所述第一媒体内容之后，并行地从所述第二媒体内容的音频部分获得第二音频指纹以及从所述第一媒体内容的对应视频部分获得第二视频指纹；以及其中，确定所述第一指纹与所述第二指纹之间的差异包括基于所述第一媒体内容的音频部分相对于所述第二媒体内容的视频部分的对准，验证所述第二媒体内容的音频部分相对于所述第二媒体内容的视频部分的对准。
27.—种系统，包括处理器；指纹得出单元，所述指纹得出单元包括用于以下操作的功能性获得从第一媒体内容得出的第一指纹，其中，所述第一媒体内容被处理以生成第二媒体内容；和获得从所述第二媒体内容得出的第二指纹；以及指纹比较单元，所述指纹比较单元包括用于以下操作的功能性比较所述第一指纹与所述第二指纹以确定以下中的一个或多个指示所述第二媒体内容是从所述第一媒体内容生成的所述第一指纹与所述第二指纹之间的相似性；或者用于识别所述第一媒体内容与所述第二媒体内容之间的质量劣化的所述第一指纹与所述第二指纹之间的差异。
28.如列举的示例实施例27中陈述的系统，其中，所述第一媒体内容与所述第二媒体内容之间的质量劣化与所述第一指纹与所述第二指纹之间的不同比特的数量成比例。
29.如列举的示例实施例27中陈述的系统，还包括处理校正单元，所述处理校正单元包括用于修改所述第一媒体内容的处理以减少从所述第一媒体内容到所述第二媒体内容的质量劣化的功能性。
30.如列举的示例实施例27中陈述的系统，还包括处理校正单元，所述处理校正单元包括用于以下操作的功能性比较质量劣化与质量劣化阈值；以及如果满足所述质量劣化阈值，则修改所述第一媒体内容的处理，以减少从所述第一媒体内容到所述第二媒体内容的质量劣化。
31.如列举的示例实施例30中陈述的系统，其中，所述质量劣化阈值基于以下中的一个或多个从所述第一指纹到所述第二指纹的汉明距离；信噪比(SNI )；峰值信噪比(PSNR)；视频质量的感知评价(PEVQ)；所述第一媒体内容与所述第二媒体内容之间的结构相似性(SSIM)；通用质量索引(UQI)；视频质量度量(VQM)；音频频率响应；总谐波失真(THD)；通道隔离；立体声相位相关性；有效RMS功率；响度；加权功率；采样大小；实际峰值；采样比特深度；采样排列顺序；或者音频数据猝发间隔。
32.如列举的示例实施例27中陈述的系统，其中，通过将多个处理模块应用于所述第一媒体内容处理所述第一媒体内容以生成所述第二媒体内容。
33.如列举的示例实施例32中陈述的系统，还包括处理校正单元，所述处理校正单元包括用于以下操作的功能性识别所述多个处理模块中的导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块。
34.如列举的示例实施例33中陈述的系统，其中，所述处理校正单元还包括用于以下操作的功能性移除导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块，以减少质量劣化；以备用处理模块替换导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块，以减少质量劣化；或者校正导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块，以减少质量劣化。
35.如列举的示例实施例27中陈述的系统，其中，所述质量劣化包括以下中的一个或多个所述第一媒体内容的至少一部分在所述第二媒体内容中丢失；媒体通道重排序；媒体内容序列重排序；或者所述第一媒体内容中的分量的相对对准与所述第二媒体内容中的对应分量的相对对准之间的差异。
36.如列举的示例实施例35中陈述的系统，其中，所述第一媒体内容中的分量的相对对准与所述第二媒体内容中的对应分量的相对对准之间的差异在通过所述第一媒体内容中多个通道创建的空间效果与通过所述第二媒体内容中对应的多个通道创建的空间效果中造成差异。
37.如列举的示例实施例27中陈述的系统，其中，基于从所述第二媒体内容得出的第二指纹，验证与所述第二媒体内容的广播关联的播放时间。
38.如列举的示例实施例27中陈述的系统，其中，获得从第一媒体内容得出的第一指纹包括在处理所述第一媒体内容之前，并行地从所述第一媒体内容的音频部分获得第一音频指纹以及从所述第一媒体内容的对应视频部分获得第一视频指纹；以及确定所述第一媒体内容的音频部分相对于所述第一媒体内容的视频部分的对准；其中，获得从第二媒体内容得出的第二指纹包括在处理所述第一媒体内容之后，并行地从所述第二媒体内容的音频部分获得第二音频指纹以及从所述第一媒体内容的对应视频部分获得第二视频指纹；以及其中，确定所述第一指纹与所述第二指纹之间的差异包括基于所述第一媒体内容的音频部分相对于所述第二媒体内容的视频部分的对准，验证所述第二媒体内容的音频部分相对于所述第二媒体内容的视频部分的对准。
39.一种方法，包括获得从第一媒体内容得出的第一指纹，其中，所述第一媒体内容被处理以生成第二媒体内容；获得从所述第二媒体内容得出的第二指纹；以及确定所述第一指纹与所述第二指纹之间的差异，以识别所述第一媒体内容与所述第二媒体内容之间的质量劣化。
40.一种方法，包括获得从第一媒体内容得出的第一指纹；获得从第二媒体内容得出的第二指纹；比较所述第一指纹与所述第二指纹，以确定指示所述第二媒体内容是被从所述第一媒体内容生成的相似性；以及比较所述第一媒体内容与所述第二媒体内容，以识别所述第一媒体内容与所述第二媒体内容之间的质量劣化。
41.一种具有编码的指令的计算机可读存储介质产品，所述编码的指令当由一个或多个处理器执行时，使得所述一个或多个处理器执行如列举的示例实施例39或40中的一个或多个中陈述的步骤。
42.一种系统，包括用于获得从第一媒体内容得出的第一指纹的装置，其中，所述第一媒体内容被处理以生成第二媒体内容；用于获得从所述第二媒体内容得出的第二指纹的装置；以及用于确定用于识别所述第一媒体内容与所述第二媒体内容之间的质量劣化的所述第一指纹与所述第二指纹之间的差异的装置。
43.一种系统，包括用于以下操作的装置获得从第一媒体内容得出的第一指纹；获得从第二媒体内容得出的第二指纹；比较所述第一指纹与所述第二指纹，以确定指示所述第二媒体内容是被从所述第一媒体内容生成的相似性；以及比较所述第一媒体内容与所述第二媒体内容，以识别所述第一媒体内容与所述第二媒体内容之间的质量劣化。
44.一种计算机系统的使用，包括执行在列举的示例实施例1_13、39或40中的至少一个中陈述的处理步骤中的一个或多个。
45.一种系统，包括用于获得从第一媒体内容得出的第一指纹的装置，其中，所述第一媒体内容被处理以生成第二媒体内容；用于获得从所述第二媒体内容得出的第二指纹的装置；以及用于比较所述第一指纹与所述第二指纹以确定以下中的一个或多个的装置指示所述第二媒体内容是从所述第一媒体内容生成的所述第一指纹与所述第二指纹之间的相似性；或者用于识别所述第一媒体内容与所述第二媒体内容之间的质量劣化的所述第一指纹与所述第二指纹之间的差异。
全文摘要
提供内容识别和质量监测。该方法包括获得从第一媒体内容得出的第一指纹，处理第一媒体内容以生成第二媒体内容，获得从第二媒体内容得出的第二指纹，以及比较第一指纹与第二指纹以确定以下中的一个或多个指示第二媒体内容是从第一媒体内容生成的第一指纹与第二指纹之间的相似性；或者用于识别第一媒体内容与第二媒体内容之间的质量劣化的第一指纹与第二指纹之间的差异。
文档编号H04N17/00GK102132574SQ200980132514
公开日2011年7月20日申请日期2009年8月21日优先权日2008年8月22日
发明者C·鲍尔, J·C·瑞德米勒尔, R·拉达克里希南, 蒋文宇申请人:杜比实验室特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｒ·拉达克里希南
技术所有人：杜比实验室特许公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。