内容识别和质量监测的制作方法

文档序号:7736073阅读:134来源:国知局
专利名称:内容识别和质量监测的制作方法
技术领域
本发明总体上涉及内容识别和质量监测。更具体地说,本发明实施例涉及基于媒 体内容指纹的内容识别和质量控制。
背景技术
媒体内容对应于静止图像、音频媒体、视频媒体或音频/可视(AV)媒体的片段, 并且包括通过至少一个媒介被包含的、存储的、发送的、接收的、处理的或另外使用的信 息。常用媒体内容格式包括FLV格式(flash视频)、Windows Media Video、RealMedia、 Quicktime、MPEG、MP3、DivX、JPEG、以及位图。如在此使用,术语“媒体剪辑”、“媒体内容”、 “信息内容”以及“内容”可以互换地使用。媒体内容被制作、处理、并且发送给消费者。然而,在制作之后,处理和/或发送可 能导致媒体内容的质量劣化。因此,现今的广播装置持续受到这样的挑战,即平衡操作员的 数量与用于在媒体内容正被广播给消费者时媒体内容的质量控制OiC)以及连续监测的人 工处理的数量。这种挑战归因于这样的事实现今的很多网络和运营商还跨越不同的媒介 范围巩固他们的运营并且扩展他们的节目广播可用性,并同时控制他们的进行这种运作的 成本。很多广播装置已经变得依赖于某类的处理(或多种处理),以确保既在播送之前(例 如在QC期间)又在正被播送的同时满足他们自己(一般是主观的)准则。处理通常包括 在沿着从制作到广播的链条的很多不同步骤的QC检查,并且可以包含操作员在每一步骤 验证质量。该部分中描述的方法是可被实行的方法,但不一定是先前已被构思或者实行的方 法。因此,除非另外指示,否则不应仅仅由于在该部分中描述的任何方法包含于此部分中而 假设它们为现有技术。相似地,除非另外指示,不应基于此部分而认为关于一个或多个方法 被识别的问题已经在任何现有技术中被认出。


附图中以示例的方式而非限制的方式示出本发明,并且在附图中相同的附图标记 指代相同的元件,其中图1描述根据本发明的一个实施例的质量监测逻辑的示例;图2描述根据本发明的一个实施例的用于确定在处理链中不同点处的媒体内容 之间的质量劣化的示例方法;图3A-图;3B描述根据本发明实施例的使用用于检测质量劣化的指纹比较以及用 于减少质量劣化的校正动作的系统的示例;
图4描述根据本发明的一个实施例的示例;图5描述示出可在其上实现本发明的一个实施例的计算机系统的框图;以及图6描述根据本发明的一个实施例的示例IC器件。
具体实施例方式在此描述的示例实施例涉及用于媒体内容的基于指纹的质量控制。在以下描述 中,为了解释的目的,阐述大量具体细节以提供本发明的透彻理解。然而,本领域技术人员 应清楚,可以在没有这些具体细节的情况下实行本发明。在其它情况下,公知结构和设备被 以框图形式示出以免不必要地模糊本发明。在此根据以下大纲描述示例实施例1.0 —般概述2.0架构和功能概述3.0示例流程图4.0示例系统示图5. 0实现机制-硬件概述6. 0等同物、扩展、替换以及其它1. 0 一般概述在一个可能的实施例中,从第一媒体内容得出第一指纹。处理第一媒体内容以生 成第二媒体内容,并且从第二媒体内容得出第二指纹。然后比较第一指纹与第二指纹,以确 定以下中的一个或多个指示第二媒体内容被从第一媒体内容生成的第一指纹与第二指纹 之间的相似性,或者用于识别第一媒体内容与第二媒体内容之间的质量劣化的第一指纹与 第二指纹之间的差异。第一媒体内容与第二媒体内容之间的质量劣化可与第一指纹与第二指纹之间的 不同比特的数量成比例。此外,可以修改第一媒体内容的处理,以减少从第一媒体内容到 第二媒体内容的质量劣化。该修改可以基于是否满足质量劣化阈值。质量劣化阈值可以 基于从第一指纹到第二指纹的汉明距离(hamming distance)、信噪比(SNR)、峰值信噪比 (PSNR)、视频质量的感知评价(PEVQ)、第一媒体内容与第二媒体内容之间的结构相似性 (SSIM)、通用质量索引(UQI)、视频质量度量(VQM)、音频频率响应、总谐波失真(THD)、通道 隔离、立体声相位相关性、有效均方根(rms)功率、响度、加权功率、采样大小、实际峰值、采 样比特深度、采样排列顺序(endiarmess)、或者音频数据猝发间隔(burst spacing)。在一个可能的实施例中,处理第一媒体内容以生成第二媒体内容包括将多个处 理模块应用于第一媒体内容。可以识别该多个处理模块中的导致从第一媒体内容到第二媒 体内容的质量劣化的一个处理模块。此后,可以移除、替换或者校正该被识别的导致从第一 媒体内容到第二媒体内容的质量劣化的处理模块,以减少质量劣化。质量劣化可以包括以下中的一个或多个在第二媒体内容中丢失第一媒体内容的 至少一部分、媒体通道重排序、媒体内容序列重排序、或者第一媒体内容中的分量的相对对 准(alignment)与第二媒体内容中的对应分量的相对对准之间的差异。此外,第一媒体内 容中的分量的相对对准与第二媒体内容中的对应分量的相对对准之间的差异在通过第一 媒体内容中的多个通道创建的空间效果和通过第二媒体内容中的对应多个通道创建的空间效果中产生差异。在从第一媒体内容得出第一指纹之前,可以验证第一媒体内容的质量。可以基于 从第二媒体内容得出的第二指纹验证与第二媒体内容的广播关联的播送时间。在一个可能的实施例中,获得从第一媒体内容得出的第一指纹包括在处理第一 媒体内容之前,并行获得来自第一媒体内容的音频部分的第一音频指纹以及来自第一媒体 内容的对应视频部分的第一视频指纹,确定第一媒体内容的音频部分相对于第一媒体内容 的视频部分的对准,在处理第一媒体内容之后,并行获得来自第二媒体内容的音频部分的 第二音频指纹以及来自第一媒体内容的对应视频部分的第二视频指纹,以及基于第一媒体 内容的音频部分相对于第二媒体内容的视频部分的对准验证第二媒体内容的音频部分相 对于第二媒体内容的视频部分的对准。本发明其它实施例可以包括具有用于执行上述步骤的功能性的系统和计算机可 读介质。2. 0架构和功能概述在此描述与用于媒体内容的质量控制有关的可能的实施例的示例。在以下描述 中,为了解释的目的,阐述大量具体细节以提供本发明的透彻理解。然而,应理解,可以在没 有这些具体细节的情况下实行本发明。在其它情况下,没有详尽地详细描述公知结构和设 备,以免不必要地使本发明遮蔽、模糊、或者混乱。图1示出根据一个实施例的质量监测逻辑100的示例。在实施例中,质量监测逻 辑100包括媒体处理单元104、指纹得出单元108、指纹比较单元110、处理校正单元112。质 量监测逻辑100还可以包括用于发送媒体内容的广播单元。这些组件中的每一个在下文被描述,并且可以位于相同设备(例如服务器、大型 机、台式PC、膝上计算机、PDA、电视、分线盒、卫星盒、信息站(kiosk)、电话、移动电话等) 上,或者可以位于通过具有有线和/或无线部分的网络(例如互联网、内联网、外联网、局域 网(LAN)、广域网(WAN)等)耦合的分离设备上。在本发明一个或多个实施例中,使用客户 机-服务器拓扑实现质量监测逻辑100。质量监测逻辑100自身可以是在一个或多个服务 器上运行的企业应用,并且在某些实施例中可以是对等系统,或者驻留在单个计算系统上。 此外,可从其它机器使用一个或多个接口、web门户、或用于访问质量监测逻辑100的任何 其它工具访问质量监测逻辑100。在一个或多个实施例中,一个或多个用户可通过网络连接 (例如互联网)访问质量监测逻辑100。也可以通过网络连接存储并且访问质量监测逻辑 100提供的信息和/或服务。在此可以参照包括静止图像、视频、和/或音频媒体的一个或多个示例媒体描述 媒体内容(例如媒体内容A 102和媒体内容B 106)。在此描述中的示例媒体的选择可以是 为了简化并且简明统一而进行,并且除非明显相反地声明,否则不应理解为将实施例限制 于特定媒体,这是因为本发明实施例良好地适合于对静止图像、音频媒体、或视频媒体起作 用。此外,本发明实施例良好地适合于对可以表现两个或三个空间维度的与音频和视频媒 体对应的图像起作用。在一个可能的实施例中,媒体内容处理单元104对应于用于处理媒体内容的软件 和/或硬件,其接收媒体内容A 102作为输入并且提供媒体内容B 106作为输出。媒体内 容处理单元104可指的是应用于媒体内容A 102的单个处理模块或一组处理模块。用于音频内容的处理模块的示例包括针对环绕声编码、均衡、慢速播放、动态处理、增益改变、通道 交换、延迟等的模块。用于视频内容的处理模块的示例包括针对代码转换、图形的添加和覆 盖、降噪等的各模块。在一个可能的实施例中,指纹得出单元108对应于用于从媒体内容得出(例如提 取、生成、确定、计算等)媒体指纹(“指纹”与“签名”可互换地并且等同地使用)的软件 和/或硬件。可以从媒体内容的一部分内的信息或包括媒体内容的一部分的信息得出媒体 内容的某些指纹。媒体指纹体现(embody)或者捕获对应媒体的媒体内容的本质,并且可唯 一地与其联系在一起。可以从视频剪辑的图像或帧得出视频指纹。可以从具有嵌入的音频 信息的图像(例如声谱图)得出音频指纹。指纹得出单元108还可以被配置为使用本领域 已知的任何其它方法从媒体内容得出指纹。此外,术语媒体指纹可指的是媒体指纹与其关 联并且被从其得出媒体内容的低比特率表示。指纹得出单元108可以被配置为从媒体内容 A 102或媒体内容B 106得出指纹。此外,指纹得出单元108还可以被配置为在媒体内容A 102的处理期间的任何点(例如,沿着从媒体内容A 102到媒体内容B 106的处理链的任何 时间)得出指纹。指纹得出单元108也可以被配置为从选择的媒体内容得出多个指纹。例 如,指纹得出单元108可以被配置为使用不同的指纹得出技术从相同媒体内容得出多个指 纹(例如,具有变化的针对改变的强健性或敏感性的等级的指纹得出技术)。此外,指纹得 出单元108也可以被配置为对于媒体内容的不同部分单独地得出指纹。例如,可以使用多 路分解器将音频/视频媒体内容分为分离的分量(例如音频分量和视频分量),并且可以对 于每一分量单独地得出指纹。指纹得出单元108可以位于媒体内容处理单元104中的每一 处理模块处,用于在处理模块之前或者之后的指纹得出。指纹得出单元108也可以是居中 定位的,其中,媒体内容被从处理点发送到指纹得出单元108,以用于得出指纹。在可能的实施例中,指纹比较单元110对应于用于比较从沿着从媒体内容A 102 到媒体内容B 106的处理链的两个或更多个点得出的指纹的硬件和/或软件。例如,指纹 比较单元110可以被配置为比较从媒体内容A 102得出的指纹与从媒体内容B 106得出的 指纹,如图1所示。指纹比较单元110也可以被配置为比较沿着从媒体内容A 102到媒体 内容B 106的处理链的任何其它指纹。在示例中,指纹可以包括1秒和0秒的集合,其中, 指纹比较单元110可以比较该指纹并且确定哪些比特是不同的以及哪些是匹配的。指纹比较单元110可以基于各媒体内容的指纹之间的相似性确定一媒体内容是 否是从另一媒体内容得出的。例如,如果在指纹之间发现预定数量的匹配数字(或在指纹 中使用的其它字符、号码、符号等),则可以确定各媒体内容是相关的(例如,第一媒体内容 被处理以生成第二媒体内容)。还可以其它技术以确定一媒体内容是否是从另一媒体内容 (例如文件命名惯例、时间戳等)得出的。基于匹配数字(或在指纹中使用的其它字符、号码、符号等)的数量,指纹比较单 元110可以确定与比较的指纹对应的媒体内容之间的质量劣化。例如,如果媒体内容A 102 的10个指纹比特中的8个与媒体内容B 106的指纹比特匹配,其中,每一比特被以百分之 十相等地加权,则指纹比较单元可以确定百分之八十的相似度,或者反之,百分之二十的质 量劣化。在其它实施例中,各比特可被不同地加权。例如,可以将不太可能随处理反转的一 些比特分类为强比特,并且可以将更可能随处理反转的比特分类为弱比特。被分配给各比 特以确定相似程度或质量劣化程度的百分比强度可以与比特的强度成比例。
在一个实施例中,指纹比较单元110可以比较比特(或构成指纹的其它字符、号 码、符号等)的序列,以确定比特组的重排序。例如,指纹比较单元110可以确定第一指纹中 的两个比特组在第二指纹中互换或者移位。基于互换的组,指纹比较单元110可以确定错 误。由指纹比较单元110通过指纹比较识别的错误的示例包括但不限于媒体通道重排序、 媒体内容序列重排序、或第一媒体内容中的分量的相对对准与第二媒体内容中的对应分量 的相对对准之间的差异。相对对准中的差异可以进一步用于识别与媒体内容关联的元数据 (例如隐藏字幕)的空间效果中的或不适当对准中的差异。元数据也可以包括关于对应媒 体内容的质量相关信息。例如,可以在各质量保证点处修改元数据,以记录在该质量保证点 处的媒体内容的质量。如图4所示,可以按通道分离媒体内容,并且可以对于每一部分单独 地得出指纹,或者可以对于沿着媒体内容的处理链的两个点确定与每一通道对应的组合指 纹的一部分并将其存储在指纹服务器中。此后,可以按组验证与不同通道对应的各签名比 特组的顺序和相对偏移。相对偏移中的差异可被用于识别作为处理链中的处理的结果的媒 体内容的通道信息的交换。因此,指纹比较单元110可以被配置为基于对应媒体内容的指 纹的比较,检测沿着处理链的各点处的媒体内容之间的媒体内容相似性、媒体内容质量劣 化、上文指定的错误、或其它差异。在实施例中,处理校正单元112对应于被配置为基于指纹比较单元110识别的质 量劣化给媒体内容处理单元104提供校正动作的硬件和/或软件。例如,处理校正单元112 可以移除、替换或校正导致从媒体内容A 102到媒体内容B 106的质量劣化的一个或多个 处理模块。处理校正单元112还可以包括用于取回或恢复丢失的媒体内容的一个或多个部 分(例如数据包、媒体内容通道、剪辑的一部分等)的功能性。处理校正单元112可以连接 到接口,从而用户可以选择校正选项。处理校正单元112也可以是完全自动化的,从而选择 耗时最少或成本最低校正选项。例如,当检测到通道切换错误时,媒体内容处理单元104可 被提供以备用处理模块替换出错处理模块的校正动作。处理校正单元112也可以提供用于 出错处理模块的校正的指令,导致通道切换错误的校正。在一个实施例中,可以使用除了出 错模块之外的不同模块抵抗误差。例如,如果出错处理模块切换两个通道,则后续处理模块 可以被配置为将这两个通道切换回原状,得到原始配置。在实施例中,如果满足预定质量劣化阈值,则可以激活处理校正单元112。例如, 检测到的质量劣化可被使用预先定义的度量量化,或者被分配与质量劣化的量成比例的数 值。此后,可以比较质量劣化与预定质量劣化阈值。如果质量劣化符合或者超过质量劣化阈 值,则可以采取校正动作。如果未符合质量劣化,则不采取校正动作,并且仍将质量劣化看 作是满意的。质量劣化阈值可以是静态的、用户定义的、或基于一个或多个因素是动态的。 例如,质量劣化阈值可以基于正被测试的各媒体内容指纹之间的汉明距离。在该示例中,正 比较的媒体内容两个指纹之间的汉明距离越大,质量劣化阈值就越大,因为预期的是,汉明 距离越大,质量劣化量就越大。3. 0示例流程2示出用于确定在处理链中的不同点处媒体内容之间的质量劣化的一个示例 方法。图2中所示的一个或多个步骤可被修改、重新排列、或者一起省略。在该示例中,一开始,获得第一媒体内容(步骤20 。在一个实施例中,可以从节 目、过程或用户接收第一媒体内容。第一媒体内容可以对应于紧接在制作之后的内容,或者可以是从处理链内的中间点获得的。可以使用自动化装置或人工检查(例如用户观看或者 收听)来验证第一媒体内容的质量。接下来,从第一媒体内容得出第一指纹(步骤204)。可以使用本领域已知的任何 方法得出指纹。如果已经验证了第一媒体内容的质量,或者如果直接从制作者(其可以已 经验证了质量)获得第一媒体内容,则可以将第一指纹分类为主指纹。第一指纹可以用于 与在沿着处理链的下游取得的任何指纹比较。如上所述,第一指纹可对应于全部媒体内容、 或媒体内容的一部分(例如音频部分或视频部分)。接下来,处理第一媒体内容以生成第二媒体内容(步骤206)。在媒体内容处理单 元104包括多个处理模块的示例中,处理模块可以串行地应用于第一媒体内容以生成第二 媒体内容。处理模块也可以并行地应用于第一媒体内容。例如,音频处理模块可以应用于 第一媒体内容的音频部分,同时视频处理模块可以应用于第一媒体内容的视频部分。并行 处理可进一步了解沿着处理链的某些点处测量的质量,并且可导致改进的质量监测(例如 在音频与视频之间的同步方面)。在一个实施例中,从第二媒体内容得出第二指纹(步骤208)。可以通过步骤204 中的上文所述的任何方式得出第二指纹。在一个实施例中,可以沿着处理链得出许多不同 的指纹并且将它们存储在指纹服务器中。可以使用时间戳或另一合适的机制识别主指纹或 最早得出的指纹。此后,根据一个实施例,可以比较第一指纹与第二指纹以确定以下中的一个或多 个(1)指示从第一媒体内容得出第二媒体内容的指纹之间的相似性,或⑵指纹之间的差 异以及从第一媒体内容到第二媒体内容的质量劣化(步骤210)。第一指纹与第二指纹之 间的比较可以包括用于确定匹配比特和不同比特的这两个指纹的各比特的简单比较。如上 所述,比较也可以包括用于识别两个指纹之间的互换的或转变的比特组以检测错误的更复 杂的比较。当比较多于两个的指纹时,可以识别差异的趋势或模式。例如,可以与处理链中 的紧接在前面的点相比较地或与另一点(例如由与主指纹对应的用户对于质量控制进行 验证的处理链中的初始点)相比较地分析各点处的质量劣化,以确定质量劣化的趋势。例 如,在处理模块的第一集合中的每一个处的质量劣化可以是一致的可接受的百分比。然而, 在沿着处理链的某一点之后,质量劣化可能开始以指数速率增加。可以基于趋势识别质量 劣化的改变速率明显增加的点,并且可以识别发起指数质量劣化的一个或多个处理模块。 也可以使用其它媒体内容质量度量确定质量劣化。媒体内容质量度量的示例包括信噪比 (SNR)、峰值信噪比(PSNR)、视频质量的感知评价(PEVQ)、结构相似性(SSIM) ,Czenakowski 距离(CZD)、通用质量索引(UQI)、视频质量度量(VQM)、音频频率响应、总谐波失真(THD)、 通道隔离、立体声相位相关性、有效均方根功率、响度、加权功率、采样大小、实际峰值、采样 比特深度、采样排列顺序、音频数据猝发间隔等。如上所述,造成质量劣化的处理模块可以通过比较该处理模块前后的媒体内容的 指纹而被识别。然而,在具有大量处理模块的大处理链结束时检测到质量劣化的情况下,可 以使用用于出错处理模块的更快速检测的算法。例如,如果在第1处理模块与第50处理模 块之间某处检测到质量劣化,则指纹得出单元108可以首先获得在中间点(例如第25处理 模块)前后的指纹,以确定是否已出现质量劣化。如果已经出现了质量劣化,则指纹得出单 元108可以得出在第1处理模块与第25处理模块之间的一处理模块前后的指纹。如果尚未出现质量劣化,则指纹得出单元108可以得出在第25处理模块与第50处理模块之间的 一处理模块前后的指纹。指纹得出单元108可以按上述方式递归地选择处理模块,并且直 到识别导致质量劣化的处理模块。也可以重复该处理以识别导致质量劣化的另外的处理模 块。除了质量劣化之外,指纹也可以用于验证媒体资产(media asset)是否已经成功地全 部穿过系统(例如从帧和/或采样0到资产的末端)。术语“成功地”可以定义为已经通过 单个或多个分析点/节点验证视频和/或音频的每一帧。在另一应用中,可以基于媒体内 容指纹执行播放列表验证。例如,可以比较根据播放列表播出的音频/视频文件的指纹与 期待根据播放列表播出的指纹。这允许验证歌曲/视频标题从播放列表到实际内容文件的 映射。在识别到质量劣化的情况下,可以修改处理链以减少质量劣化(步骤212)。在一 个可能的实施例中,可以用备用处理模块简单地替换导致质量劣化的出错处理模块。也可 以校正或者移除出错处理模块。在一个可能的实施例中,可以使用另一处理模块来抵消质 量劣化。质量劣化的识别可以用于自适应地触发内部或外部质量校正处理和/或动作。如 果在某一处理模块或节点处识别到质量劣化,则可以向校正质量劣化的不同处理模块发送 通知消息。例如,如果在某一节点处识别很多帧失落(frame drop),则可将误差校正方案应 用于音频/视频流,其减轻帧丢失的影响。此外,可以从先前版本等恢复、取回失落的帧、失 落的通道、内容内丢失的剪辑、或媒体内容的任何其它丢失部分。如果当前路径被检测为阻 塞,则也可以在不同网络路径上重新路由多媒体流。在使用多协议标识交换(MPLS)网络的 情况下,这可以通过MPLS扩展或MPLS重新路由机制实现。相似地,在通用IP网络中,可以 通过改变在开放式最短路径优先(OSPF)协议中分配的权重实现在不同网络路径上的重新 路由。此外,在Diffserv框架中可以给予通知消息最高优先级。在一个实施例中,如下文 结合图3A-图;3B所述,当检测到出错处理模块时可以使用备用处理模块。4.0示例系统示3A-图;3B示出根据实施例的使用用于检测质量劣化的指纹比较以及用于减少 质量劣化的校正动作的系统的示例。在示例系统内,可以存在用于音频处理的串行布置的N个不同处理模块以及用于 视频处理的串行布置的M个不同视频处理模块。在这种架构中,可以在每一处理块之后或 者在处理块的一部分之后检查音频/视频的质量。使用指纹的内容识别可以使得能够进行 质量的自动验证,并且可以消除对在每一处理块之后进行人工质量检查的需要。在广播处 理或内容制作链的前端,可以检查、验证或者证实输入的音频部分和输入的视频部分的质 量,以确保满足质量控制度量。在一个可能的实施例中,可以得出原始音频/视频的指纹并且存储在相应的指纹 服务器(其也可以实现为单个服务器)中。在每一处理块之后,从经处理的音频/视频再次 提取指纹,并且将其发送到指纹服务器。指纹服务器可从原始音频/视频指纹数据库返回 匹配指纹的时间戳。因此,可以基于时间戳与音频/视频处理点关联地识别内容和指纹。一 旦完成识别,就可将经处理的媒体内容的质量与来自先前处理点的先前媒体内容或接收的 原始媒体内容相比较。在该示例中,发现音频处理模块I(A)和视频处理模块2(A)出错,导 致质量劣化。因此,如图3B的处理链所示,以音频处理模块1 (B)替换音频处理模块1 (A), 并且以视频处理模块2 (B)替换视频处理模块2 (A)。由此,减少质量劣化。
5. 0实现方式机制图5描述示出了可在其上实现本发明实施例的计算机系统500的框图。计算机系 统500包括总线502或用于传送信息的其它通信机制、以及与总线502耦合的用于处理信 息的处理器504。计算机系统500还包括耦合到总线502的主存储器506 (诸如随机存取存 储器(RAM)或其它动态存储设备),其用于存储待由处理器504执行的指令以及信息。主存 储器506还可以用于存储在待由处理器504执行的指令的执行期间的临时变量或其它中间 信息。计算机系统500还包括耦合到总线502的用于存储用于处理器504的静态信息和指 令的只读存储器(ROM) 508或其它静态存储设备。存储设备510(例如磁盘或光盘)被提供 并且耦合到总线502,以用于存储信息和指令。计算机系统500可以经由总线502耦合到用于将信息显示给计算机用户的显示器 512(例如阴极射线管(CRT)、液晶显示器(IXD)、等离子体屏幕显示器等)。包括字母数字 (或不基于字母表的写入系统和/或不基于阿拉伯数字的)和其它键的输入设备514耦合 到总线502,以用于将信息和命令选择传送到处理器504。另一类型的用户输入设备是光标 控制器516 (例如鼠标、轨迹球、或光标方向键),以用于将方向信息和命令选择传送到处理 器504,并且控制显示器512上的光标移动。该输入设备典型地在两个轴——第一轴(例如 χ轴)和第二轴(例如y轴)——中具有两个自由度,这样允许设备指定平面中的位置。实施例可以涉及用于实现在此描述的技术的计算机系统500的使用。根据本发 明的一个实施例,响应于处理器504执行主存储器506中包括的一个或多个指令的一个或 多个序列,由计算机系统500执行这样的技术。可以从另一机器可读介质(例如存储设备 510)将这样的指令读入到主存储器506。主存储器506中包含的指令序列的执行使得处理 器504执行在此描述的处理步骤。在替换实施例中,可以使用硬件实现电路来取代软件指 令或者与软件指令进行组合以实现本发明。因此,本发明实施例不限于硬件电路和软件的 任何具体组合。在此使用的术语“机器可读介质”指的是参与提供使得机器以特定方式操作的数 据的任何存储介质。在使用计算机系统500实现的实施例中,例如,各种机器可读介质涉及 将指令提供给处理器504以便执行。这样的介质可以采用很多形式,包括但不限于存储介 质和传输介质。存储介质包括非易失性介质和易失性介质两者。非易失性介质包括例如光 盘或磁盘,诸如存储设备510。易失性介质包括动态存储器,诸如主存储器506。传输介质 包括同轴线缆、铜线和光纤,包括包含总线502的线。传输介质也可以采用诸如在无线电波 和红外以及其它光学数据通信期间生成的声波或电磁波的形式。这样的介质是有形的,以 使得能够通过物理机构检测该介质承载的指令,该物理机构将指令读入机器。机器可读介质的通常形式包括例如软盘、柔性盘、硬盘、磁带或任何其它磁介质、 CD-ROM、任何其它光学介质、穿孔卡、纸带、其它遗留介质、或具有孔或暗斑的图案的任何其 它物理介质、RAM、PR0M、以及EPR0M、FLASH-EPR0M、任何其它存储器芯片或盒、下文中描述的 载波、或计算机可以读取的任何其它介质。各种形式的机器可读介质可以涉及将一个或多个指令的一个或多个序列运送至 处理器504以便执行。例如,可最初在远程计算机的磁盘上承载指令。远程计算机可以将 指令加载到其的动态存储器,并且使用调制解调器在电话线路上发送指令。计算机系统500 的本地调制解调器可以在电话线路上接收该数据,并且使用红外发射机将数据转换为红外信号。红外检测器可以接收红外信号中承载的数据,并且适当的电路可以将数据置于总线 502上。总线502将数据运送到主存储器506,处理器504从主存储器506检索并且执行指 令。主存储器506接收的指令可任选地在由处理器504执行之前或者之后被存储在存储设 备510上。计算机系统500还可以包括耦合到总线502的通信接口 518。通信接口 518提供 与连接到本地网络522的网络链路520的双向数据通信耦合。例如,通信接口 518可以是用 于提供与对应类型的电话线路的数据通信连接的综合业务数字网络(ISDN)卡或数字用户 线路(DSL)或线缆调制解调器(传统地,调制器/解调器)。作为另一示例,通信接口 518 可以是提供与兼容LAN的数据通信连接的局域网(LAN)卡。也可以实现无线链路。在任何 这样的实现方式中,通信接口 518发送并且接收承载表示各种类型的信息的数字数据流的 电、电磁或光信号。网络链路520典型地提供通过一个或多个网络到其它数据设备的数据通信。例 如,网络链路520可以提供通过本地网络522到主机计算机5M或到互联网服务提供商 (ISP) 5 操作的数据设备的连接。ISP 5 进而通过遍及世界的分组数据通信网络(现在 通常称为“互联网”)5 提供数据通信服务。本地网络522和互联网528皆使用承载数字 数据流的电、电磁或光信号。承载去往以及来自计算机系统500的数字数据的通过各种网 络的信号以及在网络链路520上并且通过通信接口 518的信号是传递信息的载波的示例性 形式。计算机系统500可以通过网络、网络链路520和通信接口 518发送消息并且接收 数据,包括程序代码。在互联网示例中,服务器530可以通过互联网528、ISP 526、本地网 络522和通信接口 518发送对于应用程序的请求代码。被接收的代码可在其被接收到时由处理器504执行,并且/或者被存储在存储设 备510或其它非易失性存储器中以用于稍后执行。这样,计算机系统500可获得载波的形 式的应用代码。图6描述可通过其实现本发明可能的实施例的示例IC器件600。IC器件600可 以具有输入/输出(I/O)部件601。I/O部件601接收输入信号,并且经由路由选择结构 610将它们路由到中央处理单元(CPU)602,CPU 602通过存储器603起作用。I/O部件601 还接收来自IC器件600的其它组件部件的输出信号,并且可以控制在路由选择结构610上 的信号流的一部分。数字信号处理(DSP)部件至少执行与数字信号处理有关的功能。接口 605存取外部信号,并且将它们路由到I/O部件601,并且允许IC器件600输出信号。路由 选择结构610在IC器件600的各组件部件之间路由信号和功率。诸如逻辑门阵列的可配置和/或可编程处理元件(CPPE) 611可以执行IC器件600 的专用功能,其在一个实施例中可涉及得出并且处理通常与媒体内容对应的媒体指纹。存 储器612为CPPE 611贡献足够存储单元以高效运作。CPPE可以包括一个或多个专用DSP 部件614。本发明实施例可与以下列举的示例实施例中的一个或多个有关。7.0等同物、扩展、改动及其他在前面说明书中,已经参照可随实现方式而变化的大量具体细节描述了本发明实 施例。因此,本发明是什么以及本发明的申请人所预期的唯一且排他的指示符是以权利要求提出的具体形式从该申请提出的权利要求的集合,包括任何后续改正。对于这些权利要 求中所包含的术语在此明确阐述的任何定义应囊括如权利要求中所使用的这些术语的意 义。因此,权利要求中未明确陈述的限制、元素、特性、特征、优点或属性不应以任何方式来 限制所述权利要求的范围。相应地,说明书和附图是说明性的,而非限制的意义。
权利要求
1.一种方法,包括获得从第一媒体内容得出的第一指纹,其中,所述第一媒体内容被处理以生成第二媒 体内容;获得从所述第二媒体内容得出的第二指纹;以及 比较所述第一指纹与所述第二指纹以确定以下中的一个或多个 指示所述第二媒体内容是从所述第一媒体内容生成的所述第一指纹与所述第二指纹 之间的相似性;或者用于识别所述第一媒体内容与所述第二媒体内容之间的质量劣化的所述第一指纹与 所述第二指纹之间的差异。
2.如列举的示例实施例1中陈述的方法,其中,所述第一媒体内容与所述第二媒体内 容之间的质量劣化与所述第一指纹与所述第二指纹之间的不同比特的数量成比例。
3.如列举的示例实施例1中陈述的方法,还包括修改所述第一媒体内容的处理,以减少从所述第一媒体内容到所述第二媒体内容的质 量劣化。
4.如列举的示例实施例1中陈述的方法,还包括 将质量劣化与质量劣化阈值相比较;以及如果满足所述质量劣化阈值,则修改所述第一媒体内容的处理,以减少从所述第一媒 体内容到所述第二媒体内容的质量劣化。
5.如列举的示例实施例4中陈述的方法,其中,所述质量劣化阈值基于以下中的一个 或多个从所述第一指纹到所述第二指纹的汉明距离; 信噪比(SNI ); 峰值信噪比(PSNR); 视频质量的感知评价(PEVQ);所述第一媒体内容与所述第二媒体内容之间的结构相似性(SSIM);通用质量索引(UQI);视频质量度量(VQM);音频频率响应;总谐波失真(THD);通道隔离;立体声相位相关性;有效均方根(RMS)功率;响度;加权功率;采样大小;实际峰值;采样比特深度;采样排列顺序;或者音频数据猝发间隔。
6.如列举的示例实施例1中陈述的方法,其中,通过将多个处理模块应用于所述第一 媒体内容处理所述第一媒体内容以生成所述第二媒体内容。
7.如列举的示例实施例6中陈述的方法,还包括识别所述多个处理模块中的导致从所述第一媒体内容到所述第二媒体内容的质量劣 化的处理模块。
8.如列举的示例实施例7中陈述的方法,还包括以下中的一个或多个移除导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块,以减少质 量劣化;以备用处理模块替换导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处 理模块,以减少质量劣化;或者校正导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块,以减少质 量劣化。
9.如列举的示例实施例1中陈述的方法,其中,质量劣化包括以下中的一个或多个所述第一媒体内容的至少一部分在所述第二媒体内容中丢失;媒体通道重排序;媒体内容序列重排序;或者所述第一媒体内容中的分量的相对对准与所述第二媒体内容中的对应分量的相对对 准之间的差异。
10.如列举的示例实施例9中陈述的方法,其中,所述第一媒体内容中的分量的相对对 准与所述第二媒体内容中的对应分量的相对对准之间的差异在通过所述第一媒体内容中 多个通道创建的空间效果与通过所述第二媒体内容中对应的多个通道创建的空间效果中 造成差异。
11.如列举的示例实施例1中陈述的方法,还包括在从所述第一媒体内容得出所述第 一指纹之前,验证所述第一媒体内容的质量。
12.如列举的示例实施例1中陈述的方法,其中,基于从所述第二媒体内容得出的第二 指纹验证与所述第二媒体内容的广播关联的播放时间。
13.如列举的示例实施例1中陈述的方法,其中,获得从第一媒体内容得出的第一指纹 包括在处理所述第一媒体内容之前,并行地从所述第一媒体内容的音频部分获得第一音频 指纹以及从所述第一媒体内容的对应视频部分获得第一视频指纹;以及确定所述第一媒体内容的音频部分相对于所述第一媒体内容的视频部分的对准;其中,获得从第二媒体内容得出的第二指纹包括在处理所述第一媒体内容之后,并行地从所述第二媒体内容的音频部分获得第二音频 指纹以及从所述第一媒体内容的对应视频部分获得第二视频指纹;以及其中,确定所述第一指纹与所述第二指纹之间的差异包括基于所述第一媒体内容的音频部分相对于所述第二媒体内容的视频部分的对准,验证 所述第二媒体内容的音频部分相对于所述第二媒体内容的视频部分的对准。
14.一种具有编码的指令的计算机可读存储介质产品,所述编码的指令在由一个或多 个处理器执行时使得所述一个或多个处理器执行以下步骤获得从第一媒体内容得出的第一指纹,其中,所述第一媒体内容被处理以生成第二媒 体内容;获得从所述第二媒体内容得出的第二指纹;以及 比较所述第一指纹与所述第二指纹以确定以下中的一个或多个 指示所述第二媒体内容是从所述第一媒体内容生成的所述第一指纹与所述第二指纹 之间的相似性;或者用于识别所述第一媒体内容与所述第二媒体内容之间的质量劣化的所述第一指纹与 所述第二指纹之间的差异。
15.如列举的示例实施例14中陈述的计算机可读存储介质,其中,所述第一媒体内容 与所述第二媒体内容之间的质量劣化与所述第一指纹与所述第二指纹之间的不同比特的 数量成比例。
16.如列举的示例实施例14中陈述的计算机可读存储介质,其中,所述编码的指令当 由一个或多个处理器执行时使得所述一个或多个处理器进一步执行修改所述第一媒体内 容的处理以减少从所述第一媒体内容到所述第二媒体内容的质量劣化的步骤。
17.如列举的示例实施例14中陈述的计算机可读存储介质,其中,所述编码的指令当 由一个或多个处理器执行时使得所述一个或多个处理器进一步执行以下步骤将质量劣化与质量劣化阈值相比较;以及如果满足所述质量劣化阈值,则修改所述第一媒体内容的处理,以减少从所述第一媒 体内容到所述第二媒体内容的质量劣化。
18.如列举的示例实施例17中陈述的计算机可读存储介质,其中,所述质量劣化阈值 基于以下中的一个或多个从所述第一指纹到所述第二指纹的汉明距离; 信噪比(SNR); 峰值信噪比(PSNR); 视频质量的感知评价(PEVQ);所述第一媒体内容与所述第二媒体内容之间的结构相似性(SSIM);通用质量索引(UQI);视频质量度量(VQM);音频频率响应;总谐波失真(THD);通道隔离;立体声相位相关性;有效RMS功率;响度;加权功率;采样大小;实际峰值;采样比特深度;采样排列顺序;或者音频数据猝发间隔。
19.如列举的示例实施例14中陈述的计算机可读存储介质,其中,通过将多个处理模 块应用于所述第一媒体内容处理所述第一媒体内容以生成所述第二媒体内容。
20.如列举的示例实施例19中陈述的计算机可读存储介质,其中,所述编码的指令当 由一个或多个处理器执行时使得所述一个或多个处理器进一步执行识别所述多个处理模 块中的导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块的步骤。
21.如列举的示例实施例20中陈述的计算机可读存储介质,其中,所述编码的指令当 由一个或多个处理器执行时,使得所述一个或多个处理器进一步执行以下步骤中的一个或 多个移除导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块,以减少质 量劣化;以备用处理模块替换导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处 理模块,以减少质量劣化;或者校正导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块,以减少质 量劣化。
22.如列举的示例实施例14中陈述的计算机可读存储介质,其中,质量劣化包括以下 中的一个或多个所述第一媒体内容的至少一部分在所述第二媒体内容中丢失;媒体通道重排序;媒体内容序列重排序;或者所述第一媒体内容中的分量的相对对准与所述第二媒体内容中的对应分量的相对对 准之间的差异。
23.如列举的示例实施例22中陈述的计算机可读存储介质,其中,所述第一媒体内容 中的分量的相对对准与所述第二媒体内容中的对应分量的相对对准之间的差异在通过所 述第一媒体内容中多个通道创建的空间效果与通过所述第二媒体内容中对应的多个通道 创建的空间效果中造成差异。
24.如列举的示例实施例14中陈述的计算机可读存储介质,还包括在从所述第一媒体内容得出所述第一指纹之前,验证所述第一媒体内容的质量。
25.如列举的示例实施例14中陈述的计算机可读存储介质,其中,基于从所述第二媒 体内容得出的第二指纹验证与所述第二媒体内容的广播关联的播放时间。
26.如列举的示例实施例14中陈述的计算机可读存储介质,其中,获得从第一媒体内 容得出的第一指纹包括在处理所述第一媒体内容之前,并行地从所述第一媒体内容的音频部分获得第一音频 指纹以及从所述第一媒体内容的对应视频部分获得第一视频指纹;以及确定所述第一媒体内容的音频部分相对于所述第一媒体内容的视频部分的对准;其中,获得从第二媒体内容得出的第二指纹包括在处理所述第一媒体内容之后,并行地从所述第二媒体内容的音频部分获得第二音频 指纹以及从所述第一媒体内容的对应视频部分获得第二视频指纹;以及其中,确定所述第一指纹与所述第二指纹之间的差异包括基于所述第一媒体内容的音频部分相对于所述第二媒体内容的视频部分的对准,验证 所述第二媒体内容的音频部分相对于所述第二媒体内容的视频部分的对准。
27.—种系统,包括 处理器;指纹得出单元,所述指纹得出单元包括用于以下操作的功能性 获得从第一媒体内容得出的第一指纹,其中,所述第一媒体内容被处理以生成第二媒 体内容;和获得从所述第二媒体内容得出的第二指纹;以及 指纹比较单元,所述指纹比较单元包括用于以下操作的功能性 比较所述第一指纹与所述第二指纹以确定以下中的一个或多个 指示所述第二媒体内容是从所述第一媒体内容生成的所述第一指纹与所述第二指纹 之间的相似性;或者用于识别所述第一媒体内容与所述第二媒体内容之间的质量劣化的所述第一指纹与 所述第二指纹之间的差异。
28.如列举的示例实施例27中陈述的系统,其中,所述第一媒体内容与所述第二媒体 内容之间的质量劣化与所述第一指纹与所述第二指纹之间的不同比特的数量成比例。
29.如列举的示例实施例27中陈述的系统,还包括处理校正单元,所述处理校正单元 包括用于修改所述第一媒体内容的处理以减少从所述第一媒体内容到所述第二媒体内容 的质量劣化的功能性。
30.如列举的示例实施例27中陈述的系统,还包括处理校正单元,所述处理校正单元 包括用于以下操作的功能性比较质量劣化与质量劣化阈值;以及如果满足所述质量劣化阈值,则修改所述第一媒体内容的处理,以减少从所述第一媒 体内容到所述第二媒体内容的质量劣化。
31.如列举的示例实施例30中陈述的系统,其中,所述质量劣化阈值基于以下中的一 个或多个从所述第一指纹到所述第二指纹的汉明距离; 信噪比(SNI ); 峰值信噪比(PSNR); 视频质量的感知评价(PEVQ);所述第一媒体内容与所述第二媒体内容之间的结构相似性(SSIM);通用质量索引(UQI);视频质量度量(VQM);音频频率响应;总谐波失真(THD);通道隔离;立体声相位相关性;有效RMS功率;响度;加权功率; 采样大小; 实际峰值; 采样比特深度; 采样排列顺序;或者 音频数据猝发间隔。
32.如列举的示例实施例27中陈述的系统,其中,通过将多个处理模块应用于所述第 一媒体内容处理所述第一媒体内容以生成所述第二媒体内容。
33.如列举的示例实施例32中陈述的系统,还包括处理校正单元,所述处理校正单元 包括用于以下操作的功能性识别所述多个处理模块中的导致从所述第一媒体内容到所述第二媒体内容的质量劣 化的处理模块。
34.如列举的示例实施例33中陈述的系统,其中,所述处理校正单元还包括用于以下 操作的功能性移除导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块,以减少质 量劣化;以备用处理模块替换导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处 理模块,以减少质量劣化;或者校正导致从所述第一媒体内容到所述第二媒体内容的质量劣化的处理模块,以减少质 量劣化。
35.如列举的示例实施例27中陈述的系统,其中,所述质量劣化包括以下中的一个或 多个所述第一媒体内容的至少一部分在所述第二媒体内容中丢失;媒体通道重排序;媒体内容序列重排序;或者所述第一媒体内容中的分量的相对对准与所述第二媒体内容中的对应分量的相对对 准之间的差异。
36.如列举的示例实施例35中陈述的系统,其中,所述第一媒体内容中的分量的相对 对准与所述第二媒体内容中的对应分量的相对对准之间的差异在通过所述第一媒体内容 中多个通道创建的空间效果与通过所述第二媒体内容中对应的多个通道创建的空间效果 中造成差异。
37.如列举的示例实施例27中陈述的系统,其中,基于从所述第二媒体内容得出的第 二指纹,验证与所述第二媒体内容的广播关联的播放时间。
38.如列举的示例实施例27中陈述的系统,其中,获得从第一媒体内容得出的第一指 纹包括在处理所述第一媒体内容之前,并行地从所述第一媒体内容的音频部分获得第一音频 指纹以及从所述第一媒体内容的对应视频部分获得第一视频指纹;以及确定所述第一媒体内容的音频部分相对于所述第一媒体内容的视频部分的对准; 其中,获得从第二媒体内容得出的第二指纹包括在处理所述第一媒体内容之后,并行地从所述第二媒体内容的音频部分获得第二音频 指纹以及从所述第一媒体内容的对应视频部分获得第二视频指纹;以及 其中,确定所述第一指纹与所述第二指纹之间的差异包括基于所述第一媒体内容的音频部分相对于所述第二媒体内容的视频部分的对准,验证 所述第二媒体内容的音频部分相对于所述第二媒体内容的视频部分的对准。
39.一种方法,包括获得从第一媒体内容得出的第一指纹,其中,所述第一媒体内容被处理以生成第二媒 体内容;获得从所述第二媒体内容得出的第二指纹;以及确定所述第一指纹与所述第二指纹之间的差异,以识别所述第一媒体内容与所述第二 媒体内容之间的质量劣化。
40.一种方法,包括获得从第一媒体内容得出的第一指纹; 获得从第二媒体内容得出的第二指纹;比较所述第一指纹与所述第二指纹,以确定指示所述第二媒体内容是被从所述第一媒 体内容生成的相似性;以及比较所述第一媒体内容与所述第二媒体内容,以识别所述第一媒体内容与所述第二媒 体内容之间的质量劣化。
41.一种具有编码的指令的计算机可读存储介质产品,所述编码的指令当由一个或多 个处理器执行时,使得所述一个或多个处理器执行如列举的示例实施例39或40中的一个 或多个中陈述的步骤。
42.一种系统,包括用于获得从第一媒体内容得出的第一指纹的装置,其中,所述第一媒体内容被处理以 生成第二媒体内容;用于获得从所述第二媒体内容得出的第二指纹的装置;以及用于确定用于识别所述第一媒体内容与所述第二媒体内容之间的质量劣化的所述第 一指纹与所述第二指纹之间的差异的装置。
43.一种系统,包括 用于以下操作的装置获得从第一媒体内容得出的第一指纹; 获得从第二媒体内容得出的第二指纹;比较所述第一指纹与所述第二指纹,以确定指示所述第二媒体内容是被从所述第一媒 体内容生成的相似性;以及比较所述第一媒体内容与所述第二媒体内容,以识别所述第一媒体内容与所述第二媒 体内容之间的质量劣化。
44.一种计算机系统的使用,包括执行在列举的示例实施例1_13、39或40中的至少一个中陈述的处理步骤中的一个或 多个。
45.一种系统,包括用于获得从第一媒体内容得出的第一指纹的装置,其中,所述第一媒体内容被处理以 生成第二媒体内容;用于获得从所述第二媒体内容得出的第二指纹的装置;以及 用于比较所述第一指纹与所述第二指纹以确定以下中的一个或多个的装置 指示所述第二媒体内容是从所述第一媒体内容生成的所述第一指纹与所述第二指纹 之间的相似性;或者用于识别所述第一媒体内容与所述第二媒体内容之间的质量劣化的所述第一指纹与 所述第二指纹之间的差异。
全文摘要
提供内容识别和质量监测。该方法包括获得从第一媒体内容得出的第一指纹,处理第一媒体内容以生成第二媒体内容,获得从第二媒体内容得出的第二指纹,以及比较第一指纹与第二指纹以确定以下中的一个或多个指示第二媒体内容是从第一媒体内容生成的第一指纹与第二指纹之间的相似性;或者用于识别第一媒体内容与第二媒体内容之间的质量劣化的第一指纹与第二指纹之间的差异。
文档编号H04N17/00GK102132574SQ200980132514
公开日2011年7月20日 申请日期2009年8月21日 优先权日2008年8月22日
发明者C·鲍尔, J·C·瑞德米勒尔, R·拉达克里希南, 蒋文宇 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1