音频信号中重复素材的自动识别的制作方法

文档序号：2830001阅读：513来源：国知局

专利名称：音频信号中重复素材的自动识别的制作方法
技术领域：
本发明涉及媒体文件中的模式识别和辨别，更为具体地，本发明涉及对一个或多个媒体流上的媒体信号、尤其是音频信号中的重复素材的识别。
背景技术：
音乐或视频内容的版权所有者，通常针对每一次播放他们的歌曲或视频的情况会被给予补偿。尤其是对于音乐版权所有者，确定上千个广播电台中的任何一个上通过空中、而现在是在互联网上何时播放他们的歌曲是一件令人生畏的任务。传统上，版权所有者将在这种情况下的版税收取移交给第三方公司，由笫三方公司向为商业目的而播放音乐的实体收取订购费，以补偿其目录上的版权所有者。这些费用随后基于统计模型分发给版权所有者，该统计模型是为补偿那些版权所有者而依照哪些歌曲播放最多而设计的。这些统计模型仅仅是对基于小的采样大小的实际播放实例的非常粗略的估计。
2006年1月4日授权的美国专利No. 6， 990， 453描述了一种用于将来自媒体流、如广播电台信号的未知媒体样本与诸如歌曲数据库的已知媒体文件进行比较的系统和方法，以便跟踪已知歌曲的播放情况。遗憾的是，由于多种原因，媒体流的许多内容事先并不知道。例如，诸如脱口秀、唱片节目即DJ的介绍或对话以及其它类似的音频的独特音频代表不可被识别的独特音频。
然而，可能有其它未被识别的音频，用来监视音频流的系统可对其感
兴趣，并且实际上其可与应被补偿的版权所有者相关联。这种所感兴趣的未被识别的音频可以是先前没有索引的歌曲或可使用版权音乐的商业广告或其它已识别的和重复的音频段。这些未被识别的音频段可以在单个媒体流内重复，或者在多个^^体流上重复，所述多个i^体流如在多个广播电台上播放的区域商业广告。
需要一种用于对一个或多个以其它方式未被识别的媒体流中的重复段或样本进行识别的系统和方法，其中，该系统和方法能够将样本与先前被采指紋的或索引的样本进行匹配，以发现重复的未被识别的媒体的发生。

发明内容
因此，本申请描述了一种在没有重复素材的特性的先验知识的情况下
对至少一个媒体流内重复的音频素材进行识别的方法。所述方法包括根据一个或多个媒体流创建筛选数据库(screening database),从媒体流中取得未知样本音频片段，在媒体流内寻找匹配片段，并确定所述未知样本是否与筛选数据库中的M样本匹配。
在另一实施例中，描述了一种用于对未被识别的^^体内容的至少一个源中的未被识别的媒体内容的重复段进行识别的系统。该系统包括候选者管理器，该候选者管理器接收未被识别的^^，并且将标识符与该未被识
别的媒M;M目关联。该系统还包括指紋生成器，该指紋生成器可IMt 用于为未被识别的媒^IS:创建指紋；以及媒体搜索引擎，该媒体搜索引擎连接到候选者管理器和指紋生成器，能够将未被识别^t体的指紋与先前存储的未被识别的媒体指紋数据库进行比较，以便寻找未被识别媒体内容内的重复段。
前面相当宽泛地概述了本发明的特征和技术优点，以4更更易于理解对本发明的后续详细描述。本发明的另外的特征和优点将在下文中描述，其构成本发明的权利要求的主题。本领域的普通技术人员应理解，所揭示的概念和特定实施例可以容易地用作修改或设计用于执行本发明的相同目的的其它结构的基础。本领域的普通技术人员还应认识到，这种等同结构不背离如所附权利要求中所阐述的本发明的精神和范围。根据结合附图的以下描述，将更易于理解被相信是本发明特性的有关其识别和操作方法的新颖性特征以及进一步的目的和优点。然而，应清楚地理解，提供的每个
图仅用于说明和描述的目的，而并非作为对本发明的限制的定义。

为了更完整的理解本发明及其优点，参考以下结合附图的描述，在附
图中
图1是创建未被识别的音频流中感兴趣的项目的数据库的系统实施例的才匡图2是用于创建NRA的匹配重复段的方法实施例的流程图3是用于实施这里所描述的采指紋和定界标系统的计算机系统实施例的框图4是用于构建声音文件的数据库索引的方法实施例的流程图5示意性图示了为声音样本如NRA段所计算的界标和指紋；以及
图6是用于将NRA样本或段与先前被釆指紋的或索引的NRA样本或段进行匹配的方法实施例的流程图。
具体实施例方式
现在通常的做法是使用自动化的方法来识别包含在音频信号内的预录制的素材，所述音频信号如无线电或电视广播的记录、或在诸如夜总会等的公共场所内的表演素材的记录。不管所使用的技术如何，这些方法需要预先访问待识别的素材，以便可将信号与参考数据库中的已知内容匹配。对于大多数素材，这不是个问题，因为该素材可能已经被商用了一段时间，如音乐CD的情况。但是，也有相当百分比的音频信号是由可能不易得到的素材构成的，例如，如在商业发行日之前的音乐、广告素材、或为广播电台识别的目的而写的音乐。
对于在对音频信号内容进行精确量化中所涉及的那些，这带来了两个问题
(1)应被识别的素材未被识别，因为该素材未被包含在参考数据库中，以及
(2 )当不包含所兴趣的素材时，信号的基本部分不能通过手动检查来去除，因为自动化方法不明确地将其识别为不感兴趣的
音频可以例如4吏用Wang的技术(序列号为60/563， 372的美国临时专利申请，其4^P内^t过引用结合于此)直接被识别和分段，其中，从数据库中被识别的音频被分段成已知的区域，剩余的区域留下作为未被识别的音频(NRA)。 Wang的方法限于识别已经在数据库中的内容，而不能对未包含在数据库中的素材进行识别和分段。
为克服该限制，使用一种"筛分(sifting)"方法来检查来自故j&测的媒体流的未被识别的音频段(NRA )，并检验其是否与最近的其它段或段的部分匹配。一旦发现这样的匹配，其将被分段并被包括于参考数据库中，从而允许创建数据库，而不用事先访问感兴趣的目标素材。
图1示出了创建NRA流中感兴趣项目的数据库的系统。系统10从未被识别的音频源11中获取NRA流12，并识别可能感兴趣的NRA内的重复段。NRA段12^LiL送到候选者管理器13,该候选者管理器收集媒体流中数据的每个实例并用唯一的标识符来标记。候选者管理器13随后发送NRA 到指紋生成器14，在指紋生成器中，对来自NRA的原始音频段进行处理，以提取指紋特征，并被索引到可搜索的数据库中。音频搜索引擎16响应来自候选者管理器14的音频搜索请求，并使用来自指紋生成器14的NRA 指紋15将NRA段与先前被索引的NRA段的数据库进行比较。音频搜索引擎16记录NRA段与索引的NRA段的匹配。当NRA的特定段积累了一定阈值数量的匹配时，这意味着该系统IO在一个或多个音频流上多次看见了相同的音频内容，该音频段被确定为感兴趣的，足以保证明确的识别。这通过公布其重要内容、所公布的指紋18，并将其添加到其它已识别的搜索引擎19来实现。
在所监测的音频流中那些具有多次匹配的重要的NRA段可需要^Jl 送，以便被明确地识别和分类。识别所述重要的NRA段可需要将其发送给人类操作员，该操作员将收听该音频以作出明确的识别。该人类操作员将识别该音频，并输入必要的信息，以使该重要的NRA段被添加到已知的音频内^lt据库，如通过引用结合于此的其它申请中所描述的。
参考图2来描述一种用于识别重复素材的方法。方法20从一个或多个媒体流中收集未知的(NRA)音频用于筛分，其中，音频数据的每个实例具有唯一的时间戳参考(这种时间戳参考随时间而增加，并可被扩充以流标识符)'
包含来自最近的被监测的媒体流的未知(NRA)音频节目素材的筛选数据库被创建，用于筛选，其中原始音频记录被处理，以提取指紋特征并
被索引到可搜索的数据库中。以下文献中公开了用于准备这种数据库的方
法Wang和Smith (在国际公布号WO 02/11123 A2中描述，其名称为 "System and Methods for Recognizing Sound and Music Signals in High Noise and Distortion，，并要求2000年7月31日提交的美国临时申请No. 60/222， 023和2001年4月21日提交的序列号为09/839， 476的美国申请的优先权，(下文中将其为"Wang and Smith"),其内^if过引用结合于此)；或Wang和Culbert(在国际公布号WO 03/091990 Al中描述，其名称为"Robust and Invariant Audio Pattern Matching,，并要求2002 年4月25日提交的美国临时申请60/376， 055的优先权，其内^f过引用结合于此(下文中将其称为"Wang and Culbert"))。使用来自"Wang and Smith"或"Wang and Culbert"的这些特定方法是说明性的，而不应理解为限制性的。
为了处理自动分段，来自未知媒体流素材的短的探测片段被提交给图 1中的音频搜索引擎16用于识别，该图具体体现了如"Wang and Smith" 或"Wang and Culbert，，中的识别技术，引入了筛选数据库，并如过程21 所示。在过程22中，确定NRA是否与任何先前被采指紋的候选者匹配。然后，在过程23中，匹配段从未知的媒体流中被识别，并且该辨别被添加到现有候选者中。
如果探测片段F。 (0)被识别，来自筛选数据库的匹配结果F。,k (0)(其中 k是匹配索引)被分组到匹配片段列表中。任务;UL现匹配段匹配的边界和匹配质量。为此，相邻探测片段F。(t)(其中t是相对于F。(0)的时间偏移)被提交用于识别，并且获取其对应的匹配片段列表。针对连续性对于对应的匹配片段列表进行扫描，即相邻探测片^fr哪里映射到基本上相邻的匹配片段。相邻探测片段链可以映射到片段的一个或多个匹配并行链。这样的并行链束形成候选者组。每个匹配并行链在时间上向两个方向尽可能地扩展，以形成最大匹配并行链。候选者分段点是在多个匹配并行g 本同时结束或开始之处。
最大匹配并行链集可具有不同长度以及还有不同的端点。这可能是由重复节目段的分层嵌套造成的。有差别的分段可能是由歌曲或广告的不同版M成的。可替选地，一些重复素材可以^L嵌进重复节目中通常无线电节目在全天中^L播送多次。
一种确定分段层次的方式是根据其匹配片段列表中匹配元素的数量，对每个片段处的并行链加权。具有最高权重的并行链集最有可能成为
原子节目段(atomic program segment),如歌曲或广告。具有次最高权重的并行链可能是由于包含原子节目段的重复广播节目，例如对于每小时新闻播放或循环播送的排名前40的畅销歌曲。高权重的并行链是成为原子节目段的好的候选者，并且可以被提升为在参考数据库中进行公布，用于广告或歌曲的识别。用于公布的准则可包括下列M:组内的候选者数量(该素材已被重复了多少次)以及候选者之间相互关系的准确性，例如，选择相对于其匹配片段列表的其它元素具有最好的总的以对的方式的相互分数的段。一_^/>布，提供原音频样本的源媒体流可以被拷贝以提供邻接的音频样本，所述原音频样本对应于重复素材的最佳匹配范本。"最佳" 范本可能需要被识别的原因通常是因为诸如音轨(咖sical track)的一些重复素材可能与非重复素材重叠，所述非重复素材诸如节目主持人谈论音乐。"最佳"候选者将是具有最少量此类伪内容的一个。
返回图2，过程24对已被识别的候选者进行评估，以确定它们是否满足用于公布的阈值，如过程25所示。如果候选者准备就绪，其将被公布，如过程29所示。如果在过程25中候选者没有准备好公布，则在过程 26中向搜索引擎数据库添加任何附加的信息。返回过程22，如果NRA段未被识别，该方法跳到过程26，该过程中该段被添加到搜索引擎数据库。
1^在过程27中，方法20确定是否有未被匹配的任何旧的NRA准备要被清除。由于许多音频流是^^逸不会被匹配的独特的音频，如现场脱口秀、无线电台宣传或仅仅是无线电台名人或DJ的谈话，这些信息需要从系统中清除，以让出空间给被处理的新NRA。如果有准M清除的NRA，如根据时间戳、用于新MA内容的存储器的可用性或者其组合或其它因素所确定的，则所述方法前进到过程28，将旧的NRA清除。如果在过程28 中没有要清除的NRA或者如果旧的NRA已经被清除，则该过程结束。本领域的普通技术人员应认识到，方法20是个连续的过程，当所处理的NRA 通过该方法中其它过程时，其不断地试图识别新的NRA。
上述过程可以被解释为工作于固定的一批未知音频流素材。然而，其可被加强为在增量的基础上来处理数据。当捕获到新的d^体流内容时，将其添加到筛选数据库中。如上所述，新素材还用于形成探测片段，并针对重复素材对其进行扫描。此外，旧素材可以从筛选数据库中去除，从而防止数据库无限制地增长。根据"Wang and Smith", —种实现其的方式是当新数据到来而旧数据退出时，使用未知媒体流素材的移动窗口持续地重新产生筛选数据库。
参考图3-6来描^]"NRA段进行釆指紋和索引的实施例。
本发明不限于任何特定的硬件系统，图3中示意性图示了计算机系统 30的实施例的示例，该计算机系统可以是或可以不是分布式的，用于对媒M如NRA段进行采指紋和定界标。系统30的处理器32a-32f通过多处理总线结构34或诸如Beowulf簇计算协议的组网协议或者两者的混合来连接。在这种设置中，数据库索引优选地存储于簇中至少一个节点32a 上的随机访问存储器(RAM)中，从而确保指故搜索快速地进行。对应于其它对象的计算节点，如定界标节点32c和32f 、采指紋节点32b和32e 以及对准扫描节点32d，不象支持数据库索引的一个或多个节点32a那样需要大量RAM。分配给每个对象的计算节点的数量因而可以根据需要来缩放，使得任何单个对象都不会成为瓶颈。计算网络因而是可高度并行的，并可额外处理在可用计算资源之间分布的多个并发的信号识别查询。
在替选实施例中，某些功能对M更加紧密地耦合在一起，而剩余的与其它对*^合得不那么紧密。例如，定界标和采指紋对象可以驻留在与其余计算对象物理分离的位置。这种情况的一个示例是，定界标和采指紋对象与信号捕获过程的紧密关联。在这种设置中，定界标和采指紋对象可以被合并为被嵌入到例如移动电话、无线应用协议(WAP)浏览器、个人数字助理(PDA)或诸如音频搜索引擎的客户端的其它远程终端的额外的硬件或软件。在基于互联网的音频搜索服务如内容识别服务中，定界标和采指紋对象可以作为链接的软件指令集或如微软动态链接库的软件插件模块被合并入客户浏览器应用中。在这些实施例中，结合的信号捕获、定界标以及采指^f象构建了服务的客户端。该客户端向执行识别的服务器端发送包含界标和指紋对的被捕获的信号样本的特征提^t要，向服务器发送该特征提Wt要而不;l^始被捕获的信号是有利的，原因是数据量大大减小，通常以500或大于500的因子来减小。这种信息可以实时地通过低带宽侧信道与发送到服务器的音频流一起&送，或者例如替代该音频流来发送。这使得能够在公共通信网上执行本发明，该公共通信网向每个用户提供相对小尺度的带宽。
现在将参考音频样本来描述用于采指紋和定界标的方法的实施例，所述音频样本可以是NRA样本或段以及已经被索引到数据库如来自图1的数据库14中的NRA段。
在可执行识别之前，必须构建可搜索的声音数据库索引。如这里所使用的，数据库是任何索引的数据集合，并且不限于商业可用的数据库。在数据库索引中，相关的数据元素彼此关联，且单独的元素可以被用来获取相关联的数据。声音数据库索引包含针对所选的记录的集合或库中的每个文件或记录的索引集，所述集合或库可以包M话、音乐、广告、声纳签
名或其它声音。每个记录还具有唯一的标识符、声音ID。该声音数据库自身不必要存储针对每个记录的音频文件，而声音ID可以被用于从任何地方获取音频文件。期望的是，所述声音数据库索引很大，其包含用于百万计或甚至是数十亿的文件的索引。新记录优选地被增量地添加到该数据库索引中。
图4中示出了用于构建根据第一实施例的可搜索声音数据库索引的优选方法40的框图。在该实施例中，首先计算界标，然后计算在界标处或附近的指紋。对于本领域的普通技术人员来说将是明显的，可以构想出替选方法来构建数据库索引。具体地，以下列出的许多步骤是可选的，但其用于生成进行更有效搜索的数据库索引.搜索效率对于从大的数据库中进行实时的声音识别是很重要的，而小数据库可以被相对较快地搜索，即使其未被优化地分类。
为了对数据库进行索引，集合中的每个记录都需要进行定界标和采指紋分析，该分析生成针对每个音频文件的索引集。图5示意性图示了已经被计算界标(LM)和指紋(FP)的声音记录段。界标在声音的特定时间点发生，并具有从文件开始处偏移的以时间单位为单位的值，而指^^it在特定界标处或附近的声音。因而，在该实施例中，用于特定文件的每个界标是唯一的，而相同的指紋在单个文件或多个文件内可以发生多次。
在步骤42中，使用寻找声音记录内的区别性的和可再现的位置的方法给每个声音记录定界标。优选的定界标算法能够标记声音记录内的相同时间点，无论是否存在噪声和其它线性和非线性的失真。一些定界标方法概念上独立于下面将描述的采指紋过程，但是可以被选择来优化后者的性能。定界标导致声音记录内的一系列时间点Uandmarkk) ({界标})，计算在所述界标处的指紋。一个好的定界标方案每秒的声音记录中标记大约5-10个界标；当然，定界标密度依赖于声音记录内的行为的量。
多种技术可以用于计算界标，所有这些技术都落在本发明范围内。用于实施本发明的定界标方案的特定技术过程在本领域中是公知的，在此将不作详细描述。公知为Power Norm的简单定界标技术是计算在记录中的
每个可能的时间点处的瞬时功率，并且选"^局部极大值。一种实现其的方式是通过直接对波形进行整形和筛选来计算包络。
另一方式是计算信号的希尔伯特(Hilbert)变换(求积分)，并使用该Hilbert变换和原始信号的幅度平方和。
定界标的Power Norm方法有利于发现声音信号中的瞬态。Power Norm 实际是更为通用的Spectral Lp Norm的特殊情况，其中p=2。例如通过汉明窗(harming-windowed)快速傅立叶变换(FFT)来计算短时镨沿声音信号在每个时刻计算通用Spectral LpNorm。优选的实施例使用8000Hz 的采样率、1024个样本的FFT帧大小以及针对每个时间片64个样本的跨距。然后，针对每个时间片的Lp范数被计算为镨分量的绝对值的pA次幂之和，可选地随后取-pA的根。如前所述，界标被选择为随时间的结果的值的局部极大值。Spectral Lp Norm方法的示例在图5中示出，图5示出了L4范数的图，其作为针对特定声音信号的时间函数。局部极大值处的虚线指示所选界标的位置。
当p-oo时，Lao范数实际上;i极大范数。即，该范数值^1镨片中的最大镨分量的绝对值。该范数导致鲁棒的界标和良好的总体识别性能，并且优选地用于有音调的音乐。可替选地，通it)ft彼此在固定的或可变的偏移处的多个时间片上的镨分量的绝对值的p01次幂求和，可以计算"多-片"而不是单片的谱界标。寻找该扩展和的局部极大值使得可以优化多片指紋的放置，下面将进行描述。
一旦计算了界标，在步骤44中，在记录中的每个界标时间点处计算指紋。指故通常为一个值或一组值，其概括了记录中在时间点处或附近的一组特征。在当前的优选实施例中，每个指^1单个数值，其为多个特征的哈希(hash)函数。可能的指紋类型包拾潜片指紋、多片指紋、LPC系数以及倒镨(cepstral)系数。当然，表M标附近的信号或信号特征的任何类型的指紋都在本发明的范围之内。指紋可通过M类型的数字信号处理或信号的频率分析来计算。
为了生成镨片指紋，在每个界标时间点的附近进行频率分析，以提取顶部的几个镨J^值。简单的指故值仅是最强谱降的单个频率值。这种简单
峰值的使用导致在存在噪声的情况下的令人惊异的良好识别；然而，单频镨片指紋趋向于比其它采指紋方案生成更多的错误正值，因为它们不是唯一的。错误正值的数量可以通过使用由两个或三个最强镨峰值函数构成的指紋来减少。然而，如果第二最强的#^值不足以强到在存在噪声的情况下将其与其竟争者中区别开，则可能更易于受噪声的影响。即，所计算的指紋值可能不够鲁棒以被可靠地再现。尽管如此，这种情况的性能也是良好的。
为了利用许多声音的时间演变，通过添加一组时间偏移到界标时间点来确定一组时间片。在每个结果的时间片处，计算谱片指紋。随后对结果
的指故信息集进行组合，以形成一个多频声(multitone)或多片指紋。每个多片指紋比单个镨片指紋更为独特，因为其,时间演变，从而导致
下面描述的数据库索引搜索中的更少的^m匹配。实趁，表明由于其增加的
独特性，因此根据两个时间片的每个中的单个最强"^J^值所计算的多片指紋导致在后续的lt据库索引搜索中的更快的计算(约快100倍)，但是也导致在存在显著噪声的情况下识别百分比的某种降级。
可替选地，可以使用可变偏移来计算多片指紋，以代*^吏用从设定的时间片处的固定的一个或多个偏移。相对于所选片的可变偏移4_相对于下一界标的偏移，即相对于从针对指紋的"锚定"界标的一定偏移范围内的界标的偏移。在这种情况下，界标之间的时间差和多频信息一起也被编码到指紋中。通过给指紋增加更多维度，其将变得更为独特，并具有更低的错误匹配机率。
除了谱分量之外，其它镨特征也可以被提取并用作指紋。线性预测编码(LPG)分析提取信号的线性可预测特征，如谱峰以及镨形状。LPC在数字处理领域是公知的。对于本发明，锚定在界标位置处的波形片的LPC 系数可通过将量化LPC系数散列(hash)到索引值中而被用作指紋。
倒镨系数作为周期的测量是有用的，并且可以被用于^it谐波信号，如语音或许多乐器。倒镨分析在数字处理领域内是公知的。针对本发明，多个倒谱系数被一起散列到索引中，并用作指紋。
图6示出了概念性说明方法60的实施例的总步骤的框图，以例如通过图1中的音频搜索引擎16来比较NRA段和NRA指紋。下面对各步骤进行详细描述。该方法对匹配的NRA指紋进行识别，该NRA指紋的特征指紋的相对位置与外来NRA样本的相同指紋的相对位置最接近地匹配。在步骤 62中，当外来样W捕^，在步骤64中计算界标和指玟。界标发生在样本内的特定位置，例如时间点。界标在样本内的位置优选地由样本本身来确定，即依赖于样本质量，并且是可再现的。也就是说，每次重复该过程时，针对相同的信号计算出相同的界标。针对每个界标，获得对该界标处或附近的样本的一个或多个特征进行表征的指紋。对界标特征的接近度由所使用的釆指紋方法来定义。在某些情况下，如果特征清楚地对应于一个界标而非对应于前一或后一界标，则认为该特征接近该界标。在其它情
况下，特征对应于多个相邻的界标。例如，文本指紋可以是字串，音频指
紋可以是镨分量，而图像指紋可以是像素RGB值。下面描述步骤64的两个通用实施例，其中一个实施例中界标和指紋顺序被计算，而另一个中它们同时被计算。
在步骤66中，使用样本指紋来获M储在数据库索引68中的匹配指紋集，其中匹配指紋与界标和NRA指紋集的标识符相关联。然后，使用所获取的文件标识符集和界标来生成包含被计算出相同指紋的样4^M示(步骤64中所计算的)以及所获取的文件界标的对应关系对(步骤70)。然后，通过标识符，对作为结果的对应关系对进行分类，从而针对每个可应用文件生成样W标和文件界标之间的对应关系集。针对文件界标和样本界标之间的对准，对每个集进行扫描。也就是说，对界标对中的线性对应关系进行识别，且根据线性相关的对的数量对所述集进行评分。线性对应关系发生在允许的容限内大量的对应样本位置和文件位置可以基本上利用相同的线性等式来描述时。例如，如果描述对应关系对的集的多个等式的斜率以±5%编号，则认为整个对应关系集是线性相关的。当然，可以选择任何适当的容限。具有最高分即具有最大数量的线性相关的对应关系的集的标识符为获胜的NRA指紋标识符，其在步骤72中被定位和返回。
如下面将进一步描述的，可以进行识别，其中时间分量与数据库中条目数量的对数成比例。识别可以实质上实时地执行，即使在很大的数据库的情况下。即，样本可以在其被获得时被识别，即具有很小的时间滞后。本方法可基于5-10秒、甚至是低到l-3秒的段来识别声音。在一个优选实施例中，当在步猓62中捕获样本时，定界标和采指紋分析在步骤64 中被实时地执行。当样本指紋变得可用时，执行数据库查询(步骤66 ), 且对应关系结果被累积，并且针对线性对应关系被周期性地扫描。因而，所有的方法步骤同时发生，而不是图6中所提出的顺序线性方式。注意，该方法部分类似于文本搜索引擎用户提交查询样本，而声音数据库中被索引的匹配文件被返回。
如上所述，该方法自动地识别重复素材，其时间粒度依赖于原始提交的音频样本的长度。其本身是有用的，然而，随着对上述的声音识别引擎的改进，可以对粒度进行实质上的改善。除音频识别引擎返回音频样本内的匹配位置和长度之外，用于候选素材的增加的时间分辨率的方法和上述方法相同，从而允许该系统与声音样本粒度无关(参考"A Method of Characterizing the Overlap of Two Media Segments"专利申请)，其
中所揭示的技术着眼于从音频数据中提取的一定数量的匹配重叠时间对准特征的支持密度。两个音频样本片段之间的"匹配"重叠区域具有高密
度；相反，非匹配区域具有低密度。候选分段点在匹配样本片段内的时间偏移处选取，从而划分出特征的高和低密度重叠之间的转变的界限。这种改进产生100-200亳秒内的分段端点。
这里所揭示的系统和方法通常实施为在计算机系统上运行的软件，其中各步骤作为独立的软件模块被最有效地实施。针对不同对象的计算机指
令代码存储在一个或多个计算机的存储器中，并且由一个或多个计算机处理器来执行。在一个实施例中，代码对象在单个计算机系统如基于Intel 的个人计算机或其它工作站内被聚集在一起。在一个优选实施例中，所述方法由组网的中央处理器单元(CPU)簇来实施，其中，不同的软件对象由不同的处理器来执行，以便分布计算负载。可替选地，每个CPU可具有所有软件对象的拷贝，从而允许相同配置元素的同类网络。在该后一配置中，每个CPU具有数据库索引的子集，并且负责搜索其自己的媒体文件的子集。
尽管对本发明及其优点进行了详细描述，但是应理解，在不背离由所附权利要求所限定的本发明的情况下，在这里可以进行不同的改变、替代和变更。而且，本申请的范围并非意欲P艮制在本说明书中所描述的主题、手段、方法以及步骤的过程、机器、制造、组成的特定实施例。如根据该公开易于理解的，可以使用目前存在的或以后将要开发的、执行与这里所描述的对应实施例基4^目同的功能或者获得与这里所描述的对应实施例基4^同的结果的制图、手段、方法或步骤的过程、机器、制造、组成。因此，所附权利要求旨在将主题、手段、方法或步骤的这些过程、机器、制造、组成包括在其范围内.
权利要求
1.一种在没有重复音频素材的特性的先验知识的情况下对至少一个媒体流内的所述的重复素材进行识别的方法，其包括根据所述至少一个媒体流来创建筛选数据库；从所述媒体流中获取未知样本音频片段；在所述媒体流中寻找匹配片段；以及确定所述的未知样本是否与所述筛选数据库中的任何样本匹配。
2. 如权利要求l所述的方法，其还包括映射所述匹配片段到候选者组中；以及对所述候选者组进行评估，以便寻找适合于公布的最佳范本，由此最佳范本匹配并行链可构成所识别的重复素材。
3. 如权利要求1所述的方法，其中所述未知样本通过时间来划分界限；
4. 如权利要求l所述的方法，其中所述未知样本通过已被识别的素材的段来划分界限。
5. 如权利要求2所述的方法，其中评估所述候选者组是基于对所述候选者组中的所有其它样本的最佳相互匹配。
6. 如权利要求l所述的方法，其还包括通过对不再通过用于包含的准则的参考素材进行识别来周期性地修剪参考数据库。
7. 如权利要求2所述的方法，其中映射所述匹配片段还包括基于每个链内的相邻样本片段的匹配的连续性，比较相邻样本片段的并行链。
8. 如权利要求7所述的方法，其中比较并行链包括选择时间上相邻的未知探测样本片段的第一链，每个探测样本片M 对应媒体流内具有时间偏移；针对所述笫一链中的每个探测样本片段，从所述筛选数据库中寻找一组匹配片段，每个匹配样本在对应^^体流内具有时间偏移；以及按照对应媒体流内的所述匹配样本片段的时间相邻性，将与所述探测样本片段并行的匹配样本片段分组成链，由此形成并行链。
9. 如权利要求8所述的方法，其中对所述匹配样本片段分组还包括: 针对每个探测样本以及每个匹配样本，确定所述探测样本和所述匹配样本之间的相对时间偏移；生成相对时间偏移的直方图；以及针对所W目对时间偏移的直方图中的每个峰，从与所述直方图的峰中的每个点相关联的匹配样本中形成相邻匹配样本链，由此每个链为所述候选者组的成员。
10. 如权利要求9所述的方法，其中所i^目对时间偏移被确定为所述探测样本的时间偏移与所述匹配样本的时间偏移之间的差。
11. 如权利要求9所述的方法，其中针对每个探测样本以及每个匹配样本，获得所述探测样本与所述匹Bt样本之间的iiJL校正因子，并且所述度校正的时间偏移之间的差。
12. 如权利要求7所述的方法，其中每个并行链在时间上尽可能地被扩展，以形成最大匹配并行链。
13. —种用于对未被识别的媒体内容的至少一个源中的未被识别的媒体内容的重复段进行识别的系统，所述系统包括候选者管理器，其接收所述未被识别的^^体，并将标识符与所述未被识别的^^的样;^目关联；指紋生成器，其可操作用于创建针对未被识别的媒体段的指紋；以及媒体搜索引擎，其被连接到所述候选者管理器以及所述指紋生成器，所述媒体搜索引擎能够将未被识别的媒体的指紋与先前存储的未被识别的媒体指紋数据库进行比较，以寻找所述未被识别的媒体内容内的重复段。
14. 如权利要求13所述的系统，其中所述未被识别的媒体通过时间来划分界限。
15. 如权利要求13所述的系统，其中所述未被识别的^^体通过已被识别的素材的段来划分界限。
16. 如权利要求13所述的系统，其中所述未被识别的媒体被映射到相对于与所述指紋生成器关联的筛选数据库中的片段而匹配的片段中，并且所述的匹配片^:被分组到候选者组中。
17. 如权利要求16所述的系统，其中所述候选者组被评估，以寻找适合于公布的最佳范本，由此所述最佳范本可以构成被识别的重复素材。
18. 如权利要求16所述的系统，其中评估所述候选者组是基于对所述候选者组内的所有其它样本的最佳相互匹配。
19. 如权利要求13所述的系统，其还包括参考数据库，所述参考数据库保存从所述至少一个源接收的未被识别的媒^t。
20. 如权利要求19所述的系统，其中所述参考数据库通过对不再通过用于包含的准则的参考素材进行识别被周期性地修剪。
全文摘要
描述了一种在没有重复音频素材(62)的特性的先验知识的情况下对至少一个媒体流内的所述重复素材进行识别的系统和方法。该系统和方法能够根据一个或多个媒体流来创建筛选数据库(68)。从所述媒体流中获取未知的样本音频(62)，并将其与筛选数据库(68)比较，以便通过确定所述未知样本是否与筛选数据库(68)中的任何样本匹配来找出在媒体流内是否有匹配片段(66)。
文档编号G10L15/00GK101189658SQ200680004136
公开日2008年5月28日申请日期2006年2月8日优先权日2005年2月8日
发明者A·礼俊·王, 大卫·L·德·布斯克, 理查德·温·昌·唐, 达伦·P·布里格斯, 迈克尔·卡利纳申请人:兰德马克数字服务有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：大卫.L.德.布斯克;达伦.P.布里格斯;迈克尔.卡利纳;理查德.温.昌.唐;A.礼俊.王
技术所有人：兰德马克数字服务有限责任公司
我是此专利的发明人