用于在音频帧序列中检测重复模式的方法及设备的制作方法

文档序号:2835853阅读:472来源:国知局
专利名称:用于在音频帧序列中检测重复模式的方法及设备的制作方法
技术领域
本发明一般涉及音频信号处理。更具体地,本发明的实施例涉及用于在音频帧序列中检测重复模式的方法及设备。
背景技术
音频信号,尤其是音乐信号,通常显示出重复的特性在音频信号中,一个音频部分在后面将会重复。对音频信号中这些重复部分的检测已引起很多关注,因为这种检测是一个基础性步骤,并且可以用于各种应用,诸如音乐检测、音乐副歌检测、音乐缩略或音乐概括以及音乐结构分析。关于术语“重复部分”,在不同文献中可以使用具有类似含义的不同术语,诸如“反·复出现”、“重复”、“重复模式”或“反复模式”。在本公开中,可以互换地使用这些术语,而不会引起任何混淆。为了检测重复部分,各种方案能够涉及计算相似度(或距离)矩阵,并在矩阵中找到重复模式。相似度矩阵包括帧t与t+Ι之间的相似度值s(t,l),其中I代表相似度值s(t,I)的偏移。一般的思路是,估计固定阈值并用它将矩阵二值化。即,对于相似度矩阵中的每个像素,如果其相似度值大于固定阈值,则将该像素二值化为1,表明该像素表示重复;否则,将该像素设置为O。二值化之后,通过在每个偏移中检测包含连续“I”的线,可容易地检测重复模式(参见 M. Goto. “A chorus-section detecting method for musicalaudio signals,,,Proc. Acoustics, Speech, and Signal Processing, 2003,其通过弓I用并入于此以用于全部目的)。本章节中描述的方案是能够采用的方案,但不一定是先前已经构思或采用的方案。因此,除非另外指出,不应仅因为被包含在本章节中就假定本章节描述的任何方案适合作为现有技术。类似地,根据本章节而关于一个或更多个方案发现的问题不应被假定为任何现有技术中已经认识到的问题,除非另外指出。

发明内容
根据本发明的一个实施例,提供了一种在音频帧序列中检测重复模式的方法。根据该方法,计算该序列的具有第一分辨率的第一相似度矩阵的相似度值。根据相似度值估计自适应阈值,用于将相似度值分类为重复或非重复。针对第二相似度矩阵的一个或更多个偏移中的每一个,计算第二相似度矩阵中与该偏移相对应的相似度值,其中第二相似度矩阵具有高于第一分辨率的第二分辨率。利用自适应阈值对计算出的相似度值进行分类,以获得二值化数据。从二值化数据中检测重复模式。根据本发明的另一实施例,提供了一种用于在音频帧序列中检测重复模式的设备。该设备包括计算器、估计器以及检测器。计算器计算该序列的具有第一分辨率的第一相似度矩阵的相似度值。估计器根据相似度值估计自适应阈值,用于将相似度值分类为重复或非重复。检测器针对具有高于第一分辨率的第二分辨率的第二相似度矩阵的一个或更多个偏移中的每一个,计算第二相似度矩阵中与该偏移相对应的相似度值,利用自适应阈值对计算出的相似度值进行分类以获得二值化数据,并从二值化数据中检测重复模式。根据本发明的另一实施例,提供了一种记录有计算机程序指令的计算机可读介质。这些指令在由处理器执行时使得该处理器能够进行一种在音频帧序列中检测重复模式的方法。根据该方法,计算该序列的具有第一分辨率的第一相似度矩阵的相似度值。根据相似度值估计自适应阈值,用于将相似度值分类为重复或非重复。针对第二相似度矩阵的一个或更多个偏移中的每一个,计算第二相似度矩阵中与该偏移相对应的相似度值,其中第二相似度矩阵具有高于第一分辨率的第二分辨率。利用自适应阈值对计算出的相似度值进行分类,以获得二值化数据。从二值化数据中检测重复模式。根据本发明的另一实施例,提供了一种在音频帧序列中检测重复模式的方法。计算该序列的第一相似度矩阵的相似度值。针对第一相似度矩阵的各偏移中的每一个,基于第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性。将重要性得分与和该偏移相关联 的阈值进行比较。如果重要性得分大于所述阈值,则将该偏移确定为重要偏移。在缓冲器中存储第一相似度矩阵中与重要偏移相对应的相似度值。根据相似度值估计自适应阈值,用于将相似度值分类为重复或非重复。针对与第一相似度矩阵具有相同分辨率的第二相似度矩阵,从缓冲器读取第一相似度矩阵中对应于重要偏移的相似度值,以作为第二相似度矩阵中要计算的相似度值。利用自适应阈值对读取出的相似度值进行分类,以获得二值化数据。从二值化数据中检测重复模式。根据本发明的另一实施例,提供了一种在音频帧序列中检测重复模式的设备。设备包括计算器、估计器以及检测器。计算器计算该序列的第一相似度矩阵的相似度值。针对第一相似度矩阵的各偏移中的每一个,计算器基于第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性。计算器也将重要性得分与和该偏移相关联的阈值进行比较。如果重要性得分大于阈值,则计算器将该偏移确定为重要偏移。计算器还在缓冲器中存储第一相似度矩阵中与重要偏移相对应的相似度值。估计器根据相似度值估计自适应阈值,用于将相似度值分类为重复或非重复。针对与第一相似度矩阵具有相同分辨率的第二相似度矩阵,检测器从缓冲器读取第一相似度矩阵中对应于重要偏移的相似度值,以作为第二相似度矩阵中要计算的相似度值。检测器利用自适应阈值对读取出的相似度值进行分类,以获得二值化数据,并且从二值化数据中检测所述重复模式。下面参考附图详细描述本发明的进一步特性和优点,以及本发明各个实施例的结构和操作。应当注意,本发明不限于这里描述的具体实施例。在这里出现这样的实施例只是出于说明的目的。相关领域技术人员根据这里包含的指导会想到其它实施例。


在附图的各图中通过示例来图解本发明,但这些示例不对本发明产生限制,附图中类似的附图标记表示类似的元件,其中图1(a)图示相似度矩阵的示例,且图1(b)图示从图1(a)所示的矩阵转换得到的时滞相似度矩阵的示例;
图2是图示根据本发明实施例的用于在音频帧序列中检测重复模式的示例设备的框图;图3是图示根据本发明实施例的在音频帧序列中检测重复模式的示例方法的流程图;以及图4是图示用于实施本发明的各个方面的示例性系统的框图。
具体实施例方式下面参考附图描述本发明实施例。应注意,为清楚起见,在附图和描述中省略了关于本领域技术人员已知但是与本发明无关的组件和过程的陈述和描述。本领域的技术人员可以理解,本发明的各方面可以被实施为系统(例如在线数字媒体商店、云计算服务、流媒体服务、电信网络等)、装置(例如蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒、或数字录像机、或任意其它媒体播放器)、方法或计算机程序 产品。因此,本发明的各方面可以采取以下形式完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合软件部分与硬件部分的实施例,本文可以一般地称之为“电路”、“模块”或“系统”。此外,本发明的各方面可以采取体现为一个或更多个计算机可读介质的计算机程序产品的形式,该计算机可读介质上体现有计算机可读程序代码。可以使用一个或更多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是(但不限于)电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下有一个或更多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的、其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式,包括但不限于电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。体现在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言,诸如Java、SmalltalKC++之类,还包括常规的过程式程序设计语言,诸如“C”程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。以下参照按照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中,使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。也可以把计算机程序指令加载到计算机、其它可编程数据处理设备(例如蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒、或数字录像机、或任意媒体播放器)或其它装置上,导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。通过将音频信号划分为多个帧并测量每两个帧之间的相似度,可以计算代表该音频信号的自相似度的相似度矩阵。例如,图1(a)图示了相似度矩阵的示例,其中每个像素
的像素值代表帧\和\之间的相似度。两个帧越相似,则在该图中像素就越白。可以清楚地看到,平行于矩阵对角线的每个不同的线均代表重复模式。由于相似度矩阵和距离矩阵完全等同,因此在以下部分中,将只把相似度矩阵作为示例。 为了在后续步骤中容易处理,相似度矩阵通常是以时滞相似度矩阵的形式来表示的,其中水平轴(时间轴)代表时间戳(或帧)t而垂直轴(偏移轴)为时间偏移(或时滞)1。即,时滞矩阵中的每个像素(t,I)的像素值是时间(或帧)t与t+Ι之间的相似度值。重复模式成为矩阵中的水平线。图1(b)图示从图1(a)所示的矩阵转换得到的时滞相似度矩阵的示例。如图I所示,相似度矩阵通常为NXN矩阵,其中N是音频信号中的帧的数目。例如,针对以100毫秒的非交叠窗口划分成帧的5分钟的音频信号,该音频信号中存在3000帧,而相似度矩阵的大小可为3000X3000/2 = 4. 5M(考虑到相似度矩阵是对称的)。在相似度矩阵中每个值以2-4字节来存储的情况下,相似度矩阵的整个大小为9-18MB(兆字节)。在诸如嵌入式系统的存储器容量有限的应用中,无法负担这种存储器成本。例如,嵌入式系统中的应用的典型存储器成本为大约100KB或更少。为了使得算法在嵌入式系统中可行,需要在不损害重复模式检测的准确度的情况下大大减小存储器成本的方案。通过耜分辨率相似度矩阵估计自适应阈倌通常,计算并存储整个相似度矩阵,以通过利用该相似度矩阵中的相似度值的全局分布来估计自适应阈值。具体地,根据相似度矩阵中的相似度值来计算诸如均值和概率以及百分比的统计信息,并根据这些统计信息估计自适应阈值。如果相似度矩阵在偏移轴或时间轴中的一个或更多个中具有低于逐帧分辨率的分辨率,则该相似度矩阵被称为具有粗分辨率的相似度矩阵(也称为粗分辨率相似度矩阵)。在偏移轴和时间轴二者均具有逐帧分辨率的相似度矩阵称为具有高分辨率的相似度矩阵(也称为高分辨率相似度矩阵)。尽管与高分辨率相似度矩阵相比,粗分辨率相似度矩阵中包括更少的样本,然而粗分辨率相似度矩阵中的相似度值的动态范围和统计信息与高分辨率相似度矩阵是类似的。因此,可根据粗分辨率相似度矩阵估计自适应阈值。这样获得的自适应阈值可接近于根据高分辨率相似度矩阵获得的自适应阈值。为了保证高准确度,并不直接在这种粗分辨率相似度矩阵上检测反复模式,而是在反复模式检测中使用另一相似度矩阵,其分辨率高于粗分辨率相似度矩阵的分辨率。高于粗分辨率的较闻分辨率是指,在偏移轴和时间轴二者中均 不低于粗分辨率并在偏移轴和时间轴中的至少一个上高于粗分辨率的分辨率。在具有较高分辨率的相似度矩阵中,可获得与相似度矩阵的每一偏移相对应的相似度值(即,具有较高分辨率的时滞相似度矩阵中的一行)。针对每个偏移,所估计的自适应阈值被用于将所获得的相似度值二值化,以检测该偏移中的重复模式。以此方式,只需要存储粗分辨率相似度矩阵并且只需要存储相似度值的一行,与存储高分辨率相似度矩阵并从高分辨率相似度矩阵中检测重复模式相比,这减小了存储器成本。图2是图示根据本发明实施例的用于在音频帧序列中检测重复模式的示例设备200的框图。如图2所示,设备200包括计算器201、估计器202和检测器203。计算器201计算该序列的具有粗分辨率的相似度矩阵M1的相似度值s (t,I)。耜分辨率该序列包括若干音频帧。音频帧包括音频样本。相似度矩阵的偏移是以音频帧为单位来度量的。相似度矩阵M2在偏移轴和/或时间轴上具有比相似度矩阵M1高的分辨率。在第一示例中,与相似度矩阵M2相比,相似度矩阵M1可以在时间轴中具有比相似度矩阵M2低的分辨率。在这种情况下,相似度矩阵M1可以具有逐段分辨率,而一个分段包括至少两个音频帧。在下文中,将始于音频帧t的分段称为分段t。每个分段都是音频帧的序列,因此,可以采用各种用于计算音频帧序列之间的相似度值的方法来计算分段之间的相似度值。作为一个计算分段t和t+Ι之间的相似度值s(t,I),I > O的示例,可计算分段t的音频帧t+i和分段t+Ι的音频帧t+1+i之间的相似度值sh(t+i,I),0 ( i ( W-I,其中W(例如W= 10)是以音频帧为单位的分段的长度。可以将相似度值Sh(t+i,I)进行平均以作为相似度值S(t,I)。例如,可以将相似度值s(t,I)计算为
W-Is(tj) =^w(i)sh (t + i, I)⑴
/=O其中,w⑴为对应的加权因子,它可以是均匀分布函数、高斯函数、三角函数或其它类型的函数。作为一个计算分段t和t+Ι之间的相似度值s (t,I),I > O的示例,可从分段t的帧t,. . .,t+ff-1获得数目为N的子样本\并从分段t+Ι的帧t+1,t+1+ff-l获得数目为N的子样本ti+Ι,即,& = g⑴,其中g()是下采样函数。一个示例是,g(i) = t+i Xff/N,0^ i ^N-I0可替选地,g()也可以是非线性下采样函数。在这种情况下,可计算分段t的音频帧\和分段t+Ι的音频帧\+1之间的相似度值sh(ti,I),0彡i彡N-1。可以将相似度值Sh (ti,I)进行平均以作为相似度值S (t,I)。例如,可以将相似度值s(t,I)计算为
权利要求
1.一种在音频帧序列中检测重复模式的方法,包括 计算该序列的第一相似度矩阵的相似度值,所述第一相似度矩阵具有第一分辨率;根据所述相似度值估计自适应阈值,用于将所述相似度值分类为重复或非重复;以及针对具有高于所述第一分辨率的第二分辨率的第二相似度矩阵的一个或更多个偏移中的每一个, 计算所述第二相似度矩阵中与该偏移相对应的相似度值; 利用所述自适应阈值对计算出的相似度值进行分类,以获得二值化数据;以及 从所述二值化数据中检测所述重复模式。
2.根据权利要求I所述的方法,其中,在以帧为单位的情况下,所述第一相似度矩阵的偏移是不连续的。
3.根据权利要求2所述的方法,其中,所述第一相似度矩阵的偏移是取自集合O={1,. . .,L}的子样本,其中L是以帧为单位的该序列的长度。
4.根据权利要求2或3所述的方法,其中,所述第一相似度矩阵和所述第二相似度矩阵中的至少一个的偏移轴具有逐段分辨率,并且与所述逐段分辨率相对应的分段包括预定数目的音频帧,并且 其中,针对始于音频帧t和t+Ι的两个分段之间的相似度值sa(t,I),I > O中的每一个,所述计算包括 针对从Ι-m至1+n的范围中的每个偏移Ii,计算分别始于时间t和t+h的两个分段之间的相似度值s (t, Ii), m, η彡O且m+n关O,以及 将相似度值s (t,Ii),1-m彡Ii彡1+n进行平均以作为相似度值sa(t, I)。
5.根据权利要求I或2所述的方法,其中,所述第一相似度矩阵和所述第二相似度矩阵中的至少一个的时间轴具有逐段分辨率,且与所述逐段分辨率相对应的分段包括至少两个音频帧。
6.根据权利要求I所述的方法,其中,所述第一相似度矩阵的相似度值的所述计算包括 当计算所述相似度值中的每一个时,更新所述相似度值的统计信息,所述统计信息用于估计所述自适应阈值,并且其中所述估计包括 基于所述统计信息,估计所述自适应阈值。
7.根据权利要求6所述的方法,其中,所述统计信息包括直方图,所述直方图用于累计落入各相似度值区间的每一个中的相似度值的数目。
8.根据权利要求I所述的方法,其中,所述第一相似度矩阵在时间轴上具有与所述第二相似度矩阵相同的分辨率,所述方法进一步包括 在缓冲器中存储所述第一相似度矩阵中与所述第一相似度矩阵的各偏移中的至少一部分相对应的相似度值,以及 其中所述第二相似度矩阵中与该偏移相对应的相似度值的所述计算包括 确定所述第一相似度矩阵中与所述第二相似度矩阵中要计算的相似度值对应于相同偏移的相似度值是否被存储在所述缓冲器中;以及 如果所述第一相似度矩阵中对应于所述相同偏移的相似度值被存储在所述缓冲器中,则从所述缓冲器读取所述第一相似度矩阵中对应于所述相同偏移的相似度值,以作为所述第二相似度矩阵中要计算的相似度值。
9.根据权利要求8所述的方法,其中,所述第一相似度矩阵的相似度值的所述计算包括 针对所述第一相似度矩阵的各偏移中的每一个,基于所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性; 将所述重要性得分与和该偏移相关联的阈值进行比较;以及 如果所述重要性得分大于所述阈值,则将该偏移确定为重要偏移,以及 其中所述重要偏移被包括在所述各偏移的所述至少一部分中。
10.根据权利要求I所述的方法,其中,所述第一相似度矩阵的相似度值的所述计算包括 针对所述第一相似度矩阵的各偏移中的每一个,基于所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性; 将所述重要性得分与和该偏移相关联的阈值进行比较;以及如果所述重要性得分大于所述阈值,则将该偏移确定为重要偏移,以及其中所述第二相似度矩阵的落入围绕所述重要偏移的范围内的偏移被包括在所述一个或更多个偏移中。
11.根据权利要求9或10所述的方法,其中,所述重要性得分被计算为 所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值上的移动窗口中的最大平均值,所述计算出的相似度值是按照用于计算所述计算出的相似度值的帧的最小时间的顺序来排列的,或者 所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值的平均值。
12.根据权利要求9或10所述的方法,其中,和该偏移相关联的所述阈值被计算为与该偏移周围预定数目的偏移相对应的、计算出的重要性得分的平均值。
13.一种用于在音频帧序列中检测重复模式的设备,包括 计算器,其计算该序列的第一相似度矩阵的相似度值,所述第一相似度矩阵具有第一分辨率; 估计器,其根据所述相似度值估计自适应阈值,用于将所述相似度值分类为重复或非重复;以及 检测器,其针对具有高于所述第一分辨率的第二分辨率的第二相似度矩阵的一个或更多个偏移中的每一个, 计算所述第二相似度矩阵中与该偏移相对应的相似度值; 利用所述自适应阈值对计算出的相似度值进行分类,以获得二值化数据;以及 从所述二值化数据中检测所述重复模式。
14.根据权利要求13所述的设备,其中,在以帧为单位的情况下,所述第一相似度矩阵的偏移是不连续的。
15.根据权利要求14所述的设备,其中,所述第一相似度矩阵的偏移是取自集合.0={1,. . .,L}的子样本,其中L是以帧为单位的该序列的长度。
16.根据权利要求15所述的设备,其中,所述第一相似度矩阵和所述第二相似度矩阵中的至少一个的偏移轴具有逐段分辨率,并且与所述逐段分辨率相对应的分段包括预定数目的音频帧,并且 其中,针对始于音频帧t和t+Ι的两个分段之间的相似度值sa(t,I),I > O中的每一个,所述计算器被配置为 针对从Ι-m至1+n的范围中的每个偏移Ii,计算分别始于时间t和t+h的两个分段之间的相似度值s (t, Ii), m, η彡O且m+n关O,以及 将相似度值s (t,Ii),Ι-m彡Ii彡1+n进行平均以作为相似度值sa(t, I)。
17.根据权利要求13或14所述的设备,其中,所述第一相似度矩阵和所述第二相似度矩阵中的至少一个的时间轴具有逐段分辨率,且与所述逐段分辨率相对应的分段包括至少两个音频帧。
18.根据权利要求13所述的设备,其中,所述计算器被配置为,当计算所述相似度值中的每一个时,更新所述相似度值的统计信息,所述统计信息用于估计所述自适应阈值,并且 其中所述估计器被配置为基于所述统计信息估计所述自适应阈值。
19.根据权利要求18所述的设备,其中,所述统计信息包括直方图,所述直方图用于累计落入各相似度值区间的每一个中的相似度值的数目。
20.根据权利要求13所述的设备,其中,所述第一相似度矩阵在时间轴上具有与所述第二相似度矩阵相同的分辨率,所述设备进一步包括 缓冲器,并且 所述计算器被配置为在所述缓冲器中存储所述第一相似度矩阵中与所述第一相似度矩阵的各偏移中的至少一部分相对应的相似度值,并且其中所述检测器被配置为 确定所述第一相似度矩阵中与所述第二相似度矩阵中要计算的相似度值对应于相同偏移的相似度值是否被存储在所述缓冲器中;以及 如果所述第一相似度矩阵中对应于所述相同偏移的相似度值被存储在所述缓冲器中,则从所述缓冲器读取所述第一相似度矩阵中对应于所述相同偏移的相似度值,以作为所述第二相似度矩阵中要计算的相似度值。
21.根据权利要求20所述的设备,其中,所述计算器被进一步配置为 针对所述第一相似度矩阵的各偏移中的每一个,基于所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性; 将所述重要性得分与和该偏移相关联的阈值进行比较;以及 如果所述重要性得分大于所述阈值,则将该偏移确定为重要偏移,以及 其中所述重要偏移被包括在所述各偏移的所述至少一部分中。
22.根据权利要求13所述的设备,其中,所述计算器被配置为 针对所述第一相似度矩阵的各偏移中的每一个,基于所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性;将所述重要性得分与和该偏移相关联的阈值进行比较;以及如果所述重要性得分大于所述阈值,则将该偏移确定为重要偏移,以及其中所述第二相似度矩阵的落入围绕所述重要偏移的范围内的偏移被包括在所述一个或更多个偏移中。
23.根据权利要求21或22所述的设备,其中,所述重要性得分被计算为 所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值上的移动窗口中的最大平均值,所述计算出的相似度值是按照用于计算所述计算出的相似度值的帧的最小时间的顺序来排列的,或者 所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值的平均值。
24.根据权利要求21或22所述的设备,其中,所述计算器被进一步配置为,将和该偏移相关联的所述阈值计算为与该偏移周围预定数目的偏移相对应的、计算出的重要性得分的平均值。
25.—种在音频帧序列中检测重复模式的方法,包括 计算该序列的第一相似度矩阵的相似度值,包括 针对所述第一相似度矩阵的各偏移中的每一个,基于所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性; 将所述重要性得分与和该偏移相关联的阈值进行比较;以及 如果所述重要性得分大于所述阈值,则将该偏移确定为重要偏移;以及 在缓冲器中存储所述第一相似度矩阵中与所述重要偏移相对应的相似度值; 根据所述相似度值估计自适应阈值,用于将所述相似度值分类为重复或非重复; 针对与所述第一相似度矩阵具有相同分辨率的第二相似度矩阵, 从所述缓冲器读取所述第一相似度矩阵中对应于所述重要偏移的相似度值,以作为所述第二相似度矩阵中要计算的相似度值; 利用所述自适应阈值对读取出的相似度值进行分类,以获得二值化数据;以及 从所述二值化数据中检测所述重复模式。
26.—种在音频帧序列中检测重复模式的设备,包括 计算器,其计算该序列的第一相似度矩阵的相似度值,其中针对所述第一相似度矩阵的各偏移中的每一个,所述计算器 基于所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性; 将所述重要性得分与和该偏移相关联的阈值进行比较;以及 如果所述重要性得分大于所述阈值,则将该偏移确定为重要偏移;以及 在缓冲器中存储所述第一相似度矩阵中与所述重要偏移相对应的相似度值; 估计器,其根据所述相似度值估计自适应阈值,用于将所述相似度值分类为重复或非重复; 检测器,其针对与所述第一相似度矩阵具有相同分辨率的第二相似度矩阵, 从所述缓冲器读取所述第一相似度矩阵中对应于所述重要偏移的相似度值,以作为所述第二相似度矩阵中要计算的相似度值;利用所述自适应阈值对读取出的相似度值进行分类,以获得二值化数据;以及从所述二值化数据中检测所 述重复模式。
全文摘要
描述了用于在音频帧序列中检测重复模式的方法及设备。计算该序列的具有第一分辨率的第一相似度矩阵的相似度值。根据相似度值估计自适应阈值,用于将相似度值分类为重复或非重复。针对第二相似度矩阵的一个或更多个偏移中的每一个,计算第二相似度矩阵中与该偏移相对应的相似度值,其中第二相似度矩阵具有高于第一分辨率的第二分辨率。然后,利用自适应阈值对计算出的相似度值进行分类,以获得二值化数据。最后,从二值化数据中检测重复模式。由于在重复模式检测中存储的数据更少,因此可以减小对存储器的要求。
文档编号G10L25/60GK102956238SQ201110243088
公开日2013年3月6日 申请日期2011年8月19日 优先权日2011年8月19日
发明者芦烈, 程斌 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1