坚固而且不变的音频图样匹配的制作方法

文档序号:2821035阅读:235来源:国知局
专利名称:坚固而且不变的音频图样匹配的制作方法
技术领域
本发明通常是有关于在一大音频档案资料库上处理音频讯号。特别是关于一种用以快速并准确地决定两个音频试样是否匹配,以及是否免于含播放速度变动的各种变换的发明技术。本发明技术更能准确估算变换。
背景技术
用以快速且准确地自动辨识音乐及其它音频讯号的需求持续成长。先前可用的音频辨识技术常因准确性、或为了减少噪讯而牺牲速度。在某些申请案中,要在极度噪讯存在时对于估算时间对时间的分布图的斜率时需要计算回归分析,这导引出许多难度及低效能的速度和准确性。先前既存的音频辨识技术在明显的播放速度变动存在时,因此无法实施快速及准确的辨识,例如,无法辨识以高于正常速度播放时的录音。
增加问题复杂性的是DJ在无线电台、俱乐部和其它场所所使用的渐增,受到欢迎种类的速度变动,修正音调的节奏变动。目前,不管播放速度变动及/或修正音调节奏变动的话,没有能实施快速且准确音频辨识的稳健而且可靠的技术。

发明内容
本发明提供一种说明两音频档案之间关系特征的快速且不变动的方法,完成音频辨识技术的要求。本发明方法克服既有技术的以上所提及缺点,甚至在极度噪讯存在时亦为准确。
根据本发明一观点,两音频试样间的关系具有首先匹配得自各别试样的某种指纹物件的特征。对各音频试样产生一组指纹物件。各指纹物件是发生在各别音频试样内的一特别位置。各位置的决定依各别音频试样内容而定,且各指纹物件在或接近各特别位置处具备各别音频试样的一或更多局部特性。在一实施例中,各指纹物件进一步的特征是具备一变动成份和不变动成份。接着每对匹配指纹物件确定一相对值。然后产生相对值的直方图。如在直方图中发现统计上的明显峰值,则两音频试样具备这样的特征,例如实质上的匹配。
根据本发明的另一方面,由直方图轴上的一峰值位置提供一全面相对值的估算,使上述技术可以进一步被提高。接着,通过选取一个在感兴趣的峰值邻近区域并计算一在所选取的邻近区域的相对平均值可改进该全面相对值。
还有,在另一实施例中,从直方图的峰值决定一相对播放速度值,对每对匹配的指纹物件计算一补偿的相对时间偏置值。根据补偿的相对时间偏置值产生另一直方图。如在第二直方图中发现统计上的明显峰值时,两音频试样间的关系则进而具备峰值特征,进而加强本发明的准确性。


第1图代表一分析音频试样的频谱图。
第2图为一表示根据本发明一观点,产生自一音频试样指纹物件的范例图。
第3图说明根据本发明原理所比较的两音频试样。
第4A-B图表示具有及不具一统计上明显峰值的典范直方图。
第5A-B图说明当播放速度变动时,时间-频率点的运动。
第6A-B图表示匹配混合标识的第一音频试样(试样声音)和第二音频试样(资料库声音)的对应时间。当试样声音的播放速度与资料库声音相同时,斜率为1。
第7A-D图说明找到并绘制本发明直方图技术的快速及有效斜率。
元件对照表210音频试样220频谱221,222能量区230清单231,232指纹物件242位置栏位252变动成份262不变动成份310,320指纹物件清单1,2音频试样311,322指纹物件具体实施方式
本发明能在一大音频档案资料库上作快速、强力、不变动、及在一个大的音频档案数据库里可扩缩的索引及搜寻,并对音频图样辨识应用特别有用。在某些实施例中,此处所发表的技术改进并增强了在以上所参考的美国专利申请案中所发表的音频辨识系统和方法。
两音频试样档案间的非常快速与有效的比较运算在建立一商业上可行的音频辨识系统中是重要的。根据本发明一个方面,两音频试样间关系具备这样的特征,即,如第1图中所示,首先匹配得自各个音频试样频谱的某种指纹物件。频谱为一时间、频率代表/分析,它是以滑动窗框中一次取样2*K并计算傅立叶(Fourier)变换产生的,因此在各音框中产生K频箱。音框可重叠加以改进时间的解析分析。使用的特别参数依处理的音频试样种类而定。最好使用取样率8KHZ,K=512的音框,和跨步为64试样的离散时间音频档案。
指纹物件产生各音频试样的音谱后,被扫描求得局部特性,例如局部能量峰值(如第2图中所示)。匹配程序通过一个音频试样的对应局部特性抽取一组指纹物件而开始。在一典范实施例中,一音频试样为一要加以辨识的未知声音试样而另一音频试样为一储存在资料数据库中的已知录音。每一指纹物件发生在各音频试样内的一特别位置。在某些实施例中,每个指纹物件被定位在一音频档案内的某些时间偏置位置,并在接近其各别时间座标位置,包含有关音频档案的一组叙述资讯。那就是,依接近各别时间偏置的音频试样而定加以计算各指纹物件中所包含的叙述资讯。这被编码成一小资料结构。最好,以通常可再生,甚至存在噪讯,失真,及如变动播放速度的其它变换的方式,决定位置和叙述资讯。在这情况中,依各别音频试样的内容而定,决定各位置,且每个指纹物件具备这样的特性,如第1图中所示,在或接近例如,位置(t1,f1)或(t2,f2)的各别特别位置处各指纹物件具各别音频试样的一或更多局部特性。
在一典范实施例中,各指纹物件具备其位置,变动成份、和不变动成份的特征。各局部特性为一音谱峰值并从一对应音谱峰值的频率座标决定各频率值。峰值的决定是藉在各时间-频率座标附近加以搜寻并选取比其邻近具较大值的点。更明确地说,如第2图中所示,将一音频试样210分析成在区域221和222表示高能量的频谱代表220。抽取与局部能量区221和222有关的资讯并将其摘要成一指纹物件231,232等的清单230。各指纹物件选择性地包含一位置栏242,一变动成份252,及一不变动成份262。最好,选取邻近区,使得各选取点在以其为中心的一21×21单位区内为最大。读者可参考以上所参考的美国专利申请案,更加讨论邻近区及点的选取。接着,对各对匹配的指纹物件,决定一相对值。在某些实施例中,相对值为各别音频试样参数值的对数商或差。然后产生一相对值的直方图。如果在直方图中发现一统计上的明显峰值,则两音频试样具实质上匹配的特性。
参考第三图,分别如音频试样1和2的以上说明,分别备制指纹物件清单310和320。从各清单比较各指纹物件311和322。在步骤351中,例如使用各不变动成份1NV和1NV′将匹配指纹物件配成对,并在步骤352中将其放在一清单中。在步骤353中,计算各匹配对的相对值。接着,在步骤354中,产生一相对值的直方图。在步骤355中,在直方图中搜寻一统计上的明显峰值。在步骤356中,如找不到,则音频试样1和2不匹配,例如为第4A图的直方图410。另外,如检测到一统计上的明显峰值,则音频试样1和2匹配,例如为第4B图的直方图420。
如第361步骤中的说明,通过直方图一轴上的一峰值位置提供一个全面相对值R的估算可进而加强上述技术。在某些实施例中,首先选取所关注峰值邻近区能将R细调。在第1图中,这以一特殊位置(t1,f1)附近的一关注区110表示。接着,计算所选取邻近区中的平均相对值。这平均值可为在所选取邻近区中以数点各相对值计算加权的平均值。在某些实施例中,能进而将R细调,对各匹配配对产生相对时间偏置值t′-R*t。以这些相对时间偏置值,步骤362-364表示产生一第二直方图,允许计算一补偿时间偏置。
例如,,为抽取指纹物件,例如为Wigner-Ville分布或子波,可实施其它种的时间-频率分析。而且,不用频谱图峰值,亦能使用例如为倒频谱系数的其它特性。而且,可使用超解析技术,得到由频谱峰值所提供的时间-频率座标的更细微频率和时间估算。例如,可使用有关频率箱的抛物线内插法增加频率解析度。在朱利亚斯(史密斯三世(JuliusO.Smith III)和萨比亚西拉(Xavier Serra)的″PARSHL根据正弦波代表,对非谐和声音的分析/合成程式″,国际电脑音乐会议录(ICMC-87,东京),电脑音乐协会,1987,及Prentice Hall公司所出版由史提芬凱(Steren M.kay)(1988年元月)所著的″现代频谱估算理论与应用″中可发现相关的典范教义,此处将后两者纳入参考。
匹配处理在一匹配运算中,经由其各别指纹物件比较两音频试样。如以前参考第3图的讨论,产生匹配指纹物件配对,各配对实质上包含匹配成份。备置资料,允许快速搜寻的一种方式为将指纹物件编码成数值标识,如32位元无符号的整数,并使用数值标识作为储存和搜寻的关键。例如在艾迪生卫斯理(Addison Wesley)公司所出版,由唐纳欧文努斯(Donald Ervin Kmuth)(1998年4月7所著的″计算机程式规划技术,第3册储存和搜寻(第2版)″中熟知有效资料处理技术,此处将其纳入参考。
在一典范实施例中,各指纹物件包含一不变动成份和一变动成份。不变动成份指的是对应于频谱峰值的频率值比率,而且在时间延长下,频谱峰值间的时间差(即,时间差距)比率不变动。例如,参考第5A和5B图,如音频试样频谱在座标(t1,f1),(t2,f2),和(t3,f3)是某些局部频谱峰值,则对于两点的不变动量为f1/f2,即f2′/f1′=f2/f1。额外3点的不变动量指定为f3/f1,(t3-t1)/(t2-t1),或(t3-t2)/(t2-t1),或藉变更这些点及/或计算这些数量或其组合的函数加以产生任何其它组合。例如,f2/f1除以f3/f1可以产生f2/f3。而且,如使音频试样线性延长,如只是快速播放,则频率和时间差额外地享受交互关系,故如f1*(t2-t1)的数量亦为不变动量。可使用这些数量的对数,以加减取代先进乘除。为探求频率和时间延长的比,假设他们无相依性,故具有一频率变动量和一时间变动量是必要的。为使匹配运算有效率,我们使用不变动部位编列指纹索引并使用近似或正确值加以搜寻。使用近似匹配加以搜寻允许某些特别强韧性,对抗失真及圆弧化误差,但如果搜寻不变动成份变成多维范围的搜寻则产生更多成本。在较佳实施例中,需要正确匹配各指纹物件的不变动成份,因此产生一非常快速的系统,为了噪讯存在的辨识而对敏感度有一些妥协。重要的是要注意甚至在对应的音频试样中,只有少数指纹物件正确匹配,则这方法亦运作良好。在直方图峰值侦测步骤中,甚至如果正确匹配并残存少如1-2%的指纹物件则在统计上明显有一峰值。
除了,或不用不变动成份外,亦能使用变动成份,减小匹配指纹物件的个数。例如,我们可能需要来自第一音频试样的一变动成份V在+/-20%内匹配来自第二音频试样的一对应成份V′。在那样情况中,我们可形成一数值标识代表,使得上部位(例如,最高有效位元)包含不变动成份,而下部位(例如,最低有效位元)包含变动成份。然后,搜寻一近似匹配变成在使用变动成份的最低和最高值组成的标识上作范围搜寻。如使用一变动成份完成搜寻,则因此未必严格需要在匹配运算时使用不变动成份。然后,建议在匹配程序中使用不变动成份,因它有助降低疑似匹配的个数,因此使直方图编程程序有效率并降低处理一般开销量。
另一方面,新变动成份本身可能是或不是两指纹物件间匹配准则的一部分。变动成份的代表值可因从一原始录音至一取样录音的某些参数变换而失真。例如,可选取如f1,f2,f3的频率变动成份以及如(t2-t1),(t3-t1)或(t3-t2)的时间变动成份作为播放速度的变动成份。假设第二音频试样,例如,授引自资料库的匹配试样有一座标为(t1′,f1′),(t2′,f2′)和(t3′,f3′)的频谱,这些座标对应于以第一音频试样所列的相同点。然后,频率成份f1′可能有一比例化的值f1=Rf*f1,其中,Rf为一线性延长参数,说明多快或多慢会将第一试样录音与第二试样录音比较。可使用各两匹配音频试样的变动成份藉两频率值Rf=f1′/f1间的比率加以计算说明一宏观参数的全面延长值的估算。这指定两匹配时间-频率点的相对音调比;例如,Rf=2意为第一音频试样为第二音频试样音调(频率)的半。另一可能性为使用Rt=(t2′-t1′)/(t2-t1).在这情况中,相对值R为相对播放速度比,即,Rt=2意为第一音频试样播放速度为第二音频试样的两倍。
如Rf=1/Rt,即,f′/f=(t2-t1)/(t2′-t1′),则由于这种音频试样的交互时间-频率关系,两音频试样有一线性时间延长关系。在这情况下,我们可使用此处所发表的直方图编程法,形成估算利用对应变动频率成份的相对频率比Rf,且再次开成估算相对播放速度Rt,然后实施比较加以侦测播放关系是否为线性或非线性。
通常,利用来自第一和第二音频试样的对应变动成份,从所匹配的指纹物件加以计算一相对值。相对值可为频率的简单比或时间差,或造成估算用以说明第一与第二音频试样间映射的全面参数的某些其它函数。但通常可使用例如为R=F(v1,v1′)的任何两个输入的函数F( ),其中,v1和v1′各为变动量。最佳者为F( )为一连续函数,使得测量v1和v1′时的小误差在输出R形成小误差。
直方图编程如此处的说明,对从指纹物件的匹配配对清单所计算的相对值组产生一直方图。然后在直方图中搜寻一峰值。直方图中,统计上存在的明显峰值表示已发生可能的匹配。这种方法不用如(t1′-t′)的时间偏置差,而在直方图中特别搜寻相对值的集业。
根据本发明的原理,直方图的作用在形成计数值箱,各箱相当于沿着直方图独立轴的一特定值。为达本发明的目的,直方图的产生可就对相对值清单的分类加以完成。因此,侦测相对值清单的直方图峰值的一种快速和有效方式为将清单由小至大分类,然后筛检找出具相同或类似值的最大块项目。
统计意义如本发明此处的讨论,甚至假如只有少至2%的指纹物件幸免于所有失真并匹配无误时,两音频试样亦能匹配无误。通过记下两音频试样间的比较刻痕,这是可能的。明确地说,在直方图峰值附近选取一邻近区并计数落在邻近区中的所有匹配配对,记下刻痕。此外,可计算权重点数,扣减离峰值中心较远的配对的贡献。
估算截止准则的一种方式为假设非匹配音轨刻痕的概率分布以指数末尾往下掉。将这图样套用在实际所测量的非匹配音轨刻痕分布。接着,对于一N音轨资料库,计标最高刻痕的累积概率分布(例如,取一单一非匹配刻痕的累积概率分布的第N阶指数)。一旦知道概率曲线并选取为正量的一最大位准时(例如,0.5%),即可选取一数字临界值并用以决定直方图峰值的匹配配对是否有一统计上明显的个数。
超精细估算一旦找到一统计上明显的直方图峰值,则可计算全面相对值(如相对播放速度)的高解析″超精细″估算。这种计算的完成是通过在峰值附近选取一邻近区,例如,包含离峰值直方图箱中心约3或5箱宽的间隔,并计算邻近区中的平均相对值。使用这种技术,我们可发现准确性达0.05%内的相对播放速度。以此处所发表的偏置衍生,可以优于1ms的准确性估算全面的时间偏置,该准确性比以上所讨论的频谱音框的时间解析更精细。
强力回归分析如以上所参考的美国专利申请案中的讨论,在试样真正匹配的情况中,如第6A图中所示,在匹配试样的匹配指纹物件的对应时间座标(t′,t)彼此相对所划的分布图中可看到一斜线。难题是在高噪讯量存在中找寻回归方程式,它是由斜线的斜率和偏置所决定的。斜率表示相对播放速度,而偏置为一音频试样一开始对第二音频试样一开始的相对偏置。习知上有如最低均方调和的回归技术,例如,为威廉培斯(WilliamHo Press),布莱恩佛莱纳利(Brian P.Flannery),沙乌提可夫斯基(Saul A.Tenkolsky),及威廉维特宁(William T.VeHerling)(1993年元月)在剑桥大学校刊所著的″C写成的数值秘笈科学计算的技术(第二版)″,此处将该文纳入参考。不幸地,习知技术苦于不相称的敏感度,其中,单一的远局外物可使所估算的回归参数急剧倾斜。实际上,相对点常由局外物主导,使其非常难以检测正确斜线。强力回归分析的其它技术可用以克服局外问题,在噪讯存在的相对点的间找到线性关系,但这些倾向于缓慢与反复且在局部最佳化中可能卡住。在找寻一未知线性回归变数的文献中存在广大各种技术。从数学作品(Mathworks)及此处所纳入参考的Matlab工具帮手包含回归分析用的各种软体常规。
本发明提供估算相对播放速度(或,在线性播放关系情况下,对等地为相对音调的例数)的发明方法,该方法解决问题,甚至假如匹配的斜率不等于1时,如第6B图,在时间-时间分布图中找到一回归线。如此处的发表,使用局部相对播放速度的直方图,利用先前未考虑的资讯并提供快速且有效解决回归分析问题的未预期优点。
为找寻偏置,假设对应的时间点具下列关系偏置=t1-Rt*t1,其中,Rt由先前的讨论求得。这为补偿的时间偏置且作用在使两音频试样间的时间座标系统正常化。这在如构成第7A图中未知斜率的斜线及第7C图中垂直线的时间-时间分布图的剪切变换亦可看到。第7B图的直方图720说明表示全面相对播放速度比R的累积相对播放速度比峰值。然后由偏置公式指定新相对值,如第7D图中所见到的,产生一新的直方图740。新直方图740的峰值指定全面偏置的估算值,如上述,利用峰值邻近区的平均值,该估算值可会是陡峭的。
简言之,第一直方图编程阶段提供一种方式加以估算相对播放速度,以及决定是否存在匹配。第二直方图编程阶段确信候选匹配音频试样有明显个数的亦暂时对齐的指纹物件。第二直方图编程阶段亦作为一第二独立筛检准则并有助降低伪正量的概率,因此提供较有力准则加以决定两音频试样是否匹配。只在第一直方图中如有一统计上的明显峰值时可选择实施第二直方图的编程阶段,因此节省计算资源和努力。可选择实施进一步的最佳化,例如,降低计算上的混乱,不用对清单上匹配指纹物件的所有配对计算第二直方图,第二直方图可只使用对应于第一直方图峰值的匹配对加以产生。
多重录间的同步处理本发明的执行可用以对非同步的音频录音加入旁白及时间校准。例如,假设在稍微不同位置或环境,以不同麦克风独立操作一DAT录音机和一卡带录音机。如稍后预期要从各别录音机将两段录音组合成一段混音,则可使用此处说明的强力回归分析技术两音轨同步化,得到时间偏置。照这样,甚至假如非同步化的录音机以稍微不同速度操作时可以高度准确性决定相对速度,允许参考另一段录音补偿一段录音。如发现其中一段录音已损毁且需从另一音源加以补遗时,这尤其有用。如此处说明的时间校准和同步化因此允许透通性混音。
资料库搜寻因比较方法极快速,可能要将一大资料库的变频试样预先处理成各别的指纹物件清单。因一娴熟此技术者会认知到,使用目前可用的资料处理技术因此可将一未知音频试样预先处理成指纹物件的其本身各别清单。使用资料库中预先处理的指纹物件,然后可实施上述的匹配,直方图编程,及峰值检测技术加以找寻匹配。
虽然已详细说明本发明及其优点,应了解的是本发明并不限于或被界定成此处所表示者或所讨论者。尤其是,此处所发表的图示和说明以图例解释有关本发明的技术,表示本发明的实例,并提供利用本发明的实例且不可推断为使本发明受到限制。已知的方法,技术,或系统可不详细加以讨论,故能避免模糊本发明的原理。因以技术中的其中一项平常技能将会认知到,只要不偏离本发明的原理和精神,对本发明可加以实施,修饰,或另外改变。例如,可以在电脑可读取媒体中具体的电脑可执行指令的形式加以实施或另外实现此处所说明的方法,技术,和步骤。另外,本发明可在一具有客户终端和伺服器的电脑系统中加以实施。客户终端传送第一和第二音频试样间关系特征所需的,例如,为指纹物件的资讯至表现特征的伺服器处。因此,应以下列请求项目及其法律上的等效请求项加以决定发明范围。
权利要求
1.一种具备一个第一和一个第二音频试样之间关系特征的方法,包含以下步骤产生第一音频试样的第一组指纹物件,各指纹物件发生在第一音频试样内的一各别位置,各别位置的决定依第一音频试样内容而定,且各指纹物件在或接近各别位置处具备第一音频试样的一个或更多特性;产生第二音频试样的第二组指纹物件,各指纹物件发生在第二音频试样内的一各别位置,各别位置的决定依第二音频试样内容而定,且各指纹物件在或接近各别位置处具备第二音频试样的一个或更多特性;通过使来自第一音频试样的第一指纹物件和来自第二音频试样,实质上类似于第一指纹物件的第二指纹物件相匹配而使指纹物件配成对;根据配对步骤,产生所匹配指纹物件的配对清单;决定各对匹配指纹物件的相对值;产生一幅相对值的直方图;以及在直方图中搜寻一个统计上的明显峰值,该峰值具备第一和第二音频试样间关系的特征。
2.如权利要求第1项的方法,其特征是,如发现一统计上的明显峰值时,则第一和第二音频试样间的关系具备实质上匹配的特征。
3.如权利要求第1或第2项的方法,进一步包含有以直方图轴上一峰值位置加以估算一全面相对值的步骤,全面相对值更具备第一和第二音频试样间关系的特征。
4.如权利要求第3项的方法,进一步包含有超精细估算全面相对值的决定步骤,其特征是的决定步骤包含在峰值附近选取一邻近区域,以及在邻近区域中计算一平均相对值。
5.如权利要求第1项的方法,其特征是,各指纹物件具有一不变成份,而各对匹配的指纹物件中的第一和第二指纹物件具有匹配的不变成份。
6.如权利要求第5项的方法,其特征是,使用至少以下的一种方法来产生不变动成份(i)一个第一和一个第二频率值间的比率,从接近各指纹物件各别位置的第一和第二局部特性分别决定各频率值;(ii)一个频率值和一个时间差值间的乘积,从第一局部特性决定频率值,并在接近各指纹物件各别位置的第一局部特性与第二局部特性的间决定时间差值;以及(iii)一个第一和一个第二时间差值之间的比率,从第一和第二局部特性决定第一时间差值,从第一和第三局部特性决定第二时间差值,各局部特性接近各指纹物件的各别位置。
7.如权利要求第6项的方法,其特征是,各局部特性为一频谱峰值并从一对应频谱峰值的一频率座标来决定各频率值。
8.如权利要求第1或第5项的方法,其特征是,各指纹物件具有一变动成份,并利用第一与第二指纹物件的各别变动成份加以决定各对匹配指纹物件的相对值。
9.如权利要求第8项的方法,其特征是,变动成份为从接近各指纹物件的各别位置的一局部特性所决定的频率值,使得一对匹配指纹物件的相对值具备第一和第二指纹物件各别频率值比率的特征,且直方图中的峰值具备第一和第二音频试样间关系的特征而第一和第二音频试样具备相对音调的特征,或在线性延长的情况中为相对播放速度的特征。
10.如权利要求第9项的方法,其特征是,各别频率值的比率既可以是对数除法也可以是对数减法的演算。
11.如权利要求第9项的方法,其特征是,各局部特性为一频谱峰值并从一对应频谱峰值的一频率座标决定各频率值。
12.如权利要求第8项的方法,其特征是,变动成份为从接近各指纹物件的各别位置的第一和第二局部特性所决定的时间差值,使得一对匹配指纹物件的相对值具备各别变动时间差值比率的特征,且直方图中的峰值具备第一和第二音频试样间关系的特征而第一和第二音频试样具备相对播放速度的特征,或在线性延长的情况中为相对音调的特征。
13.如权利要求第12项的方法,其特征是,各别变动的时间差值的比率既可以是对数除法也可以是对数减法的演算。
14.如权利要求第12项的方法,其特征是,各局部特性为一频谱峰值并从一个对应频谱峰值的一个频率座标确定各频率值。
15.如权利要求第8项的方法,更包含以下步骤利用各别变动成份决定第一和第二音频试样的一相对音调,其特征是,各变动成份为从接近各指纹物件各别位置的一局部特性所决定的频率值;利用各别变动成份决定第一和第二音频试样的一相对速度,其特征是,各变动成份为从接近各指纹物件各别位置的一第二局部特性所决定的时间差值;以及检测相对播放速度的相对音调和倒数实质上是否相异,在这情况下,第一和第二音频试样间的关系具备非线性的特征。
16.如权利要求第1项的方法,其特征是,R为一从相对值条状图的峰值所决定的相对播放速度值,进一步包含以下步骤对于清单中的各对匹配指纹物件,决定一所补偿相对时间偏置值,t-R*t′,其特征是,t和t′为有关第一和第二指纹物件的时间位置;产生所补偿相对时间偏置值的第二直方图;以及在所补偿相对时间偏置值的第二直方图中搜寻一统计上的明显峰值,该峰值更具备第一和第二音频试样间关系的特征。
17.一种用以实施如权利要求中任一先前项的方法的电脑程式产品。
18.一种用以实施如权利要求1至16项中任一项方法的电脑系统,该电脑系统包含一客户终端用以将第一与第二音频试样间关系特征所需的资讯传送至一表现该特征的伺服器。
全文摘要
本发明提供一种用以快速并准确决定两个音频试样是否匹配、以及是否免于如为播放速度变动的各种变换的发明技术。两音频试样的间的关系的特征是首先匹配得自各别试样的某些指纹物件。对每个音频试样(210)产生一组(230)指纹物件(231、232),它们中的每一个发生在一特别位置(242)上。各位置(242)的决定依各音频试样(210)的内容而定,而且各指纹物件(232)在或接近各别特殊位置(242)处具备一或更多局部特性(222)。接着为每对匹配指纹物件决定相对值。然后产生一相对值的直方图。如发现一统计上的明显峰值,则两音频试样具备实质上匹配的特征。
文档编号G10L15/20GK1647160SQ03808938
公开日2005年7月27日 申请日期2003年4月18日 优先权日2002年4月25日
发明者A·礼俊·王, 丹尼尔·库伯特 申请人:莎琛娱乐有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1