一种基于相似度的音频拷贝检测的方法

文档序号：2819006阅读：506来源：国知局

专利名称：一种基于相似度的音频拷贝检测的方法
技术领域：
本发明属于音频信息处理技术领域，具体涉及一种音频拷贝检测的方法。
背景技术：
音频压缩技术的进步以及大容量存储器的出现使得互联网上出现了海量的音频信息，这些音频信息被广泛应用于教育、娱乐、新闻、广告等多个领域，成为人们日常生活的重要组成部分。但随之而来的是一系列的问题由于互联网音频在制作、发布、播放、传输等环节非常灵活和开放，导致互联网非法音频、盗版音频内容日益增多，严重损害了内容提供商和有关各方的利益，阻碍了网络音频产业的健康有序发展。同时，互联网音频也已经成为国内外各种敌对势力非法音频、反动音频渗透的重要渠道，严重危机了国家文化甚至社会安全。由于互联网音频数据量巨大，使得快速检测非法音频和盗版音频非常困难，加之互联网音频可能经过各种编辑处理产生多个版本的变种，使得其检测问题更加复杂。目前针对音频信息检索的许多研究中，大部分是基于内容的音频检索，主要采用对音频信息建立索引和分类。比如，在一个音频检索任务中，大多数的工作是基于音频的高层信息比如音频内容分类(例如语音片断和非语音片断的索引)、经过验证的语音、或者转录的音乐片断。在这种检索中，需要经过特征提取、音频分割、音频识别分类和索引检索这些步骤。另外除了声学特征级，还需要关注语义级的音频处理。需要处理的特征和检索的方法步骤比较复杂。我们关注基于相似度的搜索，它是关于对未标注的音频片断的仅仅基于信号相似度的搜索。对于基于相似度的音频搜索的一个传统的方法是基于数据本身的相关性或者基于从数据中抽取出的特征向量的信号检测技术。但是，使用这个技术，由于考虑到长时间(比如长达几天)的待检音频信号或者许多参考音频信号的计算量，搜索将会变得不切实际。当然，人们可以通过粗糙的匹配来改进速度，但这样同时也会不可避免地减少搜索的正确性与稳定性。参考文献K. Kashino et al. , "A Quick Search Method for Audio and Video Signals Based on Histogram Pruning,，，In IEEE Trans, on Multimedia, Vol. 5, No. 3, pp. 348-357， Sep. 2003J. K. ffu, A. D. Narasimhalu, B. M. Mehtre, C. P. Lam, and Y. J. Gao,"CORE: A content-based retrieval engine for multimedia informationsystems," ACM Multimedia Syst. , vol. 3, no. 1， pp. 25 - 41, 1995.M. Flickner, H. Sawhney, W. Niblack, J. Ashley, Q. Huang, B. Dom, M. Yonkani, J. Hafner, D. Lee, D. Petkovic , D. Stede, and P. Yanker,"Queryby image and video content: The QBIC system, " IEEE Computer, vol. 28, no. 9, pp. 23 - 32, 1995.H. D. ffactlar, “ Informedia—Search and summarization in thevideomedium,，，pre sen ted at the Imagina 2000, 2000.R. Brunelli and 0. Mich, “Image retrieval by examples, ”IEEE Trans. Multimedia, vol. 2，pp. 164-171，Sept. 2000.S. Pfeifferj S. Fischer, andW. Effelsbergj “Automatic audio content anal-ysis, “ in Proc. ACM Multimedia, 1996， pp. 21 - 30.E. Wold, T. Blum, D. Keislarj and J. Wheat on，“Content-based classifi-cation, search, and retrieval of audio,，，IEEE Multimedia, vol. 3， no. 3, pp. 27 - 36，1996.S. J. Young, M. G. Brown, J. T. Footej G. J. F. Jones, and K. S. Jones, “Acoustic indexing for multimedia retrieval and browsing, ” in Proc. ICASSP' 97, vol. 1，1997，pp. 199 - 202.J. Foote， “An overviewof audio information retrieval, yyMultimediaSyst.，vol. 7， no. 1， pp. 2 - 11, 1999.T. Zhang and J. C. Kuoj "Hierarchical system for content-based audioclassification and retrieval, ” Proc. SPIEy vol. 3527，pp. 398 - 409，1998.J. C. Hancock and P. A. Wintzj Signal Detection Theory. New
York: McGraw-Hi11, 1966.B. Kedem， “Spectral analysis and discrimination by zero-crossings, ”Proc. IEEE，vol. 74，pp. 1477 - 1493，Nov. 1986.J. Saunders, “Real-time discrimination of broadcast speech/music, ” inProc. ICASSP，96, vol. 2，1996，pp. 993 - 996.B. S. Atal and M. R. Schroederj "Predictive coding of speech signals, ”Proc. IEEE Conf. Communication and Processing, pp. 360 - 361，1967.L R. Rabiner and B. H. Juangj Fundamentals of Speech Recogni-tion. Englewood Cliffs, NJ: Prentice-Hall, 1993.J. Footej “Content-based retrieval of music and audio,，，Proc. SPIEy vol. 3229，pp. 138 - 147，1997.B. Logan, "Mel frequency cepstral coefficients for music modeling，，，presented at the Int. Symp. Music Information Retrieval, 2000.R. Mohan: “Video Sequence Matching，，，Proc. Of ICASSP98, Vol. 6，pp. 3697-3700, May. 1998.N. Katayama and S. Satoh : “ The SR-Tree : An In-dex Structure for High-Dimensional Nearest NeighborQueries^j Proc· of the 1997 ACM SIGMOD, Vol. 26，pp. 369-380，1997.K. Kashinoj G. Smith, H. Murase: “Time-Series Ac-tive Search for Quick Retrieval of Audio and Video，，，作叱.of ICASSP99, Vol. 6，pp. 2993—2996， March. 1999.V. V. Vinod and H. Murase: “Focused Color Intersec-tion with Effective Searching for Object Extraction" ,Pattern Recognition, Vol. 30， No.10，1997. M. Sugiyama: "Fast Segment Search Algorithms", Technical Report of IEICE, SP98-141, pp. 39—45，Feb. 1999 (in Japanese).。

发明内容
本发明目的在于提出一种快速有效、保证一定准确度的音频拷贝检测方法。本发明提出的音频拷贝检测方法，是一种基于相似度的新的搜索算法，该算法不仅提高了搜索速度同时也保证了足够的准确性。加速的关键在于使用一种有效的利用特征直方图的减枝算法。这种减枝算法也可以称为动态搜索的直方图快速搜索方法。本发明提出的基于相似度的音频拷贝检测(Similarity-based Copy Detection, SBCD)方法，是利用音频内容本身的特征，提取出其特有的内容身份信息，称为“音频指纹” (Audio Fingerprint)，并利用此音频指纹来检测某待检音频数据流(从互联网、音视频广播节目等源头截取，通常较长)中是否包含某参考音频片段(已知的音频数据段，通常较短)的同源拷贝，进而判断该待检音频的合法性。当对参考音频片段和待检音频数据流进行拷贝检测时，首先按照直方图生成算法分别计算两者的对应的直方图，然后比较它们的直方图，计算二者的相似度以确定检测结果。一个有效的拷贝检测系统不仅应该能够正确判定出待检音频数据流中是否包含参考音频片段的同源拷贝，而且应该能在一定精度上定位其出现的位置。本发明方法的步骤是
1、首先建立一个关于参考音频信号的数据库，在入库之前对这些信号做分割处理，使之等长；所述数据库中的参考音频信号为非法或不良信息；
2、对于音频信号(包括一个音频文件或者一段音频流)，根据已建好的参考音频数据库，进行拷贝检测，即依次进行特征提取、直方图生成、相似度计算；再用并行算法判断输入音频信号是否有包含数据库中参考音频的拷贝，从而得出输出结果，即该音频是否包含非法或不良信息。本发明中，所述特征提取，是从参考信号(检索目标信号)和输入信号(检索源数据)提取特征向量，得到参考特征向量和输入特征向量序列。本发明中，所述直方图生成，分两个步骤，一个是LBG聚类算法，另一个是直方图的生成。直方图的生成利用线下聚类得到的码本，码本的生成是通过LBG聚类算法得到。用直方窗从参考特征向量和输入特征向量序列中分别取出部分特征向量，生成参考直方图和输入直方图。本发明中，所述用并行算法判断，若相似度超过阈值，则认为两者相似，但相似的位置需要对当前输入信号上的位置做些调整；若相似度不超过阈值，则仍需移动一定步长继续匹配；同时进行并行计算，并行计算多个参考信号；在一次遍历过程中判断该段音频是否包含这几个参考信号的拷贝。下面进一步介绍各步骤的具体内容。1、输入
系统的音频采集设备是可连接PC的普通麦克风，通过麦克风来进行音频输入。2、特征提取在输入待检测的音频信号后，分别对输入的语音信号及数据库中原先存储的参考信号进行特征计算，分别计算出各自的特征，本发明采用一种特征为=Mel频率倒谱系数(Mel Frequency CepstrumCoeff ients, MFCC)，简记为MFCC。Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征，MFCC已经广泛地应用在语音识别领域。由于Mel频率与Hz 频率之间非线性的对应关系，使得MFCC随着频率的提高，其计算精度随之下降。因此，在应用中常常只使用低频MFCC，而丢弃中高频MFCC。
MFCC的提取过程如图3所示。具体计算过程如下
1)将信号进行分帧，预加重和加汉明明窗处理，然后进行傅里叶变换，得到其频谱；
2)求出频谱平方，即能量谱，并用M个Mel带通滤波器进行滤波；由于每一个频带中分量的作用在人耳中是叠加的，因此将每个滤波器频带内的能量进行叠加，这时第k个滤波
器输出功率谱
权利要求
1.一种基于相似度的音频拷贝检测方法，其特征在于具体步骤如下1)首先建立一个关于参考音频信号的数据库，在入库之前对这些信号做分割处理，使之等长；所述数据库中的参考音频信号为非法或不良信息；2)对于音频信号，包括一个音频文件或者一段音频流，根据已建好的参考音频数据库，进行拷贝检测，即依次进行特征提取、直方图生成、相似度计算；再用并行算法判断输入音频信号是否有包含数据库中参考音频的拷贝，从而得出输出结果，即该音频是否包含非法或不良信息；其中所述特征提取，是从参考信号和输入信号提取特征向量，得到参考特征向量和输入特征向量序列；所述直方图生成，分两个步骤，一是LBG聚类算法，二是直方图的生成；直方图的生成利用线下聚类得到的码本，码本的生成是通过LBG聚类算法得到，用直方窗从参考特征向量和输入特征向量序列中分别取出部分特征向量，生成参考直方图和输入直方图；所述用并行算法判断，若相似度超过阈值，则认为两者相似，相似的位置需要对当前输入信号上的位置做些调整；若相似度不超过阈值，则仍需移动一定步长继续匹配；同时进行并行计算，并行计算多个参考信号；在一次遍历过程中判断该段音频是否包含这几个参考信号的拷贝。
2.根据权利要求1所述的基于相似度的音频拷贝检测方法，其特征在于所述特征为 Mel频率倒谱系数，简记为MFCC，MFCC提取的计算过程如下1)将信号进行分帧，预加重和加汉明明窗处理，然后进行傅里叶变换，得到其频谱；2)求出频谱平方，即能量谱，并用M个Mel带通滤波器进行滤波；由于每一个频带中分量的作用在人耳中是叠加的，因此将每个滤波器频带内的能量进行叠加，这时第k个滤波器输出功率谱
3.根据权利要求2所述的基于相似度的音频拷贝检测方法，其特征在于所述聚类算法即LBG算法的具体步骤为1)给定训练序列，训练序列是一个很长的音频特征向量序列，每个特征向量表示为空间上的一个点，即xm,l < m < M, M为特征向量的个数，设ε > 0，是一个很小的数2)令N= 1,并且
4.根据权利要求3所述的基于相似度的音频拷贝检测方法，其特征在于所述直方图生成及相似度计算算法如下使用LBG算法确定了特征向量的一个码本，在量化阶段，对于一个窗对应的特征向量来说，一个输入特征向量将被划入到距离到它最近的一个码本类中心codevector，统计每个码本类中特征向量的个数；这样，直方图h定义为
5.根据权利要求4所述的基于相似度的音频拷贝检测方法，其特征在于所述并行算法的步骤如下假设任意一个参考信号在某个查询上至多出现一次，没有或只有很小的噪音和扭曲；前提参考信号一样大小，大窗的尺寸与参考信号一样大；规定a)如果某步发现与参考信号相似，则剩下的步骤中将不再涉及这个信号的计算；b)假设某个参考信号与查询信号的某个地方相似度大于0,则认为这两个信号在这个地方附近相似；c)一次匹配之后，需移动一定步长继续匹配，步长计算公式为
全文摘要
本发明属于音频信息处理技术领域，具体为一种基于相似度的音频拷贝检测方法。本发明首先建立一个关于参考音频信号的数据库，在入库之前对这些信号做分割处理，使之等长；所述数据库中的参考音频信号为非法或不良信息；对于音频信号，根据已建好的参考音频数据库，进行拷贝检测，即依次进行特征提取、直方图生成、相似度计算；再用并行算法判断输入音频信号是否有包含数据库中参考音频的拷贝，从而得出输出结果，即该音频是否包含非法或不良信息；本发明方法可用于互联网不健康、暴力、反动语音的检测与过滤以及各种音频拷贝检测应用系统，阻止各种不良内容的蔓延。
文档编号G10L15/00GK102436806SQ20111029252
公开日2012年5月2日申请日期2011年9月29日优先权日2011年9月29日
发明者卜素亮, 肖星星申请人:复旦大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖星星;卜素亮
技术所有人：复旦大学
我是此专利的发明人

上一篇：一种建立语音转换模型的方法、语音转换的方法及系统的制作方法
上一篇：基于音频特征的歌曲智能识别方法