一种自动录音设备源识别的方法和系统的制作方法

文档序号：2835963阅读：295来源：国知局

专利名称：一种自动录音设备源识别的方法和系统的制作方法
技术领域：
本发明涉及智能语音信号处理、模式识别与人工智能技术领域，特别是涉及一种自动录音设备源识别的方法和系统。
背景技术：
随着计算机技术的不断发展，功能强大的数字多媒体编辑软件使得修改编辑数字音频、图像和视频数据变得越来越容易。尽管一般人对数字多媒体的修改和编辑只是为了增强其表现效果，但也不乏某些人出于各种目的，故意甚至恶意地传播一些经过精心篡改伪造的多媒体数据。篡改的多媒体数据一旦被大量地用于正式媒体、科学发现、保险和法庭证物等，无疑将会对社会、政治和军事等各个方面产生严重影响。因此，需要一种客观、公正、能够澄清事实真相的多媒体验证技术，而数字多媒体取证技术正是为这一目的而提出的。设备源识别是数字多媒体取证技术中非常重要的组成部分。设备源识别可对多媒体的来源、真实性和可靠性进行验证。现有的设备源识别技术主要集中在数字图像的设备源识别领域，例如相机、打印机和扫描仪等的源识别已经取得很多重要的成果。对录音设备源的识别研究却非常少，然而录音设备源识别却是数字多媒体取证技术中非常重要的部分。录音设备源识别的目标是直接由已获取的语音信号找到其中所隐含的录音设备信息，从而进行录音设备源的识别，这种技术属于音频盲取证技术。大多数情况下，不可能在产生数字音频的同时就在数字音频中嵌入水印等隐秘信息，因此盲录音设备源取证更符合实际情况，并具有更好的实用价值。录音设备源识别有多个方面的应用，例如司法取证方面，录音设备源识别可以验证数字音频证据来源的可靠性和真实性；知识产权保护方面，录音设备源识别可以协助打击盗版保护知识产权；录音设备源识别也可以验证数字音频的真实性，如果一段音频中包含多个录音设备的信息或者所包含的录音设备信息出现不连续性，那么说明这段音频是经过后期加工和编辑，并不是真实的音频信号；说话人识别和语音识别技术中一个非常重要的问题就是训练和识别时的信道不匹配问题，录音设备源识别可以用来检测训练和识别时的信道设备信息，建立不同录音设备之间的映射函数，进而可以进行设备参数的自适应以提高最后的识别率。录音设备源识别包含几个不同的层面录音设备类型的识别、录音设备品牌的识别、录音设备型号以及录音设备个体的识别，其中录音设备类型可以是手机、录音笔、PDA、mp3和mp4等，录音设备个体指某一台特定录音设备。在数字录音设备源识别这个领域，C. Kraetzer在其论文《Digital Audio Forensics :A First Practical Evaluation on Microphone and Environment Classification》中提出了一种从语音中识别四种麦克风设备的方法，他把短时特征和美尔倒谱拼接到一起形成了特征矢量，并使用了朴素贝叶斯分类器。对于四种麦克风设备，该方法的识别率在60% -75%之间。这样的方法是有效的，但在某些方面也存在着不足。 C. Kraetzer的方法中使用的特征是直接从输入语音中提取，而直接输入的语音中往往包含了扩音器信息、文本信息、录音设备信息以及背景噪声。在这样的情况下，用所提取的特征代表录音设备信息显得比较模糊。而且，朴素贝叶斯分类器不能用于数量较多的录音设备的识别。

发明内容
本发明的目的在与克服现有技术的缺点和不足，利用语音信号中录音设备的“机器指纹”进行录音设备源识别，提供了一种专门针对录音设备的源识别的方法。本发明的另一目的还在于提供实现上述方法的系统。本发明的通过如下技术方案实现一种自动录音设备源识别方法，其步骤如下(1)提取语音信号中录音设备的特征；(2)利用GMM-UBM建立录音设备的统计模型；(3)利用归一化的似然度作为最终得分进行分类判决。所述步骤(1)的录音设备特征的提取步骤如下(11)提取语音信号中的静音段；(12)去除所提取静音段的背景噪声；(13)将步骤(12)处理后的信号进行预处理；(14)将步骤(13)处理后的信号提取Mel倒谱系数录音设备的特征。所述步骤O)的录音设备统计模型的建立步骤如下(21)用多种录音设备的数据训练设备通用背景模型DEV-UBM，作为录音设备的反对模型；DEV代表录音设备(device)，UBM代表通用背景模型(universal background model)；(22)利用特定录音设备的语音数据将步骤中提取的DEV-UBM采用 MAP (Maximum a posteriori，最大后验概率)算法进行自适应，从而获得特定录音设备的统计模型DEV-GMM (GMM代表混合高斯模型Gaussian mixture model)；所述步骤(3)中归一化似然度得分的计算方法如下
Λ IrIr A(X) =-^logPixi Iλ )-~γ\ο%p(xt /λ- ) 1 /=1 1 /=1 I Tι T=-Xlog Pixi/^J--Xlog Pixi / 又dev_ubm )
/=1 t=l其中，T为语音样本的帧数，λ d表示特定录音设备的统计模型，&表示λ d的反对模型(本发明采用录音设备通用背景模型λ dev_ubffl来描述反对模型& )，P (Χ/ λ d)表示X是来自于录音设备D的特征矢量空间的条件概率，表示X来自于其它候选录音设备 (除D以外)的条件概率。所述步骤(11)中若提取的静音数据不足3秒，则将该静音数据与相邻的拼接起来构成时长大于3秒的静音样本；提取静音时帧长取20ms，帧移取10ms。所述步骤(12)采用信号级的滤波方法谱减法去除信号中的背景噪声，保留其中的录音设备信息。所述步骤(1 中的预处理包括预加重、分帧、加窗。
所述步骤中的通用背景模型DEV-UBM是用两组分布平衡的音频数据子集分别训练两个子通用背景模型SUB-UBM，然后将这两个子通用背景模型合并而成，使所获得的通用背景模型不偏向于某一类设备，同时也可降低计算复杂度，减少训练DEV-UBM时所用时间。实现上述方法的系统，包括——静音提取模块(100)，用于提取训练和识别过程中语音数据中的静音段；——预处理模块000)，用于去除静音中的背景噪声，保留其中的设备信道信息，并且对去噪处理后的语音信号进行预加重、分帧、加窗处理；——录音设备特征提取模块(300)，用于提取训练和识别过程中语音数据的录音设备特征；——设备通用背景模型DEV-UBM模块(400)，用于构建录音设备的通用背景模型，作为反对设备模型；—MAP自适应模块(500)，用于自适应调节设备通用背景模型DEV-UBM中的参数，以获得特定录音设备的统计模型；—录音设备模型DEV-GMM模块(600)，用于构建特定录音设备的统计模型；——识别判决模块(700)，通过归一化的似然度得分判断待识别语音是来自于哪
一个录音设备。本发明的基本原理是进行录音设备源识别的前提假设是，数字音频在产生的同时，录音设备也会在数字音频中留下设备的“机器指纹”。对于这个前提假设，一个非常重要的支持是在说话人识别领域，由于录音设备产生的这些设备信道信息对最后的识别结果产生非常大的影响，因此现在大部分的说话人识别技术都想方设法来去除这方面的影响。这些“机器指纹”可以采用现代的统计学方法和模式识别技术进行提取和识别。另外一方面，语音中包含了丰富的信息，例如说话人信息、文本信息、设备信息、背景噪声等，这些文本信息、说话人信息和背景噪声等同时也会为设备信息的提取和识别造成影响，因此避免这些因素对录音设备源识别的影响是一个难题。对于一段语音，不同的传感器和信号采集电路都会引入自身不同的设备信道信息 (麦克风、抖动电路、前置放大器、输入滤波器、A\D、取样保持电路等都会引入相应的设备电路噪声)。由于不同录音设备中所采用传感器和信号采集电路的差异，不同的录音设备中包含有不同的设备噪声，将这些设备噪声作为录音设备在语音信号中留下的“机器指纹”，那么提取了这种“机器指纹”就可以进行录音设备源识别。然而，在语音中如果不做特殊处理，设备信息很容易被说话人信息和文本信息所掩盖，要单独从语音中提取出设备信道信息是非常困难的，目前还没有成熟的技术能够做到这一点。静音中包含了完整的设备信息，并且不受说话人信息和文本信息的影响，所以本发明利用静音段来提取录音设备特征，然后建立录音设备的统计模型来进行设备的分类识别。本发明具有以下的优点和有益效果(1)本发明能有效检测多个录音设备的类型。(2)本发明的核心方法复杂度低，效率高，易于在可移动设备上实现，也可在PC机上建立相应的系统平台。(3)本发明为司法取证、新闻报道的真实性等的验证提供了有力的科学方法。
5
(4)本发明填补了国内在录音设备源识别方面的空缺，具有独创性。(5)本发明可用于知识产权的保护，有力地打击盗版。(6)本发明亦可用来验证数字音频的真实性，如果一段音频中包含多个录音设备的信息或者所包含的录音设备信息出现不连续性，那么说明这段音频是经过后期加工和编辑，并不是真实的音频信号。(7)说话人识别和语音识别技术中一个非常重要的问题就是训练和识别时的信道不匹配问题，录音设备源识别可以用来检测训练和识别时的信道设备信息，建立不同录音设备之间的映射函数，进而可以进行设备参数的自适应以提高最后的识别率。

图1是本发明的系统结构图。图2是录音设备通用背景模型DEV-UBM的训练过程。图3是不同高斯情况下九种录音设备的识别结果。图4是不同训练样本时长对9种录音设备源识别平均识别率。
具体实施例方式下面结合实施例及附图对本发明作进一步的详细描述，但本发明的实施方式不限于此。实施本发明的识别设备可以是嵌入式系统设备平台，也可采用C语言编制各类语音信号处理程序。如图1所示，为本发明一种自动录音设备源识别系统的流程图，本发明的自动录音设备源识别方法和系统可在数字继承芯片中按以下步骤实现步骤(1)，提取训练和识别过程中语音数字的静音段静音中包含了完整的录音设备信息，并且不受说话人信息和文本信息的影响，因此本发明利用静音来提取录音设备特征。静音的提取方法采用双门限法，若提取的静音数据不足3秒，则将该静音数据与相邻的拼接起来构成时长大于3秒的静音样本。提取静音时帧长取20ms，帧移取10ms。检测静音时帧数连续少于6帧的音频段，认为是语音段，不将其归为静音段。步骤O)，对上述步骤(1)中提取的静音信号进行去噪滤波处理。静音中除了包含设备信道信息，还带有环境噪声，由于静音幅度小，其中的设备信息很容易被环境噪声干扰，因此需要对提取的静音进行去噪处理。这里需要去除静音中的背景噪声，而保留其中的设备信道信息，因此本发明采用信号级的滤波方法谱减法去噪。步骤(3)，通过上述步骤( 中处理过的静音信号来提取录音设备特征。可分为以下步骤步骤S31，对输入语音信号进行预处理预处理包括对语音信号进行预加重，分帧，加窗等处理。预加重是对语音信号进行高通滤波，滤波器的传输函数为H(Z) = 1-az-1, 其中a = 0.975。对语音信号的分帧，其中帧长为512个点，帧移为256个点。对语音信号所加的窗为汉明窗，其中汉明窗的函数为
权利要求
1.一种自动录音设备源识别方法，其特征在于，该方法步骤如下(1)提取语音信号中录音设备的特征；(2)利用GMM-UBM建立录音设备的统计模型；(3)利用归一化的似然度作为最终得分进行分类判决。
2.根据权利要求1所述的一种自动录音设备源识别方法，其特征在于，所述步骤(1)中的录音设备特征的提取步骤如下(11)提取语音信号中的静音段；(12)去除所提取静音段的背景噪声；(13)将步骤(12)处理后的信号进行预处理；(14)将步骤(13)处理后的信号提取Mel倒谱系数录音设备的特征。
3.根据权利要求1所述的一种自动录音设备源识别方法，其特征在于，所述步骤(2)的录音设备统计模型的建立步骤如下(21)用多种录音设备的数据训练设备通用背景模型DEV-UBM，作为录音设备的反对模型；(22)利用特定录音设备的语音数据将步骤(21)中提取的DEV-UBM采用MAP算法进行自适应，获得特定录音设备的统计模型DEV-GMM。
4.根据权利要求2所述的一种自动录音设备源识别方法，其特征在于，所述步骤(11) 中的静音数据若小于3秒，则将该静音数据与相邻的拼接起来构成时长大于3秒的静音样本；提取静音时帧长取20ms，帧移取10ms。
5.根据权利要求2所述的一种自动录音设备源识别方法，其特征在于，所述步骤(12) 采用信号级的滤波方法谱减法去除信号中的背景噪声，保留其中的录音设备信息。
6.根据权利要求2所述的一种自动录音设备源识别方法，其特征在于，所述步骤(13) 中的预处理包括预加重、分帧、加窗。
7.根据权利要求3所述的一种自动录音设备源识别方法，其特征在于，所述步骤(21) 中的通用背景模型DEV-UBM是用两组分布平衡的音频数据子集分别训练两个子通用背景模型SUB-UBM，然后将这两个子通用背景模型合并而成。
8.一种自动录音设备源识别系统，其特征在于包括——静音提取模块(100)，用于提取训练和识别过程中语音数据中的静音段； ——预处理模块(200)，用于去除静音中的背景噪声，保留其中的设备信道信息，并且对去噪处理后的语音信号进行预加重、分帧、加窗处理；——录音设备特征提取模块(300)，用于提取训练和识别过程中语音数据的录音设备特征；——设备通用背景模型DEV-UBM模块(400)，用于构建录音设备的通用背景模型，作为反对设备模型；——MAP自适应模块(500)，用于自适应调节设备通用背景模型DEV-UBM中的参数，以获得特定录音设备的统计模型；——录音设备模型DEV-GMM模块(600)，用于构建特定录音设备的统计模型； ——识别判决模块(700)，通过归一化的似然度得分判断待识别语音是来自于哪一个录音设备。
全文摘要
本发明涉及智能语音信号处理、模式识别与人工智能技术领域，特别是涉及一种自动录音设备源识别的方法和系统。该方法步骤如下a.提取语音信号中录音设备的特征；b.利用GMM-UBM建立录音设备的统计模型；c.利用归一化的似然度作为最终得分进行分类判决。不同的录音设备中包含有不同的设备噪声，本发明利用静音段来提取录音设备特征，然后建立录音设备的统计模型来进行设备的分类识别。本发明实施例中的技术方案充分表明本发明所提取的特征维数低，计算复杂度低，错误识别率低。
文档编号G10L15/02GK102394062SQ20111033052
公开日2012年3月28日申请日期2011年10月26日优先权日2011年10月26日
发明者沈秉乾, 王志锋, 罗海宇, 贺前华申请人:华南理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贺前华;王志锋;罗海宇;沈秉乾
技术所有人：华南理工大学
我是此专利的发明人

上一篇：一种基于信道模式噪声的录音回放攻击检测方法和系统的制作方法
上一篇：一种压电式声响器的制作方法