G.729a压缩语音流信息隐藏检测装置及检测方法

文档序号:2836143阅读:200来源:国知局
专利名称:G.729a压缩语音流信息隐藏检测装置及检测方法
技术领域
本发明涉及信息隐藏检测领域,尤其涉及ー种G.729A压缩语音流信息隐藏检测装置及检测方法。
背景技术
近年来,随着带宽的持续增长以及网络融合趋势的增强,VoIP逐渐成为因特网中 ー个非常流行的流媒体通信服务,在全球范围内得到广泛应用,彻底变革了语音通信市场格局,它所产生的网络流量在持续增长,这使VoIP非常适合用于在IP网络中进行隐蔽通信。G. 729标准是ITU定义的VoIP语音编码标准,其简化版本G. 729A在VoIP得到广泛应用。这使G. 729A压缩语音流成为ー种潜在的极具威胁的信息隐藏载体,利用它进行隐蔽通信将对国家通信监管形成巨大威胁,研究基于该载体的信息隐藏检测方法很有必要。信息隐藏检测(亦称隐写检測)就是判断所观察到的载体数据中是否存在隐藏信息。当前在语音中进行信息隐藏的方法可大致分为以下几类其ー是针对脉冲编码调制语音数据的最低有效位替换或匹配方法;其ニ是变换域方法,该方法先将载体数据变换到变换域,然后通过在变换域修改一些參数实现机密信息的嵌入,常用的变换包括倒谱变换,离散余弦变换、离散小波变换等;其三是基于量化索引调制(Quantization Index Modulation,QIM)的方法,适用于包含矢量量化的数字音频、图像和视频编码。这三类方法中基于QIM机制的信息隐藏方法具有运算简单速度快,可用于在压缩编码过程中进行信息隐藏等特点,特别适合用于在G. 729A语音流中进行信息隐藏,其对国家通信安全的威胁也诚大。

发明内容
针对上述问题,本发明的目的在于提供ー种G. 729Α压缩语音流信息隐藏检测装置及检测方法,应用于检测在基于G. 729Α标准的语音编码过程中使用经CNV (互相邻居节点)算法优化划分的分组矢量码本进行QIM信息隐藏的检测。为达到上述目的,本发明所述ー种G. 729Α压缩语音流信息隐藏检测装置,至少包括压缩语音流映射音素序列模块、音素序列特征提取模块组、分类器装置以及结果集成模块,其中;压缩语音流映射音素序列模块,接收外部输送来的压缩语音流,映射成音素序列并输出;音素序列特征提取模块組,分别提取音素序列的音素向量空间特征向量和音素状态转移一阶马尔科夫特征向量并输出;分类器装置,基于训练集对不同特征向量分别训练分类器,然后对于未知类别的样本使用训练获得分类器进行分类并输出分类结果;结果集成模块,对多个分类器的输出结果进行集成并输出作为最终的隐写检测结
ο
优选地,所述音素序列特征提取模块组包括PVSF特征提取模块和FOMF特征提取模块,其中;PVSF特征提取模块,提取音素序列的音素向量空间特征向量并输出;FOMF特征提取模块,提取音素状态转移一阶马尔科夫特征向量并输出。优选地,所述分类训练装置包括第一分类器、第二分类器及第三分类器,其中,第一分类器,基于音素向量空间特征向量进行训练得到分类器后利用该分类器对未知类别样本进行预测并输出结果给集成模块;第二分类器,基于音素向量空间特征向量和音素状态转移一阶马尔科夫特征向量的融合特征向量进行训练得到分类器后利用该分类器对未知类别样本进行预测并输出结果给集成模块;第三分类器,基于音素状态转移一阶马尔科夫特征向量进行训练得到分类器后利用该分类器对未知类别样本进行预测并输出结果给集成模块。为达到上述目的,本发明所述ー种G. 729A压缩语音流信息隐藏检测方法,包括以下步骤将压缩语音流映射成音素序列;分别提取音素序列的音素向量空间特征向量和音素状态转移一阶马尔科夫特征
向量;对多种特征向量分别训练分类器,并将多个分类器的分类结果基于多数投票机制进行集成作为最终的分类結果。优选地,所述将压缩语音流映射成音素序列的方法为设定语音所包含的音素为有限个,将待映射语音分割为各个音素对应的语音小片,取小片的时长为G. 729A的帧长。优选地,所述音素序列特征提取方法为使用音素发音时的声道參数作为音素的量化描述,使用G.729A中的LPC滤波器表征声道參数,LPC滤波器由量化索引确定,将每个音素对应到LPC滤波器量化索引的第一个域,使用该域形成序列的统计特征作为音素序列的统计特征;使用音素向量空间特征向量量化提取G. 729A语音所包含音素的分布不均衡性;使用音素状态转移一阶马尔科夫链对音素序列进行建摸,计算状态转移矩阵度量各音素分布的相关性,采用选维法对状态转移矩阵进行降維--取矩阵对角线元素作为表征音素相关性的向量。优选地,采用集成分类方法抽取训练集中的G. 729压缩语音流的音素向量空间特征向量以及降维后的一阶马尔科夫特征向量,分别以音素向量空间特征向量、一阶马尔科夫特征向量、以及两者的融合特征向量作为特征分别训练分类器。本发明的有益效果为本发明应用于检测在基于G. 729A标准的语音编码过程中使用经CNV (互相邻居节点)算法优化划分的分组矢量码本进行QIM信息隐藏的检测。使用该检测系统,针对大量数据的测试表明在G. 729A帧序列的帧数量超过640时(即语音流长度超过0. 64秒),系统可以获得超过93%的检测准确率。


图1是本发明实施例所述装置的结构示意图;图2是本发明基于音素的语音构成模型的示意图;图3是本发明使用CNV算法进行码本优化划分并基于优化划分码本进行QIM嵌入对G. 729A量化索引序列的扰动示例图;图4是本发明实施例所述检测方法的示意图;图5是本发明所述检测流程图。
具体实施例方式下面结合说明书附图对本发明做进ー步的描述。如图1所示,本发明实施例所述ー种G. 729A压缩语音流信息隐藏检测装置,至少包括压缩语音流映射音素序列模块、音素序列特征提取模块组、分类器装置以及结果集成模块,其中;压缩语音流映射音素序列模块,接收外部输送来的压缩语音流,映射成音素序列并输出;音素序列特征提取模块組,分别提取音素序列的音素向量空间特征向量和音素状态转移一阶马尔科夫特征向量并输出;分类器装置,基于训练集对不同特征向量分别训练分类器,然后对于未知类别的样本使用训练获得分类器进行分类并输出分类结果;结果集成模块,对多个分类器的输出结果进行集成并输出作为最终的隐写检测结
ο所述音素序列特征提取模块组包括PVSF特征提取模块和FOMF特征提取模块,其中;PVSF特征提取模块,提取音素序列的音素向量空间特征向量并输出;FOMF特征提取模块,提取音素状态转移一阶马尔科夫特征向量并输出。所述分类训练装置包括第一分类器、第二分类器及第三分类器,其中,第一分类器,基于音素向量空间特征向量进行训练得到分类器后利用该分类器对未知类别样本进行预测并输出结果给集成模块;第二分类器,基于音素向量空间特征向量和音素状态转移一阶马尔科夫特征向量的融合特征向量进行训练得到分类器后利用该分类器对未知类别样本进行预测并输出结果给集成模块;第三分类器,基于音素状态转移一阶马尔科夫特征向量进行训练得到分类器后利用该分类器对未知类别样本进行预测并输出结果给集成模块。人类发音的基本単位是音素,音素按大类可分为元音和辅音,每个类别又可分为多个子类。不同的音素一般对应不同的声道形态。音素也可称为音标是构成语言的基本单元,这些离散的基本単元根据一定的音素和文法规则或多或少的连缀成词语;词语按照一定的句法形式构成完整的语言系统。语言系统是存在某些统计规律的,例如,据统计英语中使用次数最多的字母是“e”,那么映射到语音上可以认为音素“e”的出现次数也最多;其次,英语中字母之间的组合排列方式是存在一定规律的如“ q”的后面大多数时候跟着“u”, 那么映射到语音上可以认为音素之间的组合排列也存在一定的规律。换句话说,一段语音中的各音素的出现是不均衡的,其次不同音素的出现存在相关性。进行基于QIM机制的信息隐藏将导致这些分布特性的改变,因此可利用待判定是否存在信息隐藏的G. 729A语音流样本的音素分布特性进行隐写检测。下面阐述该隐写检测方法。英文单词“shop”的发音即由噪声声源产生的音素“sh”、周期性声源产生的音素“O”以及冲击性声源产生的音素 “P”的发音构成。如附图2所示。在理想情形下一段语音可切分为多个与音素相对应的小片段,换句话说,可以将一段完整的语音视为由多个音素按一定的順序排列而成,本发明称之为基于音素的语音构成模型。如图4所示,ー种G. 729A压缩语音流隐写检测方法,其特征在干,包括以下步骤将压缩语音流映射成音素序列;分别提取音素序列的音素向量空间特征向量和音素状态转移一阶马尔科夫特征
向量;对多种特征向量分别训练分类器,并将多个分类器的分类结果基于多数投票机制进行集成作为最终的分类結果。所述将压缩语音流映射成音素序列的方法为设定语音所包含的音素为有限个, 将待映射语音分割为各个音素对应的语音小片,取小片的时长为G. 729A的帧长。具体实现原理为定义1音素P i为三元组(Pi,Si,t》,其中Pi为音标,Si为音标Pi的发音为具有一定时长的语音小片段,、为该语音小片的时长;P i为语音的基本组成单位,语言的音素集合P = { P P 2,. . .,P M_1; P M}包含有限个音素;一段时长为T的语音S可切分为按时序排列的N个语音小片集合S = {ち,ち,…,ちポち},其中分片fk= e [l,N],le [1, M]),称此时fk可映射到音素P1,用fkヰP1表示该映射关系,所有映射关系的集合为F。 基于音素的语音构成模型用三元组(P,S,F)描述。基于上述模型一段语音可切分为语音小片序列f” f2,. . .,fN_i,fN,并可将小片序列映射为音素序列P” P2,..., Pim,PN。语音中每个音素的持续时间是不等长的,例如浊音“O”可能持续50毫秒以上,浊爆破音“b”则可能仅持续10毫秒,而且随着发音人及语速的不同其持续时长更是千变万化。因此,音素Pi的时长、是很难事先确定的,这导致将一段语音进行基于音素的切分甚为困难。由于本发明建立模型的目的是分析G. 729A编码帧序列中是否存在QIM隐写,而G. 729A以10毫秒为单位对语音进行分帧并对每帧计算ー 次LPC系数(即估计一次声道发音參数),这意味着G. 729A认为在10毫秒的短时内声道的形态是稳定的;假设不同的声道形态对应不同音素发音,那么可以认为G. 729A中每帧对应ー个音素或者是ー个音素的一部分。根据对实际语音的统计,英语中音素的持续时长均值远大于10毫秒,这印证了上述结论的正确性。为此以10毫秒为界限,本发明将、不超过10毫秒的音素称为A类,反之为B类。对于A类音素其时长设为G.729A的帧长し对于B类音素设其时长、= nL(n^ 1),此时每个音素包含多个G. 729A帧,具体包含几个仍难于确定。本发明发现B类音素发音时的信号波形一般具有周期性特征,例如附图1中的音素“ο”包含了四个明显的周期,此时ー个周期的信号已可反映声道特征,因此对于B类音素在G. 729A中可视为对其声道參数进行了多次重复估计。鉴于此,本发明认为对于、 = nL(n^l)的B类音素,可分成η个帧分别进行LPC參数估计。综合上述分析,可将每个 G. 729Α帧与ー个音素对应(对于B类音素,可能连续几个帧都对应相同的音素),从这个角
7度出发可将每个帧映射为ー个音素,这样一段G. 729A压缩语音可视为ー个音素序列。音素序列的特征可用该段语音帧序列的特征来表示。所述音素序列特征提取方法为使用音素发音时的声道參数作为音素的量化描述,使用G.729A中的LPC滤波器表征声道參数,LPC滤波器由量化索引确定,将每个音素对应到LPC滤波器量化索引的第一个域,使用该域形成序列的统计特征作为音素序列的统计特征;使用音素向量空间特征向量量化提取G. 729A语音所包含音素的分布不均衡性;使用音素状态转移一阶马尔科夫链对音素序列进行建摸,计算状态转移矩阵度量各音素分布的相关性,采用选维法对状态转移矩阵进行降維--取矩阵对角线元素作为表征音素相关性的向量。具体实现原理为由于G. 729A对每ー帧计算一組LPC系数,上文的语音构成模型指出每个G. 729A 帧对应ー个音素,因此每组LPC系数将对应ー个音素假设为P (假设理想条件下同一音素对应的LPC系数是相同的如不同则认为是不同的音素)。再设对每帧的LPC系数进行矢量量化其量化结果设为C= (CljijC2jrC3jk)其中Clii e L15C2jj e L2,c3,ke L3,则音素Ρ与索引C 将形成一一对应关系,本发明用P^C表示这种关系。设某段语音包含N个帧,进行G. 729Α 编码将得到量化索引序列C1C2C3... CimCn,则对应的音素序列为PェP 2 P 3... P P Ν。由于量化结果C= (clji; C2, j, c3,k)共有1 X 32 X 32 = 131072种取值,小数据量很难反映其统计特性,这意味着必须在G. 729A帧序列的长度达到很大时才能有效地获得其统计特征。 显然,这不利于进行隐写检測。由于G. 729A采用分裂矢量量化,索引序列C1C2C3. . . CimCn实际上由三个子序列构成,即由ClaCli2Cu. . . C1
,N-Iv-I, N'し2,1C2,2し2,3· · · C2,N-1 し2,N 以及ら,lC3,2C3,
3· . . C3, ^1C3, N构成。因此根据P ^ C ,可得P ^ C1, , P ^ C21^P ^ Cxk ,即音素序列与三个子索引序列也形成一一对应关系,QIM隐写将使这些子序列的发生扰动(意味着音素序列发生扰动,其某些维度上的统计特性将发生改变)。在量化结果C所包含的三个域中,Cl, i 的重要性超过Cy和C3,k。这是因为C1,i是ー级矢量在计算10个LPC系数中都需要,而C2,j 和C3,k是ニ级矢量且仅分別用于计算前五个和后五个LPC系数。为此,为达到降维的目的, 作为ー种近似本发明取C1, i为表征音素P i的特征向量即Aむ、=^ = 0,1,2,....,127),降维后P i的仅有1 种取值。据此,可采用量化子序列CiaCli2Cu. . . Cl,N_lCl,N的统计特征作为首素序列P1P2P3... ドN-IドN 的统计特征。使用CNV算法进行码本划分并进行QIM嵌入会使量化索引序列发生较大扰动,附图3给出了一个该种扰动的示例。附图2统计了对于四种不同类别的发音人的一段语音 (该段语音时长为1秒包含100个G. 729A语音帧),嵌入机密信息后其索引序列CiaCli2C1, 3- - - C^99Claoo的变化情况;该图中四个子图中的横坐标为按时间排列的帧的序号,纵坐标为 c^d^ 100)的量化索引;从该图可以看出对于英文男女生及中文男女生,所考察的索引序列在嵌入前后的变化是显著的。根据上文分析音素序列中将存在某些统计特性,那么根据ρ G Cu可知量化索引序列也将存在这种统计特性。隐写操作会使量化索引序列发生扰动,势必使某些统计特征发生改变。显然如果能够对该种改变进行有效的量化分析,则可能据此进行隐写检測。为对该种变化进行量化分析,必须建立音素序列的特征统计模型。如上文所述,ー个音素序列中各音素的分布存在不均衡性以及相关性。为量化分折音素分布的不均衡性,根据本发明提出的基于音素的语音构成模型,同时參考文档向量空间模型的建模方法,建立了音素向量空间模型(Phoneme Vector Space Model, PVSM)作为G.729A音素序列的统计模型。该模型描述如下定义2音素Pi为语音的基本组成单位,语言L的音素集合P= (P1, P2,..., Psh,pM},称Pi*音素词汇(Phoneme Word),P为音素词典,P为M维向量所对应的高维向量空间称为音素向量空间。定义3语言L 一段时长为T的语音S可切分为按时序排列的N个语音小片,每个小片fi对应音素词典ρ中的一个词汇P i,分片后语音分片序列为S* = f2,. . .,fN_i,fN, 称上述过程为基于音素的语音分片。定义4对每个语音分片序列为S* = f1; f2,. . .,fN_i,fN,可用音素向量空间中的ー个点(Pl,Wl,P2,w2,...,PM,%)表示,其中Pi(PiGP)为第i个小片fi对应的音素码字, Wi为Pi的权重。称上述定义构成的语音片段量化表示方法为音素向量空间模型(PVSM), 、P !,W1, P 2, w2, ... , PM,WMノ 为 S 的首it 冋M空间特征(Phoneme Vector Space Feature, PVSF)向量。对于G. 729A压缩语音流,根据上文分析无须进行分帧(每个G. 729A帧直接对应 ー个音素),且根据关系Aむ、可知其音素字典ρ = {Clj0, cia, ... , cia26, Cl,127}。根据这些假设,可将一段G. 729A语音采用音素向量空间特征向量(C1,0, wlj0, Cla, Wia, ... , Cljl26, Wia27)加以表示其维数为1 維,Cl,i权重巧バ取らバ的在量化序列中的归ー化出现频率即 Wl, i = du/N,其中N为该段语音所包含的G. 729A帧数量,(I1,^ C1, i在量化序列中出现的次数。但是,音素向量空间特征(PVSF)仅反映了不同音素在语音中分布的不均衡特性, 并不能反映音素分布的相关性。为量化分析分析相关性,本发明采用马尔可夫链对音素序列进行建摸,将每个音素视为马尔可夫链上的一个状态(称为音素状态),以此可用状态转移概率对音素间的组合依赖关系进行量化分析。对于一段语音对应的音素序列P” P2,..., PN-i,Pn,若假设每个音素的出现仅和前ー个音素有关,则可将该音素序列视为ー 个音素状态转移一阶马尔科夫过程,类推可将该音素序列视为ニ阶或更高阶的马尔可夫过程。根据语言学的统计规律,一般某个字母的出现仅和其前ー个字母有较大关联,因此类推认为某个音素的出现也仅与其前ー个音素存在较大关联,鉴于此本发明采用音素状态转移一阶马尔科夫过程对音素序列进行建摸。假设P i是音素随机变量在第i个时刻的取值, P i+1是第i+Ι个时刻的取值,根据A ^cu =^ = 0,1,2,....,127),可用公式2所示的条件概率表示一阶马尔科夫链各状Praj0 = Pr (P i+1 = a/Pi = β) (a , β e
) (2)态间的转移概率。在实际计算时直接计算条件概率较为困难,一般将其转化为联合概率进行计算,即根据条件概率公式将公式2转化为公式3进行各音素间相关性的计算。 根据公式3= ^%=もユ=ガ)权/^
)(3)对于任一音素序列,可获得ー个U8XU8维的状态转移矩阵,将该矩阵称为音素序列的音素状态转移一阶马尔科夫特征。显然,该特征量化了相邻音素出现的相关性,但其维度太高难于应用,因此必须对其进行降維。常用的降维方法有奇异值分解、主成分分析以及选维方法等。本发明采用选维方法只选择转移概率矩阵中主对角线上的元素作为特征量,这样可将音素状态转移一阶马尔科夫特征降为ー个1 维的向量,称该向量为G729A帧序列的一阶马尔科夫特征(First Order Markov Feature, FOMF)向量,用于量化音素分布的相关性特征。分类训练方法为抽取训练集中的G. 729压缩语音流的音素向量空间特征向量以及降维后的一阶马尔科夫特征向量,分别以音素向量空间特征向量、一阶马尔科夫特征向量、以及两者的融合特征向量作为特征分别训练分类器。具体实现原理为假设有未知G. 729A压缩语音帧序列S,本发明隐写检测的目标是判定S是否存在 QIM隐写,其判别结果只有“是”(本发明称为stego类)和“否”(本发明称为cover类) 两类。因此隐写检测过程实质是分类过程,即对于未知类别的样本S将其分到cover类或 stego类。对于分类问题,基于机器学习的分类方法是当前主流,为此本发明也采用这种方法进行未知样本的类别判定。本发明对于未知样本的类别判定过程可分为两个步骤首先提取未知类别的G. 729A帧序列的特征获得其向量化特征表示,其后利用利用所获得帧序列向量特征设计合适的语义分类器实现从帧序列低层特征到高层语义类别的映射,其中语义分类器一般采用有监督学习的方法获得即通过使用某些已标注类别的样本进行训练获得分类器。分类器的训练和预测步骤如下步骤1 获取尽可能多的cover类别G. 729A帧序列,并使用QIM嵌入方法(分组码本使用CNV算法进行优化划分)进行隐写以获得cover类别中每个样本对应的stego样本,并做好标注;步骤2 抽取上一歩骤所获得的两类样本的PVSF/F0MF特征,形成特征向量,标记每个向量的类别;步骤3 训练分类器实用上一步骤获得已标记类别的特征向量集合训练分类器, 获得隐写判别分类器;步骤4 使用分类器对未知类别样本进行隐写判定对于未知类别的G. 729A帧序列,首先抽取其PVSF/F0MF特征,形成特征向量,将该特征向量输入作为上一歩骤训练所得分类器的输入,分类器将输出分类結果。根据所述的隐写检测方法,本发明面向G.729A压缩语音流QIM隐写的检测系统的流程如附图5所示。系统的输入为待检测类别的G. 729A语音流(即G. 729A帧序列)片段, 输出为该流是否存在信息隐藏。对于输入的G. 729A帧序列使用PVSF特征抽取器获得1 维的PVSF向量,使用FOMF特征抽取器获得128维的FOMF向量。使用PVSF向量进行分类器的训练获得分类器1,使用FOMF向量进行分类器的训练获得分类器3,使用PVSF及FOMF 的联合向量056維)进行分类器的训练获得分类器2。对三个分类器的分类结果采用多数投票机制确定最终的分类結果。在本实施例中分类器采用支持向量机,但采用其他分类器也在本专利保护范围内。使用该检测系统,针对大量数据的测试表明在G. 729A帧序列的帧数量超过640时(即语音流长度超过0. 64秒),系统可以获得超过93%的检测准确率。以上,仅为本发明的较佳实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求所界定的保护范围为准。
权利要求
1.ー种G. 729A压缩语音流信息隐藏检测装置,其特征在干,至少包括压缩语音流映射音素序列模块、音素序列特征提取模块组、分类器装置以及结果集成模块,其中;压缩语音流映射音素序列模块,接收外部输送来的压缩语音流,映射成音素序列并输出;音素序列特征提取模块組,分别提取音素序列的音素向量空间特征向量和音素状态转移一阶马尔科夫特征向量并输出;分类器装置,基于训练集对不同特征向量分别训练分类器,然后对于未知类别的样本使用训练获得分类器进行分类并输出分类结果;结果集成模块,对多个分类器的输出结果进行集成并输出作为最终的隐写检测結果。
2.根据权利要求1所述的G.729A压缩语音流信息隐藏检测装置,其特征在干,所述音素序列特征提取模块组包括PVSF特征提取模块和FOMF特征提取模块,其中;PVSF特征提取模块,提取音素序列的音素向量空间特征向量并输出; FOMF特征提取模块,提取音素状态转移一阶马尔科夫特征向量并输出。
3.根据权利要求2所述的G.729A压缩语音流信息隐藏检测装置,其特征在干,所述分类训练装置包括第一分类器、第二分类器及第三分类器,其中,第一分类器,基于音素向量空间特征向量进行训练得到分类器后利用该分类器对未知类别样本进行预测并输出结果给集成模块;第二分类器,基于音素向量空间特征向量和音素状态转移一阶马尔科夫特征向量的融合特征向量进行训练得到分类器后利用该分类器对未知类别样本进行预测并输出结果给集成模块;第三分类器,基于音素状态转移一阶马尔科夫特征向量进行训练得到分类器后利用该分类器对未知类别样本进行预测并输出结果给集成模块。
4.ー种G. 729A压缩语音流信息隐藏检测方法,其特征在干,包括以下步骤 将压缩语音流映射成音素序列;分别提取音素序列的音素向量空间特征向量和音素状态转移一阶马尔科夫特征向里;对多种特征向量分别训练分类器,并将多个分类器的分类结果基于多数投票机制进行集成作为最终的分类結果。
5.根据权利要求4所述的G.729A压缩语音流信息隐藏检测方法,其特征在干,所述将压缩语音流映射成音素序列的方法为设定语音所包含的音素为有限个,将待映射语音分割为各个音素对应的语音小片,取小片的时长为G. 729A的帧长。
6.根据权利要求5所述的G.729A压缩语音流隐写检测方法,其特征在干,所述音素序列特征提取方法为使用音素发音时的声道參数作为音素的量化描述,使用G. 729A中的LPC滤波器表征声道參数,LPC滤波器由量化索引确定,将每个音素对应到LPC滤波器量化索引的第一个域, 使用该域形成序列的统计特征作为音素序列的统计特征;使用音素向量空间特征向量量化提取G. 729A语音所包含音素的分布不均衡性; 使用音素状态转移一阶马尔科夫链对音素序列进行建摸,计算状态转移矩阵度量各音素分布的相关性,采用选维法对状态转移矩阵进行降維--取矩阵对角线元素作为表征音素相关性的向量。
7.根据权利要求5所述的G. 729A压缩语音流信息隐藏检测方法,其特征在于,采用集成分类方法抽取训练集中的G. 729压缩语音流的音素向量空间特征向量以及降维后的一阶马尔科夫特征向量,分别以音素向量空间特征向量、一阶马尔科夫特征向量、以及两者的融合特征向量作为特征分别训练分类器。
全文摘要
本发明公开一种G.729A压缩语音流信息隐藏检测装置,至少包括压缩语音流映射音素序列模块、音素序列特征提取模块组、分类器装置以及结果集成模块,其中;压缩语音流映射音素序列模块接收外部输送来的压缩语音流,映射成音素序列并输出;音素序列特征提取模块组分别提取音素序列的音素向量空间特征向量和音素状态转移一阶马尔科夫特征向量并输出;分类器装置基于训练集对不同特征向量分别训练分类器,然后对于未知类别的样本使用训练获得分类器进行分类并输出分类结果;结果集成模块对多个分类器的输出结果进行集成并输出作为最终的隐写检测结果。应用于检测在基于G.729A标准的语音编码过程中使用经CNV算法优化划分的分组矢量码本进行QIM信息隐藏的检测。
文档编号G10L11/00GK102568469SQ20111043516
公开日2012年7月11日 申请日期2011年12月22日 优先权日2011年12月22日
发明者李松斌, 黄永峰 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1