音频匹配方法及装置的制造方法

文档序号：10625459阅读：322来源：国知局

音频匹配方法及装置的制造方法
【专利摘要】本发明公开了一种音频匹配方法及装置，其方法包括：分别计算被测音频与模版音频的二维Teager能量谱图；对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度矩阵；对POC相似度矩阵按列进行平均得到一个一维的相似度值向量，选取相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。本发明的音频匹配方法及装置，基于Teager能量谱与POC进行音频匹配，Teager能量谱特征能够更好的反映语音在高频部分的特性，能够提升音频匹配算法定位的精度，利用POC对噪声引起的幅度谱变化不敏感的特点，提升了匹配算法的鲁棒性，并易于实现并行处理，运算速度快。
【专利说明】
音频匹配方法及装置
技术领域
[0001] 本发明涉及音频匹配技术领域，尤其涉及一种音频匹配方法及装置。
【背景技术】
[0002] 在进行语音通信质量测评时，通常需要先使用模式匹配技术将原始语音与在远端采集到的该语音质量降级后的版本在时间上进行对齐。送类方法通常被称为语音匹配算法 (Speech Matching Algorithm),或音频对齐算法（Audio Alignment Algorithm)。经历编码、传输、解码后的语音波形已经发生了明显变化，因此，一般需要选择基于对上述操作具有良好不变性的语音特征W及一定相似性度量进行匹配。现有音频匹配算法大致可W分为两类；一类是严格匹配，另一类是基于动态规划的匹配。严格匹配是通过计算两段语音严格同步计算其相关性，而动态规划类的匹配算法允许两段语音间的不同步，例如，其会认为I have a pen与I have pen是非常相似的。
[0003] 例如，现有技术中的对给定音频片段的匹配方法，主要采用基于顺序扫描的匹配策略，即在待检测音频片段B中，从音频的起始时间开始，每隔极短的一段时间偏移（一段为10或几十毫砂）设一个比较点。在相似性度量方法方面，当前方法主要是将音频片段分为顿（每顿为10或几十毫砂的小片段），对每顿提取音频中的频谱、对数倒谱、短时能量、过零率等特征，形成特征向量，并采用欧式距离、马氏距离、余弦夹角距离等计算各顿间的相似性，再采用动态时间规整值TW ;Dynamic Time Wa巧ing)方法由各顿之间的相似性计算出两个片段间的相似性。但是，在现有的音频匹配方法中，需要提取频谱等复杂特征，且使用 DTW算法时时间复杂度较高，傅立叶幅度谱匹配容易受噪声影响且定位精度不高，时间效率也较低。

【发明内容】

[0004] 有鉴于此，本发明要解决的一个技术问题是提供一种音频匹配方法，能够基于 Teager能量谱与P0C(F*hase Only Correlation,纯相位相关性）进行音频匹配。
[0005] -种音频匹配方法，包括：分别计算被测音频与模版音频的短时Teager能量谱图；对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的P0C相似度矩阵；对所述P0C相似度矩阵按列进行平均后得到一个一维的相似度值向量，选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。
[0006] 根据本发明的一个实施例，进一步的，分别计算被测音频与模版音频的短时 Teager能量谱图包括：对被测音频的被测语音信号和模版音频的模版语音信号分别进行重叠分顿处理，被测语音与模版语音的的顿长皆为化，顿间重叠部分长度为L ;对每一顿语音数据使用FFT算法计算其短时傅立叶能量谱，并对每一顿的傅立叶能量谱计算其Teager 能量谱，分别得到被测语音和模版语音的Teager能量谱图；其中，被测语音的Teager能量谱图为矩阵X'，模版语音的Teager能量谱图经为矩阵Y'。
[0007] 根据本发明的一个实施例，进一步的，所述对每一顿语音数据使用FFT算法计算其傅立叶能量谱包括：基于公式X' [i] = X[i] · w[i]对每一顿语音数据进行加窗处理；其中，x[i]，i = 1. . . 表示长度为化的原始语音信号，w[i]为一窗函数信号，X' [i]为加窗后信号；基于公式
巧加窗后的每一顿语音数据进行快速傅立叶变换；其中，X比]表示归一化频率为k处的频率分量，缩记符号wi:的定义为
其中，e是自然对数的底，j是虚数单位，π为圆周率，N为进行FFT变换的序列长度；计算傅立叶能量谱A[k] = abs(X[k])，其中，abs表示求一个复数的模。
[0008] 根据本发明的一个实施例，进一步的，所述对每一顿的傅立叶能量谱计算其 Teager能量谱包括；基于公式T[k] = k 'A[k]从一顿语音信号的能量谱获得其Teager能量谱；其中，T比]为归一化频率k处的Teager能量值。
[0009] 根据本发明的一个实施例，进一步的，所述对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的P0C相似度包括；对矩阵X'按行做FFT变换，得到FFT〇('）=Ai*exp(j〇i);对矩阵Y'进行时间反转，既将矩阵的第i列变为其M-i+1列，其中Μ为矩阵Y'的列数，并在右侧补0至与X'大小相同，得到矩阵?;对矩阵?按行做FFT变换，得到FFT(f)=A2'ew^<I>2);其中，Ai、Α2是由矩阵X'和矩阵专每个元素进行FFT算法计算后的幅度值构成的矩阵，〇1表示每个元素的相位值构成的矩阵， exp表示对矩阵的每一个元素执行底数为常数e的幕函数操作；j为复数单位；基于公式R =real{IFFT[exp(j0i) · Az · exp(j02)]}获得模版语音与被测语音的P0C相关性；其中 "?"表示两个矩阵中相同位置元素两两相乘，函数IFFT[ ·]表示对矩阵按行进行逆快速傅立叶变换，函数real (·)表示对矩阵的每一个元素取其实部部分，R为大小为化xN的实数矩阵。
[0010] 根据本发明的一个实施例，进一步的，对所述P0C相似度按列进行平均得到一个一维的相似度值向量、选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果包括；对矩阵R按列求均值，得到一维向量r[η], η = 1…N;其中
R(m, η)表示矩阵R的一个元素；在r[n]，η = 1…Ν中找到一最大值 rm。、，记其位置为i，将i换算到被测语音中的实际样本点位置为（i-l)*L+l。
[0011] 本发明要解决的一个技术问题是提供一种音频匹配装置，能够基于Teager能量谱与P0C进行音频匹配。
[0012] 一种音频匹配装置，包括；Teager能量谱图计算单元，用于分别计算被测音频与模版音频的二维Teager能量谱图；P0C相似度计算单元，用于对被测音频与模版音频的 Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的P0C相似度矩阵；匹配结果获取单元，用于对所述P0C相似度矩阵按列进行平均得到一个一维的相似度值向量，选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。
[0013] 根据本发明的一个实施例，进一步的，所述Teager能量谱图计算单元，包括：分顿子模块，用于对被测音频的被测语音信号和模版音频的模版语音信号分别进行重叠分顿处理，其中，被测语音与模版语音皆采用顿长为化，顿间重叠部分长度为L的分顿方式；傅立叶计算子模块，用于对每一顿语音数据使用FFT算法计算其傅立叶能量谱，Teager能量谱计算子模块，用于对每一顿的傅立叶能量谱计算其Teager能量谱，分别得到被测语音和模版语音的Teager能量谱图；其中，被测语音的Teager能量谱图为矩阵X'，模版语音的 Teager能量谱图为矩阵Y'。
[0014] 根据本发明的一个实施例，进一步的，所述傅立叶计算子模块，还用于基于公式X山=X山· W山对每一顿语音数据进行加窗处理；其中，x[i]，i = 1...化，表示长度为化的原始信号，W山为一窗函数信号，X'山为加窗后信号；基于公式
巧加窗后的每一顿语音数据进行快速傅立叶变换；其中，X比]表示归一化频率为k处的频率分量，缩记符号取&巧勺定义为
其中，e是自然对数的底，j是虚数单位，η为圆周率，N为进行FFT变换的序列长度；计算傅立叶能量谱A比]= abs狂比])，其中，abs表示求一个复数的模。
[0015] 根据本发明的一个实施例，进一步的，所述能量谱计算子模块，还用于基于公式 T比]=k ·Α比]从一顿语音信号的能量谱获得其Teager能量谱；其中，T比]为归一化频率 k处的Teager能量值。
[0016] 根据本发明的一个实施例，进一步的，所述P0C相似度计算单元，还用于对矩阵X' 按行做FFT变换，得到FFT〇('）=Ai，exp(j&i);对矩阵Y'进行时间反转，既将矩阵的第 i列变为其M-i+1列，其中Μ为矩阵Y'的列数，并在右侧补0至与X'大小相同，得到矩阵《*按行做FFT变换，得到FFT(^f)=A2，exp(,/?2):;其中，V Α2是由矩阵X'和矩阵常每个元素进行FFT算法计算后的幅度值构成的矩阵，〇1表示每个元素的相位值构成的矩阵，exp 表示对矩阵的每一个元素执行底数为常数e的幕函数操作；j为复数单位；基于公式R = real{IFFT[exp(j0i)鳴'6邱002)]}获得模版语音与被测语音的P0C相关性；其中"·" 表示两个矩阵中相同位置元素两两相乘，函数IFFT[ ·]表示对矩阵按行进行逆快速傅立叶变换，函数real (·)表示对矩阵的每一个元素取其实部部分，R为大小为化xN的实数矩阵。
[0017] 根据本发明的一个实施例，进一步的，所述匹配结果获取单元，用于对矩阵R按列求均值，得到一维向量r[n]，n = 1…N ;其E
R(m, η)表示矩阵R的一个元素；在r [η]，η = 1…Ν中找到一最大值rm。、，记其位置为i，将i换算到被测语音中的实际样本点位置为（i-1)礼+1。
[0018] 本发明的音频匹配方法及装置，基于Teager能量谱与P0C进行音频匹配，Teager 能量谱特征能够更好的反映语音在高频部分的特性，能够提升音频匹配算法定位的精度，利用P0C对噪声引起的幅度谱变化不敏感的特点，提升了匹配算法的鲁棒性。
【附图说明】
[0019] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可w根据送些附图获得其它的附图。
[0020] 图1为根据本发明的音频匹配方法的一个实施例的流程图；
[0021] 图2为根据本发明的音频匹配方法的另一个实施例的流程图；
[0022] 图3为一段被测语音的波形图及其Teager能量谱图；
[0023] 图4为进行语音匹配得到的结果，图中尖峰对应的位置即为降级语音中对应模版语音的位置；
[0024] 图5为根据本发明的音频匹配方法的一个实施例的模块结构示意图；
[0025] 图6为根据本发明的Teager能量谱图计算单元的一个实施例的模块结构示意图。
【具体实施方式】
[0026] 下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。下面结合各个图和实施例对本发明的技术方案进行多方面的描述。
[0027] 图1为根据本发明的音频匹配方法的一个实施例的流程图，如图1所示：
[0028] 步骤101，分别计算被测音频与模版音频的二维Teager能量谱图。为简洁起见，本发明中的从语音顿得到的短时傅立叶谱与短时Teager能量谱均为简称为傅立叶谱W及 Teager能量谱。
[0029] 步骤102,对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的P0C相似度矩阵。
[0030] 步骤103,对P0C相似度矩阵按列进行平均得到一个一维的相似度值向量，选取相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。
[0031] 上述实施例中的音频匹配方法，基于P0C与Teager能量进行语音匹配，首先分别计算两段语音的短时Teager能量谱图，然后对上述两个二维的谱图逐行采用FFT算法计算语音特征间的P0C相似度，对得到的相似度值按列进行平均得到一个一维的相似度值，W 其中的极大值点的位置作为匹配的结果。
[003引图2为根据本发明的音频匹配方法的另一个实施例的流程图，如图2所示；假设降级后的被测语音长度为N，模版语音长度为M。
[0033] 步骤201，对质量降级后的被测语音信号进行重叠分顿，设顿长为化，则顿间重叠部分长度为L。对每一顿语音数据使用FFT算法计算其短时傅立叶能量谱。分顿长度L决定了算法定位的粒度，需要根据实际情况选取。
[0034] 步骤202,对每一顿的傅立叶能量谱计算其Teager能量谱，并W其作为矩阵X'的一列，矩阵X'的大小为
，其中W隶示向下取整。
[0035] 步骤204、205, W模版语音为操作对象重复与步骤201和202相同的运算过程，得到Teager短时能量谱图Y'，矩阵Y'的大小义
其中l·」表示向下取整。
[0036] 步骤206,对Υ'进行时间反转，既令Υ'的第i列变为其第^ 列。然后右侧补 0,令其与矩阵X'大小相同，记为Y。：
[0037] 步骤203,对矩阵X'按行做FFT变换，其结果可W记为：
[0038] FFT 狂'）=Ai · exp (j Φ1) (0.1)
[0039] 其中，函数FFT( ·)表示对一个矩阵按行做傅立叶变换，其结果是一个与X'同样大小的复数矩阵。由于一个复数都可W采用幅度与相位来表示，因此FFT〇('）的结果可W 表示为矩阵Ai与矩阵exp (jO 1)逐点相乘的形式。
[0040] Ai是由结果矩阵每个元素的幅度值构成的矩阵，Φ 1表示每个元素的相位值构成的矩阵，exp表示对矩阵的每一个元素执行底数为常数e的幕函数操作。j为复数单位。送里只保留相位部分exp (j〇i)作为本步骤的结果。
[0041] 短时Teager能量谱图的幅度谱（对应矩阵X'）的绝对强度在经历语音编码传输相关操作，如电平调整、增益控制、压缩编码，等过程后有可能较大的变化。但相对强弱关系仍然能得到保留，送种关系在视觉上体现为短时Teager能量谱图（将矩阵X'视为一副图像，如图3中所示）中的"纹路"。
[0042] 由于FFT变换的幅度谱具有平移不变性，因此不可能包含位置信息，送些"纹路" 的位置信息只能包含在其相位谱信号部分，即exp(j〇i)中。因此在有噪声干扰的情况下，仅采用相位信息（exp (j〇i))进行匹配的效果会好于用Ai · exp (j〇i)直接进行匹配的结果。
[0043] 步骤207与步骤203类似，对矩阵令按行做FFT变换，可得到A2 . exp (〇2):
[0044]
(0.2)
[0045] 上面0. 2式中的符号的含义与步骤203中的含义相同。
[0046] 步骤208、209,计算下式1. 3,得到模版语音与降级语音的P0C相关性，其中：
[0047] R = real {IFFT[exp(j0i) ·八2 · exp(j02)]} (〇.扣
[0048] 其中"?"表示矩阵的逐点相乘，即两个矩阵中相同位置元素两两相乘。函数 IFFT[ ·]表示对矩阵按行进行逆快速傅立叶变换，具体在后面作进一步解释。函数real (·) 表示对矩阵的每一个元素（复数）取其实部部分。结果R为大小为化xN的实数矩阵。
[0049] 步骤210,对矩阵R按列求均值，得到一维向量r[n]，η = 1…N。
[0050]
(0.4)
[005。其中，R(m, η)表示矩阵R的一个元素，在r[n]，η = 1···Ν中找到一最大值I'm。、，记其位置为i。将i换算到降级语音中的实际样本点位置为（i-l)*L+l。
[0052] 上述步骤201中，对一顿信号计算其短时傅立叶谱的具体方法为：
[0053] 对该顿信号加窗，即对该顿中每个样本点乘W与该顿等长的窗函数在该点对应的系数值，公式为：
[0054] x' [i] = x[i] · w[i] (0. ?5)
[00巧]其中，x[i]，i = 1...化表示长度为化的原始信号，w[i]为一窗函数信号，X' [i] 为加窗后信号。加窗的作用主要是抑制分顿造成的频谱能量泄漏，使能量相对集中在主瓣，就可w较为接近于真实的频谱，实际中一般选择汉宁窗或海明窗函数。
[0056] 例如，W长度为N的汉宁窗为例，其表达式为：
[0057]
(0.6)
[0058] 对加窗后的该信号进行快速傅立叶变换，公式为：
[0059]
(0.7)
[0060] 其中，X比]表示归一化频率为k处的频率分量，巧?的定义为：
[0061]
(0.8)
[006引其中，e是自然对数的底，j是虚数单位，π为圆周率，Ν为进行FFT变换的序列长度。
[0063] 计算能量谱A比]
[0064] A[k]=油S 狂比])(0.9)
[006引其中，油S表示求一个复数的模。
[0066] 上述步骤202中，从一顿信号的短时能量谱获得其短时Teager能量谱的具体方法为：
[0067] T 比]=k.A 比](0.10)
[0068] 其中T比]为归一化频率k处的Teager能量值，A比]为从步骤1获得的短时傅立叶谱。
[0069] Teager能量理论考虑到物体产生高频震动信号通常需要比低频信号消耗更多的能量，反映在上述公式中即对信号的高频部分对应能量谱乘W更大的系数。
[0070] 步骤203中对一个矩阵按行做FFT变换的具体做法为：
[0071] 不失一般性地，设矩阵X大小为Μ行、N列，对该矩阵按行做FFT变换的结果同样是一个Μ行、Ν列的复数矩阵，记为Υ。
[007引
（0.11)
[0073] 其中Xm[n]，l《m《M，l《n《N表示矩阵X中第m行n列的元素。类似的，ym比]， 1《m《Μ，1《k《Ν表示矩阵Υ中第m行k列的元素。》f 的定义可参见公式化8)。
[0074] 步骤207中对一个矩阵按行做IFFT变换的具体做法为：
[00巧]不失一般性地，设矩阵Υ大小为Μ行、Ν列，对该矩阵按列做FFT变换的结果同样是一个Μ行、Ν列的复数矩阵，记为X。则对矩阵Υ按行进行IFFT变换的公式描述为：
[0076]
(0.1巧
[0077] 其中，Xm[n]，l《η《Ν表示矩阵X中第m行η列的元素。类似的， ym比]，1《m《Μ，1《k《Ν表示矩阵Υ中第m行k列的元素。的定义可参见公式化8)。
[0078] 上述实施例提供的音频匹配方法，Teager能量谱特征能够更好的反映语音在高频部分的特性，能够提升音频匹配算法定位的精度。利用P0C对噪声引起的幅度谱变化不敏感的特点，提升了匹配算法的鲁棒性。
[0079] 上述实施例提供的音频匹配方法，不同于现有采用DTW音频匹配算法，该算法全流程采用FFT等快速算法实现，易于实现并行处理。
[0080] 在一个实施例中，被测语音采用8KHZ采样，16位PCM编码。降级后的被测语音长度为960s，模版语音长度为10s。对质量降级后的被测语音信号进行重叠分顿，设顿长为 128,则顿间重叠部分长度为64。对每一顿语音数据使用FFT算法计算其短时傅立叶能量谱。
[0081] 对每一顿的傅立叶能量谱计算其Teager能量谱，并W其作为矩阵X'的一列。则 X'为一 128*119999的二维矩阵。W模版语音为操作对象重复步骤1和2,得到Teager短时能量谱图Y'。则Y'为一 128*1249的二维矩阵。对Y'时间反转，既将矩阵的第i列变为其1249-i+l列，然后在右侧补零，令其与X'大小相同，记为专，
[008引对矩阵X'按行做FFT变换，并将结果的幅度值赋值为1，得到exp(j0i)。对矩阵 ?孩行做FFT变换，得到A2 · exp(j02)。计算下式1. 13,得到模版语音与降级语音的P0C 相关性，其中IFFT表示按行进行逆快速傅立叶变换，real表示对复数取实部。
[0083] R = real {IFFT [exp (j0i) · Az · exp (j02)]} (0.13)
[0084] 对矩阵R按列求均值，得到一维向量r找到r中最大值的位置为39175。则找到模版语音在降级的被测语音中的位置为（39175-1) *64+1 = 2507137,结果如图4中所示。在语音质量测评应用场景下，该位置即可用于截取对应位置的待测语音，并根据预设的判断标准，对被测语音的质量进行评估。
[0085] 如图5所示，本发明提供一种音频匹配装置5。Teager能量谱图计算单元51分别计算被测音频与模版音频的二维Teager能量谱图。P0C相似度计算单元52对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的P0C相似度矩阵。
[0086] 匹配结果获取单元53对P0C相似度矩阵按列进行平均后得到一个一维的相似度值向量，选取相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。
[0087] 如图6所示，Teager能量谱图计算单元51包括；分顿子模块511、傅立叶计算子模块512和能量谱计算子模块513。
[0088] 分顿子模块511对被测音频的被测语音信号和模版音频的模版语音信号分别进行重叠分顿处理，顿长为化，顿间重叠部分长度为L。
[0089] 傅立叶计算子模块512对每一顿语音数据使用FFT算法计算其傅立叶能量谱。能量谱计算子模块513对每一顿的傅立叶能量谱计算其Teager能量谱，分别得到被测语音和模版语音的Teager能量谱图.被测语音的Teager能量谱图为矩阵X'，模版语音的Teager 能量谱图为矩阵Y'。
[0090] 傅立叶计算子模块512基于公式X山=x[i] · W山对每一顿语音数据进行加窗处理。其中，X[i]，i = 1. . . 表示长度为化的原始信号，w[i]为一窗函数信号，X' [i] 为加窗后信号。
[0091] 基于公式
对加窗后的每一顿语音数据进行快速傅立叶变换；其中，X比]表示归一化频率为k处的频率分量，缩记符号的定义为
其中，e是自然对数的底，j是虚数单位，π为圆周率，N为进行FFT变换的序列长度；计算傅立叶能量谱A比]=油S狂比])，其中，油S表示求一个复数的模。
[0092] 能量谱计算子模块513基于公式T比]=k · A比]从一顿语音信号的能量谱获得其Teager能量谱。T比]为归一化频率k处的Teager能量值。
[009引 P0C相似度计算单元52对矩阵X'按行做FFT变换，得到FFT狂'）=Ai 'exp(j0i)。对矩阵Y'进行时间反转，既将矩阵的第i列变为其M-i+1列，其中Μ为矩阵Y'的列数，并在右侧补零至与矩阵X'大小相同，记为矩阵?。对Υ按行做FFT变换，得到
巧中，Ai、Α2是由矩阵X'和矩阵?海个元素进行FFT算法计算后的幅度值构成的矩阵，Φι表示每个元素的相位值构成的矩阵，exp表示对矩阵的每一个元素执行底数为常数e的幕函数操作；j为复数单位。
[0094] P0C 相似度计算单元 52 基于公式 R = real{IFFT[exp(j0i) -Αζ'θχρΟΦζ)]}获得模版语音与被测语音的POC相关性；其中"?"表示两个矩阵中相同位置元素两两相乘，函数IFFT[ ·]表示对矩阵按行进行逆快速傅立叶变换，函数real (·)表示对矩阵的每一个元素取其实部部分，R为大小为化xN的实数矩阵。
[0095] 匹配结果获取单元53对矩阵R按列求均值，得到一维向量r[n]，η = 1…N ;其中
R(m，η)表示矩阵R的一个元素；在r[n]，η = 1…Ν中找到一最大值 rm。、，记其位置为i，将i换算到被测语音中的实际样本点位置为（i-l)*L+l。
[0096] 上述实施例提供的音频匹配方法，Teager能量谱特征能够更好的反映语音在高频部分的特性，能够提升音频匹配算法定位的精度。利用P0C对噪声引起的幅度谱变化不敏感的特点，提升了匹配算法的鲁棒性。
[0097] 上述实施例提供的音频匹配方法，不同于现有采用DTW音频匹配算法，该算法全流程采用FFT等快速算法实现，易于实现并行处理。
[0098] 可能W许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于W上具体描述的顺序，除非W其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，送些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
[0099] 本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
【主权项】
1. 一种音频匹配方法，其特征在于，包括：分别计算被测音频与模版音频的短时Teager能量谱图；对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度矩阵；对所述POC相似度矩阵按列进行平均后得到一个一维的相似度值向量，选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。2. 如权利要求1所述的方法，其特征在于，所述分别计算被测音频与模版音频的短时 Teager能量谱图包括：对被测音频的被测语音信号和模版音频的模版语音信号分别进行重叠分顿处理，被测语音与模版语音的顿长皆为化，顿间重叠部分长度为L ; 对每一顿语音数据使用FFT算法计算其短时傅立叶能量谱，并对每一顿的傅立叶能量谱计算其Teager能量谱，分别得到被测语音和模版语音的Teager能量谱图；其中，被测语音的Teager能量谱图为矩阵X'，模版语音的Teager能量谱图经为矩阵 Y'。3. 如权利要求2所述的方法，其特征在于，所述对每一顿语音数据使用FFT算法计算其傅立叶能量谱包括：基于公式X' [i] =x[i] -w[i]对每一顿语音数据进行加窗处理；其中，x[i]，i =1. .. 表示长度为化的原始信号，w[i]为一窗函数信号，X' [i]为加窗后信号；基于公式巧加窗后的每一顿语音数据进行快速傅立叶变换；其中，X比]表示归一化频率为k处的频率分量，缩记符号的定义为其中，e iV 是自然对数的底，j是虚数单位，n为圆周率，N为进行FFT变换的序列长度；计算傅立叶能量谱A比]=abs狂比])，其中，abs表示求一个复数的模。4. 如权利要求3所述的方法，其特征在于，所述对每一顿的傅立叶能量谱计算其 Teager能量谱包括：基于公式T比]=k ? A比]从一顿语音信号的能量谱获得其Teager能量谱；其中，T比]为归一化频率k处的Teager能量值。5. 如权利要求4所述的方法，其特征在于，所述对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度包括：对矩阵X'按行做FFT变换，得到FFT狂'）=Al ? exp (j 01);对矩阵Y'进行时间反转，既将矩阵的第i列变为其M-i+1列，其中M为矩阵Y'的列数，并在右侧补零至与矩阵X'大小相同，记为矩阵Y ;对Y按行做FFT变换，得到其中，Ai、A2是由矩阵X'和矩阵Y每个元素进行FFT算法计算后的幅度值构成的矩阵，。1表示每个元素的相位值构成的矩阵，exp表示对矩阵的每一个元素执行底数为常数e的幕函数操作；j为复数单位；基于公式R = real {IFFT [exp (j 01) -Az ? exp (j O2) ]}获得模版语音与被测语音的POC 相关性；其中"?"表示两个矩阵中相同位置元素两两相乘，函数IFFT[ ?]表示对矩阵按行进行逆快速傅立叶变换，函数real( ?)表示对矩阵的每一个元素取其实部部分，R为大小为化XN的实数矩阵。6. 如权利要求6所述的方法，其特征在于，对所述POC相似度按列进行平均得到一个一维的相似度值向量、选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果包括：对矩阵R按列求均值，得到一维向量r [n]，n = 1…N ; 其4R (m，n)表示矩阵R的一个元素；在r[n]，n = 1…N中找到一最大值rm。、，记其位置为i，将i换算到被测语音中的实际样本点位置为（i-1)礼+1。7. -种音频匹配装置，其特征在于，包括： Teager能量谱图计算单元，用于分别计算被测音频与模版音频的二维Teager能量谱图； POC相似度计算单元，用于对被测音频与模版音频的Teager能量谱图分别逐行采用 FFT算法计算被测音频与模版音频的POC相似度矩阵；匹配结果获取单元，用于对所述POC相似度矩阵按列进行平均得到一个一维的相似度值向量，选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。8. 如权利要求7所述的装置，其特征在于：所述Teager能量谱图计算单元，包括：分顿子模块，用于对被测音频的被测语音信号和模版音频的模版语音信号分别进行重叠分顿处理，其中，被测语音与模版语音的顿长皆为化，顿间重叠部分长度为L。傅立叶计算子模块，用于对每一顿语音数据使用FFT算法计算其傅立叶能量谱，能量谱计算子模块，用于对每一顿的傅立叶能量谱计算其Teager能量谱，分别得到被测语音和模版语音的Teager能量谱图；其中，被测语音的Teager能量谱图为矩阵X'，模版语音的Teager能量谱图为矩阵Y'。9. 如权利要求8所述的装置，其特征在于：所述傅立叶计算子模块，还用于基于公式X' [i] = x[i] ? w[i]对每一顿语音数据进行加窗处理；其中，x[i]，i = 1. . . 表示长度为化的原始信号，w[i]为一窗函数信号， X' [i]为加窗后信号；基于公式巧加窗后的每一顿语音数据进行快速傅立叶变换；其中，X比]表示归一化频率为k处的频率分量，缩记符号賊的定义为：其中，e是自然对数的底，j是虚数单位，n为圆周率，N为进行FFT变换的序列长度；计算傅立叶能量谱A比]=abs狂比])，其中，abs表示求一个复数的模。10. 如权利要求9所述的装置，其特征在于：所述能量谱计算子模块，还用于基于公式T比]=k，A比]从一顿语音信号的能量谱获得其Teager能量谱；其中，T比]为归一化频率k处的Teager能量值。11. 如权利要求10所述的方法，其特征在于：所述POC相似度计算单元，还用于对矩阵X'按行做FFT变换，得到FFT0C'）= Al ? exp(j〇i);对矩阵Y'进行时间反转，既将矩阵的第i列变为其M-i+1列，其中M为矩阵Y'的列数，并在右侧补零至与矩阵X'大小相同，记为矩阵Y。对Y按行做FFT变换，得到其中，Ai、A2是由矩阵X'和矩阵专每个元素进行FFT算法计算后的幅度值构成的矩阵，。1表示每个元素的相位值构成的矩阵，exp表示对矩阵的每一个元素执行底数为常数e的幕函数操作；j为复数单位；基于公式R = real {IFFT[exp(j〇i) ? Az ? exp(j〇2)]}获得模版语音与被测语音的POC相关性；其中"?"表示两个矩阵中相同位置元素两两相乘，函数IFFT[ ?]表示对矩阵按行进行逆快速傅立叶变换，函数real( ?)表示对矩阵的每一个元素取其实部部分，R为大小为化XN的实数矩阵。12. 如权利要求11所述的装置，其特征在于：所述匹配结果获取单元，用于对矩阵R按列求均值，得到一维向量r[n]，n = 1…N ;其中R (m，n)表示矩阵R的一个元素；在r[n]，n = 1…N中找到一最大值rm。、，记其位置为i，将i换算到被测语音中的实际样本点位置为（i-1)礼+1。
【文档编号】G10L15/10GK105989837SQ201510063616
【公开日】2016年10月5日
【申请日】2015年2月6日
【发明人】屈振华, 曹磊, 龙显军, 马涛, 杨新章, 郭英, 李慧云, 尹梅, 陆钢
【申请人】中国电信股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：屈振华;曹磊;龙显军;马涛;杨新章;郭英;李慧云;尹梅;陆钢;
技术所有人：中国电信股份有限公司;
我是此专利的发明人

上一篇：语音识别方法及装置的制造方法
上一篇：一种语音采集方法、装置及终端设备的制造方法