测量语音波形相似度的一种新方法

文档序号：2830224阅读：433来源：国知局

专利名称：测量语音波形相似度的一种新方法
技术领域：
本发明涉及一种语音信号的处理技术，属于语音信号处理领域。
背景技术：
语音信号是一种非平稳的随机信号，可以用随时间变化的一维波形来描述。从语音信号的波形分析，可以大致分为两类一类是辅音，其波形类似于噪声；另一类是元音，其波形类似于准周期信号。目前，判断两个语音波形是否相似一般采用相关性检测的方法，或者类似的方法。由于语音信号的时变特性，基于相关性检测的方法往往对语音波形的相似性判断准确性不高。另外一类判断两个语音波形是否相似的办法是变换域法，即把时域波形的相似性问题变换为等价的频域的相似性问题。变换域法同样也存在判断准确性不高的问题，同时还带来计算量增加的问题。为了解决上述问题，我们设计实现了一种测量语音波形相似度的新方法，其特点是完全基于时域实现，计算量小，抗噪声性好，准确度高。本发明的语音波形相似度测量方法，不仅能测量语音波形的绝对相似度，而且能够测量语音波形的相对相似度(即语音波形经放大或缩小后的相似度)，可以用于语音信号的基音检测，语音信号的高质量压缩与还原，非线性特征抽取等方面，对语音信号处理有多方面的影响。

发明内容
本发明是一种基于时域的语音信号处理技术，用来测量两个语音波形的相似度，其基本思想是对一段语音信号x(t)，首先找出两个相邻的过零点t1和t2(且t1＜t2)；在区间[t1，t2]上，用平行于横轴的直线将语音信号x(t)切分成互不重叠的N部分，计算每一部分的面积，然后将这N部分的面积按顺序作成一个N维向量；对另一段语音信号也做类似的处理，得到另一个N维向量；计算两个N维向量的距离就可以得到两个语音波形的相似度。如果两个N维向量的对应分量成比例，则可以判断两个语音波形经放大或缩小后相似(即相对相似)。
本发明的技术方案是数字化后的语音信号用一个有限序列{x(n)}表示，其中n表示语音样本的序号，x(n)表示第n个样本点的取值。语音信号x(n)的取值有三种情况正数，负数，零。正数表示波形在时间轴上方，负数表示波形在时间轴下方。语音信号x(n)的过零点有两类情况一类是x(n)正好为零，那么这是称n为过零点的位置；一类是x(n)和x(n+1)都不为零，但它们的符号相反，这时称在x(n)和x(n+1)之间存在过零点，这个过零点的位置可以通过插值计算近似得到。
对一段离散化的语音信号x(t)，首先找出两个相邻的过零点t1和t2(且t1＜t2)；在区间[t1，t2]上，语音信号x(t)要么全大于0，要么全小于0，不妨设x(t)全大于0；找出语音信号x(t)在区间[t1，t2]上的最大值(如果x(t)全小于0则找出最小值)，不妨设最大值为x(t0)；在横轴(时间轴)到x(t0)之间，用平行于横轴的直线将语音信号x(t)在区间[t1，t2]上图像分为N部分，每一部分类似于梯形，其上下底边都是直线，但左右边是曲线，对这样的每一部分采用近似算法计算其面积；然后将这N部分的面积按顺序作成一个N维向量；对另一段语音信号也做类似的处理，得到另一个N维向量；然后计算两个N维向量的距离就可以得到两个语音波形的相似度。如果两个N维向量的对应分量成比例，则可以判断两个语音波形经放大或缩小后相似(即相对相似)。
权利要求
1.本发明涉及一种测量语音波形相似度的新方法，其特征是对于两个相邻的过零点之间的语音信号的图像分块计算面积。
2.根据权利要求1，语音信号的图像分块计算面积的技术特征是语音信号的图像被平行于横轴(时间轴)的直线切分成N部分，每一部分类似于梯形，其上下底边都是直线，但左右边是曲线，对这样的每一部分采用近似算法计算其面积。
3.根据权利要求1和权利要求2，对语音信号的图像分成N块并计算每一块的面积后，可以将这N部分的面积按顺序作成一个N维向量；对另一段语音信号也做类似的处理，得到另一个N维向量；计算两个N维向量的距离就可以得到两个语音波形的相似度。如果两个N维向量的对应分量成比例，则可以判断两个语音波形经放大或缩小后相似(即相对相似)。
全文摘要
一种测量语音波形相似度的新方法，其特点是完全基于时域实现，计算量小，抗噪声性好，准确度高；其基本思想是对一段语音信号x(t)，首先找出两个相邻的过零点t1和t2(且t1＜t2)；在区间[t1，t2]上，用平行于横轴的直线将语音信号x(t)切分成互不重叠的N部分，计算每一部分的面积，然后将这N部分的面积按顺序作成一个N维向量；对另一段语音信号也做类似的处理，得到另一个N维向量；计算两个N维向量的距离就可以得到两个语音波形的相似度。如果两个N维向量的对应分量成比例，则可以判断两个语音波形经放大或缩小后相似(即相对相似)。本发明的语音波形相似度测量方法，不仅能测量语音波形的绝对相似度，而且能够测量语音波形的相对相似度(即语音波形经放大或缩小后的相似度)，可以用于语音信号的基音检测，语音信号的高质量压缩与还原，非线性特征抽取等方面，对语音信号处理有多方面的影响。
文档编号G10L11/02GK101067928SQ20071012262
公开日2007年11月7日申请日期2007年7月10日优先权日2007年7月10日
发明者章森申请人:章森

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：章森
技术所有人：章森
我是此专利的发明人