一种分布式麦克风的说话人聚类方法

文档序号：2830206阅读：320来源：国知局

专利名称：一种分布式麦克风的说话人聚类方法
技术领域：
本发明属于语音技术领域，具体地涉及一种分布式麦克风的说话人聚类方法。
背景技术：
随着网络和通讯技术的不断发展，利用现有的多媒体技术、网络与通讯技术、分布式处理技术等可以实现复杂声学环境场景下的多人多方对话。传统声源输入和录音设备包括头戴式麦克风、全向性和方向性单麦克风、麦克风阵列等。单麦克风作为传统声源输入和录音设备，具有体积小、价格低廉等优点，但不具备对环境噪声处理以及声源定位的能力；麦克风阵列由多个按照特定几何位置摆放的麦克风组成，对空间信号进行时空域联合处理，其能力包括辨识与分离声源、混响条件下的声源定位、增强语音信号等。分布式麦克风是由多个单麦克风组成的声音信号采集系统，各个麦克风由不同设备控制，对麦克风的排列和间距没有任何限制，麦克风采集的信号在时间域不完全同步。分布式麦克风结构简单、使用方便、节约成本，符合多声源多方向复杂对话场景的要求，可有效地完成说话人聚类、识别及定位等多种应用。与麦克风阵列系统不同的是，分布式麦克风对麦克风的位置和摆放没有任何约束和限制，此外分布式麦克风系统中的声源和麦克风位置信息未知。对声音信息进行自动分类是语音信号处理领域的研究课题之一，说话人分割 (Speaker Segmentation)和说话人聚类(Speaker Clustering)是其中的重要组成部分。通常的方法是说话人分割将整个测试语音分割成一系列语音片段，这些语音片段只属于某一特定说话人；说话人聚类负责将分散的同属于一个说话人的语音归为一类。传统的说话人分割方法基本以高斯模型的窗移统计法为基础，采用不同的距离测度选择，通过基于贝叶斯的信息准则进行融合得到分割点。说话人聚类方法可以采用进化隐马尔科夫(EHMM)计算方法，通过衡量路径分数更新分割结果。当说话人数目不限定时，可以采用分级聚类的方法进行说话人聚类。麦克风阵列的说话人聚类方法主要利用说话人的空间位置差异进行分类。主要原理为将时延估计向量作为说话人的空间特征，在GMM/HMM(高斯混合模型/隐马尔可夫模型)模型中对这些特征进行整合和分类。麦克风阵列的时延估计算法主要包括GCC(广义互相关)方法和LMS (最小均方误差)方法。GCC(广义互相关)受混响影响比较严重，改进后产生了 CEP (倒谱预滤波)方法和基音加权的GCC(广义互相关)方法，EVD (特征值分解)和基于ATF(声学传递函数)的时延估计方法则分别利用子空间的技术和传递函数比来求解。但是麦克风阵列系统计算时对各个设备之间采样的误差敏感，因此对音频数据同步性要求十分严格；而普通的多人多方会议场景中声源个数未知、麦克风位置未知、房间声学环境未知，即需要在时间和空间先验信息均缺失的场景下对声音数据进行处理。作为传统声源输入和录音设备的单麦克风，价格低廉、结构简单，缺点是易受环境干扰，且不能对声源进行定位；传统麦克风阵列系统已被广泛研究，没有商用化的主要原因是专用硬件价格昂贵以及算法复杂度较高。

发明内容
为了克服上述现有技术的缺点，本发明的目的在于提出一种分布式麦克风的说话人聚类方法，以分布式麦克风作为信号采集和输出设备，计算语音信号片段的时延向量，通过排除错误数据提高时延估计精度，对时延向量采用聚类算法将语音信号片段按说话人身份分别归类，设备价格低廉，具有使用方便的优势，可应用于复杂声学环境下的多人多方对话场景。一种分布式麦克风的说话人聚类方法，包括以下步骤第一步，对分布式麦克风采集的信号进行预处理首先对分布式麦克风获得的多路声源信号进行预处理，先对多路声源信号分帧及进行快速傅立叶变换(FFT)变换，然后对多路声源信号进行端点检测，将信号分为声源信号和非声源信号两类，端点检测的目的在于从数字语音信号中区分出语音信号和非语音信号，语音端点检测方法可采用子带频谱熵算法，首先将每帧语音的频谱划分成η (η为大于零的整数)子带，计算出每个子带的频谱熵，然后把相继η帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵，根据频谱熵的值对输入的语音进行分类，具体步骤为将每帧的语音信号经过快速傅立叶变换(FFT)之后得到它在功率谱上的Nfft个点Yi (0彡i彡Nfft)，每个点在频谱域上的概率密度可用公式(1)表示
权利要求
1. 一种分布式麦克风的说话人聚类方法，其特征在于包括以下步骤第一步，对分布式麦克风采集的信号进行预处理首先对分布式麦克风获得的多路声源信号进行预处理，先对多路声源信号分帧及进行快速傅立叶变换(FFT)变换，然后对多路声源信号进行端点检测，将信号分为声源信号和非声源信号两类，端点检测的目的在于从数字语音信号中区分出语音信号和非语音信号，语音端点检测方法可采用子带频谱熵算法，首先将每帧语音的频谱划分成η (η为大于零的整数)子带，计算出每个子带的频谱熵，然后把相继η帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵，根据频谱熵的值对输入的语音进行分类，具体步骤为将每帧的语音信号经过快速傅立叶变换(FFT)之后得到它在功率谱上的Nfft个点Yi (0彡i彡Nfft)，每个点在频谱域上的概率密度可用公式(1)表示
全文摘要
一种分布式麦克风的说话人聚类方法，先对分布式麦克风采集的信号进行预处理，再对声源信号片段采用时延估计法计算，得到对应的时延估计向量，然后排除错误数据并进行说话人分割，最后根据说话人分割的结果进行说话人聚类，本发明以分布式麦克风作为信号采集和输出设备，计算语音信号片段的时延向量，通过排除错误数据提高时延估计精度，对时延向量采用聚类算法将语音信号片段按说话人身份分别归类，设备价格低廉，具有使用方便的优势，可应用于复杂声学环境下的多人多方对话场景。
文档编号G10L15/08GK102074236SQ20101056838
公开日2011年5月25日申请日期2010年11月29日优先权日2010年11月29日
发明者刘加, 杨毅申请人:清华大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨毅;刘加
技术所有人：清华大学
我是此专利的发明人

上一篇：一种基于线性干扰抵消的语音隐秘通信方法
上一篇：基于直方图不变特性的数字音频水印方法