一种基于贝叶斯信息准则的线上说话人聚类分析方法

文档序号:2825554阅读:1065来源:国知局
一种基于贝叶斯信息准则的线上说话人聚类分析方法
【专利摘要】本发明涉及线上说话人聚类分析,具体涉及一种基于贝叶斯信息准则的线上说话人聚类分析方法,它将原始音频信号采集后通过贝叶斯信息准则分段成已有边界的音频片段,然后再对音频片段进行音频特征提取,再将将具备音频特征片段通过贝叶斯信息准则聚类,形成若干聚类族1、聚类族2…聚类族n,最终形成聚类模块它采用将贝叶斯信息准则模型应用到人聚类分析过程中的音频信号动态分段和高效分类聚合的问题的两个模块中,极大的提高了分段的准确度,保证了聚类的高效性,能够在不需要原始说话人语音资料的前提下,实现高效的在线说话人信号的并行转录、分段、分类和聚合。
【专利说明】一种基于贝叶斯信息准则的线上说话人聚类分析方法
【技术领域】
[0001]本发明涉及线上说话人聚类分析,具体涉及一种基于贝叶斯信息准则的线上说话人聚类分析方法。
【背景技术】
[0002]线上说话人聚类分析是用来对播客新闻、电话会议以及影片剪辑等场景中的多个说话人的发音进行划分和聚类的过程,该方法需要对场景中的同一个说话人发出的声音给以同样的标签,它并不关注语音信号中的语义内容,而是需要从各个说话人的发音中挖掘出说话人之间的个性差异。在整个分析过程中,连续音频信号的分段是作为进一步进行说话人识别、认证、噪声消除和背景声分离的预处理过程。在自动转录应用等系统中,该分段过程允许使用说话人、信道或者特定环境的声学模型以提高系统的识别率。
[0003]目前已有的说话人聚类系统的输出通常是基于同一个说话人语音信息的自适应识别结果,这部分聚类信息在进行语音标注的过程中非常有用,但是需要有说话人的语音资料作为原始数据。通常情况下,系统中不存在这样的原始语音数据,因此,该方法增加了系统分析的复杂度。
[0004]在经典的层次聚类算法中,不同的聚类数目被假设基于局部的相似度或者距离评判准则,然后全局的评估准则从当前的聚类数目中找到最大的聚类数据作为最终结果。这样的方法存在两个缺点,一是:不能够用来构建在线的实时性增量聚类系统;二是:尝试进行不同聚类数目的计算和评估具有较大的系统时间开销,由于需要对近乎所有的聚类组合进行计算和分析,聚类的时间有可能呈指数级地增长。这些不足导致了传统的方法无法真正的实现快速、高效地线上说话人聚类分析。

【发明内容】

[0005]本发明的目的在于针对现有技术的缺陷和不足,提供能解决了说话人聚类分析过程中的音频信号动态分段和高效分类聚合的问题的一种基于贝叶斯信息准则的线上说话人聚类分析方法,它采用将贝叶斯信息准则模型应用到人聚类分析过程中的音频信号动态分段和高效分类聚合的问题的两个模块中,极大的提高了分段的准确度,保证了聚类的高效性。
[0006]为实现上述目的,本发明采用的技术方案是:
[0007]—种基于贝叶斯信息准则的线上说话人聚类分析方法,其特征在于:使用已有的基于人耳感知的Mel频率倒谱系数MFCC作为说话人聚类分析的基本语音特征,采取贝叶斯信息准则作为数据边界划分模块和说话人聚类模块的决策方案。这样可以得到较高的分段准确率和较高效、准确的聚类结果。
[0008]在传统的分段过程中,如果分帧较大,一些信号片段有可能在非边界处被切分,从而导致聚类信息丢失;如果分帧较小,可能由于每个片段的特征数据过少导致无法识别和分类。[0009]在传统的聚类过程中,系统首先需要采集说话人的原始数据样本,然后根据得到的样本对待识别的音频片段做出自适应和标注,该方法具有一定的准确率,但是需要系统存有待标注的所有说话人的历史语音资料库。
[0010]上述方法,其主要有以下几个方面:
[0011]a.在数据分段过程中,分帧窗口的大小需要采用变长模式,以避免不同长度的语音信号出现错误地划分和分段。
[0012]b.在数据分段过程中,如果分帧窗口较小,需要较缓慢的增加窗口的大小;如果分帧窗口较大,需要快速的增加窗口的大小。
[0013]c.在信号聚类过程中,减少或者完全消除对说话人原始语音资料库的依赖。
[0014]d.在信号聚类过程中,采用新方法达到的聚类准确率应该保持在已有聚类算法达到的准确率之上。
[0015]本发明除了需要引进新的分段和类聚算法满足上述要求,还需要给出新算法的实验结果和已有算法的实验结果之间的准确度比较和说明。
[0016]4.根据权利要求2所描述的方法,本发明构建了新的基于贝叶斯信息准则的线上说话人聚类分析算法,具体描述如下:
[0017]贝叶斯信息准则(Bayesian Information Criterion, BIC)作为优化的贝叶斯模型选择准则,通常用来决策多个模型中,哪个模型能够对已有的η个观测数据进行较好的呈现和匹配。对于η个独立的观测数据Xl,...,xn, Xi e Rd,假设每个模型Mj的待定参数个数为kj;并且观测数据Xi之间是相互独立的。根据BIC理论,对于足够大的n,如果想要得到较好的数据模型,就需要找到使得如下表达式取得最大值的参数组合:.1
[0018]
【权利要求】
1.一种基于贝叶斯信息准则的线上说话人聚类分析方法,其特征在于:其方法为:使用已有的基于人耳感知的Mel频率倒谱系数MFCC作为说话人聚类分析的基本语音特征,采取贝叶斯信息准则作为数据边界划分模块和说话人聚类模块的决策方法,其具体方法步骤如下: 第一步,采用原始基本语音特征数据:将采集到的原始音频信号,通过使用基于人耳感知的Mel频率倒谱系数作为说话人聚类分析的基本语音特征,形成原始基本语音特征数据; 第二步,采用贝叶斯信息准则进行音频数据分段:将原始基本语音特征数据通过贝叶斯信息准则进行分段; 第三步,音频特征的提取:采用贝叶斯信息准则对数据的边界进行评估; 第四步,利用贝叶斯信息准则对准确边界划分的音频片段进行聚类:该聚类的准则是新的数据段归并到已有数据簇和开辟新的数据簇的收益代价之差,且选出含有有效数据的段进行聚类,其它的段被统一划归到垃圾簇,最终由若干聚类族形成聚类模块。
2.根据权利要求1所述的线上说话人聚类分析方法,其特征在于:所述第二步中,通过贝叶斯信息准则进行分段的方法如下: 其一,在数据分段过程中,分帧窗口的大小需要采用变长模式,以避免不同长度的语音信号出现错误地划分和分段; 其二,在数据分段过程中,如果分帧窗口较小,需要较缓慢的增加窗口的大小;如果分帧窗口较大,需要快速的增加窗口的大小;在数据分段过程中,引进变长窗口,尝试在当前窗口中寻找满足条件的边界,如果没有找到候选的边界,就给当前窗口增加Λ Ni帧,如果依然没能找到边界,则继续向窗口中添加ANi+l帧,其中ANi =ΔΝ?+1+--, =2^i+l ;如此叠加直到在窗口中找到边`界或者窗长已经延续到最大长度。
3.根据权利要求2所述的线上说话人聚类分析方法,其特征在于:在所述其二中,在窗长发生变化时,需要采用变形的Λ BIC表达式给出合理地边界划分决策:
Δ BIC=-n/2.log +i/2.log f | + (n-1) log s | +1/2.e (d+d(d+l)/2) 1gn 其中I I是模型M1中全部窗口的协方差之和,I f|是模型M2中第一个子切分(X1,…,Xi)的全部窗口的协方差之和,I s|是第二个子切分{xi+1,…,Χη}的全部窗口的协方差之和。
4.根据权利要求1所述的线上说话人聚类分析方法,其特征在于:所述第三布中,采用贝叶斯信息准则对数据的边界进行评估的方法为: 设窗口的初始长度为100帧长,接下来尝试在当前窗口中寻找满足条件的边界, 如果没有找到候选的边界,就给当前窗口增加ANi帧,如果依然没能找到边界,则继续向窗口中添加ANi+1中贞,其中ANi=ANw+ ^ii,^ii =2\+1 ;如此叠加直到在窗口中找到边界或者窗长已经延续到最大长度; 如果通过上述方法已经找到了候选的边界,则窗口重定位到当前的边界处,重复上述分析过程直到找到所有的候选边界;然后从每个片段连续的音频流中得到IOms间隔的MFCC特征向量作为聚类的准则,使用标准的24维MFCC信息作为基本的音频特征;得到若干进行了准确边界划分的音频片段,形成音频信号分段模块。
5.根据权利要求1所述的线上说话人聚类分析方法,其特征在于:所述四步中,在信号聚类过程中,从每个片段连续的音频流中得到IOms间隔的MFCC特征向量作为聚类的准则,将已分段的若干音频片段不断进行组合,形成聚类簇,将新加入的已准确边界划分好音频片段,当有新的数据特征段加入的时候,对于所有可能的(i,j)组合,将计算出合并收益(Ci,Sj)和合并收益 (Si,Sj),其中, (Xi, Xj) =BIC(Xi U Xj)-BIC (Xi,Xj); Xi和Xj代表一个聚类簇或者新的数据特征段,此时,通过计算最大似然收益Λ BICMAX来决策是否进行聚合; 如果最大似然收益值为正,则需要合并当前的组合{CiO,S j0}或者{SiO,S j0}; 如果最大似然 收益值为负,则需要在保持现有簇独立的情况下,创建新的聚类簇。
【文档编号】G10L25/27GK103871424SQ201210541541
【公开日】2014年6月18日 申请日期:2012年12月13日 优先权日:2012年12月13日
【发明者】王雷 申请人:上海八方视界网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1