一种会议音频中的精彩说话人发现方法

文档序号：2829129阅读：355来源：国知局

专利名称：一种会议音频中的精彩说话人发现方法
技术领域：
本发明涉及语音信号处理和模式识别技术，尤其涉及一种会议音频中的精彩说话人发现方法。
背景技术：
精彩说话人是指在多人会话的会议中，能够引起听众共鸣或使听众产生高兴、激动等积极情感反应的说话人。精彩说话人是与会人员中的关键说话人或重要说话人。人们在浏览分析会议音频记录时，一般最想聆听的就是精彩说话人的精彩发言。因此，快速有效地发现会议音频中的精彩说话人，即得到精彩说话人个数及其精彩发言，对于会议音频的快速浏览、摘要提取、说话人检索等应用都具有非常重要的意义。
在多人会话的会议中，听众听到精彩发言时一般都会自发地鼓掌，表示对说话人所说内容的认可。而且，认可的程度越高，掌声响度越大、掌声持续时间越长。因此，通过检测会议音频中的掌声音频段就可以快速地定位精彩说话人的精彩语音段，然后再采用说话人聚类技术对各个精彩语音段进行聚类处理，得到会议音频中的精彩说话人的个数、精彩语音段及精彩语音段出现的位置。发明内容
针对上述技术问题，本发明的目的在于提供一种基于掌声检测和说话人聚类的会议音频中精彩说话人发现方法，高效快捷的得到会议音频中的精彩说话人的个数、精彩语音段及精彩语音段出现的位置。
本发明是通过如下技术方案来实现: 一种会议音频中的精彩说话人发现方法，包括如下步骤: 51)读入会议音频:读入记录有多说话人语音的会议音频文件； 52)精彩语音提取:通过基于门限判决的静音检测从上述读入的会议音频中找出所有静音段和音频段，再从上述音频段中检测出掌声音频段，最后将各个掌声音频段前面5秒语音段提取出来作为精彩语音段，同时得到这些精彩语音段在会议音频中出现的位置； 53)说话人聚类:从上述精彩语音段中提取梅尔频率倒谱系数(MelFrequencyCepstral Coefficients, MFCCs)及其一阶差分(Delta-MFCCs)的音频特征，再采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类，得到精彩说话人个数及其精彩语音段。
进一步地，所述步骤2)中的静音检测具体包括以下步骤:S 2 O I ) 将读入的会议音频分成T帧，帧长为40毫秒(帧长对应的采样点个数W = 0-04 X /s ,其中/s力音频信号的采样频率)，帧移为20毫秒，如果最后一帧语音的采样点个数小于N，则将其舍去； S202)计算第f帧音频信号A的能量ft:
权利要求
1.一种会议音频中的精彩说话人发现方法，其特征在于，包括如下步骤: 51)读入会议音频:读入记录有多说话人语音的会议音频文件； 52)精彩语音提取:通过基于门限判决的静音检测从上述读入的会议音频中找出所有静音段和音频段，再从上述音频段中检测出掌声音频段，最后将各个掌声音频段前面5秒语音段提取出来作为精彩语音段，同时得到这些精彩语音段在会议音频中出现的位置； 53)说话人聚类:从上述精彩语音段中提取梅尔频率倒谱系数及其一阶差分的音频特征，再采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类，得到精彩说话人个数及其精彩语音段。
2.根据权利要求1所述的会议音频中的精彩说话人发现方法，其特征在于，所述步骤S2中的静音检测具体包括以下步骤: S 2 O I ) 将读入的会议音频分成T帧，帧长为40毫秒，帧移为20毫秒，如果最后一帧语音的采样点个数小于N，则将其舍去; 5202)计算第
3.根据权利要求1所述的会议音频中的精彩说话人发现方法，其特征在于，所述步骤S2中从音频段中检测掌声音频段及提取精彩语音段具体包括以下步骤: 5211)将上述提取出来的各个音频段的时长与一个最短掌声音频段时长门限7"mi 进行比较，如果某个音频段的时长小于门限Tmin，则该音频段被判为非掌声音频段；否则，继续提取该音频段的基音频率G; 5212)如果上述提取出来的基音频率全部为零，则该音频段被判为掌声音频段，否则，按下述步骤将该音频段判为非掌声音频段或混合音频段； 5213)计算上述音频段中所有基音频率为零的子段和所有基音频率不为零的子段的时长；5214)如果上述音频段中有某个零值子段的时长既大于其紧邻的前一个非零值子段时长又大于其紧邻的后一个非零值子段时长，则上述音频段被判为混合音频段，并将满足上述条件的零值子段判为掌声音频段；否则，该零值子段被判为非掌声音频段； 5215)如果上述音频段中没有一个零值子段既大于其紧邻的前一个非零值子段时长又大于其紧邻的后一个非零值子段时长，则上述音频段整体被判为非掌声音频段； 5216)提取上述各掌声音频段前面5秒语音作为精彩语音段，各个掌声音频段出现位置前5秒即为相应精彩语音段在会议音频中的位置； 5217)重复步骤S211至S216，直到提取出所有精彩语音段及其出现的位置为止。
4.根据权利要求1所述的会议音频中的精彩说话人发现方法，其特征在于，所述步骤S211中提取音频段的基音频率具体包括以下步骤: 52111)首频段的分巾贞:设置首频巾贞的巾贞长为40晕秒、巾贞移为20晕秒,巾贞长和巾贞移所对应的采样点个数分别为
5.根据权利要求1所述的会议音频中的精彩说话人发现方法，其特征在于，从上述精彩语音段中提取梅尔频率倒谱系数及其一阶差分的音频特征的具体步骤如下: 5301)将精彩语音段分成:Γ帧，帧长为40毫秒，帧移为20毫秒，如果最后一帧语音的采样点个数小于W，则将其舍去； 5302)对第t(l<f <7>帧精彩语音票做离散傅立叶变换得到线性频谱K幻:
6.根据权利要求1所述的会议音频中的精彩说话人发现方法，其特征在于，步骤S3中采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类的具体步骤如下: S311)根据各个特征矩阵5得到所有待聚类精彩语音段的特征矩阵集合F = UJ, j为精彩语音段总个数，再根据μ构造亲和矩阵4E , A的第(/".)个元素义如下:
全文摘要
一种会议音频中的精彩说话人发现方法，步骤如下读入会议音频；检测上述音频中的掌声音频段，将各个掌声音频段前面5秒语音段提取出来作为精彩语音段，同时得到精彩语音段在会议音频中出现的位置；对上述精彩语音段进行说话人聚类，得到精彩说话人个数及其精彩语音段。本发明的有益效果是基于掌声检测和说话人聚类，快速有效地估计出会议音频中的精彩说话人个数、精彩语音段及其在会议音频中出现的位置，为会议音频的快速浏览、摘要提取、说话人检索等奠定基础。
文档编号G10L25/78GK103137137SQ20131006116
公开日2013年6月5日申请日期2013年2月27日优先权日2013年2月27日
发明者李艳雄, 吴伟, 贺前华, 李广隆申请人:华南理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李艳雄;吴伟;贺前华;李广隆
技术所有人：华南理工大学
我是此专利的发明人