一种基于说话人分割的会议主持人语音提取方法

文档序号：2826331阅读：786来源：国知局

一种基于说话人分割的会议主持人语音提取方法
【专利摘要】本发明公开了一种基于说话人分割的会议主持人语音提取方法，包括如下步骤：S1、读入记录有会议语音的音频文件；S2、说话人分割：检测上述会议语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段；S3、语音段距离比较：将说话人分割之后的第一个语音段作为会议主持人的语音，并比较该语音段与其他语音段的距离，将距离小于门限的语音段也判为会议主持人语音，从而得到会议主持人的所有语音段。本发明为会议语音的快速浏览、主题提取、说话人检索等奠定了基础，具有能快速有效地提取出会议主持人的语音等优点。
【专利说明】一种基于说话人分割的会议主持人语音提取方法【技术领域】[0001]本发明涉及语音信号处理和模式识别技术，尤其涉及一种基于说话人分割的会议主持人语音提取方法。【背景技术】[0002]会议主持人是指在多人会话的会议中，使会议进程有序进行的说话人。在经常召开的讨论会、新闻发布会、演讲等会议中，一般都有一个会议主持人。主持人往往是整个会议的第一个发言人，他组织并引导与会者有序地参与会议议程的讨论。从会议主持人的发言中，可以得到该会议的主题、与会人员人数及身份、主要议程、会议决议等重要信息。这些信息是人们在浏览分析会议语音时最希望获取的。因此，快速有效地提取出会议主持人的语音，对于会议语音的快速浏览、主题提取、说话人检索等应用都具有非常重要的意义。目前的会议主持人语音提取方法流程如下:先对会议语音进行说话人分割，再对分割结果进行说话人聚类得到各个说话人语音，最后进行说话人角色分析得到会议主持人语音。目前的方法在说话人分割之后还需要进行说话人聚类和说话人角色分析才能得到会议主持人语音。因此，目前的方法存在步骤多、计算量大的缺点，难以实现快速的会议主持人语音提取。
【发明内容】
[0003]本发明的目的在于克服现有技术存在的缺点与不足，提供一种基于说话人分割的会议主持人语音提取方法，该方法能快速有效地提取出会议主持人的语音。[0004]本发明的目的通过以下技术方案实现:一种基于说话人分割的会议主持人语音提取方法，包括如下步骤:[0005]S1、读入记录有会议语音的音频文件；[0006]S2、说话人分割:检测上述会议语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段，所述语音段的个数等于改变点个数加I ;[0007]S3、语音段距离比较:将说话人分割之后的第一个语音段作为会议主持人的语音，并比较该语音段与其他语音段的距离，将距离小于门限的语音段也判为会议主持人语音，从而得到会议主持人的所有语音段。[0008]进一步地，所述S2说话人分割:检测上述会议语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段，具体为:[0009]S2.1、利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段；[0010]S2.2、将上述语音段按时间顺序拼接成一个长语音段，并从长语音段中提取音频特征；[0011]S2.3、利用上述提取的音频特征，根据贝叶斯信息准则，判断长语音段中相邻数据窗之间的相似度来检测说话人改变点；[0012]S2.4、依次把相邻两个改变点之间的语音样点作为一个语音段，从而将音频文件分割成多个语音段，且每个语音段包含一个说话人。[0013]进一步地，所述S2.1利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段，具体包括如下步骤:[0014]S2.1.1、对读入的会议语音进行分帧，并计算每帧语音的能量，得到会议语音的能量特征矢量;[0015]S2.1.2、计算每帧语音的能量门限；[0016]S2.1.3、将每帧语音的能量与能量门限比较，低于能量门限的帧为静音帧，否则为语音帧，将静音帧按时间顺序拼接成一个静音段，将语音帧按时间顺序拼接成一个语音段。[0017]进一步地，所述S3中比较第一个语音段X1与其他语音段Xi (i ^ 2)之间的距离，将距离小于门限的语音段也判为会议主持人语音，包括如下步骤:[0018]S3.1、将第一个语音段X1与其他语音段Xi都分为语音帧，再从每帧语音中提取梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCCs)及其一阶差分 (Delta-MFCCs)的音频特征，各个语音段的特征构成一个特征矩阵，语音段X1的特征矩阵为 F17Xi的特征矩阵为Fi (i^2)；[0019]S3.2、计算语音段X1与Xi之间的BIC距离，BIC距离计算公式如下:
【权利要求】
1.一种基于说话人分割的会议主持人语音提取方法，其特征在于，包括如下步骤:S1、读入记录有会议语音的音频文件；S2、对会议上说话人的语音进行分割:检测上述会议语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成若干个语音段，所述语音段的个数等于改变点个数加I ;S3、语音段距离比较:将说话人的语音进行分割之后的第一个语音段作为会议主持人的一部分语音，并比较该语音段与其他语音段的距离，并将距离小于门限的语音段也判为会议主持人的另一部分语音，根据分割后的第一个语音段和距离小于门限的语音段，得到会议主持人的全部语段。
2.根据权利要求1所述的会议语音中的主持人语音提取方法，其特征在于，所述步骤 S2包括以下步骤:S2.1、利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段；S2.2、将步骤S2.1中的语音段按时间顺序拼接成一个长语音段，并从长语音段中提取音频特征；S2.3、利用步骤S2.2中提取的音频特征，根据贝叶斯信息准则，判断长语音段中相邻数据窗之间的相似度来检测说话人改变点；S2.4、依次把相邻两个改变点之间的语音样点作为一个语音段，从而将音频文件分割成多个语音段，且每个语音段包含一个说话人的语音。
3.根据权利要求2所述的会议语音中的主持人语音提取方法，其特征在于，所述步骤 S2.1包括如下步骤:S2.1.1、对读入的会议语音进行分帧，并计算每帧语音的能量，得到会议语音的能量特征矢量；S2.1.2、计算每帧语音的能量门限；S2.1.3、将每帧语音的能量与能量门限比较，低于能量门限的帧为静音帧，否则为语音帧，将所有的静音帧都舍弃，并将语音帧按时间顺序拼接成一个语音段。
4.根据权利要求1所述的会议语音中的主持人语音提取方法，其特征在于，所述步骤 S3包括如下步骤:S3.1、将第一语音段X1与其他语音段Xi都分为语音帧，从每帧语音中提取梅尔频率倒谱系数及其一阶差分的音频特征，各个语音段的特征构成一个特征矩阵，语音段X1的特征矩阵为F1, Xi的特征矩阵为Fi,其中，i > 2 ;S3.2、计算语音段X1与Xi之间的BIC距离，所述BIC距离的计算公式如下:
【文档编号】G10L17/02GK103559882SQ201310479266
【公开日】2014年2月5日申请日期:2013年10月14日优先权日:2013年10月14日
【发明者】李艳雄, 金海 , 贺前华申请人:华南理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李艳雄;金海;贺前华
技术所有人：华南理工大学
我是此专利的发明人

上一篇：一种波形拼接语音合成的选音方法
上一篇：语音转换设备及其用于转换用户语音的方法