音频编辑系统和音频编辑方法

文档序号：2824028阅读：484来源：国知局

专利名称：音频编辑系统和音频编辑方法
技术领域：
本发明涉及音频聚类技术领域，特别涉及一种音频编辑系统和音频编辑方法。
背景技术：
说话人聚类是聚类技术在语音信号处理方面的一个具体应用，其目的是通过对语音段进行分类，使得每一类只包含同一个说话人数据，并且同一说话人的数据都被归并到同一类中，从而获取说话人的特定信息。从应用角度讲，说话人聚类技术可以应用于音频信息管理，检索等领域。它有助于在会议，语音邮箱、讲座以及新闻广播节目的音频流中实现说话人跟踪，从而实现对音频数据的结构化分析，理解和管理。特别的，聚类算法对语音识别系统也有非常重要的实用价值，当今几乎所有的自动语音识别系统都采用了自适应技术，而聚类算法的好坏将直接影响说话人自适应的性能。对一个说话人聚类系统来说，最为关键的一个步骤是对音频数据进行说话人的分割，只有分割的正确，才能使得后端的聚类性能有所保障。针对不同的聚类系统架构，有两种典型的说话人分割技术首先，对分步分割聚类系统来说，以非专利文献1为代表，首先通过音频距离计算的方法将音频流进行说话人切分，之后再将分散的语音段落进行归并，实现聚类的目的；其次，对同步分割聚类系统来说，以非专利文献2系统作为代表，一般为基于模型的方法，在分割的同时完成了聚类。这两种框架各有优缺点，前者在聚类过程中不加修正地继承了分割步骤的错误，由于距离测算的方法有一定局限性，会产生错误的累积；而后者由于大多使用的为隐马尔科夫模型，模型的初始化通过对音频数据直接进行等分来进行，初始引入的误差较大，给模型的收敛速度带来一定的问题，同时由于隐马尔科夫模型基于帧进行分类的特点，在进行切分的时候不加限制会引入一定的误差，一般的做法是对每一个隐马尔科夫模型的停驻时间加一定的时长限制，这种做法给系统的灵活性带来了很大的局限。非专禾0 文献 1 :Dan Istrate, Corinne Fredouille, Sylvain Meignier. NIST RT' 05S evaluation-Pre-processing techniques and Speaker Diarization on Multiple Microphone meetings. Machine Learning for Multimodal Interaction. 2006非专利文献 2 :Fredouille, C. and Senay, G. , Technical improvements of the e-hmm based speaker diarization system for meeting records,Machine Learning for Multimodal Interaction,200
发明内容
为了克服所述现有技术的不足，本发明提出了一种结合距离测算，说话人聚类以及模型分割三种技术的说话人分割框架。本发明的目的是通过距离测算得到音频流的初始切分信息；利用说话人聚类技术得到说话人种子数据类，并训练相应的说话人隐马尔科夫模型；同时，利用初始切分得到的片段数目控制了隐马尔克夫模型的搜索空间构造，在切分过程中迭代更新模型，从而提高说话人分割的性能。
为了实现所述目的，本发明提供了一种音频编辑系统，包括读取装置，将音频流读取到所述音频编辑系统中；初始切分装置，将由所述读取装置读取的音频流初始切分为多个不同的片段；音频聚类装置，基于层次聚类的算法，对由所述初始切分装置初始切分的多个片段进行有监督聚类，将属于同一性质的片段聚成一个类别；重新切分装置，利用所述音频聚类装置聚类的结果，训练得到每个类别相应的隐马尔科夫模型，并对所述音频流进行维特比对齐切分，得到按类别切分后的音频流。另外，本发明提供了一种音频编辑系统，包括读取装置，将多个声道的音频流读取到所述音频编辑系统中；多个初始切分装置，分别将由所述读取装置读取的来自多个声道的音频流初始切分为多个不同的段落；多声道融合装置，对所述多个初始切分装置的切分点进行综合，并从每两个相邻的切分点之间选择最优的声道的音频流，从而得到多个初始切分片段，并且将得到的所述多个初始切分片段融合形成统一音频数据文件；音频聚类装置，基于层次聚类的算法，对所述多个初始切分片段进行有监督聚类，将属于同一性质的初始切分片段聚成一个类别；重新切分装置，利用所述音频聚类装置聚类的结果，训练得到每个类别相应的隐马尔科夫模型，并对所述统一音频文件进行维特比对齐切分，得到按类别切分后的音频流。为了实现所述目的，一种音频编辑系统中的音频编辑方法，包括读取步骤，将音频流读取到所述音频编辑系统中；初始切分步骤，将由所述读取步骤读取的音频流初始切分为多个不同的片段；音频聚类步骤，基于层次聚类的算法，对由所述初始切分步骤初始切分的多个片段进行有监督聚类，将属于同一性质的片段聚成一个类别；重新切分步骤，利用所述音频聚类步骤聚类的结果，训练得到每个类别相应的隐马尔科夫模型，并对所述音频流进行维特比对齐切分，得到按类别切分后的音频流。另外，本发明提供了一种音频编辑系统中的音频编辑方法，包括读取步骤，将多个声道的音频流读取到所述音频编辑系统中；切分步骤，分别将所述多个声道的音频流初始切分为多个不同的段落；多声道融合步骤，对在所述切分步骤中得到的切分点进行综合，并从每两个相邻的切分点之间选择最优的声道的音频流，从而得到多个初始切分片段，并且将得到的所述多个初始切分片段融合形成统一音频数据文件；音频聚类步骤，基于层次聚类的算法，对所述多个初始切分片段进行有监督聚类，将属于同一性质的初始切分片段聚成一个类别；重新切分步骤，利用所述音频聚类步骤中聚类的结果，训练得到每个类别相应的隐马尔科夫模型，并对所述统一音频文件进行维特比对齐切分，得到按类别切分后的音频流。本发明的优点是，利用了多麦克的信道信息相融合获得更加完备的说话人切分信息；同时，利用距离测算的方法，得到了音频流中潜在的音频性质转折点，并获得了潜在的音频段落数目，利用该数字控制隐马尔科夫模型搜索空间的循环单元的循环次数，相比给隐马尔科夫模型增加时长限制的做法，提供了更大的灵活性；利用说话人聚类技术，首先通过有监督聚类控制聚类深度，得到了说话人的种子数据类别，相比较通过数据均分作为模型初始化数据的做法来说，模型的误差更小，收敛速度更快，分割也将更为准确。另外，本发明结合了分步聚类中的距离计算和同步聚类中的模型分割两种技术，并利用测试数据本身训练更新模型，数据依赖性小，可作为一种应用于说话人聚类系统中的通用技术。

图1是本发明的说话人聚类系统的方框图；图2是本发明的模型分割部分搜索空间示意图；图3是本发明的说话人聚类系统中的段落切分器的方框图；图4是本发明的距离测算分段器处理流程示意图；图5是合并层次聚类算法的流程示意图；图6是本发明的多麦克信道融合器框架示意图；图7是本发明的信道切分信息融合方案示意图；图8是本发明的隐马尔科夫模型重分割器的流程示意图。
具体实施例方式下面结合具体实施例和附图对本发明进行详细描述。在下面的说明中为了说明的方便而划分为多个实施例，但各个实施例只是例示，本领域的技术人员应该理解各种变形例、修正例、代替例、置换例等。为了促进发明的理解而使用具体的数值例子进行了说明，但没有特别说明的情况下，那些数值只是一个例子，可使用适当的任何值。为了促进发明的理解而使用具体的数学式进行了说明，但没有特别说明的情况下，那些数学式只是一个例子，可使用适当的任何数学式。各个实施例的区分对于本发明并不是本质性的，可适当地组合在各个实施例中说明的事项。为了便于说明，本发明的实施例的装置使用功能性的框图进行了说明，但那样的装置可以由硬件、软件或者它们的组合来实现。本发明并不限定于所述的实施例，各种变形例、修正例、代替例、置换例等包含在本发明中而不脱离本发明的精神。另外，在下面的描述中主要以在语音分割领域的应用为例来说明本发明，但是本领域技术人员应当明白，在相似的音频领域中，可以对语音以外的任何对象应用本发明而不应限定在本发明所举出的实施例的范围。因此，在下文中主要作为说话人聚类系统对本发明的音频编辑系统进行说明。图1是本发明的说话人聚类系统的方框图，如图1所示，说话人聚类系统10包括多个麦克1 N、与多个麦克分别对应的多个段落切分器101-1 101-N、多麦克信道融合器102、语音非语音判别器103、说话人聚类器104、模型重分割器105、说话人聚类器106。其中，多个段落切分器101-1 101-N中包括音频特征提取器1011-1 1011 N、以及距离测算分段器1012-1 1012 N。另外，以下如不特别指定，凡存在多个具有相同功能的器件的情况下，仅就一个进行说明。下面，作为麦克1、段落切分器101、音频特征提取器1011 和距离测算分段器1012来进行说明。下面，就说话人聚类系统10的进行具体说明。作为说话人聚类系统10的典型的应用例子，可以将其设置在会议室中。在应用说话人聚类系统10的情况下，通常在希望进行音频采样的环境，比如会议室中，在规定的位置或不固定的位置上设置多个麦克，以同时对环境音进行采样，并将有待处理的由多个麦克分别录制的音频数据送入后级的各个部分进行处理。在此，作为本申请的说话人聚类系统10不是必须包括麦克1 N，其也可以代替麦克1 N而设置读取装置(图中未示出)，并通过读取装置将保存在记录介质中的事先以相同方式录制的多声道的音频数据读取到本发明的说话人聚类系统中来进行同样的处理。当然，在本实施例中，设置多个麦克1 N，采用多个声道的音频数据的目的，在于通过从多个声道的音频数据中进行选优、综合，从而提高后续的音频处理的可靠性和效率性。换言之，例如在空间比较小的环境中，或者考虑到成本等诸多因素，在实际使用中也可以仅仅采用一个声道的音频数据来进行音频处理，这是本领域技术人员能够理解的。通过多个麦克1 N采样的音频流被输入到段落切分器101中。在段落切分器 101中，将来自麦克1的音频流初始切分为多个不同的段落。作为段落切分器101只要能够将音频流切分成多个不同的段落，则可以采用各种不同的算法或方式。本发明中采用的是基于MFCC音频特征，通过测算滑动窗间距离来进行的。首先，(1)将每一个麦克录制的音频数据输入段落切分器101中的音频特征提取器 1011，进行预处理，包括分帧处理。在本实施例中，预处理主要采用如下流程2-1)通过预加重进行高频提升预加重滤波器是:Η(ζ) = 1-α z-1，其中α = 0· 98。2-2)将数据进行分帧处理取帧长25ms、帧间重叠15ms，可根据需要适当调整；2-3)加窗处理窗函数采用常用的hamming窗函数 w{n) = 0.54 - 0.46 cos(-)
N - \其中，0彡η彡N-I，η代表采样点数目。随后提取MFCC (Mel倒谱系数)，参数特征提取方法(参见“Reynolds，D. A. and Rose, R. C. , Robust text-independent speaker identification using Gaussian mixture speaker models,IEEE transactions on Speech and Audio Processing,1995"), 为增加特征的鲁棒性，对特征进行倒谱均值，方差规整技术处理。(2)将由音频特征提取器1011处理后的每一个音频数据对应的特征数据输入连接在音频特征提取器1011后级的距离测算分段器1012，寻找其内部的音频性质转变点，如图4所示，在本实施例中，主要采用如下流程2-1)首先为切分过程中，先对输入音频信号提取12维MFCC特征，帧长为25ms，然后对特征进行加窗，每窗窗长为50帧，假设窗内的特征矢量服从高斯分布Ν(μ1;Σ D和 Ν(μ2，Σ 2)，计算两窗之间的Miattachayya距离，如式(I)0由此我们可以得到一系列的窗间距离点，例如根据“Lu,L. and Zhang,H. J. ,Speaker change detection and tracking in real-time news broadcasting analysis,Proceedings of the tenth ACM international conference on Multimedia, 2006"中提出的选择变化点的准则，我们对输入的音频文件进行切分。
权利要求
1.一种音频编辑系统，包括读取装置，将音频流读取到所述音频编辑系统中；初始切分装置，将由所述读取装置读取的音频流初始切分为多个不同的片段；音频聚类装置，基于层次聚类的算法，对由所述初始切分装置初始切分的多个片段进行有监督聚类，将属于同一性质的片段聚成一个类别；重新切分装置，利用所述音频聚类装置聚类的结果，训练得到每个类别相应的隐马尔科夫模型，并对所述音频流进行维特比对齐切分，得到按类别切分后的音频流。
2.如权利要求1所述的音频编辑系统，其中，所述初始切分装置包括音频特征提取装置，用于从前向后顺序地对所述音频流进行加窗，并提取窗内音频信号的特征信息；以及距离测算分段器，用于通过从前向后顺序的分别对来自所述音频特征提取装置的所述特征信息进行加滑动窗，计算相邻窗内的音频距离，从而按音频流音频性质转折点将音频流切分为多个段落。
3.如权利要求2所述的音频编辑系统，其中，将小于Is的片段平均分给上下两个相邻的段落。
4.如权利要求1所述的音频编辑系统，其中，还包括音频有效性判别器，用于对在所述初始切分装置中得到的多个片段分别判别其是否为有效音频，并删除被判断为无效音频的片段，所述音频聚类装置对所述音频有效性判别器进行删除后剩余的片段进行所述有监督聚类。
5.如权利要求4所述的音频编辑系统，其中，所述无效音频为空白音频或噪声音频。
6.如权利要求1所述的音频编辑系统，其中，还包括重新聚类装置，对所述重新切分装置切分后的所述音频流进行无监督聚类。
7.一种音频编辑系统，包括读取装置，将多个声道的音频流读取到所述音频编辑系统中；多个初始切分装置，分别将由所述读取装置读取的来自多个声道的音频流初始切分为多个不同的段落；多声道融合装置，对所述多个初始切分装置的切分点进行综合，并从每两个相邻的切分点之间选择最优的声道的音频流，从而得到多个初始切分片段，并且将得到的所述多个初始切分片段融合形成统一音频数据文件；音频聚类装置，基于层次聚类的算法，对所述多个初始切分片段进行有监督聚类，将属于同一性质的初始切分片段聚成一个类别；重新切分装置，利用所述音频聚类装置聚类的结果，训练得到每个类别相应的隐马尔科夫模型，并对所述统一音频文件进行维特比对齐切分，得到按类别切分后的音频流。
8.如权利要求7所述的音频编辑系统，其中，所述多个初始切分装置的每个包括音频特征提取装置，用于从前向后顺序地对所述音频流进行加窗，并提取窗内音频信号的特征信息；以及距离测算分段器，用于通过从前向后顺序的分别对来自所述音频特征提取装置的所述特征信息进行加滑动窗，计算相邻窗内的音频距离，从而按音频流音频性质转折点将音频流切分为多个段落。
9.如权利要求8所述的音频编辑系统，其中，将小于Is的片段平均分给上下两个相邻的段落。
10.如权利要求7所述的音频编辑系统，其中，还包括音频有效性判别器，用于对在所述多声道融合装置中得到的所述多个初始切分片段分别判别其是否为有效音频，并删除被判断为无效音频的初始切分片段，所述音频聚类装置对所述音频有效性判别器进行删除后剩余的初始切分片段进行所述有监督聚类。
11.如权利要求10所述的音频编辑系统，其中，所述无效音频为空白音频或噪声音频。
12.如权利要求7所述的音频编辑系统，其中，还包括重新聚类装置，对所述重新切分装置切分后的所述音频流进行无监督聚类。
13.一种音频编辑系统中的音频编辑方法，包括读取步骤，将音频流读取到所述音频编辑系统中；初始切分步骤，将由所述读取步骤读取的音频流初始切分为多个不同的片段；音频聚类步骤，基于层次聚类的算法，对由所述初始切分步骤初始切分的多个片段进行有监督聚类，将属于同一性质的片段聚成一个类别；重新切分步骤，利用所述音频聚类步骤聚类的结果，训练得到每个类别相应的隐马尔科夫模型，并对所述音频流进行维特比对齐切分，得到按类别切分后的音频流。
14.一种音频编辑系统中的音频编辑方法，包括读取步骤，将多个声道的音频流读取到所述音频编辑系统中；切分步骤，分别将所述多个声道的音频流初始切分为多个不同的段落；多声道融合步骤，对在所述切分步骤中得到的切分点进行综合，并从每两个相邻的切分点之间选择最优的声道的音频流，从而得到多个初始切分片段，并且将得到的所述多个初始切分片段融合形成统一音频数据文件；音频聚类步骤，基于层次聚类的算法，对所述多个初始切分片段进行有监督聚类，将属于同一性质的初始切分片段聚成一个类别；重新切分步骤，利用所述音频聚类步骤中聚类的结果，训练得到每个类别相应的隐马尔科夫模型，并对所述统一音频文件进行维特比对齐切分，得到按类别切分后的音频流。
全文摘要
音频编辑系统包括多个初始切分装置，分别将来自多个声道的音频流初始切分为多个不同的段落；多声道融合装置，对多个初始切分装置的切分点进行综合，并从每两个相邻的切分点之间选择最优的声道的音频流，从而得到多个初始切分片段，并且将得到的多个初始切分片段融合形成统一音频数据文件；音频聚类装置，基于层次聚类的算法，对多个初始切分片段进行有监督聚类，将属于同一性质的初始切分片段聚成一个类别；重新切分装置，利用音频聚类装置聚类的结果，训练得到每个类别相应的隐马尔科夫模型，并对统一音频文件进行维特比对齐切分，得到重新切分后的音频流。通过以上高精度的说话人切分系统，能够提高最终说话人聚类的准确性。
文档编号G10L15/14GK102543080SQ20101061416
公开日2012年7月4日申请日期2010年12月24日优先权日2010年12月24日
发明者刘昆, 卢鲤, 吴伟国, 赵庆卫, 颜永红申请人:中国科学院声学研究所, 索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卢鲤;赵庆卫;颜永红;刘昆;吴伟国
技术所有人：索尼公司;中国科学院声学研究所
我是此专利的发明人

上一篇：语音识别方法和语音识别系统的制作方法
上一篇：一种基于蓝牙传输的智能家居语音控制系统及方法