一种基于多距离声传感器的音频索引方法

文档序号：2819008阅读：292来源：国知局

专利名称：一种基于多距离声传感器的音频索引方法
技术领域：
本发明属于音频技术领域，涉及音频索引，具体涉及一种基于多距离声传感器的音频索引方法。
背景技术：
电话会议和视频会议日益深入商业活动和日常生活，与之对应的记录数据呈现几何级增长，在此类场景中通常在一段音频数据中存在多个声源。通过音频索引技术可以处理这类数据，减轻如语音识别等后处理方法的负担。音频索引技术从音频数据中自动提取信息进行搜索并发现目标内容，说话人分类是音频索引的关键技术，说话人分类技术包括三个部分特征提取、语音分段、分类决策。主要的算法为混合高斯对数似然比或支持向量机。前者采用通用性训练(如最大似然或MAP 估计)产生说话人模型，后者采用区分性训练(如GLDS-SVM和kg of N-grams)产生说话人模型。GMM-SVM(高斯混合模型-支持向量机)是一种主流的建模及分类方法，通过GMM 建立概率密度分布模型并通过KulllDack-Leibler散度上界来测量概率密度分布。GMM-SVM 方法拥有较佳的性能，但仍存在以下问题估计概率密度时GMM存在过多参数、训练数据有限、GMM-SVM主要针对说话人识别而未发展成为通用技术。说话人分类标记(Speech Diarization)评测于2005年首次进入美国国家标准局 (National Institute of Standards and Technology)的福标注(Rich Transcription Evaluation)评测。说话人自动分段标记的目的是解决将声音数据分成片段按说话人来分类的问题。2009年福标注评测条件为话者个数未知、麦克风位置未知、房间声学环境未知，即在时间和空间先验信息均缺失的场景下判断多个说话人的身份并对声音数据按说话人身份进行分类。SPKR评测是说话人分类标记评测中的一个重要子任务，主要研究“Who spoke when”的问题，其目的是将声音数据分成片段并按照不同说话人来分类。说话人分类技术可应用于语音识别、音频信息管理、检索等领域，有助于在会议、语音邮件、讲座以及新闻广播节目的音频流中实现说话人跟踪，从而实现对音频数据进行结构化的分析、理解和管理。多距离声传感器系统是一种由多个传感器组成的系统，对声传感器系统的结构无限制，每个声传感器被不同的设备控制，因此采集到的信号不同步。多距离声传感器系统的优势在于结构简单、便于使用和成本低廉，可以广泛应用于声源定位、音频索引和识别。基于多距离声传感器结构的特殊性，可以利用多时延特征用于进行空间不重叠声源的分类。但随着声传感器个数增加，多时延特征向量维数迅速增长。近来有文献指出，语音信号内部具有低维流型结构，Riemann于1邪4年首次提出流型(Manifold)方法，2005 年保局投影(Locality Preserving Proiections, LPP)被引入模式识别中并受到广泛关注。LPP是一种无监督的学习方法，在学习过程中未考虑样本的类别信息。Yu等在LPP的基础上结合Fisher准则提出了鉴别保局投影(Discriminant Locality Preserving Projections, DLPP)算法并成功地用于人脸识别。基于LPP的算法缺点降维处理会影响数据的流型分布导致鉴别信息丢失及小样本问题等。针对小样本问题Yang等人提出了一种零空间鉴别保局投影算法(Null-space Locality Preserving Projecitons, NDLPP)，但该方法仅利用了零空间的鉴别信息而忽略了主元空间中的鉴别信肩、ο

发明内容
为了克服上述现有技术的不足，本发明的目的在于提供了一种基于多距离声传感器的音频索引方法，通过利用多时延特征用于进行空间不重叠声源的分类，并对高维多时延特征向量进行基于流型的降维处理，由该算法得到的最优判别向量集理论上可以达到最优鉴别，可应用于复杂声学环境下的多人多方对话场景。为了实现上述目的，本发明采用的技术方案是一种基于多距离声传感器的音频索引方法，包括信息采集步骤、特征提取步骤以及分类决策步骤所述信息采集步骤通过多距离声传感器实现；所述特征提取步骤是将每个独立声源与多距离声传感器对之间的多个时延组成基于空间域的多时延声学特征，提取该空间域特征作为说话人的鉴别信息，定义到达时间差TDOA为空间特征的元素
权利要求
1.一种基于多距离声传感器的音频索引方法，包括信息采集步骤、特征提取步骤以及分类决策步骤，其特征在于所述信息采集步骤通过多距离声传感器实现；所述特征提取步骤是将每个独立声源与多距离声传感器对之间的多个时延组成基于空间域的多时延声学特征，提取该空间域特征作为说话人的鉴别信息，定义到达时间差 TDOA为空间特征的元素llm. -^11- m —STDOA = ^^^——]-——c其中Hli和分别代表第i个和第j个声传感器的空间位置，S为声源的空间位置，S为声源，c为声速，采用GCC-PHAT方法估计TDOA值，基于多距离声传感器得到的空间声学特征为Tk = [fn T13 L Tj其中k代表第k个说话人，i代表多距离声传感器系统中的第i个传感器，j代表多距离声传感器系统中的第j个传感器，T代表TDOA估计值，所述空间域特征的鉴别性结构在统计流型上保持一致，同时该流型不属于全局线性流型；所述分类决策步骤是根据信息采集步骤和特征提取步骤的结果采用对向量的分类方法来实现。
2.根据权利要求1所述的基于多距离声传感器的音频索引方法，其特征在于，所述特征提取步骤中提取时空加权融合特征，即，将所述空间域特征与传统的人类声学特征结合作为说话人的鉴别信息。
3.根据权利要求2所述的基于多距离声传感器的音频索引方法，其特征在于，将TDOA 向量和MFCC特征向量融合作为说话人的鉴别信息。
4.根据权利要求1所述的基于多距离声传感器的音频索引方法，其特征在于，在所述特征提取步骤完成后，分类决策步骤进行前，对多时延声学特征进行降维处理，通过单个声源在空间上的鉴别性来进行说话人分类。
5.根据权利要求4所述的基于多距离声传感器的音频索引方法，其特征在于，所述降维处理通过如下流型降维方法进行第一步，按如下公式对TDOA估计值预处理； \f[n-l] T[n\<Thr [T[n] T[n]>Thr其中n为某一帧的索引值，T为某一帧对应的时延数据，f为某一帧估计的时延数据，当某一时刻时延估计小于阈值Thr时，采用上一时刻的估计时延作为该时刻的时延估计值；第二步，利用节点间距离来决定最近邻图G ；第三步，计算权重值，当最近邻图G上的节点i和j之间有连线，则权重值的定义如下Mf a其中T代表每一帧的TDOA估计值向量，α为常数，Sij = Sji ；当最近邻图G上的节点i 和j之间没有连线，则Sij = O;第四步，决定特征映射，目标函数如下
6.根据权利要求5所述的基于多距离声传感器的音频索引方法，其特征在于，所述第二步中，节点间距离通过马氏距离来定义如下Clij = (Ti-Tj)T1 (Ti-Tj)1其中Clij为马氏距离，i和j为节点，i1」，T为每一帧的TDOA估计值向量，C为Ti和Tj 的协方差矩阵，图G由上式定义的距离来寻找邻近点。
7.根据权利要求5所述的基于多距离声传感器的音频索引方法，其特征在于，当分类算法完成后，分类决策由几个不同的分类器给出各自得分，通过决策级融合完成具有鲁棒性优化和最佳分类效果的决策输出。
8.根据权利要求7所述的基于多距离声传感器的音频索引方法，其特征在于，决策级融合后的分类决策即为分类结果，系统的输出包括全部的语音频段及其相应的分类信息。
9.根据权利要求1所述的基于多距离声传感器的音频索引方法，其特征在于，所述信息采集步骤后，特征提取步骤前，对各种语音信号预处理，所述预处理包括预加重和端点检测。
10.根据权利要求1所述的基于多距离声传感器的音频索引方法，其特征在于，所述多距离声传感器包括独立声传感器以及便携设备上的声传感器。
全文摘要
本发明为一种基于多距离声传感器的音频索引方法，使用多距离声传感器作为音频记录装置用于记录多媒体会议中的音频信息，并基于多距离声传感器提取一种空间多时延特征作为区分不同说话人的特征，用一种新的流型算法对多时延特征进行降维处理并按说话人身份进行分类，这种方法可降低系统的复杂度和计算代价，最后各个说话人的音频片段及其身份作为音频索引信息被系统输出，由该方法得到的最优判别向量集理论上可以达到最优鉴别，可应用于复杂声学环境下的多人多方对话场景。
文档编号G10L15/08GK102509548SQ201110303580
公开日2012年6月20日申请日期2011年10月9日优先权日2011年10月9日
发明者杨毅, 王胜开, 陈国顺申请人:清华大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨毅;陈国顺;王胜开
技术所有人：清华大学
我是此专利的发明人

上一篇：窄带数字语音无线传输技术的制作方法
上一篇：一种建立语音转换模型的方法、语音转换的方法及系统的制作方法