一种基于密度聚类的说话人数目自动检测方法与流程

文档序号：18731314发布日期：2019-09-21 00:34阅读：来源：国知局

技术特征：

1.一种基于密度聚类的说话人数目自动检测方法，其特征在于，包括以下步骤：

步骤1，从待检测场景中采集混叠语音信号，经过背景噪声降噪处理，得到多通道卷积混叠信号；

步骤2，对卷积混叠语音信号进行数学建模，得到卷积语音混叠模型的数学模型表达式；

步骤3，获取所述卷积语音混叠模型的混叠信号成分；

步骤4，利用混叠信号成分，计算局部二阶协方差矩阵，通过特征值分解提取出特征矩阵；

步骤5，逐频点对特征矩阵进行聚类，得到评分序列；

步骤6，寻找最大化评分序列间隙，计算聚类中心矩阵以及聚类中心数目；

步骤7，逐频点计算聚类中心的平均体积值得到平均体积向量，对体积向量进行排序，然后对聚类中心数目向量也进行排序，提取排名靠前且重复发生概率最大的聚类中心数目，将其作为最终的估计说话人数目。

2.如权利要求1所述的基于密度聚类的说话人数目自动检测方法，其特征在于，所述的获取所述卷积语音混叠模型的混叠信号成分，包括：

通过窗长度为F的短时傅里叶变换将步骤得到的数学模型x(t)转换到时频域得到混叠信号成分xf,d,(f＝0,1,...,F-1,d＝1,...,D)，其中f表示频点,d表示帧，D为总帧数；根据短时傅里叶变换，将混叠信号成分xf,d展开为下列线性混叠模型：

xf,d＝Hfsf,d+ef,d

其中，Hf是第f个频点上维度为M×N的复数混叠信道，sf,d为时频点(f,d)上的N维语音源成分复向量，ef,d是M维复高斯噪声。

3.如权利要求1所述的基于密度聚类的说话人数目自动检测方法，其特征在于，所述的利用混叠信号成分，计算局部二阶协方差矩阵，通过特征值分解提取出特征矩阵，包括：

根据混叠信号成分xf,d，计算出个局部二阶协方差矩阵：通过特征值分解提取出特征矩阵Yf，具体步骤为：

获取连续的P帧混叠信号成分xf,d,(f＝0,1,...,F-1,d＝q(P-1)+1,...,qP)，构造第q个局部二阶协方差矩阵：

对局部二阶协方差矩阵进行特征值分解：

其中为特征向量矩阵，为特征值矩阵，提取出最大特征值所对应的特征向量，逐块提取组成特征矩阵Yf＝[yf,1,...,yf,Q]。

4.如权利要求1所述的基于密度聚类的说话人数目自动检测方法，其特征在于，所述的逐频点对特征矩阵进行聚类，得到评分序列，包括：

首先，计算特征矩阵Yf中的任意两个特征向量之间的欧式距离并组成相似度矩阵Φf＝[φf,qk]q,k＝1,...,Q，其中

其次，对每个特征向量yf,q计算两个聚类评价指标：(1)局部密度值ρf,q，(2)特征向量yf,q到所有更高局部密度值特征向量的最小距离值δf,q，即：

其中，为阈值；

最后，对每个特征向量的上述指标进行乘积得到评分值：γf,q＝ρf,q×δf,q，并按从大至小次序组成评分值矩阵，即评分序列：

5.如权利要求1所述的基于密度聚类的说话人数目自动检测方法，其特征在于，所述的寻找最大化评分序列间隙，计算聚类中心矩阵以及聚类中心数目，包括：

首先，计算评分序列中相邻评分值的差分值：

其次，计算差分值的方差值：

最后，根据最大化相邻比值确定聚类中心数目：以及相应的聚类中心矩阵

6.如权利要求1所述的基于密度聚类的说话人数目自动检测方法，其特征在于，所述的步骤7具体包括：

首先，逐频点计算聚类中心的平均体积构成体积向量V＝[V0,..Vf.,VF-1]，f＝0,1,...,F-1；重新排列平均体积向量V得到

根据排序结果对聚类中心数目构成的聚类中心向量N＝[N0,..Nf.,NF-1]，f＝0,1,...,F-1进行相应的排序得到

其次，提取排名靠前的部分值标记为Fα＝αF，统计向量中重复发生概率最大的聚类中心数目，将其作为说话人数目。

完整全部详细技术资料下载

当前第2页1 2 3