对比用户音频与原唱音频相似度的方法及其系统的制作方法

文档序号：2825556阅读：3996来源：国知局

对比用户音频与原唱音频相似度的方法及其系统的制作方法
【专利摘要】本发明公开了一种对比用户音频与原唱音频相似度的方法及其系统，属于音频处理领域，本发明对输入的用户音频，进行音频片段特征提取，用归一化的方法对音频片段特征进行优化，使用DTW算法对优化后的音频片段特征进行相似度对比，从而达到对比用户音频与原唱音频相似度的目的。采用本发明提供的解决方案，能有效对比用户歌声与原唱的相似程度，可在音乐服务领域有着广泛的应用，如KTV评价用户歌声、鉴别劣质音像制品等。
【专利说明】对比用户音频与原唱音频相似度的方法及其系统
【技术领域】
[0001]本发明属于音频处理领域，具体涉及一种对比用户音频与原唱音频相似度的方法及其系统。
【背景技术】
[0002]目前已有的音频相似度评估通常是基于一个说话人语音信息进行特征提取，提取不同的语音特征等信息后，通常的做法是使用机器学习相关算法对该信息进行分类或者聚类。这样做得到的聚类信息对做相似度评估虽然具有一定作用，但是也存在一些问题。一个比较直观的问题就是需要有大量的原唱音频资料作为聚类时的原始输入数据，并且系统复杂度也较高。此外，有时候系统中可能不存在这样的原始音频数据；或者是有时需要对用户输入音频和原唱音频做一个快速对比，于是使用机器学习的方法对原唱音频做聚类的方法便不可行了。

【发明内容】

[0003]本发明克服了现有技术的不足，提供一种简单、且能对用户输入音频和原唱音频做快速对比的对比用户音频与原唱音频相似度的方法及其系统。
[0004]考虑到现有技术的上述问题，根据本发明的一个方面，为解决上述的技术问题，本发明采用以下技术方案:
[0005]一种对比用户音频与原唱音频相似度的方法:
[0006]获得原音音频信号与待比较音音频信号,并将所述原音音频信号与待比较音音频
信号分别转换为音频片段的能量谱；
[0007]分别提取所述两个音频片段能量谱每帧的chroma特征向量，并组成各自的chroma特征向量组，用于得到各自特征矩阵；
[0008]比较所述两个特征矩阵的相似程度，用于得到音频的相似度差异。
[0009]为了更好地实现本发明，进一步的技术方案是:
[0010]在本发明的一个实施例中，所述音频片段的能量谱通过傅里叶变换及运用窗函数得到。
[0011]在本发明的一个实施例中，所述音频片段的能量谱通过采样率为16KHz、码率为16bit的连续PCM采样信号，利用4096-sample汉宁窗作为窗函数，进行傅里叶变换，用于提取出其相应的能量谱。
[0012]在本发明的一个实施例中，所述两个特征矩阵的相似程度是通过DTW算法进行比较。
[0013]通过对以上
【发明内容】
部分的基于音频特征相似度对比声音的方法的利用，本发明还公开了:
[0014]一种对比用户音频与原唱音频相似度的系统，包括:
[0015]音频预处理模块，用于获得等长的原音音频与待比较音音频信号，并分别转换为音频片段的能量谱；
[0016]Chroma特征值提取模块，用于分别提取所述两个音频片段能量谱每帧的chroma特征向量，并组成各自的chroma特征向量组，从而得到各自特征矩阵；
[0017]矩阵相似度对比模块，用于比较所述两个特征矩阵的相似程度，从而得到音频的相似度差异。
[0018]在本发明的一个实施例中，所述音频预处理模块通过傅里叶变换及运用窗函数将原音音频与待比较音音频信号分别转换为音频片段的能量谱。
[0019]在本发明的一个实施例中，所述音频预处理模块通过采样率为16KHz、码率为16bit的连续PCM采样信号，利用4096-sample汉宁窗作为窗函数，进行傅里叶变换，从而提取出其相应的能量谱。
[0020]在本发明的一个实施例中，所述Chroma特征值提取模块中，对于输入的能量谱，Chroma特征采用如下计算公式来计算:
【权利要求】
1.一种对比用户音频与原唱音频相似度的方法，其特征在于，获得原音音频信号与待比较音音频信号，并将所述原音音频信号与待比较音音频信号分别转换为音频片段的能量谱；分别提取所述两个音频片段能量谱每帧的chroma特征向量,并组成各自的chroma特征向量组，并且得到各自特征矩阵；比较所述两个特征矩阵的相似程度，用于得到音频的相似度差异。
2.根据权利要求1所述的对比用户音频与原唱音频相似度的方法，其特征在于，所述音频片段的能量谱通过傅里叶变换及运用窗函数得到。
3.根据权利要求2所述的对比用户音频与原唱音频相似度的方法，其特征在于，所述音频片段的能量谱通过采样率为16KHz、码率为16bit的连续PCM采样信号，利用4096-sample汉宁窗作为窗函数，进行傅里叶变换，用于提取出其相应的能量谱。
4.根据权利要求1至3任意一项所述的对比用户音频与原唱音频相似度的方法，其特征在于，所述两个特征矩阵的相似程度是通过DTW算法进行比较。
5.一种对比用户音频与原唱音频相似度的系统，其特征在于，包括: 音频预处理模块，用于获得原音音频信号与待比较音音频信号，并分别转换为音频片段的能量谱； Chroma特征值提取模块，用于分别提取所述两个音频片段能量谱每帧的chroma特征向量，并组成各自的chroma特征向量组，用于得到各自特征矩阵；矩阵相似度对比模块，用于比较所述两个特征矩阵的相似程度，用于得到音频的相似度差异。
6.根据权利要求5所述的对比用户音频与原唱音频相似度的系统，其特征在于，所述音频预处理模块通过傅里叶变换及运用窗函数将原音音频信号与待比较音音频信号分别转换为音频片段的能量谱。
7.根据权利要求6所述的对比用户音频与原唱音频相似度的系统，其特征在于，所述音频预处理模块通过采样率为16KHz、码率为16bit的连续PCM采样信号，利用4096-sample汉宁窗作为窗函数，进行傅里叶变换，从而提取出其相应的能量谱。
8.根据权利要求5所述的对比用户音频与原唱音频相似度的系统，其特征在于，所述Chroma特征值提取模块中，对于输入的能量谱，Chroma特征采用如下计算方式:
9.根据权利要求5至8任意一项所述的对比用户音频与原唱音频相似度的系统，其特征在于，所述矩阵相似度对比模块通过DTW算法比较音频的相似度差异。
10.根据权利要求9所述的对比用户音频与原唱音频相似度的系统，其特征在于，所述特征矩阵相似度对比模块利用DTW算法分两步进行，一是计算两个模式各帧之间的距离；二是在帧匹配距离矩阵中找出一条最佳路径；搜索这条最佳路径的过程可以描述如下:搜索从(1，D点出发，点(in，im)可达到的前一个格点只可能是(^，im)、U和(^，U ;那么(in，im) —定选择这三个距离中的最小者所对应的点作为其前续格点，这时此路径的累积距离为:
D (in, im) =d (T (in), R (im)) +min {D (in_!, im), D(in_!, Im^1), D (i^, im_2)} 这样从(1，D点出发搜索，令D(l，1)=0 ;反复递推，直到(N，M)就可以得到最优路径，而且D(N，M)就是最佳匹配路径所对应的匹配距离；在进行语音识别时，将测试模板与所有参考模板进行匹配，得到的最小匹配距离Dmin (Ν,Μ)所对应语音即为识别结果。
【文档编号】G10L15/12GK103871426SQ201210541543
【公开日】2014年6月18日申请日期:2012年12月13日优先权日:2012年12月13日
【发明者】王雷申请人:上海八方视界网络科技有限公司

完整全部详细技术资料下载