用于声音编解码器中的语音/音乐分类和核心编码器选择的方法和设备与流程

文档序号：32424809发布日期：2022-12-02 23:40阅读：来源：国知局

技术特征：
1.一种两阶段语音/音乐分类设备，用于分类输入声音信号，并选择用于编码声音信号的核心编码器，包括：第一阶段，用于将输入声音信号分类为多个最终分类之一；以及第二阶段，用于提取输入声音信号的高级特征，并响应于所提取的高级特征和在第一阶段中选择的最终分类，选择用于编码输入声音信号的核心编码器。2.根据权利要求1所述的两阶段语音/音乐分类设备，其中第一阶段包括基于相对帧能量的输入声音信号中的音节首/起音检测器。3.根据权利要求2所述的两阶段语音/音乐分类设备，其中，音节首/起音检测器在每一帧中更新当前帧中的输入声音信号的相对能量和先前帧中的输入声音信号的相对能量之间的差值的累积和。4.根据权利要求3所述的两阶段语音/音乐分类设备，其中，为了更新当前帧中的累积和，音节首/起音检测器添加(a)在先前帧中更新的累积和以及(b)当前帧中输入声音信号的相对能量和先前帧中输入声音信号的相对能量之间的差。5.根据权利要求3或4所述的两阶段语音/音乐分类设备，其中，仅当当前帧中的输入声音信号的相对能量大于先前帧中的输入声音信号的相对能量时，音节首/起音检测器才更新当前帧中的累积和。6.根据权利要求3至5中任一项所述的两阶段语音/音乐分类设备，其中，音节首/起音检测器使用所述累积和来更新音节首/起音帧的计数器，并且其中，在由状态机确定的输入声音信号的entry状态下，如果所述累积和大于给定值，则计数器在每一帧中递增，否则被重置。7.根据权利要求3至6中任一项所述的两阶段语音/音乐分类设备，其中，如果所述累积和位于给定范围内，则音节首/起音检测器输出被设置为第一值的二进制标志，以指示检测到音节首/起音，并且否则，二进制标志被设置为第二值，以指示没有检测到音节首/起音。8.根据权利要求1至7中任一项所述的两阶段语音/音乐分类设备，其中，第一阶段包括包含梅尔频率倒谱系数特征的输入声音信号的特征的提取器。9.根据权利要求1至7中任一项所述的两阶段语音/音乐分类设备，其中第一阶段包括输入声音信号的至少一个以下特征的提取器：(a)开环基音特征；(b)语声测量特征；(c)与来自lp分析的线谱频率相关的特征；(d)与来自lp分析的残余能量相关的特征；(e)短期相关性图特征；(f)非平稳性特征；(g)梅尔频率倒谱系数特征；(h)功率谱差特征；以及(i)频谱平稳性特征。10.根据权利要求1至7中任一项所述的两阶段语音/音乐分类设备，其中第一阶段包括输入声音信号的特征的提取器，以及用于基于所提取的特征的直方图检测异常点特征的异常点检测器。
11.根据权利要求10所述的两阶段语音/音乐分类设备，其中异常点检测器为每个特征计算下限和上限，将特征值与下限和上限进行比较，并且将其值位于下限和上限之间定义的范围之外的特征标记为异常点特征。12.根据权利要求11所述的两阶段语音/音乐分类设备，其中，异常点检测器使用所述特征的直方图的归一化版本、包含所述特征的直方图的最大值的频率间隔的索引以及阈值来计算所述下限和上限。13.根据权利要求10至12中任一项所述的两阶段语音/音乐分类设备，其中，异常点检测器基于检测到的异常点特征的数量来确定特征的向量作为异常点。14.根据权利要求13所述的两阶段语音/音乐分类设备，其中异常点检测器不是丢弃异常点向量，而是用从至少一个先前帧获得的特征值替代所述向量中的异常点特征。15.根据权利要求13或14所述的两阶段语音/音乐分类设备，其中异常点检测器包括检测到的异常点特征的计数器，并且当检测到的异常点特征的数量等于或高于给定值时，将标志设置为给定值，以指示所述特征的向量是异常点。16.根据权利要求10至15中任一项所述的两阶段语音/音乐分类设备，其中第一阶段包括用于平滑所提取的特征的短期向量的过滤器。17.根据权利要求16所述的两阶段语音/音乐分类设备，其中过滤器是使用遗忘因子的无限脉冲响应过滤器。18.根据权利要求16或17所述的两阶段语音/音乐分类设备，其中，过滤器在由状态机确定的输入声音信号的entry状态或active状态的帧中不执行特征向量平滑，并且其中，当不执行特征向量平滑时，使用未过滤向量的特征值。19.根据权利要求1至18中任一项所述的两阶段语音/音乐分类设备，其中第一阶段包括非线性特征向量变换器，用于将从输入声音信号中提取的非正态特征变换成具有正态形状的特征。20.根据权利要求19所述的两阶段语音/音乐分类设备，其中所述非线性特征向量变换器使用box-cox变换将非正态特征变换成具有正态形状的特征。21.根据权利要求20所述的两阶段语音/音乐分类设备，其中由非线性特征向量变换器执行的box-cox变换使用具有指数的幂变换，并且其中指数的不同值定义不同的box-cox变换曲线，并且其中非线性特征向量变换器基于正态性测试选择box-cox变换的指数值。22.根据权利要求20或21所述的两阶段语音/音乐分类设备，其中由非线性特征向量变换器执行的box-cox变换使用偏差来确保所提取的特征的所有输入值都是正的。23.根据权利要求21所述的两阶段语音/音乐分类设备，其中正态性测试产生偏斜和峰度测量，并且其中非线性特征向量变换器仅将box-cox变换应用于满足与偏斜和峰度测量相关的条件的特征。24.根据权利要求1至23中任一项所述的两阶段语音/音乐分类设备，其中，第一阶段包括主成分分析器，以减少声音信号特征维度并增加声音信号分类判别性，其中，主成分分析器执行正交变换，以将从输入声音信号中提取的一组可能相关的特征转换成形成主成分的一组线性不相关的变量。25.根据权利要求24所述的两阶段语音/音乐分类设备，其中，主成分分析器通过去除所述输入声音信号的提取特征的向量的平均值并将所述向量缩放到单位方差来标准化所
述向量。26.根据权利要求25所述的两阶段语音/音乐分类设备，其中，主成分分析器使用以下关系式来变换特征向量：y(n)＝w
t
x(n)其中x(n)是列特征向量，并且w是主成分分析载荷的矩阵，并且上标t指示向量转置。27.根据权利要求1至26中任一项所述的两阶段语音/音乐分类设备，其中第一阶段包括高斯混合模型(gmm)计算器，以确定与从输入声音信号中提取的给定特征向量由语音gmm生成的概率成比例的第一分数，以及与给定特征向量由音乐gmm生成的概率成比例的第二分数，其中gmm计算器通过计算这些第一分数和第二分数之间的差来组合第一分数和第二分数，以产生差分分数。28.根据权利要求27所述的两阶段语音/音乐分类设备，其中负差分分数指示输入声音信号是语音，并且正差分分数指示输入声音信号是音乐。29.根据权利要求27或28所述的两阶段语音/音乐分类设备，其中gmm计算器在计算第一分数和第二分数之间的差时使用决策偏差。30.根据权利要求29所述的两阶段语音/音乐分类设备，其中，gmm计算器从第二分数中减去第一分数，以计算第一分数和第二分数之间的差，并且其中，决策偏差是加到所述差上的非负值。31.根据权利要求29或30所述的两阶段语音/音乐分类设备，其中gmm计算器在训练数据库的活动帧中预测指示输入声音信号是语音、音乐或噪声信号的标签，并且其中gmm计算器使用所述标签来寻找决策偏差。32.根据权利要求29至31中任一项所述的两阶段语音/音乐分类设备，其中，gmm计算器使用决策偏差来计算差分分数，其中，所述差分分数具有限制在给定范围内的值。33.根据权利要求27至32中任一项所述的两阶段语音/音乐分类设备，其中第一阶段包括来自gmm计算器的差分分数的自适应平滑器。34.根据权利要求33所述的两阶段语音/音乐分类设备，其中自适应平滑器包括使用遗忘因子的无限脉冲响应(iir)过滤器。35.根据权利要求34所述的两阶段语音/音乐分类设备，其中自适应平滑器使用与当前帧的相对能量成线性比例并限制在给定区间内的第一参数来计算遗忘因子。36.根据权利要求34或35所述的两阶段语音/音乐分类设备，其中自适应平滑器使用与差分分数的导数成比例的第二参数来计算遗忘因子。37.根据权利要求36所述的两阶段语音/音乐分类设备，其中自适应平滑器使用以下操作中的至少一个来计算第二参数：(a)计算差分分数的短期均值；(b)如果差分分数小于0并且小于短期均值，则将第二参数设置为0；(c)在第一帧中，如果差分分数小于0且小于短期均值，且短期均值大于0，则将第二参数设置为减去差分分数；否则，自适应平滑器增加第二参数；(d)如果差分分数不小于0和短期均值，则将第二参数重置为0；以及(e)最后将第二参数映射到给定区间。38.根据权利要求34至37中任一项所述的两阶段语音/音乐分类设备，其中自适应平滑
器使用第三参数来计算遗忘因子，所述第三参数对指示潜在音乐音节首的差分分数的突然上升做出反应。39.根据权利要求38所述的两阶段语音/音乐分类设备，其中自适应平滑器使用以下操作中的至少一个来计算第三参数：(a)计算差分分数的短期均值；(b)将第三参数设置为0，但是如果(a)输入声音信号处于由状态机确定的active状态，(b)短期均值大于0，以及(c)当前帧中的短期均值大于先前帧中的短期均值，则修改第三参数；(c)在第一帧中，如果(a)输入声音信号处于active状态，(b)当前帧中的短期均值大于0，(c)当前帧中的短期均值大于先前帧中的短期均值，以及(d)先前帧中的短期均值小于0，则将第三参数设置为减去短期均值；否则，自适应平滑器增加第三参数；(d)如果(a)输入声音信号不处于active状态，(b)短期均值不大于0，以及(c)当前帧中的短期均值不大于先前帧中的短期均值，则将第三参数重置为0；以及(e)最后将第三个参数映射到给定区间。40.根据权利要求34至39中任一项所述的两阶段语音/音乐分类设备，其中，自适应平滑器分析差分分数的长期均值和长期方差，并执行以下操作中的至少一个：(a)如果状态机确定输入声音信号处于entry状态，则将差分分数的长期均值和长期方差设置为0；(b)计算对应于差分分数的长期标准方差的长期均值-长期方差比；(c)在长期标准方差大于给定值的帧中减少遗忘因子；以及(d)将iir过滤器的遗忘因子限制在给定范围内。41.根据权利要求1至40中任一项所述的两阶段语音/音乐分类设备，其中，所述多个最终分类包括与语音相关的第一最终分类、与音乐相关的第二最终分类和与带有背景音乐的语音相关的第三最终分类。42.根据权利要求27至40中任一项所述的两阶段语音/音乐分类设备，其中第一阶段包括将输入声音信号分类为三个最终分类之一的依赖状态的类别分类器，这三个最终分类包括speech/noise、music和unclear，其中最终分类unclear与带有背景音乐的语音相关。43.根据权利要求42所述的两阶段语音/音乐分类设备，其中当在当前帧中，输入声音信号处于由状态机确定的entry状态时，依赖状态的类别分类器基于在当前帧之前的entry状态的帧中计算的差分分数的加权平均值，选择三个最终分类speech/noise、music和unclear之一。44.根据权利要求43所述的两阶段语音/音乐分类设备，其中，如果在当前帧中，绝对帧能量低于给定值，则依赖状态的类别分类器将最终分类设置为speech/noise。45.根据权利要求43或44所述的两阶段语音/音乐分类设备，其中，如果在输入声音信号的entry状态中的帧中的差分分数的加权平均值小于2.0，则依赖状态的类别分类器将最终分类设置为speech/noise。46.根据权利要求43至45中任一项所述的两阶段语音/音乐分类设备，其中，如果在输入声音信号的entry状态中的帧中的差分分数的加权平均值高于2.0，则依赖状态的类别分类器在当前帧中的差分分数高于2.0的情况下将最终分类设置为music，而在当前帧中的差
分分数不高于2.0的情况下设置为unclear。47.根据权利要求43至46中任一项所述的两阶段语音/音乐分类设备，其中，在除了由状态机确定的输入声音信号的entry之外的状态中，依赖状态的类别分类器基于差分分数的平滑版本和在先前帧中选择的最终分类speech/noise、music或unclear来选择最终分类speech/noise、music或unclear。48.根据权利要求42至47中任一项所述的两阶段语音/音乐分类设备，其中依赖状态的类别分类器首先将当前帧中的最终分类初始化为先前帧中设置的分类speech/noise、music或unclear。49.根据权利要求47所述的两阶段语音/音乐分类设备，其中依赖状态的类别分类器首先将当前帧中的最终分类初始化为先前帧中设置的分类speech/noise、music或unclear，并且其中，在当前帧中，响应于平滑的差分分数交叉于给定阈值，依赖状态的类别分类器从先前帧中设置的最终分类speech/noise、music或unclear转换为最终分类的另一个。50.根据权利要求42至45中任一项所述的两阶段语音/音乐分类设备，其中，在给定数量的帧之后，依赖状态的类别分类器从先前帧中设置的最终分类speech/noise、music或unclear转换到这些分类中的另一个。51.根据权利要求49或50所述的两阶段语音/音乐分类设备，其中，如果active帧的计数器低于第一阈值，差分帧能量的累积和等于零，并且平滑的差分分数大于第二阈值，则依赖状态的类别分类器从先前帧中设置的最终分类speech/noise转换到最终分类unclear。52.根据权利要求42至51中任一项所述的两阶段语音/音乐分类设备，其中，如果作为输入声音信号的开环基音分析的副产品的短基音标志等于给定值，并且差分分数的平滑的版本大于给定阈值，则依赖状态的类别分类器从先前帧中设置的最终分类speech/noise转换到最终分类unclear。53.根据权利要求48至52中任一项所述的两阶段语音/音乐分类设备，其中依赖状态的类别分类器不执行speech/noise和music分类之间的直接转换。54.根据权利要求1至53中任一项所述的两阶段语音/音乐分类设备，其中第二阶段包括当前帧中的输入声音信号的附加高级特征的提取器，其中附加高级特征包括输入声音信号的音调。55.根据权利要求42至53中任一项所述的两阶段语音/音乐分类设备，其中第二阶段包括当前帧中的输入声音信号的附加高级特征的提取器，其中所述附加高级特征包括以下特征中的至少一个：(a)输入声音信号的音调；(b)输入声音信号的长期稳定性，其中附加高级特征的提取器产生指示输入声音信号的长期稳定性的标志；(c)输入声音信号中的片段起音，其中附加高级特征的提取器产生如下的指示符(a)片段起音在输入声音信号的当前帧中的位置或者(b)片段起音不存在；以及(d)频谱峰均比形成从输入声音信号的功率谱计算的输入声音信号的频谱锐度的测量。56.根据权利要求55所述的两阶段语音/音乐分类设备，其中输入声音信号的音调由音调标志表示，该音调标志反映输入声音信号高达给定频率的较低频率范围中的频谱稳定性
和和谐性两者。57.根据权利要求56所述的两阶段语音/音乐分类设备，其中附加高级特征的提取器使用相关性图计算音调标志，该相关性图形成在输入声音信号的残余能谱的较低频率范围中的多个第一频率间隔中的信号稳定性和和谐性的测量，并且在存在峰值的残余能谱的片段中计算。58.根据权利要求57所述的两阶段语音/音乐分类设备，其中附加高级特征的提取器应用相关性图的平滑，并计算在当前帧中输入声音信号的较低频率范围内跨频率间隔的相关性图的加权和，以产生单个数字。59.根据权利要求58所述的两阶段语音/音乐分类设备，其中附加高级特征的提取器通过将所述单个数字与自适应阈值进行比较来设置音调标志。60.根据权利要求1至59中任一项所述的两阶段语音/音乐分类设备，其中第二阶段包括核心编码器初始选择器，用于使用如下来进行核心编码器的初始选择(a)相对帧能量，(b)输入声音信号在第一阶段被分类的最终分类，以及(c)所提取的高级特征。61.根据权利要求59所述的两阶段语音/音乐分类设备，其中第二阶段包括核心编码器初始选择器，用于使用下列条件进行核心编码器的初始选择：(a)如果相对帧能量高于第一值，频谱峰均比高于第二值，并且所述单个数字高于自适应阈值，则初始选择tcx核心编码器；(b)如果条件(a)不成立，并且输入声音信号在第一阶段被分类的最终分类是speech/noise，则初始选择acelp核心编码器；(c)如果条件(a)和(b)不成立，并且输入声音信号在第一阶段被分类的最终分类是unclear，则初始选择gsc核心编码器；以及(d)如果条件(a)、(b)和(c)不成立，则初始选择tcx核心编码器。62.根据权利要求27至40中任一项所述的两阶段语音/音乐分类设备，其中第二阶段包括核心编码器初始选择器，用于响应于所提取的高级特征和在第一阶段中选择的最终分类进行核心编码器的初始选择，以及如果核心编码器初始选择器初始选择了gsc核心编码器，则包括初始核心编码器选择的细化器。63.根据权利要求62所述的两阶段语音/音乐分类设备，其中，如果(a)信号片段的多个第一频率间隔中的能量与该信号片段的总能量之比低于第一值，并且(b)差分分数的短期均值高于第二值，则初始核心编码器选择的细化器将gsc核心编码器的初始选择改变为acelp核心编码器的选择。64.根据权利要求62所述的两阶段语音/音乐分类设备，其中，对于具有短且稳定的基音周期的输入声音信号，初始核心编码器选择的细化器将gsc核心编码器的初始选择改变为(a)如果差分分数的平滑的版本低于给定值，则选择acelp核心编码器，或者(b)如果平滑的差分分数大于或等于给定值，则选择tcx核心编码器。65.根据权利要求62所述的两阶段语音/音乐分类设备，其中初始核心编码器选择的细化器用于将gsc核心编码器的初始选择改变为(a)响应于输入声音信号的长期稳定性的tcx核心编码器的选择，以及(b)大于给定值的开环基音。66.根据权利要求62所述的两阶段语音/音乐分类设备，其中，假设核心编码器选择的改变被启用的指示符具有第一值，并且转换帧计数器具有第二值，如果在输入声音信号中
检测到片段起音，则初始核心编码器选择的细化器将gsc核心编码器的初始选择改变为acelp核心编码器的选择。67.根据权利要求62所述的两阶段语音/音乐分类设备，其中，假设核心编码器选择的改变被启用的指示符具有第一值，转换帧计数器不具有第二值，并且标识对应于当前帧中起音位置的片段的指示符大于第三值，如果在输入声音信号中检测到片段起音，则初始核心编码器选择的细化器将gsc核心编码器的初始选择改变为acelp核心编码器的选择。68.一种两阶段语音/音乐分类设备，用于分类输入声音信号，并选择用于编码声音信号的核心编码器，包括：至少一个处理器；以及耦合到所述处理器并存储非暂时性指令的存储器，所述指令在被运行时使所述处理器实现：第一阶段，用于将输入声音信号分类为多个最终分类之一；以及第二阶段，用于提取输入声音信号的高级特征，并响应于所提取的高级特征和在第一阶段中选择的最终分类，选择用于编码输入声音信号的核心编码器。69.一种两阶段语音/音乐分类设备，用于分类输入声音信号，并选择用于编码声音信号的核心编码器，包括：至少一个处理器；以及耦合到所述处理器并存储非暂时性指令的存储器，所述指令在被运行时使所述处理器：在第一阶段，将输入声音信号分类为多个最终分类之一；以及在第二阶段，提取输入声音信号的高级特征，并响应于所提取的高级特征和在第一阶段中选择的最终分类，选择用于编码输入声音信号的核心编码器。70.一种两阶段语音/音乐分类方法，用于分类输入声音信号，并选择用于编码声音信号的核心编码器，包括：在第一阶段，将输入声音信号分类到多个最终分类之一；以及在第二阶段，提取输入声音信号的高级特征，并响应于所提取的高级特征和在第一阶段选择的最终分类，选择用于编码输入声音信号的核心编码器。71.根据权利要求70所述的两阶段语音/音乐分类方法，包括，在第一阶段，基于相对帧能量检测输入声音信号中的音节首/起音。72.根据权利要求71所述的两阶段语音/音乐分类方法，其中检测输入声音信号中的音节首/起音包括在每一帧中更新当前帧中的输入声音信号的相对能量和先前帧中的输入声音信号的相对能量之间的差的累积和。73.根据权利要求72所述的两阶段语音/音乐分类方法，其中检测输入声音信号中的音节首/起音包括，为了更新当前帧中的累积和，添加(a)在先前帧中更新的累积和以及(b)当前帧中输入声音信号的相对能量和先前帧中输入声音信号的相对能量之间的差。74.根据权利要求72或73所述的两阶段语音/音乐分类方法，其中检测输入声音信号中的音节首/起音包括仅当当前帧中的输入声音信号的相对能量大于先前帧中的输入声音信号的相对能量时才更新当前帧中的累积和。75.根据权利要求72至74中任一项所述的两阶段语音/音乐分类方法，其中检测输入声
音信号中的音节首/起音包括使用累积和来更新音节首/起音帧的计数器，并且在由状态机确定的输入声音信号的entry状态中，如果累积和大于给定值，则在每一帧中递增计数器，否则，重置累积和。76.根据权利要求72至75中任一项所述的两阶段语音/音乐分类方法，其中检测输入声音信号中的音节首/起音包括产生二进制标志，如果累积和位于给定范围内，则二进制标志被设置为第一值，以指示检测到音节首/起音，否则，二进制标志被设置为第二值，以指示没有检测到音节首/起音。77.根据权利要求70至76中任一项所述的两阶段语音/音乐分类方法，包括，在第一阶段，提取包括梅尔频率倒谱系数特征的输入声音信号的特征。78.根据权利要求70至76中任一项所述的两阶段语音/音乐分类方法，包括，在第一阶段，提取输入声音信号的至少一个以下特征：(a)开环基音特征；(b)语声测量特征；(c)与来自lp分析的线谱频率相关的特征；(d)与来自lp分析的残余能量相关的特征；(e)短期相关性图特征；(f)非平稳性特征；(g)梅尔频率倒谱系数特征；(h)功率谱差特征；以及(i)频谱平稳性特征。79.根据权利要求70至76中任一项所述的两阶段语音/音乐分类方法，包括，在第一阶段，提取输入声音信号的特征，并基于所提取的特征的直方图检测异常点特征。80.根据权利要求79所述的两阶段语音/音乐分类方法，其中检测异常点特征包括为每个特征计算下限和上限，将特征值与下限和上限进行比较，并将值位于下限和上限之间定义的范围之外的特征标记为异常点特征。81.根据权利要求80所述的两阶段语音/音乐分类方法，其中检测异常点特征包括使用特征直方图的归一化版本、包含特征直方图的最大值的频率间隔的索引和阈值来计算下限和上限。82.根据权利要求79至81中任一项所述的两阶段语音/音乐分类方法，其中检测异常点特征包括基于检测到的异常点特征的数量来确定特征的向量作为异常点。83.根据权利要求82所述的两阶段语音/音乐分类方法，其中检测异常点特征包括，不是丢弃异常点向量，而是用从至少一个先前帧获得的特征值替代向量中的异常点特征。84.根据权利要求82或83所述的两阶段语音/音乐分类方法，其中检测异常点特征包括对检测到的异常点特征进行计数，并且当检测到的异常点特征的数量等于或高于给定值时，将标志设置为给定值，以指示特征向量是异常点。85.根据权利要求79至84中任一项所述的两阶段语音/音乐分类方法，包括，在第一阶段，平滑所提取的特征的短期向量。86.根据权利要求85所述的两阶段语音/音乐分类方法，其中平滑所提取的特征的短期向量包括利用遗忘因子用无限脉冲响应过滤器对所提取的特征的短期向量进行过滤。
87.根据权利要求85或86所述的两阶段语音/音乐分类方法，包括在由状态机确定的输入声音信号的entry状态或active状态的帧中不执行特征向量平滑，并且当不执行特征向量平滑时，使用未过滤向量的特征值。88.根据权利要求70至87中任一项所述的两阶段语音/音乐分类方法，包括，在第一阶段，将从输入声音信号中提取的非正态特征非线性变换成具有正态形状的特征。89.根据权利要求88所述的两阶段语音/音乐分类方法，其中非线性变换包括使用box-cox变换将非正态特征变换成具有正态形状的特征。90.根据权利要求89所述的两阶段语音/音乐分类方法，其中box-cox变换包括使用具有指数的幂变换，其中指数的不同值定义不同的box-cox变换曲线，并基于正态性测试选择box-cox变换的指数值。91.根据权利要求89或90所述的两阶段语音/音乐分类方法，其中box-cox变换包括使用偏差来确保所提取的特征的所有输入值都是正的。92.根据权利要求90所述的两阶段语音/音乐分类方法，其中正态性测试产生偏斜和峰度测量，并且其中box-cox变换仅应用于满足与偏斜和峰度测量相关的条件的特征。93.根据权利要求70至92中任一项所述的两阶段语音/音乐分类方法，包括，在第一阶段，分析主成分以减少声音信号特征维度并增加声音信号分类判别性，其中分析主成分包括正交变换，以将从输入声音信号中提取的一组可能相关的特征转换成形成主成分的一组线性不相关变量。94.根据权利要求93所述的两阶段语音/音乐分类方法，其中分析主成分包括通过去除所述输入声音信号的提取特征的向量的平均值并将所述向量缩放到单位方差来标准化所述向量。95.根据权利要求94所述的两阶段语音/音乐分类方法，其中分析主成分包括使用下列关系变换特征向量：y(n)＝w
t
x(n)其中x(n)是列特征向量，并且w是主成分分析载荷的矩阵，并且上标t指示向量转置。96.根据权利要求70至95中任一项所述的两阶段语音/音乐分类方法，包括，在第一阶段中，高斯混合模型(gmm)计算，以确定与从输入声音信号中提取的给定特征向量由语音gmm生成的概率成比例的第一分数，以及与给定特征向量由音乐gmm生成的概率成比例的第二分数，其中gmm计算包括通过计算这些第一分数和第二分数之间的差来组合第一分数和第二分数，以产生差分分数。97.根据权利要求96所述的两阶段语音/音乐分类方法，其中负差分分数指示输入声音信号是语音，并且正差分分数指示输入声音信号是音乐。98.根据权利要求96或97所述的两阶段语音/音乐分类方法，其中gmm计算包括在计算第一分数和第二分数之间的差时使用决策偏差。99.根据权利要求98所述的两阶段语音/音乐分类方法，其中gmm计算包括从第二分数中减去第一分数，以计算第一分数和第二分数之间的差，并且其中决策偏差是加到所述差上的非负值。100.根据权利要求98或99所述的两阶段语音/音乐分类方法，其中gmm计算在训练数据库的活动帧中预测指示输入声音信号是语音、音乐或噪声信号的标签，并且其中gmm计算包
括使用所述标签来寻找决策偏差。101.根据权利要求98至100中任一项所述的两阶段语音/音乐分类方法，其中gmm计算包括使用决策偏差计算差分分数，其中所述差分分数具有限制在给定范围内的值。102.根据权利要求96至101中任一项所述的两阶段语音/音乐分类方法，包括，在第一阶段中的差分分数的自适应平滑。103.根据权利要求102所述的两阶段语音/音乐分类方法，其中自适应平滑包括使用遗忘因子使用无限脉冲响应(iir)过滤器本身。104.根据权利要求103所述的两阶段语音/音乐分类方法，其中自适应平滑包括使用与当前帧的相对能量成线性比例并限制在给定区间内的第一参数来计算遗忘因子。105.根据权利要求103或104所述的两阶段语音/音乐分类方法，其中自适应平滑包括使用与差分分数的导数成比例的第二参数计算遗忘因子。106.根据权利要求105所述的两阶段语音/音乐分类方法，其中自适应平滑包括使用下列操作中的至少一个来计算第二参数：(a)计算差分分数的短期均值；(b)如果差分分数小于0并且小于短期均值，则将第二参数设置为0；(c)在第一帧中，如果差分分数小于0且小于短期均值，且短期均值大于0，则将第二参数设置为减去差分分数；否则，自适应平滑器增加第二参数；(d)如果差分分数不小于0和短期均值，则将第二参数重置为0；以及(e)最后将第二参数映射到给定区间。107.根据权利要求103至106中任一项所述的两阶段语音/音乐分类方法，其中自适应平滑包括使用第三参数来计算遗忘因子，所述第三参数对指示潜在音乐音节首的差分分数的突然上升做出反应。108.根据权利要求107所述的两阶段语音/音乐分类方法，其中自适应平滑器使用以下操作中的至少一个来计算第三参数：(a)计算差分分数的短期均值；(b)将第三参数设置为0，但是如果(a)输入声音信号处于由状态机确定的active状态，(b)短期均值大于0，以及(c)当前帧中的短期均值大于先前帧中的短期均值，则修改第三参数；(c)在第一帧中，如果(a)输入声音信号处于active状态，(b)当前帧中的短期均值大于0，(c)当前帧中的短期均值大于先前帧中的短期均值，以及(d)先前帧中的短期均值小于0，则将第三参数设置为减去短期均值；否则，自适应平滑增加第三参数；(d)如果(a)输入声音信号不处于active状态，(b)短期均值不大于0，以及(c)当前帧中的短期均值不大于先前帧中的短期均值，则将第三参数重置为0；以及(e)最后将第三个参数映射到给定区间。109.根据权利要求103至108中任一项所述的两阶段语音/音乐分类方法，其中，自适应平滑包括分析差分分数的长期均值和长期方差，并执行以下操作中的至少一个：(a)如果状态机确定输入声音信号处于entry状态，则将差分分数的长期均值和长期方差设置为0；(b)计算对应于差分分数的长期标准方差的长期均值-长期方差比；
(c)在长期标准方差大于给定值的帧中减少遗忘因子；以及(d)将iir过滤器的遗忘因子限制在给定范围内。110.根据权利要求70至109中任一项所述的两阶段语音/音乐分类方法，其中所述多个最终分类包括与语音相关的第一最终分类、与音乐相关的第二最终分类和与带有背景音乐的语音相关的第三最终分类。111.根据权利要求96至109中任一项所述的两阶段语音/音乐分类方法，包括，在第一阶段，将输入声音信号依赖状态的类别分类为三个最终分类之一，包括speech/noise、music和unclear，其中最终分类unclear与带有背景音乐的语音相关。112.根据权利要求111所述的两阶段语音/音乐分类方法，其中当在当前帧中，输入声音信号处于由状态机确定的entry状态时，依赖状态的类别分类包括基于在当前帧之前的entry状态的帧中计算的差分分数的加权平均值，选择三个最终分类speech/noise、music和unclear之一。113.根据权利要求112所述的两阶段语音/音乐分类方法，其中，如果在当前帧中，绝对帧能量低于给定值，则依赖状态的类别分类包括将最终分类设置为speech/noise。114.根据权利要求112或113所述的两阶段语音/音乐分类方法，其中，如果在输入声音信号的entry状态的帧中的差分分数的加权平均值小于2.0，则依赖状态的类别分类包括将最终分类设置为speech/noise。115.根据权利要求112至114中任一项所述的两阶段语音/音乐分类方法，其中，如果输入声音信号的entry状态中的帧中的差分分数的加权平均值高于2.0，则依赖状态的类别分类包括如果当前帧中的差分分数高于2.0，则将最终分类设置为music，如果当前帧中的差分分数不高于2.0，则将最终分类设置为unclear。116.根据权利要求112至115中任一项所述的两阶段语音/音乐分类方法，其中，在除了由状态机确定的输入声音信号的entry之外的状态中，依赖状态的类别分类包括基于差分分数的平滑的版本和在先前帧中选择的最终分类speech/noise、music或unclear来选择最终分类speech/noise、music或unclear。117.根据权利要求111至116中任一项所述的两阶段语音/音乐分类方法，其中依赖状态的类别分类包括首先将当前帧中的最终分类初始化为先前帧中设置的分类speech/noise、music或unclear。118.根据权利要求116所述的两阶段语音/音乐分类方法，其中所述依赖状态的类别分类包括首先将当前帧中的最终分类初始化为先前帧中设置的分类speech/noise、music或unclear，并且其中，在当前帧中，依赖状态的类别分类包括响应于平滑的差分分数交叉于给定阈值，从先前帧中设置的最终分类speech/noise、music或unclear转换为最终分类的另一个。119.根据权利要求111至114中任一项所述的两阶段语音/音乐分类方法，其中，依赖状态的类别分类包括在给定数量的帧之后，从先前帧中设置的最终分类speech/noise、music或unclear转换到这些类别中的另一个。120.根据权利要求118或119所述的两阶段语音/音乐分类方法，其中，依赖状态的类别分类包括：如果active帧的计数器低于第一阈值，差分帧能量的累积和等于零，并且平滑的差分分数大于第二阈值，则从先前帧中设置的最终分类speech/noise转换到最终分类
unclear。121.根据权利要求111至120中任一项所述的两阶段语音/音乐分类方法，其中，依赖状态的类别分类包括：如果作为输入声音信号的开环基音分析的副产品的短基音标志等于给定值，并且差分分数的平滑版本大于给定阈值，则从先前帧中设置的最终分类speech/noise转换到最终分类unclear。122.根据权利要求117至121中任一项所述的两阶段语音/音乐分类方法，其中依赖状态的类别分类包括不执行speech/noise和music分类之间的直接转换。123.根据权利要求70至122中任一项所述的两阶段语音/音乐分类方法，包括，在第二阶段，提取当前帧中输入声音信号的附加高级特征，其中附加高级特征包括输入声音信号的音调。124.根据权利要求111至122中任一项所述的两阶段语音/音乐分类方法，包括，在第二阶段，提取当前帧中的输入声音信号的附加高级特征，其中所述附加高级特征包括以下特征中的至少一个：(a)输入声音信号的音调；(b)输入声音信号的长期稳定性，其中提取附加高级特征包括产生指示输入声音信号的长期稳定性的标志；(c)输入声音信号中的片段起音，其中提取附加高级特征包括产生如下的指示符(a)片段起音在输入声音信号的当前帧中的位置或者(b)片段起音不存在；以及(d)频谱峰均比形成输入声音信号的频谱锐度的度量，其中提取附加高级特征包括从输入声音信号的功率谱计算频谱峰均比。125.根据权利要求124所述的两阶段语音/音乐分类方法，其中提取输入声音信号的音调包括通过音调标志来表示音调，该音调标志反映了输入声音信号高达给定频率的较低频率范围中的频谱稳定性和和谐性两者。126.根据权利要求125所述的两阶段语音/音乐分类方法，其中提取音调标志包括使用相关性图来计算音调标志，所述相关性图形成在输入声音信号的残余能谱的较低频率范围中的多个第一频率间隔中的信号稳定性和和谐性的测量，并且在存在峰值的残余能谱的片段中计算。127.根据权利要求126所述的两阶段语音/音乐分类方法，其中提取音调标志包括应用相关性图的平滑，并计算当前帧中输入声音信号的较低频率范围内的跨频率间隔的相关性图的加权和，以产生单个数字。128.根据权利要求127所述的两阶段语音/音乐分类方法，其中提取音调标志包括通过将所述单个数字与自适应阈值进行比较来设置音调标志。129.根据权利要求70至128中任一项所述的两阶段语音/音乐分类方法，包括，在第二阶段，使用如下的对核心编码器的初始选择(a)相对帧能量，(b)输入声音信号在第一阶段被分类的最终分类，以及(c)所提取的高级特征。130.根据权利要求128所述的两阶段语音/音乐分类方法，其中，在第二阶段，包括使用以下条件对核心编码器进行初始选择：(a)如果相对帧能量高于第一值，频谱峰均比高于第二值，并且所述单个数字高于自适应阈值，则初始选择tcx核心编码器；
(b)如果条件(a)不成立，并且输入声音信号在第一阶段被分类的最终分类是speech/noise，则初始选择acelp核心编码器；(c)如果条件(a)和(b)不成立，并且输入声音信号在第一阶段被分类的最终分类是unclear，则初始选择gsc核心编码器；以及(d)如果条件(a)、(b)和(c)不成立，则初始选择tcx核心编码器。131.根据权利要求96至109中任一项所述的两阶段语音/音乐分类方法，包括，在第二阶段中，响应于所提取的高级特征和在第一阶段中选择的最终分类，初始选择核心编码器，以及如果核心编码器初始选择最初选择了gsc核心编码器，则细化初始核心编码器选择。132.根据权利要求131所述的两阶段语音/音乐分类方法，其中，细化初始核心编码器选择包括：如果(a)信号片段的多个第一频率间隔中的能量与该信号片段的总能量的比低于第一值，并且(b)差分分数的短期均值高于第二值，则将gsc核心编码器的初始选择改变为acelp核心编码器的选择。133.根据权利要求131所述的两阶段语音/音乐分类方法，其中细化初始核心编码器选择包括对于具有短且稳定的基音周期的输入声音信号，将gsc核心编码器的初始选择改变为(a)如果差分分数的平滑的版本低于给定值，则选择acelp核心编码器，或者(b)如果平滑的差分分数大于或等于给定值，则选择tcx核心编码器。134.根据权利要求131所述的两阶段语音/音乐分类方法，其中细化初始核心编码器选择包括将gsc核心编码器的初始选择改变为(a)响应于输入声音信号的长期稳定性的tcx核心编码器的选择，以及(b)大于给定值的开环基音。135.根据权利要求131所述的两阶段语音/音乐分类方法，其中细化初始核心编码器选择包括，假设核心编码器选择的改变被启用的指示符具有第一值，并且转换帧计数器具有第二值，如果在输入声音信号中检测到片段起音，则将gsc核心编码器的初始选择改变为acelp核心编码器的选择。136.根据权利要求131所述的两阶段语音/音乐分类方法，其中细化初始核心编码器选择包括：假设核心编码器选择的改变被启用的指示符具有第一值，转换帧计数器不具有第二值，并且标识对应于当前帧中起音位置的片段的指示符大于第三值，如果在输入声音信号中检测到片段起音，则改变gsc核心编码器的初始选择为acelp核心编码器的选择。

技术总结
两阶段语音/音乐分类设备和方法分类输入声音信号，并选择用于编码声音信号的核心编码器。第一阶段将输入声音信号分类为多个最终分类之一。第二阶段提取输入声音信号的高级特征，并响应于所提取的高级特征和在第一阶段中选择的最终分类，选择用于编码输入声音信号的核心编码器。核心编码器。核心编码器。

技术研发人员：V.马伦诺夫斯基
受保护的技术使用者：沃伊斯亚吉公司
技术研发日：2021.04.08
技术公布日：2022/12/1

完整全部详细技术资料下载

当前第2页1 2