用于声音编解码器中的语音/音乐分类和核心编码器选择的方法和设备与流程

文档序号:32424809发布日期:2022-12-02 23:40阅读:49来源:国知局
1.本公开涉及声音编解码,更具体地,涉及语音/音乐分类和核心编码器选择,尤其但不排他地,涉及能够例如在复杂音频场景中以低比特率和低延迟产生良好声音质量的多声道声音编解码器。2.在本公开和所附权利要求中:[0003]-术语“声音”可以涉及语音、音频和任何其他声音;[0004]-术语“stereo(立体声)”是“stereophonic(立体声)”的缩写;以及[0005]-术语“mono(单声道)”是“monophonic(单声道)”的缩写。
背景技术
::[0006]历史上,会话电话是用仅具有一个换能器(transducer)的手机实现的,该换能器仅向用户的一只耳朵输出声音。在过去的十年中,用户已经开始结合耳机使用他们的便携式手机来通过他们的双耳接收声音,主要是为了听音乐,但有时也是为了听语音。然而,当使用便携式手机来发送和接收会话语音时,内容仍然是单声道的,但是当使用耳机时是被呈现给用户的双耳的。[0007]利用最新的3gpp语音编解码标准,如参考文献[1](其全部内容通过引用方式并入本文)中描述的evs(增强型语声服务),通过便携式手机发送和接收的编解码声音(例如语音和/或音频)的质量已经得到了显著提高。下一步自然是发送立体声信息,使得接收器尽可能接近通信链路另一端捕捉到的真实生活音频场景。[0008]在音频编解码器中,例如如参考文献[2](其全部内容通过引用方式并入本文)中所述,通常使用立体声信息的传输。[0009]对于会话语音编解码器,单声道信号是标准。当发送立体声信号时,由于立体声信号的左声道和右声道都是使用单声道编解码器编解码的,所以比特率通常加倍。这在大多数情景中工作良好,但存在比特率加倍的缺点,并且不能利用两个声道(立体声信号的左声道和右声道)之间的任何潜在冗余。此外,为了将整体比特率保持在合理的水平,左声道和右声道中的每一个都使用非常低的比特率,从而影响整体声音质量。为了降低比特率,已经开发并使用了有效的立体声编解码技术。作为非限制性的示例,在下面的段落中讨论了可以在低比特率下有效使用的两种立体声编解码技术。[0010]第一种立体声编解码技术被称为参数化立体声。参数化立体声使用一个公共单声道编解码器加上表示立体声图像的一定量的立体声边信息(对应于立体声参数)将两个输入(左声道和右声道)编码为单声道信号。两个输入被缩混成单声道信号,并然后计算立体声参数。这通常在频域(fd)中执行,例如在离散傅立叶变换(dft)域中。立体声参数与所谓的双声道或声道间提示(cue)相关。双声道提示(例如参见参考文献[3],其全部内容通过引用方式并入本文)包括双耳声级差(ild)、双耳时间差(itd)和双耳相关性(ic)。取决于声音信号特性、立体声场景配置等,部分或全部双声道提示被编码并发送到解码器。关于什么双声道提示被编码和发送的信息作为信令信息被发送,该信令信息通常是立体声边信息的一部分。此外,可以使用不同的编解码技术来量化给定的双声道提示,这导致使用可变数量的比特。然后,除了量化的双声道提示之外,立体声边信息通常可以以中等和更高的比特率包含由缩混产生的量化的残余信号。可以使用熵编码技术(例如算术编码器)对残余信号进行编码。[0011]另一种立体声编解码技术是在时域中操作的技术。这种立体声编码技术将两个输入(左声道和右声道)混合成所谓的主声道和副声道。例如,按照参考文献[4](其全部内容通过引用方式并入本文)中描述的方法,时域混合可以基于混合比,该混合比确定在产生主声道和副声道时两个输入(左声道和右声道)的各自贡献。混合比从几个度量中导出,例如两个输入(左声道和右声道)相对于单声道信号的归一化相关性,或者两个输入(左声道和右声道)之间的长期相关性差。主声道可以由公共单声道编解码器编解码,而副声道可以由较低比特率的编解码器编解码。副声道的编解码可以利用主声道和副声道之间的一致性,并且可以重用主声道的一些参数。[0012]此外,近年来,音频的生成、记录、表示、编解码、传输和再现正朝着增强的、交互式的和沉浸式的听众体验的方向发展。沉浸式体验可以被描述为,例如,当声音从各个方向传来时,深度投入或参与声音场景的状态。在沉浸式音频(也称为3d(三维)音频)中,考虑到如音色、方向性、混响、透明度和(听觉)空间感的精度的各种各样的声音特性,声像在听众周围的所有三维空间中再现。沉浸式音频是为特定的声音回放或再现系统(如基于扬声器的系统、集成再现系统(条形音响)或耳机)产生的。然后,声音再现系统的交互性可以包括例如调节声级、改变声音位置或选择不同语言进行再现的能力。[0013]存在三种基本方法来实现沉浸式体验。[0014]实现沉浸式体验的第一种方法是使用多个隔开的麦克风来捕捉来自不同方向的声音的基于声道的音频方法,其中一个麦克风对应于特定扬声器布局中的一个音频声道。然后,每个记录的声道被提供给给定位置的扬声器。例如,基于声道的音频方法的示例是立体声、5.1环绕、5.1+4等。[0015]实现沉浸式体验的第二种方法是基于场景的音频方法,其通过维度成分的组合将局部空间上的期望声场表示为时间的函数。表示基于场景的音频的声音信号独立于音频源的位置,而声场在渲染器处被变换成选定的扬声器布局。基于场景的音频的一个示例是环境立体声(ambisonics)。[0016]实现沉浸式体验的第三种方法是基于对象的音频方法,其将听觉场景表示为一组单独的音频元素(例如歌手、鼓、吉他等),伴随着如它们的位置的信息,因此它们可以由声音再现系统在它们的预期的位置再现。这为基于对象的音频方法提供了极大的灵活性和交互性,因为每个对象都是离散的,可以单独操作。[0017]上述实现沉浸式体验的每种音频方法都有优点和缺点。因此,在复杂的音频系统中组合几种音频方法而不是仅一种音频方法来创建沉浸式听觉场景是常见的。示例可以是将基于场景或基于声道的音频与基于对象的音频相结合的音频系统,例如具有几个离散音频对象的环境立体声。技术实现要素:[0018]根据第一方面,本公开提供了一种两阶段语音/音乐分类设备,用于分类输入声音信号和选择用于编码声音信号的核心编码器,包括:第一阶段,用于将输入声音信号分类为多个最终分类之一;以及第二阶段,用于提取输入声音信号的高级特征,并响应于所提取的高级特征和在第一阶段中选择的最终分类,选择用于编码输入声音信号的核心编码器。[0019]根据第二方面,提供了一种两阶段语音/音乐分类方法,用于分类输入声音信号和选择用于编码声音信号的核心编码器,包括:在第一阶段,将输入声音信号分类为多个最终分类之一;以及在第二阶段,提取输入声音信号的高级特征,并响应于所提取的高级特征和在第一阶段中选择的最终分类,选择用于编码输入声音信号的核心编码器。[0020]通过阅读下面参照附图仅以示例方式给出的示例性实施例的非限制性描述,包括两阶段语音/音乐分类设备和方法的声音编解码器的前述和其他目的、优点和特征将变得更加明显。附图说明[0021]在附图中:[0022]图1是声音处理和通信系统的示意框图,描述了声音编解码器的可能实现环境,包括两阶段语音/音乐分类设备和方法;[0023]图2是同时示出了两阶段语音/音乐分类设备的第一阶段和对应的两阶段语音/音乐分类方法的第一阶段的示意框图;[0024]图3是同时示出了两阶段语音/音乐分类设备的第二阶段和对应的两阶段语音/音乐分类方法的第二阶段的示意框图;[0025]图4是同时示出了两阶段语音/音乐分类设备的第一阶段的状态机和两阶段语音/音乐分类方法的第一阶段的信号划分操作的示意框图;[0026]图5是示出了基于相对帧能量的音节首/起音(onset/attack)检测的非限制性示例的曲线图;[0027]图6表示训练数据库中所选特征的直方图;[0028]图7示出了图示基于直方图值的异常点特征检测的曲线图;[0029]图8是示出了不同幂变换指数值λ的box-cox变换曲线的曲线图;[0030]图9是作为非限制性示例示出了用于计算自适应iir过滤器的遗忘因子的上升沿和下降沿检测的行为的曲线图;[0031]图10是示出了训练数据库的平滑差分分数wdlp(n)的分布以及在speech(语音)/noise(噪声)、unclear(不清楚)和music(音乐)分类之间转换的阈值的曲线图;[0032]图11是示出了在计算差分分数的加权平均值期间,处于entry状态的样本的排序的曲线图;[0033]图12是示出了用于分类speech/noise、unclear和music之间转换的一整套规则类别转换图;[0034]图13是示出了对输入声音信号的当前帧中的多个短片段执行的片段起音检测的示意图;[0035]图14是描述由图3的两阶段语音/音乐分类设备的第二阶段的核心编码器初始选择器使用的核心编码器的初始选择机制的示意图;[0036]图15是实现声音编解码器的硬件组件的示例配置的简化框图,包括两阶段语音/音乐分类设备和方法。具体实施方式[0037]近年来,3gpp(第三代合作伙伴计划)开始致力于基于evs编解码器(参见参考文献[5],其全部内容通过引用方式并入本文)开发用于被称为ivas(沉浸式语音和音频服务)的沉浸式服务的3d(三维)声音编解码器。[0038]本公开描述了ivas编解码框架中的语音/音乐分类技术和核心编码器选择技术。这两种技术都是两阶段语音/音乐分类方法的一部分,其结果是核心编码器选择。[0039]尽管语音/音乐分类方法和设备是基于evs的(参见参考文献[6]和参考文献[1],第5.1.13.6节,其全部内容通过引用方式并入本文),但是已经实现了一些改进和发展。此外,在本公开中,仅通过示例的方式,参考贯穿本公开被称为ivas编解码器(或ivas声音编解码器)的ivas编解码框架,描述了两阶段语音/音乐分类方法和设备。然而,将这种两阶段语音/音乐分类方法和设备并入任何其他声音编解码器中也在本公开的范围内。[0040]图1是立体声处理和通信系统100的示意框图,描述了声音编解码器(ivas编解码器)的可能实现环境,包括两阶段语音/音乐分类设备和方法。[0041]图1的立体声处理和通信系统100支持立体声信号通过通信链路101的传输。通信链路101可以包括例如电线或光纤链路。可选地,通信链路101可以至少部分包括射频链路。射频链路通常支持多个需要共享带宽资源的同时通信(如可以在蜂窝电话中找到的)。虽然未示出,但是通信链路101可以由系统100的单个设备实现中的储存设备来代替,该储存设备记录并存储编解码的立体声信号以供以后回放。[0042]仍然参考图1,例如,一对麦克风102和122产生原始模拟立体声信号的左声道103和右声道123。如在前面的描述中所指出的,声音信号可以尤其但不排他地包括语音和/或音频。[0043]原始模拟立体声信号的左声道103和右声道123被提供给模数(a/d)转换器104,用于将它们转换成原始数字立体声信号的左声道105和右声道125。原始数字立体声信号的左声道105和右声道125也可以被记录并从储存设备(未示出)提供。[0044]立体声编码器106对原始数字立体声信号的左声道105和右声道125进行编码,从而产生一组编码参数,这些编码参数以比特流107的形式被多路复用,该比特流107被传送到可选的纠错编码器108。可选的纠错编码器108(当存在时)在通过通信链路101发送结果比特流111之前,将冗余添加到比特流107中编码参数的二进制表示中。[0045]在接收器侧,可选的纠错解码器109利用上述接收到的比特流111中的冗余信息来检测和纠正在通信链路101上传输期间可能发生的错误,产生具有接收到的编码参数的比特流112。立体声解码器110转换比特流112中的接收到的编码参数,用于创建数字立体声信号的合成左声道113和右声道133。在立体声解码器110中重建的数字立体声信号的左声道113和右声道133在数模(d/a)转换器115中被转换成模拟立体声信号的合成左声道114和右声道134。[0046]模拟立体声信号的合成左声道114和右声道134分别在一对扬声器单元或双声道耳机116和136中回放。可选地,来自立体声解码器110的数字立体声信号的左声道113和右声道133也可以被提供给并记录在储存设备(未示出)中。[0047]例如,图1的立体声编码器106可以由ivas编解码器的编码器实现,包括图2和3的两阶段语音/音乐分类设备。[0048]1.两阶段语音/音乐分类[0049]如前面的描述中所指出的,本公开描述了ivas编解码框架中的语音/音乐分类技术和核心编码器选择技术。这两种技术都是两阶段语音/音乐分类方法(和对应设备)的一部分,其结果是选择用于编码主(主导)声道(在时域(td)立体声编码的情况下)或缩混单声道(在频域(fd)立体声编码的情况下)的核心编码器。本技术发展的基础是evs编解码器中的语音/音乐分类(参考文献[1])。本公开描述了在其中实现的并且是基线ivas编解码器框架的一部分的修改和改进。[0050]ivas编解码器中的语音/音乐分类方法和设备的第一阶段基于高斯混合模型(gmm)。从evs编解码器所采用的最初模型已经被扩展、改进和优化来适用于立体声信号的处理。[0051]总结:[0052]-gmm模型将特征向量作为输入,并提供对包括语音、音乐和背景噪声的三个分类的概率估计。[0053]-gmm模型的参数是在大量手动标记的声音信号特征向量上训练的。[0054]-gmm模型为每一帧(例如20毫秒帧)中的三个分类中的每一个提供概率估计。包括子帧的声音信号处理帧对于本领域普通技术人员来说是众所周知的,但是关于这种帧的进一步信息可以在例如参考文献[1]中找到。[0055]-异常点检测逻辑确保对声音信号的一个或多个特征不满足正态分布条件的帧进行正确处理。[0056]-通过逻辑回归,个体概率被转换成一个单一的、不受限制的分数。[0057]-两阶段语音/音乐分类设备具有其自己的状态机,用于将输入信号划分为四种状态之一。[0058]-取决于两阶段语音/音乐分类方法和设备的当前状态,对输出分数应用自适应平滑。[0059]-两阶段语音/音乐分类方法和设备在快速变化的内容中的快速反应通过基于相对帧能量的音节首/起音检测逻辑来实现。[0060]-平滑后的分数用于在以下三个类别的信号类型当中进行选择:纯语音、纯音乐、带音乐的语音。[0061]图2是同时示出了两阶段语音/音乐分类设备的第一阶段200和对应的两阶段语音/音乐分类方法的第一阶段250的示意框图。[0062]参考图2,两阶段语音/音乐分类设备的第一阶段包括:[0063]-用于信号划分的状态机201;[0064]-基于相对帧能量的音节首/起音检测器202;[0065]-特征提取器203;[0066]-基于直方图的异常点检测器204;[0067]-短期特征向量过滤器205;[0068]-非线性特征向量变换器206(box-cox);[0069]-主成分分析器(pca)207;[0070]-高斯混合模型(gmm)计算器208;[0071]-自适应平滑器209;以及[0072]-依赖状态的类别分类器210。[0073]ivas编解码器中的核心编码器选择技术(两阶段语音/音乐分类设备和方法的第二阶段)建立在两阶段语音/音乐分类设备和方法的第一阶段之上,并传递最终输出以执行从acelp(代数码激励线性预测)、tcx(变换编码激励)和gsc(通用音频信号编码器)中选择核心编码器,如参考文献[7]中所述,其全部内容通过引用方式并入本文。在本公开的范围内,也可以实现其他合适的核心编码器。[0074]总结:[0075]-然后,所选择的核心编码器被应用于编码主(主导)声道(在td立体声编码的情况下)或缩混单声道(在fd立体声编码的情况下)。[0076]-核心编码器选择使用在窗口上计算的附加高级特征,该窗口通常比两阶段语音/音乐分类设备方法的第一阶段中使用的窗口长。[0077]-核心编码器选择使用其自身的优化用于实现无缝切换的起音/音节首检测逻辑。起音/起音检测器的输出不同于第一阶段的起音/起音检测器的输出。[0078]-核心编码器最初是基于第一阶段的依赖状态的类别分类器210的输出来选择的。然后,通过检查附加高级特征和第二阶段的音节首/起音检测器的输出来细化这种选择。[0079]图3是同时示出了两阶段语音/音乐分类设备的第二阶段300和对应的两阶段语音/音乐分类方法的第二阶段350的示意框图。[0080]参考图3,两阶段语音/音乐分类设备的第二阶段包括:[0081]-附加高级特征的提取器301;[0082]-核心编码器的初始选择器302;以及[0083]-核心编码器初始选择的细化器303。[0084]2.两阶段语音/音乐分类设备和方法的第一阶段:[0085]首先,应该提到的是,gmm模型是使用最大期望(em)算法在大的、手动标记的训练样本数据库上训练的。数据库包含evs编解码器中使用的单声道项目和一些附加的立体声项目。单声道训练数据库的总大小约为650mb。原始单声道文件在用作ivas编解码器的输入之前会转换为对应的双单声道变体。附加立体声训练数据库的总大小约为700mb。附加的立体声数据库包含来自模拟对话的语音信号的真实记录、从互联网上的开源下载的音乐样本和一些人工创建的项目。通过将单声道语音样本与真实双声道房间脉冲响应(brir)对进行卷积来获得人工创建的立体声项目。这些脉冲响应对应于一些典型的房间配置,例如小型办公室、研讨室、礼堂等。使用从ivas编解码器提取的语声活动检测(vad)信息半自动地创建训练项目的标签;这不是最佳的,但是考虑到数据库的大小,逐帧手动标记是不可能的。[0086]2.1用于信号划分的状态机[0087]参考图2,两阶段语音/音乐分类方法的第一阶段250包括信号划分的操作251。为了执行这个操作,两阶段语音/音乐分类设备的第一阶段200包括状态机201。[0088]第一阶段中的状态机的概念取自evs编解码器。没有对ivas编解码器进行重大修改。状态机201的目的是将进入的声音信号划分成四种状态之一,即inactive、entry、active和unstable。[0089]图4是同时示出了两阶段语音/音乐分类设备的第一阶段200的状态机201和两阶段语音/音乐分类方法的第一阶段250的信号划分操作251的示意框图。[0090]图4的示意图还示出了状态机201用于将输入声音信号从一种状态转换到另一种状态的转换条件,这些转换条件与输入声音信号的特性相关。[0091]指示背景噪声的inactive状态401被选择作为初始状态。[0092]当vad标志403(参见参考文献[1])从“0”变为“1”时,状态机201从inactive状态401切换到entry状态402。为了产生由两阶段语音/音乐分类方法和设备的第一阶段使用的vad标志,可以利用任何vad检测器或sad(声音活动检测)检测器。entry状态402标志着在长时间的静默之后输入声音信号的第一音节首或起音。[0093]在entry状态402中的例如八帧405之后,状态机201进入active状态404,这标志着具有足够能量(给定能量水平)的稳定声音信号的开始。如果信号的能量409在状态机201处于entry状态402时突然降低,则状态机201从entry状态变为unstable状态407,对应于能量水平接近背景噪声的输入声音信号。此外,如果在状态机201处于entry状态402的同时,vad标志403从“1”变为“0”,则状态机201返回到inactive状态401。这确保了短暂暂停期间分类的连续性。[0094]如果稳定信号(活动状态404)的能量406突然下降到更接近背景噪声的水平,或者vad标志403从“1”变为“0”,则状态机201从active状态404切换到unstable状态407。[0095]在处于unstable状态407的例如12帧410的时间段之后,状态机201回复到inactive状态401。如果在状态机201处于unstable状态407的同时,不稳定信号的能量408突然增加或者vad标志403从“0”变为“1”,则状态机210返回到active状态404。这确保了短暂暂停期间分类的连续性。[0096]在下面的描述中,状态机201的当前状态表示为fsm。分配给个体状态的常数可定义如下:[0097]inactivefsm=-8[0098]unstablefsm∈《-7,-1》[0099]entryfsm∈《0,7》[0100]activefsm=+8[0101]在inactive和active状态下,fsm对应于单个常数,而在unstable和entry状态下,取决于状态机201的进展,fsm呈现多个值。因此,在unstable和entry状态下,fsm可以用作短期计数器。[0102]2.2音节首(onset)/起音(attack)检测器[0103]参考图2,两阶段语音/音乐分类方法的第一阶段250包括基于相对帧能量的音节首/起音检测的操作252。为了执行这个操作,两阶段语音/音乐分类设备的第一阶段200包括音节首/起音检测器202。[0104]音节首/起音检测器202和对应的音节首/起音检测操作252适用于ivas编解码器的语音/音乐分类的目的和功能。对象尤其但不排他地包括语音发声(起音)的开始和音乐片段的音节首的定位。这些事件通常与输入声音信号特征的突然变化有关。在信号不活动的时间段之后,信号音节首和起音的成功检测允许在分数平滑过程中减少过去信息的影响(在下文中描述)。音节首/起音检测逻辑在状态机201(图2)中扮演与图4的entry状态402相似的角色。这两个概念之间的差异与它们的输入参数有关。状态机201主要使用来自he-sad(高效声音活动检测)技术(参见参考文献[1])的vad标志403(图4),而音节首/起音检测器252使用相对帧能量的差异。[0105]相对帧能量er可以被计算为以db为单位的帧能量和长期平均能量之间的差。可以使用以下关系来计算以db为单位的帧能量:[0106][0107]其中ecb(i)是每临界带的平均能量(见参考文献[1])。长期平均帧能量可以使用以下关系来计算:[0108][0109]初始值为相对帧能量可以计算如下[0110][0111]音节首/起音检测器252使用的参数是当前帧中的输入声音信号的相对能量和在每一帧中更新的先前帧中的输入声音信号的相对能量之间的差的累积和。该参数被初始化为0,并且仅当当前帧中的相对能量er(n)大于先前帧中的相对能量er(n-1)时才被更新。音节首/起音检测器252使用例如以下关系来更新累积和vrun(n):[0112]vrun(n)=vrun(n-1)+(er(n)-er(n-1))[0113]其中n是当前帧的索引。音节首/起音检测器252使用累积和vrun(n)来更新音节首/起音帧的计数器vcnt。音节首/起音检测器252的计数器被初始化为0,并且在entry状态402的每一帧中递增1,其中vrun》5。否则,它被重置为0。[0114]起音/音节首检测器202的输出是二进制标志fatt,例如当0《vrun《3时其被设置为1以指示检测到音节首/起音。否则,该二进制标志被设置为0,以指示没有检测到音节首/起音。这可以表示如下:[0115][0116]作为一个非限制性的示例,由图5的曲线图展示了音节首/起音检测器202的操作。[0117]2.3特征提取器[0118]参考图2,两阶段语音/音乐分类方法的第一阶段250包括提取输入声音信号特征的操作253。为了执行这个操作,两阶段语音/音乐分类设备的第一阶段200包括特征提取器203。[0119]在gmm模型的训练阶段,训练样本被重采样到16khz,归一化到-26dbov(dbov是相对于系统过载点的db级别)并被级联。然后,重采样和级联的训练样本被馈送到ivas编解码器的编码器,以使用特征提取器203收集特征。出于特征提取的目的,ivas编解码器可以在fd立体声编码模式、td立体声编码模式或任何其他立体声编码模式下并以任何比特率运行。作为非限制性示例,特征提取器203以16.4kbps的td立体声编码模式运行。特征提取器203提取在用于语音/音乐/噪声分类的gmm模型中使用的以下特征:[0120]表1:gmm模型中使用的特征[0121][0122]除了mfcc特性,上述所有特征都已经存在于evs编解码器中(参见参考文献[1])。[0123]特征提取器203使用开环基音tol和语声测量进行进一步分析。这些测量都是作为输入声音信号的三个相邻信号片段的平均值来计算的。每个片段的长度为10ms。lsf(线谱频率)特征是m个值的向量,其中m是lp(线性预测)分析的阶数。来自lp分析的残余能量∈p是作为levinson-durbin算法的一部分计算的m+1个值的向量。短期相关性图cmap是作为谐波频谱分析的副产品计算的单个参数特征;它反映了输入声音信号的和谐性和频谱稳定性。非平稳性特征nsta反映了频谱能量演化的动力(dynamic)。语音信号中的动力通常高于音乐信号中的动力。[0124]mfcc特征是对应于梅尔频率倒谱系数的nmel个值的向量,梅尔频率倒谱系数是在梅尔频率尺度上表达的短期能谱的实对数的余弦变换的结果(参见参考文献[8],其全部内容通过引用并入本文)。[0125]最后两个特征pdiff和psta的计算使用例如归一化的每间隔(bin)功率谱,定义为[0126][0127]其中pl是在ivas频谱分析例程中计算的当前帧中的每间隔功率谱(见参考文献[1])。在对应于150–3500hz频率范围的范围《klow,khigh》=《3,70》内执行归一化。[0128]功率谱差pdiff可以定义为[0129][0130]其中已经添加了索引(n)来显示表示帧索引。[0131]可以使用以下关系式,从归一化的每间隔功率谱和功率差分谱的比之和来计算谱平稳性特征psta:[0132][0133]在包含同时具有较高振幅和较小频谱差异的频率间隔的帧中,频谱平稳性通常较高。[0134]2.4基于个体特征直方图的异常点检测器[0135]参考图2,两阶段语音/音乐分类方法的第一阶段250包括基于个体特征直方图检测异常点特征的操作254。为了执行操作254,两阶段语音/音乐分类设备的第一阶段200包括异常点检测器204。[0136]在大型训练数据库上,根据从ivas编解码器收集的特征向量来训练gmm模型。gmm模型的精度在很大程度上受到个体特征的统计分布的影响。当特征呈正态分布时,例如当n表示具有均值μ和方差σ的统计分布x~n(μ,σ)时,可获得最佳结果。图6示出了大型训练数据库中一些选定特征的直方图。可以看出,图6中一些特征的直方图并没有显示它们是从正态分布绘制的。[0137]gmm模型在一定程度上可以代表非正态分布的特征。如果一个或多个特征的值明显不同于其均值,则特征向量被确定为异常点。异常点通常会导致错误的概率估计。不是丢弃特征向量,而是可以用例如来自先前帧的特征值、多个先前帧的平均特征值或者大量先前帧的全局平均值来替代异常点特征。[0138]检测器204基于在训练数据库上计算的个体特征直方图的分析(例如,参见示出了特征直方图的图6和示出了图示基于直方图值异常点的检测的曲线图的图7),检测两阶段语音/音乐分类设备的第一阶段200中的异常点。对于每个特征,使用例如以下关系来计算异常点检测的下限hlow和上限hhigh:[0139]对于i=0,..,imax[0140]对于i=imax,..,i[0141]其中h(i)是归一化的特征直方图,使得max(h(i))=1,i是范围从0到i=500个间隔的频率间隔索引,并且imax是包含该特征的直方图的最大值的间隔。阈值thrh设置为1e-4。阈值thrh的这个特定值有以下解释。如果特征的真实统计分布是均值μ和方差σ均为零的正态分布(normal),则可以对其进行重新缩放,使得其最大值等于1。在这种情况下,概率密度函数(pdf)可以表示为[0142][0143]通过用阈值thrh替代fxs(x|0,σ2)并重新排列变量,获得以下关系式:[0144][0145]对于thrh=1e-4获得了以下结果:[0146][0147]因此,假设分布是正态的并且被缩放,则应用阈值1e-4导致将概率密度函数修整到平均值附近±2.83σ的范围,使得密度概率函数fxs(0|0,σ2)=1。特征值位于修整范围之外的概率由例如下面的关系式给出:[0148][0149]其中erf(.)是统计理论中已知的高斯误差函数。[0150]如果特征值的方差为σ=1,则检测到的异常点的百分比大约为0.47%。上述计算只是近似的,因为特征值的真实分布不是正态分布。这由图6中的非平稳性特征nsta的直方图来说明,其中平均值右侧的尾部比平均值左侧的尾部“更重”。例如,如果将样本方差σ用作异常点检测的基础,并且将区间设置为例如±3σ,则平均值右侧的许多“好”值将被分类为异常点。[0151]为两阶段语音/音乐分类方法和设备的第一阶段250/200使用的每个特征计算下限hlow和上限hhigh,并存储在ivas编解码器的存储器中。当运行ivas编解码器的编码器时,异常点检测器204将当前帧n中的每个特征j的值xj(n)与该特征的边界hlow和hhigh进行比较,并将具有位于下限和上限之间定义的对应范围之外的值的特征j标记为异常点特征。这可以表示为[0152][0153]其中f是特征的数量。异常点检测器204包括异常点特征的计数器(未示出),codv,使用例如以下关系式表示检测到的异常点的数量:[0154][0155]如果异常点特征的数量等于或高于例如2,则异常点检测器204将二进制标志fout设置为1。这可以表示如下:[0156][0157]该标志fout用于信令通知特征向量是异常点。如果标志fout等于1,则异常点特征xj(n)被替换,例如用来自先前帧的值替代,如下所示:[0158]xj(n)=xj(n-1)对于j=1,..,f如果fodv(j)=1[0159]2.5短期特征向量过滤器[0160]参考图2,两阶段语音/音乐分类方法的第一阶段250包括过滤短期特征向量的操作255。为了执行操作255,两阶段语音/音乐分类设备的第一阶段200包括短期特征向量过滤器205,用于平滑所提取特征的短期向量。[0161]语音/音乐分类精度通过特征向量平滑得到提高。这可以通过应用以下用作短期特征向量过滤器205的短期无限脉冲响应(iir)过滤器来执行:[0162]对于j=1,..,f[0163]其中代表帧n中的短期过滤的特征,并且αm=0.5是所谓的遗忘因子。[0164]在其中fatt=1或者fiut=1的图4的entry状态402中,在帧中不执行特征向量平滑(过滤短期特征向量的操作255),为了避免在其中在先前帧中特征向量的信息潜力是有限的active信号片段开始时对强起音或异常点的拖尾效应。在被ivas瞬态分类算法分类为音节首/瞬态的帧中,在图4的active状态404(稳定信号)中也不执行平滑(参见参考文献[1])。当不执行短期特征向量过滤操作255时,简单地复制并使用未过滤向量的特征值xj(n)。这可以用下面的关系式来表示:[0165]对于j=1,..,f[0166]在下面的描述中,使用特征值xj(n)的原始符号代替即假设[0167]对于j=1,..,f[0168]2.6非线性特征向量变换(box-cox)[0169]参考图2,两阶段语音/音乐分类方法的第一阶段250包括非线性特征向量变换的操作256。为了执行操作256,两阶段语音/音乐分类设备的第一阶段200包括非线性特征向量变换器206。[0170]如图6的直方图所示,在语音/音乐分类中使用的多个特征不是正态分布的,因此不能达到gmm的最佳精度。作为非限制性示例,非线性特征向量变换器206可以使用参考文献[9]中描述的box-cox变换,该文献的全部内容通过引用方式并入本文,以将非正态特征变换为具有正态形状的特征。特征x的box-cox变换xbox是参数化非线性幂变换,定义如下:[0171][0172]其中λ是幂变换的指数,从-5变化到+5(参见图8中的示例;图8是示出了不同幂变换指数值λ的box-cox变换曲线的曲线图)。box-cox变换仅针对正输入进行限定。因此,添加了一些偏差(bias)δ以确保特征的所有输入值都为正。该偏差对应于整个训练数据库中的最小特征值。即[0173]对于n=0,..,n[0174]其中n是训练数据库中特征的样本数。[0175]在训练过程期间,非线性特征向量变换器206考虑并测试指数λ的所有值,以基于正态性测试选择指数λ的最佳值。正态性测试基于参考文献[10]中描述的d'agostino和pearson方法,其全部内容通过引用结合到本文中,结合了概率分布函数的偏斜和峰度。正态性测试产生以下偏斜和峰度测量rsk(s-k测量):[0176]rsk=s2+k2[0177]其中s是偏斜测试返回的z-score(z分数),并且k是峰度测试返回的z-score。关于偏斜测试和峰度测试的细节,参见参考文献[11],其全部内容通过引用并入本文。[0178]正态性测试还返回零假设的双侧卡方概率,即特征值来自正态分布绘出。指数λ的最佳值使s-k测量最小。这可以用下面的关系式来表示:[0179]对于λ=-2,..,3[0180]其中下标j表示对每个单独的特征j=1,..,f完成上述最小化过程。[0181]在编码器中,非线性特征向量变换器206仅将box-cox变换应用于满足与s-k测量相关的以下条件的选定特征:[0182]对于j=1,..,f[0183]其中rsk(j)是在box-cox变换之前对第j个特征计算的s-k测量,并且r′sk(j)是在具有最佳指数值λj的box-cox变换之后的s-k测量。所选特征的最佳指数值λj和相关偏差δj存储在ivas编解码器的存储器中。[0184]在下面的描述中,将使用特征值xj(n)的原始符号来代替xbox,j(n),即假设[0185]xj(n)←xbox,j(n)对于选择的特征[0186]2.7主成分分析器[0187]参考图2,两阶段语音/音乐分类方法的第一阶段250包括主成分分析(pca)的操作257,以减少声音信号特征维度并增加声音信号分类判别性。为了执行操作257,两阶段语音/音乐分类设备的第一阶段200包括主成分的主成分分析器207。[0188]在短期特征向量过滤的操作255和非线性特征向量变换的操作256之后,主成分分析器207通过去除特征的平均值并将它们缩放到单位方差来标准化特征向量。为此,可以使用以下关系式:[0189]对于j=1,..,f[0190]其中表示标准化特征,μj是均值并且sj训练数据库中特征xj的标准方差(standarddeviation),并且如上所述,n表示当前帧。[0191]特征xj的平均值μj和偏差(deviation)sj可以计算如下:[0192][0193][0194]其中n表示训练数据库中的总帧数。[0195]在以下描述中,将使用特征值xj(n)的原始符号来代替即假设:[0196]对于n=1,..,n[0197]然后,主成分分析器207使用pca处理特征向量,其中维度被降低,例如从f=15到fpca=12。pca是一种正交变换,将一组可能相关的特征转换成一组称为主成分的线性不相关变量(参见参考文献[12],其全部内容通过引用并入本文)。在语音/音乐分类方法中,分析器207使用例如以下关系式来变换特征向量:[0198]y(n)=wtx(n)[0199]其中x(n)是f维列特征向量,w是pca载荷矩阵f×fpca,其列是xt(n)x(n)的特征向量,其中上标t表示向量转置。通过训练数据库中的特征样本的奇异值分解(svd)来找到载荷。在训练阶段,仅对活动帧计算载荷,例如在vad标志为1的帧中。计算出的载荷存储在ivas编解码器的存储器中。[0200]在下面的描述中,将使用特征向量x(n)的原始符号来代替y(n),即假设:[0201]x(n)←y(n)[0202]2.8高斯混合模型(gmm)[0203]参考图2,两阶段语音/音乐分类方法的第一阶段250包括高斯混合模型(gmm)计算的操作258。为了执行操作258,两阶段语音/音乐分类设备的第一阶段200包括gmm计算器208。如将会看到的,gmm计算器208通过最大化训练数据库上的谐波平衡精度来估计决策偏差参数。决策偏差是由于训练数据不足而被添加到gmm中以提高“music”分类确定的精度的参数[0204]多元gmm由成分权重、成分均值和协方差矩阵的混合来参数化。语音/音乐分类方法使用三个gmm,每个gmm在其自己的训练数据库上被训练,即“语音”gmm、“音乐”gmm和“噪声”gmm。在具有k个成分的gmm中,每个成分都有自己的均值μk和协方差矩阵∑k。在语音/音乐分类方法中,三(3)个gmm固定有k=6个成分。成分权重用约束来表示φk,以便概率分布被归一化。给定特征向量x由gmm生成的概率p(x)可以使用以下关系式来计算:[0205][0206]在上述关系式中,指数函数exp(...)的计算是复杂的运算。使用最大期望(em)算法计算gmm的参数。众所周知,最大期望算法可以用于潜在变量(不能直接观察到的变量,并且实际上是从其他观察到的变量的值中推断出来的变量),为了在已知控制这些潜在变量的概率分布的一般形式的条件下预测它们的值。[0207]为了降低概率计算的复杂性,可以通过取求和项∑内部项的对数来简化上述关系式,如下所示:[0208][0209]上述简化公式的输出称为“分数”。分数是与对数似然性成比例的无界变量。分数越高,给定特征向量由gmm生成的概率就越高。分数由gmm计算器208为三个gmm中的每一个计算。“语音”gmm的分数scores(x)和“音乐”gmm的分数scorem(x)通过计算它们的差来组合成单个值δs(x),以获得差分分数δs(x),例如使用下面的关系式:[0210]δs(x)=scorem(x)-scores(x)[0211]差分分数的负值表示输入声音信号是语音信号,而正值表示输入声音信号是音乐信号。通过使用以下关系式将非负值添加到差分分数,可以在差分分数dlp(x,bs)的计算中引入决策偏差bs:[0212]dlp(x,bs)=scorem(x)-scores(x)+bs[0213]决策偏差bs的值是基于在训练数据库上计算的差分分数的ensemble(集成)而找到的。找到决策偏差bs值的过程可以描述如下。[0214]设xt表示来自训练数据库的特征向量的矩阵。设yt是对应的标签向量。设这个向量中的真实speech帧的值表示为+1.0而其他帧中的值表示为0。训练数据库中active帧的总数表示为nact。[0215]可以在em训练之后,即当gmm的参数已知时,在训练数据库的活动帧中计算差分分数dlp(x,bs)。然后,有可能使用例如以下关系式来预测训练数据库的活动帧中的标签ypred(n):[0216]ypred(n)=0.5*[sign[-1.0dlp(x(n),bs=0)]+1.0][0217]其中sign[.]是正负号函数,并且dlp(x(n),bs=0)表示在假设bs=0下计算的差分分数。标签的结果值ypred(n)等于+1.0表示speech,或者等于0表示music或noise。[0218]这种二元预测值的精度可以用以下四种统计方法进行总结:[0219][0220][0221][0222][0223]其中er是用作样本加权因子的相对帧能量。统计测量具有以下含义:ctp是真阳性的数量,即speech分类的命中数量,cfp是假阳性的数量,即music分类错误分类的帧的数量,ctn是真阴性的数量,即music/noise分类的命中数量,以及cfn是假阴性的数量,即speech分类中错误分类的帧的数量。[0224]上面定义的统计可以用于计算真阳性率,通常称为召回率[0225][0226]并且真阴性率,通常称为特异度[0227][0228]通过取tpr和tnr的调和平均值并使用以下关系式,可将召回率tpr和特异度tnr合并成单个数字:[0229][0230]其结果称为谐波平衡精度。[0231]可以通过最大化利用标签/预测器ypred(n)实现的上述定义的谐波平衡精度来找到决策偏差bs的值,其中bs从连续步骤的区间(-2,2)中选择。决策偏差的候选值的空间大约是对数的,其在0附近具有更高的值集中度。[0232]用发现的决策偏差bs的值计算的差分分数dlp(x,bs)被限制在例如(-30.0,+30.0)的范围内。当vad标志为0时,或者当总帧能量etot低于10db时,或者当语音/音乐分类方法处于entry状态402并且fatt或fout为1时,差分分数dlp(x,bs)被重置为0。[0233]2.9自适应平滑器[0234]参考图2,两阶段语音/音乐分类方法的第一阶段250包括自适应平滑的操作259。为了执行操作259,两阶段语音/音乐分类设备的第一阶段200包括自适应平滑器209。[0235]自适应平滑器209包括例如自适应iir过滤器,以平滑从gmm计算器208标识为dlp(n)的帧n的差分分数dlp(x,bs)。自适应平滑、过滤操作259可以使用以下操作来描述:[0236]wdlp(n)=wght(n)·wdlp(n-1)+(1-wght(n))·dlp(n)[0237]其中wdlp(n)是得到的平滑差分分数,wght(n)是自适应iir过滤器的所谓遗忘因子,并且n表示帧索引。[0238]遗忘因子是三个独立参数的乘积,如下式所示:[0239]wght(n)=wrele(n)·wdrop(n)·wrise(n)[0240]参数wrele(n)与当前帧的相对能量er(n)成线性比例,并且可以使用以下关系来计算:[0241][0242]参数wrele(n)限于例如区间(0.9,0.99)。上述关系式中使用的常数有以下解释。当相对能量高于15db时,参数wrele(n)达到阈值上限0.99。类似地,当相对能量低于-15db时,参数wrele(n)达到较低阈值0.9。参数wrele(n)的值影响平滑器209的自适应iir过滤器的遗忘因子wght(n)。平滑在能量较弱的片段中更强,在这些片段中,期望特征携带关于输入信号的较少相关信息。[0243]参数wdrop(n)与差分分数dlp(n)的导数成比例。首先,使用例如以下关系式来计算差分分数dlp(n)的短期均值dlpst(n):[0244]dlpst(n)=0.8·dlpst(n-1)+0.2·dlp(n)[0245]参数wdrop(n)被设置为0,并且仅在满足以下两个条件的帧中被修改:[0246]dlp(n)<0[0247]dlp(n)<dlpst(n)[0248]因此,自适应平滑器209仅在差分分数dlp(n)具有下降趋势时以及当它指示当前帧属于speech类别时才更新参数wdrop(n)。在第一帧中,当满足这两个条件且如果dlpst(n)>0时,参数wdrop(n)被设置为[0249]wdrop(n)=-dlp(n)[0250]否则,自适应平滑器209使用例如以下关系式稳定地增加参数wdrop(n):[0251]wdrop(n)=wdrop(n-1)+(dlpst(n-1)-dlp(n))[0252]如果上面定义的两个条件不成立,则参数wdrop(n)被重置为0。因此,参数wdrop(n)对指示潜在语音音节首的零级别以下的差分分数dlp(n)的突然下降做出反应。参数wdrop(n)的最终值被线性映射到例如(0.7,1.0)的区间,如下面的关系式所示:[0253][0254]请注意,在上面的公式中,wdrop(n)的值被“覆盖”,以简化表示法。[0255]自适应平滑器209类似地计算参数wrise(n),不同之处在于参数wdrop(n)对指示潜在音乐音节首的差分分数dlp(n)的突然上升做出反应。参数wrise(n)被设置为0,但是在满足以下条件的帧中被修改:[0256]fsm(n)=8(active)[0257]dlpst(n)>0[0258]dlpsr(n)>dlpst(n-1)[0259]因此,当差分分数dlp(n)具有增加的趋势并且当该差分分数dlp(n)指示当前帧n属于music分类时,自适应平滑器209仅在输入声音信号的active状态404中更新参数wrise(n)(见图4)。[0260]在第一帧中,当满足上述三(3)个指定条件时,并且如果短期均值dlpst(n-1)<0,则第三个参数wrise(n)被设置为:[0261]wrise(n)=-dlpst(n)[0262]否则,自适应平滑器209根据例如以下关系式稳定地增加参数wrise(n):[0263]wrise(n)=wrise(n-1)+(dlpst(n)-dlpst(n-1))[0264]如果上述三(3)个条件不成立,参数wrise(n)将被重置为0。因此,第三参数wrise(n)对指示潜在音乐音节首的零级别之上的差分分数dlp(n)的突然上升做出反应。参数wrise(n)的最终值被线性映射到例如(0.95,1.0)的区间,如下所示:[0265][0266]注意,在上面的公式中,参数wrise(n)的值被“覆盖”,以简化符号。[0267]图9是作为一个非限制性的示例的示出了带有背景音乐的语音信号的短片段上参数wdrop(n)和wrise(n)的行为的曲线图。参数wdrop(n)的峰值通常位于语音音节首处附近,而参数wrise(n)的峰值通常位于语音缓慢减轻并且背景音乐开始主导信号内容的地方。[0268]自适应平滑器209的自适应iir过滤器的遗忘因子wght(n)响应于强speech信号内容或强music信号内容而减小。为此,自适应平滑器209分析差分分数dlp(n)的长期均值和长期方差使用例如以下关系式计算:[0269][0270][0271]在输入声音信号的entry状态402(图4),长期均值和长期方差当差分分数dlp(n)的绝对值高且其平均值附近的变化低时,语音/音乐分类设备很有可能对其内容具有确定性。这可以用以下长期均值与长期方差比来表示:[0272][0273]表达式rm2v(n)对应于差分分数的长期标准方差。使用例如以下关系式,在其中rm2v(n)》15的帧中,自适应平滑器259的自适应iir过滤器的遗忘因子wght(n)减小:[0274]wght(n)←0.9·wght(n)[0275]自适应平滑器209的自适应iir过滤器的遗忘因子wght(n)的最终值被限制在例如(0.01,1.0)的范围内。在总帧能量etot(n)低于10db的帧中,遗忘因子wght(n)被设置为例如0.92。这确保了在静默期间差分分数dlp(n)的正确平滑。[0276]如下所述,经过滤、平滑的差分分数wdlp(n)是用于语音/音乐分类方法的类别决策的参数。[0277]2.10依赖状态的类别分类器[0278]参考图2,两阶段语音/音乐分类方法的第一阶段250包括操作260,其响应于差分分数分布和依赖方向的阈值,对输入声音信号进行依赖状态的类别分类。为了执行操作260,两阶段语音/音乐分类设备的第一阶段200包括依赖状态的类别分类器210。[0279]操作260是两阶段语音/音乐分类方法的第一阶段250的最终操作,并且包括将输入声音信号分类成以下三个最终分类:[0280]·speech/noise(0)[0281]·unclear(1)[0282]·music(2)[0283]在上面,括号中的数字是与最后三个分类相关的数字常量。上面的一组分类与到目前为止讨论过的关于差分分数的分类略有不同。第一个区别是speech类和noise类是结合在一起的。这是为了便于核心编码器选择机制(在下面的描述中描述),其中acelp编码器核心通常被选择用于编码语音信号和背景噪声。集合中增加了一个新分类,即unclear最终类。落入该类别的帧通常出现在具有高级别附加背景音乐的语音片段中。分类unclear中帧的平滑差分分数wdlp(n)大多接近0。图10是示出了训练数据库的平滑差分分数wdlp(n)的分布以及它们与最终分类speech/noise、unclear和music的关系的曲线图。[0284]设dsmc(n)表示由依赖状态的类别分类器210选择的最终分类。[0285]当输入声音信号在当前帧中处于entry状态402(参见图4)时,依赖状态的类别分类器210基于在属于entry状态402并且在当前帧之前的帧中计算的差分分数dlp(n)的加权平均值来选择最终分类dsmc(n)。可以使用以下关系式计算加权平均值:[0286]对于n=nentry,..,nentry+7[0287]其中nentry标记entry状态402的起始(帧),并且αk(n-nentry)是对应于entry状态中的样本dlp(n)的权重。因此,取决于当前帧相对于entry状态的起始(帧)的位置,加权平均值wdlpentry(n)中使用的样本数量的范围从0到7。这在图11中示出,图11示出了以降序对权重排序的曲线图,使得最近的帧与最高的权重相关联。下表2示出了可用于这种平均的权重的示例。[0288]表2:entry状态时用于平均的权重[0289][0290][0291]如果绝对帧能量etot在当前帧中低于例如10db,则依赖状态的类别分类器210将最终分类dsmc(n)设置为speech/noise,而不考虑差分分数dlp(n)。这是为了避免静默期间的错误分类。[0292]如果entry状态中的差分分数的加权平均值wdlpentry(n)小于例如2.0,则依赖状态的类别分类器210将最终分类dsmc(n)设置为speech/noise。[0293]如果entry状态中的差分分数的加权平均值wdlpentry(n)高于例如2.0,则依赖状态的类别分类器210基于当前帧中的非平滑差分分数dlp(n)来设置最终分类dsmc(n)。如果dlp(n)更高例如高于2.0,则最终分类是music。否则是unclear。[0294]在输入声音信号的其它状态下(见图4),依赖状态的类别分类器210基于平滑的差分分数wdlp(n)和在先前帧中选择的最终分类,在当前帧中选择最终分类。当前帧中的最终分类首先被初始化为来自先前帧的分类,即[0295]dsmc(n)=dsmc(n-1)[0296]如果平滑后的差分分数wdlp(n)交叉于与先前帧中选择的分类不同的分类阈值(见表3),则依赖状态的类别分类器210可以改变决策。这些分类之间的转换如图10所示。例如,如果在先前帧中选择的最终分类dsmc(n)是speech/noise,并且当前帧中的平滑差分分数wdlp(n)高于例如1.0,则当前帧中的最终分类dsmc(n)将被改变为unclear。图10的曲线图示出了在训练数据库上计算的speech/noise最终分类和music最终分类的平滑差分分数wdlp(n)的直方图,不包括inactive帧。从图10的曲线图可以看出,有两组阈值,一组用于speech/noise-》unclear-》music转换,并且另一组用于相反方向,即music-》unclear-》speech/noise转换。最终分类dsmc(n)没有直接从speech到music的切换,反之亦然。决策阈值的值指示依赖状态的类别分类器210倾向于speech/noise最终分类。下表3总结了分类之间的转换和相关阈值的示例。[0297]表3:类别转换的阈值到[0298][0299]如上所述,类别之间的转换不仅由平滑差分分数wdlp(n)的值驱动,还由在先前帧中选择的最终分类驱动。图12的类转换图中显示了一组完整的分类间转换规则。[0300]图12中的箭头指示了当对应菱形内部的(多个)条件满足时,分类可能改变的方向。在菱形中存在多个条件的情况下,假设它们之间存在逻辑“and”,即必须满足所有条件才能发生转换。如果箭头以符号“≥x帧”为条件,则意味着只能在至少x帧后改变分类。这给一些转换添加了短暂的滞后。[0301]在图12中,符号fsp表示短基音标志,其是ivas编解码器的稳定高基音分析模块的副产品(参见参考文献[1])。在预先选择的活动帧中,短基音标志被设置为1,示出了语声测量的高值语声测量作为当前帧的三个相邻半帧的平均归一化相关值计算如下[0302][0303]其中是当前帧中的归一化自相关函数,并且上方索引[k]是指半帧窗口的位置。归一化自相关函数作为ivas编解码器的开环基音分析模块的一部分进行计算(参见参考文献[1],第5.1.11.3.2节)。[0304]短基音标记fsp可以在预先选择的帧中设置如下[0305][0306]其中是当前帧中最大高基音相关性值的长期测量(见参考文献[1]),并且是当前帧中的长期语声测量。长期测量和可以使用以下关系式计算:[0307][0308][0309]并且是作为ivas编解码器的稳定高基音分析模块的一部分计算的最大高基音相关值(参见参考文献[1])。[0310]在图12中,参数cvad是active帧的计数器。计数器cvad被初始化为零,并且在vad标志为0的所有帧中被重置为零。计数器cvad仅在vad标志为1的帧中加1,直到它达到阈值(例如50)或者直到vad标志回到零。[0311]参数vrun(n)在本公开的第2.2节(音节首/起音检测)中定义。[0312]3.核心编码器选择[0313]图3是同时示出了两阶段语音/音乐分类设备的第二阶段300和对应的两阶段语音/音乐分类方法的第二阶段350的示意框图。[0314]在两阶段语音/音乐分类方法和设备的第二阶段350/300中,由依赖状态的类别分类器210选择的最终分类dsmc(n)被“映射”到ivas编解码器的三种核心编码器技术之一,即acelp(代数码激励线性预测)、gsc(通用音频信号编码)或tcx(变换编码激励)。这被称为三向分类法。其并不保证所选择的技术将被用作核心编码器,因为存在影响决策的其他因素,如比特率或带宽限制。然而,对于常见类型的输入声音信号,使用核心编码器技术的初始选择。[0315]除了在第一阶段由依赖状态的类别分类器210选择的分类dsmc(n)之外,核心编码器选择机制还考虑了一些附加高级特征。[0316]3.1附加高级特征提取器[0317]参考图3,两阶段语音/音乐分类方法的第二阶段350包括提取输入声音信号的附加高级特征的操作351。为了执行操作351,两阶段语音/音乐分类设备的第二阶段300包括附加高级特征提取器301。[0318]在两阶段语音/音乐分类设备和方法的第一阶段200/250中,大多数特征通常是在不超过80ms的输入声音信号的短片段(帧)上计算的。这允许对如背景音乐存在时的语音音节首或偏移的事件做出快速反应。然而,这也导致了相对较高的错误分类率。通过自适应平滑在一定程度上减轻了错误分类,如上面第2.9节所述,但是对于某些类型的信号,这不是足够有效的。因此,作为两阶段语音/音乐分类设备和方法的第二阶段300/350的一部分,为了为某些类型的信号选择最合适的核心编码器技术,可以改变分类dsmc(n)。为了检测这种类型的信号,检测器通常在输入信号的较长片段上计算附加高级特征和/或标志。[0319]3.1.1长期信号稳定性[0320]长期信号稳定性是输入声音信号的可用于声乐和歌剧的成功判别的特征。在核心编码器选择的背景下,信号稳定性被理解为具有高自相关性的片段的长期平稳性。附加高级特征提取器301基于“语声”测量来估计长期信号稳定性特征。可以使用在多个(例如10个)帧上计算的语声参数的方差vorvar(n),使用以下关系式来估计当前帧n中的长期信号稳定性:[0321][0322][0323]在上式中,是数量为10帧上的平均语声。[0324]为了更高的稳健性,使用iir过滤器根据例如以下公式来平滑当前帧n中的语声参数[0325][0326]如果平滑的语声参数vorlt(n)足够高,并且语声参数的方差vorcar(n)足够低,那么出于核心编码器选择的目的,输入信号被认为是“稳定的”。这是通过将值corlt(n)和corvar(n)与预定义的阈值进行比较并使用例如以下规则设置二进制标志来测量的:[0327][0328]二进制标志fstab(n)是长期信号稳定性的指示符,并且在本公开稍后讨论的核心编码器选择中使用。[0329]3.1.2片段起音检测[0330]提取器301从当前帧n的多个(例如32个)片段中提取片段起音特征,如图13所示。[0331]在每个片段中,附加高级特征提取器301使用例如以下关系式来计算能量eata(k):[0332][0333]其中s(n)是当前帧n中的输入声音信号,k是片段的索引,并且i是片段中样本的索引。然后计算起音位置,作为具有最大能量的片段的索引,如下所示:[0334][0335]附加高级特征提取器301通过将从当前帧n的起音(片段k=kata)到结束(片段31)的输入声音信号s(n)的能量eata(k)的平均值(下式关系的分子)与从当前帧n的起始(片段0)到3/4(片段24)的输入信号s(n)的能量eata(k)的平均值(下式关系的分母)进行比较来估计起音的强度strata。强度strata的这种估计是使用例如下面的关系式进行的:[0336][0337]如果值strata高于例如8,则起音被认为足够强,并且片段kata被用作信令通知当前帧n内起音位置的指示符。否则,指示符kata被设置为0,表示没有识别到起音。仅在由ivas帧类型选择逻辑信令通知的generic帧类型中检测到起音(参见参考文献[1])。为了减少错误的起音检测,将识别出起音的片段k=kata的能量eata(kata)与当前帧n的前(片段2至21)中的片段的能量eata(k)进行比较(str3_4(k)),例如使用以下关系式:[0338][0339]如果对于片段k=2,..,21,k≠kata,片段的任何比较值str3_4(k)小于例如2,则kata被设置为0,表示没有识别到起音。换句话说,包含起音的片段的能量必须至少是当前帧的前中其他片段的能量的两倍高。[0340]上述机制确保起音主要在当前帧的后中被检测到,其使得它们适合于用acelp技术或gsc技术进行编码。[0341]对于由ivasfec分类模块(见参考文献[1])分类为unvoiced_clas、unvoiced_transition或onset的清音帧,附加高级特征提取器301通过将起音片段k=kata的能量eata(kata)(下式关系的分子)与起音前的前32个片段中的能量eata(k)的平均值(下式关系的分母)进行比较来估计起音的强度strata,使用例如以下关系式:[0342][0343]在上述关系式中,分母中的负索引(negativeindices)是指先前帧中片段能量eata(k)的值。如果用上面的公式计算的强度strata高于例如16,则起音足够强,并且kata被用于信令通知当前帧内起音的位置。否则,kata被设置为0,表示没有识别到起音。如果最后一帧被ivasfec分类模块分类为unvoiced_clas,那么阈值被设置为例如12而不是16。[0344]对于由ivasfec分类模块分类为unvoiced_clas、unvoiced_transition或onset(见参考文献[1])的清音帧,要认为检测到的起音足够强,还需要满足另一个条件。与长期平均能量相比,起音的能量eata(k)必须足够高,该长期平均能量可如下计算:[0345][0346]其中例如,如果下式比率高于20,则起音足够强:[0347][0348]。否则,kata被设置为0,表示没有识别到起音。[0349]如果在先前帧中已经检测到起音,则在当前帧n中kata被重置为0,以防止起音拖尾效应。[0350]对于其它帧类型(如上所述不包括unvoiced和generic帧),附加高级特征提取器301根据例如下式比率将包含起音的片段k=kata的能量eata(kata)与其它片段中的能量eata(k)进行比较:[0351]且k≠kata[0352]并且如果对于k=2,..,21,k≠kata,任何比较值strother(k)低于例如1.3,则起音被认为是弱的,并且kata被设置为0。否则,片段kata将用于信令通知起音在当前帧中的位置。[0353]因此,附加高级特征检测器301关于片段起音检测的最终输出是包含起音或kata=0的索引为k=kata的片段。如果索引为正,则检测到起音。否则,没有识别到起音。[0354]3.1.3信号音调估计[0355]两阶段语音/音乐分类设备和方法的第二阶段中的输入声音信号的音调被表示为音调二进制标志,其反映了输入信号高达4khz的较低频率范围中的频谱稳定性和和谐性。附加高级特征提取器301根据相关性图smap(n,k)计算该音调二进制标志,相关性图是ivas编码器中音调稳定性分析的副产品(见参考文献[1])。[0356]相关性图是信号稳定性和协音调的测量。相关性图是从对数域中残余能谱的前例如,80个间隔计算的,edb,res(k),k=0,..,79(参见参考文献[1])。在残余能谱中存在峰值的片段计算相关性图。这些片段由参数imin(p)定义,其中p=1,...,nmin是片段索引,并且nmin是片段总数。[0357]将属于特定片段x的索引集定义为[0358]pk(p)={i|i≥imin(p),andi<imin(p+1),andi<80}[0359]然后,可以如下计算相关性图[0360][0361]使用iir过滤器对相关性图mcor(pk(p))进行平滑,并在频率范围k=0,...,79内的间隔上求和,以产生单个数字,例如使用以下两个关系:[0362][0363][0364]其中n表示当前帧,并且k表示频率间隔。以上等式中使用的权重β(n)被称为软vad参数。其被初始化为0,并且可以在每一帧中更新为[0365]β(n)=0.95·β(n-1)+0.05·fvad(n)[0366]其中fvad(n)是ivas编码器的二进制vad标志(见参考文献[1])。权重β(n)被限制在例如(0.05,0.95)的范围内。提取器301通过将smass与自适应阈值thrmass比较来设置音调标志fton。阈值thrmass被初始化为例如0.65,并且在每帧中以例如0.01的步长递增或递减。如果smass大于0.65,则阈值thrmass增加0.01,否则减少0.01。阈值thrmass上限例如为0.75,并且下限例如为0.55。这给音调标志fton增加了一个小的滞后。[0367]如果smass高于thrmass,则音调标志fton被设置为1。否则,它被设置为0。[0368]3.1.4频谱峰均比[0369]核心编码器选择机制中使用的另一个高级特征是频谱峰均比。该特征是输入声音信号s(n)的频谱锐度的测量。提取器301从对数域中的输入信号s(n)的功率谱计算该高级特征,slt(n,k),k=0,...,79,例如在从0到4khz的范围内。然而,首先使用iir过滤器平滑功率谱slt(n,k),例如使用以下关系:[0370][0371]其中表示当前帧n,并且k表示频率间隔。使用例如下面的关系来计算频谱峰均比:[0372][0373]3.2核心编码器初始选择器[0374]参考图3,两阶段语音/音乐分类方法的第二阶段350包括核心编码器的初始选择的操作352。为了执行操作352,两阶段语音/音乐分类设备的第二阶段300包括核心编码器初始选择器302。[0375]选择器302对核心编、码器的初始选择基于(a)相对帧能量er,(b)在两阶段语音/音乐分类设备和方法的第一阶段中选择的最终分类dsmc(n),以及(c)附加高级特征rp2a(n)、smass、和thrmass(如上所述)。在图14的示意图中描述了核心编码器初始选择器302使用的选择机制。[0376]设dcore∈{0,1,2}表示图14中机制选择的核心编码器技术,其中“0”代表acelp技术,“1”代表gsc技术,以及“2”代表tcx技术。因此,核心编码器技术的初始选择紧密跟随来自两阶段语音/音乐分类设备和方法的第一阶段的最终分类dsmc(n)指派。例外情况与强音调信号有关,选择tcx技术是因为它能提供更好的质量。[0377]3.3核心编码器选择细化器[0378]参考图3,两阶段语音/音乐分类方法的第二阶段350包括核心编码器初始选择的细化操作353。为了执行操作353,两阶段语音/音乐分类设备的第二阶段300包括核心编码器选择细化器303。[0379]当dcore=1,即最初选择gsc核心编码器进行核心编码时,核心编码器选择细化器303可以改变核心编码器技术。这种情况可能发生在例如被分类为具有低于400hz的低能量的music的音乐项目中。可以通过分析以下能量比来识别输入信号的受影响片段:[0380][0381]其中ebin(k),k=0,…,127是线性域中输入信号每频率间隔k的功率谱,etot是信号片段(帧)的总能量。[0382]分子中的求和在能谱的前8个频率区间上延伸,其对应于0到400hz的频率范围。核心编码器选择细化器303以相当高的精度计算和分析先前被分类为music的帧中的能量比ratlf。例如,在以下条件下,核心编码器技术从gsc变为acelp:[0383][0384]对于具有非常短且稳定的基音周期的信号,gsc不是最佳的核心编码器技术。因此,作为非限制性示例,当fsp=1,核心编码器选择细化器303将核心编码器技术从gsc改变为acelp或tcx时,如下:[0385][0386]具有低能量变化的高度相关信号是gsc核心编码器技术不适合的另一种类型的信号。对于这些信号,核心编码器选择细化器303将核心编码器技术从gsc切换到tcx。作为非限制性示例,当满足以下条件时,进行核心编码器的这种改变:[0387][0388]其中是当前帧n中开环基音分析(见参考文献[1])的前半帧的绝对基音值。[0389]最后,在非限制性示例中,如果满足以下条件,则在检测到起音的帧中,核心编码器选择细化器303可以将初始核心编码器选择从gsc改变为acelp:[0390][0391]标志fbo_gsc是核心编码器技术的改变被启用的指示符。[0392]上述条件确保了核心编码器从gsc到acelp的这种改变仅发生在具有上升能量的片段中。如果满足上述条件,并且同时,在ivas编解码器中转换帧计数器tccnt已经被设置为1(参考文献[1]),则核心编码器选择细化器303将核心编码器改变为acelp。即:[0393][0394]此外,当核心编码器技术改变为acelp时,帧类型将设置为transition。这意味着起音将使用acelp核心编码器的transition模式进行编码。[0395]如果通过附加高级特征检测操作351的片段起音检测过程检测到起音,如上文3.1.2节所述,则进一步检查该起音的索引kata(位置)。如果检测到的起音的位置在帧n的最后一个子帧中,则核心编码器选择细化器303将核心编码器技术改变为acelp,例如当满足以下条件时:[0396][0397]此外,当核心编码器技术更改为acelp时,帧类型设置为transition,并且新的起音“标志”fata被如下设置[0398]fata=kata+1[0399]这意味着起音将使用acelp核心编码器的transition模式进行编码。[0400]如果检测到的起音的位置不在最后一个子帧中,而是至少在第一个子帧的前四分之一之外,则核心编码器选择不变,并且将使用gsc核心编码器对起音进行编码。与前面的情况类似,新的起音“标志”fata可以被如下设置:[0401]fata=kata+1如果fno_gsc=1andtccnt≠1andkata>4[0402]参数kata旨在反映检测到的起音的位置,因此起音标志fata有些多余。然而,在本公开中使用它是为了与其他文档和ivas编解码器的源代码保持一致。[0403]最后,核心编码器选择细化器303将语音帧中的帧类型从generic改变为transition,对于该语音帧,在初始选择期间已经选择了acelp核心编码器技术。这种情况仅发生在活动帧中,其中本地vad标志已经被设置为1,并且其中起音已经被3.1.2节中描述的附加高级特征检测操作351的片段起音检测过程检测到,即其中kata>0。[0404]然后,起音标志与前面的情况类似。即:[0405]fata=kata+1[0406]4.硬件组件的示例配置[0407]图15是形成上述ivas编解码器的硬件组件的示例配置的简化框图,包括两阶段语音/音乐分类设备。[0408]包括两阶段语音/音乐分类设备的ivas编解码器可以被实现为移动终端的一部分、便携式媒体播放器的一部分或者任何类似的设备。包括两阶段语音/音乐分类设备(在图15中标识为1500)的ivas编解码器包括输入1502、输出1504、处理器1506和存储器1508。[0409]输入1502被配置为接收输入声音信号s(n),例如在ivas编解码器的编码器的情况下,以数字或模拟形式的输入立体声信号的左声道和右声道。在ivas编解码器的编码器的情况下,输出1504被配置为提供编码的复用比特流。输入1502和输出1504可以在公共模块中实现,例如串行输入/输出设备。[0410]处理器1506可操作地连接到输入1502、输出1504和存储器1508。处理器1506被实现为一个或多个处理器,用于运行支持上述ivas编解码器的各种元件和操作的功能的代码指令,包括如附图中所示和/或如本公开中所述的两阶段语音/音乐分类设备和方法。[0411]存储器1508可以包括用于存储可由处理器1506运行的代码指令的非瞬态存储器,具体地,存储非瞬态指令的处理器可读存储器,当运行这些指令时,使处理器实现ivas编解码器的元件和操作,包括两阶段语音/音乐分类设备和方法。存储器1508还可以包括随机存取存储器或(多个)缓冲器,以存储来自处理器1506执行的各种功能的中间处理数据。[0412]本领域的普通技术人员将会认识到,对包括两阶段语音/音乐分类设备和方法的ivas编解码器的描述仅仅是说明性的,并不旨在以任何方式进行限制。受益于本公开的本领域普通技术人员将容易想到其他实施例。此外,所公开的包括两阶段语音/音乐分类设备和方法的ivas编解码器可以被定制,以对编码和解码声音(例如立体声)的现有需求和问题提供有价值的解决方案。[0413]为了清楚起见,没有示出和描述包括两阶段语音/音乐分类设备和方法的ivas编解码器的实现的所有常规特征。当然,应当理解,在ivas编解码器的任何这种实际实现的开发中,包括两阶段语音/音乐分类设备和方法,可能需要做出许多特定于实现的决定,为了实现开发者的特定目标,如符合应用、系统、网络和商业相关的约束,并且这些特定目标将随着实现的不同和开发者的不同而不同。此外,应当理解,开发工作可能是复杂且耗时的,但是对于受益于本公开的声音处理领域的普通技术人员来说,这仍然是常规的工程任务。[0414]根据本公开,本文描述的元件、处理操作和/或数据结构可以使用各种类型的操作系统、计算平台、网络设备、计算机程序和/或通用机器来实现。此外,本领域普通技术人员将认识到,也可以使用性质不太通用的设备,如硬连线设备、现场可编程门阵列(fpga)、专用集成电路(asic)等。在包括一系列操作和子操作的方法由处理器、计算机或机器实现,并且这些操作和子操作可以存储为处理器、计算机或机器可读的一系列非暂时性代码指令的情况下,它们可以存储在有形和/或非暂时性介质上。[0415]包括本文所述的两阶段语音/音乐分类设备和方法的ivas编解码器的元件和处理操作可以包括软件、固件、硬件或者适于本文所述目的的软件、固件或硬件的任何组合。[0416]在包括两阶段语音/音乐分类设备和方法的ivas编解码器中,各种处理操作和子操作可以以各种顺序执行,并且一些处理操作和子操作是可选的。[0417]尽管上文已经通过非限制性的说明性实施例描述了本公开,但是在不脱离本公开的精神和本质的情况下,可以在所附权利要求的范围内随意修改这些实施例。[0418]参考文献[0419]本公开提到了以下参考文献,其全部内容通过引用方式并入本文:[0420][1]3gppts26.445,v.12.0.0,“用于增强语音服务的编解码器(evs)”;详细算法描述”,2014年9月。[0421][2]m.neuendorf、m.multrus、n.rettelbach、g.fuchs、j.robillard、j.lecompte、s.wilde、s.bayer、s.disch、c.helmrich、r.lefevbre、p.gournay等。“iso/mpeg统一语音和音频编码标准——适用于所有内容类型和所有比特率的一致高质量“,j.audioeng.soc.,第61卷,第12期,第956-977页,2013年12月。[0422][3]f.baumgarte、c.faller,“双声道提示编码-第一部分:心理声学基础和设计原则”,ieeetrans.语音音频处理,第11卷,509-519页,2003年11月。[0423][4]tommyvaillancourt,“使用左声道和右声道之间的长期相关差将立体声信号时域缩混成主声道和副声道的方法和系统”,pct申请wo2017/049397a1。[0424][5]3gppsa4投稿s4-170749“用于沉浸式语声和音频服务的evs编解码器扩展的新wid”,sa4会议#94,2017年6月26日至30日,http://www.3gpp.org/ftp/tsg_sa/wg4_codec/tsgs4_94/docs/s4-170749.zip[0425][6]v.malenovsky、t.vaillancourt、w.zhe,k.choo和v.atti,“evs编解码器中具有决策平滑和锐化的两阶段语音/音乐分类器”,2015年ieee声学、语音和信号处理国际会议(icassp),布里斯班,qld,2015年,第5718-5722页。[0426][7]t.vaillancourt和m.jelinek,“以低比特率和低延迟编码通用音频信号”,美国专利第9,015,038b2号。[0427][8]k.s.rao和a.k.vuppala,《移动环境中的语音处理》,附录a:mfcc特征,施普林格国际出版公司,2014年[0428][9]box,g.e.p.和cox,d.r.(1964年)。变换分析,皇家统计学会会刊,b辑,26,211-252。[0429][10]d'agostino,r.和pearson,e.s.(1973年),"偏离正态性的测试",生物计量学,60,613-622。[0430][11]d'agostino、a.j.belanger和r.b.d'agostinojr.,“关于使用强大和信息丰富的正态性测试的建议”,《美国统计学家》第44期,第316-321页,1990年。[0431][12]i.jolliffe,主成分分析。纽约:施普林格出版社,2002年。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1