解码器之后的音频信号分类和后处理的制作方法

文档序号:14254481阅读:462来源:国知局
解码器之后的音频信号分类和后处理的制作方法

优先权要求

本申请要求共同拥有的2015年9月10日申请的第62/216,871号美国临时专利申请和2016年5月12日申请的第15/152,949号美国非临时专利申请的优先权,所述申请的内容明确地以全文引用的方式并入本文中。

本公开大体上涉及音频解码器分类。



背景技术:

通过数字技术记录并发射音频是广泛的。举例来说,可在长距离和数字无线电电话应用程序中发射音频。例如无线电话等装置可发送并接收表示人类语音(例如语音)和非语音(例如音乐或其它声音)的信号。

在一些装置中,多种译码技术可用。举例来说,装置的音频编解码器(coder-decoder,codec)可使用切换式译码方法以对多种内容进行编码或解码。为了说明,装置可包含线性预测译码(linearpredictivecoding,lpc)模式解码器,例如代数码激励线性预测(algebraiccode-excitedlinearprediction,acelp)解码器、和变换模式解码器,例如变换经译码激发(transformcodedexcitation,tcx)解码器(例如变换域解码器)或经修改离散余弦变换(modifieddiscretecosinetransform,mdct)解码器。语音模式解码器可精通对语音内容进行解码,且音乐模式解码器可精通对非语音内容和音乐类信号进行解码,例如铃声、等待音乐等。应注意,如本文所使用,“解码器”可指切换式解码器的解码模式中的一个。举例来说,acelp解码器和mdct解码器可以是切换式解码器内的两个单独解码模式。

包含解码器的装置可接收音频信号,例如经编码音频信号、相关联语音内容、非语音内容、音乐内容或其组合。在一些情形中,接收到的语音内容可具有糟糕的音频质量,例如包含背景噪声的语音内容。为了改善接收到的音频信号的音频质量,所述装置可包含信号预处理器或信号后处理器,例如噪声抑制器(例如精密噪声抑制器)。为了说明,噪声抑制器可配置成降低或消除具有糟糕的音频质量的语音内容中的背景噪声。但是,如果噪声抑制器处理非语音内容,例如音乐内容,那么噪声抑制器可降低音乐内容的音频质量。



技术实现要素:

在特定方面中,一种装置包含解码器,所述解码器配置成在解码器处接收经编码音频信号并基于所述经编码音频信号而产生合成信号。所述装置进一步包含分类器,所述分类器配置成基于从所述经编码音频信号确定的至少一个参数而对所述合成信号进行分类。

在另一特定方面中,一种方法包含在解码器处接收经编码音频信号和对所述经编码音频信号进行解码以产生合成信号。所述方法还包含基于从所述经编码音频信号确定的至少一个参数而对所述合成信号进行分类。

在另一特定方面中,一种计算机可读存储装置存储在由处理器执行时致使所述处理器执行操作的指令,所述操作包含对经编码音频信号进行解码以产生合成信号。所述操作还包含基于从所述经编码音频信号确定的至少一个参数而对所述合成信号进行分类。

在另一特定方面中,一种设备包含用于接收经编码音频信号的装置。所述设备还包含用于对经编码音频信号进行解码以产生合成信号的装置。所述设备进一步包含用于基于从所述经编码音频信号确定的至少一个参数而对所述合成信号进行分类的装置。

本公开的其它方面、优点和特征将在审阅申请案之后变得显而易见,所述申请案包含以下部分:附图说明、具体实施方式和权利要求书。

附图说明

图1是可操作以处理音频信号的系统的特定说明性方面的框图;

图2是可操作以处理音频信号的系统的另一特定说明性方面的框图;

图3是说明对音频信号进行分类的方法的流程图;

图4是说明处理音频信号的方法的流程图;

图5是可操作以支持本文中所公开的一或多个方法、系统、设备、计算机可读媒体或其组合的各方面的说明性装置的框图;且

图6是可操作以支持本文中所公开的一或多个方法、系统、设备、计算机可读媒体或其组合的各方面的基站的框图。

具体实施方式

下文参考图式描述本公开的特定方面。在描述中,贯穿图式由常用参考标号指示常用特征。本文中所使用,各种术语仅用于描述特定实施方案的目的,且并不意图是限制性的。举例来说,除非上下文另外明确指示,否则单数形式“一”和“所述”意图还包含复数形式。可进一步理解,术语“包括(comprises)”和“包含(comprising)”可与“包括(includes)”或“包含(including)”互换使用。此外,应理解,术语“其中(wherein)”可与“其中(where)”互换使用。如本文所使用,用以修饰元件(例如结构、组件、操作等)的序数术语(例如“第一”、“第二”、“第三”等)本身并不指示所述元件相对于另一元件的任何优先级或次序,而是实际上仅将所述元件与具有相同名称(但使用序数术语)的另一元件区别开。如本文所使用,术语“组”指特定元件中的一或多个,且术语“多个”指特定元件中的多个(例如两个或更多个)。

本公开涉及对例如经解码音频信号等音频内容的分类。本文中所描述的技术可在装置处用以对经编码音频信号进行解码以产生合成信号,并将所述合成信号分类为语音信号或非语音信号,例如音乐信号。作为说明性非限制性实例,语音信号(例如语音内容)可被指定为包含活动语音、非活动语音、清晰语音、含噪语音、或其组合。作为说明性非限制性实例,非语音信号(例如非语音内容)可被指定为包含音乐内容、音乐类内容(例如等待音乐、铃声等)、背景噪声或其组合。在其它实施方案中,如果与语音相关联的特定解码器(例如语音解码器)难以对非活动语音或含噪语音进行解码,那么非活动语音、含噪语音或其组合可由装置分类为非语音内容。在一些实施方案中,可在逐帧基础上执行对合成信号的分类。

装置可基于从例如经编码音频信号等位流确定的至少一个参数而对合成信号进行分类。举例来说,从位流确定的至少一个参数可包含包含于经编码音频信号中(或由其指示)的参数。在特定实施方案中,至少一个参数包含于经编码音频信号中且解码器可配置成从经编码音频信号提取至少一个参数。包含于所述经编码音频信号中的所述参数可包含核心指示符、译码模式(例如代数码激励线性预测(acelp)模式、变换经译码激发(tcx)模式或经修改离散余弦变换(mdct))、译码器类型(例如浊音译码、非浊音译码或瞬态)、低通核心决策或间距,例如瞬时间距。为了说明,包含于经编码音频信号中的参数可能已由产生经编码音频信号(例如经编码音频帧)的编码器确定。经编码音频信号可包含指示参数的值的数据。对经编码音频信号(例如经编码音频帧)进行解码可产生包含于经编码音频信号(或由其指示)的参数(例如参数的值)中。

另外或替代地,从位流确定的至少一个参数可包含从一组值导出的参数(例如包含于经编码音频信号中或由其指示的一或多个参数)。在特定实施方案中,解码器可配置成从经编码音频信号102提取所述组值(例如参数)并使用所述组值来执行一或多个计算以确定至少一个参数。作为说明性非限制性实例,从经编码音频信号中的所述组值导出的至少一个参数可包含间距稳定性。间距稳定性可指示经编码音频信号的多个连续帧之间的间距(例如瞬时间距)改变的速率。举例来说,可使用经编码音频信号的多个连续帧的(例如其中包含的)间距值来计算间距稳定性。

在一些实施方案中,装置可基于多个位流参数(“经编码位流参数”)而对合成信号进行分类,所述位流参数例如包含于经编码音频信号中的至少一个参数和从经编码音频信号导出的至少一个参数(或其的一或多个参数)。从位流识别经编码位流参数、准确地确定(例如导出)经编码位流参数或这两者可比使用位流(例如合成信号)的经解码版本在装置处产生此类参数在计算上更不复杂且更不费时。此外,由所述装置使用以对接收到的位流进行分类的经编码位流参数中的一或多个可能不能够仅使用由所述装置产生的合成语音来加以确定。

在一些实施方案中,装置可基于与位流相关联(例如从其确定)的至少一个参数和基于基于合成信号所确定的至少一个参数而对合成信号进行分类。基于合成信号所确定的至少一个参数可包含(例如通过处理)从合成信号计算出的参数。基于合成信号所确定的至少一个参数可包含信噪比、过零点、能量分布(例如快速傅里叶变换(fastfouriertransform,fft)能量分布)、能量压缩、信号调和性或其组合。

在一些实施方案中,装置可配置成响应于对合成信号的分类而选择性地执行一或多个操作。举例来说,装置可配置成基于分类而对合成信号选择性地执行噪声抑制。为了说明,装置可响应于合成信号被分类为语音信号而激活待对合成信号执行的噪声抑制。替代地,装置可响应于合成信号被分类为例如音乐信号等非语音信号而解除激活(或调整)对合成信号执行的噪声抑制。举例来说,如果合成信号被分类为音乐信号,那么可将噪声抑制调整到不太激进的设定,例如提供更少噪声抑制的设定。此外,装置可基于分类而对合成信号(或其版本)选择性地执行增益调整、声学滤波、动态范围压缩或其组合。作为另一实例,响应于合成音频信号的分类,装置可选择待用以对经编码音频信号进行解码的线性预测译码(lpc)模式解码器(例如语音模式解码器)或变换模式解码器(例如音乐模式解码器)。

另外或替代地,装置可配置成基于与合成信号的分类相关联的置信度值而选择性地执行一或多个操作。为了说明,装置可配置成产生与合成信号的分类相关联的置信度值。装置可配置成基于置信度值与一或多个阈值的比较而选择性地执行一或多个操作。举例来说,装置可响应于置信度值超出阈值而执行一或多个操作。另外或替代地,装置可配置成基于置信度值与一或多个阈值的比较而选择性地设定(或调整)一或多个操作的参数。

由所公开的方面中的至少一个提供的一个特定优点是装置可使用从对应于合成信号的经编码音频信号(例如位流)确定(例如与其相关联)的一组参数来对合成信号进行分类。所述组参数可包含包含于经编码音频信号中(或由其指示)的参数、基于基于合成信号所确定的参数、基于包含于经编码音频信号中(或由其指示)的一或多个值所导出(例如计算出)的参数、或其组合。使用所述组参数以对合成信号进行分类可比将音频信号分类为语音信号或非语音信号的常规方法更快且在计算上更不复杂。在一些实施方案中,装置可使用其它分类来对合成信号进行分类,例如音乐信号、非音乐信号、背景噪声信号、含噪语音信号或非活动信号。装置可提取并利用由编码器确定且包含于经编码音频信号中(或由其指示)的一或多个参数。在一些实施方案中,参数数据(例如一或多个参数值)可经编码并包含于经编码音频信号中。提取一或多个参数可比装置从合成信号自行产生一或多个参数更快。此外,通过装置产生一或多个参数(例如译码模式、译码器类型等)可以是极其复杂且费时的。

在一些实施方案中,用以对合成信号进行分类的所述组参数可比由常规技术用以对音频信号进行分类包含更少的参数。因此,装置可确定合成信号的分类并可基于分类而选择性地执行一或多个操作,例如后处理(例如噪声抑制)、预处理或选择一种类型的解码。选择性地执行一或多个操作可提高装置的音频输出的质量。举例来说,选择性地执行一或多个操作可通过不执行可能降低音乐信号的质量的噪声抑制来改善装置的音乐输出。

参考图1,公开了可操作以处理接收到的音频信号(例如经编码音频信号)的系统100的特定说明性实例。在一些实施方案中,系统100可包含于装置中,例如电子装置(例如无线装置),如参考图5所描述。

系统100包含解码器110、分类器120和后处理器130。解码器110可配置成接收经编码音频信号102,例如位流。经编码音频信号102可包含语音内容、非语音内容或这两者。在一些实施方案中,作为说明性非限制性实例,语音信号(例如语音内容)可被指定为包含活动语音、非活动语音、含噪语音、或其组合。作为说明性非限制性实例,非语音内容可被指定为包含音乐内容、音乐类内容(例如等待音乐、铃声等)、背景噪声或其组合。在其它实施方案中,如果与语音相关联的特定解码器(例如语音解码器)难以对非活动语音或含噪语音进行解码,那么非活动语音、含噪语音或其组合可由系统100分类为非语音内容。在另一个实施方案中,背景噪声可分类为语音内容。举例来说,如果与语音相关联的特定解码器(例如语音解码器)精通对背景噪声进行解码,那么系统100可将背景噪声分类为语音内容。在一些实施方案中,经编码音频信号102可能已由编码器(未展示)产生。编码器可包含于与包含系统100的装置不同的装置中。举例来说,编码器可接收音频信号、对音频信号进行编码以产生经编码音频信号102并将经编码音频信号102发送(例如以无线方式发射)到包含解码器110的装置。在一些实施方案中,解码器110可在逐帧基础上接收经编码音频信号102。

解码器110还可配置成基于经编码音频信号102而产生合成信号118。举例来说,解码器110可使用包含于解码器110中的线性预测译码(lpc)模式解码器、变换模式解码器或另一解码器类型来对经编码音频信号102进行解码,如参考图2所描述。在一些实施方案中,在对经编码音频信号102进行解码之后,解码器110可产生经脉码调制(pulse-codemodulated,pcm)经解码音频信号以产生合成信号118(例如pcm解码器输出)。合成信号118可提供给后处理器130。

解码器110可进一步配置成产生与经编码音频信号102(例如合成信号118)相关联的一组参数。在一些实施方案中,所述组参数可由解码器110在逐帧基础上产生。举例来说,解码器110可针对经编码音频信号102的特定帧和合成信号118的基于所述特定帧所产生的对应部分而产生一组特定参数。在一些实施方案中,一或多个参数可包含于经编码音频信号102中(或由其指示),且解码器110可配置成经编码音频信号102提取一或多个参数。在特定实施方案中,解码器110可在对经编码音频信号102进行解码之前提取一或多个参数。另外或替代地,解码器110可配置成从经编码音频信号102提取一组值(例如参数)。解码器110可配置成使用所述组值来执行一或多个计算以确定一或多个参数。举例来说,解码器110可从经编码音频信号102提取一或多个间距值,且解码器110可使用所述一或多个间距值来执行计算以确定间距稳定性参数,如本文进一步描述。解码器110可将所述组参数提供给分类器120,如在本文中进一步描述。

所述组参数可包含从位流(例如经编码音频信号102)确定的至少一个参数112、基于合成信号118所确定的参数114或其组合。作为说明性非限制性实例,基于合成信号118所确定的参数114可包含信噪比(signal-to-noiseratio,snr)、过零点、能量分布、能量压缩、信号调和性或其组合。基于合成信号所确定的参数114可包含(例如通过处理)从合成信号计算出的参数。

从位流(例如经编码音频信号102)确定的至少一个参数112可包含包含于经编码音频信号102中(或由其指示)的参数、从经编码音频信号102导出的参数、或其组合。在一些实施方案中,经编码音频信号102可包含(或指示)一或多个参数(例如参数数据)。举例来说,参数数据可包含于经编码音频信号102中(或由其指示)。解码器110可接收参数数据并可在逐帧基础上识别参数数据。为了说明,解码器110可确定包含于经编码音频信号102中(或由其指示)的参数(例如基于参数数据的参数值)。在一些实施方案中,可在对经编码音频信号102进行解码期间确定(或产生)包含于经编码音频信号102中(或由其指示)的参数。举例来说,解码器110可对经编码音频信号102进行解码以确定参数(例如参数值)。替代地,解码器110可在对经编码音频信号102进行解码之前从经编码音频信号102提取参数(例如指示)。

包含于经编码音频信号102中(或由其指示)的参数可能已由编码器使用以产生经编码音频信号102,且编码器可能已包含经编码音频信号102中的每个参数的指示。作为说明性非限制性实例,包含于经编码音频信号中的参数可包含核心指示符、译码模式、译码器类型、低通核心决策、间距或其组合。核心指示符可指示由编码器使用以产生经编码音频信号102的核心(例如编码器),例如lpc模式解码器(例如语音模式解码器)、变换模式解码器(例如音乐模式解码器)或另一核心类型。译码模式可指示由编码器使用以产生经编码音频信号102的译码模式。作为说明性非限制性实例,译码模式可包含代数码激励线性预测(acelp)模式、变换经译码激发(tcx)模式或经修改离散余弦变换(mdct)模式或另一译码模式。译码器类型可指示由编码器使用以产生经编码音频信号102的译码器的类型。作为说明性非限制性实例,译码器类型可包含浊音译码、非浊音译码、瞬态译码或另一译码器类型。在一些实施方案中,解码器110可在对经编码音频信号102进行解码期间确定(或产生)译码器类型参数,如参考图2进一步描述。特定帧的低通核心决策可产生为帧的核心决策与先前帧的低通核心决策的加权和(例如lp_core(framen)=a*core(framen)+b*(lp_core(framen-1))其中a和b是从0到1的范围内的值。范围可以是包含性或排他性的。在其它实施方案中,可针对a和b的值而使用其它范围。

作为说明性非限制性实例,从经编码音频信号102导出(例如基于其所计算)的参数(或经编码音频信号102的一或多个参数)可包含间距稳定性。举例来说,至少一个参数112可从包含于经编码音频信号102中(或由其指示)的一或多个值(例如参数)导出、从经编码音频信号102解码、或是其组合。为了说明,间距稳定性可导出为经编码音频信号102的数个最近接收到的帧的个别间距值的平均值(例如基于所述平均值而计算出)。在一些实施方案中,解码器110可在对经编码音频信号102进行解码期间计算(或产生)间距稳定性,如进一步参考图2所描述。

分类器120可配置成基于至少一个参数112而将合成信号118分类为语音信号或非语音信号(例如音乐信号)。在一些实施方案中,合成信号118可基于至少一个参数112和参数114而分类。举例来说,分类器120可基于至少一个参数112和参数114而确定合成信号118的分类119。分类119可指示合成信号118是分类为语音信号还是音乐信号。在其它实施方案中,分类器120可配置成将合成信号118分类为一或多个其它分类。举例来说,分类器120可配置成将合成信号118分类为语音信号或音乐信号。作为另一实例,作为说明性非限制性实例,分类器120可配置成将合成信号118分类为语音信号、非语音信号、含噪语音信号、背景噪声信号、音乐信号、非音乐信号或其组合。参考图3到4进一步描述基于所述组参数而对合成信号118进行分类。分类器120可将控制信号122提供给后处理器130、预处理器(未展示)或解码器110。在一些实施方案中,控制信号122可包含分类119或其指示,例如指示分类119的分类数据。举例来说,分类器120可配置成输出合成信号118的分类119。

在一些实施方案中,分类器120可配置成产生与合成信号118的分类119相关联的置信度值121。分类器120可配置成输出置信度值121或其指示,例如置信度值数据。举例来说,控制信号122可包含指示置信度值121的数据。

后处理器130可配置成处理合成信号118以产生音频信号140。音频信号140可提供一或多个换能器,例如扬声器。一或多个换能器可耦合到或包含于包含系统100的装置中。

后处理器130可包含噪声抑制器132、电平调整器134、声学滤波器136和范围压缩器138。噪声抑制器132可配置成对合成信号118或其版本)执行噪声抑制。电平调整器134(例如增益调整器)可配置成调整合成信号118的功率电平。在一些实施方案中,电平调整器134可包含或对应于适应性增益控制器。例如低通滤波器等声学滤波器136可配置成对合成信号118的至少一部分进行滤波以减少合成信号118(或其版本,例如合成信号118的经噪声抑制版本)的特定频率范围中的声音分量。范围压缩器138可配置成调整合成信号118(或其版本,例如合成信号118的经噪声抑制或经电平调整版本)的(例如压缩)动态范围值(或比)或多带动态范围值(或比)。范围压缩器138可包含或对应于动态范围压缩器、多带动态范围压缩器或这两者。在其它实施方案中,后处理器130可包含配置成处理合成信号118以产生音频信号140的其它后处理装置或电路。合成信号118可由后处理阶段或组件中的一或多个依序(按任何次序)处理,所述组件例如噪声抑制器132、电平调整器134、声学滤波器136或范围压缩器138。举例来说,电平调整器134可在声学滤波器136之前和噪声抑制器132之后处理合成信号118。作为另一实例,电平调整器134可在噪声抑制器132之前和声学滤波器136之后处理合成信号。

噪声抑制器132可用以响应于控制信号122而处理合成信号118。举例来说,噪声抑制器132可配置成基于控制信号122(例如分类119、置信度值121或这两者)而对合成信号118选择性地执行噪声抑制。为了说明,噪声抑制器132可配置成响应于合成信号118被分类为语音信号而对合成信号118执行噪声抑制。举例来说,噪声抑制器132可激活噪声抑制或调整应用于合成信号118的噪声等级抑制。此外,噪声抑制器132可配置成响应于合成信号118被分类为音乐信号而解除激活(例如不执行合成信号118的噪声抑制)。另外或替代地,在其它实施方案中,控制信号122可提供给一或多个其它组件以选择性地操作一或多个其它组件。一或多个其它组件可包含或对应于电平调整器134、声学滤波器136、范围压缩器138、配置成处理合成信号118(或其版本)的另一组件、或其组合。

另外或替代地,后处理器130(或其一或多个组件)可配置成基于与合成信号118的分类119相关联的置信度值121而选择性地执行一或多个后处理操作。举例来说,控制信号122可包含指示置信度值121的数据(例如置信度值数据)。后处理器130可基于置信度值121与一或多个阈值的比较而选择性地执行一或多个操作。为了说明,后处理器130可比较置信度值121与第一阈值。后处理器130可基于确定置信度值121大于或等于第一阈值而激活噪声抑制器132(例如对合成信号118执行噪声抑制)。在一些实施方案中,后处理器130可基于分类119而执行置信度值121与第一阈值的比较。举例来说,作为说明性非限制性实例,后处理器130可在分类119指示语音时比较置信度值121与第一阈值,且后处理器130可在分类119指示音乐时停止比较置信度值121与第一阈值。

另外或替代地,后处理器130(或其一或多个组件)可配置成基于置信度值121与一或多个阈值的比较而选择性地设定(或调整)一或多个操作的参数。为了说明,后处理器130可比较置信度值121与第二阈值。后处理器130可基于确定置信度值121大于或等于第二阈值而调整一或多个组件的参数(例如噪声抑制器132的噪声抑制参数)。在一些实施方案中,后处理器130可基于分类119而执行置信度值121与第二阈值的比较。举例来说,作为说明性非限制性实例,后处理器130可在分类119指示语音时比较置信度值121与第二阈值,且后处理器130可在分类119指示音乐时停止比较置信度值121与第二阈值。

在操作期间,解码器110可接收经编码音频信号102的帧,并输出合成信号118的对应于经编码音频信号102的帧的部分。解码器110可基于经编码音频信号102、合成信号118或其组合而产生一组参数。

分类器120可接收所述组参数并可基于所述组参数而对合成信号118进行分类(例如确定分类119)。举例来说,分类器120可将合成信号118的部分分类为是语音信号或音乐信号。基于合成信号118的所述部分的分类119,后处理器130可对合成信号118选择性地执行一或多个处理功能以产生音频信号140。举例来说,作为说明性非限制性实例,基于如由控制信号122指示的分类119,后处理器130可选择性地执行噪声抑制。在一些实施方案中,电平调整器134、声学滤波器136、范围压缩器138、后处理器130的另一组件、或其组合可处理合成信号118的所述部分的经噪声抑制版本以产生音频信号140。

另外或替代地,后处理器130(或其一或多个组件)可基于与合成信号118的分类119相关联的置信度值121而选择性地执行一或多个操作。举例来说,后处理器130可基于确定置信度值121大于或等于第一阈值而对合成信号118选择性地执行噪声抑制。另外或替代地,后处理器130可基于置信度值121与第二阈值的比较而选择性地设定(或调整)所述操作的参数。举例来说,后处理器130(或噪声抑制器132)可基于确定置信度值121大于或等于第二阈值而增加噪声抑制器132的噪声抑制参数。在其它实施方案中,可执行所述一或多个操作,或可在置信度值121小于所述阈值时设定所述参数。

在一些实施方案中,后处理器130可耦合到多个换能器(例如两个或更多个换能器),例如第一扬声器和第二扬声器。音频信号140可路由到换能器中的每一个。替代地,后处理器130可配置成基于合成信号118的分类119而将音频信号140选择性地路由到多个换能器中的一或多个换能器。为了说明,如果合成信号118被分类为是语音信号,那么音频信号140可路由到多个换能器中的第一组换能器。举例来说,所述第一组换能器可包含第一扬声器但不包含第二扬声器。如果合成信号118被分类为是非语音信号,例如音乐信号,那么音频信号140可路由到多个换能器中的第二组换能器。举例来说,所述第二组换能器可包含第二扬声器但不包含第一扬声器。

在一些实施方案中,可使用滞后来实施对分类器120的输出(例如控制信号122的值)的“平滑”。本文中所描述的技术可用以设定用以使选择偏置朝向特定解码器(例如语音解码器)的调整参数的值(例如滞后度量)。举例来说,如果音频信号具有第一分类(例如分类119指示音乐),那么分类器120可应用滞后以延迟(或防止)切换输出(例如控制信号122的值)以指示第一分类。此外,分类器120可将输出保持为指示第二分类(例如语音),直到音频信号的阈值数目个依序帧已被标识为具有第一分类为止。

在一些实施方案中,解码器110可包含多个解码器,例如lpc模式解码器(例如语音模式解码器)和变换模式解码器(例如音乐模式解码器),如参考图2所描述。解码器110可选择多个解码器中的一个以对接收到的经编码音频信号102进行解码。在一些实施方案中,解码器110可配置成接收控制信号122。解码器110可在至少部分基于控制信号122而使用lpc模式解码器或变换模式解码器来对经编码音频信号102进行解码之间进行选择。举例来说,解码器110可基于由控制信号122指示之分类119而选择lpc模式解码器。

虽然由图1的系统100执行的各种功能已被描述为由某些组件或模块执行,但是组件和模块的此划分仅为了说明。在替代性实例中,由特定组件或模块执行的功能可替代地划分为多个组件或模块。此外,在替代性实例中,图1的两个或更多个组件或模块可集成到单个组件或模块中。举例来说,解码器110可配置成执行参考分类器120所描述的操作。为了说明,在一些实施方案中,分类器120(或其部分)可包含于解码器110中。可使用硬件(例如专用集成电路(application-specificintegratedcircuit,asic)、数字信号处理器(digitalsignalprocessor,dsp)、控制器、现场可编程门阵列(field-programmablegatearray,fpga)装置等)、软件(例如可由处理器执行的指令)或其任何组合来实施图1中所说明的每个部件或模块。

系统100可配置成将合成信号118(对应于特定音频帧)分类为语音信号或非语音信号(例如音乐信号)。举例来说,系统100可基于至少一个参数112而对合成信号118进行分类。通过使用至少一个参数112,由系统100执行的对合成信号118的分类可相比于常规分类技术在计算上更不复杂。基于合成信号118的分类,系统100可对合成信号118选择性地执行一或多个操作,例如后处理、预处理或选择解码器类型。对合成信号118选择性地(例如动态地)执行一或多个操作,例如一或多个后处理技术,可改善与合成信号118相关联的音频质量。举例来说,系统100可关断噪声抑制以避免在合成信号118被分类为音乐信号时降低音频质量。因此,系统100包含具有高分类准确性的低复杂度语音音乐分类器。

另外,系统实现独立于可由经编码音频信号的编码器确定的编码分类(如果存在)的分类。举例来说,编码器的此类编码分类可不在位流中直接传达给解码器110。另外,在编码器分类决策(例如语音音乐分类)中可能存在错分类,对于展示语音和音乐特性两者的信号(混合音乐)尤其如此。系统100处的经编码音频信号102的分类实现对可用于后处理或其它解码器操作的音频特性的独立确定。

参考图2,公开了可操作以处理接收到的音频信号(例如经编码音频信号)的系统200的特定说明性实例。举例来说,系统200可包含或对应于系统100。在一些实施方案中,系统200可包含于装置中,例如电子装置(例如无线装置),如参考图5所描述。

系统200包含解码器210和分类器240。解码器210可包含或对应于图1的解码器110。分类器240可包含或对应于图1的分类器120。

解码器210可配置成接收经编码音频信号202,例如位流。举例来说,经编码音频流可包含或对应于图1的经编码音频信号102(例如经编码音频流)。经编码音频信号202可包含语音内容或非语音内容,例如音乐内容。在一些实施方案中,解码器210可在逐帧基础上接收经编码音频信号202。

解码器210可包含开关212、lpc模式解码器214、变换模式解码器216、非连续性发射和舒适噪声生成器(discontinuoustransmissionandcomfortnoisegenerator,dtx/cng)218、和合成信号产生器220。开关212可配置成接收经编码音频信号202并将经编码音频信号202路由到lpc模式解码器214、变换模式解码器216或dtx/cng218中的一个。举例来说,开关212可配置成识别包含于经编码音频信号202(例如经编码音频流)中(或由其指示)的一或多个参数,并基于所述一或多个参数而路由经编码音频信号202。包含于经编码音频信号202中的一或多个参数可包含核心指示符、译码模式、译码器类型、低通核心决策或间距值。

核心指示符可指示由编码器(未展示)使用以产生经编码音频信号202的核心(例如编码器),例如语音编码器或非语音(例如音乐)编码器。译码模式可对应于由编码器使用以产生经编码音频信号102的译码模式。作为说明性非限制性实例,译码模式可包含代数码激励线性预测(algebraiccode-excitedlinearprediction,acelp)模式、变换经译码激发(transformcodedexcitation,tcx)模式或经修改离散余弦变换(modifieddiscretecosinetransform,mdct)模式或另一译码模式。译码器类型可指示由编码器使用以产生经编码音频信号102的译码器类型。作为说明性非限制性实例,译码器类型可包含浊音译码、非浊音译码或瞬态译码。

lpc模式解码器214可包含代数码激励线性预测(acelp)编码器。在一些实施方案中,lpc模式解码器214还可包含带宽扩展(bandwidthextension,bwe)组件。变换模式解码器216可包含变换经译码激发(tcx)解码器或经修改离散余弦变换(mdct)解码器。dtx/cng218可配置成减少与背景内容(例如背景语音或背景音乐)相关联的位流的信息。为了说明,如果由编码器发射给解码器210的位流仅包含关于背景内容的信息,那么dtx/cng218可使用所述信息以产生对应于背景区域的一或多个参数。举例来说,dtx/cng218可从所述信息确定一或多个参数,并外插来自所述信息的所述一或多个参数以产生对应于背景区域的一或多个参数。

合成信号产生器220可配置成接收处理经编码音频信号202的lpc模式解码器214、变换模式解码器216、dtx/cng218或另一解码器类型中的一个的输出。合成信号产生器220可配置成对于输出执行一或多个处理操作以产生合成信号230。举例来说,合成信号产生器220可配置成产生合成信号230作为脉码调制(pcm)信号。合成信号230可由解码器210输出并提供给分类器240、至少一个换能器(例如扬声器)或这两者。

除了产生合成信号230以外,解码器210可配置成还确定与经编码音频信号202(例如位流)相关联(例如从其确定)的至少一个参数250。至少一个参数250可提供给分类器240。至少一个参数250可包含或对应于图1的至少一个参数112。至少一个参数250可包含包含于经编码音频信号202中(或由其指示)的参数、从经编码音频信号202(例如从包含于经编码音频信号202中的一或多个参数或值)导出的参数、或其组合。在一些实施方案中,经编码音频信号202可包含(或指示)一或多个参数(例如参数数据)。参数数据可包含于经编码音频信号202中(或由其指示)。解码器210可接收参数数据并可在逐帧基础上识别参数数据。为了说明,解码器210可确定包含于经编码音频信号202中(或由其指示)的参数(例如基于参数数据的参数值)。在一些实施方案中,可在对经编码音频信号202进行解码期间确定(或产生)包含于经编码音频信号202中(或由其指示)的参数。举例来说,解码器210可对经编码音频信号202进行解码以确定参数(例如参数值)。

作为说明性非限制性实例,包含于经编码音频信号202中(或由其指示)的至少一个参数250可包含核心指示符、译码器类型、低通核心决策、间距或其组合。核心指示符、译码器类型、低通核心决策、间距或其组合可包含于经编码音频信号202中(或由其指示)。作为说明性非限制性实例,从经编码音频信号202(或从包含于经编码音频信号202中的一或多个参数)导出的参数可包含间距稳定性。间距稳定性可从经编码音频信号202的数个最近接收到的帧的一或多个间距值导出(例如计算出)。在一些实施方案中,至少一个参数250可包含多个参数,例如由开关212提供的低通核心决策和由lpc模式解码器214或变换模式解码器216提供的间距稳定性。作为另一实例,多个参数可包含由开关212提供的核心指示符和由lpc模式解码器214或变换模式解码器216提供的译码器类型。

分类器240可配置成接收合成信号230和至少一个参数250。分类器240可配置成产生输出,所述输出基于合成信号230和至少一个参数250而指示合成信号230分类。例如语音音乐分类器等分类器240可包含决策产生器242和参数产生器244。参数产生器244可配置成接收合成信号230并基于合成信号230而产生一或多个参数,例如参数254。参数254可包含或对应于图1的参数114。在一些实施方案中,基于合成信号230所确定的参数254可包含(例如通过处理)从合成信号230计算出的参数。

决策产生器242可配置成产生合成信号230(对应于经编码音频信号202的帧)的分类。分类可包含或对应于图1的分类119。决策产生器242可基于至少一个参数250、参数254或其组合而产生分类。决策产生器242可包含配置成产生指示合成信号230的分类的控制信号260的硬件、软件或其组合。举例来说,作为说明性非限制性实例,决策产生器242可包含一或多个加法器(例如“与”门)、一或多个乘法器、一或多个“或”门、一或多个寄存器、一或多个比较器、或其组合。控制信号260可包含或对应于图1的控制信号122。在一些实施方案中,如果lpc模式解码器214用以对经编码音频信号202进行解码,那么决策产生器242可配置成使用第一处理(例如第一分类算法)以产生分类。替代地,如果变换模式解码器216用以对经编码音频信号202进行解码,那么决策产生器242可配置成使用第二处理(例如第二分类算法)以产生分类。

在操作期间,解码器210可接收经编码音频信号202的帧。解码器210可将所述帧路由给lpc模式解码器214或变换模式解码器216以对所述帧进行解码。经解码帧可提供给产生合成信号230的合成信号产生器220。解码器210可向分类器240提供合成信号230,连同多个参数(例如至少一个参数250)。

分类器240的参数产生器244可基于合成信号230而确定参数254。(分类器240的)决策产生器242可接收至少一个参数250、参数254或其组合,并可产生指示将(合成信号230的)帧分类为语音信号或非语音信号(例如音乐信号)的控制信号260。

虽然分类器240(例如决策产生器242和参数产生器244)被描述为与解码器210分离,但是在其它实施方案中,分类器240的至少一部分可包含于解码器210中。举例来说,在一些实施方案中,解码器210可包含决策产生器242、参数产生器244或这两者。

在下文呈现说明关于图1到4所描述的方面的可能实施方案的计算机代码的实例。在实例中,项“st->”指示所述项之后的变量是状态参数(例如图1的解码器110、解码器210、开关212或其组合的状态)。

可评估一组条件以确定是否应将经编码音频信号的帧分类成如在实例1中指示的语音还是音乐,经编码音频信号例如图1的经编码音频信号102或图2的经编码音频信号202。经编码音频信号的帧可由lpc模式解码器或变换模式解码器解码。“codec_mode”的值可指示是使用lpc模式解码器还是变换模式解码器来对帧进行解码。

在所提供实例中,“==”算子指示等式比较,使得“a==b”在a的值等于b的值时具有真(true)的值,并否则具有假(false)的值。“>”(大于)算子表示“大于”,“>=”算子表示“大于或等于”,且“<”算子指示“小于”。计算机代码包含不是可执行码的部分的注释。在计算机代码中,注释的开头由前斜线和星号(例如“/*”)指示,且注释的末端由星号和前斜线(例如“*/”)指示。为了说明,注释“comment”可在伪码中呈现为/*comment*/。如先前所提及,“st->a”项指示a是状态参数(即,“->”字符不表示逻辑“或”算术运算)。在所提供实例中,“*”可表示乘法运算,“+”可表示加法运算,“-”可指示减法运算,“abs(x)”可表示数字x的绝对值。“-=”算子表示递减运算,例如逐1递减运算。“=”算子表示分配(例如“a=1”将1的值分配给变量“a”)。

在所提供实例中,“核心”可指示经编码音频信号的帧的核心值。1的核心值可指示所述帧经编码为非语音帧,且0的核心值可指示所述帧经编码为语音帧。“coder_type”可指示用以对帧进行编码的译码器的类型。2的译码器类型值可指示译码器类型是语音译码器,且1的译码器类型值可指示译码器类型是非语音译码器。“核心”和“coder_type”中的每一个可包含于所述帧中。

“coder_type”可用以确定命名为“lp_coder_type”的低通译码器类型值。“lp_coder_type”可确定为:

[方程式1]:st->lp_coder_type=(α1*st->lp_coder_type+(1-α1)*abs(coder_type)),

其中α1是0与1之间的数字(包含端值)。

“核心”可用以确定命名为“d_lp_core”的低通核心值。“d_lp_core”可确定为:

[方程式2]:st->d_lp_core=(β1*st->d_lp_core+(1-β1)*st->core),

其中β1是0与1之间的数字(包含端值)。

“lp_pitch_stab”可指示一或多个接收到的帧的间距稳定性(或低通间距稳定性)。举例来说,每个帧(例如经编码帧)可包含帧的对应“瞬时”间距。间距稳定性可指示瞬时间距值的变化的量。“d_lp_snr”可指示对应于合成信号的对应于经编码音频信号的帧的部分的snr(或低通snr)。

“dec_spmu”可指示语音音乐分类的决策。举例来说,“st->dec_spmu=1”指示帧被分类为音乐且“st->dec_spmu=0”指示帧被分类为语音。在其它实施方案中,“st->dec_spmu=1”指示帧被分类为非语音。“p1”是与特定语音音乐分类相关联的机率(例如置信度值)。“p1”可对应于图1的置信度值121。“sp_hist”表示语音决策历史递减计数器且“mu_hist”表示音乐决策历史递减计数器。“p1”、“sp_hist”和“mu_hist”可用于滞后、平滑或由包含解码器的装置执行的另一操作,所述解码器例如图1的解码器110或图2的解码器210。

经编码信号的帧可由包含解码器的装置接收到,所述解码器例如图1的解码器110或图2的解码器210。帧可分类为语音或音乐,如实例1中所指示。

实例1

在对帧进行分类之后,可基于如在实例2中指示的帧的分类而执行滞后。

如果(st->dec_spmu==1)/*帧由决策树分类为音乐*/

{

如果(st->sp_hist==0)/*语音决策历史递减计数器已到达0*/

{

st->dec_spmu=1;/*将帧分类为音乐*/

st->mu_hist=h1;/*将音乐决策历史递减计数器重设成h1,

其中h1是第一正整数*/

}

否则/*语音决策历史递减计数器尚未到达0——继续分类为语音*/

实例2

图3是说明对音频信号进行分类的方法300的流程图,音频信号例如音频信号的音频帧。方法300可由图1的解码器110、分类器120、图2的解码器210、分类器240或决策产生器242执行。

方法300可包含在302处确定核心参数(指示为“lp_core”)是否大于或等于第一阈值。如果核心参数大于或等于第一阈值,那么方法300可前进到316。替代地,如果核心参数小于第一阈值,那么方法300可前进到304。虽然被描述为大于(或小于)一,但是参考图3所描述的确定可指示参数是否具有特定值。举例来说,如果核心参数指示使用“0”值的第一核心类型和使用“1”值的第二核心类型,那么确定核心参数大于或等于例如“1”的阈值可指示核心参数指示第二核心类型。

在304处,方法300可包含确定译码器类型参数(指示为“lp_coder_type”)是否大于或等于第二阈值。如果译码器类型参数小于第二阈值,那么方法300可指示合成信号被分类为非语音信号(例如音乐信号)。合成信号可包含或对应于图1的合成信号118或图2的合成信号230。替代地,如果译码器类型参数大于或等于第二阈值,那么方法300可前进到306。

方法300可包含在306处确定间距稳定性参数(指示为“pitch_stab”)是否大于或等于第三阈值。如果间距稳定性参数大于或等于第三阈值,那么方法300可前进到320。替代地,如果间距稳定性参数小于第三阈值,那么方法300可前进到308。

在308处,方法300可包含确定核心参数是否大于或等于第四阈值。如果核心参数大于或等于第四阈值,那么方法300可指示合成信号被分类为语音信号。替代地,如果核心参数小于第四阈值,那么方法300可前进到310。

方法300可包含在310处确定译码器类型参数(指示为“lp_coder_type”)是否大于或等于第五阈值。如果译码器类型参数大于或等于第五阈值,那么方法300可前进到324。替代地,如果译码器类型参数小于第五阈值,那么方法300可前进到312。

在312处,方法300可包含确定信噪比(snr)参数(指示为“dec_lp_snr”)是否大于或等于第六阈值。如果snr参数小于第六阈值,那么方法300可指示合成信号被分类为非语音信号(例如音乐信号)。替代地,如果snr参数大于或等于第六阈值,那么方法300可前进到314。

方法300可包含在314处确定核心参数是否大于或等于第七阈值。如果核心参数小于第七阈值,那么方法300可指示合成信号被分类为语音信号。替代地,如果核心参数大于或等于第七阈值,那么方法300可指示合成信号被分类为非语音信号(例如音乐信号)。

在316处,方法300可包含确定核心参数是否大于或等于第八阈值。如果核心参数大于或等于第八阈值,那么方法300可指示合成信号被分类为非语音信号(例如音乐信号)。替代地,如果核心参数小于第八阈值,那么方法300可前进到318。

方法300可包含在318处确定snr参数是否大于或等于第九阈值。如果snr参数小于第九阈值,那么方法300可指示合成信号被分类为语音信号。替代地,如果snr参数大于或等于第九阈值,那么方法300可指示合成信号被分类为非语音信号(例如音乐信号)。

在320处,方法300可包含确定核心参数是否大于或等于第十阈值。如果核心参数小于第十阈值,那么方法300可指示合成信号被分类为语音信号。替代地,如果核心参数大于或等于第十阈值,那么方法300可前进到322。

方法300可包含在322处确定snr参数是否大于或等于第十一阈值。如果snr参数小于第十一阈值,那么方法300可指示合成信号被分类为非语音信号(例如音乐信号)。替代地,如果snr参数大于或等于第十一阈值,那么方法300可指示合成信号被分类为语音信号。

在324处,方法300可包含确定snr参数是否大于或等于第十二阈值。如果snr参数小于第十二阈值,那么方法300可指示合成信号被分类为语音信号。替代地,如果snr参数大于或等于第十二阈值,那么方法300可指示合成信号被分类为非语音信号(例如音乐信号)。

在一些实施方案中,参考方法300所描述的一或多个操作可以是可选的,可被至少部分地同时执行、可经修改、可以所展示或描述不同的次序执行、或是其组合。举例来说,可修改方法300,以使得在302处,如果核心参数小于第一阈值,那么经修改方法可指示合成信号被分类为语音信号。因此,经修改方法将使用核心参数(lp_core)。作为另一实例,虽然已描述了时间平均(低通)参数(由“lp”指示),但是方法300可使用从经编码位流(例如核心、coder_type、间距等)提取的一或多个参数替代时间平均或低通参数。虽然已参考一或多个阈值描述了方法300,但是所述阈值中的两个或更多个可具有相同值或可具有不同值。此外,参数指示仅仅是用于说明。在其它实施方案中,参数可由不同名称指示。举例来说,snr参数可由“d_l_snr”指示。

因此,方法300可用以对合成信号(对应于特定音频帧)进行分类。举例来说,可基于从经编码音频信号(例如特定音频帧)确定的至少一个参数、基于合成信号(例如合成信号的对应于特定音频帧的部分)所确定的至少一个参数、或其组合而对合成信号进行分类。通过使用与经编码音频信号相关联的至少一个参数,对合成信号进行分类可相比于常规分类技术在计算上更不复杂。

图4是说明处理音频信号的方法400的流程图,音频信号例如经编码音频信号。可在装置处执行方法400,所述装置例如包含图1的系统100或图2的系统200的装置。举例来说,可在包含解码器的装置处执行方法400,所述解码器例如图1的解码器110或图2的解码器210。

方法400包含在402处在解码器处接收经编码音频信号。举例来说,经编码音频信号可包含或对应于图1的经编码音频信号102或图2的经编码音频信号202。可在解码器处接收到经编码音频信号,所述解码器例如图1的解码器110或图2的解码器210。经编码音频信号可包含(或指示)由产生经编码音频信号的编码器确定的一或多个参数。另外或替代地,经编码音频信号可包含用以产生一或多个参数的一或多个值。

方法400还包含在404处对经编码音频信号进行解码以产生合成信号。举例来说,经编码音频信号可由图1的解码器110、解码器210、lpc模式解码器214、变换模式解码器216或dtx/cng218解码。合成信号可包含或对应于图1的合成信号118或图2的合成信号230。

方法400进一步包含在406处基于从经编码音频信号确定的至少一个参数而对合成信号进行分类。举例来说,从经编码音频信号确定的至少一个参数可包含或对应于图1的至少一个参数112或图2的至少一个参数250。至少一个参数可基于包含于位流中的一或多个参数,例如核心指示符、译码模式、译码器类型或间距(例如瞬时间距)。对合成信号进行分类可所述图1的分类器120、图2的分类器240、决策产生器242或其组合执行。在一些实施方案中,可在逐帧基础上执行对合成信号的分类。合成信号可被分类为语音信号、非语音信号、音乐信号、含噪语音信号、背景噪声信号或其组合。在一些实施方案中,语音信号分类可包含清晰语音信号、含噪语音信号、非活动语音信号或其组合。在一些实施方案中,音乐信号分类可包含非语音信号。从经编码音频信号确定的至少一个参数可包含包含于经编码音频信号中(或由其指示)的参数、从经编码音频信号导出的一或多个参数、或其组合。

在一些实施方案中,方法400可包含在解码器处确定至少一个参数。举例来说,解码器110可从经编码音频信号102提取至少一个参数112,如参考图1所描述。在特定实施方案中,解码器110可在对经编码音频信号102进行解码之前提取至少一个参数112。另外或替代地,解码器110可从经编码音频信号102提取一组值,且解码器110可使用所述组值来计算至少一个参数112。在特定实施方案中,在对经编码音频信号102进行解码期间,解码器110可从经编码音频信号102提取所述组值、基于所述组值而计算至少一个参数112、或这两者。至少一个参数可包含核心指示符、译码模式、译码器类型、低通核心决策、间距值、间距稳定性或其组合。作为说明性非限制性实例,译码模式可包含代数码激励线性预测(acelp)、变换经译码激发(tcx)或经修改离散余弦变换(mdct)。作为说明性非限制性实例,译码器类型可包含浊音译码、非浊音译码、音乐译码或瞬态译码。

在一些实施方案中,对合成信号进行分类可进一步基于基于合成信号所确定的至少一个参数。举例来说,方法400可包含基于合成信号所确定的至少一个参数。基于合成信号所确定的至少一个参数可包含或对应于图1的参数114或图2的参数254。作为说明性非限制性实例,基于合成信号所确定的至少一个参数可包含信噪比、过零点、能量分布、能量压缩、信号调和性或其组合。基于合成信号所确定的至少一个参数可(例如通过处理)从合成信号计算出,如关于图1和2所描述。在特定实施方案中,至少一个参数是合成信号的信噪比。

在一些实施方案中,方法400可包含基于对合成信号进行分类而选择性地改变噪声抑制器的操作状态。举例来说,方法400可包含响应于将合成信号分类为非语音信号而停用噪声抑制器。作为另一实例,方法400可包含响应于将合成信号分类为非语音信号而激活噪声抑制器。

在一些实施方案中,方法400可包含输出合成信号的分类的指示。举例来说,分类器120可通过控制信号122向后处理器130输出分类119,如参考图1所描述。作为另一实例,分类器120可通过控制信号122向后处理器130输出分类119,如所参考图2描述。方法400还可包含基于指示而选择性地处理合成信号以产生音频信号。电平调整器134、声学滤波器136、范围压缩器138或其组合可选择性地处理合成信号118(或其版本)以产生由后处理器130输出的音频信号140。

因此,方法400可用以对合成信号(对应于特定音频帧)进行分类。举例来说,可基于从经编码音频信号(例如特定音频帧)确定的至少一个参数而对合成信号进行分类。通过使用从经编码音频信号确定的至少一个参数,对合成信号进行分类可相比于常规分类技术在计算上更不复杂。

图3到4的方法(或实例1到2)可由以下各项实施:fpga装置、asic、处理单元,例如中央处理单元(centralprocessingunit,cpu)、dsp、控制器、另一硬件装置、固件装置、或其任何组合。作为实例,图3到4的方法(或实例1到2)中的一个的一部分可与图3到4的方法(或实例1到2)中的一个的第二部分组合。此外,参考图3到4所描述的一或多个操作可以是可选的,可被至少部分地同时执行、可以所展示或描述不同的次序执行、或是其组合。作为另一实例,个别地或组合地,图3到4的方法(或实例1到2)中的一或多个可由执行指令的处理器执行,如关于图5到6所描述。

参考图5,描绘了装置500(例如无线通信装置)的特定说明性实例的框图。在各种实施方案中,装置500可比图5中所说明具有更多或更少组件。在说明性实例中装置500可包含图1的系统100、图2的系统200或其组合。在说明性实例中,装置500可根据图3到4的方法中的一或多个、实例1到2中的一或多个、或其组合而操作。

在特定实例中,装置500包含处理器506(例如cpu)。装置500可包含一或多个额外处理器,例如处理器510(例如dsp)。处理器510可包含音频编解码器(codec)508。举例来说,处理器510可包含配置成执行音频编解码器508的操作的一或多个组件(例如电路)。作为另一实例,处理器510可配置成执行一或多个计算机可读指令,以实施音频编解码器508的操作。虽然将音频编解码器508说明为转码器510的组件,但是在其它实例中,音频编解码器508的一或多个组件可包含于处理器506、编解码器534另一处理组件或其组合中。

音频编解码器508可包含声码器编码器536、声码器解码器538或这两者。声码器编码器536可包含编码选择器560、语音编码器562和音乐编码器564。声码器解码器538可包含或对应于图1的解码器110或图2的解码器210。声码器解码器538可包含编码选择器580、语音解码器582和音乐解码器584,并还可包含分类器,例如图1的分类器120、图2的分类器240或这两者。举例来说,语音解码器582可对应于图2的lpc模式解码器214,音乐解码器584可对应于图2的变换模式解码器216,且编码选择器580可对应于图2的开关212。

装置500可包含存储器532和编解码器534。存储器532,例如计算机可读存储装置,可包含指令556。指令556可包含可由处理器506、处理器510或其组合执行的一或多个指令,以执行图3到4的方法中的一或多个。装置500可包含(例如通过收发器)耦合到天线542的无线控制器540。在一些实施方案中,装置500可包含收发器(未展示)。收发器可包含一或多个发射器、一或多个接收器或其组合。收发器可耦合到天线542和无线控制器540。举例来说,收发器可包含于无线控制器540中。在其它实施方案中,收发器(或其部分)可与无线控制器540分离。

装置500可包含耦合到显示器控制器526的显示器528。扬声器541、麦克风546或这两者可耦合到编解码器534。在一些实施中装置500可包含多个扬声器,例如扬声器541。编解码器534可包含数/模转换器502和模/数转换器504。编解码器534可从麦克风546接收模拟信号、使用模/数转换器504来将模拟信号转换成数字信号、并将数字信号提供给音频编解码器508。音频编解码器508可处理数字信号。在一些实施方案中,音频编解码器508可将数字信号提供给编解码器534。编解码器534可以使用数/模转换器502来将数字信号转换为模拟信号,并可将模拟信号提供给扬声器541。

声码器解码器538可使用解码器侧分类的硬件实施方案,例如配置成产生如关于图1到4和实例1到2所描述的经编码信号的分类的专用电路。或者或另外,可实施软件实施方案(或组合软件/硬件实施方案)。举例来说,指令556可以是可由处理器510或装置500的其它处理单元(例如处理器506、编解码器534或这两者)执行的。为了说明,指令556可对应于被描述为相对于图1的分类器120所执行的操作。

在特定实施方案中,装置500可包含于系统级封装或芯片上系统装置522中。在特定实施方案中,存储器532、处理器506、处理器510、显示控制器526、编解码器534和无线控制器540包含于系统级封装或芯片上系统装置522中。在特定实施方案中,输入装置530和电源544耦合到芯片上系统装置522。此外,在特定实施方案中,如图5中所说明,显示器528、输入装置530、扬声器541、麦克风546、天线542和电源544在芯片上系统装置522外部。在特定实施方案中,显示器528、输入装置530、扬声器541、麦克风546、天线542和电源544中的每一个可耦合到芯片上系统装置522的组件,例如接口或控制器。

装置500可包含通信装置、编码器、解码器、转码器、智能电话、蜂窝电话、移动通信装置、笔记本电脑、计算机、平板电脑、个人数字助理(personaldigitalassistant,pda)、机顶盒、视频播放器、娱乐单元、显示装置、电视、游戏控制台、音乐播放器、无线电、数字视频播放器、数字视频光盘(digitalvideodisc,dvd)播放器、调谐器、相机、导航装置、车辆、基站、或其组合。

在说明性实施方案中,处理器510可以用来执行参考图1到4、实例1到2或其组合所描述的方法或操作的全部或部分。举例来说,麦克风546可捕获对应于用户语音信号的音频信号。模/数转换器504可将所捕获音频信号从模拟波形转换成包含数字音频样本的数字波形。处理器510可处理数字音频样本。

装置500可因此包含存储指令(例如指令556)的计算机可读存储装置(例如存储器532),所述指令在由处理器(例如处理器506或转码器510)执行时致使所述处理器执行操作,包含对经编码音频信号进行解码以产生合成信号。经编码音频信号可包含或对应于图1的经编码音频信号102或图2的经编码音频信号202。合成信号可包含或对应于图1的合成信号118或图2的合成信号230。操作还可包含基于从经编码音频信号确定的至少一个参数而对合成信号进行分类。

在一些实施方案中,还可部分地基于基于合成信号所确定的例如信噪比等至少一个参数而对合成信号进行分类。在一些实施方案中,所述操作可包含基于将合成信号分类为语音信号或音乐信号而对合成信号选择性地执行噪声抑制。在特定实施方案中,基于从经编码音频信号中的一或多个参数导出的参数而进一步对合成信号进行分类,所述参数例如间距稳定性。

参考图6,描绘了基站600的特定说明性实例的框图。在各种实施方案中,基站600可比图6中所说明具有更多组件或更少组件。在说明性实例中,基站600可包含图1的系统100。在说明性实例中,基站600可根据图3到4的方法中的一或多个、实例1到2中的一或多个、或其组合而操作。

基站600可以是无线通信系统的部分。无线通信系统可包含多个基站和多个无线装置。所述无线通信系统可以是长期演进(longtermevolution,lte)系统、码分多址(codedivisionmultipleaccess,cdma)系统、全球移动通信系统(globalsystemformobilecommunications,gsm)系统、无线局域网(wirelesslocalareanetwork,wlan)系统或一些其它无线系统。cdma系统可实施宽带cdma(widebandcdma,wcdma)、cdma1x、演进数据优化(evolution-dataoptimized,evdo)、时分同步cdma(timedivisionsynchronouscdma,td-scdma),或cdma的一些其它版本。

无线装置还可被称作用户设备(userequipment,ue)、移动台、终端、接入终端、订户单元、站等。无线装置可包含蜂窝式电话、智能手机、平板计算机、无线调制解调器、个人数字助理(pda)、手持式装置、笔记本电脑、智能本、上网本、平板电脑、无绳电话、无线本地环路(wirelesslocalloop,wll)站、蓝牙装置等。无线装置可包含或对应于图5的装置500。

各种功能可由基站600的一或多个组件执行(和/或在未展示的其它组件中执行),功能例如发送并接收消息和数据(例如音频数据)。在特定实例中,基站600包含处理器606(例如cpu)。基站600可包含转码器610。转码器610可包含音频编解码器608。举例来说,转码器610可包含配置成执行音频编解码器608的操作的一或多个组件(例如电路)。作为另一实例,转码器610可配置成执行一或多个计算机可读指令,以实施音频编解码器608的操作。虽然将音频编解码器608说明为转码器610的组件,但是在其它实例中,音频编解码器608的一或多个组件可包含于处理器606、另一处理组件或其组合中。举例来说,声码器解码器638可包含于接收器数据处理器664中。作为另一实例,声码器编码器636可包含于发射数据处理器667中。

转码器610可用以在两个或更多个网络转码消息和数据。转码器610可配置成将消息和音频数据从第一格式(例如数字格式)转换为第二格式。为了说明,声码器解码器638可解码具有第一格式的经编码信号,且声码器编码器636可将经解码的信号编码到具有第二格式的经编码信号中。另外或替代地,转码器610可配置成执行数据速率适应。举例来说,转码器610可下变频转换数据速率或上变频转换所述数据速率,而不改变音频数据的格式。为了说明,转码器610可将64千位/秒信号下变频转换为16千位/秒信号。

音频编解码器608可包含声码器编码器636和声码器解码器638。声码器编码器636可包含编码选择器、语音编码器和音乐编码器,如参考图5所描述。声码器解码器638可包含解码器选择器、语音解码器和音乐解码器。

基站600可包含存储器632。存储器632,例如计算机可读存储装置,可包含指令。指令可包含可由处理器606、转码器610或其组合执行的一或多个指令,以执行图3到4的方法中的一或多个、实例1到2中的一或多个、或其组合。基站600可包含耦合到天线阵列的多个发射器和接收器(例如收发器),例如第一收发器652和第二收发器654。天线阵列可包含第一天线642和第二天线644。天线阵列可配置成与一或多个无线装置无线通信,例如图5的装置500。举例来说,第二天线644可从无线装置接收数据流614(例如位流)。数据流614可包含消息、数据(例如经编码语音数据)或其组合。

基站600可包含网络连接660,例如回程连接。网络连接660可配置成与核心网络或无线通信网络的一或多个基站通信。举例来说,基站600可通过网络连接660从核心网络接收第二数据流(例如消息或音频数据)。基站600可处理第二数据流,以产生消息或音频数据,且通过天线阵列的一或多个天线,将消息或音频数据提供给一或多个无线装置,或通过网络连接660提供给另一基站。在特定实施方案中,作为说明性非限制性实例,网络连接660可以是广域网(wideareanetwork,wan)连接。在一些实施方案中,核心网络可包含或对应于公共交换电话网络(publicswitchedtelephonenetwork,pstn)、分组骨干网络或这两者。

基站600可包含耦合到网络连接660和处理器606的媒体网关670。媒体网关670可配置成在不同电信技术的媒体流之间进行转换。举例来说,媒体网关670可在不同发射协议、不同译码方案或这两者之间进行转换。为了说明,作为说明性非限制性实例,媒体网关670可从pcm信号转换成实时传输协议(real-timetransportprotocol,rtp)信号。媒体网关670可在分组交换网络(例如基于互联网协议的语音业务(voiceoverinternetprotocol,voip)网络、ip多媒体子系统(ipmultimediasubsystem,ims)、第四代(fourthgeneration,4g)无线网络,例如lte、wimax和umb等)、电路交换网络(例如pstn)与混合型网络(例如第二代(secondgeneration,2g)无线网络,例如gsm、gpr和edge、第三代(thirdgeneration,3g)无线网络,例如wcdma、ev-do和hspa等)之间转换数据。

此外,媒体网关670可包含转码器,例如转码器610,并可配置成在编解码器不兼容时对数据进行转码。举例来说,作为说明性非限制性实例,媒体网关670可在适应性多速率(adaptivemulti-rate,amr)编解码器与g.711编解码器之间进行转码。媒体网关670可包含路由器和多个物理接口。在一些实施方案中,媒体网关670还可包含控制器(未展示)。在特定实施方案中,媒体网关控制器可在媒体网关670外部、在基站600外部、或这两者外部。媒体网关控制器可控制并协调多个媒体网关的操作。媒体网关670可从媒体网关控制器接收控制信号,并可用以在不同发射技术之间进行桥接并可向终端用户能力和连接添加服务。

基站600可包含解调器662,解调器662耦合到收发器652、654;接收器数据处理器664和处理器606,且接收器数据处理器664可耦合到处理器606。解调器662可配置成解调从收发器652、654接收到的经调制信号,并将经解调的数据提供给接收器数据处理器664。接收器数据处理器664可配置成从经解调的数据提取消息或音频数据,并将所述消息或所述音频数据发送到处理器606。

基站600可包含传输数据处理器667和发射多输入多输出(mimo)处理器668。发射数据处理器667可耦合到处理器606和发射mimo处理器668。发射mimo处理器668可耦合到收发器652、654和处理器606。在一些实施方案中,发射mimo处理器668可耦合到媒体网关670。作为说明性非限制性实例,发射数据处理器667可配置成从处理器606接收消息或音频数据,并基于例如cdma或正交频分复用(orthogonalfrequency-divisionmultiplexing,ofdm)等译码方案而对所述消息或所述音频数据进行译码。发射数据处理器667可将经译码数据提供给发射mimo处理器668。

可使用cdma或ofdm技术来使经译码数据与例如导频数据等其它数据多路复用,以产生经多路复用的数据。接着可通过发射数据处理器667基于特定调制方案(例如二进制移相键控(“binaryphase-shiftkeying,bpsk”)、正交移相键控(“quadraturephase-shiftkeying,qspk”)、多元移相键控(“m-aryphase-shiftkeying,m-psk”)、多元正交振幅调制(“m-aryquadratureamplitudemodulation,m-qam”)等)来调制(即,符号映射)经多路复用的数据,以产生调制符号。在特定实施方案中,可使用不同调制方案来调制译码的数据和其它数据。每一数据流的数据速率、译码和调制可由处理器606所执行的指令确定。

发射mimo处理器668可配置成从发射数据处理器667接收调制符号,并可进一步处理所述调制符号并可对所述数据执行波束成形。举例来说,发射mimo处理器668可将波束成形权重应用于调制符号。波束成形权重可对应于从其发射调制符号的天线阵列的一或多个天线。

在操作期间,基站600的第二天线644可接收数据流614。第二收发器654可从第二天线644接收数据流614,且可将数据流614提供给解调器662。解调器662可解调数据流614的经调制信号,并将经解调的数据提供给接收器数据处理器664。接收器数据处理器664可从经解调的数据提取音频数据,并将所提取的音频数据提供给处理器606。

处理器606可将音频数据提供给转码器610以进行转码。转码器610的声码器解码器638可将音频数据从第一格式解码成经解码的音频数据,且声码器编码器636可将经解码的音频数据编码成第二格式。在一些实施方案中,声码器编码器636可使用比从无线装置接收高的数据速率(例如上变频转换)或低的数据速率(例如下变频转换)来对音频数据进行编码。在其它实施方案中,可不对音频数据进行转码。虽然将转码(例如解码和编码)说明为由转码器610执行,但是转码操作(例如解码和编码)可由基站600的多个组件执行。举例来说,解码可由接收器数据处理器664执行,且编码可由发射数据处理器667执行。在其它实施方案中,处理器606可将音频数据提供给媒体网关670,来用于转换成另一发射协议、译码方案或这两者。媒体网关670可通过网络连接660将经转换数据提供给另一基站或核心网络。

声码器解码器638、声码器编码器636或这两者可接收参数数据,并和在逐帧基础上识别参数数据。声码器解码器638、声码器编码器636或这两者可基于参数数据而在逐帧基础上对合成信号进行分类。合成信号可被分类为语音信号、非语音信号、音乐信号、含噪语音信号、背景噪声信号或其组合。声码器解码器638、声码器编码器636或这两者可基于所述分类而选择特定解码器、编码器或这两者。在声码器编码器636处产生的经编码音频数据,例如经转码数据,可通过处理器606提供给发射数据处理器667或网络连接660。

来自转码器810的经转码音频数据可提供给发射数据处理器667,以根据调制方案(例如ofdm)来进行译码以产生调制符号。发射数据处理器667可将调制符号提供给发射mimo处理器668,以用于进一步处理和波束成形。发射mimo处理器668可应用波束成形权重,且可通过第一收发器652将调制符号提供给天线阵列的一或多个天线,例如第一天线642。因此,基站600可将对应于从无线装置接收到的数据流614的经转码数据流616提供给另一无线装置。经转码数据流616可具有与数据流614不同的编码格式、数据速率或这两者。在其它实施方案中,可将经转码数据流616提供给网络连接660,以用于发射到另一基站或核心网络。

基站600可因此包含存储指令的计算机可读存储装置(例如存储器632),所述指令在由处理器(例如处理器606或转码器610)执行时致使所述处理器执行操作,包含对经编码音频信号进行解码以产生合成信号。所述操作还可包含基于从经编码音频信号确定的至少一个参数而对合成信号进行分类。

结合所描述方面,设备可包含用于接收经编码音频信号的装置。举例来说,用于接收的所述装置可包含图1的解码器110、图2的解码器210、开关212、图5的天线542、无线控制器540、图5的执行指令556的处理器506或处理器510、声码器解码器538、解码选择器580、编解码器534、麦克风546、图6的第一天线642、第二天线644、第一收发器652、第二收发器654、配置成执行指令的处理器606、转码器610、用以接收经编码音频信号的一或多个其它装置、电路、模块或其它指令、或其任何组合。

设备可包含用于对经编码音频信号进行解码以产生合成信号的装置。举例来说,用于解码的所述装置可包含图1的解码器110、图2的解码器210、lpc模式解码器214、变换模式解码器216、dtx/cng218、合成信号产生器220、图5的声码器解码器538、语音解码器582、非语音解码器548、执行指令556的处理器506或处理器510、图6配置成执行指令的处理器606、转码器610、用以对经编码音频信号进行解码的一或多个其它装置、电路、模块或其它指令、或其任何组合。

所述设备可包含包含用于基于从经编码音频信号确定的至少一个参数而对合成信号进行分类的装置。举例来说,用于分类的所述装置可包含图1的解码器110、分类器120、图2的解码器210、开关212、分类器240、决策产生器242、图5的解码选择器580执行指令556的处理器506或处理器510、图6配置成执行指令的处理器606、转码器610、用以对合成信号进行分类的一或多个其它装置、电路、模块或其它指令、或其任何组合。

用于接收的装置、用于解码的装置和用于分类的装置可集成到解码器、机顶盒、音乐播放器、视频播放器、娱乐单元、导航装置、通信装置、pda、计算机或其组合中。在一些实施方案中,所述设备可包含用于基于由用于分类的所述装置产生的合成信号的分类而对合成信号执行噪声抑制的装置。举例来说,用于执行噪声抑制的所述装置可包含图1的后处理器130、噪声抑制器132、图5的执行指令556的处理器506或处理器510、图6配置成执行指令的处理器606、转码器610、用以执行噪声抑制的一或多个其它装置、电路、模块或其它指令、或其任何组合。

虽然图1到6(和实例1到2)中的一或多个可说明根据本公开的教示的系统、设备、方法或其组合,但是本公开不限于这些所说明系统、设备、方法或其组合。如本文中所说明或描述,图1到6(和实例1到2)中的任一个的一或多个功能或组件可与图1到6(和实例1到2)中的另一个的一或多个其它部分组合。因此,本文中所描述的单个方面不应被解释为限制性的,且在不脱离本公开的教示的情况下,本公开的实例可适当地组合。

在本文中所描述的描述的方面中,由图1的系统100、图2的系统200、图5的装置500、图9的基站或其组合执行的各种功能被描述为由某些电路或组件执行。但是,电路或组件的此划分仅为了说明。在替代性实例中,由特定电路或组件执行的功能可替代地划分为多个组件或模块。另外或替代地,图1、2、5和6的两个或更多个电路或组件可集成到单个电路或组件中。可使用硬件(例如asic、dsp、控制器、fpga装置等)、软件(例如逻辑、模块、可由处理器执行的指令等)或其任何组合来实施图1、2、5和9中所说明的每个电路或组件。

所属领域的技术人员将进一步了解,结合本文所公开的方面描述的各种说明性逻辑块、配置、模块、电路和算法步骤可实施为电子硬件、由处理器执行的计算机软件或两者的组合。上文已大体上就各种说明性组件、块、配置、模块、电路和步骤的功能性对它们加以描述。此功能性是实施为硬件还是处理器可执行指令取决于特定应用和强加于整个系统的设计约束。所属领域的技术人员可以针对每个特定应用以不同方式实施所描述功能性,但此类实施决策不应被解释为引起对本公开的范围的偏离。

结合本文中所公开的方面所描述的方法或算法的步骤可直接包含于硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可驻留于随机存取存储器(randomaccessmemory,ram)、快闪存储器、只读存储器(read-onlymemory,rom)、可编程只读存储器(programmableread-onlymemory,prom)、可擦除可编程只读存储器(erasableprogrammableread-onlymemory,eprom)、电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,eeprom)、寄存器、硬盘、可移动磁盘、压缩光盘只读存储器(compactdiscread-onlymemory,cd-rom)或所属领域中已知的任何其它形式的非暂时性存储媒体中。示范性存储媒体连接到处理器,使得处理器可从存储媒体读取信息并将信息写入到存储媒体。在替代方案中,存储媒体可以与处理器成一体式。处理器和存储媒体可驻留于asic中。asic可以驻留于计算装置或用户终端中。在替代方案中,处理器和存储媒体可以作为离散组件驻留于计算装置或用户终端中。

提供对所公开方面的先前描述,以使得所属领域的技术人员能够制造或使用所公开方面。对这些方面的各种修改对于所属领域的技术人员将易于显而易见,且在不脱离本公开的范围的情况下,本文中所定义的原理可应用于其它方面。因此,本公开并不意图限于本文中所展示的方面,而应被赋予与如由所附权利要求书定义的原理和新颖特征一致的可能的最广范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1