用于在带宽扩展系统中估计高频带能量的方法和装置的制作方法

文档序号:2823067阅读:469来源:国知局
专利名称:用于在带宽扩展系统中估计高频带能量的方法和装置的制作方法
技术领域
本发明一般地涉及呈现可听内容,并且更具体地,涉及带宽扩展技术。
背景技术
从数字表示可听地呈现音频内容包括公知范围的努力。在一些应用设置中,数字 表示包括与原始音频采样相关的完整的对应带宽。在这样的情况下,可听呈现可以包括高 度准确和自然的发声输出。然而,这样的方法要求相当大的开销资源来提供对应的数据量。 在诸如像无线通信设置的许多应用设置中,不能总是充分支持这样的信息量。为了适应这样的局限,所谓的窄带语音技术可以用于通过进一步将表示限制为 小于与原始音频采样相关的完整的对应带宽来限制信息量。仅作为关于这一点的示例, 尽管自然语音包括高达8kHz (或更高)的有效分量,但是窄带表示可能仅提供关于例如 300-3400HZ范围的信息。当得到的内容被呈现得可听时,得到的内容通常清晰得足以支持 基于语音的通信的功能需要。然而,遗憾地是,与全带语音相比,窄带语音处理也往往得到 听起来压抑的声音,并且甚至可能已经降低了清晰度。为了满足该需要,有时采用带宽扩展技术。基于可用的窄带信息以及其它信息人 工生成较高和/或较低的频带中的丢失信息来选择能够被添加到窄带内容中的信息,从而 合成伪宽带(或全带)信号。使用这样的技术,例如,能够将在300-3400HZ范围中的窄带 语音转换成例如在100-8000HZ范围中的宽带语音。为此,所需要的一条关键信息是在高频 带(3400-8000HZ)中的频谱包络。如果估计了宽带频谱包络,则通常可以容易地从宽带频 谱包络中提取高频带频谱包络。可以考虑由形状和增益(或者等同地,能量)构成的高频 带频谱包络。例如,通过一种方法,借助于通过码书映射从窄带频谱包络估计宽带频谱包络来 估计高频带频谱包络形状。然后,通过调整在宽带频谱包络的窄带部分内的能量以匹配窄 带频谱包络的能量来估计高频带能量。在该方法中,高频带频谱包络形状确定高频带能量, 并且在估计形状时的任何错误也将相应地影响高频带能量的估计。在另一方法中,分别估计高频带频谱包络形状和高频带能量,并且调整最后使用 的高频带频谱包络,以匹配估计的高频带能量。通过一种相关的方法,使用除了其它参数之 外的估计的高频带能量来确定高频带频谱包络形状。然而,未必保证得到的高频带频谱包 络具有适当的高频带能量。因此,需要附加的步骤来将高频带频谱包络的能量调整到估计 值。除非特别注意,该方法将在窄带和高频带之间的边界处产生在宽带频谱包络中的不连
3续。尽管对于带宽扩展,并且特别是对于高频带包络估计的现有方法相当成功,但是在至少 一些应用设置中,这些方法未必产生适当质量的得到的语音。为了生成可接受质量的带宽扩展的语音,应该最小化在这样的语音中的人工信号 (artifact)的数目。已知高频带能量的高估引起麻烦的人工信号。高频带频谱包络形状的 不正确的估计也可能引起人工信号,但是这些人工信号通常不太严重,并且容易被窄带语
音掩盖。


通过提供下面详细描述中所述的在带宽扩展系统中估计高频带能量的方法和装 置来至少部分满足上述需要。附图中相同的附图标记在各个视图中表示相同或功能上类似 地元素,并且附图与下面的详细说明一起并入本说明书中,并且形成本说明书的一部分,用 于进一步图示各种实施例并且用于说明所有根据本发明的各种原理和优点。图1包括根据本发明的各种实施例配置的流程图;图2包括根据本发明的各种实施例配置的曲线图;图3包括根据本发明的各种实施例配置的框图;图4包括根据本发明的各种实施例配置的框图;图5包括根据本发明的各种实施例配置的框图;以及图6包括根据本发明的各种实施例配置的曲线图。本领域技术人员将认识到,在附图中的元素为了简明和清楚而进行图示,并且没 有必要按照比例绘制。例如,在附图中的一些元素的尺寸和/或相对定位可以相对于其它 元素被夸大,以有助于促进对本发明的各种实施例的理解。而且,为了促进对于本发明的这 些各种实施例的不太混乱的查看,通常不描绘在商业上可行的实施例中实用或必要的常见 而公知的元素。应当进一步认识到,可以以特定的发生顺序来描述或描绘特定的动作和/ 或步骤,而在本领域中的技术人员将理解,实际上不需要这样的关于顺序的指定。还应当理 解,在此使用的术语和表达具有由如上阐述的本领域的技术人员给予这样的术语和表达的 典型的技术含义,除非在此另外阐述了不同的特定的含义。
具体实施例方式在此讨论的教导针对一种用于人工带宽扩展的有成本效益的方法和系统。根据这 样的教导,接收窄带数字音频信号。例如,窄带数字音频信号可以是在蜂窝网络中经由移动 站接收到的信号,并且窄带数字音频信号可以包括300-3400HZ的频率范围中的语音。人工 带宽扩展技术被实现为将数字音频信号的频谱扩展为包括诸如100-300HZ的低频带频率 以及诸如3400-8000HZ的高频带频率。通过利用人工带宽扩展来将频谱扩展为包括低频带 频率和高频带频率,产生更加自然发音的数字音频信号,该信号对实现该技术的移动站的 用户而言更令人愉快。在人工带宽扩展技术中,基于从语音数据库得到并存储的先验信息以及可用的窄 带信息,人工地生成较高频带(3400-8000HZ)和较低频带(100-300Hz)中的丢失的信息,并 将其添加到窄带信号,以合成伪宽带信号。因为要求对现有传输系统的最小的改变,所以这 样的解决方案很吸引人。例如,不需要额外的比特率。人工带宽扩展可以被并入在接收端处的后处理元件中,并且因此独立于通信系统中使用的语音编码技术或通信系统本身的性 质,例如模拟、数字、地上线或蜂窝。例如,可以通过接收窄带数字音频信号的移动站来实现 人工带宽扩展技术,并且利用得到的宽带信号来生成向移动站的用户播放的音频。在确定高频带信息时,首先估计高频带中的能量。利用窄带信号的子集来估计高 频带能量。最接近高频带频率的窄带信号的子集通常具有与高频带信号最高的相关性。因 此,仅利用窄带的子集而不是整个窄带来估计高频带能量。使用的子集被称为“过渡带”,并 且可以包括诸如2500-3400HZ的频率。更特定地,过渡带在此被定义为包含在窄带中并且 接近高频带的频带,即,它用作到高频带的过渡。该方法与现有技术的带宽扩展系统不同, 现有技术的带宽扩展系统根据整个窄带中的能量来估计高频带能量,通常为比率。为了估计高频带能量,首先经由下面关于图4和图5讨论的技术来估计过渡带能 量。例如,可以首先通过对输入窄带信号进行上采样、计算上采样的窄带信号的频谱并且 然后将过渡带内的频谱分量的能量相加来计算过渡带的过渡带能量。随后,将估计的过渡 带能量作为自变量插入多项式等式中来估计高频带能量。选择多项式等式中的自变量的不 同幂的系数或权重(包括零幂,即常数项,的系数或权重)来在来自训练语音数据库的大量 帧上最小化高频带能量的实际值和估计值之间的均方差。如下面更详细讨论的,通过调节 对从窄带信号得到的参数以及从过渡带信号得到的参数的估计,可以进一步提高估计准确 度。在已经估计了高频带能量之后,基于高频带能量估计来估计高频带频谱。通过以该方式来利用过渡带,提供了一种坚固的带宽扩展技术,与在使用整个窄 带中的能量来估计高频带能量时可能的音频信号相比,该技术产生更高质量的相应的音频 信号。此外,因为带宽扩展技术适用于经由通信系统接收到的窄带信号,所以可以在不对现 有通信系统有过度不利影响的情况下利用该技术,即,可以利用现有通信系统来发送窄带 信号。图1图示了根据本发明的各种实施例的用于生成带宽扩展数字音频信号的过程 100。首先,在操作101处,接收窄带数字音频信号。在典型的应用设置中,该操作包括提供 这样的内容的多个帧。这些教导易于根据上述步骤来处理每个这样的帧。例如,通过一种 方法,每个这样的帧可以与原始音频内容的10-40毫秒相对应。这可以包括,例如,提供包括合成的有声内容的数字音频信号。例如,这是当结合 在便携式无线通信设备中接收到的声编码的语音内容来采用这些教导时的情况。然而,本 领域的技术人员可以理解,还存在其它可能性。例如,数字音频信号可能替代地包括原始语 音信号或者原始语音信号或合成的语音内容的重采样的版本。现在参考图2,可以理解,该数字音频信号涉及某个原始音频信号201,其具有原 始的对应的信号带宽202。该原始的对应的信号带宽202通常大于前述的与数字音频信号 相对应的信号带宽。例如,当数字音频信号仅表示原始音频信号201的一部分203而原始 音频信号201的其它部分留在频带外时,这可能发生。在图示的说明性示例中,这包括低频 带部分204和高频带部分205。本领域的技术人员将认识到,该示例仅用于说明性目的,并 且未表示的部分可以仅包括低频带部分或高频带部分。这些教导也适用于在其中未表示的 部分落在两个或多个表示的部分的中频带(未示出)的应用设置中进行使用。因此,容易理解,原始音频信号201的未表示的部分(多个)包括这些现有教导可 能合理地设法以一些合理并且可接受的方式来替换或者以其它方式表示的内容。还应当理解,该信号带宽仅占用由相关采样频率确定的尼奎斯特带宽的一部分。这进而被理解成进 一步提供其中要实现期望的带宽扩展的频率区域。返回参考图1,在操作102处对输入数字音频信号进行处理,以生成处理的数字音 频信号。通过一种方法,在操作102处的处理是上采样操作。通过另一种方法,它可以是输 出等于输入的简单单位增益系统。在操作103处,基于窄带带宽的预定的上限频率范围内 的处理的数字音频信号的过渡带来估计与输入数字音频信号相对应的高频带能量水平。通过使用过渡带分量作为估计的基础,获得比在共同使用所有窄带分量来估计高 频带分量的能量值时通常所得到的更准确的估计。通过一种方法,使用高频带能量值来访 问包含多个对应的候选高频带频谱包络形状的查找表,以确定高频带频谱包络,即,在正确 能量水平处的适当的高频带频谱包络形状。在104处,基于估计准确度和/或窄带信号特性来修改估计的高频带能量水平,以 减少人工信号并且由此提高宽带扩展音频信号的质量。这将在以下详细进行描述。最后, 在105处,基于修改的估计的高频带能量水平以及与该修改的估计的高频带能量水平相对 应的估计的高频带频谱来可选地生成高频带数字音频信号。然后,该过程100可选地将数字音频信号和与高频带分量的估计的能量值和频谱 相对应的高频带内容进行适当合并,以提供要呈现的窄带数字音频信号的带宽扩展版本。 虽然图1所示的过程仅图示了添加了估计的高频分量,但是应该认识到,还可以估计低频 带分量,并且将该低频带分量与窄带数字音频信号进行合并,以生成带宽扩展的宽带信号。当以可听形式进行呈现时,与原始的窄带数字音频信号相比,得到的带宽扩展的 音频信号(通过将输入数字音频信号与人工生成的信号带宽外内容进行合并所获得)具有 改善的音频质量。通过一种方法,这可以包括将关于其频谱内容相互不包括的两个项进行 合并。在这样的情况下,这样的合并可以采用例如将两个(或多个)分段简单地连结或以 其它方式联合在一起的形式。通过另一种方法,如果期望,则高频带带宽内容和/或低频带 带宽内容可以具有在数字音频信号的对应信号带宽内的部分。通过将高频带带宽内容和/ 或低频带带宽内容的重叠部分与数字音频信号的对应的带内部分进行合并,这样的重叠在 至少一些应用设置中可以用于对从一个部分到另一个部分的过渡进行平滑化和/或羽化。本领域技术人员将认识到,使用多种可用和/或容易配置的平台中的任何一个来 容易地实现上述过程,该平台包括本领域公知的部分或整体可编程的平台或者可能期望用 于一些应用的专用平台。现在参考图3,现在将提供对于这样的平台的说明性方法。在该说明性示例中,在装置300中,选择的处理器301可操作地耦合到输入端302, 该输入端302被配置和布置成接收具有对应的信号带宽的数字音频信号。当装置300包 括无线双向通信设备时,可以由本领域公知的对应的接收器303来提供这样的数字音频信 号。在这样的情况下,例如,数字音频信号可以包括根据接收到的声编码的语音内容而形成 的合成有声内容。处理器301进而可以(当处理器301包括本领域公知的部分或整体可编程的平台 时经由例如对应程序)被配置和布置成执行这里阐述的步骤或者其它功能的一个或多个。 这可以包括,例如,从过渡带能量估计高频带能量值,并且然后使用高频带能量值和能量索 引的形状的集合来确定高频带频谱包络。如上所述,通过一种方法,前述高频带能量值可以用于便利访问包含多个对应的候选频谱包络形状的查找表。为了支持这样的方法,如果期望,该装置还可以包括一个或多 个查找表304,该一个或多个查找表304可操作地耦合到处理器301。在如此配置的情况下, 处理器301可以在适当时容易地访问查找表304。本领域的技术人员将认识和理解,这样的装置300可以由如图3中所示的图示建 议的多个物理上不同的元件构成。然而,还能够将该图示看做包括逻辑视图,在该情况下, 可以经由共享平台来允许和实现这些元件中的一个或多个。还应当理解,这样的共享平台 可以包括如本领域公知的整体或至少部分可编程的平台。应该认识到,上述处理可以由与基站进行无线通信的移动站来执行。例如,基站可 以经由传统方式将窄带数字音频信号发射到移动站。一旦接收到该窄带数字音频信号,移 动站内的处理器(多个)就执行必要的操作来生成数字音频信号的带宽扩展版本,其对移 动站的用户来说更清晰并且在听觉上更令人愉快。现在参考图4,首先使用对应的上采样器401对以SkHz采样的输入窄带语音Snb 进行上采样两次,以获得以16kHz采样的上采样窄带语音0nb。这可以包括执行1 2内插 (例如,通过在每对原始语音采样之间插入值为0的采样),此后,使用例如具有在OHz到 3400Hz之间的通带的低通滤波器(LPF)来进行低通滤波。还使用线性预测(LP)分析器402来从Snb计算窄带线性预测(LP)参数Anb = {1, ai; a2, . . . , aP},其中,P是模型阶数,该LP分析器402采用公知的LP分析技术。(当然,存 在其它的可能性;例如,可以从、b的2 1抽样(decimated)版本来计算LP参数。)这些 LP参数将窄带输入语音的频谱包络建模为
权利要求
一种方法,包括接收包括窄带信号的输入数字音频信号;确定与所述输入数字音频信号相对应的估计的高频带能量水平;以及基于估计准确度和/或基于所述窄带信号的特性来修改所述估计的高频带能量水平。
2.根据权利要求1所述的方法,其中,所述基于估计准确度来修改所述估计的高频带 能量水平的步骤包括下述步骤确定在所述高频带能量水平的估计中的不可靠性的度量;以及将所述估计的高频带能量水平偏置为降低与所述不可靠性的度量成比例的量。
3.根据权利要求2所述的方法,其中,所述确定不可靠性的度量的步骤包括下述步骤 确定所述估计的高频带能量水平中的误差的标准偏差。
4.根据权利要求1所述的方法,其中,所述基于所述窄带信号的特性来修改所述估计 的高频带能量水平的步骤包括下述步骤基于发声水平来修改所述估计的高频带能量水 平。
5.根据权利要求4所述的方法,其中,所述基于发声水平来修改所述估计的高频带能 量水平的步骤包括下述步骤针对基本上浊音的语音降低所述高频带能量水平和/或针对 基本上清音的语音增加所述高频带能量水平。
6.一种装置,包括估计和控制模块(ECM),所述估计和控制模块(ECM)接收包括窄带信号的输入数字音 频信号,生成与所述输入数字音频信号相对应的估计的高频带能量水平,以及基于估计准 确度和/或基于所述窄带信号的特性来修改所述估计的高频带能量水平。
7.根据权利要求6所述的装置,其中,所述ECM通过确定在所述高频带能量水平的估计 中的不可靠性的度量,并且将所述估计的高频带能量水平偏置为降低与所述不可靠性的度 量成比例的量,来修改所述估计的高频带能量水平。
8.根据权利要求7所述的装置,其中,所述不可靠性的度量包括标准偏差。
9.根据权利要求6所述的装置,其中,所述ECM通过基于发声水平修改所述估计的高频 带能量水平来修改所述估计的高频带能量水平。
10.一种方法,包括接收包括窄带信号的输入数字音频信号;接收与所述输入数字音频信号相对应的估计的高频带能量水平;以及基于估计准确度和/或基于所述窄带信号的特性来修改所述估计的高频带能量水平。
全文摘要
方法(100)包括接收(101)包括窄带信号的输入数字音频信号。处理(102)该输入数字音频信号以生成处理的数字音频信号。确定(103)与宽带扩展的输入数字音频信号相对应的高频带能量水平的估计。基于估计准确度和/或窄带信号的特性来进行该估计的高频带能量水平的修改(104)。基于修改的高频带能量水平的估计以及与修改的高频带能量水平的估计相对应的估计的高频带频谱来生成高频带数字音频信号(105)。
文档编号G10L21/02GK101939783SQ200980104372
公开日2011年1月5日 申请日期2009年2月5日 优先权日2008年2月7日
发明者坦卡西·V·拉玛巴德兰, 马克·A·加休科 申请人:摩托罗拉公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1