进行语音信号的频带扩展的装置及方法

文档序号:9650673阅读:648来源:国知局
进行语音信号的频带扩展的装置及方法
【技术领域】
[0001] 本发明涉及语音信号处理,特别涉及用于语音信号的带宽扩展的语音信号编码及 解码处理。
【背景技术】
[0002] 在通信中,为了更高效地使用网络资源,在音频编解码器中导入了以下方法,即在 主观性质量所能够允许的范围内,以低比特率压缩语音信号。由此,在对语音信号进行编码 时,需要提高压缩效率来克服比特率的限制。
[0003]BWE(bandwidthextension:带宽扩展)是为了高效地以低比特率压缩 WB(wideband:宽带)或SWB(super-wideband:超宽带)的语音信号而广泛用于语音信号编 码的技术。编码中的BWE使用解码后的低频带信号,以参数方式表达高频带信号。即,BWE搜 索并确定语音信号的低频带信号中的与高频带信号的子带类似的部分,对确定该类似部分 的参数进行编码并发送该参数,接收侧使用低频带信号能够重新合成高频带信号。利用低 频带信号的类似部分而不直接对高频带信号进行编码,由此能够减少传输的参数信息量, 从而能够提尚压缩效率。
[0004] 作为利用了BWE功能的语音信号编解码器之一,有G. 718-SWB。G. 718-SWB的适用 对象为VoIP装置、视频会议设备、电话会议设备以及便携电话。
[0005] G. 718-SWB的结构表示在图1和图2中(例如参照非专利文献1)。
[0006]在图1所示的编码装置侧,以32kHz被采样到的语音信号(以下称为输入信号), 首先以16kHz被下采样(101)。由G. 718核心编码单元对下采样后的信号进行编码(102)。 在MDCT区域中进行SWB频带扩展。32kHz输入信号在MDCT区域中被转换(103),并经由单 音性估计单元受到处理(104)。基于输入信号的估计出的单音性(105),将遗传(generic) 模式(106)或正弦波(sinusoidal)模式(108)用于SWB的第一层编码。使用附加正弦波 (additionalsinusoid)对更高的SWB层进行编码(107 及 109)。
[0007] 遗传模式用于输入帧的信号被视为非单音的情况。在遗传模式下,由G. 718核心 编码单元编码后的WB信号的MDCT系数(频谱)被用于SWBMDCT系数(频谱)的编码。 SWB频带(7-14kHz)被分割为若干个子带,从被编码的标准化后的WBMDCT系数中,对于所 有子带搜索相关性最高的部分。接着,对相关性最高的部分的增益进行比例计算,以能够重 现SWB的子带的振幅级别(level),获得SWB信号的高频分量的参数表示(参数表达)。
[0008] 正弦波模式编码用于被分类为单音的帧。在正弦波模式下,将正弦波分量的有限 集合添加至SWB频谱中,由此生成SWB信号。
[0009] 在图2所示的解码装置侧,G. 718核心编解码器以16kHz采样率对WB信号进行解 码(201)。在经过后处理之后(202),WB信号以32kHz采样率被上采样(203)。通过SWB频 带扩展来重构SWB频率分量。SWB频带扩展主要在MDCT区域中进行。遗传模式(204)及 正弦波模式(205)用于SWB的第一层的解码。使用附加正弦波模式对更高的SWB层进行解 码(206和207)。重构后的SWBMDCT系数被转换到时域(208),在后处理(209)之后,与由 G. 718核心解码单元解码后的WB信号相加,重构时域的SWB输出信号。
[0010] 现有技术文献
[0011] 非专利文献
[0012] 非专利文献 1:ITU_TRecommendationG. 718Amendment2,NewAnnexBon superwidebandscalableextensionforITU-TG. 718andcorrectionstomainbody fixed-pointC-codeanddescriptiontext,March2010.

【发明内容】

[0013] 发明要解决的问题
[0014] 如G. 718-SWB的结构所示,通过正弦波模式或遗传模式中的任一种模式进行输入 信号的SWB频带扩展。
[0015]例如对于遗传编码的机制,通过从WB频谱中搜索相关性最高的部分来生成(获 得)高频分量。通常,该方法类型特别在对于具有高次谐波的信号的性能方面存在问题。该 方法完全未维持低频带的高次谐波分量(单音分量)和复制出的高频带的单音分量之间的 谐波(高次谐波)关系。这成为致使听觉质量变差的不明确的频谱的原因。
[0016]因此,为了抑制由不明确的频谱或复制出的高频带信号的频谱(高频频谱)中的 混乱生成的听觉噪音(或伪差),较为理想的是,维持低频带信号的频谱(低频频谱)和高 频频谱之间的谐波关系。
[0017] 为了解决该问题,G. 718-SWB的结构包括正弦波模式。正弦波模式使用正弦波对 重要的单音分量进行编码,因此维持了良好的谐波结构。然而,存在以下问题,即若根据人 工的单音信号简单地对SWB分量进行编码,则作为结果所获得的声音质量未必足够好。
[0018] 解决问题的方案
[0019] 本发明的目的在于改善上述遗传模式所拥有的对于具有高次谐波(谐波)的信号 的编码性能,本发明提供用于维持频谱的微细(fine)结构,并且维持低频频谱与复制出的 高频频谱之间的单音分量的谐波结构的高效方法。首先,通过从WB频谱来估计高次谐波频 率的值,由此,获得低频频谱的单音分量和高频频谱的单音分量之间的关系。其次,对在编 码装置侧编码的低频频谱进行解码,根据索引信息,对与高频频谱的子带之间的相关性最 高的部分进行能量级别调整之后,将其复制到高频带中,由此复制高频频谱。基于估计出的 高次谐波频率的值,确定或调整复制出的高频频谱中的单音分量的频率。
[0020] 低频频谱的单音分量和复制出的高频频谱的单音分量之间的谐波关系,仅在高次 谐波频率的估计为准确的情况下得到维持。因此,为了提高估计精度,在估计高次谐波频率 之前,对构成单音分量的频谱峰值进行修正。
[0021] 发明的效果
[0022] 根据本发明,特别地对于具有谐波结构的输入信号,能够准确地复制通过频带扩 展所重构的高频频谱中的单音分量,从而能够以低比特率高效地获得良好的声音质量。
【附图说明】
[0023] 图1是表示G. 718-SWB编码装置的结构的图。
[0024] 图2是表示G. 718-SWB解码装置的结构的图。
[0025] 图3是表示本发明实施方式1的编码装置的结构的方框图。
[0026] 图4是表示本发明实施方式1的解码装置的结构的方框图。
[0027] 图5是表示频谱峰值检测的修正方法的图。
[0028] 图6是表示高次谐波频率调整方法的一例的图。
[0029]图7是表示高次谐波频率调整方法的其他例子的图。
[0030] 图8是表示本发明实施方式2的编码装置的结构的方框图。
[0031] 图9是表示本发明实施方式2的解码装置的结构的方框图。
[0032] 图10是表示本发明实施方式3的编码装置的结构的方框图。
[0033] 图11是表示本发明实施方式3的解码装置的结构的方框图。
[0034] 图12是表示本发明实施方式4的解码装置的结构的方框图。
[0035] 图13是表示对于合成出的低频频谱的高次谐波频率调整方法的一例的图。
[0036] 图14是表示对合成出的低频频谱注入缺失的高次谐波的近似方法的一例的图。
【具体实施方式】
[0037] 使用图3~图14将本发明的主要原理记载于该部分。本领域技术人员能够在不 脱离本发明宗旨的范围内,变更或修正本发明。
[0038](实施方式1)
[0039] 本发明的编解码器的结构表示于图3和图4。
[0040] 在图3所示的编码装置侧,采样后的输入信号首先被下采样(301)。下采样后的低 频带的信号(低频信号)由核心编码单元进行编码(302)。核心编码参数被发送至复用单 元(307)以形成比特流。另外,输入信号由时间-频率(T/F)转换单元(303)转换为高频 带信号,该高频带信号(高频信号)被分割为多个子带。编码单元也可以是现有的窄带或 宽带的音频或声音编解码器,可列举G. 718作为一例。核心编码单元(302)不仅进行编码, 还包括本地解码单元及时间-频率转换单元,进行本地解码,对解码后的信号(合成信号) 进行时间-频率转换,向能量标准化单元(304)供应合成低频信号。标准化后的频
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1