专利名称:对话增强技术的制作方法
技术领域:
本专利申请的主题内容一般涉及信号处理。
背景技术:
音频增强技术在家庭娱乐系统、立体声以及其他消费电子设备中经常被用 来增强低音频率,并且模拟各种收听环境(例如音乐厅)。 一些技术企图通过 例如添加更多的高频率来使电影对话更清晰。然而,这些技术中没有一个解决 相对于周围环境和其他分量信号增强对话的问题。
发明内容
多声道音频信号(例如,立体声音频)被处理成相对于周围环境分量信号 (例如,反射或混响声音)以及其他分量信号修改语音分量信号(例如,电影中演员说的对话)的增益(例如,音量或响度)。在一个方面,语音分量信号被标 识并修改。在一个方面,语音分量信号通过假设语音源(例如,演员当前的说 话)在多声道音频信号的立体声声像的中心、并且通过考虑语音分量信号的频 谱内容来标识。
公开了包括涉及方法、系统和计算机可读介质的实现的其他实现。 附图描述
图1是用于对话增强技术的混音模型的框图。
图2是示出使用时间一频率方块分解立体声信号的图形。
图3A是用于为在声像的中心的对话计算作为分解增益因数的函数的增益 的函数的图形。
图3B是用于为不在中心的对话计算作为分解增益系数的函数的增益的函 数的图形。
图4是示例对话增强系统的框图。 图5是示例对话增强过程的流程图。
图6是用于实现参考图1-5所述的特征和过程的数字电视系统的框图。
详细描述 对话增强技术
图1是用于对话增强技术的混音模型100的框图。在该模型100中,收听 者从左和右声道接收音频信号。音频信号s与来自由因数a确定的方向的定域 声音(localized sound)相对应。独立的音频信号",和"2与经常称为环境声或周
围环境的横向反射或混响声音相对应。立体声信号可被记录或混音,以使针对 给定音频源,该源音频信号相干地进入具有具体方向提示(例如电平差、时间 差)的左和右音频信号声道,并且横向反射或混响的独立信号",和 进入确定 听觉事件广度和收听者环绕提示的声道。模型100可数学地表示为具有捕捉音
频源和周围环境的定位的一个音频源的立体声信号的知觉推动分解。
A(")"(") + "i(") p]
为获得在具有多个同时发生的有效音频源的非固定情况中有效的分解,[1]
6[2]
的分解可在多个频带内独立地且适应时间地执行。
W,"二邓,A:) + iV,(a)
其中i是子频带指数,而k是子频带时间指数。
图2是示出使用时间一频率方块的立体声信号的分解的图形。在具有指数 i和k的每一个时间一频率方块200中,信号S、 N,、 N2和分解增益因数A可 被独立地估算。为了简洁标记起见,子频带和时间指数i和k在以下描述中被 忽略。
当使用具有知觉推动子频带带宽的子频带分解时,子频带的带宽可被选择 成等于一个关键频带。S、 M、 W和J可在每个子频带中、每隔t毫秒(例如
20ms)被近似估算。为了低的计算复杂性,短时傅立叶变换(STFT)可被用 来实现快速傅立叶变换(FFT)。给定立体声子频带信号《和义2,可确定S、 ^、 ^、 W的估计。X,的功率的短时估计可表示为
尸"(/," = 4^2(/,4 [3] 其中E(.)是短时求平均运算。对于其他信号,可使用相同的约定,即^2、 尸,以及A-i^-P^是相应的短时功率估计。M和W的功率被假设为相同,即
假设横向独立声音的量对于左和右声道是相同的。 估算A、 ^和^
给定立体声信号的子频带表示,可确定功率(Fxl、 和归一化的互相
关性。左和右声道之间的归一化的互相关性是
^、 A、 ^可计算为估算的^、尸m和cD的函数。
-水
与已知和未知变
:有关的等式为:
尸;n =尸s +尸w
尸"=」尸s +尸w
0 =
方程式[5]可求出A、 A以及A,以获得
丄<formula>formula see original document page 8</formula>
S、 M以及i^的最小二乘估计
接着,S、 iV,以及^的最小二乘估计被计算为^、尸,以及P^的函数。对
于每个i和k,信号s可被估算为
二w,(S + A^) + W2(^S + iV2), 其中W和^是实值权重。估算误差是
五=(1 _ w! _ W2爿)5" — wiV! _ w2iV2 在误差E与X,和^[6]正交时,即
:乘意义上是最佳的。
禾又重w,和m^在最小: 获得两个方程式
从中算得权重,
<formula>formula see original document page 8</formula>M的估计可以是
13(S + A^) + w4(^S + iV2)
估计误差是
<formula>formula see original document page 8</formula><formula>formula see original document page 9</formula>[15]
用于计算A^的最小二乘估计
<formula>formula see original document page 9</formula>[16]
的权重为
<formula>formula see original document page 9</formula>[17]
后置按比例扩缩(post-scaling) S、 A、 S2
在一些实现中,最小二乘估计可以后置按比例扩缩,以使估计的功率与P, 和^^i^-i^相等。S的功率是
因而,为了获得具有功率A的s的估计,S被按置比例扩縮
+ "W2)A + + O尸w 使用类似的推论,A和^按比例扩縮
<formula>formula see original document page 9</formula>[18]
间
<formula>formula see original document page 9</formula>
见
05 + ,6) & + O5 + W6 )4 立体声信号合成
给定先前描述的信号分解,与原始立体声信号类似的信号可通过在每一次
且针对每一个子频带应用[2]并将子频带变换回时域来获得。 为了生成具有经修改的对话增益的信号,子频带被计算为
r2(Z 10 20 X(U)S(/,A;) + iV2(/,"其中g(i,k)是被计算以使对话增益被按需修改的以dB为单位的增益因数。 有几种推动如何计算g(i,k)的观察-
通常对话在声像的中心,即在属于对话的时间A和频率/的分量信号将 具有接近一 (0dB)的相应的分解增益因数J(/,"。
语音信号包含多数高达4kHz的能量。8 kHz以上的语音实际上不包含能量。
语音通常也不包含非常低的频率(例如低于约70Hz)。 这些观察暗示g(a)在非常低的频率以及8 kHz以上被设置为0 dB,以潜 在地尽可能小地修改立体声信号。在其他频率,g(/,/t)被控制为所需对话增益(^
和^(/,A:)的函数
= [22]
适当的函数f的示例在图3A中示出。注意在图3A中,f与A(i,k)之间的 关系使用对数(犯)比例绘出,但是^4(a)以及/可另外以线性比例定义。针 对/的具体示例是
<formula>formula see original document page 10</formula>
其中W确定函数f的增益区的宽度,如图3A所示。常数W与对话增益 的方向灵敏性有关。例如W=6 dB的值给多数信号以好的结果。但是注意对 于不同的信号,不同的W可以是最佳的。
由于广播或接收设备差的校准(例如左和右声道有不同的增益),对话可 能不是精确地在中心出现。在此情况下,函数/可被偏移,以使其中心与对话 位置相对应。被经偏移的函数/的示例在图3B中示出。
替换实现和一般化
基于中心假设(或者通常的位置假设)和语音的频谱范围的对话分量信号 的标识在许多情况中是简单且适用的。然而,对话标识可被修改并潜在地改进。 一种可能是探索诸如共振峰、谐波结构、瞬变现象之类的更多的语音特征以检 测对话分量信号。
如所提及地,对于不同的音频材料,不同形状的增益函数(例如图3A和 3B)可能是最佳的。因而,可使用信号自适应增益函数。
对话增益控制还可针对具有环绕声音的家庭影院系统来实现。对话增益控制的一个重要方面是检测对话是否在中心声道。 一种实行这个的方法是检测中 心是否具有充足的信号能量,使得对话有可能在中心声道中。如果对话在中心
声道中,则增益可被添加到中心声道以控制对话音量。如果对话不在中心声道 中(例如,如果环绕系统回放立体声内容),则可参考图1-3如先前所描述地 施加两声道对话增益控制。
在一些实现中,所公开的对话增强技术可通过衰减除语音分量信号以外的 信号来实现。例如,多声道音频信号可包括语音分量信号(例如,对话信号) 以及其他分量信号(例如,混响)。其他分量信号可基于语音分量信号在多声 道音频信号的声像中的位置而被修改(例如,被衰减),且语音分量信号可保 持不变。
对话增强系统
图4是示例对话增强系统400的框图。在一些实现中,系统400包括分析 滤波器组402、功率估计器404、信号估计器406、后置按比例扩縮模块408、 信号合成模块410以及合成滤波器组412。虽然系统400的组件402-412示为 单独的过程,但是两个或多个组件的过程可组合到单个组件中。
对于每个时间k,多声道信号通过分析滤波器组402成为子频带信号i。 在所示示例中,立体声信号的左和右声道;c,(w)、 &( )被分析滤波器组402被 分解成i子频带X,(/," 、 X2(/,"。功率估计器404生成先前已参考图1禾n 2描 述的A、 2以及A的功率估计。信号估计器406从功率估计生成估计信号S、 A、以及A。后置按比例扩缩模块408按比例扩縮信号估计以提供》、A以 及A 。信号合成模块410接收后置按比例扩缩信号估计以及分解增益因数A、 常数W和所需对话增益&,并且合成输入到合成滤波器组412的左和右子频
带信号估计《a"以及《a"以提供具有基于C^修改的对话增益的左和右时域
信号;(")和^(")。 对话增强过程
图5是示例对话增强过程500的流程图。在一些实现中,过程500通过将 多声道音频信号分解成频率子频带信号(502)开始。分解可通过使用各种已 知变换的滤波器组来执行,这些变换包括但不限于多相滤波器组、正交镜像 滤波器组(QMF)、混合滤波器组、离散傅立叶变换(DFT)、修正离散余弦变换(MDCT)。
使用子频带信号估计音频信号的两个或更多个声道的第一组功率(504)。 使用该第一组功率确定互相关性(506)。使用第一组功率和互相关性估计分 解增益因数(508)。分解增益因数为声像中的对话源提供位置提示。使用第 一组功率和互相关性估计语音分量信号和周围环境分量信号的第二组功率
(510)。使用第二组功率和分解增益因数估计语音和周围环境分量信号(512)。 估计的语音和周围环境分量信号被后置按比例扩縮(514)。使用经后置按比 例扩縮的估计的语音和周围环境分量信号以及所需对话增益合成具有修改的 对话增益的子频带信号(516)。所需对话增益可自动设置或由用户指定。合 成的子频带信号使用例如合成滤波器组被变换成具有修改对话增益的时域音 频信号(512)。
用于背景抑制的输出归一化
在一些实现中,期望抑制背景场面的音频而非增强对话信号。这可通过归 一化具有对话增益的对话增强输出信号实现。归一化可按至少两种不同的方式
执行。在一个示例中,输出信号《(/,"和《(/,"可通过归一化因数^卿归一化
另一示例,对话增强效果通过使用具有g",的权重^ -^归一化来补偿。
归一化因数g"。^可采用与修改的对话增益10^相同的值。
为了最大化知觉品质,可修改&_。归一化可既在频域又在时域中执行。
当在频域中执行时,均一化可针对施加对话增益的例如70 Hz与8 KHz之间的 频带执行。
替换地,类似的结果可实现为在不将增益施加到s(a)时衰减^(a)和
iV2(/,"。此概念可使用以下方程式描述
<formula>formula see original document page 12</formula>基于单声道检测使用单独对话音量当输入信号《(/,"和义2(/,。基本类似时,例如输入是类似单声道信号, 则输入的几乎每一个部分可被视为S,并且当用户提供所需对话增益时,所需 对话增益增大信号的音量。为防止这种情况,期望使用单独的对话音量(SDV) 技术来观察输入信号的特性。
在[4]中,计算立体声信号的归一化的互相关性。该归一化的互相关性可 被用作单声道信号检测的度量。当[4]中的(P超过给定阈值时,输入信号可被认 作单声道信号,并且单独的对话音量可被自动关闭。相反,当①小于给定阈值 时,输入信号可被认作立体声信号,并且单独的对话音量可被自动打开。对话 增益可针对单独的对话音量用作算法开关
;(a):i,对于^〉^闘。,
^ |26J
此外,当p在7V,。与77^^。之间时,;(a)可表示为p的函数
= /W,g(a)),对于7V画。> 0 > 77zW [27] 一个示例是将针对;(/,W的反比例加权施加到p为
g(a) = ^—"!^。"。
g(a),对于 K, > -> 7K_. [28]
7 — ^ W&咖
为了防止;(/,W的突变,时间平滑技术可被结合以获得 数字电视系统示例
图6是用于实现参考图l-5所述的特征和过程的示例数字电视系统600的 框图。数字电视(DTV)是借助于数字信号广播和接收运动画面和声音的电信 系统。DTV采用数字调制数据,其被数字压縮且需要通过专门设计的电视机 或带有机顶盒的标准接收机或装有电视卡的PC来解码。尽管图6中的系统是 DTV系统,但用于对话增强的所公开实现也可应用于模拟TV系统或任何能够 对话增强的其他系统。
在某些实现中,系统600可包括接口 602、解调器604、解码器606和音 频/视频输出608、用户输入接口610、 一个或多个处理器612 (例如,Intel⑧处 理器)和一个或多个计算机可读介质614 (例如,RAM、 ROM、 SDRAM、硬 盘、光盘、闪存、SAN等)。这些组件各自耦合到一个或多个通信信道616 (例 如,总线)。在某些实现中,接口 602包括用于获取音频信号或组合的音频/视频信号的各种电路。例如,在模拟电视系统中,接口可包括天线电子设备、 调谐器或混频器、射频(RF)放大器、本机振荡器、中频(IF)放大器、 一个
或多个滤波器、解调器、音频放大器等。系统600的其他实现是可能的,包括
带有更多或更小组件的实现。
调谐器602可以是用于接收包括视频和音频内容的数字电视信号的DTV 调谐器。解调器604从数字电视信号中提取视频和音频信号。如果视频和音频 信号被编码(例如,MPEG编码),则解码器606解码这些信号。A/V输出可 以是能够显示视频和播放音频的任何设备(例如,TV显示器、计算机监视器、 LCD、扬声器、音频系统)。
在一些实现中,可例如使用遥控器上的显示设备或者在屏幕上的显示 (OSD)向用户显示对话音量级。对话音量级可相对于主音量级。 一个或多个 图形对象可用来显示对话音量级、以及相对于主音量的对话音量级。例如,第 一图形对象(例如,条)可显示用来指示主音量,且第二图形对象(例如,线) 可与第一图形对象一起显示或组合在第一图形对象上以指示对话音量级。
在一些实现中,用户输入接口可包括用于接收并解码由遥控器生成的红外 或无线信号的电路(例如,无线或红外接收器)和/或软件。遥控器可包括单独 的对话音量控制键或按钮、或者用于改变主音量控制键或按钮的状态的单独的 对话音量控制选择键,以使主音量控件可被用来控制主音量或单独的对话音 量。在一些实现中,对话音量或主音量键可改变其可视外观以指示其功能。
示例控制器和用户接口在美国专利申请No._、题为"Controller and
User Interface For Dialogue Enhancement Techniques"(用于对话增强技术的控 制器和用户接口) 、 2007年9月14日提交的、律师案号为No. 19819- 160001 中描述,该专利申请通过引用完整结合于此。
在一些实现中, 一个或多个处理器可执行存储于计算机可读介质614中的 代码,以实现如参照图1-5所描述的特征和操作618、 620、 622、 624、 626、 628、 630和632。
计算机可读介质还包括操作系统618、分析/合成滤波器组620、功率估计 器622、信号估计器624、后置按比例扩縮模块626以及信号合成器628。术语 "计算机可读介质"表示参与向处理器612提供指令以供执行的任何介质,包括但不限于非易失性介质(例如光盘或磁盘)、易失性介质(例如存储器)和 传输介质。传输介质包括但不限于,同轴电缆、铜线和光纤。传输介质也以声、 光或射频电波的形式出现。
操作系统618可以是多用户、多处理、多任务、多线程、实时等。操作系 统618执行基本任务,包括但不限于识别来自用户输入接口 610的输入;保 持跟踪并管理计算机可读介质614 (例如存储器或存储设备)上的文件和目录; 控制外围设备;以及管理一个或多个通信信道616上的通信量。
上述特征可有利地实现为可在可编程系统上执行的一个或多个计算机程 序,该可编程系统包括至少一个可编程处理器,其被耦合以从数据存储系统 接收数据和指令,并将数据和指令发送到数据存储系统;至少一个输入设备; 以及至少一个输出设备。计算机程序是一组指令,该组指令可在计算机中直接 或间接地使用以执行一定的活动或产生一定的结果。计算机程序能够以包括编 译或解释语言的任何形式的编程语言(例如,Objective-C(面向对象的C语言)、 Java)来编写,且它能够以任何形式使用,包括作为独立程序或作为模块、组 件、子例程或适合在计算环境中使用的其他单元。
用于执行指令程序的适当处理器包括作为示例的通用和专用微处理器和 任何类型的计算机的单处理器或多处理器或多核之一。 一般而言,处理器将从 只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用 于执行指令的处理器和用于存储指令和数据的一个或多个存储器。 一般而言, 计算机还包括用于存储数据文件的一个或多个大容量存储设备,或有效地耦合 以与这些设备通信;这种设备包括诸如内部磁盘和可移动盘的磁盘;磁光盘; 以及光盘。适用于有形地表达计算机程序指令和数据的存储设备包括所有形式 的非易失性存储器,包括作为示例的诸如EPROM、 EEPROM和闪存设备的半 导体存储设备;诸如内部硬盘和可移动盘的磁盘;磁光盘;以及CD-ROM和 DVD-ROM盘。处理器和存储器可由ASIC(专用集成电路)补充或结合到ASIC 中。
为了提供与用户的交互,可在具有诸如用于向用户显示信息的CRT (阴 极射线管)或LCD (液晶显示器)监视器之类的显示设备与用户可通过它向计 算机提供输入的诸如鼠标或跟踪球的键盘和定位设备的计算机上实现特征。可在包括诸如数据服务器的后端组件的计算机系统中,或在包括诸如应用 服务器或因特网服务器的中间件组件的计算机系统中,或在包括诸如具有图形 用户界面或因特网浏览器的客户计算机的前端组件的计算机系统中,或其组合 中,实现这些特征。系统的组件可通过诸如通信网络的任何形式或介质的数字
数据通信来连接。通信网络的示例包括例如LAN、 WAN和构成因特网的计算
机和网络。
计算机系统可包括客户机和服务器。客户机和服务器一般相距甚远且通常 通过网络交互。客户机和服务器的关系根据在相应计算机上运行的且彼此具有 客户机一服务器关系的计算机程序来产生。
已经描述多个实现。然而,将理解可进行各种修改。例如,可组合、删除、 修改或补充一个或多个实现的要素以形成进一步的实现。作为又一个示例,在 附图中描述的逻辑流程并非必需所示的特定顺序或连续顺序来实现所要求的 结果。此外,可提供其他步骤,或可从所述流程中去除步骤,并将其他组件添 加到所述系统,或从所述系统去除其它组件。因此,其他实现在以下权利要求 的范围内。
权利要求
1.一种方法,包括获得包括语音分量信号和其他分量信号的多声道音频信号;以及基于所述音频信号的声像中的所述语音分量信号的位置修改所述语音分量信号。
2. 如权利要求1所述的方法,其特征在于,修改还包括基于所述语音分量信号的频谱内容修改所述语音分量信号。
3. 如权利要求1或2所述的方法,其特征在于,所述修改还包括 确定所述声像中的所述语音分量信号的位置;以及 将增益因数施加到所述语音分量信号。
4. 如权利要求3所述的方法,其特征在于,所述增益因数是所述语音分 量信号的所述位置以及用于所述语音分量信号的所需增益的函数。
5. 如权利要求4所述的方法,其特征在于,所述函数是具有与所述增益 因数的方向敏感性有关的增益区的信号自适应增益函数。
6. 如上述权利要求中任一项所述的方法,其特征在于,所述修改还包括 在时域或频域中使用归一化因数归一化所述多声道音频信号。
7. 如上述权利要求中任一项所述的方法,其特征在于,还包括 确定所述音频信号实质上是否是单声道的;以及如果所述音频信号实质上不是单声道的,则自动修改所述语音分量信号。
8. 如权利要求7所述的方法,其特征在于,确定所述音频信号实质上是 否是单声道的还包括确定所述音频信号的两个或更多个声道之间的互相关性;以及 将所述互相关性与一个或多个阈值相比较;以及 基于所述比较的结果确定所述音频信号实质上是否是单声道。
9. 如上述权利要求中任一项所述的方法,其特征在于,修改还包括 将所述音频信号分解成多个频率子频带信号;使用所述子频带信号估计所述多声道音频信号的两个或更多个声道的第 一组功率;使用所述第一组估计的功率确定互相关性; 使用所述第一组估计的功率和互相关性估计分解增益因数。
10. 如权利要求9所述的方法,其特征在于,至少一个子频带的带宽被选择成与人类听觉系统的一个关键频带相等。
11. 如权利要求8所述的方法,其特征在于,包括从所述第一组功率和所述互相关性估计所述语音分量信号和周围环境分 量信号的第二组功率。
12. 如权利要求ll所述的方法,其特征在于,还包括使用所述第二组功率和所述分解增益因数估计所述语音分量信号和所述 周围环境分量信号。
13. 如权利要求12所述的方法,其特征在于,使用最小二乘估计确定所估计的语音和周围环境分量信号。
14. 如权利要求12所述的方法,其特征在于,所述互相关性被归一化。
15. 如权利要求13或14所述的方法,其特征在于,所估计的语音分量信 号和所估计的周围环境分量信号被后置按比例扩縮。
16. 如权利要求11至15中任一项所述的方法,其特征在于,还包括 使用所估计的第二功率和用户指定增益合成子频带信号。
17. 如权利要求16所述的方法,其特征在于,还包括将所合成的子频带信号变换成具有用所述用户指定的增益修改的语音分 量信号的时域音频信号。
18. —种方法,包括 获得音频信号;获得指定所述音频信号的第一分量信号的修改的用户输入;以及 基于所述输入和所述音频信号的声像中的所述第一分量信号的位置提示 修改所述第一分量信号。
19. 如权利要求18所述的方法,其特征在于,所述修改还包括 将增益因数施加到所述第一分量信号。
20. 如权利要求19所述的方法,其特征在于,所述增益因数是所述第一 分量信号的所述位置提示和所需增益的函数。
21. 如权利要求20所述的方法,其特征在于,所述函数具有与所述增益 因数的方向敏感性有关的增益区。
22. 如权利要求18至21中任一项所述的方法,其特征在于,所述修改还包括在时域或频域中使用归一化因数归一化所述音频信号。
23. 如权利要求18至22中任一项所述的方法,其特征在于,所述修改还 包括将所述音频信号分解成多个频率子频带信号;使用所述子频带信号估计所述音频信号的两个或多个声道的第一组功率;使用所述第一组功率确定互相关性;使用所述第一组功率和互相关性估计分解增益因数;从所述第一组功率和所述互相关性估计所述第一分量信号和第二分量信 号的第二组功率;使用所述第二组功率和所述分解增益因数估计所述第一分量信号和所述 第二分量信号;使用所估计的第一和第二分量信号和所述输入合成子频带信号;以及 将所合成的子频带信号变换成具有修改的第一分量信号的时域音频信号。
24. —种系统,包括接口,所述接口可配置用于获得包括语音分量信号和其他分量信号的多声 道音频信号;以及处理器,所述处理器耦合到所述接口、并且可配置成基于所述音频信号的 声像中的所述语音分量信号的位置修改所述语音分量信号。
25. —种方法,包括获得包括语音分量信号和其他分量信号的多声道音频信号;以及 基于所述多声道音频信号的声像中的所述语音分量信号的位置修改所述 其他分量信号。
全文摘要
多声道音频信号(例如立体声音频)被处理成相对于周围环境分量信号(例如反射或混响声音)或其他分量信号修改语音分量信号(例如电影中演员说的对话)的增益(例如音量或响度)。在一个方面,语音分量信号被标识并修改。在一个方面,语音分量信号通过假设语音源(例如演员当前说话)在多声道音频信号的立体声声像的中心、并且通过考虑语音分量信号的频谱内容来标识。
文档编号G10L19/00GK101518100SQ200780034351
公开日2009年8月26日 申请日期2007年9月14日 优先权日2006年9月14日
发明者C·法勒, 吴贤午, 郑亮源 申请人:Lg电子株式会社