信号处理设备、信号处理方法和程序的制作方法

文档序号:7624723阅读:94来源:国知局
专利名称:信号处理设备、信号处理方法和程序的制作方法
技术领域
本发明涉及信号处理设备、信号处理方法和程序,更具体地,涉及可以根据视频的深度感提供声场感的信号处理设备、信号处理方法和程序。
背景技术
在视频领域中,所谓的立体视频在未来很可能被广泛用作家用内容。因此,预期伴随视频的声音具有深度感。已尝试从作为立体视频构成要素的用于右眼的视频与用于左眼的视频的差异信息中提取与视频的各个位置相关的深度信息。此外,例如,内容制作者嵌入了用于向内容提供深度信息的元信息。因此,可以根据除了声音信息之外的信息来参考深度信息(日本未审专利申请公布2000-50400)。然而,目前,伴随这种视频的声音具有5. 1声道(ch)或立体声格式,相对现有技术并无改变。此外,在许多情况下,声场图像基本上与视频的深度或投影无关。这主要是因为许多内容都是为影院电影而制作的,用于向非特定听众放映电影。因此,在目前的再现系统中,并不容易对声音(伴随视频的声音,例如中心声音(center sound))提供深度感,因此, 在用于声音布置的位置处仅组合彼此相邻的再现扬声器。

发明内容
当在家再现这种内容时,较不必要允许许多非特定听众同时观看电影。因此,认为如果立体视频和声音通过允许听众感觉到声音的深度感的后续处理而相互混合,则非特定听众更有可能沉浸到电影中。在这样的环境下,目前有必要允许伴随视频的声音具有深度感。鉴于上述,期望根据视频的深度感提供声场感。根据本发明的实施例,提供了一种信号处理设备,包括音像定位处理装置,用于基于用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对该声音信号的各个声道执行音像定位处理;以及混合装置,用于对经过了由音像定位处理装置进行的音像定位处理的相应声道的声音信号进行混合。该用于确定音像定位位置的信息可以是与用于音像定位的预定位置的权重相关的信息。该信号处理设备还可包括存储装置,用于存储该用于确定各个频段的音像定位位置的信息,其中音像定位处理装置基于存储在存储装置中的该用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对该声音信号的各个声道执行音像定位处理。该信号处理设备还可包括提取装置,用于提取被复用在声音信号中的该用于确定各个频段的音像定位位置的信息,其中音像定位处理装置基于提取装置提取的该用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对该声音信号的各个声道执行音像定位处理。
该信号处理设备还可包括分析装置,用于根据与声音信号相对应的图像信号中的视差信息分析该用于确定各个频段的音像定位位置的信息,其中音像定位处理装置基于分析装置分析的该用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对该声音信号的各个声道执行音像定位处理。根据本发明的另一实施例,提供了一种信号处理设备的信号处理方法,该信号处理设备包括音像定位处理装置和混合装置。该信号处理方法可包括以下步骤由音像定位处理装置基于用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对该声音信号的各个声道执行音像定位处理;以及由混合装置对经过了音像定位处理装置进行的音像定位处理的相应声道的声音信号进行混合。根据本发明的又一实施例,提供了一种程序,该程序使得计算机用作音像定位处理装置,用于基于用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对该声音信号的各个声道执行音像定位处理;以及混合装置,用于对经过了音像定位处理装置进行的音像定位处理的相应声道的声音信号进行混合。根据本发明的又一实施例,基于用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对该声音信号的各个声道执行音像定位处理;以及将经过了由音像定位处理单元执行的音像定位处理的相应声道的声音信号相互混合。上述信号处理设备可以是独立设备,或者可以是一个信号处理设备的内部模块。根据本发明的实施例,可以根据视频的深度感提供声场感。


图1是示出根据本发明第一实施例的信号处理设备的配置的框图。图2是示出深度控制处理单元的示例性配置的框图。图3是示出图1所示的信号处理设备的信号处理的流程图。图4是示出深度控制处理单元的另一示例性配置的框图。图5是示出深度控制信息的示例的图。图6是示出图1所示的信号处理设备的在图4所示的深度控制处理单元中的信号处理的流程图。图7是示出根据本发明第二实施例的信号处理设备的配置的框图。图8是示出计算机的示例性硬件配置的框图。
具体实施例在下文中,将参照附图描述本发明的实施例。信号处理设备的示例性配置图1是示出根据本发明第一实施例的信号处理设备的配置的图。图1中的信号处理设备11通过以下方式来通过音像合成方法执行深度控制处理 例如针对5. Ich (声道)中的各个FL (前左)声道、FR(前右)声道、FC (前中)声道而将固定位置近距离定位虚拟音源和固定位置远距离虚拟音源与真实音源相混合。深度控制处理是参照真实音源(再现扬声器)的位置来定位音像以接近于听众(近距离定位)或定位音像以远离听众(远距离定位)的处理。
信号处理设备11包括深度信息提取单元21、深度控制处理单元22-1至22_3、混合(Mix)单元23和再现扬声器M-I至M-3。来自前阶段(未示出)的FLch(前左声道)声音信号、FCch(前中声道)声音信号和FRch (前右声道)声音信号分别被输入到深度信息提取单元21和深度控制处理单元 22-1 至 22-3。深度信息提取单元21分别从FLch声音信号、FCch声音信号和FRch声音信号中提取由内容制作者预先复用(multiplex)的各FLch深度信息、FCch深度信息、FRch深度信息,并将FLch深度信息、FCch深度信息、FRch深度信息分别提供到深度控制处理单元22_1 至 22-3。深度控制处理单元22-1基于来自深度信息提取单元21的FLch深度信息对FLch 声音信号执行深度控制处理。深度控制处理单元22-1将针对FLch声音信号的深度控制处理结果的FL扬声器输出声音信号、FC扬声器输出声音信号和FR扬声器输出声音信号输出到混合单元23。深度控制处理单元22-2基于来自深度信息提取单元21的FCch深度信息对FCch 声音信号执行深度控制处理。深度控制处理单元22-2将针对FCch声音信号的深度控制处理结果的FL扬声器输出声音信号、FC扬声器输出声音信号和FR扬声器输出声音信号输出到混合单元23。深度控制处理单元22-3基于来自深度信息提取单元21的FRch深度信息对FRch 声音信号执行深度控制处理。深度控制处理单元22-3将针对FRch声音信号的深度控制处理结果的FL扬声器输出声音信号、FC扬声器输出声音信号和FR扬声器输出声音信号输出到混合单元23。混合单元23针对各个扬声器而对来自深度控制处理单元22-1至22_3的相应的扬声器输出声音信号进行混合,并将混合后的扬声器输出声音信号分别输出到再现扬声器 24-1 至 24-3。再现扬声器M-I输出与来自混合单元23的FL扬声器输出声音信号相对应的声音。再现扬声器M-2输出与来自混合单元23的FC扬声器输出声音信号相对应的声音。再现扬声器M-3输出与来自混合单元23的FR扬声器输出声音信号相对应的声音。这里,关于该音像合成方法,在FLch的情况下,通过提供真实音源(再现扬声器 24-1)、FL远距离定位虚拟音源31-1和FL近距离定位虚拟音源32_1这三个音源之间的预定的等级平衡,在这些音源之间形成合成音像33-1。在图1的示例中,在再现扬声器M-I 与FL近距离定位虚拟音源32-1之间的大体中央处形成合成音像33-1。在FCch的情况下,通过在真实音源(再现扬声器M-2)、FC远距离定位虚拟音源 31-2和FC近距离定位虚拟音源32-2这三个音源之间提供预定的等级平衡,在这些音源之间形成合成音像33-2。在图1的示例中,在再现扬声器M-2与FC远距离定位虚拟音源 31-2之间在再现扬声器M-2附近形成合成音像33-2。在FRch的情况下,通过在真实音源(再现扬声器M-3)、FR远距离定位虚拟音源
31-3和FR近距离定位虚拟音源32-3这三个音源之间提供预定的等级平衡,在这些音源之间形成合成音像33-3。在图1的示例中,在再现扬声器M-3与FR近距离定位虚拟音源
32-3之间在再现扬声器M-3附近形成合成音像33-3。
这样,信号处理设备11执行深度控制处理,使得根据相应的声道深度信息中描述的音像而形成的合成音像33-1至33-3与再现的声音大致相互匹配。深度控制处理单元的示例性配置图2是示出对FRch声音信号执行深度控制处理的深度控制处理单元22-3的示例性配置的框图。深度控制处理单元22-3包括深度信息存储单元51、深度信息选择单元52、衰减器 53-1至53-3、固定位置远距离定位处理单元M、真实音源位置定位处理单元55、固定位置近距离定位处理单元56和混合单元57-1至57-3。深度信息存储单元51预先存储与各个音源位置相关的深度信息。深度信息选择单元52选择以下两者之一来自深度信息提取单元21的与各个音源位置相关的深度信息, 以及预先存储的深度信息。例如,当未从深度信息提取单元21提供深度信息时,深度信息选择单元52使用预先存储的固定深度信息,而当从深度信息提取单元21提供了深度信息时,深度信息选择单元52使用提供的深度信息。或者,可根据用户的设置选择深度信息。深度信息选择单元52将选择的深度信息提供到对应的衰减器53-1至53_3。在图2的示例中,深度信息描述针对衰减器53-1至53-3 (即,各个音源位置)的衰减量。此外,深度信息不限于衰减量,而是可描述针对混合单元57-1至57-3的混合比(Mix ratio)。在这种情况下,混合单元57-1至57_3使用该混合比执行混合。衰减器53-1是用于远距离定位音像位置的衰减器。衰减器53-1基于来自深度信息选择单元52的深度信息而对输入的FR声音信号进行衰减,并将衰减后的声音信号输出到固定位置远距离定位处理单元M。衰减器53-2是用于真实音像位置的衰减器。衰减器 53-2基于来自深度信息选择单元52的深度信息而对输入的FR声音信号进行衰减,并将衰减后的声音信号输出到真实音源位置定位处理单元55。衰减器53-3是用于近距离定位音像位置的衰减器。衰减器53-3基于来自深度信息选择单元52的深度信息而对输入的FR 声音信号进行衰减,并将衰减后的声音信号输出到固定位置近距离定位处理单元56。固定位置远距离定位处理单元M执行信号处理以形成FR远距离定位虚拟音源
31-3。固定位置远距离定位处理单元M将经处理的FL扬声器输出声音信号输出到混合单元57-1,将经处理的FC扬声器输出声音信号输出到混合单元57-2,并将经处理的FR扬声器输出声音信号输出到混合单元57-3。真实音源位置定位处理单元55执行信号处理以形成真实音源(再现扬声器 24-3)。真实音源位置定位处理单元55将经处理的FR扬声器输出声音信号输出到混合单元 57-3。固定位置近距离定位处理单元56执行信号处理以形成FR近距离定位虚拟音源
32-3。固定位置近距离定位处理单元56将经处理的FL扬声器输出声音信号输出到混合单元57-1,将经处理的FC扬声器输出声音信号输出到混合单元57-2,并将经处理的FR扬声器输出声音信号输出到混合单元57-3。由于真实音源位置定位处理单元55将真实音源作为处理对象进行处理,因此仅生成与输入的FR声音信号相对应的FR扬声器声音信号。相反地,在固定位置远距离定位处理单元M或固定位置近距离定位处理单元56中,为了形成FR远距离定位虚拟音源31-3 或FR近距离定位虚拟音源32-3,不仅需要生成与输入的FR声音信号相对应的FR扬声器声
7音信号,而且还要生成FC扬声器声音信号和FL扬声器声音信号。混合单元57-1对来自固定位置远距离定位处理单元M和固定位置近距离定位处理单元56的FL扬声器输出声音信号进行混合,并将混合后的FL扬声器输出声音信号输出到混合单元23。混合单元57-2对来自固定位置远距离定位处理单元M和固定位置近距离定位处理单元56的FC扬声器输出声音信号进行混合,并将混合后的FC扬声器输出声音信号输出到混合单元23。混合单元57-3对来自固定位置远距离定位处理单元M、真实音源位置定位处理单元55和固定位置近距离定位处理单元56的FR扬声器输出声音信号进行混合,并将混合后的FR扬声器输出声音信号输出到混合单元23。在图1所示的深度控制处理单元22-1和22-2的示例性配置中,将来自真实音源位置定位处理单元55的声音信号的输出目的地替换为混合单元57-1至57-3中对对应的声道扬声器输出声音信号进行混合的混合单元。即,其它配置与图2所示的深度控制处理单元22-3的示例性配置基本相同。在下文中,图2所示的深度控制处理单元22-3的配置将用作深度控制处理单元22-1和22-2的配置。信号处理的描述接下来,将参照图3的流程图描述图1所示的信号处理设备11的信号处理。来自前阶段(未示出)的FLch声音信号、FCch声音信号、FRch声音信号分别被输入到深度信息提取单元21以及深度控制处理单元22-1至22-3的衰减器53_1至53_3。在步骤Sl 1中,深度信息提取单元21分别从FLch声音信号、FCch声音信号和FRch 声音信号提取由内容制作者预先复用的相应的FLch深度信息、FCch深度信息和FRch深度信息。深度信息提取单元21将该深度信息提供给对应的深度控制处理单元22-1至22-3 的深度信息选择单元52。在步骤S12到步骤S16中,深度控制处理单元22-1至22_3执行信号处理。因此, 深度控制处理单元22-3 (FR信号处理)将被描述为代表示例。在步骤S12中,深度控制处理单元22-3的深度信息存储单元51读取存储的与各个音源位置相关的深度信息,并将读取的深度信息提供到深度信息选择单元52。在步骤S13中,深度信息选择单元52选择以下两者之一来自深度信息提取单元 21的与各个音源位置相关的深度信息,以及预先存储的深度信息。深度信息选择单元52将选择的深度信息提供到对应的衰减器53-1至53-3。在步骤S14中,衰减器53-1至53-3基于来自深度信息选择单元52的深度信息对输入的FR声音信号进行衰减。衰减器53-1将衰减后的声音信号输出到固定位置远距离定位处理单元M。衰减器53-2将衰减后的声音信号输出到真实音源位置定位处理单元55。 衰减器53-3将衰减后的声音信号输出到固定位置近距离定位处理单元56。在步骤S15中,固定位置远距离定位处理单元M、真实音源位置定位处理单元55、 固定位置近距离定位处理单元56各自执行与各个音源位置相对应的音像定位处理。具体地,固定位置远距离定位处理单元M执行信号处理以形成FR远距离定位虚拟音源31-3。固定位置远距离定位处理单元M将经处理的FL扬声器输出声音信号输出到混合单元57-1,将经处理的FC扬声器输出声音信号输出到混合单元57-2,并将经处理的 FR扬声器输出声音信号输出到混合单元57-3。
真实音源位置定位处理单元55执行信号处理以形成真实音源(再现扬声器 24-3)。真实音源位置定位处理单元55将经处理的FR扬声器输出声音信号输出到混合单元 57-3。固定位置近距离定位处理单元56执行信号处理以形成FR近距离定位虚拟音源 32-3。固定位置近距离定位处理单元56将经处理的FL扬声器输出声音信号输出到混合单元57-1,将经处理的FC扬声器输出声音信号输出到混合单元57-2,并将经处理的FR扬声器输出声音信号输出到混合单元57-3。在步骤S16中,混合单元57-1至57_3对经过了音像定位处理并从固定位置远距离定位处理单元M、真实音源位置定位处理单元55、固定位置近距离定位处理单元56中的至少一个提供的声音信号进行混合,并将混合后的声音信号输出到混合单元23。S卩,混合单元57-1对来自固定位置远距离定位处理单元M和固定位置近距离定位处理单元56的FL扬声器输出声音信号进行混合,然后将混合后的FL扬声器输出声音信号输出到混合单元23。混合单元57-2对来自固定位置远距离定位处理单元M和固定位置近距离定位处理单元56的FC扬声器输出声音信号进行混合,然后将混合后的FC扬声器输出声音信号输出到混合单元23。混合单元57-3对来自固定位置远距离定位处理单元M、真实音源位置定位处理单元55和固定位置近距离定位处理单元56的FR扬声器输出声音信号进行混合,然后将混合后的FR扬声器输出声音信号输出到混合单元23。在步骤S17中,混合单元23针对各个扬声器而对经过了深度控制处理并从相应的深度控制处理单元22-1至22-3提供的相应的扬声器输出声音信号进行混合。混合单元23 将混合后的扬声器输出声音信号分别输出到对应的再现扬声器M-I至对-3。再现扬声器M-I输出与来自混合单元23的FL扬声器输出声音信号相对应的声音。再现扬声器M-2输出与来自混合单元23的FC扬声器输出声音信号相对应的声音。再现扬声器M-3输出与来自混合单元23的FR扬声器输出声音信号相对应的声音。因此,在FLch的情况下,通过在真实音源(再现扬声器24-1)、FL远距离定位虚拟音源31-1和FL近距离定位虚拟音源32-1这三个音源之间提供预定的等级平衡,在这些音源之间形成合成音像33-1。在FCch的情况下,通过在真实音源(再现扬声器M_2)、FC远距离定位虚拟音源31-2和FC近距离定位虚拟音源32-2这三个音源之间提供预定的等级平衡,在这些音源之间形成合成音像33-2。在FRch的情况下,通过在真实音源(再现扬声器M-3)、FR远距离定位虚拟音源31-3和FR近距离定位虚拟音源32_3这三个音源之间提供预定的等级平衡,在这些音源之间形成合成音像33-3。如上所述,通过获取对应于各个声道的深度信息并基于该深度信息控制音源的位置,可以根据立体图像的深度感或内容制作者的意图而提供声场感。如上所述,信号处理设备11包括深度信息提取单元21、深度信息存储单元51和深度信息选择单元52。然而,可仅提供深度信息提取单元21或深度信息存储单元51。在这种情况下,因为不必提供深度信息选择单元52,因此可以不包括深度信息选择单元52。深度控制处理单元的示例性配置图4是示出对FRch声音信号执行深度控制处理的深度控制处理单元22-3的另一示例性配置的框图。
图4中的深度控制处理单元22-3与图2中的深度控制处理单元22_3的不同在于不包括深度信息存储单元51、深度信息选择单元52和衰减器53-1至53-3。此外,图4中的深度控制处理单元22-3与图2中的深度控制处理单元22-3的不同在于,添加了频段1 提取处理单元71-1、频段2提取处理单元71-2、…、频段η提取处理单元71-n以及混合单元 72-1 至 72-3。图4中的深度控制处理单元22-3与图2中的深度控制处理单元22_3的相同之处在于提供了固定位置远距离定位处理单元M、真实音源位置定位处理单元55、固定位置近距离定位处理单元56和混合单元57-1至57-3。来自深度信息提取单元21的对应的FRch深度信息被提供到频段1提取处理单元71-1、频段2提取处理单元71-2、…、频段η提取处理单元71_η以及混合单元72_1至 72-3。例如,深度信息包括诸如分割频段数目和各频段范围之类的控制频段信息、以及作为各个频段针对各个音源位置的权重的混合比。频段1提取处理单元71-1基于深度信息从输入的声音信号中提取频段1信号,并将提取的频段1声音信号提供到混合单元72-1至72-3。此外,频段2提取处理单元71_2 基于深度信息从输入的声音信号中提取频段2信号,并将提取的频段2声音信号提供到混合单元72-1至72-3。相似地,频段3提取处理单元71-3至频段η提取处理单元71_η分别基于深度信息从输入的声音信号中提取频段3信号至频段η信号,并将提取的频段3声音信号至频段η声音信号提供到混合单元72-1至72-3。S卩,在图4的示例中,声音信号的频段被分割为频段1至频段η,由η个频段提取处理单元71分别提取这η个频段。这里,满足 η彡1的关系。混合单元72-1将各个频段的声音信号乘以对应于深度信息的、与频段的远距离音源位置相对应的混合比,混合该声音信号,并将混合后的声音信号输出到固定位置远距离定位处理单元Μ。混合单元72-2将各个频段的声音信号乘以对应于深度信息的、与频段的真实音源位置相对应的混合比,混合该声音信号,并将混合后的声音信号输出到真实音源位置定位处理单元55。混合单元72-3将各个频段的声音信号乘以对应于深度信息的、与频段的近距离音源位置相对应的混合比,混合该声音信号,并将混合后的声音信号输出到固定位置近距离定位处理单元56。在深度控制处理单元22-1和22-2的示例性配置中,来自真实音源位置定位处理单元55的声音信号的输出目的地被替换为混合单元57-1至57-3中对于对应的声道扬声器输出声音信号进行混合的混合单元。即,其它配置与图4所示的深度控制处理单元22-3 的示例性配置基本相同。在下文中,图4所示的深度控制处理单元22-3的配置将用作深度控制处理单元22-1和22-2的配置。深度信息的示例图5是示出FRch深度信息的示例的图。图5所示的深度信息描述了混合比w,其是针对各个频段的各个音源位置的权重。例如,该深度信息描述了频段1的远距离虚拟音源位置的混合比w是0. 5,频段1 的真实音源位置的混合比w是0. 2,以及频段1的近距离虚拟音源位置的混合比w是0. 3。此外,该深度信息描述了频段2的远距离虚拟音源位置的混合比w是0,频段2的真实音源位置的混合比w是1,以及频段2的近距离虚拟音源位置的混合比w是0。此外,该深度信息描述了频段η的远距离虚拟音源位置的混合比w是0. 3,频段η的真实音源位置的混合比 w是0. 5,以及频段η的近距离虚拟音源位置的混合比w是0. 2。省略了频段3至频段η_1 的混合比的示例。尽管未在图5的示例中示出,但是该深度信息还描述了诸如分割频段数目和各频段范围之类的控制频段信息。信号处理的描述接下来,将参照图6的流程图描述图1所示的信号处理设备11的在图4所示的深度控制处理单元22-3中的信号处理。来自前阶段(未示出)的FLch声音信号、FCch声音信号、FRch声音信号分别被输入到深度信息提取单元21以及深度控制处理单元22-1至22-3的频段1提取处理单元 71-1、频段2提取处理单元71-2、…、频段η提取处理单元71_η。在步骤S71中,深度信息提取单元21分别从FLch声音信号、FCch声音信号和FRch 声音信号提取由内容制作者预先复用的相应的FLch深度信息、FCch深度信息和FRch深度信息。深度信息提取单元21将深度信息提供到深度控制处理单元22-1至22-3的频段1 提取处理单元71-1、频段2提取处理单元71-2、…、频段η提取处理单元71_η以及混合单元 72-1 至 72-3。在步骤S72至步骤S75中,深度控制处理单元22_1至22_3执行信号处理。因此, 深度控制处理单元22-3 (FR信号处理)将被描述作为代表示例。在步骤S72中,频段1提取处理单元71-1、频段2提取处理单元71_2、…、频段η 提取处理单元71-η基于诸如深度信息的分割频段数目和各频段范围之类的控制频段信息而分别从输入的声音信号提取对应的频段。频段1提取处理单元71-1、频段2提取处理单元71-2、…、频段η提取处理单元71-η均将提取的频段的声音信号输出到混合单元72_1 至 72-3。在步骤S73中,混合单元72-1至72_3根据深度信息中的权重来混合相应频段的声音信号。即,混合单元72-1至72-3将各频段的声音信号乘以对应于深度信息的、与频段的各个音源位置相对应的混合比,混合该声音信号,并将混合后的声音信号分别输出到对应的定位处理单元M至56。具体地,混合单元72-1将各频段的声音信号乘以对应于深度信息的、与频段的远距离音源位置相对应的混合比,混合该声音信号,并将混合后的声音信号输出到固定位置远距离定位处理单元Μ。混合单元72-2将各频段的声音信号乘以对应于深度信息的、与频段的真实音源位置相对应的混合比,混合该声音信号,并将混合后的声音信号输出到真实音源位置定位处理单元阳。混合单元72-3将各频段的声音信号乘以对应于深度信息的、与频段的近距离音源位置相对应的混合比,混合该声音信号,并将混合后的声音信号输出到固定位置近距离定位处理单元56。在步骤S74中,固定位置远距离定位处理单元Μ、真实音源位置定位处理单元55 和固定位置近距离定位处理单元56各自执行对应于各音源位置的音像定位处理。在步骤S75中,混合单元57-1至57_3混合已经过该音像定位处理并被从固定位
11置远距离定位处理单元M、真实音源位置定位处理单元55和固定位置近距离定位处理单元56中的至少一个提供的声音信号,并将混合后的声音信号输出到混合单元23。在步骤S76中,混合单元23针对各扬声器而混合已经过深度控制处理并被从相应的深度控制处理单元22-1至22-3提供的相应的扬声器输出声音信号。混合单元23将混合后的扬声器输出声音信号分别输出到对应的再现扬声器M-I至对-3。由于步骤S74至步骤S76的上述处理与参照图3描述的步骤S15至S17的处理基本相同,因此将不重复对具体处理的描述。因此,在图4的示例中,通过进一步针对各频段分割输入的声音信号,频段独立地受到深度控制。因此,例如,当人的语音(言语)和背景声音被与FCch声音信号相混合时,使用以真实音源定位人的语音的频段且以近距离或远距离定位其它频段的方法。当然,即使在频段被分割时,除了目标声音资料之外的声音资料通常相互重叠。因此,有必要选择并指定目标声音资料中的主频段。如上所述,控制频段信息被包括在深度信息中。可顺序地改变控制频段和音像位置。或者,可固定控制频段,并且例如可仅改变除了人的语音的频段之外的频段的音像位置。在后者的情况下,深度信息不必包括控制频段信息。可根据输入信号的主频段来固定深度位置,而不使用深度信息。此外,例如,可将输入信号的主频段固定为人的语音,并且可固定深度信息。信号处理设备的示例性配置图7是示出根据本发明第二实施例的信号处理设备的配置的图。图7所示的信号处理设备101与图1所示的信号处理设备11的相同之处在于包括深度信息提取单元21、深度控制处理单元22-1至22-3、混合(Mix)单元23和再现扬声器至对_3。在图7所示的信号处理设备101中,如图1所示的信号处理设备11中那样地使用音像合成方法。另一方面,图7所示的信号处理设备101与图1所示的信号处理设备11的不同在于添加了图像信息提取单元111和确定单元112。即,与输入到深度控制处理单元22-1至 22-3的声音信号相对应的图像信号被输入到图像信息提取单元111。图像信息提取单元111通过针对图像信号的立体信息分析视差信息来提取深度信息,该视差信息指示在与FL、FC和FR相对应的位置处在何处存在图像信息、以及是预先还是在之后投影图像信息。图像信息提取单元111将提取的深度信息提供到确定单元112。确定单元112对来自图像信息提取单元111的深度信息和由深度信息提取单元21 从声音信号中提取的深度信息进行比较。当这两种深度信息相互匹配时(当在很大程度上不存在差别时),将来自图像信息提取单元111的深度信息提供到深度信息提取单元21。当从确定单元112提供深度信息时,深度信息提取单元21将该深度信息连同所提取的深度信息一起提供到深度控制处理单元22-1至22-3。即,在这种情况下,来自图像信号的深度信息被用作辅助信息。在图7的示例中,提供了确定单元112。然而,可以不提供确定单元112。在这种情况下,深度信息提取单元21可使用从声音信号提取的深度信息,或者可使用从图像信号提取的深度信息。可根据用户的设置进行该确定。此外,当不从声音信号中提取深度信息时,可使用从图像信号提取的深度信息。
确定单元112可确定并使用从声音信号提取的深度信息与从图像信号提取的深度信息中的具有高精度的深度信息。如上所述,在该音像合成方法中,除了真实音源位置之外,还形成近距离定位虚拟音源和远距离定位虚拟音源。然而,可以仅形成近距离定位虚拟音源,或者可以仅形成远距离定位虚拟音源。在这种情况下,处理接近于定位位置的深度信息。即,例如,当除了真实音源位置之外仅形成近距离定位虚拟音源时,定位处理包括真实音源位置定位处理和近距离定位处理。然而,当仅指定远距离定位虚拟音源作为深度信息时,真实音源位置被指定用于处理。上述深度信息提供各声道的深度信息。如上所述,5. Ich (声道)中的各个FL声道、FR声道和FC声道是深度控制的对象,但是本发明不限于此。例如,在一般的5. 1声道 (FL/FR/FC/SL/SR/SW)的情况下,针对各个FL/FR/FC/SL/SR/SW声道的深度信息可以是深度控制的对象。然而,可以不必为每个声道提供此深度信息。例如,如上面参照图7所描述的,当从图像的立体信息中提取音源的深度信息时,仅针对存在图像信息的位置(前侧)中包括的声道提供深度信息。因此,在这种情况下,提供针对5. 1声道中的各个FL声道、FR声道和FC声道的深度信息。因此,可以简单地通过为各个声道提供深度信息来执行信号处理。通常,各种声音已被根据相关技术混合在声音的5. 1声道信号中。因此,可以仅合理配置与声道相关的深度信息,只要不执行诸如音源分离之类的大规模处理即可。如上所述,执行声音深度控制的信号处理单元可以将声音固定到各个声道。因此, 例如,在实际使用方面可以获得容易估计信号处理资源的优点。在本发明的实施例中,因为可以使用与各个声道相关的深度信息对各个声道的信号执行深度控制处理,所以可以改变各个声道的音像位置。因此,可以简单地根据视频深度感提供声场感。此外,可以根据内容制作者的意图提供声场感。如上所述,将音像合成方法用作示例,但是本发明的实施例可适用其它音像方法。 例如,可使用根据音像位置改变HRTF (头部相关传递函数)的所谓HRTF方法。在HRTF方法的情况下,作为对音像合成方法的混合比或衰减量的替代,提供与音像定位相关的距离信息来作为深度信息。在HRTF方法的情况下,由于包括数据库,因此根据距离依据数据库来决定系数,该系数被改变,并且音像定位处理被执行。因此,与HRTF方法相比,音像合成方法具有不必提供数据库的优点。在HRTF方法的情况下,可能产生由于系数的切换时间而导致声音可能中断的问题。然而,音像合成方法具有不会出现该问题的优点。可通过硬件或软件执行上述系列处理。当通过软件执行该系列处理时,在计算机中安装实现该软件的程序。计算机包括嵌入有专用硬件的计算机、以及能够通过安装各种程序来实现各种功能的通用个人计算机。个人计算机的示例性配置图8是示出根据程序执行上述系列处理的计算机的示例性硬件配置的图。在该计算机中,CPU (中央处理单元)201、ROM (只读存储器)202和RAM(随机存取存储器)203经由总线204相互连接。输入/输出接口 205连接到总线204。输入单元206、输出单元207、存储单元208、 通信单元209和驱动器210连接到输入/输出接口 205。输入单元206由键盘、鼠标、麦克风等形成。输出单元207由显示器、扬声器等形成。存储单元208由硬盘、非易失性存储器等形成。通信单元209由网络接口等形成。驱动器210驱动诸如磁盘、光盘、磁光盘或半导体存储器之类的可拆卸介质211。在具有这种配置的计算机中,CPU 201例如经由输入/输出接口 205和总线204将存储单元208中存储的程序加载到RAM 203上并运行该程序,以执行上述系列处理。可以以用于诸如封装介质之类的可拆卸介质211的记录形式提供由计算机(CPU 201)运行的程序。此外,可以通过诸如局域网、因特网或数字广播之类的有线或无线传输介质来提供程序。在计算机中,可以通过经由输入/输出接口 205将可拆卸介质211安装在驱动器 210上来安装该程序。此外,可以由通信单元209经由有线或无线传输介质接收该程序以将该程序安装在存储单元208中。此外,可以预先将程序安装在ROM 202或存储单元208中。该由计算机运行的程序可以被以说明书中按时间顺序描述的顺序来运行,可以被并行地运行、或者可以被在必要时(例如在该程序被调用时)运行。本申请包含与2010年3月31日在日本专利局提交的日本在先专利申请JP 2010-080517中公开的主题相关的主题,其全部内容通过引用合并于此。本领域技术人员应当理解,可以根据设计需求和其它因素进行各种变型、组合、子组合和替换,只要所述变型、组合、子组合和替换在所附权利要求或其等同内容的范围之内即可。
权利要求
1.一种信号处理设备,包括音像定位处理装置,用于基于用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对所述声音信号的各个声道执行音像定位处理;以及混合装置,用于对经过了由所述音像定位处理装置进行的音像定位处理的相应声道的声音信号进行混合。
2.根据权利要求1所述的信号处理设备,其中,所述用于确定音像定位位置的信息是与用于音像定位的预定位置的权重相关的信息。
3.根据权利要求2所述的信号处理设备,还包括存储装置,用于存储所述用于确定各个频段的音像定位位置的信息,其中,所述音像定位处理装置基于存储在所述存储装置中的所述用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对所述声音信号的各个声道执行所述音像定位处理。
4.根据权利要求2所述的信号处理设备,还包括提取装置,用于提取被复用在所述声音信号中的所述用于确定各个频段的音像定位位置的信息,其中,所述音像定位处理装置基于由所述提取装置提取的所述用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对所述声音信号的各个声道执行所述音像定位处理。
5.根据权利要求2所述的信号处理设备,还包括分析装置,用于根据与所述声音信号相对应的图像信号中的视差信息分析所述用于确定各个频段的音像定位位置的信息,其中,所述音像定位处理装置基于由所述分析装置分析的所述用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对所述声音信号的各个声道执行所述音像定位处理。
6.一种信号处理设备的信号处理方法,所述信号处理设备包括音像定位处理装置和混合装置,所述信号处理方法包括以下步骤由所述音像定位处理装置基于用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对所述声音信号的各个声道执行音像定位处理;以及由所述混合装置对经过了所述音像定位处理装置进行的所述音像定位处理的相应声道的声音信号进行混合。
7.一种程序,所述程序使得计算机用作音像定位处理装置,用于基于用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对所述声音信号的各个声道执行音像定位处理;以及混合装置,用于对经过了所述音像定位处理装置进行的所述音像定位处理的相应声道的声音信号进行混合。
8.一种信号处理设备,包括音像定位处理单元,所述音像定位处理单元基于用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对所述声音信号的各个声道执行音像定位处理;以及混合单元,所述混合单元对经过了所述音像定位处理单元进行的所述音像定位处理的相应声道的声音信号进行混合。
全文摘要
提供了信号处理设备、信号处理方法和程序。该信号处理设备包括音像定位处理单元,该音像定位处理单元基于用于确定各个频段的音像定位位置的信息而对各个频段的声音信号针对该声音信号的各个声道执行音像定位处理;以及混合单元,该混合单元对经过了该音像定位处理单元进行的音像定位处理的相应声道的声音信号进行混合。
文档编号H04S3/00GK102209288SQ20111007750
公开日2011年10月5日 申请日期2011年3月24日 优先权日2010年3月31日
发明者中野健司 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1