声音处理系统以及声音处理方法_2

文档序号：8927379阅读：来源：国知局

装状态的图。图2炬）所示的麦克风阵列20C是包括在内侧形成了开口部21a的圆环型形状的框体21C、W及在该框体21C中同样地设置的多个麦克风22C的结构。多个麦克风22C相对于框体21C而沿着同屯、圆形地配置。
[0078] 在图2(C)中，图9(A)所示的全方位摄像机10EW插入贯通过的状态来安装到框体21C的开口部21a的内侧。在本实施方式中，全方位摄像机10E是例如搭载了鱼眼镜头的摄像机，W对大厅的地板面的宽范围进行摄像的方式来安装。该样，全方位摄像机10E与麦克风阵列20C在与麦克风阵列20C的框体21C的中屯、共同的同轴上配置，所W能够使用同一坐标系。
[0079]图3是使用麦克风阵列20的指向性控制处理的原理的说明图。在图3中，简单说明采用延迟求和方式的指向性控制处理的原理。从声源80发出的声波相对于麦克风阵列 20的各麦克风22a、22b、22c、…、2化-l、2化，W某个恒定的角度（入射角=巧O-0))入射。相对于麦克风阵列20的框体21的面，声源80在预定角度0的方向上配置。另外，麦克风 22a、22b、22c、…、2化-1、2化之间的间隔恒定。
[0080] 从声源80发出的声波最初到达麦克风22a而被收集，接着到达麦克风2化而被收集，陆续地被收集，最后到达麦克风2化而被收集。此外，关于从麦克风阵列20的各麦克风 22a、22b、22c、…、2化-l、2化的位置朝向声源80的方向，例如如果设想声源80是人物的会话时的声音的情况或者是周围的音乐的情况，则能够认为相同于与为了对人物的会话时的声音或者周围的音乐的声音数据的音量级进行强调（放大）而从操作部55指定的预定的范围对应的方向。
[0081]在该里，在从声波到达麦克风22a、22b、22c、…、2化-1的时刻直到到达最后进行收集的麦克风2化时刻的期间，产生到达时间差T1、T2、T3、…、Tn-1。因此，在将通过各个麦克风22a、22b、22c、…、2化-1、2化收集到的声音数据直接相加的情况下，由于保持相位有偏差的状态来进行相加，所W声波的音量级整体地相互削弱。
[008引此外，T1是声波到达麦克风22a的时刻与声波到达麦克风2化的时刻的差分的时间，T2是声波到达麦克风22b的时刻与声波到达麦克风22n的时刻的差分的时间，Tn-1 是声波到达麦克风22n-l的时刻与声波到达麦克风22n的时刻的差分的时间。
[0083] 另一方面，在包括本实施方式的各实施方式中，信号处理部50是具有分别与麦克风22a、22b、22c、…、2化-1、2化的每个对应地设置的A/D转换器51a、5化、51c、…、51n-l、 51n和延迟器52a、52b、52c、…、5化-1、5化W及加算器57的结构（参照图3)。
[0084]目P，信号处理部50通过在A/D转换器51a、5化、51c、…、51n-l、51n中对通过各麦克风22a、22b、22c、…、2化-1、2化收集到的模拟的声音数据进行AD转换，来得到数字的声音数据。进而，信号处理部50在延迟器52a、52b、52c、…、5化-1、5化中提供与各个麦克风 22a、22b、22c、…、2化-1、2化中的到达时间差对应的延迟时间而使相位一致，之后，在加算器57中将延迟处理后的声音数据相加。由此，信号处理部50能够生成强调了从各麦克风 22a、22b、22c、…、2化-1、2化的设置位置起的预定角度0的方向的声音数据的声音数据。例如在图3中，对延迟器52a、52b、53c、…、5化-l、5化设定的各延迟时间Dl、D2、D3、…、 Dn-1、化分别相当于到达时间差T1、t2、T3、…、Tn-1，通过数学式（1)来表示。
[0085]【数学式1】
[0091] Dn= 0??? (1)
[0092]L1是麦克风22a与麦克风22n中的声波到达距离之差。L2是麦克风2化与麦克风 2化中的声波到达距离之差。L3是麦克风22c与麦克风22n中的声波到达距离之差。Ln-1 麦克风22n-l与麦克风22n中的声波到达距离之差。Vs是声速。L1、L2、L3、…、Ln-l、Vs 是已知的值。在图3中，对延迟器5化设定的延迟时间化为0(零）。
[0093] 该样，信号处理部50通过变更对延迟器52a、52b、52c、…、5化-1、5化设定的延迟时间D1、D2、D3、…、化-l、Dn，从而能够使用在记录器45中记录的声音数据，来生成强调了 W麦克风阵列20的设置位置为基准的任意的方向的声音数据而得到的声音数据，能够简单地进行声音处理系统5A、5B中的声音数据的指向性控制处理。
[0094] 接着，说明本实施方式的声音处理系统5A、5B的记录时W及重放时的各动作。在该里，说明将声音处理系统5A应用于监视系统的情况。图4是说明声音处理系统5A的记录时的动作次序的流程图。
[0095] 在图4中，通过来自例如处于监视系统控制室（未图示）中的用户的远程操作，摄像机10U0A开始对作为监视对象的地点（场所）的周围的影像的摄像（S1)。与由摄像机 10、10A实施的摄像的开始同时或者大致同时地，麦克风阵列20开始对作为监视对象的地点（场所）的周围的声音的收音（S2)。摄像机10U0A将摄像得到的影像数据转送到经由网络30而连接的记录器45。麦克风阵列20将所收集到的声音数据转送到经由网络30而连接的记录器45。
[0096] 记录器45将从摄像机10、10A转送的影像数据、与从麦克风阵列20转送的声音数据全部对应起来而储存并记录到记录介质中（S3)。通过来自用户的远程操作，来结束摄像机10、lOA、麦克风阵列20w及记录器45的记录时的动作。
[0097]图5是说明在指定一个W上的指定部位的情况下的、声音处理系统5A、5B的重放时的动作次序的流程图。
[0098] 在图5中，声音处理装置40的记录器45受理通过来自用户的直接的操作或者远程操作对希望重放的影像数据的指定（S11)。在影像数据的指定中，将例如被记录的日期时间W及摄像机的种类用作条件。重放部60重放与在步骤S11中被指定的条件相应的影像数据，并在显示器63的画面中显示。进而，重放部60还重放与被重放的影像数据对应起来地储存在记录器45中的声音数据，从扬声器65进行声音输出。
[0099] 在该里，假设在重放部60进行重放的影像数据的重放期间或者临时停止期间，用户经由操作部55,在显示器63的画面中显示的影像数据中指定对声音（音量级）进行强调 (放大）的一个W上的指定部位。信号处理部50根据用户的指定操作，受理在影像数据的内容中针对对声音（音量级）进行强调（放大）的一个W上的指定部位的指定（S12)。
[0100] 下面，将经由操作部55,W麦克风阵列20、20A为基准，在对声音（音量级）进行强调（放大）的方向（指向方向）形成指向性，从而将通过用户指定的指定部位简记为"指定部位"。在步骤S12中，例如通过用户用手指95触摸显示器63的画面，来指定针对在显示器 63的画面中显示的影像数据的指定部位、或者W被触摸到的指定部位为中屯、的预定的矩形的声音强调范围。
[0101] 信号处理部50基于经由操作部55而被指定的一个W上的指定部位或者声音强调范围，计算从麦克风阵列20的各麦克风22的位置的中屯、位置朝向与一个W上的指定部位或者声音强调范围的例如中屯、对应的实际的现场的各位置（各声音位置）的方向（各指向方向），来作为参照图3来说明的预定角度0 1、0 2、…、0n的方向、即对声音（音量级）进行强调（放大）的各方向（各指向方向）。进而，信号处理部50针对与通过当前重放部 60重放的影像数据对应起来地储存在记录器45中的声音数据，生成在所计算出的预定角度0 1、0 2、…、0n下分别形成了指向性的声音数据、即对预定角度0 1、0 2、…、0n的声音（音量级）进行了强调（放大）的声音数据（S13)。
[0102] 此外，在本实施方式中，信号处理部50生成或者合成在从麦克风阵列20的各麦克风22的位置的中屯、位置朝向与一个W上的指定部位或者声音强调范围的例如中屯、对应的各声音位置的方向上形成了指向性的声音数据，但进而，也可W对针对从朝向与一个W上的指定部位或者声音强调范围对应的各声音位置的方向（预定角度0 1、0 2、…、0n)较大地偏移的方向（例如从预定角度0 1、0 2、…、0n偏移±5度W上的方向）的声音数据进行压制处理。
[0103] 重放部60将通过信号处理部50对朝向与一个W上的指定部位或者声音强调范围对应的各声音位置的方向的声音（音量级）进行了强调（放大）的各声音数据与根据步骤 S11的指定而被显示于显示器63的影像数据同步地，从扬声器65进行声音输出（S14)。由此，声音处理装置40的重放时中的动作结束。
[0104] 图6是示出第1实施方式的声音处理系统5A的使用方式的一例的示意图。图6 (A) 是示出例如在作为室内的活动会场的大厅的天花板85上在相分离的位置设置了 1台摄像机10与1台麦克风阵列20的情形的图。
[0105] 在图6(A)中，两个人物91、92站在大厅的地板87上进行会话。在稍微与两个人物91、92相分离的位置，相接于地板87上地放置了扬声器82,从扬声器82播放音乐。另夕F，摄像机10对处于作为对摄像机10预先设定的监视对象的地点（场所）的周围的人物 91、92进行摄像。进而，麦克风阵列20收集整个大厅的声音。
[0106] 图6炬）是示出将影像数据显示于显示器63并在扬声器65中对声音数据进行声音输出的情形的图。在显示器63的画面中，显示有摄像机10摄像得到的影像数据。另外，从扬声器65对两个人物91、92的会话或者大厅内的音乐进行声音输出。
[0107] 假设用户用手指95触摸了例如在显示器63的画面中显示的两个人物91、92的影像数据的中央附近。触摸点63a成为通过用户指定的指定部位。信号处理部50使用通过麦克风阵列20收集到的声音、即各麦克风22所收集到的各声音数据，来生成在从麦克风阵列20的各麦克风22的位置朝向与用户所指定的触摸点63a或者矩形范围63b的中屯、对应的声音位置的指向方向（由图6(A)所示的符号e所示的方向）上形成了指向性的声音数据。
[010引目P，信号处理部50使用各麦克风22所收集到的各声音数据，来生成对从麦克风阵列20的各麦克风22的位置朝向与用户所指定的触摸点63a或者矩形范围63b的中屯、对应的声音位置的指向方向的声音（音量级）进行强调（放大）而得到的声音数据。重放部60 将信号处理部50生成的声音数据与摄像机10摄像得到的影像数据同步地从扬声器65进行声音输出。
[0109] 其结果，通过用户指定的触摸点63a或者矩形范围63b中的声音数据被强调，从扬声器65W大的音量来对两个人物91、92的会话（例如参照图6 (A)所示的"你好"）进行声音输出。另一方面，针对从与两个人物91、92相比被放置于与麦克风阵列20更接近的距离但不是通过用户指定的触摸点63a的扬声器82播放的音乐（参照图6 (A)所示的~）不是强调地进行声音输出，而是W比两个人物91、92的会话更小的音量来进行声音输出。
[0110] 通过W上所述，在本实施方式中，声音处理系统5A或者5B在记录器45中记录的影像数据W及声音数据的重放期间，能够强调地输出针对通过用户指定的任意的重放时间的影像中的声音数据。由此，用户仅通过一边看在显示器63的画面中显示的影像数据，一边触摸希望强调声音数据的部位来进行指定，能够简单地强调该指定部位或者包括指定部位的指定范围（声音强调范围）中的声音数据并进行声音输出。该样，在本实施方式的声音处理系统5A或者5B中，用户能够在通过显示器63来目视通过摄像机10进行摄像得到的影像数据的同时，容易地得到自己所需的范围的声音信息。
[0111] 例如，本实施方式的声音处理系统5A或者5B即使在发生了某些意外事故的情况下，在意外事故的发生后，通过生成在从麦克风阵列20的各麦克风22的位置朝向意外事故的发生地点的方向上形成了指向性的声音数据，也能够让用户确认意外事故的发生时间点下的会话或者声音。
[0112] 另外，在本实施方式的声音处理系统5A或者5B中，摄像机10与麦克风阵列20设置于室内的大厅等的天花板85,所W能够监视大厅内的所有位置。
[011引（第2实施方式）
[0114]在第1实施方式中，说明了在摄像机为1台情况下的声音处理系统5A的使用方式的一例。在第2实施方式中，说明在摄像机为多台（例如2台）的情况下的声音处理系统 5C的使用方式的一例。
[0115] 此外，在第2实施方式的声音处理系统5C中，除了摄像机为多台（例如2台）之夕b具有与第1实施方式的声音处理系统5A或者5B相同的结构，所W通过针对与第1实施方式的声音处理系统5A或者5B相同的结构要素使用相同的符号，从而省略其说明。
[0116] 图7是示出第2实施方式的声音处理系统5C的使用方式的一例的示意图。图7 (A) 是示出例如在室内的大厅的天花板85上设置了 2台摄像机10、10A、位于2台摄像机10、10A 的中间位置的1台麦克风阵列20W及扬声器83的情形的图。
[0117] 另外，4个人物91、92、93、94站在大厅的地板87上，人物91与人物92进行会话，人物93与人物94进行会话。在该两组之间的位置处，将扬声器82放置在地板87上，播放音乐。另外，扬声器83设置于人物93与人物94的大致正上方的天花板85。
[0118] 摄像机10从稍微与4个人物91、92、93、94相分离的位置对两个人物91、92进行摄像，麦克风阵列20设置于扬声器82的大致正上方的天花板85,收集整个大厅的声音。摄像机10A从稍微与4个人物91、92、93、94相分离的位置对人物93、94进行摄像。
[0119] 图7炬）是示出将通过摄像机10进行摄像得到的影像数据显示于显示器63并在扬声器65中对声音数据进行声音输出的情形的图。在显示器63的画面中，显示有摄像机 10摄像得到的影像数据。另外，从扬声器65对两个人物91、92的会话或者大厅内的音乐进行声音输出。
[0120] 假设用户用手指95触摸了例如在显示器63的画面中显示的两个人物91、92的影像数据的中央附近。信号处理部50使用通过麦克风阵列20收集到的声音、即各麦克风22 所收集到的各声音数据，来生成在从麦克风阵列20的各麦克风22的位置朝向与用户所指定的触摸点63a或者矩形范围63b的中屯、对应的声音位置的指向方向（由图7(A)所示的符号e所示的方向）上形成了指向性的声音数据。
[0121]目P，信号处理部50使用各麦克风22所收集到的各声音数据，来生成对从麦克风阵列20的各麦克风22的位置朝向与用户所指定的触摸点63a或者矩形范围63b的中屯、对应的声音位置的指向方向的声音（音量级）进行强调（放大）而得到的声音数据。重放部60 将信号处理部50生成的声音数据与摄像机10摄像得到的影像数据同步地从扬声器65进行声音输出。
[0122] 其结果，通过用户指定的触摸点63a或者矩形范围63b中的声音数据被强调，从扬声器65W大的音量来对两个人物91、92的会话（例如参照图7(A)所示的"你好"）进行声音输出。另一方面，针对从与两个人物91、92相比被放置于与麦克风阵列20更接近的距离但不被包含于通过用户指定的矩形范围63b内的扬声器82播放的音乐（参照图7(A)所示的~"）不是强调地进行声音输出，而是W比两个人物91、92的会话更小的音量来进行声音输出。
[0123] 图7 (C)是示出将通过摄像机10A进行摄像得到的影像数据显示于显示器63并且在扬声器65中对声音数据进行声音输出的情形的图。在显示器63的画面中，显示有摄像机10A摄像得到的影像数据。另外，从扬声器65对两个人物93、94的会话或者大厅内的音乐进行声音输出。
[0124] 假设用户用手指95触摸了例如在显示器63的画面中显示的两个人物93、94的影像数据的中央附近。信号处理部50使用通过麦克风阵列20收集到的声音、即各麦克风22 所收集到的各声音数据，来生成在从麦克风阵列20的各麦克风22的位置朝向与用户所指定的触摸点63c或者矩形范围63d的中屯、对应的声音位置的指向方向（由图7(A)所示的符号f所示的方向）上形成了指向性的声音数据。
[0125]目P，信号处理部50使用各麦克风22所收集到的各声音数据，来生成对从麦克风阵列20的各麦克风22的位置朝向与用户所指定的触摸点63c或者矩形范围63d的中屯、对应的声音位置的指向方向的声音（音量级）进行强调（放大）而得到的声音数据。重放部60 将信号处理部50生成的声音数据与摄像机10A摄像得到的影像数据同步地从扬声器65进行声音输出。
[0126] 其结果，通过用户指定的触摸点63c或者矩形范围63d中的声音数据被强调，从扬声器65W大的音量来对两个人物91、92的会话（例如参照图7(A)所示的"晦"）进行声音输出。另一方面，针对从与两个人物93、94相比被放置于与麦克风阵列20更接近的距离但不被包含于通过用户指定的矩形范围63d的扬声器82播放的音乐（参照图7 (A)所示的 ~"）不是强调地进行声音输出，而是W比两个人物93、94的会话更小的音量来进行声音输出。
[0127] 通过W上所述，在本实施方式中，声音处理系统5C在记录器45中记录的影像数据 W及声音数据的重放期间，能够强调地输出通过用户指定的某一个摄像机10或者10A中的相对于针对影像数据而被指定的任意的重放时间的影像中的声音数据。由此，用户仅通过一边通过显示器63看摄像机10或者10A摄像得到的影像数据，一边触摸希望对声音（音量级）进行强调（放大）的部位而进行指定，能够简单地强调该被指定的指定部位或者包括该指定部位的指定范围中的声音数据并进行声音输出。该样，在本实施方式的声音处理系统5C中，用户能够在通过显示器63来目视通过摄像机10或者10A进行摄像得到的影像数据的同时，容易地得到自己所需的范围的声音信息。
[012引另外，在本实施方式中，与第1实施方式相比，声音处理系统5C中的摄像机的设置台数也可W是多个，所W能够构筑不按照摄像机的台数来增加麦克风阵列的台数也行的、能够降低成本的声音处理系统5C，能够实现声音处理系统5C的空间节省。另外，声音处理系统5C仅通过针对已经设置有第1台摄像机10的声音处理系统5A或者5B，增设第2台摄像机10A，能够得到与第1实施方式的声音处理系统5A或者5B相同的动作W及效果，能够提高声音处理系统的扩展性。
[0129](第3实施方式）
[0130] 在第1W及第2各实施方式中，说明了摄像机与麦克风阵列被设置在天花板的不同的位置的声音处理系统5A或者5B的使用方式的一例。在第3实施方式中，说明全方位摄像机与麦克风阵列一体地设置在同轴上的声音处理系统抓的使用方式的一例。
[0131] 此外，在第3实施方式的声音处理系统抓中，除了全方位摄像机与麦克风阵列一体地设置在同轴上之外，具有与第1实施方式的声音处理系统5A或者声音处理系统5B相同的结构，所W通过针对与第1实施方式的声音处理系统5A或者5B相同的结构要素使用相同的符号，从而省略其说明。
[0132] 图9是示出声音处理系统抓的使用方式的一例的示意图。图9(A)是示出例如在室内的大厅的天花板85上设置了圆环型形状的麦克风阵列20C、与麦克风阵列20C-体地被装入的全方位摄像机10EW及扬声器83的情形的图。在图9(A)中，人物91、92、93、94 的会话状况W及扬声器82、83的各动作状况设为与第2实施方式中的状况相同。
[0133] 图9炬）是示出在全方位摄像机lOE摄像得到的影像数据中选择两个人物91、92 的情形的图。在图9炬）中，在显示器63的画面中，使用了全方位摄像机10E中的坐标系的影像数据、即全方位摄像机10E摄像得到的影像数据被直接显示。图9(C)是示出将图像转换后的两个人物91、92的影像数据显示于显示器并且在扬声器65中对人物91、92的会话的声音数据进行声音输出的情形的图。
[0134] 假设用户用手指

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6