声音处理装置、声音处理系统及声音处理方法_3

文档序号：9713989阅读：来源：国知局

以上或预定阈值以下的信号等级的声音)的信息。声音的类别例如通过检测部39使用公知的声音识别技术来判定。
[0093]检索用标志包括例如通过VMD功能检测到的监视对象音的声源的移动的有无或移动的方向的信息。检测移动的有无等的声源例如包括于在上述的监视对象音的产生时刻或产生时间带由相机20拍摄到的图像数据中。通过VMD功能检测到的信息例如每当检测到移动时，从图像识别部34向检测部39发送。
[0094]检索用标志包括例如由图像识别部34进行了图像识别的监视对象音的声源的类别的信息。识别声源的类别的图像数据例如是在监视对象音的产生时刻或产生时间带由相机20拍摄到的图像数据。声源的类别的信息从图像识别部34向检测部39发送。
[0095]检索用标志包括例如缩略图像(静止图像)。缩略图像是例如在监视对象音的产生时刻或产生时间带由相机20拍摄到的图像数据的至少一部分。缩略图像从图像识别部34向检测部39发送。
[0096]检测部39可以在检测到监视对象音的情况下，开始由网络处理部31接收到的声音数据或图像数据的录音或录像。例如，网络处理部31暂时蓄积预定期间(例如30秒钟)的声音数据或图像数据，在由检测部39未检测到监视对象音的情况下，将暂时蓄积的声音数据或图像数据废弃。检测部39在检测到监视对象音的情况下，对网络处理部31作出指示，进行控制而将暂时蓄积中的声音数据或图像数据包括在内地向数据记录部43记录声音数据或图像数据(预录音、预录像)。而且，数据记录部43记录来自网络处理部31的声音数据或图像数据。预录音、预录像可以在经过预定时间之后结束。
[0097]检测部39在检测到预定关键字作为监视对象音的情况下，可以不将包括该关键字的声音数据向数据记录部43记录而消去。或者，检测部39在检测到预定关键字作为监视对象音的情况下，可以从声音数据消去该关键字的部分，也可以通过该关键字以外的声音进行置换。检测部39可以将消去或置换了关键字的部分的声音数据向数据记录部43记录。由此，在关键字应隐匿的信息的情况下，能够保护隐匿信息或隐私。这样的与关键字的消去或置换相关的处理也称为“关键字加工”。另外，关键字加工也可以对于向数据记录部43记录完的声音数据进行。
[0098]检测部39在检测到监视对象音的情况下，可以对指向性处理部37作出指示，来切换指向性的方向及指向性的范围的大小中的至少一方。在这种情况下，指向性处理部37可以将指向性的方向切换为预定方向，也可以将指向性的范围的大小切换为预定大小。
[0099]例如，可以将相机20的可拍摄范围所包含的多个地点(地点A、地点B)的信息预先登记在未图示的存储器中。在地点A的方向上检测到监视对象音的情况下，指向性处理部37可以将指向性的方向从地点A的方向切换为地点A以外的地点(例如地点B)的方向。
[0100]例如，将相机20的可拍摄范围所包含的多个范围(范围A、范围B)的大小的信息预先登记于未图示的存储器。在范围A中检测到监视对象音的情况下，指向性处理部37可以将指向性的范围的大小从范围A的大小切换为范围A以外的大小(例如范围B的大小)。
[0101]检测部39在检测到预定关键字作为监视对象音的情况下，可以将包括该关键字的声音数据向数据记录部43记录。该记录可以包括预录音、预录像。由此，操作者60通过将应监视的关键字预先登记，能够以关键字为触发而开始记录，能够提高监视精度。
[0102]接下来，说明阵列麦克风10、相机20及各声源的配置状态。
[0103]图3是表示阵列麦克风10、相机20及各声源的配置状态的一例的示意图。
[0104]在图3中，例如，收音单元90固定于屋内的顶棚面101。在图3中，阵列麦克风10所包含的多个麦克风IlA?IlC沿着顶棚面101(收音单元90的设置面)排列。附图标记PA表示声源。
[0105]而且，收音单元90以使阵列麦克风10的基准方向与相机20的基准方向(例如光轴方向)一致的方式安装于顶棚面101。相对于阵列麦克风10的基准方向的水平方向及垂直方向与相对于相机20的基准方向的水平方向及垂直方向一致。该水平方向是X轴方向、y轴方向，垂直方向是z轴方向。
[0106]阵列麦克风10的基准方向例如是阵列麦克风10中的各麦克风11排列的排列方向。收音角度Θ1是通过阵列麦克风10的基准方向和指向性的方向而形成的角度。通过阵列麦克风10的基准方向和指向性的方向而形成的收音角度Θ1的水平方向成分是水平角01h。通过阵列麦克风10的基准方向和指向性的垂直方向而形成的收音角度Θ1的垂直方向成分是垂直角θ?ν。
[0107]在收音单元90中，阵列麦克风10中的各麦克风11在圆周上以一定的间隔排列，因此相对于沿着排列面(x-y面)的水平方向，无论对于哪个方向，声音数据的频率特性都相同。因此，在图3的例子中，收音角度Θ1实质上依赖于垂直角Θ1ν。因此，在以下的说明中，主要作为收音角度Θ1，不考虑水平角01h进行说明。
[0108]如图3所示，收音单元90中的阵列麦克风10的收音角度Θ1(垂直角Θ1ν)是平行于麦克风IlA?IlC的排列面的方向(X轴、y轴)与指向性的灵敏度最大的方向所成的角度。
[0109]麦克风IlA?IlC对朝向麦克风IlA?IlC到来的声音进行收音。而且，相机20以正下方(z轴方向)的方向为基准方向(光轴方向)，对相机20的周围的例如全方位进行拍摄。
[0110]另外，阵列麦克风10的收音对象或相机20的拍摄对象可以不是全方位而限制为一部分的方向。而且，阵列麦克风10或监视控制装置30可以对收音对象限制为一部分的方向的状态下收音到的声音数据进行合成，生成与收音对象为全方位的情况同样的声音数据。而且，相机20或监视控制装置30也可以对拍摄对象限制为一部分的方向的状态下拍摄到的图像信号进行合成，生成与拍摄对象为全方位的情况同样的图像信号。
[0111]另外，例如，在阵列麦克风10的基准方向与相机20的基准方向不一致的情况下，可以考虑水平角91h。在这种情况下，可以考虑水平角01h和垂直角θ?ν，例如根据三维(x，y，z)的位置或方向来形成指向性。
[0112]接下来，说明监视控制装置30的动作例。
[0113]图4是表示监视控制装置30的动作例的流程图。
[0114]图4示出实时动作例。实时动作是例如操作者60使用监视控制装置30实时地对阵列麦克风10收音到的声音数据及相机20拍摄到的图像进行监视的情况的动作。
[0115]在图4中，首先，网络处理部31经由网络50来接收相机20送出的图像数据。而且，网络处理部31经由网络50来接收阵列麦克风10送出的多个声道的声音数据(Sll)。
[0116]网络处理部31接收到的图像数据由图像译码器32译码，向图像输出部33发送。图像输出部33将译码后的图像数据向监视器61输出，并进行控制以使监视器61显示图像(S12)。而且，网络处理部31可以将图像数据及声音数据向数据记录部43记录。
[0117]接下来，收音坐标指定部35例如接受来自触摸面板62的坐标输入(S13)。范围指定部44例如接受基于来自触摸面板62的坐标输入的收音范围，并导出收音范围的大小(S13)。例如，操作者60识别辨认监视器61上显示的图像的显示位置，操作触摸面板62而指定应关注的图像位置及图像范围。图像位置的指定及图像范围的指定哪个先进行均可。
[0118]收音坐标指定部35导出与指定的图像范围(图像位置)对应的收音坐标。范围指定部44导出与指定的图像范围对应的收音范围的大小。操作者60例如触摸监视器61上显示的图像所包含的特定的人物的位置(例如图1的附图标记Pl)，通过缩小操作或放大操作来指定范围的大小(例如图1的附图标记AI的大小)。由此，收音坐标指定部3 5取得收音坐标及范围坐标。上述图像范围是例如监视者应监视的监视区域的一例。
[0119]收音坐标指定部35可以取代操作者60对图像范围的位置的指定，使图像识别部34从图像中识别预定图案，并取得预定图案所存在的坐标作为收音坐标。
[0120]范围指定部44可以取代操作者60对图像范围的大小的指定，使图像识别部34从图像中识别预定图案，并取得预定图案所存在的范围的大小的信息作为收音范围的大小的信息。
[0121]收音角度运算部38基于由收音坐标指定部35取得的收音坐标，例如参照转换表，或进行公知的运算处理，由此导出收音角度91(S14)。
[0122]范围角度运算部45基于由范围指定部44取得的收音范围的大小的信息，例如参照转换表，或进行公知的运算处理，由此导出范围角度92(S14)。
[0123]导出的收音角度Θ1及范围角度Θ2向指向性处理部37输入。指向性处理部37根据收音角度Θ1及范围角度Θ2，导出阵列麦克风10的指向性处理用的参数。并且，指向性处理部37对于来自声音译码器36的声音数据，使用导出的参数进行指向性处理(S15)。由此，在指向性处理部37输出的声音数据中，例如，相对于收音角度Θ1的方向且与范围角度Θ2对应的大小的范围而阵列麦克风10的收音灵敏度变得最大。
[0124]接下来，检测部39从进行了指向性处理的声音数据中，检测监视对象音(例如，异常音、预定关键字、第一预定阈值以上或第二预定阈值以下的信号等级的声音)(S16)。在检测到监视对象音之前，在S16中等待。
[0125]接下来，图像识别部34例如可以对包括检测到的监视对象音的声源的图像数据进行图像识别，来识别监视对象音的声源的类别(例如，人、男性、女性、物体、其他的声源)(S17)。由此，操作者60根据声源的类别能够容易地判断是否应进行监视，因此能够减轻操作者60的负担，能够提高监视精度。
[0126]图像识别部34例如可以使用VMD功能来检测监视对象音的声源的移动(S17)。由此，操作者60能够容易地关注声源的移动，因此能够减轻操作者60的负担，能够提高监视精度。
[0127]图像识别部34可以将图像识别后的结果(例如，监视对象音的声源的类别的信息、监视对象音的声源的移动的信息)向检测部39发送。
[0128]另外，S17的处理可以省略。例如，可以是使用者经由触摸面板62来设定是否省略S17的处理的信息，也可以是未图示的控制部根据监视等级来设定是否省略S17的处理的信息。是否省略S17的处理的信息例如保持在未图示的存储器中。
[0129]接下来，监视控制装置30根据检测部39的检测结果及图像识别部34的图像识别结果中的至少一方，进行预定处理(动作)(S18)。
[0130]例如，在检测到监视对象音的情况、识别到声源的类别的情况或者检测到声源的移动的情况、即产生监视触发的情况下，检测部39可以对图像输出部33进行指示以通过图像来通知警告信息。而且，在产生监视触发的情况下，检测部39也可以对声音输出部42进行指示，以通过声音来通知警告信息(S18)。而且，检测部39可以根据监视触发的类别，进行不同的警告音的鸣叫、警告信息的显示。由此，监视控制装置30的操作者60能够容易地识别监视对象首的广生等，能够减轻操作者6 O的负担，能够提尚监视精度。
[0131]例如，检测部39在产生了监视触发的情况下，可以将检索用标志的信息向数据记录部43记录(S18)。由此，即使在操作者60将来再看声音数据或图像数据的情况下，也能够容易地检索所希望的声音数据或图像数据的特定的部位，能够缩短例如验证时间。
[0132]例如，在产生了监视触发的情况下，检测部39可以对网络处理部31进行指示，以进行预录音及预录像中的至少一方(S18)。由此，在产生监视触发之前，不进行向数据记录部43的录音或录像，由此能够提高数据记录部43的有效利用效率。而且，在产生了监视触发的情况下，能够可靠地记录监视触发产生时刻的声音数据或图像数据，例如，将来能够作为验证材料进行确认。
[0133]例如，在检测到预定关键字作为监视对象音的情况下，检测部39可以进行关键字加工(S18)。由此，即使在关键字为隐匿信息的情况下，也能够保护隐匿信息。而且，在消去或置换关键字而记录包括关键字的声音数据的情况下，能够保护隐匿信息并保存声音数据。
[0134]例如，在产生监视触发的情况下，检测部39可以对指向性处理部37进行指示，以切换指向性的方向(S18)。由此，例如，通过以朝向预设的方向的方式变更指向性的方向，能够提高在预想到声源的移动的情况下能够追踪监视对象音的可能性。
[0135]例如，在产生监视触发的情况下，检测部39可以对指向性处理部37进行指示，以切换指向性的范围的大小(S18)。由此，例如，通过以将预设的范围的大小作为指向性的范围的大小的方式进行变更，能够提高在预想到声源的移动的情况下能够追踪监视对象音的可能性。例如，通过指向性的范围的大小的变更，即使在相机20与声源的距离发生变化的情况下，也能够提尚监视对象首的追踪精度。
[0136]接下来，声源推定部40推定监视对象音的声源的位置(S19)。由此，能够提高操作者60的监视精度。
[0137]接下来，指向性处理部37在预定时机(例如每预定时间)，取得从声源推定部40推定出的监视对象音的声源的位置的信息，以使指向性朝向该声源的位置的方式切换指向性的方向(S20)。由此，能够追踪监视对象音的声源，操作者60能够容易地监视声源的动向，能够提尚监视精度。
[0138]另外，S19、S20可以省略。
[0139]根据图4的动作例，操作者60经由监视器61及扬声器63，能够同时监视当前的监视区域中的图像和声音。尤其是能够监视包括监视对象音

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6