声音处理装置、声音处理系统及声音处理方法_2

文档序号：9713989阅读：来源：国知局

者60对触摸面板62的触摸操作，指示器的坐标作为收音坐标而向收音坐标指定部35提供。操作者60是使用监视系统100进行监视的监视者的一例。
[0054]范围指定部44例如从触摸面板62接受输入，导出与输入范围对应的坐标，导出输入范围的大小。例如，范围指定部44在监视器61的画面上显示的图像中，接受操作者60应关注的范围的坐标作为收音范围Al，导出收音范围Al的大小。范围指定部44是第二指定部的一例，指定与基于图像数据而显示的图像上的指定部位(例如收音范围Al)对应的预定区域内的预定范围。
[0055]范围指定部44例如可以在触摸面板62的画面上，通过使用多个手指同时地指定收音范围Al的操作，来指定收音范围Al，从而指定(导出)收音范围Al的大小。例如，可以通过在触摸面板62的画面上实施缩小操作(例如参照图9(A))或放大操作(例如参照图9(B))，来指定收音范围Al，从而导出收音范围Al的大小。画面所包含的范围是预定区域的一例，收音范围Al是预定范围的一例。可以将指定收音范围Al的大小的情况简称为指定收音范围Al。缩小操作是对收音范围Al的大小进行缩小的操作的一例，放大操作是对收音范围Al的大小进行放大的操作的一例。
[0056]范围指定部44例如可以指定以2根手指的触摸位置为直径的圆或椭圆的形状的范围作为收音范围Al，从而导出收音范围Al的大小。范围指定部44例如指定以2根手指的触摸位置为对角的点的多边形的形状的范围作为收音范围Al，并导出收音范围Al的大小。范围指定部44例如可以指定3根以上的手指的触摸位置作为收音范围Al的轮廓点，也可以指定复杂的形状的范围并导出收音范围Al的大小。设为何种形状的收音范围Al例如可以预先确定并存储于未图示的存储器。而且，范围指定部44例如也可以在触摸面板62的画面上，使用I根手指以时间差来指定多个位置，导出通过这多个位置的收音范围Al，并导出收音范围Al的大小。
[0057]在收音坐标与收音范围Al的关系预先确定的情况下，可以根据预先确定的关系来指定收音范围Al或收音坐标。例如，在指定了收音坐标的情况下，可以指定以收音坐标为中心的预定形状的收音范围Al，并导出收音范围Al的大小。例如，在收音范围Al指定了形成轮廓的多个点的情况下，可以导出收音范围Al的大小，并指定收音范围Al的中心位置的坐标作为收音坐标。
[0058]也可以使用触摸面板62以外的输入单元来指定收音坐标及收音范围Al的大小。例如，也可以在监视控制装置上连接鼠标，而操作者60使用鼠标来触摸所希望的图像范围。例如，还可以通过手指以外的输入单元(例如指示笔)，对触摸面板62进行触摸，来指定收音坐标及收音范围Al的大小。
[0059]而且，图像识别部34在识别到事先登记的图案包括于图像数据的情况下，可以将识别到的图案所存在的监视器61上的位置(例如，图1的附图标记Pl)的坐标作为收音坐标向收音坐标指定部35赋予。识别到的图案例如是人物的整体、人物的脸部。
[0060]而且，图像识别部34在识别到事先登记的图案包括于图像数据的情况下，可以将识别到的图案所存在的监视器61上的范围作为收音范围Al，并将收音范围Al的大小的信息向范围指定部44赋予。识别到的图案例如是人物的整体、人物的脸部。
[0061]声音译码器36将来自网络处理部15的多个声道的声音数据输入并译码。而且，在声音译码器36中，对多个声道的声音数据进行处理的声音译码器可以分别独立地设置。在这种情况下，能够同时处理阵列麦克风10的麦克风IlA?IlC分别收集到的多个声道的声音数据。
[0062]收音角度运算部38基于收音坐标指定部35决定的收音坐标，导出(例如算出)表示阵列麦克风10的指向性的方向的收音角度Θ1。收音角度运算部38导出的收音角度Θ1作为指向性处理部37的参数而输入。例如，可以是收音坐标与收音角度Θ1—一对应，包括该对应信息的转换表存储于未图示的存储器中。收音角度运算部38可以参照该转换表来导出收音角度Θ1。
[0063]范围角度运算部45基于范围指定部44决定的收音范围Al的大小，导出(例如算出)表示阵列麦克风10的指向性的范围的大小(指向性的扩展、指向性的强弱)的范围角度Θ2。范围角度运算部45导出的范围角度Θ2作为指向性处理部37的参数而输入。例如，可以是收音范围Al的大小与范围角度Θ2—一对应，并将包括该对应信息的转换表存储于未图示的存储器。范围角度运算部45可以参照该转换表，并导出范围角度Θ2。
[0064]在此，说明收音范围Al的大小与范围角度Θ2的关系。
[0065]图10(A)、图10(B)是表示收音范围Al及范围角度Θ2的一例的示意图。
[0066]图10(A)例示范围角度02a作为收音范围Al比较小(窄)的情况下的范围角度Θ2。在图10(A)中，指定包括位于监视器61的中央部的人物Pll的方向且不包括人物P12、P13的方向的范围作为收音范围Al。因此，在图10(A)的状态下3人的人物Pll?P13进行交谈的情况下，能够听取中央部的人物P11的声音。因此，能够保护人物P12、P13的隐私。
[0067]图10(B)例示范围角度02b作为收音范围Al比较大(广)的情况下的范围角度Θ2。在图10(B)中，指定监视器61所显示的包括3人的人物Pll?P13的方向的范围作为收音范围Al。因此，在图10(B)的状态下3人的人物PU?P13进行交谈的情况下，能够听取人物PU?P13的声音。因此，能够提高监视器61上所显示的区域的监视精度，能够确保安全性。
[0068]指向性处理部37从收音角度运算部38取得收音角度Θ1的信息，从范围角度运算部45取得范围角度Θ2的信息，从声音译码器36取得声音数据。指向性处理部37根据收音角度ΘI及范围角度Θ2，将从声音译码器36输出的多个声道的声音数据按照预定算法进行合成，形成指向性(指向性处理)。
[0069]例如，指向性处理部37提升监视对象的人物所存在的场所(关注点)的方向(指向性的方向)及范围(指向性的范围)的声音成分的信号等级，并降低除此以外的方向的声音成分的信号等级。指向性处理部37将指向性处理后的声音数据向检测部39及声音输出部42输出。
[0070]指向性处理部37例如根据范围角度Θ2，通过公知的方法，进行指向性处理。例如，指向性处理部37可以根据范围角度Θ2，来决定指向性处理使用的声音数据的声道数、即使用收音到的声音的麦克风11的个数。例如，指向性处理部37可以在范围角度Θ2越小时，越增强指向性，因此容易增加声音数据的声道数。例如，指向性处理部37也可以在范围角度Θ2越大时，越减弱指向性，因此减少声音数据的声道数。
[0071]例如，在图10(A)中，指向性处理部37使用由阵列麦克风10所包含的16个麦克风11中的8个麦克风11收音到的声音数据，进行指向性处理。例如，在图10 (B)中，指向性处理部37使用由阵列麦克风10所包含的16个麦克风11中的4个麦克风11收音到的声音数据，进行指向性处理。
[0072]指向性处理部37可以根据由声源推定部40推定出的声源(例如监视对象的人物、异常音)的位置，进行指向性处理。指向性处理部37例如可以从声源推定部40多次取得声源的推定位置的信息，且每次取得时变更(例如切换)指向性的方向。由此，即使在声源移动的情况下，也能够追踪并监视声源的位置。即，在声源的位置的追踪中，将指向性转向推定出的声源的位置。
[0073]检测部39取得通过指向性处理部37进行了指向性处理的声音数据。该声音数据包括例如对第一指向性的方向及范围的声音成分进行了增强的第一声音数据和对第二指向性的方向及范围的声音成分进行了增强的第二声音数据。检测部39根据取得的声音数据检测监视对象音(预定声音的一例)。即，检测部39具有作为声音检测部的功能。另外，在本实施方式中，声音成分的增强是指例如利用由多个麦克风形成的阵列麦克风，通过滤波仅提取来自特定的方向及范围的声音。
[0074]另外，检测部39在检测到监视对象音的情况下，进行各种处理。关于检测部39的详情，在后文叙述。检测部39是在检测到监视对象音的情况下进行预定处理的处理部的一例。
[0075]声源推定部40取得来自声音译码器36的声音数据，推定发出由检测部39检测到的监视对象音的声源的位置。声源广泛地包括例如交谈中的人物、发出响声的人物、特定的人物(男性、女性)、物体(例如紧急车辆)、异常音(例如，警铃、警笛)的产生源、特定的环境音的产生源、其他的声源。声源推定部40是推定部的一例。
[0076]声源推定部40例如通过公知的声源推定技术来推定声源的位置。声源推定部40产生的声源的位置的推定结果用于例如基于指向性处理部37的异常音的追踪、指向性的切换。
[0077]声源推定部40可以将声源的位置的推定结果向例如图像输出部33或声音输出部42输出。图像输出部33或声音输出部42对声源的位置的推定结果进行提示，由此操作者60能够容易地掌握声源的位置。
[0078]声音输出部42例如将来自指向性处理部37的声音数据从数字声音数据转换成模拟声音数据，将声音数据放大，向扬声器63提供。
[0079]扬声器63输出与来自声音输出部42的声音数据相当的声音。因此，操作者60能够从扬声器63听见对由阵列麦克风10收音到的声音数据进行了处理的声音。扬声器63是提示部的一例。
[0080]数据记录部43例如可以包括HDD(HardDisk Drive)、SSD(Solid State Drive),并依次记录网络处理部31取得的多个声道的声音数据或图像数据。数据记录部43在记录声音数据及图像数据的情况下，将声音数据的生成时刻与图像数据的生成时刻建立对应地记录。而且，可以将上述生成时刻的信息与声音数据或图像数据一起记录。数据记录部43可以设置在监视控制装置30的内部，或者可以设置在监视控制装置30的外部作为外部记录介质。
[0081]而且，数据记录部43记录例如用于对记录的声音数据或图像数据进行检索的检索用标志的信息。记录于数据记录部43的检索用标志由监视控制装置30中的其他的结构部适当参照。
[0082]接下来，说明检测部39的详情。
[0083]检测部39例如在指向性处理后的声音数据的信号等级为第一预定阈值以上或第二预定阈值以下的情况下，检测该声音数据作为监视对象音。与声音数据的信号等级比较的阈值的信息例如保持在未图示的存储器中。在声音数据的信号等级成为第二预定阈值以下的情况下，例如，虽然产生机械的动作音，但是也包括该机械停止而动作音消失的情况。
[0084]检测部39例如检测进行了指向性处理的声音数据所包含的异常音作为监视对象音。例如，异常音的图案存储于未图示的存储器，检测部39在声音数据包括异常音的图案的情况下，检测异常音。
[0085]检测部39例如检测进行了指向性处理的声音数据所包含的预定关键字作为监视对象音。例如，将关键字的信息存储于未图示的存储器，检测部39在声音数据中包括记录于存储器的关键字的情况下，检测关键字。另外，在检测关键字的情况下，例如，可以使用公知的声音识别技术。在这种情况下，检测部39具有公知的声音识别功能。
[0086]另外，监视对象音可以预先设定。例如，检测部39可以将信号等级为第一预定阈值以上或第二预定阈值以下的声音、异常音、关键字中的至少一个设定为监视对象音。该设定信息例如存储在未图示的存储器中。
[0087]检测部39在检测到上述的监视对象音的情况下，将检测到监视对象音的内容的信息(检测信息)向图像输出部33及声音输出部42中的至少一方发送。检测信息包括例如异常音、具有第一预定阈值以上或第二预定阈值以下的信号等级的声音、检测到预定关键字的内容的警告信息(警报)。
[0088]而且，检测部39在检测到监视对象音的情况下，向数据记录部43发送预定信息。检测部39在检测到监视对象音的情况下，例如，可以将检索用标志的信息向数据记录部43发送、保持。检索用标志是用于从数据记录部43中检索包括监视对象音的声音数据或与该声音数据对应的图像数据的标志。
[0089]检索用标志例如可以在与实时取得的声音数据或图像数据相同的时机，记录于数据记录部43。而且，检索用标志例如也可以与已经记录于数据记录部43的声音数据或图像数据建立对应地记录于数据记录部43。
[0090]例如，操作者60经由触摸面板62输入与检索用标志一致或对应的信息，由此图像译码器32或声音译码器36在记录于数据记录部43的声音数据或图像数据中，检索、取得与检索用标志一致或对应的数据。因此，例如，即使在对声音数据或图像数据进行长时间录音或录像的情况下，也能够缩短检索时间。
[0091]而且，操作者60例如可以经由触摸面板62，从时序地排列有多个检索用标志的列表中选择特定的检索用标志。在这种情况下，操作者60可以从生成时刻最旧的或最新的检索用标志起依次选择特定的检索用标志。而且，操作者60例如可以经由触摸面板62，选择在与由计时部(未图示)计时的时刻对应的时刻生成的检索用标志作为特定的检索用标志。图像译码器32或声音译码器36在记录于数据记录部43的声音数据或图像数据中，检索、取得与上述特定的检索用标志一致或对应的数据。列表例如记录于数据记录部43。
[0092]检索用标志包括例如由检测部39检测到监视对象音的时刻的信息。检索用标志包括例如产生监视对象音的声源的方向(指向性的方向)的信息。检索用标志包括例如包括产生了监视对象音的声源的范围的大小(指向性的范围的大小)的信息。检索用标志包括例如监视对象音的类别(包括异常音、关键字的声音、预定阈值

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6