声音处理设备、方法以及程序的制作方法

文档序号:2827440阅读:140来源:国知局
声音处理设备、方法以及程序的制作方法
【专利摘要】本发明公开了一种声音处理设备和声音处理方法。该声音处理设备包括因子分解单元和提取单元。因子分解单元被配置成将通过对多个声道的声音信号进行时间频率变换而获得的频率信息因子分解成表示声道方向的属性的声道矩阵、表示频率方向的属性的频率矩阵以及表示时间方向的属性的时间矩阵。提取单元被配置成将声道矩阵与阈值进行比较,并且从声道矩阵、频率矩阵及时间矩阵提取由该比较的结果指定的分量,以生成关于来自所期望的声音源的声音的频率信息。
【专利说明】声音处理设备、方法以及程序
[0001] 相关申请的交叉引用
[0002] 本申请要求2013年4月25日提交的日本优先权专利申请JP2013-092748的优先 权,其全部内容通过引用结合在本文中。

【技术领域】
[0003] 本技术涉及声音处理设备、方法以及程序,更具体地,涉及能够更容易地和更可靠 地进行声音源分离的声音处理设备、方法以及程序。

【背景技术】
[0004] 已知技术将从多个声音源输出的声音分离成各个声音源的声音。
[0005] 例如,已提出了背景声音分离器(例如,见日本专利申请公开No. 2012-205161)作 为用于建立声音通信装置的真实感的传输和声音清晰度的增强二者的基本技术。该背景声 音分离器使用最小值检测、仅背景声音间隔中的谱平均等来估计稳定的背景声音。
[0006] 此外,已提出了能够将来自邻近的声音源的声音与来自彼此远离的声音源的声音 进行适当分离的声音分离装置(例如,见日本专利申请公开No. 2012-238964)作为声音源分 离技术。该声音分离装置使用两个麦克风即邻近的声音源麦克风(NFM)和远离的声音源麦 克风(FFM),通过独立的分量分析进行声音源分离。


【发明内容】

[0007] 另外,当同时输入接近麦克风的较低声音(下文中也被称为局部声音)和远离麦克 风的响亮声音(下文中也被称为全局声音)时,需要分辨出局部声音与全局声音并且将局部 声音与全局声音彼此分离。
[0008] 然而,例如在将局部声音与全局声音彼此分离时,上面的技术难以容易且可靠地 进行声音源分离。
[0009] 例如,背景声音通常不只包括稳定的分量,而是还包括许多不稳定的分量,如作为 局部声音的谈话声和撕撕声。因此,日本专利申请公开No. 2012-205161中所描述的背景声 音分离器难以去除不稳定的分量。
[0010] 此外,理论上难以通过独立的分量分析将数量大于麦克风数量的声音源分离。具 体地,在相关技术中,可以通过使用两个麦克风将声音分离成全局声音和局部声音的两个 声音源,但是难以将局部声音彼此分离开以及将声音分离成总共三个声音源。因此,例如, 难以吸收接近特定麦克风的局部声音。
[0011] 此外,由于日本专利申请公开No. 2012-238964中所描述的声音分离装置期望使 用两种类型的特殊麦克风(FFM和NFM),因此限制了麦克风的数量和类型,并且声音源分离 装置只被用于有限的目的。
[0012] 本技术鉴于上述情况并且因此期望更容易且可靠地进行声音源分离。
[0013] 根据本技术的实施方式的声音处理设备包括因子分解单元和提取单元。因子分解 单元被配置成将通过对多个声道的声音信号进行时间频率变换而获得的频率信息因子分 解成表示声道方向的属性的声道矩阵、表示频率方向的属性的频率矩阵以及表示时间方向 的属性的时间矩阵。提取单元被配置成将声道矩阵与阈值进行比较,并且从声道矩阵、频率 矩阵及时间矩阵提取由该比较的结果指定的分量,以生成关于来自所期望的声音源的声音 的频率信息。
[0014] 提取单元可以基于通过时间频率变换获得的频率信息、声道矩阵、频率矩阵及时 间矩阵来生成关于来自声音源的声音的频率信息。
[0015] 可以基于声音源的位置与声音采集单元的位置之间的关系来设置阈值,该声音采 集单元被配置成采集各个声道的声音信号的声音。
[0016] 可以针对声道中的每个声道设置阈值。
[0017] 声音处理设备还可以包括信号同步单元,信号同步单元被配置成使得由不同的装 置采集的多个声音的信号彼此同步以生成多个声道的声音信号。
[0018] 因子分解单元可以将频率信息假设为以声道、频率及时间帧作为各维度的三维张 量,并且通过张量因子分解将频率信息因子分解成声道矩阵、频率矩阵及时间矩阵。
[0019] 张量因子分解可以是非负张量因子分解。
[0020] 声音处理设备还可以包括频率时间变换单元,频率时间变换单元被配置成对提取 单元所获得的关于来自声音源的声音的频率信息进行频率时间变换,以生成多个声道的声 音信号。
[0021] 提取单元可以生成包含来自一个所期望的声音源或多个所期望的声音源的声音 分量的频率信息。
[0022] 根据本技术的实施方式的声音处理方法或程序包括:将通过对多个声道的声音信 号进行时间频率变换而获得的频率信息因子分解成表示声道方向的属性的声道矩阵、表示 频率方向的属性的频率矩阵以及表示时间方向的属性的时间矩阵;以及将声道矩阵与阈值 进行比较,并且从声道矩阵、频率矩阵及时间矩阵提取由比较的结果指定的分量,以生成关 于来自所期望的声音源的声音的频率信息。
[0023] 根据本技术的实施方式,通过对多个声道的声音信号进行时间频率变换而获得的 频率信息被因子分解成表示声道方向的属性的声道矩阵、表示频率方向的属性的频率矩阵 以及表示时间方向的属性的时间矩阵。此外,将声道矩阵与阈值进行比较,并且从声道矩 阵、频率矩阵及时间矩阵提取由比较的结果指定的分量,以生成关于来自所期望的声音源 的声音的频率信息。
[0024] 根据本技术的实施方式,可以更容易且更可靠地进行声音源分离。
[0025] 如附图中所示出的,根据下面对本公开内容的最佳方式的实施方式的详细描述, 本公开内容的这些和其他目的、特征及优点将变得更加明显。

【专利附图】

【附图说明】
[0026] 图1是描述由麦克风采集声音的图;
[0027] 图2是示出全局声音提取设备的配置示例的图;
[0028] 图3是描述输入复合谱的图;
[0029] 图4是描述输入复合谱图的图;
[0030] 图5是描述张量因子分解的图;
[0031] 图6是描述声道矩阵的图;
[0032] 图7是描述声音源提取处理的流程图;以及
[0033] 图8是示出计算机的配置示例的图。

【具体实施方式】
[0034] 在下文中,将参照【专利附图】
附图
【附图说明】应用了本技术的实施例。
[0035] (本技术的概述)
[0036] 首先,将描述本技术的概述。
[0037] 例如,当在现实世界中使用麦克风记录信息时,输入信号很少是从单个声音源发 出的信号,而通常是从多个声音源发出的信号被混合在一起的信号。
[0038] 此外,每个声音源组与麦克风之间的距离不同。即使在听到混合声音时相同地感 觉到每个声音源信号的声压,每个声音源信号的声音源也未必与麦克风分离开相等的距 离。当基于距离将每个声音源组粗略地分成两个组时,一组是具有相对高的初始声压但是 具有较大声压衰减的信号组,另一组是具有相对低的初始声压但是具有较小声压衰减的信 号组。
[0039] 如上所述,具有相对高的初始声压并且具有较大声压衰减的信号是全局声音的声 音信号,即,从远离麦克风的声音源发出的响亮的声音。另一方面,具有相对低的初始声压 并且具有较小声压衰减的信号是局部声音的声音信号,即,从接近麦克风的声音源发出的 较低声音。
[0040] 当由麦克风记录的信号只有一维时,很难将全局声音与局部声音分离。然而,当在 同一空间存在多个麦克风时,可以基于每个麦克风的输入信号中包含的每个声音源信号的 分量比来将全局声音与局部声音分离。
[0041] 在本技术中,将声压比用作为分量比。例如,当来自特定声音源A的声音的声压比 只是在特定的麦克风Ml中较大时,可以假设声音源A接近麦克风Ml。
[0042] 另一方面,当从特定声音源B输入的信号对所有麦克风具有相等的声压比时,可 以假设具有高声压的声音源B在远处。
[0043] 假设以某距离布置一组麦克风而做出上面的假设。通过针对每个声音源将信号 彼此分离开并且基于每个分离的信号的声压比将信号分类,可以将全局声音与局部声音分 离。
[0044] 此处,在可以接近每个麦克风存在具有相同类型的声音特征的多个声音源的情况 下反驳上面的假设,但是这种情况在现实世界中很少发生。
[0045] 在现实世界中,全局声音的不例包括具有相对高的声压的信号的声音,例如从交 通设施发出的声音、从施工现场发出的声音、从体育场馆发出的欢呼声及乐团表演。另一方 面,局部声音的不例包括具有相对低的声压的信号的声音,例如谈话声、脚步声及撕撕声。
[0046] 本技术可应用于例如真实感觉通信等。真实感觉通信是用于将输入信号从安装在 城镇中的多个麦克风传送至遥远的地方的技术。在这种情况下,麦克风不一定固定就位并 且假设麦克风包括在由移动的人等拥有的移动装置中安装的麦克风。
[0047] 由多个麦克风获取的声音信号可以受到本技术中的信号处理,并且米集的声音被 分类成全局声音和局部声音。因此,获得各种次级效应。
[0048] 为了方便理解,将作为示例描述城镇图像提供服务,通过该服务指定地图上期望 的地点以显示在该地点拍摄的城镇的图像。在城镇图像提供服务中,城镇的图像随着用户 移动地图上的地点而改变。因此,用户可以以如同他/她在实际地点一样的感觉来享受对 地图的观看。
[0049]目前,一般的城镇图像提供服务只传送静止图像。然而,当假设开发提供动态图像 时,出现了各种问题。例如,问题包括怎样将由多个摄像机获取的动态图像集成到一起的问 题以及是否保护在动态图像的声音中所包含的人的声音的隐私的问题。
[0050] 作为针对前一问题的对策,假设不使用接近每个麦克风的局部声音并且将具有更 大真实感觉的全局声音用作集成声音。此外,作为针对后一问题的对策,假设删除并减少了 包含人的声音的局部声音或者变换了音质。(全局声音提取设备的配置不例)
[0051] 接下来,将描述应用了本技术的【具体实施方式】。在下文中,使用全局声音提取设备 作为不例,将描述应用了本技术的全局声音/局部声音分离设备。注意的是,虽然全局声音 /局部声音分离设备当然能从由麦克风米集的声音中只提取特定局部声音的声音信号,但 是将给出只提取全局声音的情况下的以下描述作为示例。
[0052] 全局声音提取设备是这样的设备:在由多个麦克风记录声音的情况下,其分离并 去除只存在于由麦克风中的每个麦克风米集的声音中的局部信号,即仅局部声音的声音信 号,并且获取全局信号,即仅全局声音的声音信号。
[0053] 此处,图1示出了由两个麦克风记录信号的示例。在图1中,由位于左后侧的麦克 风Ml 1-L和位于右近侧的麦克风Ml 1-R采集声音。注意的是,当不能将麦克风Ml 1-L和麦 克风Ml 1-R具体地彼此区分时,麦克风Ml 1-L和麦克风Ml 1-R仅被称为Ml 1。
[0054] 在图1的示例中,麦克风Mil安装在其中机动车辆和火车运行并且人存在的外部 环境中。此外,撕撕声被混合在只由麦克风Ml 1-L采集到的声音中,而谈话声被混合在只由 麦克风Ml 1-R采集到的声音中。
[0055] 全局声音提取设备使用由麦克风Ml 1-L和麦克风Ml 1-R获取的声音信号作为输入 信号进行信号处理以将全局信号与局部信号分离。
[0056] 此处,全局声音是输入到麦克风Ml 1-L和麦克风Ml 1-R二者的信号的声音,局部声 音是输入到麦克风M11-L和麦克风M11-R之一中的信号的声音。
[0057] 在图1的不例中,撕撕声和谈话声是局部声音,其他声音是全局声音。注意的是, 虽然在图1的示例中总共使用了两个麦克风Mil以简化描述,但是实际上可以存在两个或 更多个麦克风。此外,未具体限定麦克风Mil的类型、方向特征、布置方向等。
[0058] 此外,给出其中多个麦克风Mil被安装在外部并且将全局声音与局部声音分离的 情况下的以上描述作为本技术的应用示例。然而,本技术也可以应用到例如多视图记录。多 视图记录是下述应用程序:只提取和图像一起获取的多个声音信号所共有的元素,并且在 其中许多观众例如在足球场馆上传动态图像并且在因特网上使用多视图享受相同的图像 的情形下再现该元素。
[0059] 如上所述,通过只提取共有元素,可以防止每个人或周围人的谈话声与局部噪声 混合。
[0060] 接下来,将描述全局声音提取设备的特定配置示例。图2是示出应用了本技术的 全局声音提取设备的实施方式的配置示例的图。
[0061] 全局声音提取设备11包括信号同步单元21、时间频率变换单元22、声音源因子分 解单元23、声音源选择单元24及频率时间变换单元25。
[0062] 将由安装在不同装置中的多个麦克风Mil采集到的多个声音信号作为输入信号 提供给信号同步单元21。信号同步单元21使得从麦克风Mil提供的异步输入信号彼此同 步,然后对多个相应声道中的各输入信号进行布置以生成准多声道输入信号并且将其提供 给时间频率变换单元22。
[0063] 提供给信号同步单元21的各输入信号是由安装在不同装置中的麦克风Mil采集 到的声音的信号,并且因此彼此不同步。因此,信号同步单元21使得异步输入信号彼此同 步,然后将各个经同步的输入信号当作各声道的声音信号以生成包括多个声道的准多声道 输入信号。
[0064] 注意的是,虽然描述了提供给信号同步单元21的各输入信号不彼此同步的情况, 但是提供给全局声音提取设备11的各输入信号可以彼此同步。例如,可以将安装在装置中 的用于右声道的麦克风获取的声音信号以及安装在装置中的用于左声道的麦克风获取的 声音信号作为输入信号提供给全局声音提取设备11。
[0065] 在这种情况下,由于右声道和左声道的输入信号彼此同步,全局声音提取设备11 可以不具有信号同步单元21,并且将经同步的输入信号提供给时间频率变换单元22。
[0066] 时间频率变换单元22对从信号同步单元21提供的准多声道输入信号进行时间频 率变换,并且使得准多声道输入信号非负。
[0067] 也就是说,时间频率变换单元22对所提供的准多声道输入信号进行时间频率变 换,并且将产生的输入复合谱作为频率信息提供给声音源选择单元24。此外,时间频率变换 单元22将包括通过使输入复合谱非负而获得的非负谱的非负谱图提供给声音源因子分解 单元23。
[0068] 声音源因子分解单元23假设从时间频率变换单元22提供的非负谱图为具有声 道、频率及时间帧作为维度的三维张量,并且进行NTF (非负张量因子分解)。声音源因子分 解单元23将通过NTF获得的声道矩阵Q、频率矩阵W及时间矩阵Η提供给声音源选择单元 24。
[0069] 声音源选择单元24基于从声音源因子分解单元23提供的声道矩阵Q、频率矩阵W 及时间矩阵Η来选择与全局声音相对应的各矩阵的分量,并且重新合成包括从时间频率变 换单元22提供的输入复合谱的谱图。声音源选择单元24将输出复合谱图Υ作为通过重新 合成获得的频率信息提供给频率时间变换单元25。
[0070] 频率时间变换单元25对从声音源选择单元24提供的输出复合谱图Υ进行频率时 间变换,然后进行产生的时间信号的交叠相加以生成并输出全局声音的多声道输出信号。
[0071] (信号同步单元)
[0072] 接下来,将更详细地描述图2中的全局声音提取设备11的各单元。首先,将描述 信号同步单元21。
[0073] 信号同步单元21将从多个麦克风Mil提供的输入信号& (t)建立时间同步。例 如,使用交叉相关的计算来建立时间同步。
[0074] 此处,输入信号Sj (t)中的j表示声道索引并且由0彡j彡J-1表示。此外,J 表示准多声道输入信号的声道的总数目。此外,输入信号h (t)中的t表示时间。
[0075] 当假设输入信号S」(t)中的基准输入信号SQ(t)是作为同步基准的输入信号并且 输入信号1(〇中的目标输入信号\_(t)是作为同步目标的输入信号(其中,j尹0)时,通 过下面的公式(1)来计算声道j的交叉相关值& ( Y )。
[0076]

【权利要求】
1. 一种声音处理设备,包括: 因子分解单元,被配置成将通过对多个声道的声音信号进行时间频率变换而获得的频 率信息因子分解成表示声道方向的属性的声道矩阵、表示频率方向的属性的频率矩阵以及 表不时间方向的属性的时间矩阵;以及 提取单元,被配置成将所述声道矩阵与阈值进行比较,并且从所述声道矩阵、所述频率 矩阵及所述时间矩阵提取由所述比较的结果指定的分量,以生成关于来自所期望的声音源 的声音的所述频率信息。
2. 根据权利要求1所述的声音处理设备,其中 所述提取单元被配置成基于通过所述时间频率变换获得的所述频率信息、所述声道 矩阵、所述频率矩阵及所述时间矩阵来生成关于来自所述声音源的所述声音的所述频率信 息。
3. 根据权利要求1所述的声音处理设备,其中 基于所述声音源的位置与声音采集单元的位置之间的关系来设置所述阈值,其中所述 声音采集单元被配置成采集各个所述声道的所述声音信号的声音。
4. 根据权利要求1所述的声音处理设备,其中 针对所述声道中的每个声道设置所述阈值。
5. 根据权利要求1所述的声音处理设备,还包括 信号同步单元,被配置成使得由不同的装置采集的多个声音的信号彼此同步以生成所 述多个声道的所述声音信号。
6. 根据权利要求1所述的声音处理设备,其中 所述因子分解单元被配置成将所述频率信息假设为以声道、频率及时间帧作为各维度 的三维张量,并且通过张量因子分解将所述频率信息因子分解成所述声道矩阵、所述频率 矩阵及所述时间矩阵。
7. 根据权利要求6所述的声音处理设备,其中 所述张量因子分解是非负张量因子分解。
8. 根据权利要求1所述的声音处理设备,还包括 频率时间变换单元,被配置成对所述提取单元所获得的关于来自所述声音源的所述声 音的所述频率信息进行频率时间变换,以生成所述多个声道的声音信号。
9. 根据权利要求1所述的声音处理设备,其中 所述提取单元被配置成生成包含来自一个所述所期望的声音源或多个所述所期望的 声音源的声音分量的所述频率信息。
10. -种声音处理方法,包括: 将通过对多个声道的声音信号进行时间频率变换而获得的频率信息因子分解成表示 声道方向的属性的声道矩阵、表示频率方向的属性的频率矩阵以及表示时间方向的属性的 时间矩阵;以及 将所述声道矩阵与阈值进行比较,并且从所述声道矩阵、所述频率矩阵及所述时间矩 阵提取由所述比较的结果指定的分量,以生成关于来自所期望的声音源的声音的所述频率 信息。
11. 一种使计算机执行处理的程序,所述处理包括: 将通过对多个声道的声音信号进行时间频率变换而获得的频率信息因子分解成表示 声道方向的属性的声道矩阵、表示频率方向的属性的频率矩阵以及表示时间方向的属性的 时间矩阵;以及 将所述声道矩阵与阈值进行比较,并且从所述声道矩阵、所述频率矩阵及所述时间矩 阵提取由所述比较的结果指定的分量,以生成关于来自所期望的声音源的声音的所述频率 信息。
【文档编号】G10L21/0272GK104123948SQ201410158313
【公开日】2014年10月29日 申请日期:2014年4月18日 优先权日:2013年4月25日
【发明者】光藤祐基 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1