声音输出设备、声音输出方法、程序和声音系统与流程

文档序号:15577189发布日期:2018-09-29 05:45阅读:326来源:国知局

本公开内容涉及声音输出设备、声音输出方法、程序和声音系统。



背景技术:

传统上,例如,如在下面列出的专利文献1中描述的那样,已知如下技术:通过测量预定环境中的脉冲响应并且将输入信号卷积到获得的脉冲响应中来再现脉冲响应的混响。

引用列表

专利文献

专利文献1:jp2000-97762a



技术实现要素:

然而,根据专利文献1中描述的技术,将通过测量而预先获取的脉冲响应卷积到用于用户想要添加混响声音的数字音频信号中。因此,专利文献1中描述的技术未假定对实时获取的声音添加诸如预定空间的模拟的空间模拟传递函数处理(例如,混响(reverberation或reverb))。

鉴于这样的情况,理想的是收听者听到添加了期望的空间模拟传递函数(混响)的、实时获取的声音。注意,在下文中,空间模拟传递函数被称为“混响处理”以简化说明。注意,在下文中,空间模拟传递函数被称为“混响处理”以简化说明。注意,不仅在存在过多混响成分的情况下,而且在存在几个混响成分的情况(诸如小空间模拟)下,传递函数被称为“混响处理”以对空间进行模拟,只要该传递函数是基于空间中的两点之间的传递函数即可。

解决问题

根据本公开内容,提供了一种声音输出设备,其包括:声音获取部,其被配置成获取根据周围声音生成的声音信号;混响处理部,其被配置成对声音信号执行混响处理;以及声音输出部,其被配置成向收听者的耳朵附近输出根据经过混响处理的声音信号生成的声音。

此外,根据本公开内容,提供了一种声音输出方法,其包括:获取根据周围声音生成的声音信号;对声音信号执行混响处理;以及向收听者的耳朵附近输出根据经过混响处理的声音信号生成的声音。

此外,根据本公开内容,提供了一种程序,其使得计算机用作:用于获取根据周围声音生成的声音信号的装置;用于对声音信号执行混响处理的装置;以及用于向收听者的耳朵附近输出根据经过混响处理的声音信号生成的声音。

此外,根据本公开内容,提供了一种声音系统,其包括第一声音输出设备和第二声音输出设备。该第一声音输出设备包括:声音获取部,其被配置成获取指示周围声音环境的声音环境信息;声音环境信息获取部,其被配置成从作为通信对方的第二声音输出设备获取指示第二声音输出设备周围的声音环境的声音环境信息;混响处理部,其被配置成根据声音环境信息对由声音获取部获取的声音信号执行混响处理;以及声音输出部,其被配置成向收听者的耳朵输出根据经过混响处理的声音信号生成的声音。第二声音输出设备包括:声音获取部,其被配置成获取指示周围声音环境的声音环境信息;声音环境信息获取部,其被配置成获取指示作为通信对方的第一声音输出设备周围的声音环境的声音环境信息;混响处理部,其被配置成根据声音环境信息对由声音获取部获取的声音信号执行混响处理;以及声音输出部,其被配置成向收听者的耳朵输出根据经过混响处理的声音信号生成的声音。

本发明的有益效果

如上所述,根据本公开内容,收听者能够听到添加了期望混响的、实时获取的声音。应注意,以上描述的效果不一定是限制性的。利用或代替上述效果,可以实现本说明书中描述的效果中的任一种效果或者可以从本说明书掌握的其他效果。

附图说明

图1是示出根据本公开内容的实施方式的声音输出设备的配置的示意图。

图2是示出根据本公开内容的实施方式的声音输出设备的配置的示意图。

图3是示出了耳式开放型(ear-open-style)声音输出设备向收听者的耳朵输出声波的情况的示意图。

图4是示出根据本公开内容的基本系统的示意图。

图5是示出佩戴图4所示的系统的声音输出设备的用户的示意图。

图6是示出被配置成通过使用通常的麦克风和诸如入耳式头戴式耳机的通常的“封闭型”耳机来提供与经过混响处理的声音有关的用户体验的处理系统的示意图。

图7是示出在图6的情况下、当将从声源输出的声音称为脉冲并且将空间传输设置为平坦时鼓膜上的声压的响应图像的示意图。

图8是示出使用“耳式开放型”声音输出设备和使用与图6和图7的声场环境相同的声场环境下的脉冲响应ir的情况的示意图。

图9是示出在图8的情况下、当将从声源输出的声音称为脉冲并且将空间传输设置为平坦时鼓膜上的声压的响应图像的示意图。

图10是示出通过应用混响处理来获得更高临场感(realisticsensation)的示例的示意图。

图11是示出基于视频内容来组合hmd显示的示例的示意图。

图12是示出基于视频内容来组合hmd显示的示例的示意图。

图13是示出在共享电话通话对方的声音环境时在电话上进行通话的情况的示意图。

图14是示出通过波束形成技术提取要作为单声道声音信号发送的自己的语音的示例的示意图。

图15是示出将在定位虚拟声像(soundimage)之后获得的声音信号添加到在混响处理之后获得的麦克风信号中的示例的示意图。

图16是示出很多人在电话上通话的示例的示意图。

图17是示出很多人在电话上通话的示例的示意图。

具体实施方式

在下文中,将参照附图详细描述本公开内容的一个或多个优选实施方式。注意,在本说明书和附图中,用相同的附图标记来表示具有基本上相同功能和结构的结构元件,并且省略对这些结构元件的重复说明。

注意,按以下顺序给出描述。

1.声音输出设备的配置示例

2.根据本实施方式的混响处理

3.根据本实施方式的系统的应用示例

1.声音输出设备的配置示例

首先,参照图1,将描述根据本公开内容的实施方式的声音输出设备的示意性配置。图1和图2是示出根据本公开内容的实施方式的声音输出设备100的配置的示意图。注意,图1是声音输出设备100的正视图,以及图2是在从左侧看时的声音输出设备100的立体图。图1和图2所示的声音输出设备100被配置成佩戴在左耳上。佩戴在右耳上的声音输出设备(未示出)被配置成使得佩戴在右耳上的声音输出设备是佩戴在左耳上的声音输出设备的镜像。

图1和图2所示的声音输出设备100包括声音生成部(声音输出部)110、声音引导部120和支承部130。声音生成部110被配置成生成声音。声音引导部120被配置成通过一端121捕获由声音生成部110生成的声音。支承部130被配置成在另一端122附近支承声音引导部120。声音引导部120包括内径为1mm至5mm的中空管材(tubematerial)。声音引导部120的两端为开放端。声音引导部120的一端121是由声音生成部110生成的声音的声音输入孔,而另一端122是该声音的声音输出孔。因此,由于一端121附接到声音生成部110,所以声音引导部120的一侧是开放的。

如稍后所述,支承部130适合于耳道的开口附近(诸如耳屏间切迹),并且在另一端122附近支承声音引导部120,使得在声音引导部120的另一端122处的声音输出孔面对耳道深处。声音引导部120的在至少另一端122附近的外径小于耳道的开口的内径。因此,即使在声音引导部120的另一端122被支承部130支承在耳道的开口附近的状态下,另一端122也不会完全覆盖收听者的耳孔。换言之,耳孔是开放的。声音输出设备100与常规的耳机不同。声音输出设备100可以被称为“耳式开放型”设备。

此外,支承部130包括开口部131,该开口部131被配置成即使在声音引导部120由支承部130支承的状态下也允许耳道入口(耳孔)向外部开放。在图1和图2所示的示例中,支承部130具有环形结构,并且仅经由棒状支承部件132与声音引导部120的另一端122附近连接。因此,除了它们之外的环形结构的所有部分都是开口部131。注意,如稍后所述,支承部130不限于环形结构。只要支承部130具有中空结构并且能够支承声音引导部120的另一端122,则支承部130可以是任何形状。

管状的声音引导部120将由声音生成部110生成的声音从声音引导部120的一端121捕获到管中,传播声音的空气振动,将空气振动从由支承部件130支承在耳道的开口附近的另一端122发射至耳道,并且将空气振动传送至鼓膜。

如上所述,支承声音引导部120的另一端122附近的支承部130包括开口部131,该开口部131被配置成允许耳道的开口(耳孔)向外部开放。因此,即使在收听者佩戴声音输出设备100的状态下,声音输出设备100也不会完全覆盖收听者的耳孔。即使在收听者佩戴声音输出设备100并且收听从声音生成部110输出的声音的情况下,收听者也可以通过开口部131充分地听到周围声音。

注意,虽然根据该实施方式的声音输出设备100允许耳孔向外部开放,但是声音输出设备100可以抑制由声音生成部100生成的声音(再现声音)泄漏到外部。这是因为声音输出设备100被佩戴成使得声音引导部120的另一端122面对在耳道的开口附近的耳道深处,生成的声音的空气振动被发射到鼓膜附近,并且这使得即使在减小来自声音输出部100的输出的情况下也能够实现良好的音质。

此外,从声音引导部120的另一端122发射的空气振动的方向性也有助于防止声音泄漏。图3示出了耳式开放型声音输出设备100向收听者的耳朵输出声波的情况。从声音引导部120的另一端122朝向耳道内部发射空气振动。耳道300是从耳道的开口301开始并且在鼓膜302处结束的孔。通常,耳道300具有约25mm至30mm的长度。耳道300是管状的封闭空间。因此,如附图标记311所示,从声音部120的另一端122朝向耳道300深处发射的空气振动以方向性传播至鼓膜302。此外,空气振动的声压在耳道300中增加。因此,对低频(增益)的敏感度提高。另一方面,耳道300的外部(即,外界)是开放空间。因此,如附图标记312所示,从声音引导部120的另一端122向耳道300外部发射的空气振动在外界不具有方向性并且迅速衰减。

返回至参照图1和图2的描述,管状的声音引导部120的中间部分具有从耳朵的后侧至耳朵的前侧的弯曲形状。弯曲部分是具有可开闭结构的夹持部分123,并且能够产生夹紧力并夹持耳垂。其细节将在后面描述。

此外,声音引导部120还包括在弯曲的夹持部分123与设置在耳道的开口附近的另一端122之间的变形部分124。当施加过大的外力时,变形部分124变形,使得声音引导部120的另一端122不会太深地插入耳道深处。

当使用具有上述配置的声音输出设备100时,即使在佩戴声音输出设备100时收听者也可以自然地听到周围声音。因此,收听者可以根据他/她的听觉特性充分利用该收听者作为人类的功能,诸如识别空间、识别危险以及识别对话和对话中的细微差别。

如上所述,在声音输出设备100中,用于再现的结构不完全覆盖耳孔附近。因此,周围声音在声学上是通透的。以与未佩戴通常的耳机的人的环境类似的方式,可以按原样听到周围声音,并且还可以通过经由其管道或导道形状再现期望的声音信息来或音乐来同时听到周围声音和声音信息或音乐两者。

基本上,近年来已广泛使用的入耳式耳机具有完全覆盖耳道的封闭结构。因此,用户以与他的/她的耳道对外部开放的情况不同的方式听到他/她自己的语音和咀嚼声。在很多情况下,这使用户感到陌生和不舒服。这是因为自己发出的声音和咀嚼声会通过骨骼和肌肉发射到封闭的耳道。因此,声音的低频被增强并且增强后的声音传播至鼓膜。当使用声音输出设备100时,这样的现象永远不会发生。因此,即使在收听期望的声音信息时也可以享受平常的对话。

如上所述,根据实施方式的声音输出设备100将周围声音作为声波毫无变化地传递,并且经由管状的声音引导部120将所呈现的声音或音乐传送至耳孔附近。这使得用户能够在听到周围声音的同时体验声音或音乐。

图4是示出根据本公开内容的基本系统的示意图。如图4所示,左声音输出设备100和右声音输出设备100中的每一个都设置有麦克风(声音获取部)400。从麦克风400输出的麦克风信号经过由麦克风放大器/adc402执行的放大,经过ad转换,经过由dsp(或mpu)404执行的dsp处理(混响处理),经过由dac/放大器(或数字放大器)406执行的放大,经过da转换,然后由声音输出设备100再现。因此,从声音生成部100生成声音,并且用户可以经由声音引导部120通过他的/她的耳朵听到声音。在图4中,左麦克风400和右麦克风400被独立地设置,并且麦克风信号经过由相应侧执行的独立混响处理。注意,声音输出设备100的声音生成部110可以包括诸如麦克风放大器/adc402、dsp404以及dac/放大器406的各个结构元件。此外,图4所示的各个框中的这样的结构元件可以通过电路(硬件)或诸如cpu的中央处理单元以及用于使其起作用的程序(软件)来实现。

图5是示出佩戴图4所示的系统的声音输出设备100的用户的示意图。在该情况下,在用户体验中,直接进入耳道的周围声音和由麦克风400收集到的、经过信号处理并且然后进入声音引导部120的声音被空间声学地添加在耳道路径中,如图5所示。因此,两个声音的组合声音到达鼓膜,并且可以基于组合声音来识别声场和空间。

如上所述,dsp404用作被配置成对麦克风信号执行混响处理的混响处理部(混响处理部)。作为混响处理,所谓的“采样混响”具有很高的临场感。在“采样混响”中,将在任何实际位置处测量声音的两点之间的脉冲响应按原样卷积(在频域内的计算等同于传递函数的乘法)。替选地,为了简化计算资源,也可以使用通过利用无限脉冲响应(iir)对采样混响的部分或全部进行近似而获得的滤波器。这样的脉冲响应也是通过模拟来获得的。例如,图4所示的混响类型数据库(db)408存储通过在诸如音乐厅、电影院等任何位置处测量声音而获得的与多种混响类型对应的脉冲响应。用户能够从与多种混响类型对应的脉冲响应中选择最佳脉冲响应。注意,可以以与上述专利文献1类似的方式执行卷积,并且可以使用fir数字滤波器或卷积器。在该情况下,可以具有用于混响的多个滤波器系数,并且用户可以选择任意滤波器系数。此时,通过使用预先测量或模拟的脉冲响应(ir),根据诸如发射在用户周围创建的声音(诸如来自某人的话音、某物的掉落或者从用户他/她自己发出声音)的事件,用户可以感觉到除了用户实际存在的位置之外的位置的声场。关于对空间的大小的识别,用户也可以通过听觉来感觉测量ir的场所。

2.根据本实施方式的混响处理

接下来,将描述根据该实施方式的混响处理的详情。首先,参照图6和图7,将描述用于通过使用通常的麦克风400和诸如入耳式头戴式耳机的通常的“封闭型”头戴式耳机500来提供用户体验的处理系统。除了头戴式耳机500是“封闭型”头戴式耳机之外,图6中所示的头戴式耳机500的配置与图4中所示的声音输出设备100类似。麦克风400被安装在左右头戴式耳机500附近。在该情况下,假定封闭型头戴式耳机500具有高噪声隔离性能。此处,为了模拟特定的声场空间,假定已测量图6中所示的脉冲响应ir。如图6所示,麦克风400收集到从声源600输出的声音,并且作为混响处理,dsp404将包括直接声音成分的ir自身卷积到来自麦克风400的麦克风信号中。因此,用户可以感觉到特定的声场空间。注意,在图6中,省略了麦克风放大器/adc402和dac/放大器406的图示。

然而,尽管头戴式耳机500是封闭型头戴式耳机,但是头戴式耳机500通常不能实现足够的隔音性能,特别是对于低频。因此,一部分声音可以通过头戴式耳机500的外壳进入内部,并且作为来自声音隔离的剩余成分的声音可以到达用户的鼓膜。

图7是示出当将从声源600输出的声音称为脉冲并且将空间传输设置为平坦时鼓膜上的声压的响应图像的示意图。如上所述,封闭型头戴式耳机500具有高隔音性能。然而,关于未被隔离的部分声音,空间传输的直接声音成分(从声音隔离剩余)仍然存在,并且用户听到部分声音的一点声音。接下来,在经过由dsp404执行的卷积(或fir)运算的处理时间并且经过在adc和dac中引起的“系统延迟”的时间之后连续地观察图6中所示的脉冲响应ir的响应序列。在该情况下,可能会将空间传输的直接声音成分听成来自声音隔离的剩余部分,并且由于整个系统延迟而产生奇怪的感觉。更具体地,参照图7,在时间t0,从声源600产生声音。在经过从声源600至鼓膜的空间传输时间之后,用户可以听到空间传输的直接声音成分(时间t1)。在t1时间,用户听到的声音是来自声音隔离的剩余声音。来自声音隔离的剩余声音指的是未被封闭型头戴式耳机500隔离的声音。接下来,在经过上述的“系统延迟”的时间之后,用户可以听到经过混响处理的直接声音成分(时间t2)。如上所述,用户听到空间传输的直接声音成分,然后听到经过混响处理的直接声音成分。这可能给用户带来陌生的感觉。接下来,用户听到经过混响处理的早期反射声音(时间t3),并且在时间t4之后听到经过混响处理的混响成分。因此,经过混响处理的所有声音由于“系统延迟”而被延迟,并且这可能给用户带来陌生的感觉。此外,即使头戴式耳机500完全隔离外部声音,由于上述的“系统延迟”,在用户的视觉与听觉之间也可能产生脱节。在图7中,在时间t0,从声源600产生声音。然而,在头戴式耳机500成功地完全隔离外部声音的情况下,用户首先听到经过混响处理的直接声音成分作为直接声音成分。这导致用户的视觉与听觉之间的脱节。用户的视觉与听觉之间的脱节的示例包括对话对方的实际嘴部运动与对应于嘴部运动(唇部同步)的语音之间的不匹配。

存在发生上述陌生的感觉的可能。然而,根据图6和图7所示的实施方式的配置,可以将期望的混响添加到由麦克风400实时获取的声音中。因此,可以使收听者听到不同声音环境的声音。

图8和图9是示出在使用“耳式开放型”声音输出设备100并且使用与图6和图7的声场环境相同的声场环境中的脉冲响应ir的情况的示意图。此处,图8对应于图6,并且图9对应于图7。首先,如图8所示,该实施方式不使用图6所示的脉冲响应中的直接声音成分作为dsp404的卷积成分。这是因为在使用根据该实施方式的“耳式开放型”声音输出设备100的情况下,直接声音成分通过空间按原样进入耳道。因此,与图6和图7所示的封闭型头戴式耳机500相比,“耳式开放型”声音输出设备100不需要通过由dsp404执行的计算和耳机再现来创建直接声音成分。

因此,如图8所示,将通过从特定声场的原始脉冲响应ir(图6所示的ir)中减去包括dsp处理计算时间的系统延迟的时间信息而获得的部分(图8中用点划线框住的区域)用作实际用于卷积运算的脉冲响应ir'。系统延迟的时间信息是在测量的直接声音成分与早期反射声音之间的间隔内生成的。

以类似于图7的方式,图9是示出当在图8的情况下从声源600输出的声音被称为脉冲并且空间传输被设置成平坦时鼓膜上的声压的响应图像的示意图。如图9所示,当在时间t0从声源600产生声音时,以类似于图7的方式生成从声源600至鼓膜的空间传输时间(t0至t1)。然而,由于使用了“耳式开放型”声音输出设备100,所以在时间t1在鼓膜上观察到空间传输的直接声音成分。随后,在时间t5,在鼓膜上观察到由于混响处理而引起的早期反射声音,并且在时间t6之后,在鼓膜上观察到由于混响处理而引起的混响成分。在该情况下,如图8所示,在要被卷积的ir上预先减去与系统延迟对应的时间。因此,在听到直接声音成分之后,用户能够在适当定时听到混响处理的早期反射声音。此外,由于混响处理的早期反射声音是与特定声场环境对应的声音,所以用户可以享受犹如用户处于与特定声场环境对应的另一真实位置一样的声场感觉。可以通过从特定声场的原始脉冲响应ir中减去在直接声音成分与早期反射声音之间的间隔内发生的系统延迟的时间信息来吸收系统延迟。因此,能够减轻低延迟系统的必要性以及更快地操作dsp404的计算资源的必要性。因此,能够减小系统的尺寸,并且能够简化系统配置。因此,能够获得诸如显著降低制造成本的大的实际效果。

此外,如图8和图9所示,与图6和图7所示的系统相比,当使用根据该实施方式的系统时用户两次都没有听到直接声音。可以显著地改善总体延迟的一致性,并且尽管在图6和图7中发生劣化,但是还可以避免由于来自声音隔离的不必要的剩余成分与由于混响处理而引起的直接声音成分之间的干扰而导致的音质劣化。

此外,与混响成分相比,人可以基于分辨率和频率特性来容易地区分直接声音成分是真实声音还是人造声音。换言之,声音真实性对于直接声音而言尤其重要,因为容易确定直接声音是真实声音还是人造声音。根据图8和图9所示的实施方式的系统使用“耳式开放型”声音输出设备100。因此,到达用户耳朵的直接声音是由声源600自身产生的直接“声音”。基本上,该声音不会由于计算处理、adc、dac等而劣化。因此,当听到真实声音时,用户可以感受到强烈的临场感。

注意,可以认为,考虑图8和图9中所示的系统延迟的脉冲响应ir'的配置是能够有效地使用图6所示的脉冲响应ir'中的直接声音成分与早期反射声音成分之间的时间间隔作为dsp计算处理、adc或dac的延迟时间。由于耳式开放型声音输出设备100将直接声音按原样传送到鼓膜,所以能够建立这样的系统。当使用“封闭型”头戴式耳机时,不可能建立这样的系统。此外,即使不可以使用能够执行高速处理的低延迟系统,也可以通过从特定声场的原始脉冲响应ir中减去在直接声音成分与早期反射声音之间的间隔内发生的系统延迟的时间信息来提供犹如用户在不同空间中一样的用户体验。因此,能够以低成本提供创新系统。

3.根据本实施方式的系统的应用示例

接下来,将描述根据该实施方式的系统的应用示例。图10示出了通过应用混响处理来获得更高临场感的示例。图10示出了右(r)侧系统。此外,左(l)侧具有作为图10所示的右(r)侧系统的镜像的系统配置。通常,l侧再现设备独立于r侧再现设备,并且它们不以有线方式连接。在图10所示的配置示例中,l侧声音输出设备100和r侧声音输出设备100经由无线通信部412连接,并且建立了双向通信。注意,可以经由诸如智能电话的中继器(repeater)在l侧声音输出设备100与r侧声音输出设备100之间建立双向通信。

图10所示的混响处理实现立体声混响。关于由右侧声音输出设备100执行的再现,对右侧麦克风400和左侧麦克风400的相应麦克风信号执行不同的混响处理,并且在再现时输出麦克风信号相加的结果。以类似的方式,关于由左侧声音输出设备100执行的再现,对左侧麦克风400和右侧麦克风400的相应麦克风信号执行不同的混响处理,并且在再现时输出麦克风信号相加的结果。

在图10中,l侧麦克风400收集到的声音由r侧无线通信部412接收,并且经过由dsp404b执行的混响处理。另一方面,r侧麦克风400收集到的声音经过由麦克风放大器/adc402执行的放大,经过ad转换,并且经过由dsp404a执行的混响处理。加法器(叠加部)414将经过混响处理的左麦克风信号和右麦克风信号相加。这使得能够将一个耳朵听到的声音叠加在另一耳侧。因此,例如,可以在听到反映右边和左边的声音的情况下增强临场感。

在图10中,经由蓝牙(注册商标)(le)、wi-fi、诸如独特的900mhz的通信方案、近场磁感应(用在助听器等中的nfmi)、红外通信等来执行l侧麦克风信号和r侧麦克风信号的交换。替选地,该交换可以以有线方式来执行。此外,理想的是左侧和右侧不仅共有(同步)麦克风信号,而且共有(同步)与用户选择的混响类型有关的信息。

接下来,将描述基于视频内容来组合头戴式显示器(hmd)的显示的示例。在图11和图12所示的示例中,例如,内容存储在介质(诸如盘或存储器)中。内容的示例包括从云传送且被临时存储在本地侧设备中的内容。这样的内容包括具有高互动特性的内容,诸如游戏。在内容中,视频部分经由视频处理部分420显示在hmd600上。在该情况下,当内容中的场景指示诸如教堂或大厅的具有大的混响的场所时,认为可以在产生内容期间对人的语音或该场所中的对象的声音离线地执行混响处理,或者可以在再现设备侧执行混响处理(渲染(rendering))。然而,在该情况下,当听到用户自己的语音或用户周围的真实声音时沉浸在内容中的感觉劣化。

根据该实施方式的系统分析包括在内容中的视频、声音或元数据,估计在场景中使用的声场环境,然后将用户自己的语音和用户周围的真实声音与对应于场景的声场环境匹配。场景控制信息生成部422生成与估计的声场环境或由元数据指定的声场环境对应的场景控制信息。接下来,根据场景控制信息来从混响类型数据库408选择最接近于声场环境的混响类型,并且dsp404基于所选择的混响类型执行混响处理。经过混响处理的麦克风信号被输入至加法器426,被卷积到经声音/音频处理部424处理的内容的声音中,然后由声音输出设备100再现。在该情况下,被卷积到内容的声音中的信号是经过与内容的声场环境对应的混响处理的麦克风信号。因此,在当观看内容时发生声音事件(诸如,输出自己的语音或者在用户周围产生真实声音)的情况下,用户利用与在内容中指示的声场环境对应的混响和回声来听到自己的语音和真实声音。这使得用户自己能够感觉犹如用户在提供的内容的声场环境中,并且用户可以深深地沉浸在内容中。

图11假定hmd600显示预先创建的内容的情况。内容的示例包括游戏等。另一方面,例如,类似于图11的使用情况的示例包括如下系统,该系统被配置成通过给hmd600设置摄像装置等或者通过使用半反射镜来在hmd600上显示设备周围的真实场景(环境),并且通过显示叠加在真实场景(环境)上的cg对象来提供透视体验或ar系统。

即使在该情况下,例如当用户想要基于周围状况的视频创建与真实位置不同的声场环境时,也可以通过使用与图11类似的系统创建声场环境。在该情况下,如图12所示,不同于图11中的示例,用户正在观看周围情况(诸如某物的倒下、来自某人的话音)。因此,可以基于周围状况(周围环境)来获得视觉和声场表现,并且可以获得更真实的视觉和声场表现。注意,图11所示的系统和图12所示的系统是相同的。

接下来,将描述多个用户通过使用根据该实施方式的声音输出设备100进行通信或电话通话的情况。图13是示出在共享通话对方的声音环境时进行电话通话的情况的示意图。该功能可以由用户打开和关闭。在上述配置示例中,混响类型由用户自己设置或者根据内容来指定或估计。然而,图13假定使用声音输出设备100的两个人之间的电话通话,并且两个人都可以体验对方的声场环境,犹如对方的声场环境是真实的一样。

在该情况下,对方侧的声场环境是必需的。可以通过分析由电话通话的对方侧的麦克风400收集到的麦克风信号来获得对方侧的声场环境,或者也可以通过根据经由gps获得的地图信息估计对方所在的建筑物或位置来获得混响的程度。因此,彼此进行通信的两个人将电话通话语音和指示他们周围的声音环境的信息发送至对方。在一个用户侧,基于从另一用户获得的声音环境对自己的语音的回声执行混响处理。这使得一个用户能够感觉犹如他/她在另一用户(电话通话对方)所在的声场中讲话一样。

在图13中,当用户进行电话通话并且将他/她的语音发送至对方时,左麦克风400l和右麦克风400r收集用户的语音和周围声音,并且麦克风信号由左麦克风放大器/adc402l和右麦克风放大器/adc402r处理,并且经由无线通信部412发送至对方侧。在该情况下,例如,声音环境获取部(声音环境信息获取部)430通过根据经由gps获得的地图信息估计对方所在的建筑物或位置来获得混响的程度,并且获取该混响的程度作为声音环境信息。无线通信部412将由声音环境获取部430获取的声音环境信息和麦克风信号发送至对方侧。在接收麦克风信号的对方侧,基于利用麦克风信号接收到的声音环境信息而从混响类型数据库408选择混响类型。接下来,通过使用左侧dsp404l和右侧dsp404r对自己的麦克风信号执行混响处理,并且通过使用加法器428r和428l来将从对方侧接收到的麦克风信号卷积到经过混响处理的信号中。

因此,用户之一根据基于对方侧的声音环境信息的对方侧的声音环境来对包括自己语音的周围声音执行混响处理。另一方面,加法器428r和428l将与对方侧的声音环境对应的声音添加至对方侧的声音中。因此,用户可以感觉犹如他/她在与对方侧相同的声音环境(例如教堂或大厅)中进行电话通话一样。

注意,在图13中,以有线或无线方式建立无线通信部412与麦克风放大器/adc402l和402r之间的连接、无线通信部412与加法器428l和428r之间的连接。在无线方式的情况下,可以使用诸如蓝牙(注册商标)(le)、nfmi等短程无线通信。短程无线通信可以由中继器中继。

另一方面,如图14所示,可以通过使用波束形成技术等来在关注语音时提取要发送的自己的语音作为单声道声音信号。波束形成由波束形成部(bf)432执行。在该情况下,可以以单声道传送语音。因此,与图13相比,图14所示的系统具有不使用无线频带的优点。在该情况下,当在语音接收侧的l再现设备和r再现设备按原样以单声道再现语音时,发生侧化(lateralization),并且用户听到不自然的语音。因此,在语音传输信号接收侧,例如,头部相关传递函数(hrtf)由hrtf部434进行卷积,并且虚拟声音被定位于任何位置处。因此,可以将声像定位在头部外。对方的声像位置可以被预先设置,可以由用户任意设置,或者可以与视频组合。因此,例如,可以提供使得对方的声像定位于用户旁边的体验。当然,也可以另外提供犹如电话通话对方在用户旁边的视频表现。

在图14所示的示例中,加法器428l和428r将在虚拟声像定位之后获得的声音信号与麦克风信号相加,并且执行混响处理。这使得能够将在虚拟声像定位之后的声音转换成通信对方的声音环境的声音。

另一方面,在图15所示的示例中,加法器428l和428r将在虚拟声像定位之后获得的声音信号与通过混响处理获得的麦克风信号相加。在该情况下,在虚拟声像定位之后获得的声音与通信对方的声音环境不对应。然而,可以通过将声像定位在期望位置处来清楚地区分通信对方的声音。

图14和图15假定两个人之间的电话通话。然而,可以假定许多人之间的电话通话。图16和图17是示出很多人在电话上通话的示例的示意图。例如,在该情况下,开始电话通话的人充当环境处理用户,并且由处理用户指定的声场被提供给每个人。这使得能够提供犹如多个人(环境处理用户和用户a至g)在特定声场环境中通话的体验。这里设置的声场不必是包括在电话通话目标中的某个人的声场。声场可以是完全人造的虚拟空间的声场。此处,为了提高系统的临场感,各个人也可以设置他们的头像并且使用利用hmd等的视频辅助表现。

在许多人的情况下,如图17所示,还可以通过使用诸如智能电话的电子设备700来经由无线通信部436建立通信。在图17所示的示例中,环境处理用户将用于设置声音环境的声音环境信息发送至各个用户a、b、c、......的电子设备700的无线通信部440。基于声音环境信息,已接收到声音环境信息的用户a的电子设备700设置包括在混响类型数据库408中的最佳声音环境,并且通过使用混响处理部404l和404r来对由左右麦克风400收集到的麦克风信号执行混响处理。

另一方面,用户a、b、c、......的电子设备700经由无线通信部436彼此进行通信。滤波器(声音环境调整部)438将声学传递函数(hrtf/l和r)卷积到由用户a的电子设备700的无线通信部436接收到的其他用户的语音中。可以通过对hrtf进行卷积来将声源406的声源信息定位在虚拟空间中。因此,可以在空间上定位声音,犹如声源信息存在于与真实空间相同的空间中一样。声学传递函数l和r主要包括关于反射声音和混响的信息。理想地,在假定实际再现环境或者与实际再现环境类似的环境的情况下,理想的是在适当的两点之间(例如,在虚拟扬声器的位置与耳朵的位置之间)使用传递函数(脉冲响应)。注意,即使声学传递函数l和r处于相同的环境中,也可以通过将声学传递函数l和r定义为不同的函数,例如通过针对声学传递函数l和r中的每一个而选择不同的两个点的集合,来改善声音环境的真实性。

例如,假定用户a、b和c、......在各个房间中进行会议。通过使用滤波器438来对声学传递函数l和r进行卷积,即使在用户a、b、c、......位于远程位置的情况下,也可以听到犹如他们在同一房间中进行会议的语音。

其他用户b、c、......的语音由加法器442相加,进一步加上经过混响处理的周围声音,由放大器444执行放大,然后语音从声音输出设备100被输出至用户a的耳朵。在其他用户b、c、…...的电子设备700中执行类似处理。

在图17所示的示例中,各个用户a、b、c、......可以在由滤波器438设置的声音环境中交谈。此外,可以听到自己的语音和他/她自己周围的环境中的声音作为由环境处理用户设置的特定声音环境中的声音。

以上参照附图描述了本公开内容的一个或多个优选实施方式,而本公开内容不限于上述示例。本领域技术人员可以在所附权利要求书的范围内发现各种变化和修改,并且应该理解,这些变化和修改将自然落入本公开内容的技术范围内。

此外,在本说明书中描述的效果仅是说明性或示例性的效果,而不是限制性的。换言之,利用或代替上述效果,根据本公开内容的技术可以实现本领域技术人员根据本说明书的描述而显而易见的其他效果。

另外,本技术也可以被配置如下。

(1)一种声音输出设备,包括:

声音获取部,其被配置成获取根据周围声音生成的声音信号;

混响处理部,其被配置成对所述声音信号执行混响处理;以及

声音输出部,其被配置成向收听者的耳朵附近输出根据经过所述混响处理的声音信号生成的声音。

(2)根据(1)所述的声音输出设备,

其中,所述混响处理部消除脉冲响应的直接声音成分并且执行所述混响处理。

(3)根据(1)或(2)所述的声音输出设备,

其中,所述声音输出部向具有一端被布置在收听者的耳道入口附近的中空结构的声音引导部的另一端输出声音。

(4)根据(1)或(2)所述的声音输出设备,

其中,所述声音输出部在收听者的耳朵与外部完全隔绝的状态下输出声音。

(5)根据(1)至(4)中任一项所述的声音输出设备,其中,

所述声音输出部在收听者的左耳侧和收听者的右耳侧处分别获取声音信号,

所述混响处理部包括

第一混响处理部,其被配置成对在收听者的左耳侧和右耳侧中的一侧获取的声音信号执行混响处理,

第二混响处理部,其被配置成对在收听者的左耳侧和右耳侧中的另一侧获取的声音信号执行混响处理,以及

叠加部,其被配置成将经过由所述第一混响处理部执行的混响处理的声音信号和经过由所述第二混响处理部执行的混响处理的声音信号进行叠加;并且

所述声音输出部输出根据由所述叠加部叠加的声音信号生成的声音。

(6)根据(1)至(5)中任一项所述的声音输出设备,其中,

所述声音输出部向收听者的耳朵输出内容的声音,以及

所述混响处理部根据所述内容的声音环境执行所述混响处理。

(7)根据(6)所述的声音输出设备,

其中,所述混响处理部根据基于所述内容的声音环境而选择的混响类型来执行所述混响处理。

(8)根据(6)所述的声音输出设备,包括:

叠加部,其被配置成将所述内容的声音信号叠加在经过所述混响处理的声音信号上。

(9)根据(1)所述的声音输出设备,包括:

声音环境信息获取部,其被配置成获取指示通信对方周围的声音环境的声音环境信息,

其中,所述混响处理部基于声音环境信息来执行所述混响处理。

(10)根据(9)所述的声音输出设备,包括:

叠加部,其被配置成将从通信对方接收到的声音信号叠加在经过所述混响处理的声音信号上。

(11)根据(9)所述的声音输出设备,包括:

声音环境调整部,其被配置成调整从通信对方接收到的声音信号的声像位置;以及

叠加部,其被配置成将声像位置经所述声音环境调整部调整后的信号叠加在由所述声音获取部获取的声音信号上,

其中,所述混响处理部对由所述叠加部叠加的声音信号执行混响处理。

(12)根据(9)所述的声音输出设备,包括:

声音环境调整部,其被配置成调整从通信对方接收到的单声道声音信号的声像位置;以及

叠加部,其被配置成将声像位置经所述声音环境调整部调整后的信号叠加在经过所述混响处理的声音信号上。

(13)一种声音输出方法,包括:

获取根据周围声音生成的声音信号;

对所述声音信号执行混响处理;以及

向收听者的耳朵附近输出根据经过所述混响处理的声音信号生成的声音。

(14)一种程序,使得计算机用作:

用于获取根据周围声音生成的声音信号的装置;

用于对所述声音信号执行混响处理的装置;以及

用于向收听者的耳朵附近输出根据经过所述混响处理的声音信号生成的声音的装置。

(15)一种声音系统,包括:

第一声音输出设备,其包括:

声音获取部,其被配置成获取指示周围声音环境的声音环境信息,

声音环境信息获取部,其被配置成从作为通信对方的第二声音输出设备获取指示所述第二声音输出设备周围的声音环境的声音环境信息,

混响处理部,其被配置成根据所述声音环境信息对由所述声音获取部获取的声音信号执行混响处理;以及

声音输出部,其被配置成向收听者的耳朵输出根据经过所述混响处理的声音信号生成的声音,以及

所述第二声音输出设备其,包括:

声音获取部,其被配置成获取指示周围声音环境的声音环境信息,

声音环境信息获取部,其被配置成获取指示作为通信对方的所述第一声音输出设备周围的声音环境的声音环境信息,

混响处理部,其被配置成根据所述声音环境信息对由所述声音获取部获取的声音信号执行混响处理;以及

声音输出部,其被配置成向所述收听者的耳朵输出根据经过所述混响处理的声音信号生成的声音。

附图标记列表

100声音输出设备

110声音生成部

120声音引导部

400麦克风

404dsp

414、426、428l、428r

430声音环境获取部

438滤波器

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1