用于再现三维声音的方法和设备的制作方法

文档序号：7848638阅读：225来源：国知局

专利名称：用于再现三维声音的方法和设备的制作方法
技术领域：
本申请涉及一种用于再现立体声的方法和设备，更具体地讲，涉及一种用于再现将远近感(perspective)提供给声音对象的立体声的方法和设备。
背景技术：
由于成像技术的发展，用户可观看3D立体图像。3D立体图像考虑双目视差而将左视点图像数据暴露给左眼并将右视点图像数据暴露给右眼。用户可通过3D图像技术识别看起来从屏幕真实跳出或向着屏幕的背面真实进入的对象。此外，随着成像技术的发展，用户对声音的兴趣增加，具体地讲，立体声已得到明显发展。在立体声技术中，多个扬声器被布置在用户周围，使得用户可体验不同位置处的定位和远近感。然而，在立体声技术中，接近用户或变得离用户更远的图像对象可能不能被有效表现出，使得可能不能提供与3D图像对应的音效。

图I是根据本发明的实施例的用于再现立体声的设备的框图；图2是根据本发明的实施例的图I的声音深度信息获取单元的框图；图3是根据本发明的另一实施例的图I的声音深度信息获取单元的框图；图4是示出根据本发明的实施例的用于在确定单元中确定声音深度值的预定函数的曲线图；图5是根据本发明的实施例的使用立体声信号提供立体声的远近感提供单元的框图；图6A至图6D示出根据本发明的实施例的在图I的用于再现立体声的设备中提供立体声的过程；图7是示出根据本发明的实施例的基于声音信号来检测声音对象的位置的方法的流程图；图8A至图8D示出根据本发明的实施例的从声音信号检测声音对象的位置；图9是示出根据本发明的实施例的再现立体声的方法的流程图。

发明内容
本发明提供了一种用于有效地再现立体声的方法和设备，具体地讲，提供了一种通过将远近感提供给声音对象来有效地表现接近用户或变得离用户更远的声音而再现立体声的方法和设备。根据本发明的一方面，提供了一种再现立体声的方法，所述方法包括获取指示图像信号中的至少一个图像对象与参考位置之间的距离的图像深度信息；基于图像深度信息，获取指不声音信号中的至少一个声音对象与参考位置之间的距离的声音深度信息；基于声音深度信息，将声音远近感提供给所述至少一个声音对象。
获取声音深度信息的步骤包括获取组成图像信号的每个图像片段的最大深度值；基于所述最大深度值，获取用于所述至少一个声音对象的声音深度值。获取声音深度值的步骤包括当所述最大深度值小于第一阈值时，将所述声音深度值确定为最小值，当所述最大深度值等于或大于第二阈值时，将所述声音深度值确定为最大值。获取声音深度值的步骤还包括当所述最大深度值等于或大于第一阈值且小于第二阈值时，将所述声音深度值确定为与所述最大深度值成比例。获取声音深度信息的步骤包括获取关于图像信号中的所述至少一个图像对象的位置信息以及关于声音信号中的所述至少一个声音对象的位置信息；确定所述至少一个图像对象的位置是否与所述至少一个声音对象的位置匹配；基于确定的结果来获取声音深度信息。获取声音深度信息的步骤包括获取组成图像信号的每个图像片段的平均深度值；基于所述平均深度值，获取用于所述至少一个声音对象的声音深度值。获取声音深度值的步骤包括当所述平均深度值小于第三阈值时，将所述声音深度值确定为最小值。获取声音深度值的步骤包括当先前片段中的平均深度值与当前片段中的平均深度值之间的差小于第四阈值时，将所述声音深度值确定为最小值。提供声音远近感的步骤包括基于声音深度信息来控制声音对象的功率。提供声音远近感的步骤包括基于声音深度信息，控制按照声音对象被反射的方式而产生的反射信号的增益和延迟时间。提供声音远近感的步骤包括基于声音深度信息，控制声音对象的低频段分量的强度。提供声音远近感的步骤包括控制将通过第一扬声器输出的声音对象的相位与将通过第二扬声器输出的声音对象的相位之间的差。所述方法还包括通过左环绕扬声器和右环绕扬声器、左前扬声器和右前扬声器中的至少一个，输出提供有声音远近感的声音对象。所述方法还包括通过使用声音信号，使相位朝向扬声器的外部。获取声音深度信息的步骤包括基于所述至少一个图像对象的中的每一个的大小，确定用于所述至少一个声音对象的声音深度值。获取声音深度信息的步骤包括基于所述至少一个图像对象的分布，确定用于所述至少一个声音对象的声音深度值。根据本发明的另一方面，提供了一种再现立体声的设备，所述设备包括图像深度信息获取单元，用于获取指示图像信号中的至少一个图像对象与参考位置之间的距离的图像深度信息；声音深度信息获取单元，用于基于图像深度信息，获取指示声音信号中的至少一个声音对象与参考位置之间的距离的声音深度信息；远近感提供单元，用于基于声音深度信息，将声音远近感提供给所述至少一个声音对象。
具体实施例方式在下文中，将参照附图更充分地描述本发明的一个或多个实施例。
首先，为了方便描述，如下简短定义在此使用的术语。图像对象表示包括在图像信号中的对象或诸如人、动物、植物等的对象。声音对象表不包括在声音信号中的声音分量。各种声音对象可包括在一个声音信号中。例如，在通过记录管弦乐队演奏而产生的声音信号中，包括有从各种乐器(诸如吉他、小提琴、双簧管等)产生的各种声音对象。音源是产生声音对象的对象(例如，乐器或声带)。在本说明书中，实际产生声音对象的对象和识别用户产生声音对象的对象表示音源。例如，当在用户观看电影的同时苹果从屏幕被扔向用户时，在苹果移动时产生的声音(声音对象)可包括在声音信号中。可通过记录当苹果被扔出时实际产生的声音来获得声音对象，或者声音对象可以是被简单再现的预先记录的声音对象。然而，在每一种情况下，用户识别出苹果产生所述声音对象，并且因此，苹果可以是如在本说明书中定义的音源。图像深度信息指示背景与参考位置之间的距离以及对象与参考位置之间的距离。参考位置可以是输出图像的显示装置的表面。声音深度信息指示声音对象与参考位置之间的距离。更具体地讲，声音深度信息指示产生声音对象的位置(音源的位置)与参考位置之间的距离。如上所述，当在用户观看电影的同时苹果从屏幕移向用户时，音源和用户之间的距离变得接近。为了有效表现苹果正在接近，可表现出与图像对象对应的声音对象的产生位置正逐渐变得更接近于用户，并且关于这一点的信息包括在声音深度信息中。参考位置可根据音源的位置、扬声器的位置、用户的位置等而改变。声音远近感是用户关于声音对象体验到的感受之一。用户观看声音对象，使得用户可识别产生声音对象的位置，即，产生声音对象的音源的位置。这里，对用户识别出的音源与用户之间的距离的感受表示声音远近感。图I是根据本发明的实施例的用于再现立体声的设备100的框图。根据本发明的当前实施例的用于再现立体声的设备100包括图像深度信息获取单元110、声音深度信息获取单元120和远近感提供单元130。图像深度信息获取单元110获取指示图像信号中的至少一个图像对象与参考位置之间的距离的图像深度信息。图像深度信息可以是指示组成图像对象或背景的像素的深度值的深度图。声音深度信息获取单元120基于图像深度信息来获取指示声音对象与参考位置之间的距离的声音深度信息。可存在多种使用图像深度信息来产生声音深度信息的方法，在下文中，将描述两种产生声音深度信息的方法。然而，本发明不限于此。例如，声音深度信息获取单元120可获取用于每个声音对象的声音深度值。声音深度信息获取单元120获取关于图像对象的位置信息以及关于声音对象的位置信息，并基于位置信息将图像对象与声音对象进行匹配。然后，基于图像深度信息以及匹配信息，可产生声音深度信息。将参照图2详细描述这样的示例。作为另一不例，声音深度信息获取单兀120可根据组成声音信号的声音片段来获取声音深度值。声音信号包括至少一个声音片段。这里，一个声音片段中的声音信号可具有相同的声音深度值。也就是说，在每个不同的声音对象中，可应用相同的声音深度值。声音深度信息获取单元120获取组成图像信号的每个图像片段的图像深度值。可通过按帧单元或按场景单元划分图像信号来获得图像片段。声音深度信息获取单元120获取每个图像片段中的代表性深度值(例如，最大深度值、最小深度值或平均深度值)并通过使用代表性深度值确定与图像片段对应的声音片段中的声音深度值。将参照图3详细描述这样的示例。远近感提供单元130基于声音深度信息对声音信号进行处理，使得用户可感受声音远近感。远近感提供单元130可在与图像对象对应的声音对象被提取之后根据每个声音对象来提供声音远近感、根据包括在声音信号中的每个声道提供声音远近感，或者为所有的声音信号提供声音远近感。远近感提供单元130执行以下四个任务i)、ii)、iii)和iv)中的至少一个，以便用户有效地感受声音远近感。然而，在远近感提供单元130中执行的四个任务仅是示例，本发明不限于此。i)远近感提供单元130基于声音深度信息调整声音对象的功率。声音对象被产生得越接近用户，声音对象的功率增加得越多。
ii)远近感提供单元130基于声音深度信息调整反射信号的增益和延迟时间。用户听到不是由障碍反射的直接声音信号以及通过被障碍反射而产生的反射声音信号。反射声音信号具有比直接声音信号的强度更小的强度，并且与直接声音信号相比，通常被延迟了预定时间来接近用户。具体地讲，当声音对象被产生得接近用户时，反射声音信号与直接声音信号相比到达得较晚，并且反射声音信号的强度被明显降低。iii)远近感提供单元130基于声音深度信息调整声音对象的低频段分量。当声音对象被产生得接近用户时，用户可明显地识别出低频段分量。iv)远近感提供单元130基于声音深度信息调整声音对象的相位。随着将从第一扬声器输出的声音对象的相位和将从第二扬声器输出的声音对象的相位之间的差增加，用户识别出声音对象更加接近。将参照图5详细描述远近感提供单元130的操作。图2是根据本发明的实施例的图I的声音深度信息获取单元120的框图。声音深度信息获取单元120包括第一位置获取单元210、第二位置获取单元220、匹配单元230和确定单元240。第一位置获取单元210基于图像深度信息获取图像对象的位置信息。第一位置获取单元210可仅获取关于感测到图像信号中向左方和右方的移动或者向前方或后方的移动的图像对象的位置信息。第一位置获取单元210基于下面的等式I来比较关于连续图像帧的深度图并识别深度值的改变增加的坐标。[等式I]Diffi =I1 -Im
JJ u A% r x\y在等式I中，i指示帧的编号，x、y指示坐标。因此，Iix,y指示在(x，y)坐标处的第i帧的深度值。在针对所有坐标计算了 DIff^y之后，第一位置获取单元210搜索DIffiM高于阈值的坐标。第一位置获取单元210将与DIffixiy高于阈值的坐标对应的图像对象确定为其移动被感测到的图像对象，并且对应的坐标被确定为所述图像对象的位置。
第二位置获取单兀220基于声音信号获取关于声音对象的位置信息。可存在多种通过第二位置获取单元220获取关于声音对象的位置信息的方法。例如，第二位置获取单兀220将主分量和环境分量与声首信号分尚，将主分量与环境分量比较，从而获取关于声音对象的位置信息。此外，第二位置获取单元220比较声音信号的每个声道的功率，从而获取关于声音对象的位置信息。在该方法中，声音对象的左位置和右位置可被识别。作为另一示例，第二位置获取单元220将声音信号划分为多个片段，在每个片段中计算每个频段的功率，并基于按照每个频段的功率确定公共频段。在本说明书中，公共频段表示在相邻片段中功率高于预定阈值的公共频段。例如，在当前片段中选择功率高于“A”的频段，在先前片段中选择功率高于“A”的频段(或者选择当前片段中功率在较高的第五等级内的频段，在先前片段中选择先前片段中功率在较高的第五等级内的频段)。然后，在先前片段和当前片段中被共同选择的频段被确定为公共频段。对高于阈值的频段的限制在于获取具有大信号强度的声音对象的位置。因此，具·有小信号强度的声音对象的影响被最小化，并且主要声音对象的影响被最大化。由于公共频段被确定，因此，可确定在先前片段中不存在的新声音信号是否在当前片段中被产生，或者在先前片段中存在的声音对象的特性(例如，产生位置)是否被改变。当图像对象的位置被改变为显示装置的深度方向时，与所述图像对象对应的声音对象的功率被改变。在这种情况下，与所述声音对象对应的频段的功率被改变，因此可通过检查每个频段中的功率的改变来识别沿深度方向的声音对象的位置。匹配单元230基于关于图像对象的位置信息以及关于声音对象的位置信息来确定图像对象和深度对象之间的关系。匹配单元230在图像对象的坐标与声音对象的坐标之间的差在阈值内时确定图像对象与声音对象匹配。另一方面，匹配单元230在图像对象的坐标与声音对象的坐标之间的差高于阈值时确定图像对象与声音对象不匹配。确定单元240基于匹配单元230的确定来确定用于声音对象的声音深度值。例如，在被确定为与图像对象匹配的声音对象中，根据图像对象的深度值来确定声音深度值。在被确定为与图像对象不匹配的声音对象中，声音深度值被确定为最小值。当声音深度值被确定为最小值时，远近感提供单元130不将声音远近感提供给声音对象。当图像对象和声音对象的位置彼此匹配时，确定单元240可在预定的异常环境下不将声音远近感提供给声音对象。例如，当图像对象的大小低于阈值时，确定单元240可不将声音远近感提供给与图像对象对应的声音对象。由于具有非常小尺寸的图像对象对用户体验3D效果的影响轻微，因此确定单元240可不将声音远近感提供给对应声音对象。图3是根据本发明的另一实施例的图I的声音深度信息获取单元120的框图。根据本发明的当前实施例的声音深度信息获取单元120包括片段深度信息获取单元310和确定单元320。片段深度信息获取单元310基于图像深度信息获取每个图像片段的深度信息。图像信号可被划分为多个片段。例如，可按照场景被转换的场景单元、按照图像帧单元或者GOP单元来划分图像信号。片段深度信息获取单元310获取与每个片段对应的图像深度值。片段深度信息获取单元310可基于下面的等式2获取与每个片段对应的图像深度值。[等式2]
权利要求
1.一种再现立体声的方法，所述方法包括获取指示图像信号中的至少一个图像对象与参考位置之间的距离的图像深度信息；基于图像深度信息，获取指示声音信号中的至少一个声音对象与参考位置之间的距离的声音深度信息；基于声音深度信息，将声音远近感提供给所述至少一个声音对象。
2.如权利要求I所述的方法，其中，获取声音深度信息的步骤包括获取组成图像信号的每个图像片段的最大深度值；基于所述最大深度值，获取用于所述至少一个声音对象的声音深度值。
3.如权利要求2所述的方法，其中，获取声音深度值的步骤包括当所述最大深度值小于第一阈值时，将所述声音深度值确定为最小值，当所述最大深度值等于或大于第二阈值时，将所述声音深度值确定为最大值。
4.如权利要求3所述的方法，其中，获取声音深度值的步骤还包括当所述最大深度值等于或大于第一阈值且小于第二阈值时，将所述声音深度值确定为与所述最大深度值成比例。
5.如权利要求I所述的方法，其中，获取声音深度信息的步骤包括获取关于图像信号中的所述至少一个图像对象的位置信息以及关于声音信号中的所述至少一个声音对象的位置信息；确定所述至少一个图像对象的位置是否与所述至少一个声音对象的位置匹配；基于确定的结果来获取声音深度信息。
6.如权利要求I所述的方法，其中，获取声音深度信息的步骤包括获取组成图像信号的每个图像片段的平均深度值；基于所述平均深度值，获取用于所述至少一个声音对象的声音深度值。
7.如权利要求6所述的方法，其中，获取声音深度值的步骤包括当所述平均深度值小于第三阈值时，将所述声音深度值确定为最小值。
8.如权利要求6所述的方法，其中，获取声音深度值的步骤包括当先前片段中的平均深度值与当前片段中的平均深度值之间的差小于第四阈值时，将所述声音深度值确定为最小值。
9.如权利要求I所述的方法，其中，提供声音远近感的步骤包括基于声音深度信息来控制声音对象的功率。
10.如权利要求I所述的方法，其中，提供声音远近感的步骤包括基于声音深度信息，控制按照声音对象被反射的方式而产生的反射信号的增益和延迟时间。
11.如权利要求I所述的方法，其中，提供声音远近感的步骤包括基于声音深度信息，控制声音对象的低频段分量的强度。
12.如权利要求I所述的方法，其中，提供声音远近感的步骤包括控制将通过第一扬声器输出的声音对象的相位与将通过第二扬声器输出的声音对象的相位之间的差。
13.如权利要求I所述的方法，还包括通过左环绕扬声器和右环绕扬声器、左前扬声器和右前扬声器中的至少一个，输出提供有声音远近感的声音对象。
14.如权利要求I所述的方法，还包括通过使用声音信号，使相位朝向扬声器的外部。
15.如权利要求I所述的方法，其中，获取声音深度信息的步骤包括基于所述至少一个图像对象的中的每一个的大小，确定用于所述至少一个声音对象的声音深度值。
16.如权利要求I所述的方法，其中，获取声音深度信息的步骤包括基于所述至少一个图像对象的分布，确定用于所述至少一个声音对象的声音深度值。
17.一种再现立体声的设备，所述设备包括图像深度信息获取单元，用于获取指示图像信号中的至少一个图像对象与参考位置之间的距离的图像深度信息；声音深度信息获取单元，用于基于图像深度信息，获取指示声音信号中的至少一个声音对象与参考位置之间的距离的声音深度信息；远近感提供单元，用于基于声音深度信息，将声音远近感提供给所述至少一个声音对象。
18.如权利要求17所述的设备，其中，声音深度信息获取单元获取组成图像信号的每个图像片段的最大深度值，并基于所述最大深度值，获取用于所述至少一个声音对象的声音深度值。
19.如权利要求18所述的设备，其中，当所述最大深度值小于第一阈值时，声音深度信息获取单元将所述声音深度值确定为最小值，当所述最大深度值等于或大于第二阈值时，声音深度信息获取单元将所述声音深度值确定为最大值。
20.如权利要求18所述的方法，其中，当所述最大深度值等于或大于第一阈值且小于第二阈值时，所述声音深度值被确定为与所述最大深度值成比例。
21.—种其上包含有用于执行权利要求I至16的方法中的任意一种方法的计算机程序的计算机可读记录介质。
全文摘要
公开了一种再现立体声的方法，所述方法包括获取指示图像信号中的至少一个图像对象与参考位置之间的距离的图像深度信息；基于图像深度信息，获取指示声音信号中的至少一个声音对象与参考位置之间的距离的声音深度信息；基于声音深度信息，将声音远近感提供给所述至少一个声音对象。
文档编号H04S1/00GK102812731SQ201180014834
公开日2012年12月5日申请日期2011年3月17日优先权日2010年3月19日
发明者赵镕春, 金善民申请人:三星电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵镕春;金善民
技术所有人：三星电子株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。