融合声对象信息的设备和方法

文档序号：2825289阅读：223来源：国知局

专利名称：融合声对象信息的设备和方法
技术领域：
以下说明涉及增强现实(Augmented Reality ( “AR”))，更具体地讲，涉及用于融合声对象信息以提供将图像与声音融合起来的增强现实(“AR”)服务的设备和方法。
背景技术：
增强现实(“AR”)是提供了其中用户的眼睛所看到的真实世界与提供了附加信息的虚拟世界融合起来的图像的虚拟现实(“VR”)的一种。AR类似于现有的VR。VR只为用户提供了虚拟的空间和对象，而AR基于真实世界合成虚拟对象以提供不能在真实世界中容易地成为对象的附加信息。不同于基于完全虚拟世界的VR，AR将虚拟对象与真实环境结合起来以向用户提供更逼真的感觉。在美国和日本已经从1990年代的下半期开始对AR 进行研究。随着诸如移动电话和个人数字助理(“PDA”)之类的移动装置的计算能力的提高、以及无线网络装置的发展，各种AR服务当前正被提供。例如，与由移动电话的相机拍摄到的真实环境中的对象相关联的细节和附加信息被虚拟地生成且与对象的图像融合起来，并且其后输出到显示器。然而，传统的AR服务是基于图像的服务，并且对于提供各种附加AR服务存在限制。

发明内容
本发明的示例性实施方式提供了一种用于提供将实际图像与声音融合起来的增强现实(“AR”)服务的设备和方法。本发明的附加特征将在以下描述中被阐述，并且将根据该描述部分地变得清楚，或者可通过对本发明的实践而被了解。本发明的示例性实施方式披露了一种声对象信息融合设备，包括声对象化单元，用于估计接收到的声音的方向和位置，用于基于估计出的接收到的声音的方向和位置来对接收到的声音的声音模式进行分类，并且用于基于接收到的声音的声音模式来识别接收到的声音的对象；声对象信息生成器，用于获取与识别出的接收到的声音的对象相关的附加信息，并且用于由此生成声对象信息；以及融合单元，用于将声对象信息与真实的图像或真实的声音融合起来。本发明的示例性实施方式披露了一种生成与声音相关联的声对象信息并且在用户终端中将声对象信息与真实的图像或声音融合起来的方法，包括步骤估计通过麦克风阵列接收到的声音的方向和位置；基于估计出的接收到的声音的方向和位置来对接收到的声音的声音模式进行分类；通过参考存储有多个对象的声音峰值的声音模式数据库来识别与声音模式的声音峰值相关联的对象；获取与所确定的对象相关的附加信息以生成接收到的声音的声对象信息；以及将声对象信息与真实的图像或声音融合起来。应该理解，前述总体描述和以下详细描述是示例性的和说明性的，并且旨在提供对所要求保护的本发明的进一步的说明。其它特征和方面将根据以下详细的描述、附图、和权利要求而变得清楚。

被包括以提供对本发明的进一步理解并且结合到该说明书中且构成该说明书的一部分的

了本发明的实施方式，并且与说明书一起用于说明本发明的原理。图1是说明根据示例性实施方式的声对象信息融合设备的图。图2示出了根据示例性实施方式的声对象信息融合设备的麦克风阵列。图3是描述了根据示例性实施方式的声对象信息融合方法的流程图。图4示出了根据示例性实施方式的对声对象信息与真实的图像或声音的融合。图5示出了根据示例性实施方式的对声对象信息与真实的图像或声音的融合。图6示出了根据示例性实施方式的对声对象信息与真实的图像或声音的融合。图7示出了根据示例性实施方式的对声对象信息与真实的图像或声音的融合。
具体实施例方式以下参照示出了本发明的实施方式的附图来更全面地描述本发明。然而，本发明可以多种不同形式实施，并且不应被理解为限于本文陈述的实施方式。相反，提供这些实施方式使本公开变得完善，并且将向本领域技术人员完全地传达本发明的范围。在附图中，为了清楚起见可能夸大层和区域的大小和相对大小。在附图中相同的标号表示相同的元件。应该理解，尽管可在此使用术语第一、第二、第三等来描述各种元件或部件，但是这些元件或部件不应受到这些术语的限制。这些术语仅被用于区分一个元件或部件。因此，在不脱离本发明的教导的情况下，以下所述的第一元件或部件可被称为第二元件或部件。应该理解，当一个元件或层被称作“在”另一元件或层“之上”，“与”另一元件或层“连接”或 “与”另一元件或层“耦接”时，其可直接地在另一元件或层之上，与另一元件或层连接，或与另一元件或层耦接，或者可能存在介于其间的元件或层。相反，当一个元件或层被称作“直接在”另一元件或层“之上”，“直接与”另一元件或层“连接”或“直接与”另一元件或层“耦接”时，不会存在介于其间的元件或层。在此使用的术语仅为了描述特定实施方式，并非意图限制本发明。如在本文所使用的那样，单数形式“一”、“一个”和“该”还意图包括复数形式，除非上下文清楚地表明并非如此。还应理解，当用在该说明书中时，术语“包括”和/或“包含”指的是所述特征、要件、步骤、操作、元件、和/或部件的存在，而非排除一个或多个其它特征、要件、步骤、操作、元件、部件、和/或它们的组的存在或添加。提供以下描述以帮助读者获取对本文描述的方法、设备、和/或系统的详尽理解。因此，将使本领域普通技术人员能够想到本文描述的方法、设备、和/或系统的各种改变、变形和等同物。另外，可以省略对公知的功能和结构的描述以提高清楚度和简明度。图1是说明根据示例性实施方式的声对象信息融合设备的图。声对象信息融合设备(“Α0ΙΜ设备”)包括声对象化单元110、声对象信息生成器 120和融合单元130。可在例如蜂窝电话、PDA、台式计算机、平板计算机、便携式计算机等终端中实现AOIM设备。声对象化单元110估计通过麦克风阵列100接收到的多个声音的方向和位置，以将声音分类为多个声音模式并且根据声音模式确定与声音相对应的对象。声对象化单元110根据接收到的声音的声音模式确定与接收到的声音相对应的对象。在示例性实施方式中，接收到的声音的声音模式可以是声音峰值。声对象化单元110可包括波束形成应用单元111和声对象判断单元113。波束形成应用单元111使用波束形成技术将通过麦克风阵列100接收到的声音分类为多个声音音调。图2示出了根据示例性实施方式的声对象信息融合设备的麦克风阵列。通常，麦克风阵列100可以是多个麦克风的组合，并且可以接收声音并获得与方向性(例如声音的方向或位置)有关的附加特征，诸如声音的角度和强度。麦克风阵列100接收来自不同的点a、b、c和d的声音以分别确定其位置。在点 a、b、c和d产生的声音形成了以麦克风阵列为中心的多个同心圆。因此，麦克风阵列100 可获得从不同的点a、b、c和d接收到的声音的角度和强度。因为在不同的时刻从点a、b、c 和d接收到声音，所以声音在不同的时刻到达麦克风阵列100，并且因此麦克风阵列100可获得在点a、b、c和d产生的声音的角度和强度。再次参照图1，当麦克风阵列100接收到多个声音时，波束形成应用单元111使用波束形成技术对接收到的声音进行分类。在示例性实施方式中，波束形成技术可以调整麦克风阵列的方向性模式以从接收到的声音中仅获取所期望的方向的声音。波束形成应用单元111使用接收到的声音的角度和强度获取由麦克风阵列100接收到的多个接收到的声音的方向和位置。波束形成应用单元111根据声音的方向和位置将声音分类为多个声音音调。声对象判断单元113获取声音音调的声音峰值(声音峰值是声音特性信息或声音模式的一种)，并且从声音模式数据库(“DB”) 115获取与该声音峰值相关联的对象。与声音峰值相关的对象可以是发出该声音的人或物。另选地或附加地，与声音峰值相关的对象可以使声音自身。声音模式DB 115存储作为诸如钢琴、汽车、狗和鸟等各种对象的声音特征信息的声音峰值、和与各种声音峰值相对应的对象相关的信息。然而，各方面不限于此，声音模式DB 115可被包括在AOIM设备中，并且可以以任一适当的方式连接到AOIM设备。声对象判断单元113获取由波束形成应用单元111分类的独立的声音音调的声音峰值、并从声音模式DB 115获取与声音峰值相对应的对象。在示例性实施方式中，声对象判断单元 113使用离散傅里叶变换(“DFT”)或快速傅里叶变换(“FFT”)提取声音音调的声音峰值。在提取了声音音调的声音峰值之后，声对象判断单元113从声音模式DB 115获取与声音音调的声音峰值相对应的对象。因此，声对象判断单元可识别与麦克风阵列接收到的每一声音音调相对应的对象。当声对象判断单元Il3没有获取到与接收到的声音中的至少一个声音相对应的对象时，声对象化单元110可通过使用滤波应用单元117来确定与声音相对应的对象。作为示例，当在同一位置产生的两个或多个不同声音被同时输入到麦克风阵列100时，声对象判断单元113可能无法识别与接收到的声音相对应的对象。在该示例中，因为波束形成应用单元111可能将从同一位置接收到的声音分类为一个声音音调，所以波束形成应用单元111可能无法将两个或多个不同声音彼此区分开。因此，声对象判断单元113可能无法从声音模式DB 115中识别与组合的两个或多个不同声音的声音峰值相对应的对象。滤波应用单元117使用来自接收到的声音的频率和幅度信息来使得接收到的声音被分为单独的声音音调。滤波应用单元117可通过使用带通滤波器来将声音分类为第二声音音调。声对象判断单元113获取由滤波应用单元117分类出的第二声音音调的声音峰值，并且从声
6音模式DB 115中识别与该声音峰值相对应的对象。通过获取第二声音音调的声音峰值，即使接收到的声音与噪声混合，与声音音调相对应的对象也可被清楚地识别。在声对象判断单元113识别出分类的声音音调的对象之后，声对象信息生成器 120获取与识别出的对象相关的细节和附加信息以生成声对象信息。AOIM设备还可包括存储有与多个对象相关的细节和附加信息的对象信息DB 121。然而，各方面不需要被限于此，对象信息DB 121可独立于AOIM设备，并且可以以任一适当的方式连接到AOIM设备。声对象信息生成器120从对象信息DB 121获取与对象相关的细节和附加信息以生成声对象信肩、ο作为示例，如果由波束形成应用单元111分类的声音音调被声对象判断单元113 确定为汽车声音，则声对象信息生成器120从对象信息DB 121获取诸如汽车型号信息类型和关于汽车的附加信息之类的与汽车相关的信息。声对象信息生成器120基于接收到的汽车型号信息和关于汽车的附加信息来生成声对象信息。声对象信息可以是字符、图像或运动图像形式的。也就是说，声音对象信息可以是有关于发出该声音的物体的信息。作为示例，如果由波束形成应用单元111分类的声音音调被声对象判断单元113 确定为是音乐，则声对象信息生成器120从对象信息DB 121获取诸如演唱者、曲名之类的与该音乐相关的信息。声对象信息生成器120基于接收到的信息来生成声对象信息。声对象信息可以是字符、图像或运动图像形式的。也就是说，声音对象信息可以是有关于该声音自身的信息。融合单元130被用于将声对象信息生成器120所生成的每一声对象信息与真实的图像或声音融合。融合单元130包括图像信息融合器131、声信息融合器133和声音消除器 135。图像信息融合器131将用户终端的相机所拍摄到的真实的图像和有关于该真实的图像中发出该声音的对象的声对象信息融合起来，并且将所得到的图像输出到用户终端的显示器上。融合单元130可响应于来自用户的请求将真实的图像和声对象信息融合起来。作为示例，在如图4所示的多人正在会议室中讲话的会议期间拍摄到的图像中，图像信息融合器131将拍摄到的真实的图像与有关于参与讨论的人的声对象信息融合起来。图像信息融合器131可将所得到的图像输出到与AOIM设备连接的用户终端的显示器上。在示例性实施方式中，声对象信息可以是与真实的图像融合起来的说话气泡(speech bubble)形式的。声信息融合器133输出有关于真实的声音的声对象信息。在另选的实施方式中，声信息融合器133还将声对象信息与真实的图像融合起来。真实的声音可以由与AOIM设备相连接的用户终端的麦克风接收，并且输出的声对象信息可以被输出到用户终端的显示器。在示例性实施方式中，接收到的声音可被存储在与AOIM设备相连接的用户终端中。真实的图像可以是由与AOIM设备相连接的用户终端的相机拍摄的所拍摄的图像，并且响应于来自用户的请求，该融合所获得的图像可被输出到用户终端的显示器。作为示例，如果通过与示例的AOIM设备相连接的用户终端的麦克风接收到街上的音乐声，则声信息融合器 133可将包括与音乐相关的信息的声对象信息输出到用户终端的显示器上，或者可将声对象信息与真实的图像融合起来，并且其后将融合的结果输出到用户终端的显示器。声音消除器135消除与图像中的对象中的所选择的对象不相对应的声音。用户可从输出到与AOIM设备相连接的用户终端的显示器的图像中选择被选择的对象图像。作为示例，用户可请求从由用户终端的相机拍摄到的管弦乐队演奏的图像中消除除小提琴的声音之外的与全部乐器相对应的声音。如果接收到这样的请求，则声音消除器135消除由其余乐器产生的声音。因此，用户可通过用户终端的扬声器听到的输出的声对象信息可以是对小提琴声音的再现。图3是描述了根据示例性实施方式的声对象信息融合方法的流程图。参照图3，在操作300中，当通过麦克风阵列接收到在多个不同位置产生的声音时，AOIM设备使用波束形成技术来估计接收到的声音的方向和位置，并且根据声音的方向和位置将声音分类为多个声音音调。波束形成技术可调整麦克风阵列的方向性模式，并且从接收到的声音中仅获取所期望的声音。AOIM设备使用波束形成技术，例如可基于声音的角度和强度，来确定麦克风阵列接收到的声音的方向和位置，从而将声音分类为多个声音音调。在将声音分类为声音音调之后，AOIM设备获取每一声音音调的声音峰值。在示例性实施方式中，用户终端可使用DFT或FFT提取每一声音音调的声音峰值。在操作310中，AOIM设备通过参考存储有各种对象的声音峰值的声音模式DB来识别与每一提取出的声音峰值相对应的对象。在操作320中，AOIM设备确定针对至少一个接收到的声音通过参考声音模式DB是否没有识别出对象。如果针对至少一个接收到的声音没有识别出的对象，则在操作330中，AOIM设备使用带通滤波器来对其相关联的对象尚未被确定的声音进行第二次分类。例如，当AOIM设备通过麦克风阵列接收到在相同的位置和时刻或近似相同的位置和时刻产生的两个或多个不同的声音时，AOIM设备可能无法使用波束形成技术来将不同的声音分类为不同的声音音调。因此，在操作310中，AOIM设备可能无法确定与不同的声音相对应的对象。AOIM设备基于声音的频率和幅度来将其相关联的对象尚未被识别出的声音分类为至少一个第二声音音调。其后，AOIM设备获取由带通滤波器分类的每一独立的第二声音音调的声音峰值。其后，AOIM设备从声音模式DB中获取具有与所述声音峰值相对应的声音峰值的对象。如果针对所有接收到的声音识别出了对象，则该方法进行到操作340。在操作340中，在针对单独的声音音调识别出对象之后，用户终端还获取与被确定为与独立的声音音调相对应的对象相关的细节和附加信息以生成声对象信息。例如， AOIM设备通过参考存储有与多个对象相关的这种细节和附加信息的对象信息DB来获取与被确定为与独立的声音音调相对应的识别出的对象相关的细节和附加信息。例如，在声音音调的对象被确定为是汽车的情况下，AOIM设备获取汽车型号信息和关于汽车的附加信息，并且根据所获取的汽车型号信息和关于汽车的附加信息生成声对象信息。声对象信息可以是字符、图标、图像或运动图像形式的。在操作350中，基于用户请求，AOIM设备将每一声对象信息与真实的图像或声音融合起来。例如，AOIM设备确定是否存在将至少一条声对象信息与真实的图像或声音融合起来的用户请求。如果确定存在将至少一条声对象信息与真实的图像融合起来的用户请求，则AOIM设备将相机所拍摄到的真实的图像和与该真实的图像相关联的声对象信息融合起来。真实的图像可以是由与AOIM设备相连接的用户终端的相机拍摄的图像，并且该融合所获得的图像可被输出到用户终端的显示器。作为示例，在多人正在会议室中讲话的会议期间拍摄到的照片中，图像信息融合器将拍摄到的真实的图像与关于参与讨论的人的声对象信息融合起来。在示例性实施方式中，声对象信息可以是与真实的图像融合起来的说话气泡形式的。如果确定存在将至少一条声对象信息与真实的声音融合起来的用户请求，则用户终端可输出与接收到的真实的声音相关联的声对象信息。声音可通过与AOIM设备相连接的用户终端的麦克风而被接收，并且可被存储在AOIM设备的用户终端中。声对象信息可被投影到用户终端的显示器上。作为示例，当由与示例的AOIM设备相连接的用户终端的麦克风接收到街上的音乐声时，用户终端将包括与音乐相关的信息的声对象信息输出到用户终端的显示器上。然而，各方面不限于此，AOIM设备可将与真实的声音相关联的声对象信息与真实的图像融合起来，并且将融合的结果输出到与AOIM设备相连接的用户终端的显示器上。而且，根据用户请求，AOIM设备可消除与在和AOIM设备相连接的用户终端的显示器上的图像中的对象相对应的声音。作为示例，接收消除声音的用户请求。用户请求从由用户终端的相机拍摄到的管弦乐队演奏的图像中指定小提琴作为其声音不被消除的对象。因此，声音消除器135消除由其余乐器产生的声音。因此，用户可通过用户终端的扬声器听到的输出的声对象信息是对由用户终端的相机拍摄到的小提琴声音的再现。图4示出了根据示例性实施方式的对声对象信息与真实的图像或声音的融合。图4对应于由与示例性的AOIM设备相连接的用户终端的相机拍摄的审判视频的情况。AOIM设备基于参与审判的参与者的语音来对参与者进行对象化。其后，AOIM设备使用语音识别来识别对象化的参与者的语音以将语音转换为文本，以生成说话气泡的形式的文本，其后将说话气泡与审判视频融合起来。其后，如果用户从输出到用户终端的显示器上的融合的审判视频中选择了至少一个参与者，则AOIM设备可将与所选择的参与者的语音相关联地生成的说话气泡输出到审判视频上，并且/或者消除其余参与者的语音以通过扬声器仅输出所选择的参与者的语音。因此，用户可通过用户终端的显示器或扬声器看到或听到参与者的讲话。然而，各方面不限于此，可在显示器上显示字幕。图5示出了根据示例性实施方式的对声对象信息与真实的图像或声音的融合。在图5中，与示例的AOIM设备相连接的用户终端的相机拍摄汽车的发动机的图像。AOIM设备对通过麦克风阵列接收到的由发动机产生的声音进行对象化，将与声音相关联的声对象信息(即，关于发动机部件的信息)与由相机拍摄到的真实的图像融合起来，并且将与各部件相对应的声对象信息输出到用户终端的显示器。AOIM设备可将示出了汽车中的发动机部件的真实的图像和与在真实的图像中所示的发动机部件相关联的声对象信息融合起来。AOIM设备输出融合的结果，并且在用户终端的显示器上的发动机图像的位置附近显示声对象信息。而且，AOIM设备将与接收到的独立部件的声音相关的特征信息与与数据库中所存储的部件的声音相关的特征信息相比较，以确定接收到的部件的声音是处于正常状态还是处于异常状态。因此，AOIM设备通过与AOIM设备相连接的用户终端上的显示器基于确定的结果向用户通知各部件的状态。如果确定接收到的部件的声音中的发动机声音处于异常状态，则AOIM设备生成包括发动机需要维修的通知的声对象信息。其后，AOIM 设备将真实的图像与包括该通知的声对象信息融合起来，从而声对象信息出现在真实的图像上的发动机图像附近，并且将所获得的图像输出到用户终端的显示器上。因此，用户可容易且快速地识别发动机出现某些故障的事实。
9
图6示出了根据示例性实施方式的对声对象信息与真实的图像或声音的融合。在图6中，用户使用与示例性的AOIM设备相连接的用户终端中的相机拍摄他或她正行走在的街道。如果通过AOIM设备的麦克风阵列从不同的商店中接收多段音乐，则AOIM 设备使用波束形成技术来将所述多段音乐分类以获得所述多段音乐的声音峰值，并且识别与所获得的声音峰值相对应的诸如音乐名称之类的对象。AOIM设备还获取与对象(即对象化的音乐)相关的诸如演唱者、唱片公司等细节以生成声对象信息。其后，AOIM设备将声对象信息与由相机拍摄到的真实的图像融合起来，并且将所得到的图像输出到用户终端的显示器上。因此，用户终端在显示在显示器上的图像上的相对应的商店附近显示每一声对象信息。因此，用户可使用AOIM设备来容易地确定与由每一商店播放的音乐相关的信息，并且可进一步选择一段音乐以下载到用户终端。图7示出了根据示例性实施方式的对声对象信息与真实的图像或声音的融合。在图7中，用户通过与示例性的AOIM设备相连接的用户终端的相机拍摄管弦乐队演奏。当通过麦克风阵列接收到各种乐器的声音时，AOIM设备使用波束形成技术来对乐器的声音进行分类以获得接收到的乐器的声音的声音峰值，并且识别与每一声音峰值相对应的对象(即，乐器)。其后，AOIM设备还获取与对象相关的细节和附加信息以生成声对象信息。AOIM设备将声对象信息与由相机拍摄到的真实的图像融合起来，并且将所得到的图像输出到用户终端的显示器上。因此，用户可从显示在用户终端的显示器上的图像中获取与每一乐器相关的信息。而且，当用户从由用户终端的相机所记录的管弦乐队演奏中选择了特定的乐器(例如，小提琴)时，AOIM设备消除其余乐器的声音。因此，用户可听到再现的特定乐器的声音。本文公开的融合声对象信息的设备和方法提供了将真实的图像与声音融合起来的AR服务。通过用户终端接收到的多个声音音调可被分类对象，并且可以创建例如图像的声对象信息，并且创建的声对象信息可被与用户能够感觉到的任何真实融合起来。可对通过用户终端接收到的多个声音进行对象化和信息化以将声音分类对象，从而对象化的声音能够与用户能够感觉到的任一类型的真实环境融合起来。对于本领域技术人员明显的是，可在不脱离本发明的精神或范围的情况下在本发明中进行各种变形和变化。因此，意图是本发明覆盖进入到所附权利要求及其等同物范围内的所提供的本发明的变形和变化。相关申请的交叉引用本申请要求于2010年7月观日提交的第10-2010-00730M号韩国专利申请的优先权和权益，其全部内容通过弓I用并入本文，就好像在此被全部陈述一样。
权利要求
1.一种声对象信息融合设备，所述声对象信息融合设备包括声对象化单元，用于估计接收到的声音的方向和位置，基于估计出的接收到的声音的方向和位置分类接收到的声音的声音模式，并且基于接收到的声音的声音模式来识别接收到的声音的对象；声对象信息生成器，用于获取与识别出的接收到的声音的对象相关的附加信息，并且用于根据所述附加信息生成声对象信息；以及融合单元，用于将所述声对象信息与真实的图像或真实的声音融合起来。
2.如权利要求1所述的设备，其中由麦克风阵列接收所述接收到的声音。
3.如权利要求1所述的设备，其中所述接收到的声音的声音模式是声音峰值。
4.如权利要求1所述的设备，所述声对象信息融合设备还包括用于存储多个声对象的多个声音模式的声音模式数据库。
5.如权利要求4所述的设备，其中所述声对象化单元还包括波束形成应用单元，用于将接收到的声音分类为至少一个声音音调；以及声对象判断单元，用于获取由波束形成应用单元分类出的声音音调的声音峰值并从声音模式数据库中获取与所述声音峰值相对应的对象。
6.如权利要求4所述的设备，其中所述声对象化单元还包括滤波应用单元，所述滤波应用单元用于基于接收到的声音的频率和幅度来将接收到的声音分类为至少一个声音音调；并且其中，所述声对象判断单元获取由所述滤波应用单元分类出的声音音调的声音峰值，并且从所述声音模式数据库中获取与声音峰值相对应的对象。
7.如权利要求1所述的设备，其中所述融合单元包括图像信息融合单元，所述图像信息融合单元用于将真实的图像和与真实的图像中发出所接收到的声音的对象相关联的声对象信息融合起来。
8.如权利要求7所述的设备，其中所述真实的图像是由与所述声对象信息融合设备相连接的用户终端的相机拍摄到的图像。
9.如权利要求8所述的设备，其中所述融合的图像被输出到所述用户终端的显示器。
10.如权利要求7所述的设备，其中所述声对象信息是字符、图标、图像或运动图像形式的。
11.如权利要求7所述的设备，其中所述融合单元还包括声信息融合单元，用于将真实的声音或真实的图像与和所接收的声音自身相关联的声对象信息融合起来。
12.如权利要求11所述的设备，其中通过与所述声对象信息融合设备相连接的用户终端的麦克风接收真实的声音。
13.如权利要求11所述的设备，其中所述真实的图像是由与所述声对象信息融合设备相连接的用户终端的相机拍摄到的图像。
14.如权利要求13所述的设备，其中所述融合的图像被输出到用户终端上的显示器。
15.如权利要求11所述的设备，其中所述声对象信息是字符、图标、图像或运动图像形式的。
16.如权利要求7所述的设备，其中所述融合单元还包括声音消除器，所述声音消除器用于消除与输出到用户终端的融合的图像中的对象中选择出的对象不相对应的声音。
17.如权利要求11所述的设备，其中所述融合单元还包括声音消除器，所述声音消除器用于消除与输出到用户终端的融合的图像中的对象中的选择出的对象不相对应的声音。
18.如权利要求17所述的设备，其中所述设备还包括扬声器，所述扬声器用于输出剩下的与输出到所述用户终端的融合的图像中的对象中选择出的对象相对应的声音。
19.一种生成与声音相关联的声对象信息并且将声对象信息与真实的图像或声音融合起来的方法，该方法包括以下步骤估计通过麦克风阵列接收到的声音的方向和位置；基于估计出的接收到的声音的方向和位置来分类接收到的声音的声音模式；通过参考存储有多个对象的声音模式的声音模式数据库来识别与所述声音模式相关联的对象；获取与所确定的对象相关的附加信息以生成接收到的声音的声对象信息；以及将声对象信息与真实的图像或声音融合起来。
20.如权利要求19所述的方法，其中所述方法还包括以下步骤确定是否获取到了与接收到的声音相关联的对象；使用接收到的声音的频率和幅度来分类接收到的声音的第二声音模式；以及通过参考存储有多个对象的声音模式的声音模式数据库使用分类出的第二声音模式的声音模式来识别与分类出的第二声音模式相关联的对象。
21.如权利要求19所述的方法，其中将所述声对象信息与真实的图像或声音融合起来的步骤包括确定所述声对象信息是否将与真实的图像融合；将由用户终端的相机拍摄到的真实的图像与声对象信息融合起来；以及将真实的图像和声对象信息输出到所述用户终端的显示器。
22.如权利要求20所述的方法，其中将所述声对象信息与真实的图像或声音融合起来的步骤包括确定所述声对象信息是否要与真实的声音融合；将通过用户终端的麦克风接收到的真实的声音与所述声对象信息融合起来；以及将真实的声音和声对象信息输出到用户终端的显示器。
全文摘要
用于融合声对象信息以提供将真实的图像与声音融合起来的增强现实(“AR”)服务的设备和方法。该声对象信息融合设备包括声对象化单元、声对象信息生成器、和融合单元。该方法对麦克风阵列中接收到的声音进行分类以识别与接收到的声音相对应的对象。如果无法识别每一声音的对象，则应用带通滤波器来对接收到的声音进行第二次分类。声对象信息被生成，并且被与拍摄到的图像或记录的声音融合。声对象信息可包括与被识别为与接收到的声音相对应的对象相关的附加信息。
文档编号G10L15/26GK102404667SQ20111021199
公开日2012年4月4日申请日期2011年7月27日优先权日2010年7月28日
发明者全海助, 孙宰官, 安相坤, 崔贤德, 曺泰铉, 李晟瑍申请人:株式会社泛泰

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：全海助;孙宰官;安相坤;李晟瑍;曺泰铉;崔贤德
技术所有人：株式会社泛泰
我是此专利的发明人

上一篇：音乐速度检测装置、音乐速度检测方法和程序的制作方法
上一篇：压板式大鼓顶支架的制作方法