信息处理装置、信息处理方法和程序的制作方法

文档序号:6430195阅读:113来源:国知局
专利名称:信息处理装置、信息处理方法和程序的制作方法
技术领域
本公开内容涉及信息处理装置、信息处理方法和程序,更具体地涉及如下信息处理装置、信息处理方法和程序其通过输入来自外界的诸如图像、语音等信息的输入信息来基于输入信息分析外部环境,并且具体分析说话人的位置、谁正在说话等。
背景技术
进行在诸如个人、PC(个人计算机)和机器人的信息处理装置之间的交互处理(例如通信处理或者交互处理)的系统被称为人机交互系统。在人机交互系统中,诸如PC、机器人等信息处理装置通过输入图像信息或者语音信息来基于输入信息进行分析以识别人类动作,比如人类行为或者言语。在个人发送信息的情况下,使用用于手势、注视、面部表情等以及言语的各种渠道作为信息发送渠道。当能够在机器中分析这些渠道时,即使在人与机器之间的交流也可以达到与人之间的交流水平相同的水平。能够分析来自这些多渠道(也称为形态或模态)的输入信息的接口被称为多形态接口,并且已经广泛进行针对接口的开发和研究。例如当通过输入由相机捕获的图像信息和由麦克风获得的声音信息来进行分析时,为了更具体进行分析,从布置在各点的多个相机和多个麦克风输入大量信息是有效的。作为具体系统,例如假设以下系统。信息处理装置(电视机)经由相机和麦克风输入电视机前面的用户(父亲、母亲、姐姐和弟弟)的图像和语音,并且分析各用户的位置、 哪个用户说话等,从而可以实现如下系统,该系统能够进行根据分析信息的处理,如关于已经说话的用户的相机推近,关于已经说话的用户进行适当的响应等。作为公开现有人机交互系统的有关领域,例如给出公开号为2009-31951的日本待审专利申请和公开号为2009-140366的日本待审专利申请。在这一有关领域中进行如下处理,在该处理中以概率方式统合来自多渠道(形态)的信息,并且关于多个用户中的各用户确定多个用户中的各用户的位置、多个用户是谁以及谁发出信号(也就是谁说话)。例如当确定谁发出信号时,设置与多个用户对应的虚拟目标(tID = 1至m),并且根据由相机捕获的图像数据或者由麦克风获得的声音信息的分析结果来计算各目标为说话源的概率。具体而言,例如进行以下处理。(a)经由麦克风获得的声音事件的声源方向信息、根据说话者识别(ID)信息可获得的用户位置信息和仅根据用户ID信息可获得的目标tID的说话源概率P(tID)。(b)基于经由相机可获得的图像通过面部识别过程可获得的面部属性得分 [S(tID)]的面积 S,t(tID)。其中计算(a)和(b),从而使用α作为预设分配权值系数基于权值α通过加法或者乘法来计算各目标(tID = 1至m)的说话者概率I3S (tID)或Pp(tlD)。此外,例如在公开号为2009-140366的日本待审专利申请中描述了这一处理的细节。
在上述有关领域中的说话者概率计算处理中有必要如上文所述预先调节权值系数α。预先调节权值系数令人厌烦,并且当权值系数未调节成适当数值时,有极大地影响说话者概率计算结果的有效性本身这样的问题。

发明内容
本公开内容是为了解决上述问题,并且希望提供可以进行如下处理的信息处理装置、信息处理方法和程序,从而可以改进鲁棒性并且可以进行高度准确的分析在用于对来自多个渠道(形态或模态)的输入信息进行分析、更具体地进行关于周围中的人的例如位置等的特定处理的系统中,通过关于在诸如图像信息、声音信息等各种输入信息中包括的不确定信息进行随机处理来统合为更准确估计的信息。本公开内容用于解决上述问题,并且希望提供如下信息处理装置、信息处理方法和程序可以在计算说话源概率时,针对来自输入事件信息内的与用户的说话对应的语音事件信息使用识别器,从而不必预先调节上述权值系数。根据本公开内容的实施例,提供一种信息处理装置,该信息处理装置包括多个信息输入单元,输入实际空间的观察信息;事件检测单元,基于对从信息输入单元输入的信息的分析来生成存在于实际空间中的用户的包括估计位置信息和估计识别(ID)信息的事件信息;以及信息统合处理单元,输入事件信息并且基于输入的事件信息生成各用户的包括位置信息和用户ID信息的目标信息,且生成代表针对事件生成源的概率值的信号信息。这里,信息统合处理单元可以包括具有识别器的说话源概率计算单元,并且使用说话源概率计算单元中的识别器基于输入信息来计算说话源概率。此外,根据本公开内容的信息处理装置的该实施例,识别器可以输入与说话事件对应的(a)用户位置信息(声源方向信息)和(b)用户ID信息(说话者ID信息),作为来自构成事件检测单元的语音事件检测单元的输入信息、还输入(a)用户位置信息(面部位置信息)、(b)用户ID信息(面部ID信息)和(c)嘴唇动作信息,作为基于来自构成事件检测单元的图像事件检测单元的输入信息而生成的目标信息,并且进行通过应用至少一个输入信息基于输入信息来计算说话源概率的过程。此外,根据本公开内容的信息处理装置的一个实施例,识别器可以进行如下处理 基于从预设目标选择的两个目标的目标信息之间的比较来识别两个目标的目标信息中的哪个为说话源。此外,根据本公开内容的信息处理装置的该实施例,识别器可以在关于识别器对在输入信息中包括的多个目标的目标信息的比较过程中计算在目标信息中包括的各信息的对数似然度比,并且进行根据计算的对数似然度比计算代表说话源概率的说话源得分的处理。此外,根据本公开内容的信息处理装置的该实施例,识别器可以使用用作关于识别器的输入信息的声源方向信息(D)、说话者ID信息(S)和嘴唇动作信息(L)来计算诸如 Iog(D1ZD2) Uog(S1ZiS2)和Iog(L1Zl2)的三种对数似然度比中的至少任何对数似然度比作为两个目标1和2的对数似然度比,从而将说话源得分计算为目标1和2的说话源概率。此外,根据本公开内容的信息处理装置的该实施例,信息统合处理单元可以包括 目标信息更新单元,进行其中应用多个粒子的粒子过滤处理并且生成分析信息,多个粒子基于来自构成事件检测单元的图像事件检测单元的输入信息设置与虚拟用户对应的多个目标数据,分析信息包括存在于实际空间中的用户的位置信息。这里,目标信息更新单元可以通过将粒子设置的各目标数据的分组与从事件检测单元输入的各事件关联来进行设置、 根据输入的事件识别符进行对从各粒子选择的事件对应目标数据的更新,并且生成包括 (a)用户位置信息、(b)用户ID信息和(C)嘴唇动作信息的目标信息,从而向说话源概率计算单元输出生成的目标信息。此外,根据本公开内容的信息处理装置的该实施例,目标信息更新单元可以通过将目标与在事件检测单元中检测到的面部图像单位的各事件关联来进行处理。此外,根据本公开内容的信息处理装置的该实施例,目标信息更新单元可以通过进行粒子过滤过程来生成存在于实际空间中的用户的包括用户位置信息和用户ID信息的分析信息。根据本公开内容的另一实施例,提供一种用于在信息处理装置中进行信息分析处理的信息处理方法,该方法包括多个信息输入单元输入实际空间的观察信息;检测事件检测单元基于对从信息输入单元输入的信息的分析对包括存在于实际空间中的用户的估计位置信息和估计ID信息的事件信息的生成;并且信息统合处理单元输入事件信息,并基于输入的事件信息生成各用户的包括位置信息和用户ID信息的目标信息以及代表针对事件生成源的概率值的信号信息。这里,在输入事件信息以及生成目标信息和信号信息时,当生成代表事件生成源的概率的信号信息时可以使用识别器来进行说话源概率计算处理,该识别器用于基于输入信息计算说话源概率。根据本发明的又一实施例,提供一种用于在信息处理装置中进行信息分析处理的程序,该程序包括多个信息输入单元输入实际空间的观察信息;检测事件检测单元基于对从信息输入单元输入的信息的分析对包括存在于实际空间中的用户的估计位置信息和估计ID信息的事件信息的生成;并且信息统合处理单元输入事件信息,并基于输入的事件信息生成各用户的包括位置信息和用户ID信息的目标信息并且生成代表针对事件生成源的概率值的信号信息。这里,在输入事件信息以及生成目标信息和信号信息时,当生成代表事件生成源的概率的信号信息时可以使用识别器来进行说话源概率计算处理,该识别器用于基于输入信息计算说话源概率。此外,本公开内容的程序可以是由存储介质和通信介质可以关于能执行各种程序代码的信息处理装置或者计算机系统以计算机可读格式提供的程序。通过以计算机可读格式提供该程序,可以在信息处理装置或者计算机系统中实现根据该程序的处理。本公开内容的其它目的、特征和优点将基于下述本公开实施例和附图从更具体的描述中变得明显。另外,在本说明书全文中的系统由多个设备的逻辑组装组成,并且各种配置的设备并不限于存在于相同外壳内。根据本公开内容的实施例的配置,实现如下配置,该配置基于不确定和异步输入信息通过信息分析来生成用户位置、识别(ID)信息、说话者信息等。本公开内容的信息处理装置可以包括信息统合处理单元,基于图像信息或者语音信息输入用户的包括估计位置和估计ID数据的事件信息,并基于输入的事件信息生成各用户的包括位置信息和用户 ID信息的目标信息和代表针对事件生成源的概率值的信号信息。这里,信息统合处理单元包括具有识别器的说话源概率计算单元,并且使用说话源概率计算单元中的识别器基于输
6入信息来计算说话源概率。例如,识别器计算例如用户位置信息、用户ID信息和嘴唇动作信息的对数似然度比,从而生成代表针对事件生成源的概率值的信号信息,其中实现在指定说话者时的高度准确处理。


图1是用于描述根据本公开内容实施例的信息处理装置进行的处理的概况的图;图2是用于描述根据本公开内容实施例的信息处理装置的配置和处理的图;图3是用于描述语音事件检测单元和图像事件检测单元生成的并且输入到信息统合处理单元的信息例子的图;图4是用于描述粒子过滤器被应用到的基本处理例子的图;图5是用于描述在本处理例子中设置的粒子配置的图;图6是用于描述在相应粒子中包括的各目标的目标数据配置的图;图7是用于描述目标信息的配置和生成处理的图;图8是用于描述目标信息的配置和生成处理的图;图9是用于描述目标信息的配置和生成处理的图;图10是图示了信息统合处理单元进行的处理序列的流程图;图11是用于具体描述粒子权值计算处理的图;图12是用于描述说话者指定处理的图;图13是图示了说话源概率计算单元进行的处理序列例子的流程图;图14是图示了说话源概率计算单元进行的处理序列例子的流程图;图15是用于描述说话源概率计算单元进行的处理所计算的说话源得分例子的图;图16是用于描述说话源概率计算单元进行的处理所获得的说话源估计信息例子的图;图17是用于描述说话源概率计算单元进行的处理所获得的说话源估计信息例子的图;图18是用于描述说话源概率计算单元进行的处理所获得的说话源估计信息例子的图;并且图19是用于描述说话源概率计算单元进行的处理所获得的说话源估计信息例子的图。
具体实施例方式现在将参照附图在下文中具体描述根据本公开内容示例实施例的信息处理装置、 信息处理方法和程序。另外将根据以下项进行描述1.本公开内容的信息处理装置进行的处理概况2.本公开内容的信息处理装置的配置和处理细节3.本公开内容的信息处理装置进行的处理序列4.说话源概率计算单元进行的处理细节<1.本公开内容的信息处理装置进行的处理概况〉
7
首先将描述本公开内容的信息处理装置进行的处理概况。本公开内容实现如下配置,在该配置中,当计算说话源概率时关于来自输入事件信息内的与用户的说话对应的语音事件信息使用识别器,从而不必预先调节在背景技术中描述的权值系数。具体而言,使用用于识别各目标是否为说话源的识别器,或者用于仅关于两个目标信息确定两个目标信息中的哪一个目标信息更像说话源的识别器。作为到识别器的输入信息,使用在语音事件信息中包括的声源方向信息或者说话者识别(ID)信息、在来自事件信息内的图像事件信息中包括的嘴唇动作信息和在目标信息中包括的目标位置或者目标总数。通过在计算说话源概率时使用识别器,不必预先调节在背景技术中描述的权值系数, 从而有可能计算更适当的说话源概率。首先将参照图1描述根据本公开内容的信息处理装置进行的处理概况。本公开内容的信息处理装置100输入来自传感器(其中实时输入观察信息)(这里例如相机21和多个麦克风31至34)的图像信息和语音信息并且基于输入信息进行环境分析。具体而言,进行多个用户1、11至4和14的位置分析和对应位置的用户的识别(ID)。在附图中所示例子中,例如在父亲、母亲、姐姐和弟弟(其中用户1、11至4和14 为家人)的情况下,信息处理装置100对从相机21和多个麦克风31至34输入的图像信息和语音信息进行分析,从而识别四个用户1至4的位置以及在每个位置是父亲、母亲、姐姐和弟弟中的哪一个。识别结果用于各种处理。例如识别结果用于诸如相机向已经说话的用户推近、电视机关于具有对话的用户做出响应等处理。此外,作为根据本公开内容的信息处理装置100的主要处理,基于来自多个信息输入单元(相机21和麦克风31至34)的输入信息识别用户位置和用户作为用户指定处理。 识别结果的用途不受特定限制。在从相机21和多个麦克风31至34输入的图像信息和语音信息中包括各种不确定信息。在根据本公开内容的信息处理装置100中,关于在输入信息中包括的不确定信息进行随机处理,并且将受到随机处理的信息统合到估计为高度准确的信息。通过这一估计处理来提高稳健性,从而进行准确性高的分析。<2.本公开内容的信息处理装置的配置和处理细节〉根据本发明实施例,提供一种信息处理装置,包括多个信息输入单元,输入实际空间的观察信息;事件检测单元,基于对从信息输入单元输入的信息的分析来生成存在于实际空间中的用户的包括估计位置信息和估计识别信息的事件信息;以及信息统合处理单元,输入事件信息,并且基于输入的事件信息生成各用户的包括位置和用户识别信息的目标信息以及代表针对事件生成源的概率值的信号信息,其中信息统合处理单元包括具有识别器的说话源概率计算单元,并且使用说话源概率计算单元中的识别器基于输入信息来计算说话源概率。作为上述根据本发明实施例的信息处理装置的例子,在图2中图示了信息处理装置100的配置例子。信息处理装置100包括图像输入单元(相机)111和多个语音输入单元(麦克风)121a至121d作为输入设备。信息处理装置100输入来自图像输入单元(相机)111的图像信息并且输入来自语音输入单元(麦克风)121的语音信息以由此基于这一输入信息进行分析。多个语音输入单元(麦克风)121a至121d中的各语音输入单元被布置在图1中所示各种位置。
经由语音事件检测单元122向信息统合处理单元131输入从多个麦克风121a至 121d输入的语音信息。语音事件检测单元122分析和统合从布置在多个不同位置的多个语音输入单元(麦克风)121a至121d输入的语音信息。具体而言,基于从语音输入单元(麦克风)121a至121d输入的语音信息生成发声位置和表明哪个用户发声的用户ID信息,并将生成的信息输入到信息统合处理单元131。此外,作为信息处理装置100进行的具体处理,给出在图1中所示有多个用户的环境中识别各用户A至D的位置以及用户A至D中的哪个用户已经说话、也就是进行用户位置和用户ID。具体而言,该具体处理是用于指定诸如说话的个人(说话者)等事件生成源的处理。语音事件检测单元122分析从布置在多个不同位置的多个语音输入单元(麦克风)121a至121d输入的语音信息,并生成语音生成源的位置信息作为概率分布数据。具体而言,语音事件检测单元122关于声源方向生成期望值和分布数据NOv。》。此外,语音事件检测单元122基于与预先登记的用户语音的特征信息的比较来生成用户ID信息。也生成ID信息作为概率估计值。由于在语音事件检测单元122中预先登记待验证的多个用户的语音特征信息,所以进行在输入语音与登记语音之间的比较,并且进行确定哪个用户的语音对应于高概率输入语音的处理,从而计算关于所有登记用户的后验概率或者得分。以这一方式,语音事件检测单元122分析从布置在多个不同位置的多个语音输入单元(麦克风)121a至121d输入的语音信息,生成由概率分布数据配置的“统合语音事件信息”作为声音生成源的位置信息,和由概率估计值构成的用户ID信息,并将生成的统合语音事件信息输入到信息统合处理单元131。同时,经由图像事件检测单元112向信息统合处理单元131输入从图像输入单元 (相机)111输入的图像信息。图像事件检测单元112分析从图像输入单元(相机)111输入的图像信息、提取在图像中包括的人脸并且生成面部的位置信息作为概率分布数据。具体而言,生成面部的位置或者方向的期望值以及分布数据N(me,ο e)。此外,图像事件检测单元112通过进行与预先登记的用户面部的特征信息的比较来识别面部并且生成用户ID信息。生成ID信息作为概率估计值。由于在图像事件检测单元112中预先登记关于代验证的多个用户的面部的特征信息,所以进行在从输入图像提取的面部区域的图像的特征信息与登记的面部图像的特征信息之间的比较,进行确定哪个用户的面部对应于高概率输入图像的处理,从而计算关于所有登记用户的后验概率或者得分。此外,图像事件检测单元112计算与从图像输入单元(相机)111输入的图像中包括的面部对应的属性得分,例如基于嘴部区域的移动生成的面部属性得分。有可能设置成计算以下各种面部属性得分(a)与在图像中包括的面部的嘴部区域的移动对应的得分,(b)根据在图像中包括的面部是否为笑脸来设置的得分,(c)根据在图像中包括的面部是男性面部还是女性面部来设置的得分,以及(d)根据在图像中包括的面部是成人面部还是儿童面部来设置的得分。在下述实施例中描述如下例子,在该例子中计算(a)与在图像中包括的面部的嘴部区域的移动对应的得分并将其用作面部属性得分。也就是说,计算与面部的嘴部区域的移动对应的得分作为面部属性得分,并且基于面部属性得分进行说话者的指定。图像事件检测单元112根据从图像输入单元(相机)111输入的图像中包括的面部区域识别嘴部区域,并检测嘴部区域的移动,从而在确定检测到与移动检测结果对应的得分的情况下(例如当检测到嘴部区域的移动时)计算值更高的得分。此外,进行嘴部区域的移动检测处理作为应用VSD(Visual Speech Detection,视觉话音检测)的处理。应用在公开号为2005-157679的日本待审专利申请中公开的方法,该专利申请涉及申请人与本公开内容的申请人相同的申请。具体而言,例如,从面部图像(该面部图像是根据从图像输入单元(相机)111输入的图像检测的)检测嘴唇的左和右唇角, 在嘴唇的左和右唇角在第N帧和第(N+1)帧中对准之后计算照度差,并作为阈值处理差的值,从而检测嘴唇的移动。此外,有关领域的技术可以应用于在语音事件检测单元122或者图像事件检测单元112中进行的语音ID处理,面部检测处理或者面部ID处理。例如可以应用在以下文献中公开的技术作为面部检测处理和面部ID处理。Sabe Kotaro, Hidai Kenichi, "Learning for real-time arbitrary posture face detectors using pixel difference characteristics,,,第十届图像感测讲演论文集,547-552页,2004年,公开号为2004-302644的日本待审专利申请(P2004-302644A)〈发明名禾尔Face ID apparatus, Face ID method, Recording medium, and Robot apparatus〉信息统合处理单元131基于来自语音事件检测单元122或者图像事件检测单元 112的输入信息进行在概率上估计多个用户中的各用户是谁、多个用户中的各用户的位置以及谁生成诸如语音等信号的处理。具体而言,信息统合处理单元131基于来自语音事件检测单元122或者图像事件检测单元112的输入信息向处理确定单元132输出各信息,比如(a)目标信息,作为关于多个用户中的各用户的位置和他们是谁的估计信息,和(b)信号信息,诸如说话的用户等的事件生成源。此外,在信号信息中包括以下两个信号信息(bl)基于语音事件的信号信息和 (b2)基于图像事件的信号信息。信息统合处理单元131的目标信息更新单元141通过输入在图像事件检测单元 112中检测到的图像事件信息使用例如粒子过滤器来进行目标更新,并基于图像事件生成目标信息和信号信息,从而向处理确定单元132输出生成的信息。此外,甚至向说话源概率计算单元142输出作为更新结果而获得的目标信息。信息统合处理单元131的说话源概率计算单元142通过输入在语音事件检测单元 122中检测到的语音事件信息使用ID模型(识别器)来计算各目标为输入语音事件生成源的概率。说话源概率计算单元142基于计算的值基于语音事件生成信号信息,并将生成的信息输出到处理确定单元132。后文将描述这一处理。接收ID处理结果(包括信息统合处理单元131生成的目标信息和信号信息)的处理确定单元132使用ID处理结果来进行处理。例如进行诸如关于例如已经说话的用户推近相机或者电视机关于已经说话的用户做出响应等处理。如上文所述,语音事件检测单元122生成语音生成源的位置信息的概率分布数据,且更具体地生成关于声音方向的期望值和分布数据NOv J。此外,语音事件检测单元122基于比较结果(比如预先登记的用户的特征信息)生成用户ID信息,并将生成的信息输入到信息统合处理单元131。此外,图像事件检测单元112提取在图像中包括的人脸,并生成面部的位置信息作为概率分布数据。具体而言,图像事件检测单元112关于面部的位置和方向生成期望值和分布数据NOv ο e)。此外,图像事件检测单元112基于与预先登记的用户面部的特征信息进行的比较处理生成用户ID信息,并将生成的信息输入到信息统合处理单元131。此外, 图像事件检测单元112根据从图像输入单元(相机)111输入的图像内的面部区域检测面部属性得分作为面部属性信息(例如嘴部区域的移动),在检测到嘴部区域的明显移动时计算与嘴部区域的移动检测结果对应的得分,具体地计算具有高值的面部属性得分,并将计算的得分输入到信息统合处理单元131。参照图3描述语音事件检测单元122和图像事件检测单元112生成、并被输入到信息统合处理单元131的信息的例子。在本公开内容的配置中,图像事件检测单元112生成比如以下数据并且向信息统合处理单元131输入生成的数据(Va)关于面部的位置和方向的期望值和分布数据N(me, oe), (Vb)基于面部图像特征信息的用户ID信息以及(Vc)与检测到的面部的属性对应的得分,例如基于嘴部区域的移动生成的面部属性得分。此外,语音事件检测单元122向信息统合处理单元131输入比如以下数据(Aa) 关于声源方向的期望值和分布数据N Ov (O,以及(Ab)基于语音特性的用户ID信息。在图3A中图示了包括与参照图1描述的相机和麦克风相同的相机和麦克风并且有多个用户1至k、201至20k的实际环境例子。在这一环境中,当任一用户说话时经由麦克风输入语音。此外,相机连续拍摄图像。由语音事件检测单元122和图像事件检测单元112生成且被输入到信息统合处理单元131的信息分成三类,比如(a)用户位置信息,(b)用户ID信息(面部ID信息或者说话者ID信息)和(c)面部属性信息(面部属性得分)。也就是说,(a)用户位置信息是(Va)图像事件检测单元112生成的关于面部位置或者方向的期望值和分布数据N Ov C^)和(Aa)语音事件检测单元122生成的关于声源方向的期望值和分布数据NOv oe)的统合信息。此外,(b)用户ID信息(面部ID信息或者说话者ID信息)是(Vb)图像事件检测单元112生成的基于面部图像特征信息的用户ID信息和(Ab)语音事件检测单元122生成的基于语音特征信息的用户ID信息的统合信息。(c)面部属性信息(面部属性得分)等效于图像事件检测单元112生成的与检测的面部属性对应的得分(Vc),例如基于嘴唇区域的移动生成的面部属性得分。针对各事件生成(a)用户位置信息、(b)用户ID信息(面部ID信息或者说话者 ID信息)和(c)面部属性信息(面部属性得分)。当从语音输入单元(麦克风)121a至121d输入语音信息时,语音事件检测单元 122基于语音信息生成上述(a)用户位置信息和(b)用户ID信息,并将生成的信息输入到信息统合处理单元131。图像事件检测单元112按照预先确定的某一帧间隔基于从图像输入单元(相机)111输入的图像信息生成(a)用户位置信息、(b)用户ID信息和(c)面部属性信息(面部属性得分),并将生成的信息输入到信息统合处理单元131。此外,在这一实施例中,图像输入单元(相机)111示出了如下例子,在该例子中设置单个相机并且多个用户的图像由该单个相机拍摄。在这一情况下,关于在单个图像中包括的多个面部中的各面部生成(a)用户位置信息和(b)用户ID信息,并且向信息统合处理单元131输入生成的 fn息ο 将描述如下处理,在该处理中,语音事件检测单元122基于从语音输入单元(麦克风)121a至121d输入的语音信息生成(a)用户位置信息和(b)用户ID信息(说话者ID<语音事件检测单元122生成(a)用户位置信息的处理>语音事件检测单元122基于从语音输入单元(麦克风)121a至121d输入的语音信息生成发出所分析的语音的用户的位置(也就是说话者的位置)的估计信息。也就是说, 语音事件检测单元122生成估计为说话者所在处的位置,作为根据期望值(平均值)[mj和分布信息[。J获得的高斯分布(正态分布)数据NOv ο e)。<语音事件检测单元122生成(b)用户ID信息(说话者ID信息)的处理>语音事件检测单元122通过在输入语音的特征信息与预先登记的用户1至k的语音的特征信息之间的比较、基于从语音输入单元(麦克风)121a_121d输入的语音信息来估计说话者是谁。具体而言,计算说话者为各用户1至k的概率。使用计算的值(b)作为用户ID信息(说话者ID信息)。例如对登记的语音特性与输入语音的特性最接近的用户分发最高得分,而向特性与输入语音的特性最不相同的用户分发最低得分(例如零),从而生成对输入语音属于各用户的概率进行设置的数据并且使用生成的数据作为(b)用户ID信息(说话者ID信息)。接着将描述如下处理,在该处理中,图像事件检测单元112基于从图像输入单元 (相机)111输入的图像信息生成信息如(a)用户位置信息、(b)用户ID信息(面部ID信息)和(c)面部属性信息(面部属性得分)。<图像事件检测单元112生成(a)用户位置信息的处理>图像事件检测单元112关于从图像输入单元(相机)111输入的图像信息中包括的各面部生成面部位置的估计信息。也就是说,将从图像检测的面部的估计存在位置生成为根据期望值(平均值)[mj和分布信息[ο J获得的高斯分布(正态分布)数据NOv σ e) 0<图像事件检测单元112生成(b)用户ID信息(面部ID信息)的处理>图像事件检测单元112基于从图像输入单元(相机)111输入的图像信息检测在图像信息中包括的面部,并且通过在输入图像信息与预先登记的各用户1至k的面部的特征信息之间的比较来估计各面部是谁。具体而言,计算各提取面部为各用户1至k的概率。 使用计算的值作为(b)用户ID信息(面部ID信息)。例如向登记面部的特性与在输入图像中包括的面部的特性最接近的用户分发最高得分,而向特性与面部的特性最不相同的用户分发最低得分(例如零),从而生成对输入语音属于各用户的概率进行设置的数据,并使用生成的数据作为(b)用户ID信息(面部ID信息)。<图像事件检测单元112生成(C)面部属性信息(面部属性得分)的处理>图像事件检测单元112基于从图像输入单元(相机)111输入的图像信息检测在图像信息中包括的面部区域并且计算检测到的面部的属性、具体为属性得分(比如面部的嘴部区域的上述移动、检测到的面部是否为笑脸、检测到的面部是男性面部还是女性面部、 检测到的面部是否为成人面部等)。然而在这一处理例子中将描述如下例子,在该例子中计算和使用与在图像中包括的面部的嘴部区域的移动对应的得分作为面部属性得分。作为计算与面部的嘴唇区域的移动对应的得分的处理,图像事件检测单元112从面部图像(该面部图像是根据从图像输入单元(相机)111输入的图像检测的)检测嘴唇的左和右唇角,在嘴唇的左和右唇角在第N帧和第(N+1)帧中对准之后计算照度差,且作为阈值处理该差的值。通过这一处理,检测嘴唇的移动,设置面部属性得分,其中随着嘴唇的移动增加而获得更高得分。此外,当从相机拍摄的图像检测到多个面部时,图像事件检测单元112根据各检测到的面部生成与各面部对应的事件信息作为单独事件。也就是说,图像事件检测单元112 生成包括比如以下信息的事件信息并且向信息统合处理单元131输入生成的信息(a)用户位置信息、(b)用户ID信息(面部ID信息)和(c)面部属性信息(面部属性得分)。在这一实施例中以使用单个相机作为图像输入单元111为例,然而可以使用多个相机拍摄的图像。在这一情况下,图像事件检测单元112关于在多个相机的各拍摄图像中包括的各面部生成(a)用户位置信息、(b)用户ID信息(面部ID信息)和(c)面部属性信息(面部属性得分)并将生成的信息输入到信息统合处理单元131。接着将描述信息统合处理单元131进行的处理。信息统合处理单元131输入如上文所述来自语音事件检测单元122和图像事件检测单元112的图;3B中所示三个信息,即以下述顺序输入(a)用户位置信息、(b)用户ID信息(面部ID信息或者说话者ID信息)和 (c)面部属性信息(面部属性得分)。此外,关于上述各个信息的输入定时可能有各种设置, 然而例如语音事件检测单元122在新语音被输入时生成和输入上述(a)和(b)的各个信息作为语音事件信息,从而图像事件检测单元112按某个帧周期单位生成和输入(a)、(b)和 (c)的各个信息作为语音事件信息。将参照图4描述信息统合处理单元131进行的处理。如上文所述,信息统合处理单元131包括目标信息更新单元141和说话源概率计算单元142并且进行以下处理。目标信息更新单元141例如输入在图像事件检测单元112中检测到的图像事件信息,例如使用粒子过滤器来进行目标更新处理,并基于图像事件生成目标信息和信号信息, 从而向处理确定单元132输出生成的信息。此外,向说话源概率计算单元142输出作为更新结果的目标信息。说话源概率计算单元142输入在语音事件检测单元122中检测到的语音事件信息并且使用ID模型(识别器)来计算各目标为输入语音事件说话源的概率。说话源概率计算单元142基于计算的值生成基于语音事件的信号信息,并且向处理确定单元132输出生成的信息。首先将描述目标信息更新单元141进行的处理。信息统合处理单元131的目标信息更新单元141进行如下处理通过设置关于用户位置和ID信息的假设的概率分布数据,并基于输入的信息更新假设从而仅留下更有可能的假设。作为这一处理方案,进行应用粒子过滤器的处理。
通过设置与各种假设对应的大量粒子来进行应用粒子过滤器的处理。在这一实施例中,设置与关于用户位置和用户是谁的假设对应的大量粒子,并且进行基于来自图像事件检测单元112的图:3B中所示三个信息(也就是(a)用户位置信息、(b)用户ID信息(面部ID信息或者说话者ID信息)和(c)面部属性信息(面部属性得分))增加粒子的更可能权值的处理。将参照图4描述应用粒子过滤器的基本处理例子。例如,图4中所示例子示出了通过粒子过滤器估计与任何用户对应的存在位置的处理例子。在图4中所示例子中,进行估计用户301在任何直线上的一维区域中的存在位置的处理。初始假设(H)变成如图4A中所示的均勻粒子分布数据。接着获取图像数据302, 并且作为图4B的数据获取以获取的图像为基础的用户301的存在的概率分布数据。基于以获取的图像为基础的概率分布数据更新图4A的粒子分布数据,从而获得图4C的更新的假设概率分布数据。基于输入信息反复进行这一处理,从而获得比用户的位置信息更可能的位置信息。此夕卜,例如在 <D. Schulz, D. Fox 禾口 J. Hightower 的 People Tracking with Anonymous and ID-sensors Using Rao-Blackwel1ised Particle Filters(Proc. of the International Joint Conference on Artificial Intelligence (IJGAI—03)) > 中描述了使用粒子过滤器的处理的细节。在图4中所示处理例子中,仅使用图像数据仅关于用户的存在位置处理输入信息。这里,各粒子具有仅关于用户301的存在位置的信息。信息统合处理单元131的目标信息更新单元141从图像事件检测单元112获取图 3B中所示信息(即(a)用户位置信息、(b)用户ID信息(面部ID信息或者说话者ID信息)和(c)面部属性信息(面部属性得分))并且确定多个用户的位置和多个用户中的各用户是谁。因而在应用粒子过滤器的处理中,信息统合处理单元131设置与关于用户位置和用户是谁的假设对应的大量粒子,从而基于图像事件检测单元112中的图;3B中所示两个信息进行粒子更新。将参照图5描述信息统合处理单元131通过输入图:3B中所示来自语音事件检测单元122和图像事件检测单元112的三个信息(即(a)用户位置信息、(b)用户ID信息 (面部ID信息或者说话者ID信息)和(c)面部属性信息(面部属性得分))来进行的粒子更新处理例子。此外,将作为仅使用信息统合处理单元131的目标信息更新单元141中的图像事件信息来进行的处理例子描述下文将描述的粒子更新处理。将描述粒子的配置。信息统合处理单元131的目标信息更新单元141具有预定数目=m的粒子。图5中所示粒子为1至m。在各粒子中设置作为识别符的粒子ID (PID= 1 至m)。在各粒子中设置与虚拟对象对应的多个目标tID = 1、2、. . .η。在这一实施例中, 设置与比估计存在于实际空间中的人数更多的虚拟用户对应的多个(数目为η)目标作为各粒子。数目为m的粒子中的各粒子按照目标单位以目标的数目维持数据。在图5中所示例子中,在单个粒子中包括数目n(n = 2)的目标。信息统合处理单元131的目标信息更新单元141输入来自图像事件检测单元112
14的图3B中所示的事件信息,即(a)用户位置信息、(b)用户ID信息(面部ID信息或者说话者ID信息)和(c)面部属性信息(面部属性得分[SrfD]),并且进行数目为m的粒子(PID =1至m)的更新。在图5中所示的由信息统合处理单元131设置的各粒子1至m中包括的各目标1 至η能够预先与各输入事件信息(eID = 1至k)相关联,并且进行根据该关联与输入事件对应的所选目标的更新。具体而言,例如通过将目标与各面部图像事件相关联来对作为单独事件的在图像事件检测单元112中检测到的面部图像进行更新处理。将描述具体更新处理。例如,图像事件检测单元112按预先确定的某个帧间隔基于从图像输入单元(照相机)111输入的图像信息生成(a)用户位置信息、(b)用户ID信息和(c)面部属性信息(面部属性得分),并且向信息统合处理单元131输入生成的信息。在这一实例中,当图5中所示图像帧350为待检测的事件的帧时,在图像帧中包括的与面部图像数目对应的事件被检测。也就是说,检测与图5中所示第一面部图像351对应的事件1 (eID = 1)和与第二面部图像352对应的事件2 (eID = 2)。图像事件检测单元112关于各事件(eID = 1、2、...)生成(a)用户位置信息、(b) 用户ID信息和(c)面部属性信息(面部属性得分),并将生成的信息输入到信息统合处理单元131。也就是说,生成的信息是与图5中所示事件对应的信息361和362。在信息统合处理单元131的目标信息更新单元141中设置的各粒子1至m中包括的各目标1至η能够与各事件(eID= 1至k)相关联,并且具有如下配置,在该配置中预先设置更新在各粒子中包括的哪个目标。此外,将与各事件(eID= 1至k)对应的目标(tID) 的关联设置成不重叠。也就是说,按照获取的事件生成事件生成源假设,从而在各粒子中不出现重叠。在图5中所示例子中,(1)粒子 l(pID = 1)是[事件 ID = l(eID = 1)]=[目标 ID = l(tID = 1)]的对应目标和[事件ID = 2 (eID = 2)]=[目标ID = 2 (tID = 2)]的对应目标,(2)粒子 2(pID = 2)是[事件 ID = l(eID = 1)]=[目标 ID = l(tID = 1)]的对应目标和[事件ID = 2 (eID = 2)]=[目标ID = 2 (tID = 2)]的对应目标,(m)粒子 m(pID = m)是[事件 ID = l(eID = 1)]=[目标 ID = 2(tID = 2)]的对应目标和[事件ID = 2(eID = 2)]=[目标ID = l(tID = 1)]的对应目标。以这一方式,在信息统合处理单元131的目标信息更新单元141中设置的各粒子 1至m中包括的各目标1至η能够预先与各事件(eID = 1至k)关联并且具有如下配置, 在该配置中确定根据各事件ID更新在各粒子中包括的哪个目标。例如按照图5中所示的 [事件ID= KeID= 1)]的事件对应信息361,在粒子l(pID = 1)中有选择地仅更新目标 ID = KtID = 1)的数据。类似地,按照图5中所示[事件ID = KeID = 1)]的事件对应信息361,甚至在粒子2 (pID = 2)中有选择地仅更新目标ID= l(tID = 1)的数据。此外,按照图5中所示 [事件ID= KeID= 1)]的事件对应信息361,在粒子m(pID = m)中有选择地仅更新目标 ID = 2(tID = 2)的数据。图5中所示的事件生成源假设数据371和372是在各粒子中设置的事件生成源假设数据,并且根据与在各粒子中设置事件生成源假设数据有关的信息确定与事件ID对应的更新目标。将参照图6描述在各粒子中包括的各目标数据分组。在图6中示出了在图5中所示粒子l(pID= 1)中包括的单个目标375(目标ID:tID = n)的目标数据的配置。如图6 中所示,目标375的目标数据由以下数据配置,S卩(a)与各目标对应的存在位置的概率分布 [高斯分布:N(mln, σ ln)]和(b)表明各目标是谁的用户确信度信息(uID)uldlnl = 0. 0uldln2 = 0. 1uldlnk = 0.5。此外,在上述(a)中所示高斯分布N(mln,σ ln)中的[mln, σ J的(In)表示高斯分布作为与粒子ID :pID = 1中的目标ID :tID = η对应的存在概率分布。此外,在上述(b)中所示的用户确信度信息(UlD)的[UlDlnl]中的(Inl)表示粒子ID :pid = 1中的目标ID :tID = η的用户为用户1的概率。也就是说,目标ID = η的数据表示为用户1的概率为0. 0、为用户2的概率为0. 1、...而为用户k的概率为0. 5。再次参照图5,将继续描述在信息统合处理单元131的目标信息更新单元141中设置的粒子。如图5中所示,信息统合处理单元131的目标信息更新单元141设置预定数目 =m的粒子(PID= 1至m),并且各粒子关于估计存在于实际空间中的各目标(tID = 1至 η)具有目标数据,比如(a)与各目标对应的存在位置的概率分布[高斯分布N(m,ο )]和 (b)表明各目标是谁的用户确信度信息(uID)。信息统合处理单元131的目标信息更新单元141输入来自语音事件检测单元122 和图像事件检测单元112的图:3B中所示的事件信息(eID = 1,2...)(即(a)用户位置信息、(b)用户ID信息(面部ID信息或者说话者ID信息)和(c)面部属性信息(面部属性得分[srfd])),并且进行与在各粒子中预先设置的事件对应的目标的更新。此外,待更新的目标是在各目标数据分组中包括的数据,s卩(a)用户位置信息和 (b)用户ID信息(面部ID信息或者说话者ID信息)。最终使用(c)面部属性信息(面部属性得分[seid])作为表明事件生成源的信号信息。当输入某数目的事件时,也更新各粒子的权值,从而增加数据与实际空间中的信息最接近的粒子的权值而减少数据对于实际空间中的信息不适合的粒子的权值。以这一方式, 当粒子的权值出现偏离和收敛时计算基于面部属性信息(面部属性得分)的信号信息,即表明事件生成源的信号信息。将任何具体目标x(tID = x)为任何事件(eID = y)的生成源的概率表示为PeID = x(tID = y)。例如如图5中所示,当设置数目为m的粒子(pID= 1至m)并且在各粒子中设置两个目标(tID = 1、2)时,第一目标(tID = 1)为第一事件(eID = 1)的生成源的概率 *PeID = 1(tID = 1),而第二目标(tID = 2)为第一事件(eID = 1)的生成源的概率为PeID = 1(tID = 2)。此外,第一目标(tID = 1)为第二事件(eID = 2)的生成源的概率为PeID = 2(tID =1),而第二目标(tID = 2)为第二事件(eID = 2)的生成源的概率为PeID = 2(tID = 2)。表明事件生成源的信号信息是任何事件(eID = y)的生成源为具体目标χ (tID = χ)的概率Pem = x(tID = y),并且这等效于在信息统合处理单元131的目标信息更新单元 141中设置的粒子数目m与向各事件分配的目标数目之比。这里,在图5中所示例子中获得以下对应关系PeID^l(tID =1)=[向第--事件(eID =1)分配tID =1的粒子的类泪丨/(m)],
PeID^l(tID =2)=[向第--事件(eID =1)分配tID =2的粒子的类泪丨/(m)],
PeID = 2(tID =1)=[向第二二事件(eID =2)分配tID =1的粒子的美/(m)],
以及PeID = 2(tID = 2)=[向第二事件(eID = 2)分配 tID = 2 的粒子的数目 /(m)]。最终使用这一数据作为表明事件生成源的信号信息。此外,任何事件(eID = y)的生成源为具体目标χ (tID = χ)的概率为PrfD = x (tID = y)。这一数据甚至应用于计算在目标信息中包括的面部属性信息。也就是说,在计算面部属性信息StID = l5n时使用这一数据。面部属性信息StID = x等效于目标ID = χ的最终面部属性的期望值,即表明为说话者的概率的值。信息统合处理单元131的目标信息更新单元141输入来自图像事件检测单元112 的事件信息(eID = 1,2...)并且进行与在各粒子中预先设置的事件对应的目标的更新。 接着,目标信息更新单元141生成(a)目标信息,包括表明多个用户中的各用户的位置的位置估计信息、表明多个用户中的各用户是谁的估计信息(uID估计信息)和面部属性信息(Stm)的期望值,例如表明用活动嘴部说话的面部属性期望值,以及(b)表明事件生成源 (比如说话的用户)的信号信息(图像事件对应信号信息),并且向处理确定单元132输出生成的信息。如图7的右端部分中所示的目标信息380中所示,将目标信息生成为在各粒子 (PID = 1至m)中包括的各目标(tID = 1至η)的对应数据的加权求和数据。在图7中示出了信息统合处理单元131的数目为m的粒子(PID= 1至m)和根据数目为m的粒子(PID =1至m)生成的目标信息380。后文将描述各粒子的加权。目标信息380是表明关于与信息统合处理单元131预先设置的虚拟用户对应的目标(tID = 1至η)的(a)存在位置、(b)用户是谁(来自用户uIDl至uIDk之中)和(c)面部属性期望值(在这一实施例中是作为说话者的期望值(概率))的信息。基于与如上文所述表明事件生成源的信号信息对应的概率PeID = x(tID = y)和与各事件对应的面部属性得分SrfD = i计算(C)各目标的面部属性的期望值(在这一实施例中是作为说话者的期望值(概率))。这里‘i’表示事件ID。例如根据下式计算目标ID = 1的面部属性的期望值Stm = P当一般化和示出StID = 1 =Σ eIDPeID = i(tID = 1) XSem = i时,根据下式计算目标的面部属性的期望值stID。〈式1>Stm=E eIDPeID = i(tID)XSeID例如如图5中所示,在两个目标存在于系统内的情况下,在图8中示出了在图像1 的帧内从图像事件检测单元112向信息统合处理单元131输入两个面部图像事件(eID = 1、2)时各目标(tID = 1、2)的面部属性的期望值计算例子。在图8的右端所示的数据是与图7中所示的目标信息380对应的目标信息390,并且等效于作为在各粒子(PID = 1至m)中包括的各目标(tID = 1至η)的对应数据的加权求和数据而生成的信息。
基于与如上文所述表明事件生成源的信号信息对应的概率PeID = x(tID = y)和与各事件对应的面部属性得分SrfD = i计算目标信息390中的各目标的面部属性。这里“i”为事件ID。将目标ID = 1的面部属性的期望值StID = 1表示为StID = 1 =Σ eIDPeID = i(tID = 1) X、D = i,而将目标ID = 2的面部属性的期望值StID = 2表示为StID = 2 =Σ eIDPeID = i(tID = 2)XSeID.i0各目标的面部属性的期望值的所有目标之和StID变成[1]。在这一实施例中,由于关于各目标设置面部属性的期望值Stm为1至0,所以确定期望值高的目标使得为说话者的概率高。此外,当面部属性得分[SrfD]未存在于面部图像事件eID中时(例如当即使检测到面部、但是由于手掩嘴部而未检测到嘴部的移动时),在面部属性得分中使用先验知识值Sphot等。作为先验知识值,当针对各目标存在先前获得的值时,使用该值或者使用根据预先离线获得的面部图像事件来计算的面部属性的平均值。在图像1的帧内的目标数目和面部图像事件的数目通常并不相同。由于与表明上述事件生成源的信号信息对应的概率之和PrfD (tID)在目标数目大于面部图像事件数目时未变成[1],所以甚至各目标的面部属性的期望值的上述计算公式关于各目标的期望值之和(也就是Stm=E eIDPeID = JtIDmem (式1))未变成[1],从而没有计算出准确性高的
期望值。如图9中所示,当未在图像帧350中检测到与存在于先前处理帧中的第三事件对应的第三面部图像395时,上式1中所示的关于各目标的期望值之和并非[1],并且没有计算机出准确性高的期望值。在这一情况下,改变各目标的面部属性的期望值计算式。也就是说,从而各目标的面部属性的期望值之和Stm为[1],在下式2中使用补数 [1- Σ eIDPeID(tID)]和先验知识值来计算面部事件属性的期望值StID。〈式2>Stm = Σ eIDPeID (tID) X SeID+(l- Σ eIDPeID (tID)) X Sprior在图9中,在系统内设置与事件对应的三个目标,然而图示了当从图像事件检测单元112向信息统合处理单元131输入仅两个目标作为图像1的帧内的面部图像事件时的面部属性的期望值计算例子。进行计算从而目标ID = 1的面部属性的期望值Stn^i为Stm = 1 =Σ eIDPeID = i(tID = 1) XSeID = i+(l- Σ eIDPeID(tID = 1) XSprior,目标ID = 2的面部属性的期望值StID = 2为StID = 2 =Σ eIDPeID = i(tID = 2) XSeID = i+(l- Σ eIDPeID(tID = 2) XSprior而目标ID = 3的面部属性的期望值StID = 3为StID = 3 =Σ eIDPeID = i(tID = 3) XSeID = i+(l- Σ eIDPeID(tID = 3) XSprior.反言之,当目标数目小于面部图像事件数目时生成目标,从而目标数目与事件数目相同,并且通过应用上式1来计算各目标的面部属性的期望值[stID = J。此外,面部属性在这一实施例中描述为基于与嘴部移动对应的得分的面部属性期望值、也就是描述为如下数据,该数据表明其中各目标为说话者的期望值,然而能够将如上文所述面部属性得分计算为得分如笑脸或者年龄,并且在这一情况下将面部属性期望值计算为与等效于得分的属性对应的数据。
随着粒子的更新依次更新目标信息,并且例如当用户1至k未在实际环境内移动时,各用户1至k收敛为与从数目为η的目标tID = 1至η选择的数目为k的目标中的各目标对应的数据。例如,在图7中所示的目标信息380内的顶部目标l(tID = 1)的数据中包括的用户确信度信息(UlD)关于用户2具有最高概率(UlD12 = 0.7)。因而将这一目标l(tID = 1)的数据估计为等效于用户2。此外,在表明用户确信度信息UlD的数据[UlD12 = 0. 7]内的UlD12的12是与目标ID = 1的用户=2的用户确信度信息UlD对应的概率。在这一目标信息380内的顶部目标l(tID = 1)的数据中,为用户2的概率最高, 并且将用户2估计为在存在概率分布数据中所示的范围内,其中在目标信息380的顶部目标(tID = 1)的数据中包括用户2的存在位置。以这一方式,目标信息380是关于起初设置为虚拟对象(虚拟用户)的各目标 (tID = 1至η)表明(a)存在位置、(b)用户是谁(来自用户uIDl至uIDk之中)和(c)面部属性期望值(在这一实施例中是作为说话者的期望值(概率))的信息。因而,各目标 (tID = 1至η)的数目为k的目标信息中的各目标信息在用户未移动时收敛成等效于用户 1至k。如上文所述,信息统合处理单元131基于输入信息进行粒子的更新并且生成(a) 目标信息,作为关于多个用户的位置和多个用户中的各用户是谁的估计信息,以及(b)表明事件生成源(比如说话的用户)的信号信息,从而向处理确定单元132输出生成的信息。以这一方式,信息统合处理单元131的目标信息更新单元141进行粒子过滤处理 (设置与虚拟用户对应的多个目标数据的多个粒子应用于该粒子过滤处理),并且生成分析信息(包括存在于实际空间中的用户的位置信息)。也就是说,在粒子中设置的各目标数据分组被设置成与从事件检测单元输入的各事件关联,并且更新与根据输入事件识别符从各粒子选择的事件对应的目标数据。此外,目标信息更新单元141计算在各粒子和从事件检测单元输入的事件信息中设置的事件间生成源假设目标似然度,并且在各粒子中设置与似然度的大小对应的值作为粒子的权值,从而进行优先选择权值大的粒子的重新采样处理以更新粒子。后文将描述这一处理。此外,关于在各粒子中设置的目标进行随时间的更新。此外,根据在各粒子中设置的事件生成源假设目标的数目,将信号信息生成为事件生成源的概率值。同时,信息统合处理单元131的说话源概率计算单元142输入在语音事件检测单元122中检测到的语音事件信息,并且使用ID模型(识别器)来计算各目标为输入语音事件说话源的概率。说话源概率计算单元142基于计算值生成关于语音事件的信号信息并且向处理确定单元132输出生成的信息。后文将描述说话源概率计算单元142进行的处理的细节。<3.本公开内容的信息处理装置进行的处理序列〉根据本发明另一实施例,提供一种用于在信息处理装置中进行信息分析处理的信息处理方法,该方法包括多个信息输入单元输入实际空间的观察信息;检测事件检测单元基于对从信息输入单元输入的信息的分析来生成存在于实际空间中的用户的包括估计位置信息和估计ID信息的事件信息;并且信息统合处理单元输入事件信息并且基于输入的事件信息生成各用户的包括位置和用户ID信息的目标信息以及代表针对事件生成源的
19概率值的信号信息,其中在输入事件信息以及生成目标信息和信号信息时,当生成代表事件生成源的概率的信号信息时使用识别器来进行说话源概率计算处理,该识别器用于基于输入信息计算说话源概率。接着将参照图10中所示的流程图描述信息统合处理单元131进行的处理序列,作为上述根据本发明另一实施例的信息处理方法的例子。信息统合处理单元131输入来自语音事件检测单元122和图像事件检测单元112 的图3B中所示的事件信息、即用户位置信息和用户ID信息(面部ID信息或者说话者ID 信息),生成(a)目标信息,作为关于多个用户的位置和多个用户中的各用户是谁的估计信息,以及(b)表明例如说话的用户等的事件生成源的信号信息,并且向处理确定单元132输出生成的信息。将参照图10中所示流程图描述这一处理序列。首先,在步骤SlOl中,信息统合处理单元131输入来自语音事件检测单元122和图像事件检测单元112的事件信息、比如(a)用户位置信息、(b)用户ID信息(面部ID信息或者说话者ID信息)和(c)面部属性信息(面部属性得分)。当成功进行事件信息的获取时,该处理继续到步骤S102,而当错误进行事件信息的获取时,该处理继续到步骤S121。稍后说明步骤S121的处理。当成功进行事件信息的获取时,信息统合处理单元131在步骤S102中确定语音事件是否被输入。当输入事件为语音事件时,该处理继续到步骤S111,而当输入事件为图像事件时,该处理继续到步骤S103。当输入事件为语音事件时,在步骤Slll中使用ID模型(识别器)来计算各目标为输入语音事件的说话源的概率。向处理确定单元132(见图幻输出计算结果作为基于语音事件的信号信息。后文将描述步骤Slll的细节。当输入事件为图像事件时,在步骤S103中进行基于输入信息的粒子更新,然而在进行粒子的更新之前在步骤S103中确定是否必须关于各粒子进行新目标的设置。在本公开内容的配置中,如参照图5所述,在信息统合处理单元131中设置的各粒子1至m中包括的各目标1至η能够与各输入事件信息(eID = 1至k)关联,并且根据该关联来进行与输入事件对应的所选目标的更新。因而,当从图像事件检测单元112输入的事件的数目大于目标的数目时,必须进行新目标的设置。具体而言,这对应于直到现在之前不存在的面部出现于图5中所示图像帧350中的情况。在这一情况下,该处理继续到步骤S104,从而在各粒子中设置新目标。作为将更新成与新事件对应的目标设置该目标。接着在步骤S105中,在信息统合处理单元131中设置的粒子1至m中的数目为m 的粒子(pID= 1至m)的每个中设置事件生成源的假设。至于事件生成源,例如,当事件生成源为语音事件时,说话的用户为事件生成源,而当事件生成源为图像事件时,具有提取的面部的用户为事件生成源。如参照图5所述,进行本公开内容的设置假设的处理,从而将各输入事件信息 (eID = 1至k)设置成与在各粒子1至m中包括的各目标1至η关联。也就是说,如参照图5所述,在各粒子1至m中包括的各目标1至η与各事件信息 (eID = 1至k)关联,并且预先设置更新各粒子中包括的哪个目标。以这一方式,在各粒子中生成按照获取事件的事件生成源假设,从而不出现重叠。此外,起初例如可以使用其中各事件均勻分布的设置。由于粒子数目m被设置成大于目标数目n,所以设置多个粒子作为具有相同事件ID-目标ID这一对应的粒子。例如当目标数目η为10时进行其中设置粒子数目m = 100至1000的处理。当在步骤S105中完成假设的设置时,该处理继续到步骤S106。在步骤S106中计算与各粒子对应的权值、也就是粒子权值[WPID]。至于粒子权值[WPID],起初向各粒子设置统一值,然而根据事件输入来进行更新。将参照图11具体描述粒子权值[WpID]的计算处理。粒子权值[WpID]对应于生成事件生成源假设目标的各粒子的假设正确性指标。将粒子权值[WPID]计算为在事件与目标之间的似然度、也就是与如下输入事件的相似性,该输入事件是能够与在数目为m的粒子 (pID= 1至m)的每个中设置的多个目标中的各目标关联的事件生成源。在图11中,信息统合处理单元131示出了与从语音事件检测单元122和图像事件检测单元112输入的单个事件(eID = 1)对应的事件信息401和信息统合处理单元131维持的单个粒子421。粒子421的目标(tID = 2)是能够与事件(eID = 1)关联的目标。在图11的下端示出了在事件与目标之间的似然度计算处理例子。将粒子权值 [WPID]计算为与在事件与目标之间的似然度之和对应的值作为在各粒子中计算的在事件与目标之间的相似性指标。进行图11的下端所示的似然度计算处理,从而单独计算(a)高斯分布间似然度 [DL],作为在关于用户位置信息的事件与目标数据之间的相似性数据,和(b)用户确信度信息(UlD)间似然度[UL],作为在关于用户ID信息(面部ID信息或者说话者ID信息)的事件与目标数据之间的相似性数据。将高斯分布间似然度[DL]计算为在(a)关于用户位置信息的事件与假设目标之间的相似性数据的处理是以下处理。当与在输入事件信息内的用户位置信息对应的高斯分布为NOv ο e)而与从粒子选择的假设目标的用户位置信息对应的高斯分布为N(mt,ot)时,按照下式计算高斯分布间似然度[DL]DL = N(mt, σ t+σ e)x|me在上式中,位置χ = me在分布ot+oe这一高斯分布中的值为中心mt。(b)将用户确信度信息(UlD)间似然度[UL]计算为在针对用户ID信息(面部ID 信息或者说话者ID信息)的事件与假设目标之间的相似性数据的处理如下进行。假设在输入事件信息内的用户确信度信息(UlD)的各用户1至k的确信度值为 Pe[i]。此外,“i”为与用户识别符1至k对应的变量。使用从粒子选择的假设目标的用户确信度信息(UlD)的各用户1至k的确信度值 (得分)作为Pt[i]按照下式计算用户确信度信息(UlD)间似然度[UL]。UL=E Pe [i] XPt [i]在上式中,获得在两个数据的用户确信度信息(UlD)中包括的相应对应用户确信度值(得分)的乘积求和,并且使用获得的和作为用户确信度信息(UlD)间似然度[UL]。基于上述两个似然度(也就是高斯分布间似然度[DL]和用户确信度信息(UlD) 间似然度[UL])使用权值α (α = 0至1)按照下式计算粒子权值[WpID]。[ffpID] = Σ nUL α XDL1^a
这里,η表示与在粒子中包括的事件对应的目标的数目。使用上式来计算粒子权值[WPID]。然而α = 0至1。关于各粒子计算粒子权值[WpID]。应用于计算粒子权值DVpm]的权值[α ]可以是预定固定值或者是根据输入事件值而改变的值。例如当输入事件为图像时成功进行面部检测以获取位置信息,然而当错误进行面部ID时,满足用户确信度信息(UlD)间似然度UL = 1作为α = 0的设置,从而可以仅根据高斯分布间似然度[DL]计算粒子权值[WPID]。此外,当输入事件为语音时成功进行说话者ID以获取说话者ID信息,然而当错误进行位置信息的获取时,满足高斯分布间似然度[DL] = 1作为α =0的设置,从而可以仅根据用户确信度信息(UlD)间似然度[UL] 计算粒子权值[WPID]。作为参照图11描述的处理执行在图10的流程图的步骤S106中的与各粒子对应的权值[WPID]的计算。接着在步骤S107中进行基于在步骤S106中设置的各粒子的粒子权值[WPID]的粒子的重新采样处理。作为根据粒子权值[WpID]从数目为m的粒子挑选粒子的处理执行粒子重新采样处理。具体而言,例如在粒子数目为m = 5的情况下,当分别设置以下粒子权值时粒子1 粒子权值[ffpID] = 0. 40,粒子2 粒子权值 DVp1d] = 0. 10,粒子3 粒子权值[WpID] = 0. 25,粒子4 粒子权值DVp1d] = 0. 05,以及粒子5 粒子权值[WpID] = 0. 20。粒子1的重新采样概率为40 Y,而粒子2的重新采样概率为10%。此外,事实上 m= 100至1,000,并且重新采样结果由分布比与粒子权值对应的粒子配置。通过这一处理,粒子权值[WpID]大的更多粒子保留。此外,即使在重新采样之后, 粒子总数[m]不变。此外,在重新采样之后,重置各粒子的权值[WpID],并且根据来自步骤 SlOl的新事件的输入反复进行该处理。在步骤S108中,进行在各粒子中包括的目标数据(用户位置和用户确信度)的更新。如参照图7所述,各目标由比如以下数据配置(a)用户位置与各目标对应的存在位置的概率分布[高斯分布N(mt,σ t)](b)为用户1至k的确立值(得分)Pt[i](i = 1至k),作为用户确信度表明各目标是谁的用户确信度信息(UlD)、也就是UlDtl = Pt [1]UlDt2 = Pt [2]UlDtk = PtDO,以及(c)面部属性期望值(在这一实施例中是作为说话者的期望值(概率))。基于与表明事件生成源的上述信号信息对应的概率PeID = x(tID = y)和与各事件对应的面部属性得分SrfD = i计算(C)面部属性期望值(在这一实施例中是作为说话者的期望值(概率))。这里,“i “为事件ID。例如按照下式计算目标ID = I的面部属性期望值
StID = i °Stm = 1 =Σ eIDPeID = i(tID = l)XSeID = i0
当被一般化和表明时按照下式1计算目标的面部属性的期望值、^”〈式1>Stm=E eIDPeID = i(tID)XSeID此外,当目标数目大于面部图像事件数目,从而各目标的面部属性的期望值之和 [StID]为[1]时,使用补数[ι- Σ eIDPeID(tID)]和先验知识值[Sprior]在下式2中计算面部事件属性的期望值StID。〈式2>Stm = Σ eIDPeID (tID) X SeID+(l- Σ eIDPeID (tID)) X Sprior关于(a)用户位置、(b)用户确信度和(C)面部属性期望值(在这一实施例中是作为说话者的期望值(概率))中的各项进行在步骤S108中的目标数据的更新。首先将描述(a)用户位置的更新。进行(a)用户位置的更新作为比如以下两个阶段的更新(al)关于所有粒子的所有目标的更新和(a》关于在各粒子中设置的事件生成源假设目标的更新。关于作为事件生成源假设目标而选择的目标和其它目标进行(al)关于所有粒子的所有目标的更新。基于用户位置的离散随时间扩展这一假设进行更新,并且按照从先前更新处理起的流逝时间和事件的位置信息使用卡尔曼滤波器来进行更新。下文将描述在位置信息为一维的情况下的更新处理例子。首先,当在先前更新处理的时间之后的流逝时间[dt]时,关于所有目标计算在dt之后的用户位置的预测分布。也就是说,关于作为用户位置分布信息的高斯分布(N(mt,ot)的期望值(平均值)[mt]和分布[ot])进行以下更新。mt = mt+xc X dtot2= σ t2+ σ c2 X dt这里,mt表示预测期望值(预测状态),σ t2表示预测协方差(预测估计协方差), xc表示移动信息(控制模型),而σ C2表示噪声(处理噪声)。此外,在用户未移动的条件之下进行更新的情况下,使用xc = O来进行更新。通过上述计算处理,更新作为在所有目标中包括的用户位置信息的高斯分布
N(mt, σ t) 0接着将描述(U)关于在各粒子中设置的事件生成源假设目标的更新。在步骤S104中更新根据设置的事件生成源假设选择的目标。首先,如参照图5所述,设置在各粒子1至m中包括的各目标1至η作为能够与各事件(eID = 1至k)关联的目标。也就是说,预先设置根据事件ID(elD)更新在各粒子中包括的哪些目标,并且基于该设置仅更新能够与输入事件关联的目标。例如按照图5中所示的[事件ID = l(eID =1)]的事件对应信息361,在粒子l(pID= 1)中有选择地仅更新目标ID = KtID= 1) 的数据。在基于事件生成源假设进行的更新处理中,进行能够与事件关联的目标的更新。 进行使用如下高斯分布NOv Oj的更新处理,该高斯分布表明在从语音事件检测单元122 或者图像事件检测单元112输入的事件信息中包括的用户位置。例如当假设K表示卡尔曼增益、me表示在输入事件信息N(me,σ e)中包括的观察值
23(观察状态),而表示在输入事件信息NOv oe)中包括的观察值(观察协方差)时, 进行以下更新 接着将描述(b)作为目标数据的更新处理而进行的用户确信度的更新。在目标数据中包括除了用户位置信息之外的为各用户1至k的概率(得分)Pt[i] (i = 1至k),作为表明各目标是谁的用户确信度信息(UlD)。在步骤S108中进行关于用户确信度信息(UlD) 的更新处理。通过应用预先设置的值范围为O至1的更新率[β]、按照所有登记用户的后验概率和在从语音事件检测单元122或者图像事件检测单元112输入的事件信息中包括的用户确信度信息(uID)Pt[i] (i = 1至k)来进行关于在各粒子中包括的目标的用户确信度信息 (uID)Pt[i] (i = 1 至 k)的更新。按照下式进行关于目标的用户确信度信息(uID)Pt[i] (i = 1至k)的更新。Pt[i] = (1-β ) ΧΡ [ ] + β * Pe[i]这里,i = l至k而β = 0至1。此外,更新率[β]对应于值0至1并且预先加以设置。在步骤S108中,在更新的目标数据中包括以下数据S卩(a)用户位置与各目标对应的存在位置的概率分布[高斯分布N(mt,ot)], (b)为用户1至k的确立值(得分) Pt[i](i = 1至k),作为用户确信度表明各目标是谁的用户确信度信息(uID)),也就是UlDtl = PT [1]UlDt2 = PT [2].·UlDtk = PTDO,以及(c)面部属性期望值(在这一实施例中是作为说话者的期望值(概率))。基于上述数据和各粒子权值[WpID]生成目标信息,并且向处理确定单元132输出生成的目标信息。此外,将目标信息生成为在各粒子(PID = 1至m)中包括的各目标(tID = 1至η) 的对应数据的加权求和数据。目标信息是在图7的右端所示目标信息308中所示的数据。 将目标信息生成为各目标(tID = 1至η)的包括(a)用户位置信息、(b)用户确信度信息和(c)面部属性期望值(在这一实施例中是作为说话者的期望值(概率))的信息。例如将与目标(tID = 1)对应的目标信息的用户位置信息表示为下式A。
mΣ ^WV(Wil5Oh)W(KA)在上式1中,Wi表示粒子权值DVpm]。此外,将与目标(tID = 1)对应的目标信息的用户确信度信息表示为下式B。
mX Wi-UlDin
2权利要求
1.一种信息处理装置,包括多个信息输入单元,输入实际空间的观察信息;事件检测单元,基于对从所述信息输入单元输入的信息的分析来生成包括存在于实际空间中的用户的估计位置信息和估计识别信息的事件信息;以及信息统合处理单元,输入所述事件信息,并且基于输入的所述事件信息生成包括各用户的位置和用户识别信息的目标信息以及代表针对事件生成源的概率值的信号信息,其中所述信息统合处理单元包括具有识别器的说话源概率计算单元,并且使用所述说话源概率计算单元中的所述识别器来计算基于输入信息的说话源概率。
2.根据权利要求1所述的信息处理装置,其中所述识别器输入与说话事件对应的(a)用户位置信息(声源方向信息)和(b)用户ID 信息(说话者ID信息),作为来自构成所述事件检测单元的语音事件检测单元的输入信息,输入(a)用户位置信息(面部位置信息)、(b)用户ID信息(面部ID信息)和(c)嘴唇动作信息,作为基于来自构成所述事件检测单元的图像事件检测单元的输入信息而生成的所述目标信息,以及进行如下处理通过应用至少一个信息来计算基于所述输入信息的所述说话源概率。
3.根据权利要求1所述的信息处理装置,其中所述识别器进行如下处理基于在从预设目标选择的两个目标的目标信息之间的比较,识别所述两个目标的所述目标信息中的哪个目标信息为说话源。
4.根据权利要求3所述的信息处理装置,其中所述识别器在对关于所述识别器的所述输入信息中包括的多个目标的目标信息的比较处理中,计算在所述目标信息中包括的各信息的对数似然度比,并且进行如下处理根据所述计算的对数似然度比计算代表所述说话源概率的说话源得分。
5.根据权利要求4所述的信息处理装置,其中所述识别器使用作为关于所述识别器的所述输入信息的声源方向信息(D)、说话者ID信息(S)和嘴唇动作信息(L)来计算例如 Iog(D1ZD2)、Iog(S1ZiS2)和Iog(IVL2)的三种对数似然度比中的至少任何对数似然度比,作为两个目标1和2的对数似然度比,从而将所述说话源得分计算为所述目标1和2的所述说话源概率。
6.根据权利要求1所述的信息处理装置,其中所述信息统合处理单元包括目标信息更新单元,进行其中应用多个粒子的粒子过滤处理并且生成分析信息,所述多个粒子基于来自构成所述事件检测单元的图像事件检测单元的所述输入信息设置与虚拟用户对应的多个目标数据,所述分析信息包括存在于所述实际空间中的所述用户的所述位置信息,以及所述目标信息更新单元通过将所述粒子设置的各目标数据分组与从所述事件检测单元输入的各事件关联来进行设置,根据输入的事件识别符进行对从各所述粒子选择的事件对应目标数据的更新,并且生成包括(a)用户位置信息(面部位置信息)、(b)用户ID信息 (面部ID信息)和(c)嘴唇动作信息的所述目标信息,从而向所述说话源概率计算单元输出生成的目标信息。
7.根据权利要求6所述的信息处理装置,其中所述目标信息更新单元通过将目标与在所述事件检测单元中检测到的面部图像单位的各事件关联来进行处理。
8.根据权利要求6所述的信息处理装置,其中所述目标信息更新单元通过进行所述粒子过滤处理来生成包括存在于所述实际空间中的所述用户的所述用户位置信息和所述用户ID信息的所述分析信息。
9.一种用于在信息处理装置中进行信息分析处理的信息处理方法,所述方法包括 多个信息输入单元输入实际空间的观察信息;检测事件检测单元基于对从所述信息输入单元输入的信息的分析对包括存在于所述实际空间中的用户的估计位置信息和估计ID信息的事件信息的生成;以及信息统合处理单元输入所述事件信息,并且基于所述输入的事件信息生成包括各用户的位置和用户ID信息的目标信息以及代表针对事件生成源的概率值的信号信息,其中在输入所述事件信息以及生成所述目标信息和所述信号信息时,当生成代表所述事件生成源的概率的所述信号信息时使用识别器来进行说话源概率计算处理,所述识别器用于计算基于输入信息的说话源概率。
10.一种使信息处理装置执行信息分析处理的程序,所述信息分析处理包括 多个信息输入单元输入实际空间的观察信息;检测事件检测单元基于对从所述信息输入单元输入的信息的分析对包括存在于所述实际空间中的用户的估计位置信息和估计ID信息的事件信息的生成;以及信息统合处理单元输入所述事件信息,并且基于输入的事件信息生成包括各用户的位置信息和用户ID信息的目标信息并且生成代表针对事件生成源的概率值的信号信息,其中在输入所述事件信息以及生成所述目标信息和所述信号信息时,当生成代表所述事件生成源的概率的所述信号信息时使用识别器来进行说话源概率计算过程,所述识别器用于计算基于输入信息的说话源概率。
全文摘要
本发明涉及信息处理装置、信息处理方法和程序。该信息处理装置包括多个信息输入单元,输入实际空间的观察信息;事件检测单元,基于对从信息输入单元输入的信息的分析来生成存在于实际空间中的用户的包括估计位置信息和估计识别(ID)信息的事件信息;以及信息统合处理单元,输入事件信息并且基于输入的事件信息生成各用户的包括位置和用户ID信息的目标信息,以及代表针对事件生成源的概率值的信号信息。这里,信息统合处理单元包括具有识别器的说话源概率计算单元,并且使用说话源概率计算单元中的识别器基于输入信息来计算说话源概率。
文档编号G06F3/16GK102375537SQ20111022525
公开日2012年3月14日 申请日期2011年8月2日 优先权日2010年8月9日
发明者山田敬一, 泽田务 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1