信息处理设备、信息处理方法及程序的制作方法

文档序号:6380391阅读:114来源:国知局
专利名称:信息处理设备、信息处理方法及程序的制作方法
技术领域
本公开涉及信息处理设备、信息处理方法及程序,更具体而言,涉及通过从外界输入输入信息,如图像、声音等,基于输入信息分析外部环境,特别是分析正在说话的人的位置等的信息处理设备、信息处理方法及程序。本公开涉及识别正在说话的用户并且当多个人同时说话时分析每个话语的信息处理设备、信息处理方法及程序。
背景技术
在人和诸如PC或机器人等信息处理设备之间进行交互式过程(例如通信过程或交互式过程)的系统,被称为人机交互系统。在人机交互系统中,诸如PC或机器人等的信息处理设备通过输入图像信息或声音信息基于输入信息进行分析,以识别出人的动作,如人的行为或言语。当人发送除了言语以外的信息时,姿态、视线、面部表情等的各种信道被用作信息发送信道。如果可以在机器中分析所有这些信道,那么人和机器之间的通信可以达到的水平与人与人之间通信水平相同。能够分析来自这些多个信道(也被称为模态或模式)的输入信息的界面被称为多模式界面,并且近年来对这种界面进行了广泛的研究和开发。例如,当通过输入由照相机拍摄的图像信息和由麦克风获得的声音信息进行分析时,为了进行更专门的分析,从位于不同点的多个照相机和多个麦克风输入大量信息是有效的。例如,采用如下系统作为专用系统。信息处理设备(电视机)通过照相机和麦克风接收或被输入位于该电视机前方的多个用户(爸爸、妈妈、妹妹和弟弟)的图像和语音,并且分析正在说话的每个用户的位置等,从而可以实现能够根据分析信息进行处理的系统,例如,照相机针对说话的用户放大、针对说话的用户进行恰当的响应等。公开了现有的人机互动系统的相关技术的例子包括例如日文未审查的专利申请2009-31951号公报和日本未审查的专利申请2009-140366号公报。在该相关技术中,进行以下处理,在该处理中,以概率性的方式整合来自多信道(模式)的信息,并且确定多个用户中每个用户的位置,所述多个用户都是谁,以及谁正在发出信号,即,关于所述多个用户中的每个用户来确定谁正在说话。例如,当确定谁正在发出信号时,设置与所述多个用户相对应的虚拟目标(tID=l至m),并且根据对照相机拍摄的图像数据或麦克风获取的声音信息的分析结果来计算各个目标是话语源的概率。具体而言,例如,计算以下各量,(a)可通过麦克风获得的语言事件的声源方向信息、可从说话者标识(ID)信息获得的用户位置信息和只能从用户标识信息获得的目标tID的话语源概率P(tID),以及(b)基于可通过照相机获得的图像可通过面部识别处理获得的面部属性分数[S(tID)]的面积 SAt(tID)。
其中计算(a)和(b),从而基于权重α,使用α作为预设的分配权重系数,通过相加或相乘,计算每个目标(tID=l至m)的说话者概率Ps(tlD)或Pp(tlD)。另外,例如在日本未审查的专利申请2009-140366号公报中描述了该处理的细节。在上述相关技术中说话者概率的计算过程中,如上所述,必须预先调节权重系数α。预先调节该权重系数是麻烦的,并且当该权重系数没有被调节到适当的数值时,存在严重影响说话者概率计算结果正确性的问题。

发明内容
希望提供一种信息处理设备、信息处理方法和程序,其可以在用于对来自多个信道(模态或模式)的输入信息进行分析的系统中,通过进行用于整合通过针对包括在诸如图像信息、声音信息等各种输入信息中的不确定信息进行随机处理更准确地估计的信息的处理,更具体而言,进行诸如周围区域中人的位置等的特殊处理,从而可以提高鲁棒性,并且可以进行高度准确的分析。另外,希望提供一种用于识别正在说话的用户并且当多个人同时说话时分析每个话语的信息处理设备、信息处理方法和程序。根据本公开的第一实施例,提供一种信息处理设备,其包括:多个信息输入单元,其输入真实空间的观测信息;事件检测单元,其基于对从所述信息输入单元输入的信息的分析,产生包括事件信息,事件信息包括存在于所述真实空间中的用户的估计位置信息和估计标识信息;以及信息整合处理单元,其被输入所述事件信息,并且基于输入的事件信息产生包括每个用户的位置和用户标识信息的目标信息以及代表事件产生源的概率值的信号信息,其中所述信息整合处理单元包括话语源概率计算单元,并且其中所述话语源概率计算单元进行以下处理:通 过将基于说话场景的权重乘以从所述事件检测单元输入的多条不同信息,来计算作为代表每个目标的话语源概率的话语源分数的指标值。在所述信息处理设备中,所述话语源概率计算单元可以接收对应于话语事件的
(a)第一用户位置信息(声源方向信息)和(b)第一用户标识信息(说话者标识信息)的输入,作为来自构成所述事件检测单元的语音事件检测单元的输入信息,可以接收(a)第二用户位置信息(面部位置信息)、(b)第二用户标识信息(面部标识信息)和(C)唇部运动信息的输入,作为基于来自构成所述事件检测单元的图像事件检测单元的输入信息产生的目标信息,并且进行通过采用上述信息中的至少一条基于所述输入信息计算所述话语源分数的处理。在所述信息处理设备中,所述话语源概率计算单元可以应用声源方向信息D、说话者标识信息S和唇部运动信息L,并且根据以下话语源分数P的计算等式P=Da.Se.Ly进行计算所述话语源分数的处理,其中a是声源方向信息的权重系数,β是说话者标识信息的权重系数,Y是唇部运动信息的权重信息,并且α+β + γ=1。在所述信息处理设备中,所述话语源概率计算单元可以根据说话场景进行调节所述权重系数a、β和Y的处理。 在所述信息处理设备中,所述话语源概率计算单元可以根据以下两个条件进行调节所述权重系数α、β和Υ的处理:条件1,它是仅来自一个目标的单个话语,还是来自两个目标的同时话语;以及条件2,这两个目标的位置相互靠近,还是这两个目标的位置相互远离。在所述信息处理设备中,所述话语源概率计算单元可以进行调节所述权重系数α、β和Y的处理,使得在存在两个具有话语概率的目标并且这两个目标同时说话的情况下,所述唇部运动信息的权重系数Y小。在所述信息处理设备中,所述话语源概率计算单元可以进行调节所述权重系数α、β和Y的处理,使得在存在两个具有话语概率的目标并且这两个目标的位置相互靠近并且只有一个目标说话的情况下,所述声源方向信息的权重系数α小。在所述信息处理设备中,所述话语源概率计算单元可以进行调节所述权重系数α、β和Y的处理,使得在存在两个具有话语概率的目标并且这两个目标的位置相互靠近并且这两个目标同时说话的情况下,所述唇部运动信息的权重系数Y和所述声源方向信息的权重系数α小。根据本公开的第二实施例,提供一种在信息处理设备中进行信息分析处理的信息处理方法,该方法包括:通过多个信息输入单元接收真实空间的观测信息的输入;通过事件检测单元基于对从所述信息输入单元输入的信息的分析,产生事件信息,事件信息包括存在于所述真实空间中的用户的估计位置信息和估计标识信息;以及通过信息整合处理单元接收事件的输入,并且基于输入的事件信息产生包括每个用户的位置和用户标识信息的目标信息以及代表事件产生源的概率值的信号信息,其中在所述目标信息的产生中,进行以下处理:通过将基于说话场景的权重乘以在所述事件信息的产生中输入的多条不同信息,来计算作为代表每个目标的话语源概率的指标值的话语源分数。根据本公开的第三实施例,提供一种使信息处理设备执行以下信息分析的程序:通过多个信息输入单元接收对真实空间的观测信息的输入;通过事件检测单元基于对从所述信息输入单元输入的信息的分析,产生事件信息,事件信息包括存在于所述真实空间中的用户的估计位置信息和估计标识信息;以及通过信息整合处理单元接收事件的输入,并且基于输入的事件信息产生包括每个用户的位置和用户标识信息的目标信息以及代表事件产生源的概率值的信号信息,其中在所述目标信息的产生中,进行以下处理:通过将基于说话场景的权重乘以在所述事件信息的产生中输入的多条不同信息,来计算作为代表每个目标的话语源概率的指标值的话语源分数。本公开的程序是可以以计算机可读的格式提供在例如信息处理设备中或者能够执行各种程序代码的计算机系统中的存储介质中或者通信介质中的程序。通过以计算机可读格式提供该程序,在该信息处理设备或该计算机系统中实现了与该程序相对应的处理。通过基于附图的详细描述,可以阐明本公开的其它目的、特征和优点。说明书中的系统是多个设备的逻辑组配置,并且本公开不局限于在此情况下给出的具有每个配置的设备。根据本公开一实施例的配置,实现了基于不确定的并且不同时的输入信息通过信息分析产生用户位置、标识信息、说话者信息等的配置。具体而言,该信息处理设备可以包括信息整合处理单元,其接收包括基于图像信息或语音信息的用户的估计的位置和估计的识别数据的事件信息的输入,并且基于输入的事件信息和代表事件产生源的概率值的信号信息产生包括每个用户的位置和用户标识信息的目标信息。该信息整合处理单元包括话语源概率计算单元,该话语源概率计算单元通过将基于说话场景的权重乘以从事件检测单元输入的多条不同信息进行计算话语源分数作为代表每个目标的话语源概率的指标值的处理。根据该处理,例如,即使在两个目标(两个人)同时说话的情况下,仍可以高度精确地估计出谁正在说话。


图1是示出根据本公开一实施例的信息处理设备进行的处理的概要的图。图2是示出根据本公开一实施例的信息处理设备的配置和处理的图。图3A和图3B是示出由语音事件检测单元和图像事件检测单元所产生并且被输入到信息整合处理单元的信息例子的图。图4A至图4C是示出应用粒子滤波器的基本处理例子的图。图5是示出在本处理例子中设置的粒子配置的图。图6是示出包括在各个粒子中的每个目标的目标数据配置的图。图7是示出目标信息的配置和产生过程的图。图8是示出目标信息的配置和产生过程的图。图9是示出目标信息的配置和产生过程的图。图10是示出由信息整合处理单元进行的处理序列的流程图。图11是详细示出粒子权重的计算过程的图。图12是示出说话者指定过程的图。图13是示出由话语源概率计算单元进行的处理序列例子的流程图。图14是示出由话语源概率计算单元进行的计算话语源分数的过程的图。图15是示出由话语源概率计算单元进行的话语源分数的计算处理序列的流程图。图16A至图16D是示出在由话语源概率计算单元进行的计算话语源分数的过程中作为权重系数的确定要素的说话场景的例子的图。图17是示出在由话语源概率计算单元进行的计算话语源分数的过程中确定权重系数的处理例子的图。图18A和图18B是示出在由话语源概率计算单元进行的计算话语源分数的过程中确定权重系数的处理例子的图。
具体实施例方式下面结合附图详细描述根据本公开的示例性实施例的信息处理设备、信息处理方法和程序。将按照以下条目进行说明:1.由本公开的信息处理设备进行的处理的概要2.本公开的信息处理设备的配置和处理的细节3.由本公开的信息处理设备进行的处理序列4.由话语源概率计算单元进行的处理的细节5.计算话语源分数的处理
6.本公开的配置的总结1.由本公开的信息处理设备进行的处理的概要首先描述本公开的信息处理设备进行的处理的概要。本公开实现了以下配置,在该配置中当计算话语源概率时,针对与输入的事件信息中的用户话语相对应的语音事件信息使用标识符,从而不需要预先调节背景技术中描述的权重系数。具体而言,使用用于识别每个目标是否是话语源的标识符,或者用于针对仅两条目标信息确定这两条目标信息中的哪一条更像是话语源的标识符。使用包括在语音事件信息中的声源方向信息或者说话者标识信息、包括在事件信息内的图像事件信息中的唇部运动信息以及包括在目标信息中的目标位置或目标总数作为对标识符的输入信息。通过在计算话语源概率时使用标识符,不需要预先调节背景技术中描述的权重系数,从而可以计算出更适当的话语源概率。首先,参照图1描述由根据本公开的信息处理设备进行的处理概要。本公开的信息处理设备100输入来自传感器的图像信息和语音信息,并且基于输入的信息对环境进行分析,其中传感器在此例如是照相机21和多个麦克风31至34,在其中实时输入观测信息。具体而言,进行用户1,11和用户2,12的位置分析和相应位置的用户的识别。在图中所示的例子中,例如,在用户1,11至用户2,12是家庭中的兄妹的情况下,信息处理设备100对从照相机21和多个麦克风31至34输入的图像信息和语音信息进行分析,从而识别这两个用户I和2的位置,并且确定每个位置中的用户是妹妹还是哥哥。识别结果被用于各种处理。例如,识别结果被用于如下处理:照相机对说过话的用户进行放大;电视机对谈话的用户进行响应等等。另外,作为根据本公开的信息处理设备100的主要处理,基于来自多个信息输入单元(照相机21和麦克风31至34)的输入信息进行用户位置识别和用户指定处理作为用户识别处理。识别结果的应用不受具体限制。从照相机21和多个麦克风31至34输入的图像信息和语音信息中包括各种不确定的信息。在根据本公开的信息处理设备100中,对包括在输入信息中的不确定信息进行随机处理,并且将经过随机处理的信息整合为估计是高度准确的信息。通过该估计处理,提高了进行高准确度分析的鲁棒性。2.本公开的信息处理设备的配置和处理细节在图2中不出了信息处理设备100的配置例子。信息处理设备100包括图像输入单元(照相机)111和多个语音输入单元(麦克风)121a至121d作为输入装置。信息处理设备100输入来自图像输入单元(照相机)111的图像信息,并且输入来自语音输入单元(麦克风)121的语音信息,从而基于该输入信息进行分析。如图1中所示,所述多个语音输入单元(麦克风)121a至121d中的每一个被设置在不同的位置中。从多个麦克风121a至121d输入的语音信息经由语音事件检测单元122输入到信息整合处理单元131。语音事件检测单元122分析并整合从设置在多个不同位置中的多个语音输入单兀(麦克风)121a至121d输入的语音信息。具体而言,基于从语音输入单兀(麦克风)121a至121d输入的语音信息生成产生声音的位置和表示哪个用户产生该声音的用户标识信息,并且将所生成的信息输入到信息整合处理单元131。另外,作为信息处理设备100进行的特殊处理,在图1中所示的存在多个用户中的环境中,识别每个用户A和B的位置以及用户A和B中哪一个说话了,也就是说,进行用户位置和用户行为识别。具体而言,该特殊处理是用于指定诸如正在说话的人(说话者)等事件产生源的处理。语音事件检测单元122分析从设置在多个不同位置中的多个语音输入单元(麦克风)121a至121d输入的语音信息,并且产生语音产生源的位置信息作为概率分布数据。具体而言,语音事件检测单元122针对声源方向产生预期值和分布数据N(me,σ J。另外,语音事件检测单元122基于与预先注册的用户语音的特征信息的比较,产生用户标识信息。该标识信息还被产生作为概率性的估计值。由于预先核实的多个用户的语音的特征信息被注册在语音事件检测单元122中,所以进行输入的语音与注册的语音之间的比较,并且进行确定哪个用户的语音与输入的语音相对应的概率高的处理,从而计算出关于所有注册用户的后验概率或分数。语音事件检测单元122以这种方式分析从设置在多个不同位置中的多个语音输入单元(麦克风)121a至121d输入的语音信息,产生“整合语音事件信息”,“整合语音事件信息”由作为语音产生源的位置信息的概率分布数据和由概率性的估计值构成的用户标识信息配置的,并且将产生的整合语音事件信息输入到信息整合处理单元131。同时,从图像输入单元(照相机)111输入的图像信息经由图像事件检测单元112输入到信息整合处理单元131。图像事件检测单元112分析从图像输入单元(照相机)111输入的图像信息,提取包括在该图像中的人的面部,并且产生该面部的位置信息作为概率分布数据。具体而言,产生该面部的位置或方位的预期值和分布数据N(me,c^)。另外,图像事件检测单元112通过与预先注册的用户面部的特征信息进行比较来识别面部,并且产生用户标识信息。该标识信息被产生作为概率性的估计值。由于在图像事件检测单元112中注册了预先核实的多个用户的面部的特征信息,所以在从输入的图像提取的面部区域图像的特征 信息和注册的面部图像的特征信息之间进行比较,确定哪个用户面部与输入的图像相对应的概率高,从而计算出关于所有注册用户的后验概率或分数。

另外,图像事件检测单元112计算与包括在从图像输入单元(照相机)111输入的图像中的面部相对应的属性分数,例如基于嘴部区域的运动产生的面部属性分数。可以进行设置以计算以下各种面部属性分数:(a)与包括在该图像中的面部的嘴部区域的运动相对应的分数,(b)根据包括在该图像中的面部是否是笑脸设置的分数,(c)根据包括在该图像中的面部是男性面部还是女性面部设置的分数,以及(d)根据包括在该图像中的面部是成人面部还是小孩面部设置的分数。在下面描述的实施例中,描述计算(a)与包括在该图像中的面部的嘴部区域的运动相对应的分数,并且将其用作面部属性分数的例子。也就是说,计算与面部的嘴部区域的运动相对应的分数作为面部属性分数,并且基于该面部属性分数进行说话者的指定。图像事件检测单元112从在从图像输入单元(照相机)111输入的图像输入中包括的面部区域中识别嘴部区域,并且检测该嘴部区域的运动,从而在确定检测到与运动检测结果相对应的分数的情况下,例如,当检测到嘴部区域的运动时,计算出具有较高值的分数。另外,进行嘴部区域的运动检测处理,作为应用VSD (Visual Speech Detection,视觉语音检测)的处理。应用日本未审查的专利申请2005-157679号公报中公开的方法,该申请的申请人与本公开的申请人为同一申请人。具体而言,例如,从图像输入单元(照相机)111输入的图像中检测到的面部图像中检测唇部的左右角,在第N帧和第N+1帧中对准唇部的左右角之后计算亮度差异,并且处理该差异值作为阈值,从而检测唇部的运动。另外,还可以将该相关技术应用于在语音事件检测单元122或图像事件检测单元112中进行的语音识别处理、面部检测处理或者面部识别处理。例如,在2004年第十届图像感测学术研讨会论文集的547 552页的作者为Sabe Kotaro, Hidai Kenichi的标题为“Learning for real-time arbitrary posture face detectors using pixel differencecharacteristics”的文章和日本未审查的专利申请2004-302644号公报(标题为:Faceidentification apparatus, Face identification method, Recording medium, and Robotapparatus)公开了面部检测处理和面部识别处理的应用。信息整合处理单元131基于来自语音事件检测单元122或图像事件检测单元112的输入信息进行概率性地估计多个用户中的每一个是谁,多个用户中每一个的位置以及谁正在产生诸如语音等信号的处理。具体而言,信息整合处理单元131基于从语音事件检测单元122或图像事件检测单元112输入的信息将以下每条信息输出到处理确定单元132: (a) “目标信息”,其作为与多个用户中每一个的位置以及他们是谁有关的估计信息;以及(b)“信号信息”,其作为例如正在说话的用户等的事件产生源。另外,该信号信息中包括以下两条信号信息:(bl)基于语音事件的信号信息和(b2)基于图像事件的信号信息。信息整合处理单元131的目标信息更新单元141通过输入在图像事件检测单元112中检测到的图像事件信息使用例如粒子滤波器进行目标更新,并且基于图像事件产生该目标信息和该信号信息,从而将产生的信息输出到处理确定单元132。另外,作为更新结果获得的目标信息也被输出 到话语源概率计算单元142。信息整合处理单元131的话语源概率计算单元142通过输入在语音事件检测单元122中检测到的语音事件信息使用标识模式(标识符)计算每个目标是输入的语音事件的产生源的概率。话语源概率计算单元142基于计算出的值产生基于语音事件的信号信息,并且将产生的信息输出到处理确定单元132。稍后详细描述该处理。处理确定单元132接收包括由信息整合处理单元131产生的目标信息和信号信息的识别处理结果,使用该识别处理结果进行处理。例如,进行诸如照相机对例如说过话的用户进行放大或者电视机对说过话的用户作出响应等处理。如上所述,语音事件检测单元122产生语音产生源的位置信息的概率分布数据,更具体而言,针对声源方向产生预期值和分布数据N(me,σ J。另外,语音事件检测单元122基于例如与预先注册的用户特征信息的比较结果产生用户标识信息,并且将产生的信息输入到信息整合处理单元131。另外,图像事件检测单元112提取包括在该图像中的人的面部,并且产生该面部的位置信息作为概率分布数据。具体而言,图像事件检测单元112针对面部的位置和方向产生预期值和分布数据N(me,(^)。另外,图像事件检测单元112基于与预先注册的用户面部特征信息进行的比较处理产生用户标识信息,并且将产生的信息输入到信息整合处理单元131。另外,图像事件检测单元112根据图像输入单元(照相机)111输入的图像内的面部区域(例如,嘴部区域)的运动,检测面部属性分数作为面部属性信息,计算与嘴部区域的运动检测结果相对应的分数,更具体而言,当检测到嘴部区域的显著运动时计算出的面部属性分数值高,并且将计算出的分数输入到信息整合处理单元131。参照图3A和图3B描述由语音事件检测单元122和图像事件检测单元112产生的并且被输入到信息整合处理单元131的信息的例子。在本公开的配置中,图像事件检测单元112产生数据,如,(Va)关于面部的位置和方向的预期值和分布数据N(me,oe) ;(Vb)基于面部图像特征信息的用户标识信息;以及(Vc)与检测到的面部属性相对应的分数,例如基于嘴部区域的运动产生的面部属性分数,并且将所产生的数据输入到信息整合处理单元131。另外,语音事件检测单元122将诸如(Aa)关于声源方向的预期值和分布数据N(mze, oe)以及(Ab)基于语音特征的用户标识信息等数据输入到信息整合处理单元131。图3A中示出包括与参照图1描述的相同的照相机和麦克风的真实环境的例子,并且存在多个用户I至k,201至20k。在该环境中,当这些用户中的任何一个说话时,语音都通过麦克风输入。另外,照相机连续拍摄图像。由语音事件检测单元122和图像事件检测单元112产生的并且被输入到信息整合处理单元131的信息被分为三类,如:(a)用户位置信息,(b)用户标识信息(面部标识信息或者说话者标识信息)以及(C)面部属性信息(面部属性分数)。也就是说,(a)用户位置信息是(Va)由图像事件检测单元112产生的关于面部位置或方向的预期值和分布数据N (me,oe)以及(Aa)由语音事件检测单元122产生的关于声源方向的预期值和分布数据(me,oe)的整合信息。另外,(b)用户标识信息(面部标识信息或说话者标识信息)是(Vb)由图像事件检测单元112产生的基于面部图像的特征信息的用户标识信息以及(Ab)由语音事件检测单元122产生的基于语音特征信息的用户标识信息的整合信息。(C)面部属性信息(面部属性分数)对应于以下分数,该分数与图像事件检测单元112产生的检测到的面部属性(Vc)相对应,例如基于唇部区域的运动产生的面部属性分数。针对每个事件产生这三类信息,如(a)用户位置信息,(b)用户标识信息(面部标识信息或者说话者标识信息)以及(C)面部属性信息(面部属性分数)。当从语音输入单元(麦克风)121a至121d输入语音信息时,语音事件检测单元122基于该语音信息产生上述(a)用户位置信息和(b)用户标识信息,并且将产生的信息输入到信息整合处理单元131。图像事件检测单元112基于从图像输入单元(照相机)111以预先确定的一定帧间隔输入的图像信息产生(a)用户位置信息、(b)用户标识信息以及(C)面部属性信息(面部属性分数),并且将产生的信息输入到信息整合处理单元131。另外,在本实施例中,图像输入单元(照相机)111示出了设置单个照相机并且该单个照相机拍摄多个用户的图像的例子。在此情况下,针对包括在单个图像中的多个面部中的每一个产生(a)用户位置信息和(b)用户标识信息,并且产生的信息被输入到信息整合处理单元131。将基于从语音输入单元(麦克风)121a至121d输入的语音信息,来描述语音事件检测单元122产生(a)用户位置信息和(b)用户标识信息(说话者标识信息)的过程。[语音事件检测单元122产生(a)用户位置信息的过程]语音事件检测单元122基于从语音输入单元(麦克风)121a至121d输入的语音信息来生成产生所分析的语音的用户的位置的估计信息,即,说话者的位置。也就是说,语音事件检测单元122产生估计说话者所在的位置,作为从预期值(平均值)[mj和分布值[σ J获得的高斯分布(正态分布)数据N (me, σ e)。[语音事件检测单元122产生(b)用户标识信息(说话者标识信息)的过程]语音事件检测单元122通过比较从语音输入单元(麦克风)121a至121d输入的语音的特征信息与预先注册的用户I至k的语音的特征信息,基于该语音信息估计说话者是谁。具体而言,计算说话者是用户I至k中各个用户的概率。计算出的值(b)被用作用户标识信息(说话者标识信息)。例如,最高分数分配给注册的语音特征最靠近输入语音的特征的用户,并且最低分数(例如,零)分配给注册的语音特征与输入语音的特征最不同的用户,从而产生设定了输入语音属于各个用户的概率的数据,并且所产生的数据被用作(b)用户标识信息(说话者标识信息)。接下来描述图像事件检测单元112基于从图像输入单元(照相机)111输入的图像信息产生诸如以下信息的过程:(a)用户位置信息、(b)用户标识信息(面部标识信息)和(C)面部属性信息(面部属性分数)。[图像事件检测单元112产生(a)用户位置信息的过程]图像事件检测单元112针对包括在从图像输入单元(照相机)111输入的图像信息中的每个面部产生面部位置的估计信息。也就是说,产生估计从该图像检测到的面部所处的位置,作为根据预期值(平均值)[mj和分布值[σ J获得的高斯分布(正态分布)数据N (me, σ e)。[图像事件检测单元112产生(b)用户标识信息(面部标识信息)的过程]图像事件检测单元112基于从图像输入单元(照相机)111输入的图像信息检测包括在该图像信息中的面部,并且通过比较输入的图像信息与预先注册的每个用户I至k的面部特征信息来估计每个面部是谁。具体而言,计算所提取的每个面部是用户I至k中各个用户的概率。计算出的值被用作(b)用户标识信息(面部标识信息)。例如,最高分数分配给具有与在输入图像中包括的面部特征最接近的注册面部特征的用户,并且最低分数(例如,零)分配给具有与输入的面部特征最不同的注册面部特征的用户,从而产生设定了输入语音属于各个用户的概率的数据,并且所产生的数据被用作(b)用户标识信息(面部标识信息)。[图像事件检测单元112产生(C)面部属性信息(面部属性分数)的过程]图像事件检测单元112基于从图像输入单元(照相机)111输入的图像信息来检测包括在图像信息中的面部区域,并且计算检测到的面部的属性,具体而言,计算属性分数,如面部的嘴部区域的上述运动、检测到的面部是否是笑脸、检测到的面部是男性面部还是女性面部、检测到的面部是否是成人面部等。然而,在该处理例子中,将描述计算与包括在该图像中的面部的嘴部区域的运动相对应的分数并且将该分数作为面部属性分数的例子。作为计算与面部的唇部区域的运动相对应的分数的处理,图像事件检测单元112从图像输入单元(照相机)111输入的图像中检测到的面部图像中检测唇部的左右角,在将第N帧与第(N+1)帧中唇部的左右角对准之后,计算亮度差异,并且处理该差异值作为阈值。通过该处理,检测唇部的运动,并且以唇部运动越大获得的分数越高的方式设置面部属性分数。另外,当从照相机拍摄的图像中检测到多个面部时,图像事件检测单元112根据检测到的作为单独事件的每个面部产生与每个面部相对应的事件信息。也就是说,图像事件检测单元112产生包括以下信息的事件信息并且将它们输入到信息整合处理单元131。图像事件检测单元112产生诸如以下信息:(a)用户位置信息、(b)用户标识信息(面部标识信息)和(C)面部属性信息(面部属性分数),并且将所产生的信息输入到信息整合处理单元131。在本实施例中,描述了使用单个照相机作为图像输入单元111的例子,但是也可以使用多个照相机拍摄的图像。在此情况下,图像事件检测单元112针对包括在多个照相机拍摄的每个图像中的每个面部产生以下信息:(a)用户位置信息、(b)用户标识信息(面部标识信息)和(C)面部属性信息(面部属性分数),并且将所产生的信息输入到信息整合处理单元131。接下来,描述由信息整合处理单元131进行的处理。信息整合处理单元131按照以下顺序输入如上所述的来自语音事件检测单元122和图像事件检测单元112的图3B中所示的三条信息,即,(a)用户位置信息、(b)用户标识信息(面部标识信息或者说话者标识信息)和(C)面部属性信息(面部属性分数)。然而,另外可以针对上述每条信息的输入时序进行各种设置,例如,当新的语音被输入时,语音事件检测单元122产生并输入上述(a)和(b)的每条信息作为语音事件信息,从而图像事件检测单元112以特定帧周期单位产生并输入信息(a) (b)和(C)中的每一条作为语音事件信息。将参照图4A至图4C描述由信息整合处理单元131进行的处理。如上所述,信息整合处理单元131包括目标信息更新单元141和话语源概率计算单元142,并且进行以下处理。目标信息更新单元141输入在图像事件检测单元112中检测到的图像事件信息,例如,使用粒子滤波器进行目标更新处理,并且基于图像事件产生目标信息和信号信息,从而将产生的信息输出到处理确定单元132。另外,该目标信息作为更新结果被输出到话语源概率计算单元142。话语源概率计算单元142输入在语音事件检测单元122中检测到的语音事件信息,并且使用标识模式(标识符)计算每个目标是输入语音事件的话语源的概率。话语源概率计算单元142基于计算出的值产生基于该语音事件的信号信息,并且将产生的信息输出到处理确定单元132。首先,描述由目标信息更新单元141进行的处理。信息整合处理单元131的目标信息更新单元141进行如下处理:通过针对用户的位置和标识信息设置假定的概率分布数据来只留下更有可能的假定;以及基于输入信息更新所述假定。作为该处理方案,进行应用粒子滤波器的处理。通过设置与各种假定相对应的大量的粒子进行应用粒子滤波器的处理。在本实施例中,设置与用户的位置和用户是谁有关的假定相对应的大量的粒子,并且基于来自图像事件检测单元112的图3B中所示的三条信息,即,(a)用户位置信息、(b)用户标识信息(面部标识信息或者说话者标识信息)和(C)面部属性信息(面部属性分数),来进行增加所述假定的更可能的权重的处理。将参照图4A至图4C描述应用粒子滤波器的基本处理例子。例如,图4A至图4C中所示的例子示出了通过粒子滤波器估计与用户相对应的存在位置的处理例子。在图4A至图4C中所示的例子中,进行估计用户301在任意直线上的一维区域内的位置的处理。如图4A中所示,初始假定(H)变为均匀的粒子分布数据。接下来,获取图像数据302,并且获取基于所获取的图像的用户301存在的概率分布数据作为图4B的数据。基于以所获取的图像为基础的概率分布数据,更新图4A的粒子分布数据,从而获得图4C的更新后的假定概率分布数据。基于输入信息重复进行该处理,从而获得该用户的更可能的位置信息。另外,例如在[D.Schulz, D.Fox, and J.Hightower.People Tracking withAnonymous and ID—sensors Using Rao-BlackwelIised Particle Filters.Proc.0f theInternational Joint Conference on Artificial Intelligence (IJCA1-03)]中描述了使用粒子滤波器的处理细节。在图4A至图4C中所示的处理例子中,仅使用图像数据并且仅针对用户的存在位置处理输入信息。因此,每个粒子只具有关于用户301的存在位置的信息。信息整合处理单元131的目标信息更新单元141从图像事件检测单元112获取图3B中所示的信息,即,(a)用户位置信息、(b)用户标识信息(面部标识信息或者说话者标识信息)和(C)面部属性信息(面部属性分数),并且确定多个用户的位置和所述多个用户中的每一个是谁。因此,在应用粒子滤波器的处理中,信息整合处理单元131设置与关于用户的位置和用户是谁的假定相对应的大量粒子,从而在图像事件检测单元112中基于图3B中所示的两条信息进行粒子更新。将参照图5描述信息整合处理单元131通过输入来自语音事件检测单元122和图像事件检测单元112的图3B中所示的以下三条信息来进行的粒子更新处理例子,这三条信息即,(a)用户位置信息、(b)用户标识信息(面部标识信息或者说话者标识信息)和(c)面部属性信息(面部属性分数)。另外,下面描述的粒子更新处理将被描述为在信息整合处理单元131的目标信息更新单元141中只使用图像事件信息进行的处理例子。将描述粒子的配置。信息整合处理单元131的目标信息更新单元141具有预定数目m个粒子。图5中所示的粒子是I至m。在每个粒子中,粒子ID (pID=l至m)被设置为标识符。在每个粒子中,设置与虚拟对象相对应的多个目标tID=l,2,...,n。在本实施例中,将比估计的真实空间中存在的人数多的多个“η个”与虚拟用户相对应的目标设置为每个粒子。m个粒子中的每一个按照目标单位的目标数目保持数据。在图5中所示的例子中,每个粒子中包括η个(n=2)目标。信息整合处理单元131的目标信息更新单元141输入来自图像事件检测单元112的图3B中所示的事件信息,即,(a)用户位置信息、(b)用户标识信息(面部标识信息或者说话者标识信息)和(c)面部属性信息(面部属性分数),并且进行m个粒子的更新(pID=l至m)。
图5中所示的由信息整合处理单元131设置的包括在每个粒子I至m中的每个目标I至η可以预先与每个输入事件信息条目(eID=l至k)相关联,并且根据该关联性对选择的与输入事件相对应的目标进行更新。具体而言,例如,通过将目标与每个面部图像事件相关联,对在图像事件检测单元112中检测到的面部图像作为单独事件进行更新处理。将描述具体的更新处理。例如,图像事件检测单元112基于从图像输入单元(照相机)111以预先确定的一定帧时间间隔输入的图像信息,产生(a)用户位置信息、(b)用户标识信息和(C)面部属性信息(面部属性分数),并且将产生的信息输入到信息整合处理单元 131。在该实例中,当图5中所示的图像帧350是被检测到的一帧事件时,该图像帧中包括与面部图像的数目相对应的事件。也就是说,检测到与图5中所示的第一面部图像351相对应的事件I (eID=l)和与第二面部图像352相对应的事件2 (eID=2)。图像事件检测单元112针对每个事件(eID=l,2,...)产生(a)用户位置信息、(b)用户标识信息(面部标识信息或者说话者标识信息)和(C)面部属性信息(面部属性分数),并且将产生的信息输入到信息整合处理单元131。也就是说,所产生的信息是与图5中所示的事件相对应的信息361和362。在信息整合处理单元131的目标信息更新单元141中设置的每个粒子I至m中包括的每个目标I至η能够与每个事件(eID=l至k)相关联,并且具有预先设置更新每个粒子中所包括的哪个目标的配置。另外,与每个事件(eID=l至k)相对应的目标(tID)的关联性被设置为不重叠。也就是说,通过获取的事件来产生事件产生源假定,使得在每个粒子中不发生重叠。在图5中所示的例子中,(I)粒子 I (pID=l)是[事件 ID=I (eID=l)]=[目标 ID=I (tID=l)]的对应目标和[事件 ID=2(eID=2)] = [目标 ID=2 (tID=2)]的对应目标,(2)粒子 2 (pID=2)是[事件 ID=I (eID=l)]=[目标 ID=I (tID=l)]的对应目标和[事件 ID=2(eID=2)] = [目标 ID=2 (tID=2)]的对应目标,(m)粒子 m (pID=m)是[事件 ID=I (eID=l)]=[目标 ID=2 (tID=2)]的对应目标和[事件 ID=2(eID=2)] = [目标 ID=I (tID=l)]的对应目标。以这种方式,在信息整合处理单元131的目标信息更新单元141中设置的每个粒子I至m中所包括的每个目标I至η能够预先与每个事件(eIDl至k)相关联,并且具有根据每个事件ID确定更新每个粒子中所包括的哪个目标的配置。例如,通过图5中所示的[事件ID=l(eID=l)]的事件对应信息361,在粒子I (pID=l)中只选择性地更新目标ID=KtID=I)的数据。类似地,通过图5中所示的[事件ID=I (eID=l)]的事件对应信息361,在粒子2 (pID=2)中只选择性地更新目标ID=l(tID=l)的数据。另外,通过图5中所示的[事件ID=I (eID=l)]的事件对应信息361,在粒子m (pID=m)中只选择性地更新目标ID=2(tID=2)的数据。图5中所示的事件产生源假定数据371和372是在每个粒子中设置的事件产生源假定数据,并且根据与在每个粒子中设置事件产生源假定有关的信息来确定更新与该事件ID对应的更新目标。
将参照图6描述每个粒子中所包括的目标数据的每个包。在图6中,示出了图5中所示的粒子I (PlD=I)中所包括的单个目标375 (目标ID:tID=n)的目标数据的配置。如图6中所示,目标375的目标数据由以下数据配置而成,S卩,(a)与每个目标相对应的存在位置的概率分布[高斯分布:N(mln,σ ln)]和(b)表示每个目标是谁的用户置信度信息(UlD)UlDlnl=0.0UlDln2=0.1UlDlnk=0.5。另外,在上面的(a)中所示的高斯分布:N(mln,σln)中[mln,σ 1η]的(In)表示作为与粒子ID:pID=l中的目标ID:tID=n相对应的存在概率分布的高斯分布。另外,在上面的(b)中所示的用户置信度信息(UlD)的[UlDlnl]中包括的(Inl)表示粒子ID:pID=l中目标ID:tID=n的用户是用户I的概率。也就是说,目标ID=n的数目表不是用户I的概率是0.0,是用户2的概率是0.1,...,是用户k的概率是0.5。再次参考图5,继续描述在信息整合处理单元131的目标信息更新单元141中设置的粒子。如图5中所示,信息整合处理单元131的目标信息更新单元141设置预定数目m个粒子(PlD=I至m),并且每个粒子具有例如如下目标数据:(a)与每个目标相对应的存在位置的概率分布[高斯分布:N(m,σ)],以及(b)关于估计真实空间中存在的每个目标(tID=l至n),表示每个目标是谁的用户置信度信息(uID)。信息整合处理单元131的目标信息更新单元141输入来自语音事件检测单元122和图像事件检测单元112的图3B中所示的事件信息(eID=l,2…),即,(a)用户位置信息、(b)用户标识信息(面部标识信息或者说话者标识信息)和(C)面部属性信息(面部属性分数[SrfD]),并且对与预先设置在每个粒子中的事件相对应的目标进行更新。另外,要被更新的目标是包括在目标数据的每个包中的数据,S卩,(a)用户位置信息和(b)用户标识信息(面部标识信息或者说话者标识信息)。(C)面部属性信息(面部属性分数[SeID])最后被用作表示事件产生源的信号信息。当一定数目的事件被输入时,每个粒子的权重也被更新,使得具有最靠近真实空间中的信息的数据的粒子的权重增加,并且具有与真实空间中的信息不相称的数据的粒子的权重减小。以这种方式,当粒子权重发生偏离以及汇聚时,计算出基于面部属性信息的信号信息(面部属性分数),即,表示事件产生源的信号信息。将任一特定目标x(tID=x)是任一事件(eID=y)的产生源的概率表示为PeID=x(tID=y)。例如,如图5中所示,当设置了 m个粒子(pID=l至m),并且在每个粒子中设置了两个目标(tID=l,2)时,第一目标(tID=l)是第一事件(eID=l)的产生源的概率是PeID=1(tID=l),并且第二目标(tID=2)是第一事件(eID=l)的产生源的概率是PeID=1 (tID=2)。另外,第一目标(tID=l)是第二事件(eID=2)的产生源的概率是PeID=2 (tID=l),并且第二目标(tID=2)是第二事件(eID=2)的产生源的概率是PeID=2(tID=2)。表示事件产生 源的信号信息是,任一事件(eID=y)的产生源是特定目标x(tID=x)的概率PeID=x (tID=y),并且这对应于在信息整合处理单元131的目标信息更新单元141中设置的粒子数目m和分配给每个事件的目标数目的比率。在此,在图5中所示的例子中,获得以下对应关系:PeID=1 (tID=l) =[将 tID=l 分配给第一事件(eID=l)的粒子的数目 / (m)],
PeID=1 (tID=2) =[将 tID=2 分配给第一事件(eID=l)的粒子的数目 /(m)],PeID=2(tID=l) =[将tID=l分配给第二事件(eID=2)的粒子的数目/(m)],以及PeID=2(tID=2) = [将 tID=2 分配给第二事件(eID=2)的粒子的数目 / (m)]。该数据最后被用作表示事件产生源的信号信息。另外,任一事件(eID=y)的产生源是特定目标x (tID=x)的概率是PeID=y (tID=x)。该数据还被用于计算包括在目标信息中的面部属性信息。也就是说,该数据被用于计算面部属性信息StID=1$n。面部属性信息StID=x对应于目标ID=X的最终面部属性的预期值,即,表示是说话者的概率的值。信息整合处理单元131的目标信息更新单元141输入来自图像事件检测单元112的事件信息(eID=l,2...),并且对与每个粒子中预先设置的事件相对应的目标进行更新。接下来,目标信息更新单元141产生(a)目标信息,其包括表示多个用户中每一个的位置的位置估计信息;表示所述多个用户中的每一个是谁的估计信息UID估计信息);以及面部属性信息的预期值(Stm),例如,表示通过嘴部运动说话的面部属性预期值,以及(b)表示事件产生源的信号信息(图像事件对应信号信息),如正在说话的用户,并且将产生的信息输出到处理确定单元132。如图7的右手侧所示的目标信息380中所示,该目标信息被产生作为包括在每个粒子(PlD=I至m)中的每个目标(tID=l至η)的对应数据的加权求和数据。在图7中,示出了信息整合处理单元131的m个粒子(pID=l至m)和从该m个粒子(pID=l至m)产生的目标信息380。稍后描述每个粒子的权重。目标信息380是表示关于与信息整合处理单元131预先设置的虚拟用户相对应的目标(tID=l至η)的(a)存在位置、(b)该用户是(用户uIDl至uIDk当中的)谁以及(c)面部属性的预期值(在本实施例中,是说话者的预期值(概率))。基于与上述表示事件产生源的信号信息相对应的概率PeID=x(tID=y)和与每个事件相对应的面部属性分数SrfD=i,来计算(C)每个目标的面部属性的预期值(在本实施例中,是说话者的预期值(概率))。在此,“i”表示事件ID。例如,根据如下等式计算目标ID=I的面部属性的预期值当ΣεΙΒΡεΜ (tID=l) XSeM被推广并示出时,根据如下等式计算该目标的面部属性的预期值:stID〈等式1>Stm=E eIDPeID=i(tID) XSero例如,在如图5中所示的系统内存在两个目标的情况下,在图像I的帧内从图像事件检测单元112向信息整合处理单元131输入两个面部图像事件(eID=l,2)时每个目标CtID=I, 2)的面部属性的预期值的计算例子在图8中示出。图8的右端所示的数据是与图7中所示的目标信息380相对应的目标信息390,并且对应于作为包括在每个粒子(PlD=I至m)中的每个目标(tID=l至η)的对应数据的加权求和数据所产生的信息。基于与上述表示事件产生源的信号信息相对应的概率PeID=x(tID=y)以及与每个事件相对应的面部属性分数SrfD=i来计算目标信息390中每个目标的面部属性。在此,“i”表示事件ID。
目标ID=I 的面部属性的预期值:StID=1 被表示为 StID=1= Σ eIDPeID=i(tID=l) XSeID=i,并且目标ID=2的面部属性的预期值:StID=2被表不为StID=2= Σ eIDPeID=i (tID=2) XSeID=i。每个目标的面部属性的预期值的所有目标的总和:StID为[I]。在本实施例中,由于关于每个目标设置了面部属性的预期值I至O:StID,所以具有高预期值的目标被确定为使得是说话者的概率高。另外,当在面部图像事件eID中不存在面部属性分数[SrfD]时(例如,当尽管检测到面部,但是由于手覆盖了嘴部而没有检测到嘴部运动时),在面部属性分数SrfD中使用先验知识的值Sphot等。作为先验知识的值,当存在针对每个目标预先获得的值时,使用该值,或者使用根据预先离线获得的面部图像事件计算出的面部属性的平均值。目标的数目和图像I的帧内面部图像事件的数目通常是不相同的。由于当目标的数目大于面部图像事件的数目时,与表示上述事件产生源的信号信息相对应的概率之和PeID(tID)不为[1],所以关于每个目标的面部属性的预期值的上述计算等式的每个目标的预期值之和,即Stm= Σ_ΡεΙΜαΠ)) XSem (等式1),不为[I],从而计算不出具有高准确度的预期值。如图9中所示,当在图像帧350中没有检测到与前一处理帧中存在的第三事件相对应的第三面部图像395时,上述等式I中所示的关于每个目标的预期值之和不为[1],并且计算不出具有高准确度的预期值。在此情况下,改变每个目标的面部属性的预期值计算等式。也就是说,为了使每个目标的面部属性的预期值Stm之和为[1],使用补数[1-Σ eIDPeID(tID)]和先验知识的值[S_ J,通过如下等式2计算面部事件属性的预期值
StID0〈等式2> Stm= Σ eIDPeID (tID) X SeID+(l- Σ eIDPeID (tID)) X Sprior然而,在图9中,系统内设置了与事件相对应的三个目标,描述当只有两个目标从图像事件检测单元112输入到信息整合处理单元131作为图像I的帧内的面部图像事件时,面部属性的预期值的计算例子。进行该计算,使得:目标ID=I的面部属性的预期值StID=1为StID=1= Σ eIDPeID=i (tID=l)X SeID=i+(l- Σ eIDPeID (tID=l)) X Sprior,目标 ID=2 的面部属性的预期值 StID=2 为 StID=2= Σ eIDPeID=i(tID=2) XSeID=i+(l-EeIDPeID(tID=2)) X Sp_,并且目标 ID=3 的面部属性的预期值StID=3 为Stm=S= Σ eIDPeID=i(tID=3) XSeID=i+(l- Σ eIDPeID (tID=3)) XSpri0ro相反,当目标的数目小于面部图像事件的数目时,产生该目标,使得目标的数目与事件的数目相同,并且通过应用上述等式I来计算每个目标的面部属性的预期值[Stm=J。另外,在本实施例中,面部属性被描述为基于与嘴部运动相对应的分数的面部属性预期值,即,表示每个目标是说话者的预期值的数据,然而,如上文所述,该面部属性分数可以被计算为诸如笑脸或年龄等的分数,并且在此情况下面部属性预期值被计算为与对应于该分数的属性相对应的数据。随着粒子的更新,目标信息被顺序更新,并且例如当用户I至k不在真实环境中没有运动时,每个用户I至k收敛为与从η个目标tID=l至η中选择的k个目标中的每一个相对应的数据。例如,图7中所示的目标信息380内的第一目标I (tID=l)的数据中包括的用户置信度信息(uID)关于用户2具有最高概率UID12=0.7)。因此,估计该目标I (tID=l)的数据对应于用户2。另外,表示用户置信度信息uID的数据[UlD12=0.7]内的1!1012的12是对应于目标ID=I的用户=2的用户置信度信息uID的概率。在该目标信息380内第一目标I (tID=l)的数据中,是用户2的概率最高,并且估计用户2处于以下存在概率分布数据中所示的范围内,在该存在概率分布数据中,用户2的存在位置被包括在目标信息380的第一目标I (tID=l)的数据中。以这种方式,目标信息380是表示关于最初设置为虚拟对象(虚拟用户)的每个目标(tID=l至η)的以下各项的信息:(a)存在位置、(b)该用户是(用户uIDl至uIDk当中的)谁以及(c)面部属性的预期值(在本实施例中是说话者的预期值(概率))。因此,当用户不动时,每个目标(tID=l至η)的k个目标信息中的每一个收敛为对应于用户I至k。如上所述,信息整合处理单元131基于输入信息对粒子进行更新,并且产生:(a)目标信息,其作为关于多个用户的位置和所述多个用户中的每一个是谁的估计信息;以及(b)信号信息,其表示事件产生源,如正在说话的用户,从而将产生的信息输出到处理确定单元132。以这种方式,信息整合处理单元131的目标信息更新单元141进行应用于多个粒子的粒子过滤处理,并且产生包括存在于真实空间中的用户的位置信息的分析信息,其中所述多个粒子设置与虚拟用户相对应的多个目标数据。也就是说,在粒子中设置的目标数据的每个包被设置为与从事件检测单元输入的每个事件相关联,并且根据输入的事件标识符对与从每个粒子中选择的事件相对应的目标数据进行更新。另外,目标信息更新单元141根据从事件检测单元输入的事件信息来计算在每个粒子中设置的事件内产生源假定目标似然,并且设置与该似然的等级相对应的值作为每一个粒子的粒子权重,从而进行优选选择具有大权重的粒子的再采样处理以更新粒子。稍后描述该处理。另外,关于在每个粒子中设置的目标,随着时间的推移进行更新。另外,根据在每个粒子中设置的事件 产生源假定目标的数目,产生信号信息作为事件产生源的概率值。同时,信息整合处理单元131的话语源概率计算单元142输入在语音事件检测单元122中检测到的语音事件信息,并且使用标识模式(标识符)计算每个目标是输入的语音事件的话语源的概率。话语源概率计算单元142基于计算出的值来产生关于语音事件的信号信息,并且将产生的信息输出到处理确定单兀132。稍后描述话语源概率计算单元142进行的处理的细节。[3.本公开的信息处理设备进行的处理序列]接下来,参照图10中所示的流程图描述信息整合处理单元131进行的处理序列。信息整合处理单元131输入来自语音事件检测单元122和图像事件检测单元112的图3B中所示的事件信息,即,用户位置信息和用户标识信息(面部标识信息或说话者标识信息),产生:(a)目标信息,其作为与多个用户的位置以及所述多个用户中的每一个是谁有关的估计信息;以及(b)信号信息,其表示例如正在说话的用户等的事件产生源,并且将所产生的信息输出到处理确定单元132。将参照图10中所示的流程图描述该处理序列。首先,在步骤SlOl中,信息整合处理单元131输入来自语音事件检测单元122和图像事件检测单元112的事件信息,如:(a)用户位置信息,(b)用户标识信息(面部标识信息或者说话者标识信息)以及(C)面部属性信息(面部属性分数).
当成功进行了事件信息的获取时,该处理前进到步骤S102,而当错误地进行了事件信息的获取时,该处理前进到步骤S121。稍后描述步骤S121的处理。当成功地进行了事件信息的获取时,在步骤S102中,信息整合处理单元131确定语音事件是否被输入。当输入的事件是语音事件时,该处理前进到步骤S111,而当输入的事件是图像事件时,该处理前进到步骤S103。当输入的事件是语音事件时,在步骤Slll中,使用标识模式(标识符)计算每个目标是输入的语音事件的话语源的概率。计算结果被输出到处理确定单元132 (见图2)作为基于语音事件的信号信息。稍后描述步骤Slll的细节。当输入的事件是图像事件时,在步骤S103中,基于输入的信息对粒子进行更新,然而,在对该粒子进行更新之前,在步骤S103中,确定是否需要针对每个粒子进行新目标的设置。在本公开的配置中,如参照图5描述的,在信息整合处理单元131中设置的每个粒子I至m中包括的每个目标I至η能够与每个输入事件信息(eID=l至k)相关联,并且根据该关联性对所选择的与输入事件相对应的目标进行更新。因此,当从图像事件检测单元112输入的事件的数目大于目标的数目时,需要进行新目标的设置。具体而言,这对应于在图5中所示的图像帧350中出现了目前不存在的面部的情况。在此情况下,该处理前进到步骤S104,从而在每个粒子中设置新目标。该目标被设置为更新为与新事件等同的目标。接下来,在步骤S105中,在信息整合处理单元131中设置的m个粒子(pID=l至m)的每个粒子I至m中设置事件产生源的假定。对于事件产生源,例如,当事件产生源是语音事件时,正在说话的用户是事件产生源,而当事件产生源是图像事件时,具有所提取的面部的用户是事件产生源。如参照图5描述的,进行设置本公开的假定的处理,使得每个输入事件信息条目CeID=I至k)被设置为与包括在每个粒子I至m中的每个目标I至η相关联。也就是说,如参照图5描述的,包括在每个粒子I至m中的每个目标I至η与每个事件信息(eID=l至k)相关联,并且预先设置更新包括在每个粒子中的哪个目标。以这种方式,在每个粒子中产生获取事件的事件产生源假定。另外,例如,最初可以使用均匀分布每个事件的设置。由于粒子的数目m被设置为大于目标的数目n,所以将多个粒子设置为具有相同的事件ID-目标ID的对应性。例如,当目标的数目η为10时,进行将粒子的数目m设置为100至1000的处理。当在步骤S105中完成了对假定的设置时,该处理前进到步骤S106。在步骤S106中,计算与每个粒子相对应的权重,即,计算粒子权重[WpID]。对于粒子权重[WPID],最初将均匀值设置给每个粒子,然而,根据事件输入进行更新。将参照图11详细描述粒子权重[WpID]的计算过程。粒子权重[WpID]对应于每个粒子产生事件产生源的假定目标的假定正确性的指标。计算粒子权重[WpID],作为事件和目标之间的似然度,即,与能够与m个粒子中的每一个(pID-Ι至m)中设置的多个目标中的每一个相关联的事件产生源的输入事件的相似性。在图11中,信息整合处理单元131示出与从语音事件检测单元122和图像事件检测单元112输入的单个事件(eID=l)相对应的事件信息401和由信息整合处理单元131保持的单个粒子421。粒子421的目标(tID=2)是能够与事件(eID=l)相关联的目标。
在图11的下端,示出了事件和目标之间似然度的计算处理例子。计算粒子权重[WPID],作为与事件和目标之间的似然度之和相对应的值,该似然度是在每个粒子中计算出的事件和目标之间的相似度指标。进行图11的下端示出的计算似然度的处理,使得分别计算出:(a)高斯分布之间的似然度[DL],作为关于用户位置信息的事件与目标数据之间的相似性数据;以及(b)用户置信度信息UID)之间的似然度[UL],作为关于用户标识信息(面部标识信息或者说话者标识信息)的事件与目标数据之间相似性数据。作为(a)关于用户位置信息的事件与假定目标之间相似性数据的高斯分布之间的似然度[DL]的计算处理是如下处理。当与输入事件信息内的用户位置信息相对应的高斯分布是N(me,σ e),并且与从粒子中选择的假定目标的用户位置信息相对应的高斯分布是N(mt,ot)时,通过如下等式计算高斯分布之间的似然度[DL]。DL=N (mt, σ t+ σ e) χ | me在上面的等式中,在以中心mt分布σ t+o e的高斯分布中计算x=me的位置值。(b)按如下进行作为用户标识信息(面部标识信息或说话者标识信息)的事件与假定目标之间的相似性数据的用户置信度信息(uID)之间的似然度[UL]的计算处理。假定在输入的事件信息内用户置信度信息(UlD)的每个用户I至k的置信度值是Pe[i]。另外,“i”是与用户标识符I至k相对应的变量。使用从粒子中选择的 假定目标的用户置信度信息(UlD)的每个用户I至k的置信度的值(分数)作为Pt[i],通过如下等式计算用户置信度信息(uID)之间的似然度[UL]。UL= Σ Pe[i] XPt[i]在上面的等式中,获得包括在两条数据的用户置信度信息(UlD)中的各个相应用户置信度的值(分数)的乘积之和,并且所获得的和作为用户置信度信息(uID)之间的似然度[UL]。基于以上两个似然度,即,高斯分布之间的似然性[DL]和用户置信度信息(UlD)之间的似然度[UL],使用权重α ( α=0至1),通过如下等式计算粒子权重[WpID]。[ffpID] =EnULa XDL1^a在此,η表示与包括在粒子中的事件相对应的目标的数目。使用上面的等式,计算粒子权重[WpID]。然而,a =0至I。针对每个粒子计算粒子权重[WpID]。用于计算粒子权重[WpID]的权重[a ]可以是预定的固定值,或者是随着输入的事件值变化的值。例如,当输入事件是图像时,成功进行面部检测以获取位置信息,然而,当面部识别被错误地进行时,作为a=0的设置,满足用户置信度信息(UlD)之间的似然度:UL=1,从而可以只根据高斯分布之间的似然度[DL]计算粒子权重[WpID]。另外,当输入事件是语音时,成功地进行说话者识别以获取说话者信息,然而,当位置信息的获取被错误地进行时,作为a =0的设置,满足高斯分布之间的似然度[DL] = 1,从而可以只根据用户置信度信息(uID)之间的似然度[UL]计算粒子权重[WPID]。进行图10的流程图的步骤S106中对应于每个粒子的权重[WpID]的计算,即参照图11描述的处理。接下来,在步骤S107中,基于在步骤S106中设置的每个粒子的粒子权重[WPID]进行粒子的再采样处理。
进行粒子的再采样处理,即根据粒子权重[WpID]从m个粒子中选出粒子的处理。具体而言,例如,在粒子数目m=5的情况下,当分别设置以下粒子权重时:粒子1:粒子权重[WpID] =0.40,粒子2:粒子权重[WpID] =0.10,粒子3:粒子权重[WpID] = 0.25,粒子4:粒子权重[WpID] = 0.05,以及粒子5:粒子权重[WpID] = 0.20。粒子I以40%的概率被再采样,并且粒子2以10%的概率被再采样。另外,实际上,HI=IOO至1000,并且再采样结果由具有与粒子权重相对应的分布比率的粒子配置而成。通过该处理,留下了更多个具有大粒子权重[WpID]的粒子。另外,即使在再采样之后,粒子的总数[m]也不改变。另外,在再采样之后,每个粒子的权重[WPID]被重新设置,并且根据新事件的输入从步骤SlOl起重新进行该处理。在步骤S108中,对包括在每个粒子中的目标数据(用户位置和用户置信度)进行更新。如参照图7描述的,每个目标由如下数据配置而成:(a)用户位置:与每个目标相对应的存在位置的概率分布[高斯分布:N(mt,σ t)],(b)是用户I至k的估计值(分数):Pt[i] (i=l至k)作为用户置信度:用户置信度信息(uID)表示每个用户是谁,即,UlDtl=Pt [I]UlDt2=Pt [2]:UlDtk=Pt [k],以及(c)面部属性的预期值(在本实施例中,是说话者的预期值(概率))。基于与上述表示事件产生源的信号信息相对应的概率Pem = x (tID=y)和与每个事件相对应的面部属性分数SrfD=i来计算(C)面部属性的预期值(在本实施例中,是说话者的预期值(概率))。在此,“i”是事件ID。例如,通过如下等式计算目标ID=I的面部属性的预期值:\ΙΜ。StID=1= Σ eIDPeID=i(tID=l) X SeID=i当被推广并示出时,通过如下等式I来计算目标的面部属性的预期值:\ΙΜ。< 等式 1>Stm=E eIDPeID = i(tID)XSeID另外,当目标的数目大于面部图像事件的数目,使得每个目标的面部属性的预期值[StID]之和为[I]时,使用补数[1- Σ eIDPeID(tID)]和先验知识的值[S_J,通过如下等式2计算面部事件属性的预期值StID。< 等式 2>Stm= Σ eIDPeID (tID) X SeID+(l- Σ eIDPeID (tID)) X Sprior针对(a)用户位置、(b)用户置信度和(C)面部属性的预期值(在本实施例中,是说话者的预期值(概率))中的每一个进行步骤S108中的目标数据更新。首先,描述对(a)用户位置的更新。进行(a)用户位置的更新即如下两级更新:(al)针对所有粒子的所有目标的更新;以及(a2)针对每个粒子中设置的事件产生源假定目标的更新。针对被选择为事件产生源假定目标的目标和其它目标进行(al)针对所有粒子的所有目标的更新。该更新是在用户位置的散布随着时间扩展的假定基础上进行的,并且利用从前一次更新处理以来经过的时间和事件的位置信息,使用卡尔曼滤波器进行该更新。下面描述在位置信息是一维的情况下更新处理的例子。首先,当前一次更新处理之后经过的时间是[dt]时,针对所有目标,计算dt之后用户位置的预测分布。也就是说,针对高斯分布即用户位置的分布信息:N(mt,σ t)的预期值(平均值):[mt]和分布[σ J,进行以下更新。mt=mt+xc X dtσ t2= σ t2+ σ c2 X dt在此,mt表示预测的预期值(预测状态),σ t2表示预测的协方差(预测的估计协方差),XC表示运动信息(控制模式),O C2表示噪声(过程噪声)。另外,在用户不动的条件下进行更新的情况下,使用XC=O进行该更新。通过上述计算处理,作为包括在所有目标中的用户位置信息的高斯分布N(mt,σ t)被更新。接下来,描述针对每个粒子中设置的事件产生源假定目标的更新。在步骤S104中,更新根据设置的事件产生源假定所选择的目标。首先,如参照图5描述的,将包括在每个粒子I至m中的每个目标I至η设置为可以与每个事件(eID=l至k)相关联的目标。也就是说,预先设置根据事件ID (eID)更新每个粒子中包括的哪个目标,并且基于该设置只更新可以与输入的事件相关联的目标。例如,通过图5中所示的[事件ID=KeID=I)]的事件对应信息361,在粒子I (pID=l)中只选择性地更新目标ID=I (tID=l)的数据。在基于事件产生源假定进行的更新处理中,进行能够与该事件相关联的目标的更新。进行使用表示从语音事件检测单元122或图像事件检测单元112输入的事件信息中包括的用户位置的高斯分布:N(me,oe)的更新处理。例如,当假定K表示卡尔曼增益,me表示包括在输入事件信息:N(me,σ e)中的观测值(观测状态),并且表示包括在输入事件信息:N(me,oe)中的观测值(观测协方差)时,进行如下更新:K= 0t2/(0t2+0e2),mt=mt+K (xc-mt),以及σ t2= (1-K) σ t2。接下来,描述作为目标数据的更新处理进行的用户置信度的更新。在目标数据中,除了用户位置信息以外,还包括表示每个目标是谁的用户置信度信息(uID),S卩,是每个用户I至k的概率(分数):Pt[i] (i=l至k)。在步骤S108中,进行针对用户置信度信息(uID)的更新处理。利用所有注册用户的后验概率和包括在从语音事件检测单元122或图像事件检测单元112输入的事件信息中的用户置信度信息(uID):Pe[i] (i=l至k),通过应用具有预先设置的范围在O至I的值的更新率[β ],进行关于包括在每个粒子Pt [i] (i=l至k)中的目标的用户置信度信息(uID)的更新。通过如下等式进行针对目标:Pt[i] (i=l至k)的用户置信度信息(UlD)的更新。Pt[i] = (l_i3) XPt[i] + i3*Pe[i]在此,i=l至k,β=0至I。另外,更新率[β]对应于O至I的值,并且被预先设置。在步骤S108中,更新后的目标数据中包括以下数据,S卩:(a)用户位置:与每个目标相对应的存在位置的概率分布[高斯分布:N(mt,ot)] ;(b)作为用户置信度的是每个用户I至k的估计值(分数):Pt[i](i=l至k):表示每个目标是谁的用户置信度信息(UlD),即UlDtl=Pt [I]UlDt2=Pt [2]:UlDtk=Pt [k];以及(c)面部属性的预期值(在本实施例中是说话者的预期值(概率))。基于上述数据和每个粒子权重[WpID]产生目标信息,并且将所产生的目标信息输出到处理确定单元132。另外,作为包括在每 个粒子(pID=l至m)中的每个目标(tID=l至η)的对应数据的加权求和数据,产生该目标信 息。该目标信息是图7的右端中所示的目标信息380中所示的数据。该目标数据被产生为包括每个目标(tID=l至η)的以下信息:(a)用户位置信息、
(b)用户置信度信息以及(c)每个面部属性的预期值(在本实施例中是说话者的预期值(概率))。例如,与目标(tID=l)相对应的目标信息的用户位置信息被表示为如下等式A。
[028权利要求
1.一种信息处理设备,包括: 多个信息输入单元,其输入真实空间的观测信息; 事件检测单元,其基于对从所述信息输入单元输入的信息的分析,产生事件信息,所述事件信息包括存在于所述真实空间中的用户的估计位置信息和估计标识信息;以及 信息整合处理单元,其接收所述事件信息,并且基于输入的事件信息产生包括每个用户的位置和用户标识信息的目标信息以及代表事件产生源的概率值的信号信息, 其中所述信息整合处理单元包括话语源概率计算单元,并且 其中所述话语源概率计算单元进行以下处理:通过将基于说话场景的权重乘以从所述事件检测单元输入的多条不同信息,来计算代表每个目标的话语源概率的指标值,作为话语源分数。
2.根据权利要求1所述的信息处理设备,其中所述话语源概率计算单元接收与话语事件对应的(a)第一用户位置信息即声源方向信息和(b)第一用户标识信息即说话者标识信息的输入,作为来自构成所述事件检测单元的语音事件检测单元的输入信息,接收(a)第二用户位置信息即面部位置信息、(b)第二用户标识信息即面部标识信息和(C)唇部运动信息的输入,作为基于来自构成所述事件检测单元的图像事件检测单元的输入信息而产生的目标信息,并且通过采用从所述事件检测单元输入的信息中的至少一条进行基于所述信息计算所述话语源分数的处理。
3.根据权利要求1所述的信息处理设备,其中所述话语源概率计算单元应用声源方向信息D、说话者标识信息S和唇部运动信息L,并且进行根据用于计算话语源分数P的公式P=Da -S0-Ly来计算所述话语源分数的处理, 其中a是声源方向信息的权重系数,β是说话者标识信息的权重系数,Y是唇部运动信息的权重系数,并且α+β + γ=1。`
4.根据权利要求3所述的信息处理设备,其中所述话语源概率计算单元进行根据说话场景来调节所述权重系数a、β和Υ的处理。
5.根据权利要求3所述的信息处理设备,其中所述话语源概率计算单元根据以下两个条件进行调节所述权重系数α、β和Υ的处理:条件1,仅来自一个目标的单个话语,还是来自两个目标的同时话语;以及条件2,这两个目标的位置相互靠近,还是这两个目标的位置相互远离。
6.根据权利要求3所述的信息处理设备,其中所述话语源概率计算单元在存在两个具有话语概率的目标并且这两个目标同时说话的情况下,进行调节所述权重系数α、β和Υ的处理,使得所述唇部运动信息的权重系数Y更小。
7.根据权利要求3所述的信息处理设备,其中,所述话语源概率计算单元在存在两个具有话语概率的目标并且这两个目标的位置相互靠近并且只有一个目标说话的情况下,进行调节所述权重系数a、β和Υ的处理,使得所述声源方向信息的权重系数a更小。
8.根据权利要求3所述的信息处理设备,其中所述话语源概率计算单元在存在两个具有话语概率的目标并且这两个目标的位置相互靠近并且这两个目标同时说话的情况下,进行调节所述权重系数a、β和Y的处理,使得所述唇部运动信息的权重系数Y和所述声源方向信息的权重系数a小。
9.一种在信息处理设备中进行信息分析处理的信息处理方法,该方法包括:通过多个信息输入单元接收真实空间的观测信息的输入; 通过事件检测单元基于对从所述信息输入单元输入的信息的分析,产生事件信息,所述事件信息包括存在于所述真实空间中的用户的估计位置信息和估计标识信息;以及通过信息整合处理单元接收所述事件信息的输入,并且基于输入的事件信息来产生包括每个用户的位置和用户标识信息的目标信息以及代表事件产生源的概率值的信号信息,其中在所述目标信息的产生中,进行以下处理:通过将基于说话场景的权重乘以在所述事件信息的产生中输入的多条不同信息,来计算代表每个目标的话语源概率的指标值,作为话语源分数。
10.一种使信息处理设备执行以下信息分析的程序: 通过多个信息输入单元接收真实空间的观测信息的输入; 通过事件检测单元基于对从所述信息输入单元输入的信息的分析,产生事件信息,所述事件信息包括存在于所述真实空间中的用户的估计位置信息和估计标识信息;以及通过信息整合处理单元接收事件的输入,并且基于输入的事件信息产生包括每个用户的位置和用户标识信息的目标信息以及代表事件产生源的概率值的信号信息, 其中在所述目标信息的产生中,进行以下处理:通过将基于说话场景的权重乘以在所述事件信息的产生中输入的多条不同信息,来计算代表每个目标的话语源概率的指标值,作为话 语源分数。
全文摘要
本发明涉及信息处理设备、信息处理方法及程序。一种信息处理设备,包括多个信息输入单元;事件检测单元,其基于对从所述信息输入单元输入的信息的分析,产生事件信息,所述事件信息包括存在于所述真实空间中的用户的估计的位置信息和估计的标识信息;以及信息整合处理单元,其输入所述事件信息,并且基于输入的事件信息产生包括每个用户的位置和用户标识信息的目标信息以及代表事件产生源的概率值的信号信息,其中所述信息整合处理单元包括话语源概率计算单元,并且其中所述话语源概率计算单元进行以下处理通过将基于说话场景的权重乘以来自所述事件检测单元的多条不同信息,来计算作为代表每个目标的话语源概率的指标值的话语源分数。
文档编号G06K9/62GK103106390SQ20121043378
公开日2013年5月15日 申请日期2012年11月2日 优先权日2011年11月11日
发明者山田敬一 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1