数据处理设备、数据处理方法以及程序的制作方法

文档序号:6362255阅读:142来源:国知局
专利名称:数据处理设备、数据处理方法以及程序的制作方法
技术领域
本发明涉及数据处理设备、数据处理方法以及程序,并且具体地涉及即使当实时获取的当前位置的数据中存在间断时也能使预测进行的数据处理设备、数据处理方法以及程序。
背景技术
近年来,已经积极地进行以下研究:使用从作为可以被用户佩戴的传感器即可佩戴式传感器获取的时间序列数据对用户的状态进行建模和学习,并且使用通过学习获取的模型来识别用户的当前状态(见PTLl和PTL2以及NPLl)。如日本专利申请第2009-180780号(在下文中,称为在先申请I)所述,本申请人之前提出了用于随机预测用户在将来的预定时间点的活动状态的多个概率的方法。利用根据在先申请I的方法,根据时间序列数据来学习用户的活动状态作为概率状态转移模型,并且使用学习到的概率状态转移模型来识别当前的活动状态,并且因此,可以概率性地预测用户“在预定的时间之后”的活动状态。在在先申请I的情况下,将对用户“在预定的时间之后”的活动状态进行预测的示例作为例子示出,其中使用概率状态转移模型来识别用户的当前位置,在该概率状态转移模型中,学习了用户的移动历史时间序列数据(移动历史数据)以预测用户在预定的时间之后的目的地(地点)。此外,如日本专利申请第2009-208064号(在下文中,称为在先申请2)所述,本申请人在在先申请I上有所发展并且提出了用于即使在不存在用作为“在预定的时间之后”的从当前时间点经过的时间的说明的情况下预测多个目的地的到达概率、路线以及时间的方法。利用根据在先申请2的方法,将“移动状态”或者“停留状态”的属性添加至组成概率状态转移模型的状态节点。可以通过在组成概率状态转移模型的状态节点中搜索处于“停留状态”的状态节点作为用于目的地的状态节点来自动检测候选目的地。

如日本专利申请第2010-141946号(在下文中,称为在先申请3)所述,当添加新的移动路线的移动历史数据时,本申请人使得根据在先申请2的学习模型(概率状态转移模型)能够被发展,由此使得有效地学习。引文列表专利文献PTLl:日本未审查专利申请公开第2006-134080号PTL2:日本未审查专利申请公开第2008-204040号非专利文献NPLl:^Life Patterns: structure from wearable sensors'Brian PatrickClarkson, Doctor Thesis, MIT, 200
发明内容
技术问题
然而,利用根据在先申请3的方法,基于要被实时获取的当前移动历史数据,在估计当前值(当前状态)之后对目的地进行预测,但是在无法获取当前位置的数据的情况下,无法估计当前状态,并且也无法进行对目的地的预测。根据这种情况作出了本发明,使得即使当实时获取的当前位置的数据中存在间断时也能够进行预测。问题解决一种根据本发明的一个方面的数据处理设备,包括:学习装置,被配置成在要被获取作为用于学习的数据的用户的移动历史数据被表示为表示所述用户的活动的概率模型的情况下获取概率模型的参数;目的地和路线点估计装置,被配置成估计在使用通过所述学习装置获取的所述参数的所述概率模型的状态节点中的与移动目的地和路线点等效的目的地节点和路线点节
占.
预测数据生成装置,被配置成:获取在从现在起的预定时间段内的与所述用于学习的数据不同的所述用户的移动历史数据作为用于预测的数据;以及在所获取的所述用于预测的数据中包括有数据缺失部分的情况下,通过插值处理来生成所述用于预测的数据中的所述数据缺失部分,并且计算与通过所述插值处理所生成的插值数据对应的实际数据的虚拟误差;当前点估计装置,被配置成:将其所述数据缺失部分已被插值的所述用于预测的数据输入给使用通过学习获取的所述参数的所述概率模型;以及在与其所述数据缺失部分已被插值的所述用于预测的数据对应的状态节点序列的估计中,使用针对所述插值数据的所述虚拟误差,将与实际数据相比数据的贡献更小的观测概率作为所述状态节点的观测概率,来估计与所述用户的当前位置等效的当前点节点;搜索装置,被配置成使用与所估计的所述目的地节点和所述路线点节点以及所述当前点节点有关的信息、以及通过学习获取的所述概率模型来搜索从用户的当前位置到目的地的路线;以及计算装置,被配置成计算所搜索的目的地的到达概率和所需的时间。一种根据本发明的一个方面的数据处理方法,包括以下步骤:利用数据处理设备的被配置成对用户的移动历史数据进行处理的学习装置,在要被获取作为用于学习的数据的用户的移动历史数据被表示为表示所述用户的活动的概率模型的情况下获取概率模型的参数;利用所述数据处理设备的目的地和路线点估计装置,估计在使用通过所述学习装置获取的所述参数的所述概率模型的状态节点中的与移动目的地和路线点等效的目的地节点和路线点节点;利用所述数据处理设备的预测数据生成装置,获取在从现在起的预定时间段内的与所述用于学习的数据不同的所述用户的移动历史数据作为用于预测的数据;以及在所获取的所述用于预测的数据中包括有数据缺失部分的情况下,通过插值处理来生成所述用于预测的数据中的所述数据缺失部分,并且计算与通过所述插值处理所生成的插值数据对应的实际数据的虚拟误差;利用所述数据处理设备的当前点估计装置,将其所述数据缺失部分已被插值的所述用于预测的数据输入给使用通过学习获取的所述参数的所述概率模型;以及在与其所述数据缺失部分已被插值的所述用于预测的数据对应的状态节点序列的估计中,使用针对所述插值数据的所述虚拟误差,将与实际数据相比数据的贡献更小的观测概率作为所述状态节点的观测概率,来估计与所述用户的当前位置等效的当前点节点;利用所述数据处理设备的搜索装置,使用与所估计的所述目的地节点和所述路线点节点以及所述当前点节点有关的信息、以及通过学习获取的所述概率模型来搜索从用户的当前位置到目的地的路线;以及利用所述数据处理设备的计算装置,计算所搜索的目的地的到达概率和所需的时间。一种根据本发明的一个方面的程序,使计算机用作为:学习装置,被配置成在要被获取作为用于学习的数据的用户的移动历史数据被表示为表示所述用户的活动的概率模型的情况下获取概率模型的参数;目的地和路线点估计装置,被配置成估计在使用通过所述学习装置获取的所述参数的所述概率模型的状态节点中的与移动目的地和路线点等效的目的地节点和路线点节
占.
预测数据生成装置,被配置成:获取在从现在起的预定时间段内的与所述用于学习的数据不同的所述用户的移动历史数据作为用于预测的数据;以及在所获取的所述用于预测的数据中包括有数据缺失部分的情况下,通过插值处理来生成所述用于预测的数据中的所述数据缺失部分,并且计算与通过所述插值处理所生成的插值数据对应的实际数据的虚拟误差;当前点估计装置,被配置成:将其所述数据缺失部分已被插值的所述用于预测的数据输入给使用通过学习获取的所述参数的所述概率模型;以及在与其所述数据缺失部分已被插值的所述用于预测的数据对应的状态节点序列的估计中,使用针对所述插值数据的所述虚拟误差,将与实际数据相比数据的贡献更小的观测概率作为所述状态节点的观测概率,来估计与所述用户的当前位置等效的当前点节点;搜索装置,被配置成使用与所估计的所述目的地节点和所述路线点节点以及所述当前点节点有关的信息、以及通过学习获取的所述概率模型来搜索从所述用户的当前位置到目的地的路线;以及计算装置,被配置成计算所搜索的目的地的到达概率和所需的时间。在本发明的一个方面的情况下,在要被获取作为用于学习的数据的用户的移动历史数据被表示为表示用户的活动的概率模型的情况下,获取概率模型的参数,并且估计在使用通过学习装置获取的参数的概率模型的状态节点中的与移动目的地和路线点等效的目的地节点和路线点节点。获取在从现在起的预定时间段内的与用于学习的数据不同的用户的移动历史数据作为用于预测的数据,并且在所获取的用于预测的数据中包括有数据缺失部分的情况下,通过插值处理来生成所述用于预测的数据中的数据缺失部分,以及计算与生成的插值数据对应的实际数据的虚拟误差。将其数据缺失部分已被插值的用于预测的数据输入给使用通过学习获取的参数的概率模型,以及在与其数据缺失部分已被插值的用于预测的数据对应的状态节点序列的估计中,使用针对所述插值数据的虚拟误差,将与实际数据相比数据的贡献更小的观测概率作为状态节点的观测概率,来估计与用户的当前位置等效的当前点节点。使用与所估计的目的地节点和路线点节点以及当前点节点有关的信息、以及通过学习获取的概率模型来搜索从用户的当前位置到目的地的路线,以及计算所搜索的目的地的到达概率和所需的时间。根据本发明的一个方面,即使当要被实时获取的当前位置的数据中存在间断时,也能作出预测。


图1是示出本发明应用于其的预测系统的实施方式的配置示例的框图。图2是示出预测系统的硬件配置示例的框图。图3是示出移动历史数据的示例的图。图4是示出HMM的示例的图。图5是示出从左到右型HMM的示例的图。图6是示出稀疏约束应用于其的HMM的示例的图。图7是示出学习预处理器的详细配置示例的框图。图8是用于描述学习预处理器的处理的图。图9是用于描述学习预处理器的处理的图。图10是示出移动属性识别添加单元的详细配置示例的框图。图11是示出移动属性识别单元的学习装置的配置示例的框图。图12是示出在对每一个类型(category)的行为状态进行分类的情况下的类别示例的图。图13是用于描述行为状态标记单元的处理示例的图。图14是用于描述行为状态标记单元的处理示例的图。图15是示出图11中的行为状态标记单元的配置示例的框图。图16是示出移动属性识别单元的详细配置示例的框图。图17是示出移动属性识别单元的学习装置的另一配置示例的框图。图18是示出移动属性识别单元的另一配置示例的框图。图19是用于描述学习预处理器的处理的流程图。图20是示出图1中的学习主处理器的详细配置示例的框图。图21是示出已知/未知确定单元的详细配置示例的框图。图22是用于描述由未知状态节点添加单元对未知状态添加模型的构建处理的流程图。图23是用于描述用于未知状态添加模型的初始概率表的图。图24是用于描述用于未知状态添加模型的转移概率表的图。图25是用于描述用于未知状态添加模型的中心值表的图。图26是用于描述用于未知状态添加模型的分布值表的图。图27是线性插值处理的虚拟误差的图像图。图28是用于描述观测似然计算处理的流程图。图29是用于描述已知/未知确定处理的流程图。图30是示出新模型生成单元的详细配置示例的框图。
图31是用于描述借助于普通HMM的学习模型与借助于新模型学习单元的学习模型之间的区别的图。图32是用于描述借助于普通HMM的学习模型与借助于新模型学习单元的学习模型之间的区别的图。图33是使用图形模型来表示新模型学习单元的学习模型的图。图34是用于描述新模型学习单元的新模型学习处理的流程图。图35是用于描述参数重计算单元的参数重计算处理的流程图。图36是通过新模型生成单元进行的总体新模型生成处理的流程图。图37是用于描述借助于新模型连接单元的拓扑更新模型生成处理的流程图。图38是用于描述用于拓扑更新模型的初始概率表的图。图39是用于描述用于拓扑更新模型的转移概率表的图。图40是用于描述用于拓扑更新模型的转移概率表的图。图41是用于描述用于拓扑更新模型的转移概率表的图。图42是用于描述用于拓扑更新模型的中心值表的图。图43是用于描述用于拓扑更新模型的分布值表的图。图44是通过参数更新单元进行的总体参数更新处理的流程图。图45是用于描述用于现有模型的初始概率表的图。图46是用于描述用于现有模型的转移概率表的图。图47是用于描述用于现有模型的转移概率表的图。图48是用于描述用于现有模型的转移概率表的图。图49是用于描述用于现有模型的中心值表的图。图50是用于描述用于现有模型的分布值表的图。图51是学习主处理器的总体学习主处理的处理的流程。图52是用于描述目的地和路线点检测器的处理的图。图53是用于描述学习模块的总体处理的流程图。图54是示出预测预处理器的详细配置示例的框图。图55是保持插值处理的虚拟误差的图像图。图56是指示在插值处理之后的移动历史数据和虚拟误差序列数据的图。图57是根据移动方式的虚拟误差的图像图。图58是用于描述借助于预测数据生成单元的预测数据生成处理的流程图。图59是示出预测主处理器的详细配置示例的框图。图60是用于描述树型搜索处理的流程图。图61是用于进一步描述树型搜索处理的图。图62是用于进一步描述树型搜索处理的图。图63是示出树型搜索处理中的搜索结果列表的图。图64是用于描述代表路线选择处理的流程图。图65是用于描述预测模块的总体处理的流程图。图66是示出本发明应用于其的计算机的实施方式的配置示例的框图。
具体实施例方式[预测系统的配置示例]图1示出了本发明应用于其的预测系统的实施方式的配置示例。图1中的预测系统I配置有学习模块11、用户模型参数存储单元(model-parameter-by-user storage unit) 12 以及预测模块 13。给学习模块11提供时间序列数据,该时间序列数据指示在传感器设备(未示出)如GPS (全球定位系统)传感器等处在一段预定的时间段获取的用户在预定的时间点的位置(纬度和经度)。具体地,给学习模块11提供指示了用户的移动路线的时间序列数据(在下文中,称为移动历史数据),其由以一定的时间间隔(例如15秒的间隔)依次获取的位置(维度和经度)和在那时的时间点的三个维度的数据组成。注意的是,根据需要,组成时间序列数据的一组纬度、经度和时间点将被称为三维数据。学习模块11进行学习处理,其中,通过使用用户的移动历史数据,用户活动模型(表示用户的行为和活动模式的状态模型)被学习以作为概率状态转移模型。例如,可以将包括隐藏状态的概率模型如遍历HMM (隐式马尔可夫模型)等用作为用于学习的概率状态转移模型。对于预测系统1,将稀疏约束应用至其的遍历HMM用作为概率状态转移模型。注意的是,后面将参照图4至图6来描述稀疏约束应用至其的遍历HMM、用于计算遍历HMM的参数的方法等。用户模型参数存储单元12存储了表示通过学习模块11的学习获取的用户的活动模型的参数。预测模块13从用户模型参数存储单元12获取通过学习模块11的学习获取的用户活动模型的参数。使用根据通过学习获取的参数的用户活动模型,预测模块13使用用户的活动模型来估计用户的当前位置,并且还根据当前位置预测移动目的地。此外,预测模块13还计算到预测的目的地的到达概率、路线以及到达时间(所需时间)。注意的是,目的地的个数不局限于一个,可以预测多个目的地。将描述学习模块11和预测模块13的细节。学习模块11配置有历史数据累积单元21、学习预处理器22、学习主处理器23、学习后处理器24以及目的地和路线点检测器25。历史数据累积单元21将要从传感器设备提供的用户的移动历史数据累积(存储)作为用于学习的数据。历史数据累积单元21根据需要给学习预处理器22提供移动历史数据。学习预处理器22解决由传感器设备造成的问题。具体地,学习预处理器22通过对移动历史数据进行组织以及还对暂时数据缺失进行插值处理等来对移动历史数据进行插值。而且,学习预处理器22将其中用户停留(停止)在同一地点的“停留状态”或者其中用户正在移动的“移动状态”中的一个移动属性添加至组成移动历史数据的每一个三维数据中。将添加了移动属性后的移动历史数据提供给学习主处理器23以及目的地和路线点检测器25。学习主处理器23对用户的移动历史进行建模作为用户活动模型。具体地,学习主处理器23获取在将用户的移动历史建模成用户活动模型的时刻的参数。将通过学习获取的用户活动模型的参数提供给学习后处理器24和用户模型参数存储单元12。
而且,在将用户的移动历史学习作为用户活动模型之后,在提供用作为用于学习的新数据的移动历史数据的情况下,学习主处理器23获取并且更新来自用户模型参数存储单元12的当前的用户活动模型的参数。具体地,首先,学习主处理器23确定用作为用于学习的新数据的移动历史数据是已知路线的移动历史数据还是未知路线的移动历史数据。在确定用于学习的新数据是已知路线的移动历史数据的情况下,学习主处理器23更新现有的用户活动模型(在下文中,简称为现有模型)的参数。另一方面,在确定用于学习的新数据是未知路线的移动历史数据的情况下,学习主处理器23获取用作为与未知路线的移动历史数据对应的新模型的用户活动模型的参数。然后学习主处理器23综合现有模型的参数和新模型的参数,由此生成通过连接现有模型和新模型获取的更新模型。现在,在下文中,将通过已知路线的移动历史数据更新的用户活动模型称为参数更新模型。另一方面,将其参数通过未知路线的移动历史数据更新的用户活动模型称为拓扑更新模型,这是因为拓扑也根据未知路线的扩展而更新。而且,在下文中,已知路线的移动历史数据也被简称为已知的移动历史数据,而未知路线的移动历史数据也被简称为未知的移动历史数据。将参数更新模型的参数或者拓扑更新模型的参数提供给学习后处理器24和用户模型参数存储单元12,并且在随后的阶段,将使用更新后的用户活动模型进行处理。学习后处理器24使用通过学习主处理器23的学习获取的用户活动模型,将组成移动历史数据的每一个三维数据转换为用户活动模型的状态节点。具体地,学习后处理器24生成与移动历史数据对应的用户活动模型的状态节点的时间序列数据(节点序列数据)。学习后处理器24将转换后的节点序列数据提供给目的地和路线点检测器25。目的地和路线点检测器25将学习预处理器22提供的添加了移动属性之后的移动历史数据与学习后处理器24提供的节点序列数据进行相关。具体地,目的地和路线点检测器25将用户活动模型的状态节点分配给组成移动历史数据的每一个三维数据。目的地和路线点检测器25将目的地的属性或者路线点的属性添加至与节点序列数据的状态节点的其移动属性是“停留状态”的三维数据对应的状态节点中。因此,将用户的移动历史中的预定的地点(对应的状态节点)分配给目的地或者路线点。将关于通过目的地和路线点检测器25添加至状态节点的目的地或者路线点的属性的信息提供给并且存储在用户模型参数存储单元12中。预测模块13配置有缓冲单元31、预测预处理器32、预测主处理器33以及预测后处理器34。缓冲单元31缓冲(存储)用于预测处理的实时获取的移动历史数据。注意的是,对用于预测处理的移动历史数据来说,其时间段短于在学习处理时的移动历史数据的时间段的数据例如100步左右的移动历史数据是足够的。缓冲单元31不断地存储一段等于预定时间段的时间的最新的移动历史数据,并且当获取新数据时删除已存储的数据中的最旧数据。以与学习预处理器22相同的方式,预测预处理器32解决由传感器设备造成的问题。具体地,预测预处理器32通过对移动历史数据进行组织以及还对暂时数据缺失进行插值处理等来对移动历史数据进行插值。
将表示通过学习模块11的学习获取的用户活动模型的参数从用户模型参数存储单元12提供给预测主处理器33。预测主处理器33使用由预测预处理器32提供的移动历史数据和通过学习模块11的学习获取的用户活动模型,来估计与用户的当前位置对应的状态节点(当前点节点)。对状态节点的估计来说,可以使用维特比最大似然估计或者软判决维特比估计。此外,预测主处理器33在由可以由当前点节点转移的多个估计的状态节点组成的树型结构中计算直至目的地的状态节点(目的地节点)的节点序列及其发生概率。注意的是,路线点的节点可以包括在到目的地的状态节点的节点序列(路线)中,并且因此,预测主处理器33还与目的地同时地预测路线点。预测后处理器34获取到同一目的地的多个路线的选择概率(发生概率)的和作为到目的地的到达概率。而且,预测后处理器34选择一个或更多个的路线用作为代表到目的地的路线(在下文中,称为代表路线),并且计算代表路线所需的时间。然后预测后处理器34输出到目的地的预测的代表路线、到达概率以及所需时间作为预测结果。注意的是,可以将频率而不是路线的发生概率、以及到达频率而不是到目的地的到达概率输出作为预测结果O[预测系统的硬件配置示例]按照上述配置的预测系统I可以使用例如图2中示出的硬件配置。具体地,图2是示出预测系统I的硬件配置示例的框图。在图2中,预测系统I配置有三个移动终端51-1至51-3和服务器52。尽管移动终端51-1至移动终端51-3是具有相同功能的同一类型的移动终端51,但是对于移动终端51-1至移动终端51-3来说,拥有这些移动终端的用户有所不同。因此,在图2中,仅示出了三个移动终端51-1至51-3,但是实际上,存在其个数对应于用户个数的移动终端51。移动终端51可以通过经由网络的通信如无线通信、互联网等与服务器52进行数据交换。服务器52接收移动终端51发送的数据,并且对接收到的数据进行预定的处理。然后服务器52通过无线通信等将数据处理的处理结果发送给移动终端51。因此,移动终端51和服务器52具有至少借助于无线电或者线缆的通信单元。此外,可以使用其中移动终端51包括图1中的预测模块13并且服务器52包括图1中的学习模块11和用户模型参数存储单元12的布置。在使用该布置的情况下,例如,对于学习处理,通过移动终端51的传感器设备获取的移动历史数据被传送到服务器52。基于接收到的用于学习的移动历史数据,服务器52学习用户活动模型并且将其存储。对于预测处理,移动终端51则获取通过学习获取的用户活动模型的参数,根据实时获取的移动历史数据来估计用户的当前节点,并且还计算目的地节点以及到该目的节点的到达概率、代表路线以及所需时间。然后移动终端51将预测结果显示在显示单元如未示出的液晶显示器等上。可以按照需要根据用作为数据处理设备的每一个的处理能力和通信环境来确定移动终端51和服务器52之间的角色分工。在学习处理的情况下,每一次处理所需的时间很长,但是该处理不是必须被频繁处理。因此,一般而言,服务器52的处理能力高于便携式移动终端51的处理能力,并且因此,服务器52可以基于每天一次左右所累积的移动历史数据进行学习处理(参数的更新)。
另一方面,对于预测处理,希望快速进行处理并且响应于每小时实时更新的移动历史数据显示处理结果,并且因此,希望在移动终端51处进行预测处理。如果通信环境宽裕,则希望服务器52也进行预测处理并且单独从服务器52接收预测结果,这会减少对其便携性和尺寸减少有要求的移动终端51的负担。而且,在移动终端51可以作为数据处理设备单独高速地进行学习处理和预测处理的情况下,显然移动终端51可以包括图1中的预测系统I的所有配置。[待被输入的移动历史数据的示例]图3示出了在预测系统I处获取的移动历史数据的示例。在图3中,水平轴表示经度,并且垂直轴表示纬度。图3示出的移动历史数据指示的是实验者在持续了一个半月左右的时间中累积的移动历史数据。如图3所示,移动历史数据是其中用户主要移动到附近和四个外出目的地如工作地点等的数据。注意的是,该移动历史数据还包括其位置由于未能捕获卫星而遗漏的数据。[遍历HMM]接着,将对被预测系统I用作为学习模型的遍历HMM作出描述。图4示出了 HMM的示例。HMM是包括状态节点以及状态节点之间的转移的状态转移模型。图4示出了具有三个状态的HMM的示例。

在图4中,圆形标记表示状态节点,并且箭头表示状态节点的转移,(这与下列图中的相同)。注意的是,在下文中,状态节点也将被简称为节点或者状态。而且,在图4中,Si (在图4中i=l,2,3)表示状态,并且au表示从状态Si至状态Sj的状态转移概率。此外,h (X)表示其中在至状态S」的状态转移时观测到观测值X的输出概率密度函数,并且π i表示状态Si为初始状态的初始概率。注意的是,对于输出概率密度函数bj (X),使用例如正态概率分布等。这里,用状态转移概率au、输出概率密度函数bj (X)以及初始概率L来定义HMM(连续HMM)。这些状态转移概率au、输出概率密度函数h (X)以及初始概率π 被称为HMM 的参数 X={aij,bj (X),j=l,2,"、M}。M 表示 HMM 的状态的个数。至于用于估计HMM的参数λ的方法,已经广泛使用了鲍姆 韦尔奇最大似然估计方法(Baum-WeIch’s maximum likelihood estimating method)。鲍姆 韦尔奇最大似然估计方法是用于基于EM算法(EM (期望最大化)算法)来估计参数的方法。根据鲍姆.韦尔奇最大似然估计方法,基于待被观测的时间序列数据X=X1, X2,…,xT,进行对HMM的参数λ的估计以便于使待被根据发生概率而获取的似然最大化,该发生概率是将观测到(将发生)其时间序列数据的概率。这里,xt表示在t时间点时待被观测的信号(采样值),并且T表示时间序列数据的长度(样本的个数)。在例如"PatternRecognition and Machine Learning (Volume2) , byC.M.Bishop, P.333 (Original English Edition:"Pattern Recognition and MachineLearningC Information Science and Statistics)'Christopher M.BishopSpringer, NewYork, 2006)(在下文中,称为文献A)中描述了鲍姆.韦尔奇最大似然估计方法。鲍姆.韦尔奇最大似然估计方法是基于似然最大化的参数估计方法,但是不保证最优性,并且取决于HMM的配置和参数λ的初始值可以收敛到一个局部最优解(局部最小值)。HMM已经被广泛用于音频识别,但是在用于音频识别的HMM的情况下,一般而言,要对状态的个数、如何进行状态转移等进行预先确定。图5示出了用于音频识别的HMM的示例。将图5中的HMM称为从左到右型。在图5中,状态的个数为三个,状态转移被限制为仅允许自转移(从状态Si至状态Si的状态转移)和从左边到右边相邻状态的状态转移的配置。与具有与图5中的HMM相同的状态转移限制的HMM相比,将图4中示出的没有状态转移限制的HMM即其中可以进行从任意状态Si到任意状态S」的状态转移的HMM称为遍历(Ergodic) ΗΜΜ。遍历HMM是具有最高灵活性配置的ΗΜΜ,但是如果状态个数增加,则对参数λ的估计变得难以进行。例如,在遍历HMM的状态的个数为1000的情况下,状态转移的个数变为一百万(=1000X1000)。因此,在这种情况下,在参数λ中,对于状态转移概率au,必须估计一百万个状态转移概率hj。因此,例如,可以给待设定为状态的状态转移施加具有稀疏(Spare)配置的约束(稀疏约束)。这里提到的稀疏配 置是下述配置,在该配置中从某一状态出发变化的状态是非常受限的,而不是如其中可以从任意状态到任意状态进行状态转移的遍历HMM那样的浓密(density)的状态转移。现在,可以说即使在稀疏配置的情况下,存在至少一个到另一状态的状态转移,而且也存在自转移。图6示出了已经施加了稀疏约束的HMM。这里,在图6中,连接两个状态的双向箭头表示从两个状态中的一个状态到另一个状态的状态转移,以及从所述另一个状态到所述一个状态的状态转移。而且,在图6中,每一个状态可以进行自转移,并且省略了表示其自转移的箭头的图。在图6中,以网格的方式在二维空间上布置了 16个状态。具体地,在图6中,在水平方向上布置了四个状态,并且在垂直方向上也布置了四个状态。如果说在水平方向上的相邻状态之间的距离和在垂直方向上的相邻状态之间的距离都为1,则图6中的A示出施加了稀疏约束的HMM,其中可以进行到距离等于或者小于I的状态的状态转移,并且不能进行到其他状态的状态转移。而且,图6中的B示出施加了稀疏约束的HMM,其中可以进行到距离等于或者小于V 2的状态的状态转移,并且不能进行到其他状态的状态转移。在图1中的示例的情况下,对预测系统I提供移动历史数据X=Xl,X2,…,χτ,并且学习模块11使用移动历史数据X=X1, X2,…,xT对表示用户活动模型的HMM的参数λ进行估计。具体地,认为表示用户的移动轨迹的在每一个时间点的位置(纬度和经度)的数据是从地图上的与HMM的状态Si中的任一个状态对应的一点起以具有预定分布值的展形(spread)而正态分布的概率变量的观测数据。学习模块11使地图上的与状态Si (中心值μ P、其分布值σ /以及状态转移概率au对应的一点最优化。注意的是,可以将状态Si的初始概率Jii设定为相同的值。例如,将M个状态Si中的每一个状态的初始概率π i设定为1/M。预测主处理器33将维特比算法应用到通过学习获取的用户活动模型(HMM)以实现状态转移处理(状态序列)(路径)(在下文中,也称为最大似然路径),来使移动历史数据X=X1, X2,…,Xt将被观测到的似然最大化。因此,识别出对应于用户当前位置的状态Si。这里提到的维特比算法是如下算法,该算法在将每一个状态Si作为起点的状态转移路径中确定路径(最大似然路径),以通过累积在时间点t时状态转移从状态Si转移至状态Sj的状态转移概率au而使值(发生概率)最大化,并且对于其状态转移,在处理后的时间序列数据X的长度T期间,确定在移动历史数据X=X1, X2,-,χτ中在时间点t时将观测到采样值Xt的概率(根据输出概率密度函数bj (X)获取的输出概率)。在以上提及的文献A的第347页描述了维特比算法的细节。[学习预处理器22的配置示例]图7是示出学习模块11的学习预处理器22的详细配置示例的框图。学习预处理器22配置有数据连接/划分单元71、异常数据移除单元72、重采样处理单元73、移动属性识别添加单元74以及停留状态处理单元75。数据连接/划分单元71进行移动历史数据的连接和划分处理。移动历史数据以预定的增量如天的增量等从传感器设备提供给数据连接/划分单元71作为日志文件。因此,由于数据跨接(straddle)在针对一定的目的地的移动的中间,因此通过划分可以获取最初应当继续的移动历史数据。数据连接/划分单元71连接这样划分的移动历史数据。具体地,在一个日志文件中的最后一个三维数据(纬度、经度、时间点)与在该日志文件后创建的日志文件中的第一个三维数据之间的时间差在预定的时间内的情况下,数据连接/划分单元71连接这些文件内的移动历史数据。此外,例如,在隧道或者地下室中GPS传感器无法捕获卫星,并且因此,移动历史数据的获取间隔可能较长。在移动历史数据具有长时间段的间断的情况下,难以估计用户在哪。因此,对于获取的移动历史数据,在该数据之前和之后的获取时间间隔等于或者大于预定的时间间隔(在下文中,称为缺失阈值时间)的情况下,数据连接/划分单元71划分其间隔之前和之后的移动历史数据。这里提到的缺失阈值时间例如为五分钟、十分钟、一小时
坐寸ο异常数据移除单元72进行移除移动历史数据中明显异常数据的处理。例如,在一定时间点时在某位置处的数据跳跃至距离该位置之前或之后位置IOOm或者更多的情况下,在该位置的数据为异常。因此,在一定时间点时在某位置处的数据与该位置之前和之后位置二者偏离了等于或者大于预定的距离的量的情况下,异常数据移除单元72从移动历史数据中移除其三维数据。重采样处理单元73以适于随后阶段的处理单元(如学习主处理器23等)的一定的时间间隔对移动历史数据进行重采样。注意的是,在获取的时间间隔与期望的时间间隔一致的情况下,该处理可以省略。

此外,在获取的时间间隔等于或者大于缺失阈值时间的情况下,移动历史数据被数据连接/划分单元71划分,但是保留比缺失阈值时间短的数据的间断。因此,重采样数据处理单元73通过线性插值以重采样之后的时间间隔来生成(嵌入)比缺失阈值时间短的缺失数据。例如,如果说紧接在数据缺失之前的时间点T1的三维数据为Xraaln,并且当数据获取被恢复时在第一时间点T2的三维数据为XMalT2,则可以按照下列表达式(I)计算出在从时间点T1到时间点T2缺失的数据中的在时间点t时的三维数据xvirtualt。[公式.1]
权利要求
1.一种数据处理设备,包括: 学习装置,被配置成在要被获取作为用于学习的数据的用户的移动历史数据被表示为表示所述用户的活动的概率模型的情况下获取概率模型的参数; 目的地和路线点估计装置,被配置成估计在使用通过所述学习装置获取的所述参数的所述概率模型的状态节点中的与移动目的地和路线点等效的目的地节点和路线点节点; 预测数据生成装置,被配置成:获取在从现在起的预定时间段内的与所述用于学习的数据不同的所述用户的移动历史数据作为用于预测的数据;以及在所获取的所述用于预测的数据中包括有数据缺失部分的情况下,通过插值处理来生成所述用于预测的数据中的所述数据缺失部分,并且计算与通过所述插值处理所生成的插值数据对应的实际数据的虚拟误差; 当前点估计装置,被配置成:将其所述数据缺失部分已被插值的所述用于预测的数据输入给使用通过学习获取的所述参数的所述概率模型;以及在与其所述数据缺失部分已被插值的所述用于预测的数据对应的状态节点序列的估计中,使用针对所述插值数据的所述虚拟误差,将与实际数据相比数据的贡献更小的观测概率作为所述状态节点的观测概率,来估计与所述用户的当前位置等效的当前点节点; 搜索装置,被配置成使用与所估计的所述目的地节点和所述路线点节点以及所述当前点节点有关的信息、以及通过学习获取的所述概率模型来搜索从用户的当前位置到目的地的路线;以及 计算装置,被配置成计算所搜索的目的地的到达概率和所需的时间。
2.根据权利要求1所述的数据处理设备,还包括: 已知/未知确定装置,被配置成确定通过所述当前点估计装置获取的所述当前点节点是已知状态的节点还是未知状态的节点; 其中,在所述当前点节点被确定为已知状态的节点的情况下,所述搜索装置搜索从用户的当前位置到目的地的路线。
3.根据权利要求2所述的数据处理设备,其中,所述已知/未知确定装置基于要根据所述状态节点的观测概率计算的每一个状态节点的观测似然期望值并且使用给其添加了修正项的所述观测似然期望值来进行已知/未知确定,其中,所述修正项对所述数据缺失部分进行修正以便获取比实际数据更大的值。
4.根据权利要求1所述的数据处理设备,其中,所述预测数据生成装置对不包括当前点的过去的数据缺失部分进行线性插值,并且通过保持插值对包括当前点的数据缺失部分进行插值处理。
5.根据权利要求4所述的数据处理设备,其中,所述预测数据生成装置针对通过所述线性插值受到插值处理的移动历史数据计算插值数据与在紧接在数据缺失之前的移动历史数据的距离或插值数据与在数据恢复之后紧接的移动历史数据的距离中较小的距离作为所述虚拟误差,并且针对通过所述保持插值受到插值处理的移动数据使用根据数据缺失后的经过时间的预定的函数来计算所述虚拟误差。
6.根据权利要求1所述的数据处理设备,其中,所述学习装置包括: 学习数据生成装置,被配置成:在一次获取所述概率模型的参数后作为用于学习的新数据的移动历史数据被提供并且在所述用于学习的新数据中存在有数据缺失部分的情况下,通过插值处理来生成所述用于学习的新数据的所述数据缺失部分并且生成包括所述插值数据的所述用于学习的新数据; 已知/未知确定装置,被配置成确定包括所述插值数据的所述用于学习的新数据是已知路线的移动历史数据还是未知路线的移动历史数据;以及 参数更新装置,被配置成不对现有模型的参数的状态节点的概率分布参数进行更新,所述现有模型是针对通过所述已知/未知确定装置被确定为所述已知路线的移动历史数据的插值数据已获取的概率模型。
7.一种数据处理方法,包括以下步骤: 利用数据处理设备的被配置成对用户的移动历史数据进行处理的学习装置,在要被获取作为用于学习的数据的用户的移动历史数据被表示为表示所述用户的活动的概率模型的情况下获取概率模型的参数; 利用所述数据处理设备的目的地和路线点估计装置,估计在使用通过所述学习装置获取的所述参数的所述概率模型的状态节点中的与移动目的地和路线点等效的目的地节点和路线点节点; 利用所述数据处理设备的预测数据生成装置,获取在从现在起的预定时间段内的与所述用于学习的数据不同的所述用户的移动历史数据作为用于预测的数据;以及在所获取的所述用于预测的数据中包括有数据缺失部分的情况下,通过插值处理来生成所述用于预测的数据中的所述数据缺失部分,并且计算与通过所述插值处理所生成的插值数据对应的实际数据的虚拟误差; 利用所述数据处理设备的当前点估计装置,将其所述数据缺失部分已被插值的所述用于预测的数据输入给使用通过学习获取的所述参数的所述概率模型;以及在与其所述数据缺失部分已被插值的所述用于预测的数据对应的状态节点序列的估计中,使用针对所述插值数据的所述虚拟误差,将与实际数据相比数据的贡献更小的观测概率作为所述状态节点的观测概率,来估计与所述用户的当前位置等效的当前点节点; 利用所述数据处理设备的搜索装置,使用与所估计的所述目的地节点和所述路线点节点以及所述当前点节点有关的信息、以及通过学习获取的所述概率模型来搜索从用户的当前位置到目的地的路线;以及 利用所述数据处理设备的计算装置,计算所搜索的目的地的到达概率和所需的时间。
8.一种程序,使计算机用作为: 学习装置,被配置成在要被获取作为用于学习的数据的用户的移动历史数据被表示为表示所述用户的活动的概率模型的情况下获取概率模型的参数; 目的地和路线点估计装置,被配置成估计在使用通过所述学习装置获取的所述参数的所述概率模型的状态节点中的与移动目的地和路线点等效的目的地节点和路线点节点;预测数据生成装置,被配置成:获取在从现在起的预定时间段内的与所述用于学习的数据不同的所述用户的移动历史数据作为用于预测的数据;以及在所获取的所述用于预测的数据中包括有数据缺失部分的情况下,通过插值处理来生成所述用于预测的数据中的所述数据缺失部分,并且计算与通过所述插值处理所生成的插值数据对应的实际数据的虚拟误差; 当前点估计装置,被配置成:将其所述数据缺失部分已被插值的所述用于预测的数据输入给使用通过学习获取的所述参数的所述概率模型;以及在与其所述数据缺失部分已被插值的所述用于预测的数据对应的状态节点序列的估计中,使用针对所述插值数据的所述虚拟误差,将与实际数据相比数据的贡献更小的观测概率作为所述状态节点的观测概率,来估计与所述用户的当前位置等效的当前点节点; 搜索装置,被配置成使用与所估计的所述目的地节点和所述路线点节点以及所述当前点节点有关的信息、以及通过学习获取的所述概率模型来搜索从所述用户的当前位置到目的地的路线;以及 计算装置,被配置成计算所搜索的目的地的到达概率和所需的时间。
全文摘要
本发明涉及一种即使当实时获取的当前位置数据存在有缺失数据时也能够进行预测的数据处理设备、数据处理方法以及程序。学习主处理单元(23)将作为用于学习的数据的移动历史数据表示为表示用户的活动的概率模型,并且导出该概率模型的参数。预测主处理单元(33)使用通过学习获取的概率模型根据实时获取的移动历史数据来估计用户的当前位置。如果实时获取的移动历史数据中缺失了一部分数据,那么预测主处理单元(33)通过插值处理来生成缺失的数据部分,并且估计与经插值的预测数据对应的状态节点序列。在对状态节点序列进行估计时,针对插值数据,使用与实际数据相比数据的贡献更小的观测概率。本发明可应用于根据移动历史数据来预测目的地的数据处理设备。
文档编号G06N5/04GK103201754SQ20118005442
公开日2013年7月10日 申请日期2011年11月7日 优先权日2010年11月18日
发明者井手直纪, 伊藤真人, 佐部浩太郎 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1