隐马尔可夫模型学习设备和方法、程序、以及记录介质的制作方法

文档序号:6605835阅读:138来源:国知局
专利名称:隐马尔可夫模型学习设备和方法、程序、以及记录介质的制作方法
技术领域
本发明涉及HMM(隐马尔可夫模型)学习设备和方法、程序、以及记录介质,更具体 地,涉及通过其可以在改变的环境下进行自主学习时进行有效且稳定学习的HMM学习设备 和方法、程序、以及记录介质。
背景技术
已经提出了采用HMM(隐马尔可夫模型)作为用于如下处理的方法用于将从用作 对象的系统观测到的传感器信号处理作为时间系列数据,并且将此学习作为具有状态以及 状态转移两者的概率模型。HMM是一种广泛用于音频识别的技术。HMM是由状态转移概率 以及每个状态中的输出概率密度函数定义的状态转移模型,并且对其参数进行估计以最大 化似然值。已经广泛采用Baum-Welch算法作为参数估计方法。HMM是通过其可以经由状态转移概率进行从每个状态向其他状态的转移的模型, 其中,执行建模为状态改变的过程。然而,对于HMM,通常仅以概率方式确定观测到的传感器 信号对应的是哪个状态。因此,广泛采用了维特比(Viterbi)算法作为用于确定状态转移过程的方法以基 于观测到的传感器信号获得最高似然值。从而,可以唯一地确定在每个时间点处与传感 器信号对应的状态。另外,即便在不同情形中从系统观测到同样的传感器信号,也可以根 据在每个时间点之前与之后的传感器信号的瞬时改变过程的差别将其状态转移过程处理 为不同的状态转移过程。虽然并未完全解决感知混淆问题,但是也可以把不同的状态分 配给同样的传感器信号,相应地,较之SOM等(例如,参见Lawrence R. Rabiner (1989年 2 月),"A tutorial on Hidden Markov Models andselected application in speech recognition,,,Proceedings of the IEEE77 (2) :257_286)可以对系统的状态详细进行建 模。

发明内容
顺带提及,对于采用HMM的学习,在状态数量和状态转移数量增加的情况下,难以 正确地估计参数。具体地,Baum-Welch算法并非用于确保可以确定最佳参数的方法,相应 地,在参数数量增加的情形中估计合适的参数非常困难。另外,在用作学习对象的系统未知 的情形中,难以恰当地设置状态转移模型的配置以及参数的初始值,这也成为妨碍参数估 计的原因。HMM有效地用于音频识别的原因是由于如下因素处理对象限于音频信号,且存 在与音频相关的大量观测。另外,对于音频识别,一大因素是作为多年来大量研究的结果, 发现左到右型的配置对于HMM的配置等是有效的。相应地,在采用未知系统作为对象时没 有提供用于确定HMM的配置和初始值的情形中,可以认为,使大规模HMM用作真实模型是相 当困难的问题。顺带提及,诸如以上所述,HMM要处理的问题是使传感器信号结构化,而没有把行为信号考虑在内。如下这种框架体系称为部分可观测马尔可夫决策过程(在下文中,称为 P0MDP)其中,扩展了 HMM,并且行为者使用行为信号促进环境,从而可以在根据它替代的 未来影响传感器信号。该问题的模型学习很困难,迄今为止主要研究的模型学习仅用于通过初步知识为 其提供了骨架的模型内相对较少参数的估计、或者用于使用强化学习框架来驱动学习。另 外,多种模型学习存在关于学习速度、收敛性、或者稳定性的问题,相应地,可以认为实用性 不是很高。另外,HMM的学习方法包括成批学习方法和添加学习方法。此处,对于成批学习方 法,例如,在获得10000个步骤的转移和观测数据的情形中,基于10000个步骤的转移和观 测生成并保存状态转移概率表和观测概率表。另一方面,对于添加学习方法,例如,首先,基 于1000个步骤的转移和观测生成并保存状态转移概率表和现测概率表。然后,重复进行学 习,以使得基于后续1000个步骤的转移和观测改变并保存状态转移概率表和观测概率表 的每个值,从而更新内部模型数据。对于采用根据相关技术的HMM的学习,在通过添加学习方法进行学习时出现问 题。对于采用HMM的学习,常常采用如下这种方法其中,预先准备所有数据,通过成批学习 方法进行学习。但是对于这种学习,从适合于环境的经验中进行学习极其困难。换言之,为 了在各种真实世界中展现更合适的性能,其中反馈真实环境下的操作结果以进行添加学习 的功能是必要的。然而,并未解决在进行添加学习时如何调整“学习到的存储配置”和“新 的经验”的问题。一方面,期望通过迅速反映“新的经验”进行快速适应,但另一方面,存在 目前为止建立的存储配置可能会被破坏的风险。另外,以前,为了进行添加学习,通过单独保存以往学习到的数据、或者通过演练 (rehearse)来自当前存储器的以往学习到的数据等采用新获得数据的组合进行学习。然 而,即使以此方式,也存在如下问题其中,“新的经验”没有反映在单独保存的以往学习到 的数据上或被演练的以往学习到的数据是在“新的经验”的影响下生成的等。因而,对于采 用大规模HMM的学习,难以通过进行添加学习实现用作实用模型。已经发现期望实现在改变的环境下进行自主学习时能够进行有效且稳定的学 习。本发明的一个实施例为一种HMM(隐马尔可夫模型)学习设备,包括学习单元, 被配置为在基于行为者执行了的行为以及由作为所述行为的结果观测到的观测信号形成 的时间系列信息采用HMM进行学习时,学习状态转移概率作为行为者可以执行的行为的函 数;以及存储单元,被配置为将所述学习单元的学习结果存储为包括状态转移概率表和观 测概率表的内部模型数据;其中,所述学习单元计算等于要用于HMM状态转移概率的估计 计算的频率的频率变量和等于要用于HMM观测概率的估计计算的频率的频率变量;其中, 所述存储单元保存与所述状态转移概率表的每一个状态转移概率对应的频率变量和与所 述观测概率表的每一个观测概率对应的频率变量;并且其中,所述学习单元使用所述存储 单元保存的所述频率变量通过添加学习方法进行学习,以及基于所述频率变量估计所述状 态转移概率和所述观测概率。所述行为可以为离散行为;其中,生成与每一个行为相对应的状态转移概率表作 为内部模型数据。
对于所述学习,可以施加约束以使得与在HMM的一个节点处观测到的所述观测信 号相对应的观测符号的数量为一个。所述学习单元可以执行用于找到能够包括两个或更多个观测符号的节点的处理 以实现所述约束并且划分所找到的节点。对于所述学习,可以施加约束以使得在一个节点处执行预定行为的情形中可以向 其进行转移的每一个转移目的节点处观测到的观测符号相互不同。对于所述学习,可以施加约束以使得在由于对一个节点的共同行为而向其进行转 移的每一个转移目的节点处观测到的观测符号相互不同。所述行为可以为连续行为,并且可以进行加权以对应于有限数量的离散行为;其 中,生成与所述有限数量的离散行为中的每一个离散行为对应的状态转移概率表。所述学习单元可以找到在一个节点处执行预定行为的情形中可以向其进行转移 的每一个转移目的节点处具有类似观测概率分布的节点,并且可以合并所找到的节点。所述学习单元可以找到在由于对一个节点的共同行为而从其进行转移的每一个 转移目的节点处具有类似观测分布的节点,并且可以合并所找到的节点。所述学习单元可以通过所述添加学习方法进行学习,并且还可以对所述频率变量 的值进行更新,以及在对所述频率变量进行更新的情形中,可以基于预定学习率对所述频 率变量进行更新。所述学习单元还可以根据所述频率变量的值小来计算代价系数,以约束由于所述 频率变量的值小而对所述状态转移概率的估计值的干扰。在通过所述添加学习方法进行学习之前,在与所述观测信号对应的观测符号的类 型增加的情形中,可以延伸被存储为内部模型数据的所述观测概率表的区域,并且可以把 观测概率设置到所延伸的区域中。在通过所述添加学习方法进行学习之前,在所述节点的数量增加的情形中,可以 延伸被存储为内部模型数据的所述状态转移概率表和所述观测概率表的区域,并且可以将 状态转移概率和观测概率分别设置到所延伸的区域中。基于从以基于以往的学习获得的被存储为所述内部模型数据的所述状态转移概 率表中获得的状态转移概率,可以将状态转移概率设置到所述状态转移概率表的所延伸的 区域中。HMM学习设备还可以包括识别单元,被配置为基于所述时间系列信息识别是否 向未包括在基于以往的学习获得的所述内部模型数据中的未知节点进行了转移;其中,为 了将所述未知节点添加到所述内部模型数据中,将时间系列信息累积仅自识别出所述未知 节点以来的给定时间,基于所累积的时间系列信息确定添加到所述内部模型数据中的未知 节点,并且将所确定的未知节点添加到所述内部模型数据中。在识别出向所述未知节点进行了转移之后,所述识别单元识别出向包括在基于以 往的学习获得的所述内部模型数据中的已知节点进行了转移的情形中,可以将所确定的未 知节点添加到所述内部模型数据中,并且还可以将状态转移概率和观测概率设置到响应于 所述未知节点的添加而延伸的所述状态转移概率表和所述观测概率表的区域中以更新内 部模型数据,并且可以使用所更新的内部模型数据通过添加学习方法进行学习。在通过所述添加学习方法进行学习之前,在行为的数量增加的情形中,可以延伸被存储为所述内部模型数据的所述状态转移概率表的区域,并且可以将状态转移概率设置 到所延伸的区域中。本发明的一个实施例为一种HMM学习方法,包括如下步骤采用学习单元在基于 行为者执行了的行为以及由作为所述行为的结果观测到的观测信号形成的时间系列信息 采用HMM进行学习时,学习状态转移概率作为行为者可以执行的行为的函数;以及采用存 储单元存储所述学习单元的学习结果为包括状态转移概率表和观测概率表的内部模型数 据;所述学习单元计算等于要用于HMM状态转移概率的估计计算的频率的频率变量,以及 等于要用于HMM观测概率的估计计算的频率的频率变量;所述存储单元保存与所述状态转 移概率表的每一个状态转移概率对应的频率变量和与所述观测概率表的每一个观测概率 对应的频率变量;并且所述学习单元使用所述存储单元保存的所述频率变量通过添加学习 方法进行学习,以及基于所述频率变量估计所述状态转移概率和所述观测概率。本发明的一个实施例为一种用于使计算机用作HMM学习设备的程序,包括学习 单元,被配置为在基于行为者执行了的行为以及由作为所述行为的结果观测到的观测信号 形成的时间系列信息采用HMM进行学习时,学习状态转移概率作为行为者可以执行的行为 的函数;以及存储单元,被配置为将所述学习单元的学习结果存储为包括状态转移概率表 和观测概率表的内部模型数据;其中,所述学习单元计算等于要用于HMM状态转移概率的 估计计算的频率的频率变量和等于要用于HMM观测概率的估计计算的频率的频率变量;其 中,所述存储单元保存与所述状态转移概率表的每一个状态转移概率对应的频率变量和与 所述观测概率表的每一个观测概率对应的频率变量;并且其中,所述学习单元使用所述存 储单元保存的所述频率变量通过添加学习方法进行学习,以及基于所述频率变量估计所述 状态转移概率和所述观测概率。对于上述配置,在基于所述行为者执行了的行为以及由作为所述行为的结果观测 到的观测符号形成的时间系列信息采用HMM进行学习时,学习状态转移概率作为行为者可 以执行的行为的函数,并且将所述学习结果存储为包括状态转移概率表和观测概率表的内 部模型数据。另外,计算等于要用于HMM状态转移概率的估计计算的频率的频率变量和等 于要用于HMM观测概率的估计计算的频率的频率变量;保存与所述状态转移概率表的每个 状态转移概率对应的频率变量,以及与观测概率表的每一个观测概率对应的频率变量;频 率变量用于通过添加学习方法进行学习,基于所述频率变量估计所述状态转移概率和所述 观测概率。根据上述配置,在改变的环境下进行自主学习时可以进行有效且稳定的学习。


图1是示出了迷宫的示例的图;图2是示出了形成图1中迷宫的部分的示例的图;图3是用于描述迷宫的配置改变的图;图4是用于描述迷宫的配置改变的图;图5是用于描述迷宫的配置改变的图;图6是用于描述机器人的移动方向的图;图7是用于描述一般HMM(隐马尔可夫模型)的图8是用于描述行为扩展HMM的图;图9是示出了根据本发明的实施例的自主行为学习设备的配置示例的框图;图10是用于描述分裂算法的应用的图;图11是用于描述所述分裂算法的应用的图;图12是用于描述分裂算法应用处理的示例的流程图;图13是用于描述前向合并算法的应用的图;图14是用于描述所述前向合并算法的应用的图;图15是用于描述前向合并算法应用处理的示例的流程图;图16是用于描述后向合并算法的应用的图;图17是用于描述所述后向合并算法的应用的图;图18是用于描述后向合并算法应用处理的示例的流程图;图19是用于比较行为扩展HMM的状态转移概率表和观测概率表的似然性的表;图20是用于描述通过施加一状态一观测约束和行为转移约束而引起的学习结果 的改变的图;图21是用于描述通过施加所述一状态一观测约束和所述行为转移约束而引起的 学习结果的改变的图;图22是用于描述通过施加所述一状态一观测约束和所述行为转移约束而引起的 学习结果的改变的图;图23是用于描述通过施加所述一状态一观测约束和所述行为转移约束而引起的 学习结果的改变的图;图24是用于描述通过施加所述一状态一观测约束和所述行为转移约束而引起的 学习结果的改变的图;图25是用于描述通过施加所述一状态一观测约束和所述行为转移约束而引起的 学习结果的改变的图;图26是用于描述通过施加所述一状态一观测约束和所述行为转移约束而引起的 学习结果的改变的图;图27是用于描述行为扩展HMM学习处理的示例的流程图;图28是用于描述在通过根据相关技术的方法进行添加学习时的问题的图;图29是用于描述根据本发明的实施例的添加学习方法的图;图30是用于描述因观测符号类型增加所致的影响的图;图31是用于描述因节点数量增加所致的影响的图;图32是用于描述因行为数量增加所致的影响的图;图33是用于描述节点识别处理的示例的流程图;图34是用于描述节点识别处理的另一个示例的流程图;图35是用于描述节点识别处理的又一个示例的流程图;图36是用于描述节点识别处理的再一个示例的流程图;图37是用于描述添加未知节点的情形的示例的图;图38是用于描述添加未知节点的情形的另一个示例的图;图39是用于描述在进行链接(anchoring)时进行添加/删除必要性检查的情形的示例的图;图40是用于描述未知节点添加处理的示例的流程图;图41是用于描述添加/删除必要性检查处理的示例的流程图;图42是用于描述在添加未知节点的情形中状态转移概率表的要延伸的区域的 图;图43是用于描述要添加的未知节点的示例的图;图44是用于描述要添加的未知节点及其行为的示例的图;图45是示出了要添加的未知节点和候选节点及其行为的示例的图;图46是用于描述在节点添加时状态转移概率设置处理的示例的流程图;图47是用于描述节点后向行为对列表生成处理的示例的流程图;图48是用于描述后向行为状态转移概率设置处理的示例的流程图;图49是用于描述节点前向行为对列表生成处理的示例的流程图;图50是用于描述前向行为状态转移概率设置处理的示例的流程图;图51是用于描述链接处理的示例的流程图;以及图52是示出了个人计算机的配置示例的框图。
具体实施例方式下面将参照附图对本发明的实施例进行描述。首先,将对行为扩展HMM(隐马尔可 夫模型)进行描述。后面描述的自主行为学习设备应用于例如自己穿过迷宫以识别其自身 的位置、并学习通往其目的地的路径等的机器人。图1是示出了迷宫的示例的图。如该图中所示,通过组合诸如图2中所示的多种 类型的部分来配置该迷宫。如图2中所示,这些部分中的每个部分被配置成具有同样尺寸 的矩形,并且准备了 15种不同的类型。例如,部分5用于配置水平方向上的路径,部分10 用于配置垂直方向上的路径。另外,部分7、11和13各自用于配置T形交叉口,部分15用 于配置十字交叉口。另外,该迷宫被配置为改变其配置。例如,在图3中,通过改变图中虚线圆指示出 的两个部分将迷宫的配置改变成图4中所示的那样。具体地,可以改变迷宫的配置以使得 在图3中无法通过但在图4中能够通过。另外,在图4中,通过改变图中虚线圆指示出的两个部分将迷宫的配置改变成图5 中所示的那样。具体地,可以改变迷宫的配置以使得在图4中能够通过但在图5中无法通 过。机器人自己穿过这种迷宫。对于该示例,迷宫是二维配置的,路径的方向只局限于 水平或垂直方向,相应地,可以设置机器人以便在上方、下方、左方和右方四个方向上移动。图6是用于描述机器人的移动方向的图。图中的垂直方向和水平方向对应于图1, 可以发现图中心所示的机器人在上方、下方、左方和右方中的一个方向上移动。现在,假设将机器人在预定方向上的移动称为行为。例如,对于图6中的示例,存 在与图中四个箭头对应的四个行为。另外,例如,为机器人提供用于搜索对象的传感器,可 以通过分析从传感器输出的信号确定机器人在迷宫上所处部分的类型。具体地,机器人在 迷宫上的每个位置处获得以上参照图2描述的15种部分中的一种所对应的传感器信号。
对于本发明的实施例,例如,基于在机器人自己行进的迷宫上每个位置处的传感 器信号生成与迷宫的配置对应的内部模型数据。现在,假设将迷宫称为“环境”,将与15种 部分中的一种相对应的传感器信号称为“观测符号”。对于本发明的实施例,使用HMM学习 迷宫的配置,并且生成上述内部模型数据。对于采用HMM的学习,基于从环境获得的观测来识别状态。如上所述,例如,环境 为迷宫,并且观测对应于根据与15种部分中的一种相对应的传感器信号确定的观测符号。 注意,将机器人适当地称为行为者。对于采用HMM的学习,行为者基于从环境获得的观测识别自身的状态。此处提到 的状态是行为者主观识别的所谓状态,实际上,在从外部客观地观测行为者被放置的状态 的情形中,二者可能不同。例如,在二维迷宫上客观地观测机器人位置的情况下,其位置为 坐标(xl,yl),而另一方面,机器人自身可能识别出它自身处于坐标(x2,y2)。因而可以认 为,对于HMM,行为者主观识别出的状态用隐状态、内部状态、状态、节点等表示。对于本实施例,将主要针对如下示例进行描述其中,迷宫上的每个位置,即迷宫 上放置的每个部分的位置与HMM的节点(状态、隐状态、内部状态)相关,并且观测符号与 这些节点相关。顺带提及,通常的HMM用于结构化传感器信号,而没有关于行为信号的考虑。对于 HMM没有假定在行为者使用行为信号来执行对于环境的行为从而影响自现在起要观测的观 测符号的情形中的学习。这种问题的解决方案称为部分可观测马尔可夫决策过程(在下文 中,P0MDP)。因此,对于本发明的实施例,将通过对HMM进行扩展来解决上述问题。换言之,对 于本发明的实施例,扩展了 HMM以把行为信号考虑在内。将把这种扩展的HMM称为“行为扩 展 HMM”。图7是用于描述通常HMM的图。如图中所示,HMM通过从某个节点向其他节点可能 进行的转移(状态转移)的数量学习状态转移概率。具体地,将状态转移概率的值设置到 节点数量X节点数量的表的每个矩阵位置中以生成被称为状态转移概率表的二维表。另 外,HMM学习在某个节点处可以观测到每个观测符号的概率。具体地,将观测概率的值设置 到节点数量X观测符号数量的表的每个矩阵位置中以生成被称为观测概率表的二维表。例如,对于图7中的状态转移概率表,图中垂直方向上描述的每个节点代表转移 源节点,图中水平方向上描述的每个节点代表转移目的节点。相应地,例如,状态转移概率 表的η行m列中描述的数值代表可以从索引为η的节点(第η个节点)向索引为m的节点 (第m个节点)进行转移的概率。将状态转移概率表的每行(例如,第η行)中描述的所有 数值的总和布置成1。另外,例如,图7中的观测概率表的η行P列中描述的数值代表在索引为η的节点 (第η个节点)处可以观测到索引为ρ的观测符号(第ρ个观测符号)的概率。将观测概 率表的每行(例如,第η行)中描述的所有数值的总和布置成1。图8是用于描述行为扩展HMM的图。如图中所示,对于行为扩展ΗΜΜ,为每个行为 生成状态转移概率表。例如,作为诸如向上移动等行为的结果,生成可以从某个节点向其他 节点进行转移的概率作为向上移动行为的状态转移概率表。另外,作为诸如向下移动等行 为的结果,生成可以从某个节点向其他节点进行转移的概率作为向下移动行为的状态转移概率表。类似地,生成向左移动行为的状态转移概率表以及向右移动行为的状态转移概率表。例如,在把图8中的状态转移概率表看作多页二维表的情况下,图中垂直方向上 描述的每个节点代表每个行为的转移源节点,图中水平方向上描述的每个节点代表转移目 的节点。相应地,例如,状态转移概率表的第k页的η行m列中描述的数值代表通过执行索 引为k的行为(第k个行为)可以从索引为η的节点向索引为m的节点进行转移的概率。 将状态转移概率表的每行(例如,表第k页的第η行)中描述的所有数值的总和布置成1。因此,对于行为扩展ΗΜΜ,为每个行为生成二维状态转移概率表,相应地,生成所谓 的三维状态转移概率表。注意,对于行为扩展HMM也以与对于通常HMM同样的方式,将观测概率的值设置到 节点数量X观测符号数量的表的每个矩阵位置中以生成二维观测概率表。例如,图8中的观测概率表的η行ρ列中描述的数值代表在索引为η的节点处可 以观测到索引为P的观测符号的概率。将观测概率表的每行(例如,第η行)中描述的所 有数值的总和布置成1。此处,已经针对在基于传感器信号获得15种观测符号的情况下获得离散观测信 号的情形进行了描述。然而,例如,即使在获得连续观测信号以便基于逐渐改变的传感器信 号得到几乎无限的观测符号的情况下,也可以采用行为扩展ΗΜΜ。另外,此处已经针对在行为者执行四种行为之一的情况下执行离散行为组的情形 进行了描述。然而,例如,即使在执行连续行为组以使得行为者逐渐改变移动方向以执行几 乎无限的行为中的一个行为的情况下,也可以采用行为扩展ΗΜΜ。这结束了对行为扩展HMM 的描述。图9是示出了应用了本发明实施例的自主行为学习设备10的配置示例的框图。图 中的自主行为学习设备10被配置成例如在诸如图1中所示的迷宫等上移动的机器人的控 制设备。对于该示例,为自主行为学习设备10提供了传感器单元31、行为输出单元32、观 测缓存器33、学习装置34、识别装置35、行为生成器36、内部模型数据存储单元37、识别结 果缓存器38、以及行为输出缓存器39。传感器单元31输出用于在诸如迷宫等的环境下观测上述观测符号的传感器信号 (或观测信号)。将从传感器31输出的观测信号以与输出该观测信号时的时间点相关联的
方式存储于观测缓存器33中。例如,将与在时间点t、t+1、t+2.....T处获得的观测信号
相对应的观测符号ot、ot+1、ot+2.....οτ分别作为在每个时间点处的观测符号存储于观测缓
存器33中。行为输出单元32是例如用于输出用于使机器人执行机器人要执行的行为(日语 的行为)的控制信号的功能块。从行为输出单元32输出的控制信号被转换成用于确定与 该控制信号对应的行为的信息,并且以与输出该控制信号时的时间点相关的方式存储于行
为输出缓存器39中。例如,在时间点t、t+1、t+2.....T处执行的行为ct、Ct+1、Ct+2.....cT
分别作为在每个时间点处的行为被存储于行为输出缓存器39中。学习单元34基于观测缓存器33和行为输出缓存器39中存储的信息生成或更新 内部模型数据,并且将其存储在内部模型数据存储单元37中。内部模型数据存储单元37中存储的内部模型数据包括上述三维状态转移概率表以及上述二维观测概率表。另外,内部模型数据存储单元37中存储的内部模型数据包括后 面描述的用于计算状态转移概率的频率变量以及用于计算观测概率的频率变量。识别装置35基于观测缓存器33和行为输出缓存器39中存储的信息、以及内部模 型数据存储单元37中存储的状态转移概率表和观测概率表识别机器人现在所处的节点。 把从识别装置35输出的识别结果以与输出该识别结果时的时间点相关的方式存储于识别 结果缓存器38中。行为生成器36基于内部模型数据存储单元37中存储的内部模型数据、行为输出 缓存器39中存储的信息、以及从识别装置35输出的识别结果确定要由机器人执行的行为。 然后,行为生成器36控制行为输出单元32输出与确定的行为相对应的控制信号。从而,自 主行为学习设备10例如允许机器人在迷宫上移动,由此机器人可以自动学习迷宫的配置寸。接下来,将针对图9中学习装置34处的行为扩展HMM的学习算法进行描述。对于 通常HMM,使用状态转移概率表对从节点Si向节点~的状态转移概率进行建模,但是对 于行为扩展HMM,使用行为参数c进行建模为(c)。采用Baum-Welch算法作为学习算法。在可以对前向概率和后向概率进行计算的 情况下,可以进行基于Baum-Welch算法(期望值最大化方法)的参数估计,相应地,下面将 对这些概率的计算进行描述。现在,假设通过属于行为组C = {Cl、C2.....cj的行为Ck从节点Si向节点Sj进
行转移的概率用三维概率表达式表au(k) Eauk表示。注意,在该情形中,将执行离散行为组。首先,将对前向概率的计算进行描述。假设与行为者在时间点1、2.....t-Ι处获
得的传感器信号对应的观测符号分别用0l、O2.....Cv1表示。另外,假设行为者在时间点
1、2.....t-Ι处执行的行为分别用C1、C2.....(V1表示。在此情形中,当与行为者在时间点
t处获得的传感器信号对应的观测符号为Ot时行为者可能处于节点Sj的前向概率α t(j) 可以用表达式(1)的递归公式表示。
权利要求
一种隐马尔可夫模型学习设备,包括学习装置,被配置为在基于行为者执行了的行为以及由作为所述行为的结果观测到的观测信号形成的时间系列信息进行的隐马尔可夫模型的学习中,学习状态转移概率作为所述行为者可以执行的行为的函数;以及存储装置,被配置为存储所述学习装置的学习结果作为包括状态转移概率表和观测概率表的内部模型数据;其中,所述学习装置计算等于要用于隐马尔可夫模型状态转移概率的估计计算的频率的频率变量,以及等于要用于隐马尔可夫模型观测概率的估计计算的频率的频率变量;并且其中,所述存储装置保存与所述状态转移概率表的每一个状态转移概率对应的所述频率变量,以及与所述观测概率表的每一个观测概率对应的所述频率变量;并且其中,所述学习装置使用所述存储装置保存的所述频率变量通过添加学习方法进行学习,以及基于所述频率变量估计所述状态转移概率和所述观测概率。
2.根据权利要求1所述的隐马尔可夫模型学习设备,其中,所述行为是离散行为; 并且其中,生成与每一个所述行为相对应的状态转移概率表作为所述内部模型数据。
3.根据权利要求2所述的隐马尔可夫模型学习设备,其中,对于所述学习,施加约束以 使得与在隐马尔可夫模型的一个节点处观测到的所述观测信号对应的观测符号的数量为 一个。
4.根据权利要求3所述的隐马尔可夫模型学习设备,其中,所述学习装置执行用于找 到能够包括两个或更多个观测符号的节点的处理以实现所述约束,并且划分所找到的节点ο
5.根据权利要求4所述的隐马尔可夫模型学习设备,其中,对于所述学习,施加约束以 使得在一个节点处执行预定行为的情形中可以向其进行转移的每一个转移目的节点处观 测到的观测符号相互不同。
6.根据权利要求4所述的隐马尔可夫模型学习设备,其中,对于所述学习,施加约束以 使得在由于对一个节点的共同行为而向其进行转移的每一个转移目的节点处观测到的观 测符号相互不同。
7.根据权利要求1所述的隐马尔可夫模型学习设备,其中,所述行为是连续行为,并且 进行加权以便对应于有限数量的离散行为;以及其中,生成与所述有限数量的离散行为中的每一个离散行为对应的状态转移概率表。
8.根据权利要求7所述的隐马尔可夫模型学习设备,其中,所述学习装置找到在一个 节点处执行预定行为的情形中可以向其进行转移的每一个转移目的节点处具有类似观测 概率分布的节点,并且合并找到的所述节点。
9.根据权利要求7所述的隐马尔可夫模型学习设备,其中,所述学习装置找到在由于 对一个节点的共同行为而从其进行转移的每一个转移源节点处具有类似观测分布的节点, 并且合并找到的所述节点。
10.根据权利要求1所述的隐马尔可夫模型学习设备,其中,所述学习装置通过所述添加学习方法进行学习,并且还对所述频率变量的值进行更新,以及在对所述频率变量进行 更新的情形中,基于预定学习率对所述频率变量进行更新。
11.根据权利要求1所述的隐马尔可夫模型学习设备,其中,所述学习装置还根据所述 频率变量的值小来计算代价系数,以约束由于所述频率变量的值小而对所述状态转移概率 的估计值的干扰。
12.根据权利要求1所述的隐马尔可夫模型学习设备,其中,在通过所述添加学习方法 进行学习之前,在与所述观测信号对应的观测符号的类型增加的情形中,延伸被存储为所 述内部模型数据的所述观测概率表的区域,并且将观测概率设置到所述延伸的区域中。
13.根据权利要求1所述的隐马尔可夫模型学习设备,其中,在通过所述添加学习方法 进行学习之前,在所述节点的数量增加的情形中,延伸被存储为所述内部模型数据的所述 状态转移概率表和所述观测概率表的区域,并且将状态转移概率和观测概率分别设置到所 述延伸的区域中。
14.根据权利要求13所述的隐马尔可夫模型学习设备,其中,基于从基于以往的学习 获得的被存储为所述内部模型数据的所述状态转移概率表中获得的状态转移概率,将状态 转移概率设置到所述状态转移概率表的所述延伸的区域中。
15.根据权利要求14所述的隐马尔可夫模型学习设备,还包括识别装置,被配置为基于所述时间系列信息识别是否向未包括在基于以往的学习获得 的所述内部模型数据中的未知节点进行了转移;其中,为了将所述未知节点添加到所述内部模型数据中,将时间系列信息累积仅自识 别出所述未知节点以来的给定时间,基于所述累积的时间系列信息确定所述内部模型数据 中添加的未知节点,将所述确定的未知节点添加到所述内部模型数据中。
16.根据权利要求15所述的隐马尔可夫模型学习设备,其中,在识别出向所述未知节 点进行了转移后,所述识别装置识别出向包括在基于以往的学习获得的所述内部模型数据 中的已知节点进行了转移的情况下,将所述确定的未知节点添加到所述内部模型数据中, 并且还将状态转移概率和观测概率设置到响应于所述未知节点的添加而延伸的所述状态 转移概率表和所述观测概率表的区域中以更新所述内部模型数据,并且使用所述更新的内 部模型数据通过所述添加学习方法进行学习。
17.根据权利要求1所述的隐马尔可夫模型学习设备,其中,在通过所述添加学习方法 进行学习之前,在行为的数量增加的情形中,延伸被存储为所述内部模型数据的所述状态 转移概率表的区域,并且将状态转移概率设置到所述延伸的区域中。
18.一种隐马尔可夫模型学习方法,包括如下步骤采用学习装置在基于行为者执行了的行为以及由作为所述行为的结果观测到的观测 信号形成的时间系列信息进行的隐马尔可夫模型的学习中,学习状态转移概率作为所述行 为者可以执行的行为的函数,以及采用存储装置存储所述学习装置的学习结果为包括状态转移概率表和观测概率表的 内部模型数据;所述学习装置计算等于要用于隐马尔可夫模型状态转移概率的估计计算的频率的频率变量,以及等于要用于隐马尔可夫模型观测概率的估计计算的频率的频率变量;所述存储装置保存与所述状态转移概率表的每一个状态转移概率对应的所述频率变量,以及 与所述观测概率表的每一个观测概率对应的所述频率变量;并且 所述学习装置使用所述存储装置保存的所述频率变量通过添加学习方法进行学习,并 且基于所述频率变量估计所述状态转移概率和所述观测概率。
19.一种使计算机用作隐马尔可夫模型学习设备的程序,所述隐马尔可夫模型学习设 备包括学习装置,被配置为在基于行为者执行了的行为以及由作为所述行为的结果观测到的 观测信号形成的时间系列信息进行的隐马尔可夫模型的学习中,学习状态转移概率作为所 述行为者可以执行的行为的函数;以及存储装置,被配置为存储所述学习装置的学习结果作为包括状态转移概率表和观测概 率表的内部模型数据;其中,所述学习装置计算等于要用于隐马尔可夫模型状态转移概率的估计计算的频率的频率变量,以及 等于要用于隐马尔可夫模型观测概率的估计计算的频率的频率变量; 并且其中,所述存储装置保存与所述状态转移概率表的每一个状态转移概率对应的所述频率变量,以及 与所述观测概率表的每一个观测概率对应的所述频率变量;并且其中,所述学习装置使用所述存储装置保存的所述频率变量通过添加学习方法进 行学习,以及基于所述频率变量估计所述状态转移概率和所述观测概率。
20.一种记录介质,其中记录有根据权利要求19所述的程序。
21.一种隐马尔可夫模型学习设备,包括学习单元,被配置在基于行为者执行了的行为以及由作为所述行为的结果观测到的观 测信号形成的时间系列信息进行的隐马尔可夫模型的学习中,学习状态转移概率作为所述 行为者可以执行的行为的函数;以及存储单元,被配置为存储所述学习单元的学习结果作为包括状态转移概率表和观测概 率表的内部模型数据;其中,所述学习单元计算等于要用于隐马尔可夫模型状态转移概率的估计计算的频率的频率变量,以及 等于要用于隐马尔可夫模型观测概率的估计计算的频率的频率变量; 并且其中,所述存储单元保存与所述状态转移概率表的每一个状态转移概率对应的所述频率变量,以及 与所述观测概率表的每一个观测概率对应的所述频率变量;并且其中,所述学习单元使用所述存储单元保存的所述频率变量通过添加学习方法进 行学习,以及基于所述频率变量估计所述状态转移概率和所述观测概率。
22.一种隐马尔可夫模型学习方法,包括以下步骤采用学习单元在基于行为者执行了的行为以及由作为所述行为的结果观测到的观测 信号形成的时间系列信息进行的隐马尔可夫模型的学习中,学习状态转移概率作为所述行 为者可以执行的行为的函数;以及采用存储单元存储所述学习单元的学习结果为包括状态转移概率表和观测概率表的 内部模型数据;所述学习单元计算等于要用于隐马尔可夫模型状态转移概率的估计计算的频率的频率变量,以及 等于要用于隐马尔可夫模型观测概率的估计计算的频率的频率变量; 所述存储单元保存与所述状态转移概率表的每一个状态转移概率对应的所述频率变量,以及 与所述观测概率表的每一个观测概率对应的所述频率变量;并且 所述学习单元使用所述存储单元保存的所述频率变量通过添加学习方法进行学习,并 且基于所述频率变量估计所述状态转移概率和所述观测概率。
23. 一种使计算机用作隐马尔可夫模型学习设备的程序,所述隐马尔可夫模型学习设 备包括学习单元,被配置为在基于行为者执行了的行为以及由作为所述行为的结果观测到的 观测信号形成的时间系列信息进行的隐马尔可夫模型的学习中,学习状态转移概率作为所 述行为者可以执行的行为的函数;以及存储单元,被配置为存储所述学习单元的学习结果为包括状态转移概率表和观测概率 表的内部模型数据;其中,所述学习单元计算等于要用于隐马尔可夫模型状态转移概率的估计计算的频率的频率变量,以及 等于要用于隐马尔可夫模型观测概率的估计计算的频率的频率变量; 并且其中,所述存储单元保存与所述状态转移概率表的每一个状态转移概率对应的所述频率变量,以及 与所述观测概率表的每一个观测概率对应的所述频率变量;并且其中,所述学习单元使用所述存储单元保存的所述频率变量通过添加学习方法进 行学习,以及基于所述频率变量估计所述状态转移概率和所述观测概率。
全文摘要
本发明公开了一种隐马尔可夫模型学习设备和方法,根据本发明的一个实施例的设备包括学习单元,用于在基于行为者执行了的行为以及由观测信号形成的时间系列信息进行的隐马尔可夫模型的学习中,学习状态转移概率作为行为者可执行的行为的函数;以及存储单元,用于存储学习单元的学习结果作为包括状态转移概率表和观测概率表的内部模型数据;其中,学习单元计算用于隐马尔可夫模型状态转移概率和隐马尔可夫模型观测概率的估计计算的频率变量;存储单元保存分别与状态转移概率表的每个状态转移概率和与观测概率表的每个观测概率对应的频率变量;其中,学习单元使用存储单元保存的频率变量进行学习,基于频率变量估计状态转移概率和观测概率。
文档编号G06N7/00GK101950376SQ201010225858
公开日2011年1月19日 申请日期2010年7月2日 优先权日2009年7月9日
发明者佐部浩太郎, 吉池由纪子, 河本献太, 野田邦昭 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1