数据处理设备、数据处理方法以及程序的制作方法

文档序号:6434410阅读:135来源:国知局
专利名称:数据处理设备、数据处理方法以及程序的制作方法
技术领域
本公开涉及一种数据处理设备、数据处理方法以及程序,并且更特别地涉及一种使得可以自主地执行各种行动的主体(自主主体)有效地执行对未知环境的学习的数据处理设备、数据处理方法以及程序。
背景技术
例如,作为可以执行行动的主体(诸如在现实世界中行动的机器人、在虚拟世界行动的虚拟人物等)在未知环境中执行行动的学习方法,存在主体通过其来逐阶段地学习
云力夫1 贝1J白勺^SUfg (Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore ^ 《Reinforcement Learning :A Survey》,Journal of Artificial Intelligence Research 4(1996)237-285)。在强化学习中,计算(估计)主体在基于从外部(环境等)观测到的观测值而识别的状态(当前状态)中为到达作为目标的状态(目标状态)而执行的每个行动U的行动值。当算出用于到达目标状态的行动值时,主体可以通过基于行动值而控制行动,执行用于到达目标状态的行动。

发明内容
主体基于这样的行动值而执行行动控制的时刻在主体到达目标状态、并且基于强化学习而计算出用于到达目标状态的行动值之后。因此,在主体到达目标状态之前,主体必须执行从例如主体可以执行的行动中进行随机选择的行动,由此难以有效地执行对未知环境的学习(强化学习)。换句话说,当在主体进行行动的环境(行动环境)中存在例如主体难以穿过的狭窄通道时,执行随机选择的行动的主体不能穿过狭窄通道,结果,主体难以学习穿过狭窄通道之后的环境。另外,当在可移动到上侧和下侧的行动环境中设置重力时,例如,执行随机选择的行动的主体由于重力的影响,难以移动到行动环境中的上侧,结果,难以学习行动环境的上侧。本公开考虑了以上状况,并且期望能够有效地学习未知环境。根据本公开的实施例,提供了一种数据处理设备或使得计算机用作数据处理设备的程序,该数据处理设备包括状态值计算单元,其基于每个行动的状态转移模型,对于状态转移模型的每个状态,计算将状态转移模型的预定状态设置为基准的状态值,其中状态转移到预定状态附近的状态的概率越高,该状态值的值越大,在状态转移模型中,通过可以行动的主体执行的行动对状态进行转移;行动值计算单元,其基于状态转移模型和将预定状态设置为基准的状态值,对于状态转移模型的每个状态和主体可以执行的每个行动计算行动值,其中转移到具有高的将预定状态设置为基准的状态值的状态的概率越高,该行动值的值越大;目标状态设置单元,其基于行动值,将状态转移模型的状态当中的、行动值的波动(imevermess)大的状态设置为目标状态,该目标状态是通过主体执行的行动要到达的目标;以及行动选择单元,其选择主体的行动以便向目标状态移动。根据本公开的另一实施例,提供了一种数据处理设备的数据处理方法,该方法包括基于每个行动的状态转移模型,对于状态转移模型的每个状态,计算将状态转移模型的预定状态设置为基准的状态值,其中状态转移到预定状态附近的状态的概率越高,该状态值的值越大,在状态转移模型中,通过可以行动的主体执行的行动对状态进行转移;基于状态转移模型和将预定状态设置为基准的状态值,对于状态转移模型的每个状态和主体可以执行的每个行动计算行动值,其中转移到具有高的将预定状态设置为基准的状态值的状态的概率越高,该行动值的值越大;基于行动值,将状态转移模型当中的、行动值的波动大的状态设置为目标状态,该目标状态是通过主体执行的行动要到达的目标;以及选择主体的行动以便向目标状态移动。在以上实施例中,基于每个行动的状态转移模型,对于状态转移模型的每个状态, 计算将状态转移模型的预定状态设置为基准的状态值,其中状态转移到预定状态附近的状态的概率越高,该状态值的值越大,在状态转移模型中,通过可以行动的主体执行的行动对状态进行转移;基于状态转移模型和将预定状态设置为基准的状态值,对于状态转移模型的每个状态和主体可以执行的每个行动计算行动值,其中转移到具有高的将预定状态设置为基准的状态值的状态的概率越高,该行动值的值越大。另外,基于行动值,将状态转移模型当中的、行动值的波动大的状态设置为目标状态,该目标状态是通过主体执行的行动要到达的目标;并且选择主体的行动以便向目标状态移动。此外,数据处理设备可以是独立设备或包括在一个设备中的内部块。另外,可以通过传输介质传送程序,或者通过记录在记录介质上而提供程序。根据本公开的实施例,可以有效地学习主体进行行动的未知环境。


图1是说明应用本公开的数据处理设备的实施例的配置示例的概要的图;图2是示出主体的配置示例的框图;图3是说明主体进行行动的行动环境和主体可以执行的行动的示例的图;图4是说明在行动环境中行动的主体的状态转移模型的示例的图;图5是示出学习单元的配置示例的框图;图6是说明学习处理的流程图;图7是示出行动控制单元的配置示例的框图;图8是说明状态值计算单元的处理的图;图9是示出对于通过区分作为状态的行动区域而获得的每个小区域所获得的行动值的方差的示例的图;图10是示出对于通过区分作为状态的行动区域而获得的每个小区域所获得的存在概率的示例的图;图11是示出将目标状态设置为基准的状态值的示例的图;图12是示出主体趋向目标状态的状态的图13是说明用于学习的行动控制处理的流程图;图14是说明主体在行动环境中的行动的图;图15是说明用于自主行动的行动控制处理的流程图;图16是说明主体在行动环境中的行动的图;图17是说明主体在避免了回避状态的同时,到达行动目标状态的主体的行动的图;图18是说明对象移动任务的图;图19是说明在执行对象移动任务时状态转移模型的图;图20是说明在对象移动任务中,由学习单元执行的学习处理的流程图;图21是说明在对象移动任务中,用于由行动控制单元执行的自主行动的行动控制处理的流程图;图22是说明在对象移动任务中,用于由行动控制单元执行的学习的行动控制处理的流程图;图23是说明在对象移动任务中,用于由行动控制单元执行的学习的行动控制处理的流程图;图M是说明使用温度参数来控制在获得行动值时使用的后验概率的图;图25是说明当采用GMM作为状态转移模型的状态时执行的GMM的学习的图;图沈是示出应用了扩展HMM的主体执行行动的行动环境示例的图;图27A和27B是示出在行动环境中,由主体执行的行动和由主体进行的观察获得的观察值的示例的图;图观是说明应用了扩展HMM的主体中的学习单元的学习处理的流程图;图^A和29B是说明扩展HMM的图;图30是说明使用学习数据集的对扩展HMM的学习的流程图;以及图31是示出应用本公开的计算机的实施例的配置示例的框图。
具体实施例方式[应用本公开的数据处理设备的实施例]图1是说明应用本公开的数据处理设备的实施例的配置示例的概要的图。在图1中,数据处理设备是例如执行自主行动并且通过驱动执行机构在预定环境中行动的主体。换句话说,主体包括传感器,并且传感器从主体进行行动的环境(行动环境)中感测物理量,并且,输出作为与物理量相对应的观测值的传感器信号。此外,主体具有用于每个行动的、通过主体执行的行动而转移状态的状态转移模型,并且,使用来自传感器的观测值(传感器信号)来更新状态转移模型(执行对状态转移模型的学习)。另外,主体包括执行机构。主体基于状态转移模型而选择主体执行的行动,并且将与行动相对应的行动信号提供给执行机构。根据行动信号驱动执行机构,并且因此,主体在行动环境中执行与行动信号相对应的行动。
图2是示出作为图1的数据处理设备的主体的配置示例的框图。主体包括传感器11、学习单元12、模型存储单元13、行动控制单元14以及执行机构15。传感器11从外部(即,行动环境)观测物理量,并且输出与物理量相对应的观测值。由传感器11输出的观测值提供给学习单元12和行动控制单元14。这里,例如,采用主体在行动环境内的位置(的坐标)作为由传感器11输出的观测值。来自传感器11的观测值以及来自行动控制单元14的行动信号被提供给学习单元 12。学习单元12使用来自传感器11的观测值和来自行动控制单元14的行动信号,执行对状态转移模型的学习,该学习更新存储在模型存储单元13中的用于每个行动的状态转移模型。换句话说,学习单元12基于主体从外部观测到的观测值,在状态转移模型的各状态中,识别作为观测到来自传感器11的观测值的状态的当状态。此外,学习单元12根据来自行动控制单元14的行动信号,识别获得了到当前状态的状态转移的主体的行动,并且基于到当前状态的状态转移,更新该行动的状态转移模型。模型存储单元13存储用于主体可以执行的每个行动的状态转移模型。行动控制单元14基于来自传感器11的观测值和存储在模型存储单元13中的状态转移模型,控制主体的行动。换句话说,行动控制单元14基于来自传感器11的观测值和存储在模型存储单元 13中的状态转移模型,在主体可以执行的行动当中,选择接下来要执行的行动(在当前状态中要执行的行动),并且将与行动相对应的行动信号提供给学习单元12和执行机构15。执行机构15是例如驱动主体的脚的电机等、移动主体的对象(程序)等,并且根据来自行动控制单元14的行动信号来驱动。主体通过根据行动信号驱动的执行机构15,执行根据该行动信号的行动。[行动环境和主体的行动]图3是说明主体进行行动的行动环境和主体可以执行的行动的示例的图。在图3中,行动环境是从左向右方向的χ方向和从下向上方向的y方向所界定的预定空间(平面),并且重力作用在向下的方向(y方向的反方向)上。此外,在行动环境中,y = 0的位置是地面,并且此外,在y > 0的若干位置设置有
D ο对于主体,定义了其位置(坐标(x,y))、速度和加速度。主体的位置、速度和加速度都是连续值。另外,作为主体的行动,定义在向右方向(X方向)上将主体的加速度增大预定值 α的行动U1、在向左方向(χ方向的反方向)上将主体的加速度增大预定值α的行动U2、 以及在向上方向(y方向)上将主体的加速度增大预定值α的行动U3。因此,用图3中表示行动Up队、以及U3的离散值表示主体可以执行的行动U。此外,可以仅当主体在向上方向上的速度是零时,执行在向上方向(y方向)上增大主体的加速度的行动U3。
另外,由于重力在行动环境中起作用,因此当主体(的底部)没有接触地面或者平台时,主体朝向下方向的速率(速度)根据重力每单位时间增大预定值V。主体在如上行动环境内行动,但是主体观测到的观测值只是主体的位置,而根本没有给出关于行动环境的知识(即,例如平台、地面、墙的位置、主体是否碰撞平台的信息等)以及要移动到的位置的信息等。[状态转移模型]图4是说明在行动环境中行动的主体的状态转移模型的示例的图。在图4中,采用通过将行动环境划分成小区域而获得的小区域,作为在行动环境中行动的主体的状态转移模型的状态。换句话说,在图4中,通过分别在χ方向和y方向上等间隔划分行动环境而获得的正方形小区域来代表状态,并且以离散价表示状态。主体观测当前位置作为观测值,并且可以从当前位置中识别当前时刻的状态(当前状态)。用于每个行动的状态转移模型Pss, u表示通过执行预定行动U,主体的状态从状态 (第一状态)S到状态(第二状态(与状态S相同或者不同的状态))s'的转移。用于行动U的状态转移模型Pss, u例如由公式(1)表示。[表达式1]P^ = P(S’|S,U)在这里的公式(1)中,P(S' S,U)表示当主体在状态S中执行行动U时状态转移到状态S'的转移概率(概率模型)。此外,可以采用当主体在状态S中执行行动U时转移到状态S'的频率,作为用于行动U的状态转移模型Pss, U。可以通过对通过在状态S中执行行动U而转移到每个状态的频率的总和进行归一化,将通过在状态S中执行行动U而转移到状态S'的频率随机化为通过在状态S中执行行动U而转移到状态S'的转移概率。因此,通过在状态S中执行行动U而转移到状态S'的频率和通过在状态S中执行行动U而转移到状态S'的转移概率可以视为等同的。此外,这里,以该频率执行状态转移模型Pss, u的存储(学习),在使用状态转移模型Pss, U的处理中,取决于需要,该频率被随机化为转移概率,并且使用该转移概率。另外,在下文,表示转移概率的状态转移模型Pss, U也被描述为转移概率Pss, U。[学习单元12的配置示例]图5是示出图2的学习单元12的配置示例的框图。在图5中,学习单元12包括状态识别单元21和模型更新单元22。从传感器11向状态识别单元21提供主体的当前位置(的坐标)作为观测值。状态认识单元21基于来自传感器11的、作为观测值的当前位置的坐标,识别作为观测到坐标的状态的当前状态(这里,在通过划分图4中描述的行动区域获得的小区域当中主体所位于的小区域),并且将结果提供给模型更新单元22。模型更新单元22基于来自行动控制单元14的行动信号,识别使状态转移到来自状态识别单元21的(最新)当前状态的主体的行动U。
然后,模型更新单元22基于到当前状态S'的转移,在存储在模型存储单元13中的用于每个行动的状态转移模型当中对使状态转移到来自状态识别单元21的(最新)当前状态S'的用于主体的行动U的状态转移模型Pss, u进行更新。换句话说,假定紧接在从状态识别单元21提供给模型更新单元22的最新的当前状态S'之前(或者一个时刻之前)的当前状态(在下文中,也被称为先前状态)为状态 S。模型更新单元22基于从状态识别单元21提供的当前状态,识别先前状态S和当前状态S',并且,还基于来自行动控制单元14的行动信号,识别其被执行以产生从先前状态S到当前状态S'的状态转移的主体的行动U。然后,当通过在先前状态S执行行动U而实现到当前状态S'的状态转移时,模型更新单元22通过将由存储在模型存储单元13中的状态转移模型Pss, u表示的频率增加一来更新状态转移模型Pss, u。[学习处理]图6是说明由图5的学习单元12执行的状态转移模型的学习的处理(学习处理) 的流程图。此外,在主体执行行动的同时,一直执行图6的学习处理。在步骤Sll中,模型更新单元22等待来自行动控制单元14的行动信号U的输出以获取(接收)行动信号U,并且识别基于行动信号U而执行的主体的行动U,然后处理进入步骤S12。这里,行动信号U是使主体执行行动U的行动信号。在步骤S12中,状态识别单元21获取在主体执行与先前从行动控制单元14输出的行动信号U相对应的行动U之后、由传感器11观测到的观测值(传感器信号),然后处理进入步骤S13。在步骤S13中,状态识别单元21基于来自传感器11的观测值而识别当前状态 S',并且将结果提供给模型更新单元22,然后处理进入步骤S14。在步骤S14中,模型更新单元22在存储在模型存储单元13中的状态转移模型当中对表示通过在一个时刻前从状态识别单元21提供的先前状态S中执行一个时刻前的行动U而到从状态识别单元21提供的当前状态的状态转移的状态转移模型Pss, u进行更新。换句话说,模型更新单元22通过将由状态转移模型Pss, u表示的频率增加一来更新状态转移模型Pss, U。在更新状态转移模型Pss, u之后,处理从步骤S14返回到步骤S11,并且此后在等到来自行动控制单元14的行动信号的输出以后重复相同处理。[行动控制单元14的配置示例]图7是示出图2的行动控制单元14的配置示例的框图。在图7中,行动控制单元14包括状态识别单元31、状态值计算单元32、行动值计算单元33、目标状态设置单元34以及行动选择单元35。从传感器11向状态识别单元31提供主体的当前位置(的坐标)作为观测值。状态识别单元31以与图5的状态识别单元21相同的方式,基于来自传感器11的、 作为观测值的当前位置的坐标,识别作为观测到坐标的状态的当前状态(这里,在通过划分图4中描述的行动区域获得的小区域当中主体所位于的小区域),并且将结果提供给状态值计算单元32和行动选择单元35。此外,状态识别单元31或图5的状态识别单元21中的任何一个都可以用作状态识别单元。状态值计算单元32基于存储在模型存储单元13中的状态转移模型,对于状态转移模型的每个状态(即,这里通过划分图4中描述的行动区域而获得的每个小区域),计算将预定状态设置为基准的状态值,并且将结果提供给行动值计算单元33,其中状态转移到状态转移模型的预定状态附近的状态的概率越高,该状态值的值越大。具体地,状态值计算单元32对于状态转移模型的每个状态S,计算将作为预定状态的当前状态设置为基准的状态值,并且将结果提供给行动值计算单元33,例如,其中状态S转移到来自状态识别单元31的当前状态附近的状态S'的概率Pss, u越高,该状态值的值越大。行动值计算单元33基于存储在模型存储单元13中的状态转移模型和将来自状态值计算单元32的当前状态设置为基准的状态值V6),对于状态转移模型的每个状态S和主体可以执行的每个行动U,计算行动值Q (S,U),并且将结果提供给目标状态设置单元34,其中状态S和行动U转移到具有高的将当前状态设置为基准的状态值V(S')的状态S'概率越高,行动值Q(S,U)的值越大。目标状态设置单元34基于来自行动值计算单元33的行动值Q (S,U),在状态转移模型的状态当中将行动值Q(S,U)的波动大的状态设置为作为主体要通过执行行动到达的目标的目标状态,并且将目标状态提供给行动选择单元35。行动选择单元35基于存储在模型存储单元13中的状态转移模型和来自目标状态设置单元34的目标状态,从主体可以执行的行动当中,选择主体的行动U以便向目标状态移动,并且输出与行动U相对应的行动信号U(使主体执行行动U的行动信号U)。由行动选择单元35输出的行动信号U提供给学习单元12和执行机构15(图2)。[状态值计算单元32的处理]图8是说明图7的状态值计算单元32的处理的图。状态值计算单元32对于状态转移模型的每个状态S,计算将当前状态设置为基准的状态值V(s),其中状态S转移到来自状态识别单元31的当前状态附近的状态S'的概率 Pss' U越高,该状态值的值越大。换句话说,状态值计算单元32通过将当前状态Seiment的状态值V(S。u ent)设置为 1(1.0)、以预定的(足够的)次数预先重复地计算例如衰减地传播状态值V(Scmrent)的公式O)的递推公式,对于状态转移模型的每个状态S计算将当前状态设置为基准的状态值 V⑶。[表达式2]V(S)一 max Σ S^ [Rs + rv(s,)]这里,在公式⑵中,Σ s,表示对全部状态S'求和,并且max表示在对于各行动U 获得的、在紧接max之后的值当中的最大值。此外,在公式O)中,Y是用于衰减地传播当前状态Scmrait的状态值V(S。umnt)的、0< Y < 1范围内的实数的衰减常数,并且Y预先被确定。另外,在公式O)中,Rs,表示对于(状态转移的转移目的地的)状态S'设置的常数。如果由R。UMt表示当状态S'是当前状态时的常数,并且由R。thCT表示当状态S'是除当前状态之外的状态时的常数Rs,,则常数R。UMt是1,并且常数R。thCT是0。根据公式⑵的递推公式,当转移概率Pss, U高时、当转移目的地的状态值V(S') 高时以及当转移目的地的状态S'是当前状态(Rs, = Rcurrent)时,转移目的地的状态S的状态值增大。换句话说,状态S转移到当前状态附近的状态S'的概率Pss, u越高,将当前状态设置为基准的状态值V( 的值越大。这里,图8示出了将当前状态设置为基准的状态值V(S)的示例。如图4所述,当状态被设置成通过划分行动区域获得的小区域时,越靠近作为当前状态的小区域的小区域,该小区域越容易移动到作为当前状态的小区域(转移概率Pss, U 高),并且因此,在图8中,将当前状态设置为基准的状态值V (S)的值随着状态靠近当前状态而趋于增大。此外,在图8中,状态值计算单元32被设置成计算将当前状态设置为基准的状态值V (S),但是,状态值计算单元32可以计算将不同于当前状态的任意状态(例如,随机选择的状态)设置为基准的状态值V(S)。另外,除非另外指定,否则以V(S)的初始值是0的假设(对于以后要描述的递推公式以相同的方式)计算公式O)的递推公式。[行动值计算单元33和目标状态设置单元34的处理]图9和10是说明图7的行动值计算单元33和目标状态设置单元34的处理的图。行动值计算单元33基于存储在模型存储单元13中的状态转移模型和来自状态值计算单元32的、将当前状态设置为基准的状态值V(S),对于状态转移模型的每个状态S和主体可以执行的每个行动U,计算行动值Q(S,U),其中行动U和状态S转移到状态值V(S') 大的状态S'的概率越高,行动值Q(S,U)的值越大,状态值V(S')将当前状态设置为基准。换句话说,行动值计算单元33通过例如使用转移概率(状态转移模型)Pss, u和将当前状态设置为基准的状态值V (S')来计算公式(3),对于状态转移模型的每个状态S和主体可以执行的每个行动U计算行动值Q(S,U)。[表达式3]
权利要求
1.一种数据处理设备,包括状态值计算单元,其基于每个行动的状态转移模型,对于所述状态转移模型的每个状态,计算将所述状态转移模型的预定状态设置为基准的状态值,其中状态转移到所述预定状态附近的状态的概率越高,所述状态值的值越大,在所述状态转移模型中,通过能够行动的主体执行的行动对状态进行转移;行动值计算单元,其基于所述状态转移模型和将所述预定状态设置为基准的状态值, 对于所述状态转移模型的每个状态和所述主体能够执行的每个行动计算行动值,其中转移到具有高的将所述预定状态设置为基准的状态值的状态的概率越高,所述行动值的值越大;目标状态设置单元,其基于所述行动值,将所述状态转移模型的状态当中的、所述行动值的波动大的状态设置为目标状态,所述目标状态是通过所述主体执行的行动要到达的目标;以及行动选择单元,其选择所述主体的行动以便向所述目标状态移动。
2.根据权利要求1所述的数据处理设备,还包括状态识别单元,其基于所述主体从外部观测到的观测值,在所述状态转移模型的状态当中识别作为观测到所述观测值的状态的当前状态,其中,所述预定状态是所述当前状态;并且其中,所述状态值计算单元计算将所述当前状态设置为基准的状态值,其中状态转移到所述当前状态附近的状态的概率越高,所述状态值的值越大。
3.根据权利要求2所述的数据处理设备,其中,所述行动选择单元基于所述状态转移模型,对于所述状态转移模型的每个状态,计算将所述目标状态设置为基准的状态值,其中状态转移到所述目标状态附近的状态的概率越高,所述状态值的值越大;基于所述状态转移模型和将所述目标状态设置为基准的状态值,对于所述状态转移模型的每个状态和所述主体能够执行的每个行动计算行动值,其中转移到具有高的将所述目标状态设置为基准的状态值的状态的概率越高,所述行动值的值越大;并且基于所述当前状态的行动值,选择所述主体的行动以便向所述目标状态移动。
4.根据权利要求3所述的数据处理设备,还包括模型更新单元,其基于到所述当前状态的状态转移,更新用于所述主体的行动的状态转移模型,在所述状态转移模型中,发生到所述当前状态的状态转移。
5.根据权利要求4所述的数据处理设备,其中,用于预定行动的状态转移模型表示所述主体在第一状态中通过所述预定行动转移到第二状态的频率,并且其中,所述模型更新单元通过增大所述频率来更新所述状态转移模型。
6.根据权利要求5所述的数据处理设备,其中,假定预定空间作为所述主体进行行动的行动环境,主体在所述行动环境中行动, 并且观测所述主体在所述行动环境中的位置作为所述观测值,并且其中,所述状态表示通过将所述行动环境划分成小区域而获得的这样的小区域。
7.根据权利要求6所述的数据处理设备,其中,所述行动选择单元确定所述当前状态是否与所述目标状态一致,并且当所述当前状态与所述目标状态不一致时,基于所述当前状态的行动值而选择所述主体的行动以便向所述目标状态移动。
8.根据权利要求7所述的数据处理设备,其中,当所述当前状态与所述目标状态一致时,所述状态值计算单元基于所述状态转移模型而重新计算将所述当前状态设置为基准的状态值,所述行动值计算单元基于所述状态转移模型和将所述当前状态设置为基准的状态值而重新计算所述行动值,并且所述目标状态设置单元基于所述行动值而重新设置所述目标状态。
9.根据权利要求2所述的数据处理设备,其中,所述目标状态设置单元对于所述状态转移模型的每个状态获得所述行动值的方差,并且在所述行动值的方差等于或高于预定阈值的状态当中,把能够从所述当前状态通过预定次数内的状态转移而到达的状态设置为所述目标状态。
10.根据权利要求3所述的数据处理设备,其中,所述行动选择单元基于所述当前状态的行动值,利用ε -greedy方法或softmax方法,选择所述主体的行动以便向所述目标状态移动。
11.一种数据处理设备的数据处理方法,包括基于每个行动的状态转移模型,对于所述状态转移模型的每个状态,计算将所述状态转移模型的预定状态设置为基准的状态值,其中状态转移到所述预定状态附近的状态的概率越高,所述状态值的值越大,在所述状态转移模型中,通过能够行动的主体执行的行动对状态进行转移;基于所述状态转移模型和将所述预定状态设置为基准的状态值,对于所述状态转移模型的每个状态和所述主体能够执行的每个行动计算行动值,其中转移到具有高的将所述预定状态设置为基准的状态值的状态的概率越高,所述行动值的值越大;基于所述行动值,将所述状态转移模型当中的、所述行动值的波动大的状态设置为目标状态,所述目标状态是通过所述主体执行的行动要到达的目标;以及选择所述主体的行动以便向所述目标状态移动。
12.一种使得计算机起如下作用的程序状态值计算单元,其基于每个行动的状态转移模型,对于所述状态转移模型的每个状态,计算将所述状态转移模型的预定状态设置为基准的状态值,其中状态转移到所述预定状态附近的状态的概率越高,所述状态值的值越大,在所述状态转移模型中,通过能够行动的主体执行的行动对状态进行转移;行动值计算单元,其基于所述状态转移模型和将所述预定状态设置为基准的状态值, 对于所述状态转移模型的每个状态和所述主体能够执行的每个行动计算行动值,其中转移到所述预定状态设置为基准的状态值大的状态的概率越高,所述行动值的值越大;目标状态设置单元,其基于所述行动值,将所述状态转移模型当中的、所述行动值的波动大的状态设置为目标状态,所述目标状态是通过所述主体执行的行动要到达的目标;以及行动选择单元,其选择所述主体的行动以便向所述目标状态移动。
全文摘要
本发明提供了一种数据处理设备、数据处理方法以及程序,其中,该数据处理设备包括状态值计算单元,其对于状态转移模型的每个状态计算状态值,其中状态的转移概率越高,该状态值的值越大;行动值计算单元,其对于状态转移模型的每个状态和主体可以执行的每个行动计算行动值,该行动值的值随着转移概率增大而增大;目标状态设置单元,其在状态转移模型的状态当中将行动值的波动大的状态设置为目标状态,该目标状态是通过主体执行的行动要到达的目标;以及行动选择单元,其选择主体的行动以便向目标状态移动。
文档编号G06F19/00GK102567616SQ20111029422
公开日2012年7月11日 申请日期2011年9月27日 优先权日2010年10月4日
发明者佐部浩太郎, 吉池由纪子, 河本献太, 莲尾高志 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1