信息处理设备、信息处理方法和程序的制作方法

文档序号:6377883阅读:180来源:国知局
专利名称:信息处理设备、信息处理方法和程序的制作方法
技术领域
本公开涉及信息处理设备、信息处理方法和程序。
背景技术
近年来,人们已经关注从难以定量地确定特征的任意的数据集机械地提取特征量的方法。例如,已知有一种方法用于自动地构建这样一种算法,该算法用于输入任意的音乐数据并机械地提取这样的音乐数据所属于的音乐流派(genre)。诸如爵士乐、古典乐和流行乐的音乐流派不是通过乐器的类型或演奏的风格来定量地决定的。出于这一原因,传统上认为当提供任意的音乐数据时,难以机械地提取音乐数据的流派。但是,实际上,决定一首音乐作品的流派的特征被潜在地包含在各种信息的组合中,诸如,包含在音乐数据中的间隔、这些间隔组合的方式、乐器类型的组合、以及旋律线和/或低音线的结构的组合。出于这一原因,在假定自动地构建用于通过机器学习提取这样的特征的算法(或“特征量提取装置”)是可能的情况下,已经对特征量提取装置进行了研究。这样的研究的一个成果是在日本特开公报N0.2009-48266中公开的基于遗传算法的用于特征量提取装置的自动构建方法。“遗传算法”的表述是指一种算法,该算法以与生物进化过程中的方式相同的方式考虑在机器学习的过程中的元素的选择、交叉和突变。通过使用在引用的出版物中公开的用于特征量提取装置的自动构建算法,可以自动地构建从任意音乐数据提取该音乐数据所属于的音乐流派的特征量提取装置。在引用的出版物中公开的用于特征量提取装置的自动构建算法还具有极其广泛的应用性,并且可以构建从不限于音乐数据的任意数据集提取该数据集的特征量的特征量提取装置。出于这一原因,期待在引用的出版物中公开的用于特征量提取装置的自动构建算法可以被应用于诸如音乐数据和/或视频数据的人工数据的特征量分析,以及在自然世界中呈现的各种观测值的特征量分析。

发明内容
通过进一步扩展引用的出版物的技术,本发明人研究是否可以开发一种自动地构建用于使代理智能地行动的算法的技术。在这样的研究期间,本发明人专注于一种技术,该技术自动地构建用于决定从特定状态下代理可以采取的行动中选择的行动的思考过程(thought routine)。本公开涉及这样的技术并致力于提供一种新型的、改进的信息处理设备、信息处理方法和程序,该信息处理设备、信息处理方法和程序能够有效地并自动地构建当选择要被代理采取的行动时输出起决定性的信息的估计器。根据本公开的实施例,提供一种信息处理设备,其包括:报酬估计器生成单元,该报酬估计器生成单元使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值;行动选择单元,该行动选择单元从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且不包含在行动历史数据中的行动;以及行动历史添加单元,该行动历史添加单元使代理根据行动选择单元的选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据。当已经将一组状态数据、行动数据和报酬值添加到行动历史数据时,报酬估计器生成单元用于重新生成报酬估计器。此外,根据本公开的实施例,提供一种信息处理设备,其包括:报酬估计器生成单元,该报酬估计器生成单元使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值;行动选择单元,该行动选择单元从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且其报酬值具有大估计误差的行动;以及行动历史添加单元,该行动历史添加单元使代理根据行动选择单元的选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据。当已经将一组状态数据、行动数据和报酬值添加到行动历史数据时,报酬估计器生成单元用于重新生成报酬估计器。此外,根据本公开的另一个实施例,提供一种信息处理方法,其包括:使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值;从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且不包含在行动历史数据中的行动;以及使代理根据选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据;以及当一组状态数据、行动数据和报酬值已经被添加到行动历史数据时,重新生成报酬估计器。此外,根据本公开的另一个实施例,提供一种信息处理方法,包括:使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值;从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且其报酬值具有大估计误差的行动;使代理根据选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据;以及当一组状态数据、行动数据和报酬值已经被添加到行动历史数据时,重新生成报酬估计器。此外,根据本公开的另一个实施例,提供一种程序,使计算机实现:报酬估计器生成功能,该报酬估计器生成功能使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值;行动选择功能,该行动选择功能从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且不包含在行动历史数据中的行动;以及行动历史添加功能,该行动历史添加功能使代理根据行动选择功能的选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据。当已经将一组状态数据、行动数据和报酬值添加到行动历史数据时,报酬估计器生成功能用于重新生成报酬估计器。此外,根据本公开的另一个实施例,提供一种程序,使计算机实现:报酬估计器生成功能,该报酬估计器生成功能使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值;行动选择功能,该行动选择功能从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且其报酬值具有大估计误差的行动;以及行动历史添加功能,该行动历史添加功能使代理根据行动选择功能的选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据。当已经将一组状态数据、行动数据和报酬值添加到行动历史数据时,报酬估计器生成功能用于重新生成报酬估计器。根据本公开的另一个实施例,提供一种在其上已经记录了上述程序的计算机可读记录介质。根据上述的本公开的实施例,可以有效地、自动地构建当选择要被代理采取的行动时输出决定性的信息的估计器。


图1是用于解释估计器的自动构建方法的说明图;图2是用于解释估计器的自动构建方法的说明图;图3是用于解释估计器的自动构建方法的说明图;图4是用于解释估计器的自动构建方法的说明图;图5是用于解释估计器的自动构建方法的说明图;图6是用于解释估计器的自动构建方法的说明图;图7是用于解释估计器的自动构建方法的说明图;图8是用于解释估计器的自动构建方法的说明图;图9是用于解释估计器的自动构建方法的说明图;图10是用于解释估计器的自动构建方法的说明图;图11是用于解释估计器的自动构建方法的说明图;图12是用于解释估计器的自动构建方法的说明图;图13是用于解释基于在线学习的估计器的自动构建方法的说明图;图14是用于解释对数据集进行综合的方法的说明图;图15是用于解释对数据集进行综合的方法的说明图;图16是用于解释对数据集进行综合的方法的说明图;图17是用于解释对数据集进行综合的方法的说明图;图18是用于解释对数据集进行综合的方法的说明图;图19是用于解释对数据集进行综合的方法的说明图;图20是用于解释对数据集进行综合的方法的说明图21是用于解释对数据集进行综合的方法的说明图;图22是用于解释对数据集进行综合的方法的说明图;图23是用于解释对数据集进行综合的方法的说明图;图24是用于解释对数据集进行综合的方法的说明图;图25是用于解释对数据集进行综合的方法的说明图;图26是用于解释对数据集进行综合的方法的说明图;图27是用于解释对数据集进行综合的方法的说明图;图28是用于解释对数据集进行综合的方法的说明图;图29是用于解释对数据集进行综合的方法的说明图;图30是用于解释对数据集进行综合的方法的说明图;图31是用于解释对数据集进行综合的方法的说明图;图32是用于解释对数据集进行综合的方法的说明图;图33是用于解释对数据集进行综合的方法的说明图;图34是用于解释思考过程的配置的说明图;图35是用于解释思考过程的配置的说明图;图36是用于解释思考过程的配置的说明图;图37是用于解释思考过程的配置的说明图;图38是用于解释构建思考过程的方法的说明图;图39是用于解释信息处理设备10的示例功能配置的说明图;图40是用于解释信息处理设备10的示例功能配置的说明图;图41是用于解释构建报酬估计器的有效方法的说明图;图42是用于解释构建报酬估计器的有效方法的说明图;图43是用于解释使用动作得分估计器的思考过程的配置的说明图;图44是用于解释使用动作得分估计器的思考过程的配置的说明图;图45是用于解释使用预测器估计报酬的方法的说明图;图46是用于解释使用预测器估计报酬的方法的说明图;图47是用于解释使用预测器估计报酬的方法的说明图;图48是用于解释井字游戏(tic-tac-toe)的应用的说明图;图49是用于解释井字游戏的应用的说明图;图50是用于解释井字游戏的应用的说明图;图51是用于解释井字游戏的应用的说明图;图52是用于解释井字游戏的应用的说明图;图53是用于解释井字游戏的应用的说明图;图54是用于解释井字游戏的应用的说明图;图55是用于解释战斗游戏的应用的说明图;图56是用于解释战斗游戏的应用的说明图;图57是用于解释战斗游戏的应用的说明图;图58是用于解释战斗游戏的应用的说明图;图59是用于解释战斗游戏的应用的说明图60是用于解释战斗游戏的应用的说明图;图61是用于解释战斗游戏的应用的说明图;图62是用于解释战斗游戏的应用的说明图;图63是用于解释“五子棋”游戏的应用的说明图;图64是用于解释“五子棋”游戏的应用的说明图;图65是用于解释扑克游戏的应用的说明图;图66是用于解释扑克游戏的应用的说明图;图67是用于解释扑克游戏的应用的说明图;图68是用于解释角色扮演游戏的应用的说明图;图69是用于解释角色扮演游戏的应用的说明图;图70是用于解释角色扮演游戏的应用的说明图;图71是用于解释角色扮演游戏的应用的说明图;图72是用于解释角色扮演游戏的应用的说明图;图73是用于解释角色扮演游戏的应用的说明图;图74是用于解释角色扮演游戏的应用的说明图;图75是用于解释角色扮演游戏的应用的说明图;图76是用于解释角色扮演游戏的应用的说明图;图77是用于解释角色扮演游戏的应用的说明图;图78是用于解释角色扮演游戏的应用的说明图;图79是用于解释角色扮演游戏的应用的说明图;以及图80是用于解释能够实现信息处理设备的功能的示例硬件配置的说明图。
具体实施例方式在下文中,将参照附图详细地描述本公开的优选实施例。请注意,在本说明书和附图中,基本上具有相同的功能和结构的结构元件用相同的附图标记表示,并且省略对这些结构元件的重复解释。解释的顺序将首先简单地描述下面的解释的顺序。首先将描述根据本公开的实施例的基本技术。更具体地说,将首先参考图1到12描述估计器的自动构建方法。其后,将参考图13描述基于在线学习的估计器的自动构建方法。接下来,将参考图14到图16描述对数据集进行综合的方法。其后,将参考图17到图23描述对数据集进行采样的有效方法。接下来,将参考图24到图27描述加权的有效方法。然后,将参考图28描述组合对数据集进行采样和加权的有效方法。其后,将参考图29到图33描述对数据集进行采样和加权的其它方法。然后,将参考图34到图38描述思考过程的配置和构建思考过程的方法。其后,将参考图39到图40描述根据本公开实施例的信息处理设备10的功能配置。接下来,将参考图41到图42描述构建报酬估计器的有效方法。然后,将参考图43和图44描述使用动作得分估计器的思考过程的配置。其后,将参考图45到图47描述使用预测器估计报酬的方法。将参考图48到图54描述将本公开实施例的技术应用到井字游戏的方法。其后,将参考图55到图62描述将本公开实施例的技术应用到战斗游戏的方法。将参考图63到图64描述将本公开实施例的技术应用到“五子棋”游戏的方法。接下来,将参考图65到图67描述将本公开实施例的技术应用到扑克游戏的方法。其后,将参考图68到图79描述将本公开实施例的技术应用到角色扮演游戏的方法。将参考图80描述能够实现根据本公开实施例的信息处理设备10的功能的示例硬件配置。最后,将总结本公开实施例的技术概念,并简单地描述通过这些技术概念获得的操作效果。索引1.基本技术1-1:估计器的自动构建方法1-1-1:估计器的配置1-1-2:构建处理的流程1-2:在线学习1-3:对学习数据进行综合的方法1-3-1:特征量空间中的学习数据的分布和估计器的精度1-3-2:在数据综合期间使用的采样配置1-3-3:在数据综合期间使用的加权配置1-3-4:在数据综合期间使用的采样和加权配置1-4:有效的采样/加权方法1-4-1:采样方法1-4-2:加权方法1-4-3:组合方法1-5:采样处理和加权处理的变型例1-5-1:变型例I (基于距离的处理)1-5-2:变型例2 (基于群集的处理)1-5-3:变型例3 (基于密度估计方法的处理)2:实施例2-1:思考过程的自动构建方法2-1-1:思考过程2-1-2:思考过程的配置2-1-3:构建报酬估计器的方法2-2:信息处理设备10的配置2-3:有效地构建报酬估计器的方法2-4:变型例1.使用动作得分估计器的思考过程2-5:变型例2.使用预测器的报酬的估计2-5-1:构建预测器的方法2-5-2:估计报酬的方法
2-6:变型例3.多个代理的同时学习31:应用3-1:对井字游戏的应用3-2:战斗斗游戏的应用3-3:对“五子棋”游戏的应用3-4:对扑克游戏的应用3-5:对角色扮演游戏的应用4:示例硬件配置5:总结1:基本技术稍后描述的实施例涉及估计器的自动构建方法。此外,这样的实施例涉及一种构架(在下文中的“在线学习”),该构架使得添加在构建估计器中要被使用的学习数据成为可能。出于这一原因,在详细描述根据实施例的技术之前,将描述估计器的自动构建方法和在线学习方法(在下文中的“基本技术”)。请注意,尽管在下面作为一个例子,将对基于遗传算法的估计器的自动构建方法进行解释,但是本公开实施例的应用的技术范畴并不限于此。1-1:估计器的自动构建方法现在将描述估计器的自动构建方法。1-1-1:估计器的配置首先,将参考图1到图3描述估计器的配置。图1是用于解释使用估计器的系统的示例系统配置的说明图。图2是用于解释在估计器的构建中要被使用的学习数据的示例配置的说明图。图3是用于示出估计器的结构和构建方法的概要的说明图。首先,将描述图1。如图1所示,例如,通过信息处理设备10来实现估计器的构建
和估计值的计算。信息处理设备10使用学习数据(X1, ti)........(XN, tN)来构建估计器。
信息处理设备10还使用构建的估计器根据输入数据X来计算估计值y。估计值y被用于识别输入数据X。例如,如果估计值y等于或大于指定阈值Th,那么获得“是”的识别结果;如果估计值I小于指定阈值Th,那么获得“否”的识别结果。现在让我们参考图2来考虑估计器的具体配置。在图2中示出的学习数据的集合被用于构建识别海的图像的图像识别装置。在这种情况中,由信息处理设备10构建的估计器输出表示输入图像的与海的相似性的估计值y。如图2所示,学习数据由成对的数据Xk和目标变量tk (其中,k为I到N)构成。数据Xk是第k个图像数据(image#k)。目标变量tk是这样的变量:当image#k是海的图像时其取“I”的值,当image#k不是海的图像时其取“O”的值。在图2的例子中,image#I是海的图像,image#2是海的图像,......,image#I不
是海的图像。在这种情况中,t1=l、t2=l........tN=0。当该学习数据被输入时,信息处理
设备10根据基于输入的学习数据的机器学习来构建输出表不输入图像的与海的相似性的估计值y的估计器。输入图像的与海的相似性越近,则估计值y越接近“1”,与海的相似性越弱,则估计值y越接近“O”。当新的输入数据X (图像X)被输入时,信息处理设备10将图像X输入到使用学习数据的集合构建的估计器中,以计算表示输入数据X的与海的相似性的估计值y。通过使用估计值y,可以识别图像X是否是海的图像。作为一个例子,如果估计值I >指定阈值Th,那么输入图像X被识别为海的图像。同时,如果估计值y〈指定阈值Th,那么输入图像X被识别为不是海的图像。本实施例涉及自动构建估计器(诸如上述估计器)的技术。请注意,尽管这里描述了要用于构建图像识别装置的估计器,但是根据本实施例的技术也可以被应用于各种估计器的自动构建方法。作为例子,可以使用该技术来构建语言分析仪以及使用该技术来构建分析歌曲的旋律线和/或和弦进行的音乐分析仪。另外,可以使用该技术来构建运动预测装置,该运动预测装置再现自然现象和/或预测自然行为,诸如蝴蝶的运动或云的运动。例如,可以将本技术应用到在日本特开公报N0.2009-48266、2010-159598、2010-159597、2009-277083、2009-277084等的说明书中公开的算法。该技术还可以被应用于诸如AdaBoost的集成学习方法(ensemble learning method)或使用诸如SVM或SVR的内核(kerne I)的学习方法。当应用于诸如AdaBoo s t的集成学习方法时,弱学习机对应于稍后描述的基本函数Φ。当该技术被应用于诸如SVM或SVR的学习方法时,内核对应于稍后描述的基本函数Φ。请注意,“SVM”是“支持向量机(Support Vector Machine)”的简称,“SVR”是“支持向量回归(Support Vector Regression)”的简称,“RVM”是“相关向量机”的简称。现在将参考图3描述估计器的结构。如图3所示,估计器由基本函数列表
(fi>.......φΜ)和估计函数f构成。基本函数列表(φι、......、φΜ)包含M个基本函
数fk,(其中k=l到M)。每一个基本函 数Cpk都是响应于输入数据X的输入而输出特征量Zk的函数。另外,估计函数f是响应于包含M个作为元素的特征量Zk (其中k为I到M)的特
征量向量Z=(Zl,......,zM)的输入而输出估计值y的函数。基本函数Cpk是通过将事先提
供的一个或多个处理函数组合来生成的。作为处理函数,例如,可以使用三角函数、指数函数、四则运算、数字滤波、微分运算、中值滤波、归一化运算、白噪声添加处理和图像处理滤波。作为一个例子,当输入数据X是图像时,可以使用基本函数φ』(Χ}= AddWhitelSoise(Median(Blur(X))),其是
添加白噪声的处理“AddWhiteNoise O ”、中值滤波“Median O ”和模糊处理“Blur O ”的组合。该基本函数连续地执行对输入数据X进行模糊处理、中值滤波处理和附加白噪声的处理。1-1-2:构建处理的流程基本函数fk(其中k为I到M)的配置、基本函数列表的配置和估计函数f的配置是通过基于学习数据的机器学习决定的。现在将更详细地描述通过机器学习构建估计器的处理。整体配置现在,首先将参考图4描述处理的整体流程。图4是用于解释处理的整体流程的说明图。请注意,下面描述的处理由信息处理设备10执行。如图4所示,首先,学习数据被输入到信息处理设备10中(S101)。请注意,一对数据X和目标变量t作为学习数据被输入。当学习数据已经被输入时,信息处理设备10通过组合处理函数生成基本函数(S102)。接下来,信息处理设备10将数据X输入到基本函数以计算特征量向量z(S103)。其后,信息处理设备10执行基本函数的评估和估计函数的生成(S104)。
然后,信息处理设备10确定是否满足特定的结束条件(S105)。如果满足特定的结束条件,那么信息处理设备10前进到步骤S106。同时,如果不满足特定的结束条件,那么信息处理设备10返回到步骤S102,并再次执行步骤S102到S104中的处理。如果处理已经前进到了步骤S106,那么信息处理设备10输出估计函数(S106)。如上所述,在步骤S102到步骤S104中的处理被重复地执行。出于这一原因,在下面描述的处理中,在处理的第τ次迭代中的步骤S102中生成的基本函数被称为第τ代基本函数。基本函数的生成(S102)现在将参考图5到图10更详细地描述在步骤S102中的处理(基本函数的生成)。首先将描述图5。如图5所示,信息处理设备10确定当前的这一代是否是第二代或后面的代(S111)。也就是说,信息处理设备10确定当前即将执行的步骤S102中的处理是否是该处理的第二或后面的迭代。如果该处理是第二代或后面的代,那么信息处理设备10前进到步骤S113。同时,如果该处理不是第二代或后面的代(即,处理是第一代),那么信息处理设备10前进到步骤S112。如果处理已经前进到了步骤S112,那么信息处理设备10随机地生成估计函数(S112)。同时,如果处理已经前进到了步骤S113,那么信息处理设备10进化地生成估计函数(S113)。其后,在完成步骤S112或步骤S113中的处理时,信息处理设备10结束步骤S102中的处理。S112:基本函数的随机生成

接下来,将参考图6和图7更详细地描述步骤S112中的处理。步骤S112中的处理涉及生成第一代基本函数的处理。首先将描述图6。如图6所示,信息处理设备10开始基本函数的与指数m (其中m=0到M-1)有关的处理循环(S121)。接下来,信息处理设备10随机地生成基本函(S122)。接下来,信息处理设备10确定基本函数的指数m是否已经达到M-1,并且如果基本函数的指数m还没有达到M-1,那么信息处理设备10将基本函数的指数m加I并且处理返回到步骤S121 (S124)。同时,如果基本函数的指数m为m=M_l,那么信息处理设备10结束处理循环(S124)。在步骤S124中结束处理循环时,信息处理设备10完成在步骤S112中的处理。步骤S122的细节接下来,将参考图7更详细地描述步骤S122中的处理。当在步骤S122中的处理开始时,如图7所示,信息处理设备10随机地决定基本函数的原型(prototype)(S131)。作为该原型,除了作为例子已经被列出的处理函数以外,还可以使用诸如线性项、高斯内核(Gaussian kernel)或S型内核(sigmoid kernel)的处理函数。接下来,信息处理设备10随机地确定决定的原型的参数来生成基本函数(S132)。S113:基本函数的进化的生成接下来,将参考图8到图10更详细地描述步骤SI 13中的处理。步骤SI 13中的处理涉及生成第τ (其中τ >2)代基本函数的处理。因此,当执行步骤S113时,获得第(τ -1)代的基本函数(其中m=l到M)和基本函数<Pm,T-l的评估值vm,τ_10首先将描述图8。如图8所示,信息处理设备10更新基本函数的数量M (SHl)0也就是说,信息处理设备10决定第τ代基本函数的数量Μτ。接下来,信息处理设备10基于第(τ-l)代基本函数<pnmvl(其中m=l到Μ)的评估值V^1=Iv1,......,νΜ,τ-ι}从第(τ-1)代基本函数中选择e个有用的基本函数并将所选的基本函数设置为第τ代基本函数
权利要求
1.一种信息处理设备,包括: 报酬估计器生成单元,该报酬估计器生成单元使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值; 行动选择单元,该行动选择单元从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且不包含在行动历史数据中的行动;以及 行动历史添加单元,该行动历史添加单元使代理根据行动选择单元的选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据, 其中,当已经将一组状态数据、行动数据和报酬值添加到行动历史数据时,报酬估计器生成单元用于重新生成报酬估计器。
2.根据权利要求1所述的信息处理设备, 其中,行动选择单元优先选择具有使用报酬估计器估计的高报酬值、对于报酬值具有高估计误差并且不包含在行动历史数据中的行动。
3.根据权利要求1所述的信息处理设备, 其中,报酬估计器生成单元包括: 基本函数生成 单元,该基本函数生成单元通过组合多个处理函数来生成多个基本函数; 特征量向量计算单元,该特征量向量计算单元通过将包含在行动历史数据中的状态数据和行动数据输入到所述多个基本函数中来计算特征量向量;以及 估计函数计算单元,该估计函数计算单元根据回归/判别学习来计算估计函数,该估计函数从特征量向量估计包含在行动历史数据中的报酬值, 其中,报酬值估计器包括多个基本函数和估计函数。
4.根据权利要求3所述的信息处理设备, 其中,当一组状态数据、行动数据和报酬值已经被添加到行动历史数据时,特征量向量计算单元用于针对包含在行动历史数据中的所有状态数据和行动数据计算特征量向量,并且 信息处理设备还包括分布调整单元,该分布调整单元对包含在行动历史数据中的各组状态数据、行动数据和报酬值进行采样,从而使得在特征量空间中由特征量向量指示的坐标点的分布接近特定分布。
5.根据权利要求3所述的信息处理设备, 其中,当一组状态数据、行动数据和报酬值已经被添加到行动历史数据时,特征量向量计算单元用于针对包含在行动历史数据中的所有状态数据和行动数据计算特征量向量,并且 信息处理设备还包括分布调整单元,该分布调整单元针对包含在行动历史数据中的各组状态数据、行动数据和报酬值设置权重,从而使得在特征量空间中由特征量向量指示的坐标点的分布接近特定分布。
6.根据权利要求4所述的信息处理设备,其中,分布调整单元针对包含在行动历史数据中的各组状态数据、行动数据和报酬值设置权重,从而使得在采样后剩余的针对各组状态数据、行动数据和报酬值的在特征量空间中由特征量向量指示的坐标点的分布接近特定分布。
7.根据权利要求3所述的信息处理设备, 其中,基本函数生成单元基于遗传算法更新基本函数, 当基本函数已经被更新时,特征量向量计算单元用于将状态数据和行动数据输入到更新的基本函数中,以计算特征量向量,并且 响应于使用更新的基本函数计算的特征量向量的输入,估计函数计算单元计算估计报酬值的估计函数。
8.—种信息处理设备,包括: 报酬估计器生成单元,该报酬估计器生成单元使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值; 行动选择单元,该行动选择单元从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且其报酬值具有大估计误差的行动;以及 行动历史添加单元,该行动历史添加单元使代理根据行动选择单元的选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据, 其中,当已经将一组状态数据、行动数据和报酬值添加到行动历史数据时,报酬估计器生成单元用于重新生成报酬估计器。
9.一种信息处理方法,包括: 使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值; 从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且不包含在行动历史数据中的行动;以及 使代理根据选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据;以及 当一组状态数据、行动数据和报酬值已经被添加到行动历史数据时,重新生成报酬估计器。
10.一种信息处理方法,包括: 使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的 行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值; 从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且其报酬值具有大估计误差的行动;使代理根据选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据;以及 当一组状态数据、行动数据和报酬值已经被添加到行动历史数据时,重新生成报酬估计器。
11.一种程序,使计算机实现: 报酬估计器生成功能,该报酬估计器生成功能使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值; 行动选择功能,该行动选择功能从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且不包含在行动历史数据中的行动;以及 行动历史添加功能,该行动历史添加功能使代理根据行动选择功能的选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据, 其中,当已经将一组状态数据、行动数据和报酬值添加到行动历史数据时,报酬估计器生成功能用于重新生成报酬估计器。
12.—种程序,使计算机实现: 报酬估计器生成功能,该报酬估计器生成功能使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据估计报酬值的报酬估计器,该行动历史数据包含表示代理的状态的状态数据、表示在该状态中由代理采取的行动的行动数据、以及表示作为该行动的结果的由代理获得的报酬的报酬值; 行动选择功能,该行动选择功能从代理能够采取的行动中优先选择具有使用报酬估计器估计的高报酬值并且其报酬值具有大估计误差的行动;以及 行动历史添加功能,该行动历史添加功能使代理根据行动选择功能的选择结果进行行动,并将在行动的过程中获得的状态数据和行动数据与作为行动的结果获得的报酬值彼此相关联地添加到行动历史数据, 其中,当已经将一组状 态数据、行动数据和报酬值添加到行动历史数据时,报酬估计器生成功能用于重新生成报酬估计器。
全文摘要
本公开涉及信息处理设备、信息处理方法和程序。提供一种信息处理设备,其包括报酬估计器生成单元,其使用行动历史数据作为学习数据来通过机器学习生成根据输入的状态数据和行动数据来估计报酬值的报酬估计器,该历史数据包含表示代理的状态的状态数据、表示代理的行动的行动数据,以及表示该行动的报酬的报酬值;行动选择单元,其优选地选择不包含在行动历史数据中但具有高估计报酬值的行动;以及行动历史添加单元,其使代理执行选择的行动,并将针对该行动的状态数据和行动数据与该行动的报酬值相互关联地添加到行动历史数据。当一组状态数据、行动数据和报酬值被添加到该行动历史数据时,重新生成该报酬估计器。
文档编号G06N3/12GK103198358SQ20121036635
公开日2013年7月10日 申请日期2012年9月28日 优先权日2011年10月12日
发明者小林由幸 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1