一种信息处理方法和电子设备的制造方法

文档序号:9826142阅读:203来源:国知局
一种信息处理方法和电子设备的制造方法
【技术领域】
[0001] 本发明涉及计算机技术,尤其涉及一种信息处理方法和电子设备。
【背景技术】
[0002] 在增强学习领域,存在一种被称为人工智能的强化学习的技术,例如Q-Learning 技术,该技术是让电子设备在与环境的不断交互过程中进行学习,从而发现使电子设备从 任意状态出发达到目标状态的最优操作序列。
[0003] 这种技术首先将所要解决的问题形式化为马尔科夫决策问题(Markov Decision Problem,MDP)。MDP问题可以描述为:状态集合S、动作集合A、状态转移模型T。
[0004] 状态集合S中每一个元素都是一个Ν维向量,用来表示一个特定状态,假设电子设 备在时刻t的状态为s t= (X u x2, . . .,xN),Ste s,S也称为状态空间。
[0005] 动作集合A是定义在状态空间上的集合,A(st)表示当处于状态st时电子设备可 执行的所有动作的集合。
[0006] 状态转移模型T是定义在状态空间和动作集合上的,T(st,at)表示在状态s t下执 行了动作at之后后继状态的概率分布。
[0007] 如图1所示,该技术的特点是在已知目标状态的情况下,能够自动找到从任意状 态出发抵达目标状态的最优操作序列。但是,目标状态并不总是提前预知的,当目标状态未 知时,电子设备无法利用上述技术找到从任意状态出发抵达目标状态的最优操作序列。

【发明内容】

[0008] 为解决现有存在的技术问题,本发明实施例提供一种信息处理方法和电子设备。
[0009] 本发明实施例提供的一种信息处理方法,应用于电子设备,所述电子设备设置有 初始化为空集的目标状态集合T,所述方法包括:
[0010] 检测所述电子设备的状态;
[0011] 当检测到所述电子设备的状态从第二状态st+n转移到第三状态s t+n+1,且确定导致 本次状态转移的第二动作at+n不是空操作时,从所述目标状态集合T中去除所述第二状态 st+n,所述空操作是指用户没有对所述电子设备进行操作;
[0012] 当确定导致上次状态转移的第一动作at+n i不是空操作时,从所述第二动作a t+n向 前寻找第一个空操作;
[0013] 当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的 状态时,在所述目标状态集合T中加入所述第三状态s t+n+1;
[0014] 将所述目标状态集合T中的状态确定为目标状态。
[0015] 其中,所述方法还包括:
[0016] 当确定所述第二动作at+n是空操作时,在所述目标状态集合T中加入所述第三状 态st+n+1,并从所述目标状态集合T中去除所述第二状态st+n。
[0017] 其中,所述方法还包括:
[0018] 当确定所述第一动作at+n i是空操作时,在所述目标状态集合T中加入第一状态 St+n 1 〇
[0019] 其中,所述方法还包括:
[0020] 当确定所述第三状态st+n+1不是在寻找到的第一个空操作之后的状态中首次出现 的状态时,保持所述目标状态集合T不变。
[0021] 本发明实施例提供的一种电子设备,所述电子设备设置有初始化为空集的目标状 态集合T,所述电子设备包括:
[0022] 检测单元,用于检测所述电子设备的状态;
[0023] 处理单元,用于当检测到所述电子设备的状态从第二状态st+n转移到第三状态 st+n+1,且确定导致本次状态转移的第二动作at+n不是空操作时,从所述目标状态集合T中去 除所述第二状态s t+n,所述空操作是指用户没有对所述电子设备进行操作;当确定导致上一 次状态转移的第一动作at+n i不是空操作时,从所述第二动作a t+n向前寻找第一个空操作; 当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时,在 所述目标状态集合T中加入所述第三状态s t+n+1;
[0024] 确定单元,用于将所述目标状态集合T中的状态确定为目标状态。
[0025] 其中,所述处理单元,还用于当确定所述第二动作at+n是空操作时,在所述目标状 态集合T中加入所述第三状态s t+n+1,并从所述目标状态集合T中去除所述第二状态st+n。
[0026] 其中,所述处理单元,还用于当确定所述第一动作&_1是空操作时,在所述目标状 态集合T中加入第一状态s t+n ρ
[0027] 其中,所述处理单元,还用于当确定所述第三状态st+n+1不是在寻找到的第一个空 操作之后的状态中首次出现的状态时,保持所述目标状态集合T不变。
[0028] 由上可知,本发明的技术方案包括:检测所述电子设备的状态;当检测到所述电 子设备的状态从第二状态s t+n转移到第三状态s t+n+1,且确定导致本次状态转移的第二动作 at+n不是空操作时,从所述目标状态集合T中去除所述第二状态s t+n,所述空操作是指用户 没有对所述电子设备进行操作;当确定导致上次状态转移的第一动作at+n if是空操作时, 从所述第二动作at+n向前寻找第一个空操作;当确定所述第三状态s t+n+1是在寻找到的第 一个空操作之后的状态中首次出现的状态时,在所述目标状态集合T中加入所述第三状态 st+n+1;将所述目标状态集合T中的状态确定为目标状态。本发明实施例能够让电子设备根 据用户的操作动作确定哪些状态是目标状态,进一步得到电子设备所要达到的目标状态集 合。从而,电子设备可以根据上述目标状态集合利用人工智能的强化学习技术找到从任意 状态出发抵达目标状态的最优操作顺序。
【附图说明】
[0029] 图1为现有技术利用强化学习技术得到最优操作序列的流程图;
[0030] 图2为本发明提供的一种信息处理方法的实施例的流程图;
[0031] 图3为本发明实施例提供的状态变迁的第一种情况的示意图;
[0032] 图4为本发明实施例提供的状态变迁的第二种情况的示意图;
[0033] 图5为本发明实施例提供的状态变迁的第三种情况的示意图;
[0034] 图6为本发明实施例提供的状态变迁的第四种情况的示意图;
[0035] 图7为本发明实施例提供的状态变迁的第五种情况的示意图;
[0036] 图8为本发明实施例提供的状态变迁的第六种情况的示意图;
[0037] 图9为利用本发明实施例提供的信息处理方法实现目标状态集合产生器的示意 图;
[0038] 图10为将本发明实施例提供的信息处理方法应用于软件智能体的示意图;
[0039] 图11为本发明提供的一种电子设备的实施例的结构示意图。
【具体实施方式】
[0040] 本发明提供的一种信息处理方法的实施例,应用于电子设备,所述电子设备设置 有初始化为空集的目标状态集合T,如图2所示,所述方法包括:
[0041] 步骤201、检测所述电子设备的状态;
[0042] 步骤202、当检测到所述电子设备的状态从第二状态st+n转移到第三状态s t+n+1,且 确定导致本次状态转移的第二动作at+n不是空操作时,从所述目标状态集合T中去除所述 第二状态s t+n,所述空操作是指用户没有对所述电子设备进行操作;
[0043] 步骤203、当确定导致上次状态转移的第一动作at+n i不是空操作时,从所述第二 动作at+n向前寻找第一个空操作;
[0044] 步骤204、当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首 次出现的状态时,在所述目标状态集合T中加入所述第三状态s t+n+1;
[0045] 步骤205、将所述目标状态集合T中的状态确定为目标状态。
[0046] 在一实施例中,所述方法还包括:
[0047] 当确定所述第二动作at+n是空操作时,在所述目标状态集合T中加入所述第三状 态s t+n+1,并从所述目标状态集合T中
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1