一种信息处理方法和电子设备的制造方法

文档序号：9826142阅读：203来源：国知局

一种信息处理方法和电子设备的制造方法
【技术领域】
[0001] 本发明涉及计算机技术，尤其涉及一种信息处理方法和电子设备。
【背景技术】
[0002] 在增强学习领域，存在一种被称为人工智能的强化学习的技术，例如Q-Learning 技术，该技术是让电子设备在与环境的不断交互过程中进行学习，从而发现使电子设备从任意状态出发达到目标状态的最优操作序列。
[0003] 这种技术首先将所要解决的问题形式化为马尔科夫决策问题（Markov Decision Problem，MDP)。MDP问题可以描述为：状态集合S、动作集合A、状态转移模型T。
[0004] 状态集合S中每一个元素都是一个Ν维向量，用来表示一个特定状态，假设电子设备在时刻t的状态为s t= (X u x2, . . .，xN)，Ste s，S也称为状态空间。
[0005] 动作集合A是定义在状态空间上的集合，A(st)表示当处于状态st时电子设备可执行的所有动作的集合。
[0006] 状态转移模型T是定义在状态空间和动作集合上的，T(st，at)表示在状态s t下执行了动作at之后后继状态的概率分布。
[0007] 如图1所示，该技术的特点是在已知目标状态的情况下，能够自动找到从任意状态出发抵达目标状态的最优操作序列。但是，目标状态并不总是提前预知的，当目标状态未知时，电子设备无法利用上述技术找到从任意状态出发抵达目标状态的最优操作序列。

【发明内容】

[0008] 为解决现有存在的技术问题，本发明实施例提供一种信息处理方法和电子设备。
[0009] 本发明实施例提供的一种信息处理方法，应用于电子设备，所述电子设备设置有初始化为空集的目标状态集合T，所述方法包括：
[0010] 检测所述电子设备的状态；
[0011] 当检测到所述电子设备的状态从第二状态st+n转移到第三状态s t+n+1，且确定导致本次状态转移的第二动作at+n不是空操作时，从所述目标状态集合T中去除所述第二状态 st+n，所述空操作是指用户没有对所述电子设备进行操作；
[0012] 当确定导致上次状态转移的第一动作at+n i不是空操作时，从所述第二动作a t+n向前寻找第一个空操作；
[0013] 当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时，在所述目标状态集合T中加入所述第三状态s t+n+1;
[0014] 将所述目标状态集合T中的状态确定为目标状态。
[0015] 其中，所述方法还包括：
[0016] 当确定所述第二动作at+n是空操作时，在所述目标状态集合T中加入所述第三状态st+n+1，并从所述目标状态集合T中去除所述第二状态st+n。
[0017] 其中，所述方法还包括：
[0018] 当确定所述第一动作at+n i是空操作时，在所述目标状态集合T中加入第一状态 St+n 1 〇
[0019] 其中，所述方法还包括：
[0020] 当确定所述第三状态st+n+1不是在寻找到的第一个空操作之后的状态中首次出现的状态时，保持所述目标状态集合T不变。
[0021] 本发明实施例提供的一种电子设备，所述电子设备设置有初始化为空集的目标状态集合T，所述电子设备包括：
[0022] 检测单元，用于检测所述电子设备的状态；
[0023] 处理单元，用于当检测到所述电子设备的状态从第二状态st+n转移到第三状态 st+n+1，且确定导致本次状态转移的第二动作at+n不是空操作时，从所述目标状态集合T中去除所述第二状态s t+n，所述空操作是指用户没有对所述电子设备进行操作；当确定导致上一次状态转移的第一动作at+n i不是空操作时，从所述第二动作a t+n向前寻找第一个空操作；当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时，在所述目标状态集合T中加入所述第三状态s t+n+1;
[0024] 确定单元，用于将所述目标状态集合T中的状态确定为目标状态。
[0025] 其中，所述处理单元，还用于当确定所述第二动作at+n是空操作时，在所述目标状态集合T中加入所述第三状态s t+n+1，并从所述目标状态集合T中去除所述第二状态st+n。
[0026] 其中，所述处理单元，还用于当确定所述第一动作&_1是空操作时，在所述目标状态集合T中加入第一状态s t+n ρ
[0027] 其中，所述处理单元，还用于当确定所述第三状态st+n+1不是在寻找到的第一个空操作之后的状态中首次出现的状态时，保持所述目标状态集合T不变。
[0028] 由上可知，本发明的技术方案包括：检测所述电子设备的状态；当检测到所述电子设备的状态从第二状态s t+n转移到第三状态s t+n+1，且确定导致本次状态转移的第二动作 at+n不是空操作时，从所述目标状态集合T中去除所述第二状态s t+n，所述空操作是指用户没有对所述电子设备进行操作；当确定导致上次状态转移的第一动作at+n if是空操作时，从所述第二动作at+n向前寻找第一个空操作；当确定所述第三状态s t+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时，在所述目标状态集合T中加入所述第三状态 st+n+1;将所述目标状态集合T中的状态确定为目标状态。本发明实施例能够让电子设备根据用户的操作动作确定哪些状态是目标状态，进一步得到电子设备所要达到的目标状态集合。从而，电子设备可以根据上述目标状态集合利用人工智能的强化学习技术找到从任意状态出发抵达目标状态的最优操作顺序。
【附图说明】
[0029] 图1为现有技术利用强化学习技术得到最优操作序列的流程图；
[0030] 图2为本发明提供的一种信息处理方法的实施例的流程图；
[0031] 图3为本发明实施例提供的状态变迁的第一种情况的示意图；
[0032] 图4为本发明实施例提供的状态变迁的第二种情况的示意图；
[0033] 图5为本发明实施例提供的状态变迁的第三种情况的示意图；
[0034] 图6为本发明实施例提供的状态变迁的第四种情况的示意图；
[0035] 图7为本发明实施例提供的状态变迁的第五种情况的示意图；
[0036] 图8为本发明实施例提供的状态变迁的第六种情况的示意图；
[0037] 图9为利用本发明实施例提供的信息处理方法实现目标状态集合产生器的示意图；
[0038] 图10为将本发明实施例提供的信息处理方法应用于软件智能体的示意图；
[0039] 图11为本发明提供的一种电子设备的实施例的结构示意图。
【具体实施方式】
[0040] 本发明提供的一种信息处理方法的实施例，应用于电子设备，所述电子设备设置有初始化为空集的目标状态集合T，如图2所示，所述方法包括：
[0041] 步骤201、检测所述电子设备的状态；
[0042] 步骤202、当检测到所述电子设备的状态从第二状态st+n转移到第三状态s t+n+1，且确定导致本次状态转移的第二动作at+n不是空操作时，从所述目标状态集合T中去除所述第二状态s t+n，所述空操作是指用户没有对所述电子设备进行操作；
[0043] 步骤203、当确定导致上次状态转移的第一动作at+n i不是空操作时，从所述第二动作at+n向前寻找第一个空操作；
[0044] 步骤204、当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时，在所述目标状态集合T中加入所述第三状态s t+n+1;
[0045] 步骤205、将所述目标状态集合T中的状态确定为目标状态。
[0046] 在一实施例中，所述方法还包括：
[0047] 当确定所述第二动作at+n是空操作时，在所述目标状态集合T中加入所述第三状态s t+n+1，并从所述目标状态集合T中

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张勇;
技术所有人：中国移动通信集团公司;
我是此专利的发明人

上一篇：一种系统间画面切换方法
上一篇：客户终端设备cpe工作方式的切换方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。