一种基于强化学习的宠物自动投食控制系统和方法与流程

文档序号:15550518发布日期:2018-09-28 23:55阅读:2154来源:国知局

本发明涉及一种基于强化学习的宠物自动投食控制系统和方法。



背景技术:

当今社会,越来越多的人在家饲养宠物。很多人常常因为个人原因长时间不在家,例如工作、旅游等等,也没有时间为家里的宠物喂食。于是人们发明了宠物投食器。从简易版本的漏斗式投食装置到现在的携带摄像机主人可以随时交互和远程投食的装置。宠物投食器虽然经历了数代的变化,但是宠物投食器的投食量计算仍然不尽人意。无论是设定量定时投食还是远程调控投食,都面临着许多问题。例如食物浪费以及食物长时间与空气接触后导致的食物不新鲜问题。而不新鲜的食物也无法保障宠物的健康,同样也无法使外出的主人真正的放心。

例如,中国专利201710653317.9公开了宠物投食控制装置,该装置可实现主人远程控制是否投食以及投食量的多少。但该装置由于需要主人经常监测用户终端并自己判断投食多少,这样会耗费主人大量时间。如果主人疏忽没有监测到相关信息,比如,主人比较繁忙,或者用户终端不在网络覆盖区域,则宠物有可能长时间挨饿。并且,主人需要自主来调整投食量,这就带来一定问题,主人经验丰富,则宠物不但能吃饱而且食物浪费少,如果主人经验不足,则宠物很可能挨饿或者大量食物被浪费。

再如,中国专利201610779124.3公开了一种基于物联网控制地宠物投食系统,该系统可实现定时定量自动给宠物投食。但该系统存在的不足在于:定量给宠物投食可能会造成宠物挨饿或喂食过量引起的食物浪费以及变质。还有,该系统仅仅通过一个电磁阀的开闭来控制食物的投放量,在使用时,电磁阀有可能被宠物食物卡死,导致无法完全关闭,这样会使容器内的宠物食物与空气长时间接触,容易引起变质。



技术实现要素:

本发明解决的技术问题是提供一种可利于节约宠物食物的基于强化学习的宠物自动投食控制系统。

本发明解决其技术问题所采用的技术方案是:一种基于强化学习的宠物自动投食控制系统,包括基体,所述基体内设置有用于储存宠物食物的食物腔,基体内还设置有与食物腔连通的倾斜的出料通道,所述出料通道处设置有用于控制出料通道开闭的闸门机构,出料通道的低端外侧设置有接食容器,所述接食容器的底部设置有压力传感器,还包括定时器和控制器,所述定时器、压力传感器和闸门机构分别与控制器连接,

所述控制器通过以下方法获得最优投食策略:

a、建立宠物投食的模型,

b、将宠物投食问题建模为一个马尔科夫决策过程模型,对其中的状态、动作、状态转移函数及立即奖赏函数建模,

c、建立回报值函数模型,

d、利用sarsa强化学习算法求解最优投食策略;

所述控制器根据最优投食策略控制每次的投食量。

进一步的是,所述控制器为移动终端,所述移动终端通过wifi模块分别与定时器、压力传感器和闸门机构连接。

进一步的是,所述闸门机构包括间隔设置的第一闸门和第二闸门,第一闸门高于第二闸门,且第一闸门和第二闸门之间形成缓冲区域,所述第一闸门由第一闸门驱动机构驱动,所述第二闸门由第二闸门驱动机构驱动。

本发明还提供了一种获得最优投食策略的方法,具体为:

a、建立宠物投食的模型,

b、将宠物投食问题建模为一个马尔科夫决策过程模型,对其中的状态、动作、状态转移函数及立即奖赏函数建模,

c、建立回报值函数模型,

d、利用sarsa强化学习算法求解最优投食策略。

本发明还提供了一种基于强化学习的宠物自动投食控制方法,包括基体,所述基体内设置有用于储存宠物食物的食物腔,基体内还设置有与食物腔连通的倾斜的出料通道,所述出料通道处设置有用于控制出料通道开闭的闸门机构,出料通道的低端外侧设置有接食容器,所述接食容器的底部设置有压力传感器,还包括定时器和控制器,所述定时器、压力传感器和闸门机构分别与控制器连接,

首先,所述控制器通过以下方法获得最优投食策略:

a、建立宠物投食的模型,

b、将宠物投食问题建模为一个马尔科夫决策过程模型,对其中的状态、动作、状态转移函数及立即奖赏函数建模,

c、建立回报值函数模型,

d、利用sarsa强化学习算法求解最优投食策略;

然后,所述控制器根据最优投食策略控制每次的投食量。

进一步的是,所述控制器为移动终端,所述移动终端通过wifi模块分别与定时器、压力传感器和闸门机构连接。

进一步的是,所述闸门机构包括间隔设置的第一闸门和第二闸门,第一闸门高于第二闸门,且第一闸门和第二闸门之间形成缓冲区域,所述第一闸门由第一闸门驱动机构驱动,所述第二闸门由第二闸门驱动机构驱动。

本发明的有益效果是:

省去判断宠物是否在投食区域的相关设备,有利于培养宠物定时饮食,有利于宠物肠胃健康,且可有利于节约食物,有利于保证宠物食物新鲜。

可适应各种宠物的饮食习惯。

不需要提供各种宠物的一般投食数据,本发明可自己学习获得。

所求得的最优投食策略相对于现有的投食方式更加准确。

可以根据环境的变化动态修正最优投食策略。

附图说明

图1为控制器、定时器、压力传感器和闸门机构的连接关系示意图;

图2为基体以及接食容器的结构原理图;

图3为基体以及接食容器的立体图;

图4为第一闸门的一种实施方式示意图;

图5为第二闸门的一种实施方式示意图;

图中标记为:第一闸门1,第二闸门2,基体3,食物腔4,缓冲区域5,接食容器6,卡口7,弧形齿条8,控制器9,定时器10,闸门机构11,压力传感器12,出料通道13。

具体实施方式

下面结合附图和具体实施方式对本发明进一步说明。

如图1和图2所示,一种基于强化学习的宠物自动投食控制系统,包括基体3,所述基体3内设置有用于储存宠物食物的食物腔4,基体3内还设置有与食物腔4连通的倾斜的出料通道13,所述出料通道13处设置有用于控制出料通道开闭的闸门机构11,出料通道13的低端外侧设置有接食容器6,所述接食容器6的底部设置有压力传感器12,还包括定时器10和控制器9,所述定时器10、压力传感器12和闸门机构11分别与控制器9连接,

所述控制器9通过以下方法获得最优投食策略:

步骤一:建立宠物投食的模型,具体为:

设定宠物每次的投食量为x,接食容器里剩余量为y。

步骤二:将宠物投食问题建模为一个马尔科夫决策过程模型,并定义其中的状态、动作、状态转移函数以及立即奖赏函数。

1)状态,用s表示。每天在投食前,控制器通过压力传感器测量一次接食容器内宠物食物的重量,这个重量就是接食容器内剩余食物量。每天分n次定时进行投食操作。例如,每天6:00,12:00,17:00进行投食操作,在每次投食操作前10分钟,也就是5:50,11:50,16:50控制器通过压力传感器分别测量获得接食容器内宠物食物的重量。

设v={1,2,3…,m}为所测得的接食容器内剩余食物量的集合。其中m为最大投食量,是一个定值。第i次接食容器内剩余食物量为vi,

最大剩余食物量为其中则状态可以表示为:

s=(v1,v2,…,vm);

2)动作,用a表示。动作可以表示每次的投食量。设第i个时间步投食量为ri,i∈g,若vi=0,则ri+1=1.25ri。则动作可以表示为:

a=(r1,r2,…,rm);

3)状态转移函数,用f表示。为了防止投食影响到采样,投食前一定时间采样,比如投食前10分钟采样,第i次采样的状态为si,则状态转移函数可以表示为:

f:st+1←st;

4)立即奖赏函数,用ρ表示。设最终得到投食量为最佳投食量,接食容器剩余食物离0g越近则奖赏越大,越远则惩罚越大,相应的立即奖赏函数可以表示为:

步骤三:建立回报值函数模型。设r(s,a)表示在状态s下采用动作a的回报值;值函数q(s,a)是关于r(s,a)的期望,则q(s,a)=e[r(s,a)]。

步骤四:利用sarsa强化学习算法求解最优策略。

每测一次剩余食物量记为一次情节,每次状态转移即投食一次记为一个时间步t。重复以下步骤直到s收敛:

采取动作a,观察ρ和s′,通过ε-greedy策略从q根据s′选择动作a′。

q(s,a)←q(s,a)+[ρ+γq(s′,a′)-q(s,a)];

s←s′;

a←a′;

其中γ为折扣因子,是一个0到1的值,根据实际收敛情况而定。

控制器9获得最优投食策略后,可根据该投食策略进行投食。在一定时间内,该宠物的进食习惯是一定的,因此上述最优投食策略在一定时间内稳定有效。当宠物进食习惯改变后,控制器9可根据上述方法重新获得新的最优投食策略,然后根据这个新的策略进行自动投食。通过上述分析可知,本发明不需要预先知道该宠物的饮食习惯,本发明可通过学习分析后获得该宠物的最优投食策略。并随着宠物饮食习惯的改变而动态进行改变。这样就节省了主人监控的时间,不需要时刻监控,也节省了主人的学习时间,不需要主人花很多时间学习宠物的饮食习惯。并且,在一定程度上,也节省了宠物食物,为饲养宠物节约了成本。

为了便于控制和及时获取信息,在上述基础上,所述控制器9为移动终端,例如手机,所述移动终端通过wifi模块分别与定时器10、压力传感器12和闸门机构连接。wifi模块可为wifi232-a2型号。

上述投食量的可控制方法有很多,常见的可通过控制闸门机构11的开启时间来控制投食量。但传统的闸门机构只有一道闸门,这在使用过程中,闸门有可能因为宠物食物的封堵造成不能完全关闭,使得食物腔内的宠物食物与外界空气接触,容易发生变质。为了解决该问题,如图2至图5所示,本发明所述闸门机构11包括间隔设置的第一闸门1和第二闸门2,第一闸门1高于第二闸门2,且第一闸门1和第二闸门2之间形成缓冲区域5,所述第一闸门1由第一闸门驱动机构驱动,所述第二闸门2由第二闸门驱动机构驱动。第一闸门1和第二闸门2的实施方式有多种,比如,第一闸门1为上下伸缩开门,通过齿轮带动门上下移动,主要用来决定投食量。第二闸门2可由机械臂控制,对外开门。第二闸门是为了保证食物腔4内食物的密封性,预防因第一闸门1被宠物食物卡住而漏气,导致食物不新鲜的情况。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1