用于自动做出决策的方法与流程

文档序号:14958694发布日期:2018-07-18 00:05阅读:1099来源:国知局

本发明涉及一种根据权利要求1所述的用于对在情景上下文(situativerkontext)中实施动作自动做出决策的方法。此外,本发明涉及一种根据权利要求11所述的受程序控制的机器,用于执行根据本发明的方法。根据本发明的方法可以使用在自主系统、诸如具有一个或多个动作的机器人中,以便对在给定的时间点应由机器人实施所述动作中的哪些动作进行决策。根据本发明的方法适合于对实施动作进行决策,动作的实施需求不仅取决于瞬时测量值而且取决于测量值的时间过程。



技术实现要素:

出发点是,情景上下文通过至少一个测量变量m来限定,所述测量变量可以通过至少一个传感器来检测。在此,所述传感器提供测量变量特定的测量值m(tk),所述测量值在时间过程中在限定的时间点t0、...、tm可用。

通过人工神经网络,可以在当前的时间点ta基于直到时间点ta的测量值m(tk)(k=a,a-1,...,a-m)导出第一函数v1(ta)或回报值。函数v1(ta)反映对在时间点ta实施动作的瞬时需求。

此外,第二函数v2(ta)或基本回报值可以被分配给在时间点ta的动作,该第二函数v2(ta)或基本回报值通过第一算法根据第一函数v1(ta)和时间上在前的v2(ta-1)的值来计算。函数v2(ta)反映对在时间点ta实施动作的累积的需求。

这两个函数v1(ta)和v2(ta)也可以通过手动地引导受程序控制的机器或受程序控制的机器的一部分、尤其教学工具来创建和改进。由此,可以实现系统的自动序列生成和连续的改进。

对在时间点ta实施动作的决策通过第二算法作出,该第二算法实现第三函数f(ta,m(ta),v1(ta),p1,p2)->{0,1},所述第三函数在时间点ta将在时间点ta的测量值与第一参数p1比较并且将在时间点ta的第二函数v2(ta)的值与第二参数p2比较。在此,p1是动作和测量变量特定的参数或极限测量值,所述动作和测量变量特定的参数或极限测量值根据测量变量是上阈值或下阈值,并且p2是动作特定的参数或极限回报值。

根据本发明的方法的主要优点因此在于,不仅从瞬时测量值与极限测量值的比较而且从累积的基本回报值导出对实施动作的决策,其中必须超过或低于所述极限测量值,以便得到对实施动作的决策,所述累积的基本回报值由瞬时回报值聚合而成。在此,瞬时回报值也可以具有负值,使得累积的基本回报值在时间过程中不仅可以升高而且可以下降。如果累积的基本回报值升高超过基本回报值,那么也作出对实施动作的决策。

此外,通过手动地引导受程序控制的机器或受程序控制的机器的一部分、尤其教学工具生成的值也可以被用于计算函数v1(ta)和v2(ta)。由此可以实现系统的自动序列生成和连续的改进,即可以通过手动干预(反馈回路)使序列生成能够学习,使得例如在将来也可以避免过去的失败。

根据本发明的方法用于受程序控制的机器对在情景上下文中实施至少一个动作a自动做出决策。受程序控制的机器在此包括:

•至少一个传感器,用于检测至少一个测量变量m,所述传感器在限定的时间点t0、...、tm提供所述测量变量m的测量值m(tk)(k=0,...,m);

•至少一个人工神经网络(knn),所述人工神经网络在当前时间点ta基于所述测量值m(tk)(k=a,a-1,...,a-m)导出第一函数v1(ta);

•第一算法(algo1),所述第一算法在时间点ta根据第一函数v1(ta)和时间上在前的v2(ta-1)的值计算第二函数v2(ta);

•第二算法(algo2),所述第二算法实现第三函数f(ta,m(ta),v2(ta),p1,p2)->{0,1},所述第三函数在时间点ta将在时间点ta的测量值m(ta)与第一参数p1比较并且将第二函数v2(ta)与第二参数p2比较;

其中该方法在每个时间点ta(a>0)包括如下步骤:

•通过传感器检测测量值m(ta),

•通过人工神经网络(knn)基于测量值m(tk)(k=a,a-1,...,a-m)导出第一函数v1(ta),

•通过第一算法(algo1)根据第一函数v1(ta)和第二函数的时间上在前的值v2(ta-1)计算第二函数v2(ta),

通过第二算法(algo2)根据第三函数f对实施动作a进行决策,

•当第三函数f提供值1时实施动作a,

•当第三函数f提供值1时使第二函数v2(ta)复位。

在本发明的一种有利的实施方式中,第一算法(algo1)将在时间点ta的第二函数v2(ta)的值计算为在时间点ta的第一函数v1(ta)的值与在在前的时间点ta-1的v2(ta-1)的值的和:v2(ta):=v1(ta)+v2(ta-1)。但是,当然也可能的是,第一算法(algo1)将在时间点ta的第二函数v2(ta)的值计算为在时间点ta的第一函数v1(ta)的值与在在前的时间点ta-1的v2(ta-1)的值的积或差。

也可能的是,第一参数p1和/或第二参数p2是时间相关的和/或与其他变量、尤其位置相关。

在一种特别有利的实施方式中,通过多个传感器检测多个测量变量m,其中对实施唯一的动作a进行决策。也可能的是,通过一个传感器或多个传感器检测唯一的测量变量m,并且对实施多个动作a进行决策。当然也可设想的是,通过多个传感器检测多个测量变量m,并且对实施多个动作a进行决策。

有利地,第一参数p1是上阈值或下阈值。

最后,受程序控制的机器是固定安装的机器或移动式机器、尤其机器人,借助所述受程序控制的机器执行根据本发明的方法。

本发明也涉及一种受程序控制的机器,用于执行根据权利要求1至10中之一所述的方法,其中受程序控制的机器包括:

•至少一个传感器,用于检测至少一个测量变量m,所述传感器在限定的时间点t0、...、tm提供所述测量变量m的测量值m(tk)(k=0,...,m);

•至少一个人工神经网络(knn),所述人工神经网络在当前时间点ta基于所述测量值m(tk)(k=a,a-1,...,a-m)导出第一函数v1(ta);

•第一算法(algo1),所述第一算法在时间点ta根据第一函数v1(ta)和时间上在前的v2(ta-1)的值计算第二函数v2(ta);

•第二算法(algo2),所述第二算法实现第三函数f(ta,m(ta),v2(ta),p1,p2)->{0,1},所述第三函数在时间点ta将在时间点ta的测量值m(ta)与第一参数p1比较并且将第二函数v2(ta)与第二参数p2比较,并且当第三函数f提供值1时,在时间点ta实施动作a。

附图说明

根据本发明的方法现在借助实施例和根据图1的图表更详细地予以描述。

具体实施方式

在该实施例中,借助于该方法根据唯一的测量变量m对实施唯一的动作a进行决策。当然,根据本发明的方法也可以被用于根据唯一的测量变量m和/或多个测量变量m对实施唯一的动作a或多个动作a进行决策。

根据本发明的方法例如将可以被使用在用于花园的自动灌溉系统中,该自动灌溉系统是在本发明意义上的受程序控制的机器。可能的动作a在此将可以是通过喷洒设备对花园进行灌溉。可能的测量变量m将是过去的100小时的降水量。测量变量m将可以通过传感器来检测,所述传感器在限定的时间点t0、...、tm提供相应的测量值m(tk)。

针对动作a花园的灌溉和测量变量m将应规定第一参数p1或极限测量值。同样,针对动作a将必须限定第二参数p2或极限回报值。相应地被训练的人工神经网络(knn)将在每个时间点ta从传感器的测量值m(tk)导出第一函数v1(ta)或回报值。在过去的100小时中具有小的或不足的降水量的时间点,v1(ta)的结果将是正的,相反地在降水量显著的情况下v1(ta)将是负的。通过第一函数v1(ta)表示的回报值因此将反映在时间点ta动作a的瞬时需求。

根据过去的回报值,第一算法(algo1)将可以根据在时间点ta的第一函数v1(ta)的值和时间上在前的v2(ta-1)的值计算在时间点ta的第二函数v2(ta)或基本回报值。通过第二函数v2(ta)表示的基本回报值因此将反映对在时间点ta实施动作的累积的需求。

假如降水量的测量值在时间点ta低于对于灌溉特定的第一参数p1(极限测量值)或当对于灌溉特定的第二函数v2(ta)(基本回报值)超过限定的第二参数p2(极限回报值)时,第二算法(algo2)将在时间点ta决定灌溉。该决策将通过第三函数f(ta,m(ta),v2(ta),p1,p2)->{0,1}实现,其中当第三函数f提供值1时,实施动作a并使第二函数v2(ta)复位。

此外,将可以修改第一算法(algo1),使得第一算法将在时间点ta的第二函数v2(ta)的值计算为在时间点ta的第一函数v1(ta)的值与在在前的时间点ta-1的v2(ta-1)的值的和:v2(ta):=v1(ta)+v2(ta-1)。在此在时间点t0初始值被分派给第二函数v2(t0)。

该方法的另一修改方案将可以在于,第一参数p1和/或第二参数p2分别是时间相关的。

扩展的实施例涉及花园的灌溉系统,该灌溉系统具有多个动作,通过喷洒系统的灌溉、通过滴灌系统的灌溉。在此,除了过去的100小时的降雨量之外,还将可以使用空气温度、空气压力和空气湿度作为另外的测量变量,关于空气温度、空气压力和空气湿度通过相应的传感器在限定的时间点提供测量值。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1