一种基于强化学习的设备更换智能决策系统及方法与流程

文档序号:26141606发布日期:2021-08-03 14:26阅读:62来源:国知局
一种基于强化学习的设备更换智能决策系统及方法与流程

本发明涉及一种基于强化学习的设备更换智能决策系统及方法,属于人工智能技术领域。



背景技术:

现实生活中,人们经常遭遇所用设备突然损坏而非常烦恼,其造成的经济损失不可估量。维护更换决策是指基于状态监测信息及其分析和解释,评估和预知被监测设备的状态,并根据一定的优化目标,如费用、安全、停机时间、可用度等,推荐当前最佳的维护更换策略。现有技术中通常根据设备平均使用寿命和已使用的时间来计算当前为健康状态的设备的剩余工作时间及更换时间,而每类设备制作时虽然采用的部件相同,制作工艺相同,但由于工作环境,操作人员的操作不同,工作寿命是不同的。现有技术中采用平均工作时间计算设备的工作寿命的方法会导致资源浪费。



技术实现要素:

本发明提供一种基于强化学习的设备更换智能决策系统及方法,其根据与其相似的设备全寿命时间确定当前为健康设备的维护更换时机,避免经济浪费。

为实现所述发明目的,本发明提供种一种基于强化学习的设备更换智能决策系统,其特征在于,包括:第一数据输入模块,被配置为获取多个设备全寿命的每一设备的第一时间序列数据,第一数据处理模块,被配置为根据每一设备的第一时间序列数据拟合一条第一曲线,对多条第一曲线等间隔抽样生成第一标时间序列数据;训练模块,被配置为根据多列第一标准时间序列数据对决策模块的神经网格进行训练;第二数据输入模块,被配置为通过传感器获取当前为健康设备的第二时间序列数据;第二数据处理模块,被配置为根据第二时间序列数据拟合第二曲线,对第二曲线等间隔抽样生成第二标时间序列数据;以及决策模块,被配置为根据第二时间序列数据计算当前为健康设备的更换时机。

优选地,决策模块包括:自组织竞争神经网络、判断单元和输出单元,其中,自组织竞争神经网络包括输入层和竞争层,训练阶段时,多列第一标时间序列数据输入到输入层,自组织竞争神经网络学习多列第一标准时间序列数据,使多列第一标准时间序列数据和相应的时间组成竞争层的神经元;决策阶段,将第二时间序列数据提供给输入层,自组织竞争神经网络依次计算第二时间序列数据与竞争层和各神经元的相似度;判断单元根据相似度最大神经元序列表征的设备全寿命曲线判断当前为健康设备的剩余工作时间及退化工作时间。

为实现所述发明目的,本发明还提供一种基于强化学习的设备更换智能决策方法,包括如下步骤:

第一数据获取步骤,获取多个设备全寿命的每一设备的第一时间序列数据;

第一数据处理步骤,被配置为根据每一设备的第一时间序列数据拟合一条第一曲线,对每条第一曲线等间隔抽样生成多列第一标时间序列数据;

训练步骤,根据多列第一标准时间序列数据对决策模块进行训练;

第二数据获取步骤,通过传感器获取当前为健康设备的第二时间序列数据;

第二数据处理步骤,被配置为根据第二时间序列数据拟合第二曲线,对第二曲线等间隔抽样生成第二标时间序列数据,其特征在于,还包括:

决策步骤,利用决策模块根据第二时间序列数据计算当前为健康设备的更换时机。

优选地,决策模块包括:自组织竞争神经网络、判断单元和输出单元,其中,自组织竞争神经网络包括输入层和竞争层,训练阶段时,将多列第一标时间序列数据输入到输入层,自组织竞争神经网络学习多列第一标准时间序列数据,使多列第一标准时间序列数据和相应的时间组成竞争层的神经元;决策阶段,将第二时间序列数据提供给输入层,自组织竞争神经网络依次计算第二时间序列数据与竞争层和各神经元的相似度;判断单元根据相似度最大神经元序列表征的设备全寿命曲线判断当前为健康设备的剩余工作时间及退化工作时间。

与现有技术相比,本发明提供的基于强化学习的设备更换智能决策系统及方法,其根据与其相似的设备全寿命时间确定当前为健康设备的维护更换时机,避免经济浪费。

附图说明

图1是本发明提供的基于强化学习的设备更换智能决策系统的组成框图;

图2是本发明提供的大楼管理系统的硬件组成框图;

图3是本发明提供的园区健康管理系统的硬件组成框图;

图4是本发明提供的决策模块的组成框图;

图5是本发明提供的自组织竞争神经网络模型的组成示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,本文所用的术语仅用于描述特定实施例的目的,而并非旨在限制本发明。除非上下文明确指出,否则如本文中所使用的单数形式“一”、“一个”和“该”等意图也包括复数形式。使用“包括”和/或“包含”等术语时,是意图说明存在该特征、整数、步骤、操作、元素和/或组件,而不排除一个或多列其他特征、整数、步骤、操作、元素、组件、和/或其他组合的存在或增加。术语“和/或”包括一个或多列相关列出项目的任何和所有组合。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

图1是本发明提供的基于强化学习的设备更换智能决策系统的组成框图;如图1所示,智能决策系统至少包括园区健康管理系统200和n个大楼管理系统100,所述n为大于或者等于1的整数。每个大楼管理系统100包括多个子系统健康管理层101和大楼健康管理层102。每个大楼都配置有供电子系统、供水子系统、供暖子系统、供冷子系统、监控子系统、消防子系统,对于每个子系统都布置有多个传感器以测量其健康值,从而形成传感器层300,传感器层包括多个传感器,如传感器301、传感器302和传感器303等,传感器呈树状布置于每个子系统的节点处,且每个传感器都设置有唯一标识id,每个传感器可通过无线信道或有线信道与大楼健康管理层系统100相连,每个子系统的传感器可以组成传感器网络。每个子系统的传感器定时向上一级的传感器发送的测量数据并收到上一级无线传感器的回应信息,上一级的传感器收集其管理的传感器的测量数据后发送给其上一级传感器,依次类推,直到将子系统的所有数据传送给大楼健康管理系统的相应子系统管理层,相应子系统管理层101至少包括数据处理模块1011和决策模块1012,所述数据处理模块1011被配置为用于处理传感器层300提供的数据,而后提供给决策模块1012,所述决策模块1012至少包括由园区健康管理系统200的模型训练模块202通过大数据训练的神经网络模型。每个大楼的健康管理层例如102包括数据库1021、集成模块1022和输入输出接口1023,数据库1021用于存储各种已训练的神经网络模型、由数据处理模块1011对传感器层300量测的数据处理后的数据。集成模块1022集成各子系统层的数据和决策结果并发送给园区总健康管理系统200,大楼健康管理系统具有如图2所示的硬件配置。

园区健康管理系统200通过配置模块400对每个大楼进行设备配置,并包括数据处理模块201、模型训练模块202、性能评估模块203、输入输出接口、数据库204等,数据处理模块201用于接收各大楼系统传送来的各子系统的各设备的测量数据,并对获取的测量数据进行处理,将数据存储于数据库204中,模型训练模块202调用数据库的数据并进行处理,而后对各种模型进行训练,将训练好的模块发送给各大楼的健康管理系统100。性能评估模块203调用数据库中的数据对管理的大楼各子系统的设备进行性能评估。

图2是本发明提供的大楼健康管理系统的硬件组成框图,如图2所示,大楼管理系统的硬件包括处理器10和存储器11,存储器11包括数据库,其用于存储数据、应用程序及已训练的决策模型1012,处理器10调用已训练的决策模型1012,并调用数据库存储的根据传感器测量的设备数据拟合的曲线及初始条件对设备的剩余寿命进行预测,从而确定更换时机。应用程序包括子系统健康管理层和大楼健康管理层,其子系统健康管理层数据处理模块1011和决策模块1012,数据处理模块1011包括数据输入模块和数据处理子模块,数据输入模块被配置为通过传感器获取当前为健康设备的时间序列数据;数据处理子模块,被配置为根据时间序列数据拟合曲线,对曲线等间隔抽样生成标时间序列数据并提供给决策模块1012,决策模块1012被配置为根据时间序列数据计算当前为健康设备的更换时机。

本发明中,大楼健康管理系统100的硬件还包括通信单元13,其被配置为与园区健康管理系统进行通信。大楼健康管理系统的硬件还包括显示器12,其用于显示传感器的测量结果、应用程序和系统程序的界面等,应用程序至少包括数据输入模块,被配置为通过传感器获取当前为健康设备的时间序列数据;数据处理模块,被配置为根据时间序列数据拟合曲线,对曲线等间隔抽样生成标准时间序列数据,以及决策模块,其被配置为根据标准时间序列数据计算当前为健康设备的更换时机。大楼健康管理系统的硬件还包括输入输出接口14,其为用户输入数据的接口,用于接入键盘、鼠标、光驱、u盘等。

图3是本发明提供的园区健康管理系统的硬件组成框图,如图3所示,系统包括通过总线连接的处理器20、存储器21,其中,存储器21包括数据库,其用于存储各大楼管理系统发送来的数据,并存储了供电子系统、供水子系统、供暖子系统、供冷子系统、监控子系统、消防子系统的决策模块。处理器20调用存储器中存储的程序以实施园区健康管理系统的功能,园区健康管理系统包括数据处理模块201和模型训练模块202。数据处理模块201对各大楼系统发送来的数据进行处理并存储于数据库204中,其包括数据输入模块,被配置为获取多个设备全寿命的多列时间序列数据,每列时间序列数据对应一个设备,即同类设备包括不同的全寿命曲线序列。数据处理子模块,被配置为根据多列第一时间序列数据拟合多条第一曲线,对多条第一曲线等间隔抽样生成标时间序列数据;模型训练模块202调用已处理的数据并对各种模型(例如设备更换确定模型)进行训练,优选地,被配置为根据多列标准时间序列数据对决策模块1012中神经网络进行训练,使其学习同类设备的不同全寿命曲线序列数据。园区健康管理系统还包括输入输出接口24,其用于数据输出也用于输入指令等。园区健康管理系统的硬件还包括通信单元23,其用于与各大楼系统、服务部门(如消防部门、供电部门、供水部门等)进行通信,至少将训练好的设备更换确定模型发送给各大楼的健康管理系统。园区健康管理系统的硬件还包括显示器22,模型训练模块、性能评估模块等的执行过程及最终结果均可以显示器22上显示,以便于操作员观察。

本发明中,作为硬件的一个或多个处理器可以为一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、逻辑电路和/或基于操作指令操纵信号的任何设备。处理器被配置成获取并执行存储在存储器中的计算机可读指令。软件系统可以在各种计算系统中实现,诸如膝上型计算机、笔记本、手持设备、工作站、大型计算机、服务器、网络云等。输入输出(i/o)接口可以包括各种软件和硬件接口,例如,其可连接打印机、键盘、u盘、网络、电缆、鼠标等。通信单元被配置为通过无线网(诸如wlan、蜂窝或卫星)与其它设备进行通信。显示器用于与用户进行可视交互。

本发明中,园区健康管理系统200和大楼健康管理系统100均安装有基于强化学习的设备更换智能决策系统应用程序,其组成模块相同,均具图4所示的组成。

图4是本发明提供的决策模块的组成框图,如4所示,决策模块1012包括:自组织竞争神经网络331、判断单元332和输出单元333,其中,自组织竞争神经网络331包括输入层和竞争层,竞争层的神经元组成二维结构,如图5所示,x方向代表时间,y方向代表测量值,输入层的输入节点和竞争层的输出节点用可以变权重uij全连接,其中i=1,2,...,m,m为输入节点数;j=1,2,…,n,n为输出节点数。训练阶段时,多列由数据处理模块处理201标准时间序列数据输入到输入层,竞争层的神经元学习多列标准时间序列数据形成同类设备的不同全寿命曲线序列,如f1和f2。训练阶段的具体过程如下:

s01:初始化步骤:对神经网络进行初始化以初始化权重,确定初始学习值α0和总的学习次数k;

s02:距离计算步骤:计算输入的标准时间序列向量x=[x1,…,xi,…xm]中每一输入节点与输出层每一神经元之间的距离dj:

dj=|xi-fj|=|xi-uij(0)xi|=|xi(1-uij(0))|

式中,uij(0)为初始权重;

s03:神经元选择步骤:将与输入节点xi距离最小的输出层的神经元作与其匹配的初始神经元;

s04:权重调整步骤:通过下式调整神经元所在设备全寿命曲线序列(例如f1)包含的节点(神经元)权值系数:

uij(k)=uij(k-1)+αk(xi-uij(k-1))

式中,uij(k)为当前次k输出的权重,uij(k-1)为前次输出的权重,k=1,2,...k;

s05:判断是否达到学习次数k,若没有重复s02-s04步;若达到,输出最优权值系数uij。

本发明中,决策阶段,将数据处理模块1011处理得到的设备时间序列数据提供给输入层,自组织竞争神经网络依次计算该时间序列数据与竞争层各神经元的相似度。判断单元根据相似度最大神经元序列表征的设备全寿命曲线判断当前为健康设备的剩余工作时间及退化工作时间,例如,当前为健康设备的测量的时间序列数据与曲线序列f1的前段最相似,则判定该设备的全寿命与曲线序列f1表征的设备全寿命相同,根据曲线序列f1判断该设备剩余工作时间ru和性能衰退工作时间ts,其中剩余工作时间ru为寿命工作时间为:

ru=r-t-ts(时)

式中,r为设备的全寿命时间,t为已工作时间;ts为性能衰工作时间ts,其为设备性能出现退化到完全不能工作的时间,也可以为设备性能退化到正常性能时的(0.5-0.7)时到完全不能工作的时间。

根据本发明的一个实施例,还提供一种基于强化学习的设备更换智能决策方法,包括如下步骤:第一数据获取步骤,获取多列设备全寿命的多列第一时间序列数据;第一数据处理步骤,被配置为根据多列第一时间序列数据拟合多条第一曲线,对多条第一曲线等间隔抽样生成多列第一标时间序列数据;训练步骤,根据第一标准时间序列数据对决策模块进行训练;第二数据获取步骤,通过传感器获取当前为健康设备的第二时间序列数据;第二数据处理步骤,被配置为根据第二时间序列数据拟合第二曲线,对第二曲线等间隔抽样生成第二标时间序列数据,以及决策步骤,根据第二时间序列数据计算当前为健康设备的维护时机。

根据本发明一个实施例还提供一种存储介质,其用于存储利用计算机语言将上述的方法编成的可由处理器执行的程序代码,该程序代码用于实现该方法的一个或多列步骤。可读介质可以是任何装置,其可以存储、传送或传输由指令执行系统、装置或设备使用的计算机程序。

本发明通过具有神经网络的决策模块确定每个设备的性能退化时间,能够使设备发挥最大效能,节省了资源。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1