本发明涉及数据处理,特别涉及一种加钞方法、装置、存储介质及电子设备。
背景技术:
1、在各个银行网点中均设置有自助柜员设备,为银行用户提供存款和取款服务,以满足每日的用户对现钞的需求。银行网点的自助柜员设备加钞运营一直是银行网点运营的一项重要内容,一方面银行希望在网点的自助柜员设备机器内存放足够的现钞来满足顾客对取现的需求,另一方面也希望不会存放过多的现钞在自助柜员设备内,以减少现金使用的成本。
2、目前,通常是由人工每天来清查自助柜员设备的现钞使用情况,进而判断是否需要加钞,然而,采用人工的方式依赖于人工的主观经验,无法准确地做出是否加钞的决策。
技术实现思路
1、本发明所要解决的技术问题是提供一种加钞方法、装置、存储介质及电子设备,能够快速准确地为自助柜员设备加钞。
2、本发明还提供了一种加钞装置,用以保证上述方法在实际中的实现及应用。
3、一种加钞方法,包括:
4、响应于管理指令,确定所述管理指令对应的自助柜员设备;
5、获取所述自助柜员设备当前的状态信息,所述状态信息至少包括位置状态、时间状态、现金余量状态;
6、利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理,获得所述自助柜员设备对应的动作决策信息;
7、在所述动作决策信息指示对所述自助柜员设备加钞的情况下,对所述自助柜员设备进行加钞操作。
8、上述的方法,可选的,所述获取所述自助柜员设备当前的状态信息,包括:
9、确定所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性;
10、对所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性进行编码,获得所述自助柜员设备当前的状态信息。
11、上述的方法,可选的,所述深度学习强化模型包括全局网络和多个工作网络;
12、所述利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理,获得所述自助柜员设备对应的动作决策信息,包括:
13、将所述状态信息输入到所述深度强化学习模型的每个所述工作网络,以获得每个所述工作网络中的策略子网络输出的第一向量,以及每个所述工作网络中的价值子网络输出的第二向量;
14、将各个所述第一向量和各个所述第二向量输入到所述全局网络,获得所述自助柜员设备对应的动作决策信息。
15、上述的方法,可选的,所述获得所述自助柜员设备对应的动作决策信息之后,还包括:
16、利用预先构建的奖励函数对所述动作决策信息进行评分;
17、根据评分信息对深度强化学习模型的参数进行调整。
18、上述的方法,可选的,还包括:
19、在所述动作决策信息指示对所述自助柜员设备不加钞的情况下,输出停止加钞指令。
20、一种加钞装置,包括:
21、确定单元,用于响应于管理指令,确定所述管理指令对应的自助柜员设备;
22、获取单元,用于获取所述自助柜员设备当前的状态信息,所述状态信息至少包括位置状态、时间状态、现金余量状态;
23、第一执行单元,用于利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理,获得所述自助柜员设备对应的动作决策信息;
24、第二执行单元,用于在所述动作决策信息指示对所述自助柜员设备加钞的情况下,对所述自助柜员设备进行加钞操作。
25、上述的装置,可选的,所述获取单元,包括:
26、确定子单元,用于确定所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性;
27、编码子单元,用于对所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性进行编码,获得所述自助柜员设备当前的状态信息。
28、上述的装置,可选的,所述深度学习强化模型包括全局网络和多个工作网络;相应的,所述第一执行单元,包括:
29、第一执行子单元,用于将所述状态信息输入到所述深度强化学习模型的每个所述工作网络,以获得每个所述工作网络中的策略子网络输出的第一向量,以及每个所述工作网络中的价值子网络输出的第二向量;
30、第二执行子单元,用于将各个所述第一向量和各个所述第二向量输入到所述全局网络,获得所述自助柜员设备对应的动作决策信息。
31、一种存储介质,所述存储介质包括存储指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如上述的加钞方法。
32、一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如上述的加钞方法。
33、与现有技术相比,本发明包括以下优点:
34、本发明提供了一种加钞方法、装置、存储介质及电子设备,其中,可以响应于管理指令,确定所述管理指令对应的自助柜员设备;
35、获取所述自助柜员设备当前的状态信息,所述状态信息至少包括位置状态、时间状态、现金余量状态;利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理,获得所述自助柜员设备对应的动作决策信息;在所述动作决策信息指示对所述自助柜员设备加钞的情况下,对所述自助柜员设备进行加钞操作。能够快速准确地对自助柜员设备进行加钞。
1.一种加钞方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取所述自助柜员设备当前的状态信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述深度学习强化模型包括全局网络和多个工作网络;
4.根据权利要求1所述的方法,其特征在于,所述获得所述自助柜员设备对应的动作决策信息之后,还包括:
5.根据权利要求1所述的方法,其特征在于,还包括:
6.一种加钞装置,其特征在于,包括:
7.根据权利要求6所述的装置,其特征在于,所述获取单元,包括:
8.根据权利要求6所述的装置,其特征在于,所述深度学习强化模型包括全局网络和多个工作网络;
9.一种存储介质,其特征在于,所述存储介质包括存储指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~5任意一项所述的加钞方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1~5任意一项所述的加钞方法。