本技术涉及计算机,尤其涉及一种基于强化学习的舱位控制和超售方法、装置和电子设备。
背景技术:
1、舱位控制和超售对于民用航空运输来说具有十分重要的地位,通过拒接购票请求或者接受购票请求,来达到舱位控制或者超售的目的。对于日常大规模舱位控制和超售,合理高效的舱位控制和超售策略能大量节省包括空座损失和拒载损失等成本。而对于包括自然灾害在内的紧急情况,反应快速灵活的舱位控制和超售在进行迅速止损方面都十分关键。
技术实现思路
1、为克服相关技术中存在的问题,本技术提供一种基于强化学习的舱位控制和超售方法、装置及电子设备。
2、根据本技术实施例的第一方面,提供一种基于强化学习的舱位控制和超售方法,应用于电子设备,所述方法包括:
3、获取航空市场动力学仿真模型,所述航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测所述任一航线对应的第二状态信息和预测收益信息;
4、根据所述航空市场动力学仿真模型和价值函数,确定时空动态图,所述时空动态图包括多个节点、多个连接线以及每个连接线对应的权值,每个连接线由初始节点指向目标节点,所述初始节点是指航线中的出发地,所述目标节点是指航线中的目的地;
5、调用舱位控制策略模型,基于所述时空动态图和目标航线对应的当前销售进度信息,确定对购票请求执行的目标动作,所述目标动作包括接受购票请求和拒绝购票请求中的任一种,所述舱位控制策略模型用于预测针对购票请求执行的动作。
6、在一些实施例中,所述第一状态信息是指当前时刻的销售进度信息以及距离航线起飞的时间信息,所述动作信息是指在所述第一状态信息的基础上针对购票请求执行的第一动作,所述第一动作包括接受购票请求和拒绝购票请求中的任一种,所述第二状态信息是指在针对所述购票请求执行动作后的销售进度信息以及距离航线起飞的时间信息,所述预测收益信息是指针对所述购票请求执行动作后所带来的收益。
7、在一些实施例中,所述航空市场动力学仿真模型包括训练得到的模型参数以及预设超参数,所述预设超参数包括客户到来频率参数、购票概率参数、退票概率参数、拒载成本、非自愿降舱成本、空置成本以及航线总运力中的至少一种。
8、在一些实施例中,所述根据所述航空市场动力学仿真模型和价值函数,确定时空动态图,包括:
9、获取初始航线图,所述初始航线图包括多个节点以及多个连接线;
10、基于时序差分算法,以收益度量作为奖励函数,以风险信息作为惩罚项,确定每个所述节点对应的状态价值函数和动作价值函数,所述状态价值函数用于描述每个所述节点的节点状态的价值,所述节点状态指示对应节点是否有对应的飞行器,所述动作价值函数用于描述对应节点执行第二动作的价值,所述第二动作是指从以对应节点为出发地的至少一个航线中选择航线,所述收益度量是指调用航空市场动力学仿真模型基于所选择的航线对应的第一状态信息和动作信息预测的收益信息;
11、基于所述动作价值函数和所述状态价值函数之间的差值,确定所述初始航线图中的每个所述连接线对应的权值,将添加有权值的初始航线图作为所述时空动态图。
12、在一些实施例中,所述基于所述状态价值函数和所述动作价值函数之间的差值,确定所述初始航线图中的每个所述连接线对应的权值,包括:
13、采用下述公式确定每个所述连接线对应的权值:
14、
15、其中, w(i,j)表示所述初始航线图中从节点 i指向节点 j的连接线对应的权值, s i表示节点 i的节点状态, a ij表示选择从节点 i到节点 i的航线的动作,q( s i, a ij)表示在( s i, a ij)时的动作价值函数, v(si)表示在( s i, a ij)时的状态价值函数, γ表示预设参数,r表示所述奖励函数。
16、在一些实施例中,所述获取航空市场动力学仿真模型,包括:
17、获取待训练的航空市场动力学仿真模型和第一训练数据集,所述第一训练数据集中包括多组训练数据,每组训练数据包括第一样本状态信息、样本动作信息、第二样本状态信息和样本收益信息;
18、基于所述第一训练数据集,训练所述待训练的航空市场动力学仿真模型,得到训练后的航空市场动力学仿真模型。
19、在一些实施例中,所述调用舱位控制策略模型,基于所述时空动态图和目标航线对应的当前销售进度信息,确定对购票请求执行的目标动作之前,所述方法还包括:
20、获取待训练的舱位控制策略模型和第二训练数据集,所述第二训练数据集中包括样本时空动态图、样本销售进度、样本风险信息和样本价值函数;
21、基于actor-critic算法和所述第二训练数据集,训练所述待训练的舱位控制策略模型,得到训练后的舱位控制策略模型。
22、在一些实施例中,所述待训练的舱位控制策略模型包括策略网络和价值网络,所述基于actor-critic算法和所述第二训练数据集,训练所述待训练的舱位控制策略模型,包括:
23、基于梯度算法,采用下述公式调整所述策略网络中的参数:
24、
25、其中, θ 1和表示所述策略网络中的参数,为对 θ 1调整后的参数, a i表示选择样本时空动态图中的节点 i, s i表示样本时空动态图中节点 i的节点状态,r表示奖励函数, v( s i; θ v)表示样本价值函数, θ v表示样本价值函数中的参数,risktotal表示样本风险信息;
26、基于均方误差算法,采用下述公式调整所述价值网络中的参数:
27、
28、其中, θ 2和表示所述价值网络中的参数,为对 θ 2调整后的参数。
29、根据本技术实施例的第二方面,提供一种基于强化学习的舱位控制和超售装置,所述装置包括:
30、模型获取模块,被配置为获取航空市场动力学仿真模型,所述航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测所述任一航线对应的第二状态信息和预测收益信息;
31、动态图获取模块,被配置为根据所述航空市场动力学仿真模型和价值函数,确定时空动态图,所述时空动态图包括多个节点、多个连接线以及每个连接线对应的权值,每个连接线由初始节点指向目标节点,所述初始节点是指航线中的出发地,所述目标节点是指航线中的目的地;
32、动作确定模块,被配置为调用舱位控制策略模型,基于所述时空动态图和目标航线对应的当前销售进度信息,确定对购票请求执行的目标动作,所述目标动作包括接受购票请求和拒绝购票请求中的任一种,所述舱位控制策略模型用于预测针对购票请求执行的动作。
33、在一些实施例中,所述第一状态信息是指当前时刻的销售进度信息以及距离航线起飞的时间信息,所述动作信息是指在所述第一状态信息的基础上针对购票请求执行的第一动作,所述第一动作包括接受购票请求和拒绝购票请求中的任一种,所述第二状态信息是指在针对所述购票请求执行动作后的销售进度信息以及距离航线起飞的时间信息,所述预测收益信息是指针对所述购票请求执行动作后所带来的收益。
34、在一些实施例中,所述航空市场动力学仿真模型包括训练得到的模型参数以及预设超参数,所述预设超参数包括客户到来频率参数、购票概率参数、退票概率参数、拒载成本、非自愿降舱成本、空置成本以及航线总运力中的至少一种。
35、在一些实施例中,所述动态图获取模块,被配置为:
36、获取初始航线图,所述初始航线图包括多个节点以及多个连接线;
37、基于时序差分算法,以收益度量作为奖励函数,以风险信息作为惩罚项,确定每个所述节点对应的状态价值函数和动作价值函数,所述状态价值函数用于描述每个所述节点的节点状态的价值,所述节点状态指示对应节点是否有对应的飞行器,所述动作价值函数用于描述对应节点执行第二动作的价值,所述第二动作是指从以对应节点为出发地的至少一个航线中选择航线,所述收益度量是指调用航空市场动力学仿真模型基于所选择的航线对应的第一状态信息和动作信息预测的收益信息;
38、基于所述动作价值函数和所述状态价值函数之间的差值,确定所述初始航线图中的每个所述连接线对应的权值,将添加有权值的初始航线图作为所述时空动态图。
39、在一些实施例中,所述动态图获取模块,被配置为:
40、采用下述公式确定每个所述连接线对应的权值:
41、
42、其中, w(i,j)表示所述初始航线图中从节点 i指向节点 j的连接线对应的权值, s i表示节点 i的节点状态, a ij表示选择从节点 i到节点 i的航线的动作,q( s i, a ij)表示在( s i, a ij)时的动作价值函数, v(si)表示在( s i, a ij)时的状态价值函数, γ表示预设参数,r表示所述奖励函数。
43、在一些实施例中,所述模型获取模块,被配置为:
44、获取待训练的航空市场动力学仿真模型和第一训练数据集,所述第一训练数据集中包括多组训练数据,每组训练数据包括第一样本状态信息、样本动作信息、第二样本状态信息和样本收益信息;
45、基于所述第一训练数据集,训练所述待训练的航空市场动力学仿真模型,得到训练后的航空市场动力学仿真模型。
46、在一些实施例中,所述装置还包括:
47、模型训练模块,被配置为获取待训练的舱位控制策略模型和第二训练数据集,所述第二训练数据集中包括样本时空动态图、样本销售进度、样本风险信息和样本价值函数;
48、所述模型训练模块,还被配置为基于actor-critic算法和所述第二训练数据集,训练所述待训练的舱位控制策略模型,得到训练后的舱位控制策略模型。
49、在一些实施例中,所述待训练的舱位控制策略模型包括策略网络和价值网络,所述所述模型训练模块,还被配置为:
50、基于梯度算法,采用下述公式调整所述策略网络中的参数:
51、
52、其中, θ 1和表示所述策略网络中的参数,为对 θ 1调整后的参数, a i表示选择样本时空动态图中的节点 i, s i表示样本时空动态图中节点 i的节点状态,r表示奖励函数, v( s i; θ v)表示样本价值函数, θ v表示样本价值函数中的参数,risktotal表示样本风险信息;
53、基于均方误差算法,采用下述公式调整所述价值网络中的参数:
54、
55、其中, θ 2和表示所述价值网络中的参数,为对 θ 2调整后的参数。
56、根据本技术实施例的第三方面,提供一种电子设备,包括:
57、处理器;
58、用于存储处理器可执行指令的存储器;
59、其中,所述处理器被配置为执行如本技术实施例的第一方面中任一项所述的基于强化学习的舱位控制和超售方法。
60、根据本技术实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本技术实施例的第一方面中任一项所述的基于强化学习的舱位控制和超售方法。
61、本技术实施例的第五方面,提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如本技术实施例的第一方面中任一项所述的基于强化学习的舱位控制和超售方法。
62、采用本技术的上述方法,具有以下有益效果:
63、本技术实施例提供的基于强化学习的舱位控制和超售方法,获取航空市场动力学仿真模型,航空市场动力学仿真模型能够基于任一航线对应的第一状态信息和动作信息预测任一航线对应的第二状态信息和预测收益信息,相当于模拟了可信的、可重复仿真交互环境,然后根据航空市场动力学仿真模型和价值函数,确定时空动态图,该时空动态图给出了各个航线以及每个航线的权重,最后调用舱位控制策略模型,基于时空动态图和目标航线对应的当前销售进度信息,确定对购票请求执行的目标动作,实现了灵活高效、时空动态自适应的航班舱位控制和超售,并且能够实现自动的航班舱位控制和超售的预测,降低了人工成本。
64、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。