本发明涉及数据处理领域,具体涉及一种热泵型热管理系统的能效优化方法。
背景技术:
1、电动汽车(ev)作为可持续交通的关键组成部分,其发展受到续航里程、充电便利性以及用户体验等因素的深刻影响。其中,热泵型热管理系统凭借其在不同环境下进行高效制冷与制热的潜力,已成为现代电动汽车不可或缺的核心部件。该系统肩负着双重关键任务:一是为乘员舱提供舒适的温度环境;二是精确管理动力电池组的工作温度,然而,热管理系统的运行是电动汽车主要的非驱动能耗来源。
2、电动汽车的实际运行环境极其复杂且动态多变。传统的控制策略,例如基于预设规则的逻辑控制或经典的pid(比例-积分-微分)控制器,难以有效应对高度非线性、多变量耦合、强时变特性的系统。基于规则的方法往往依赖于工程师的经验和大量的实验标定,难以覆盖所有工况并保证最优性,其控制效果往往是次优的;而pid控制器则在处理多输入多输出、非线性耦合强的系统时显得力不从心,参数整定困难,且难以兼顾相互冲突的控制目标(如快速降温与低能耗)。
3、近年来,随着人工智能技术的发展,强化学习(reinforcement learning, rl),特别是深度q网络(deep q-network, dqn)等深度强化学习方法,因其在复杂决策问题中展现出的强大自学习和优化能力。然而,现有的标准深度q网络算法在应用于电动汽车热管理这类需要平衡即时需求与长远目标的场景时,仍存在固有缺陷。固定的折扣因子限制了dqn策略的灵活性和对多变场景的适应性,无法实现最优的动态平衡,从而限制了其在提升电动汽车真实世界能效方面的潜力。
技术实现思路
1、针对上述固定的折扣因子限制了dqn策略的灵活性和对多变场景的适应性的问题,本发明提出了一种热泵型热管理系统的能效优化方法,包括:获取电动汽车热泵型热管理系统的历史状态参数,所述历史状态参数至少包括:环境温度、目标温度、实际温度、低压侧压力、高压侧压力以及压缩机输入功率;基于所述历史状态参数训练深度q网络模型,将同一时刻下的多个状态参数作为深度q网络模型的状态向量;获取热泵型热管理系统的实时状态向量,将所述实时状态向量输入到训练完成的深度q网络模型中,根据模型输出的动作指令调整所述热管理系统中的压缩机运行转速,以优化其能源效率;所述深度q网络模型还包括使用自适应折扣因子进行训练,且有:;其中表示折扣因子的最大设定值;表示折扣因子的最小设定值;为调参因子;表示系统状态指数;所述系统状态指数为热状态偏差绝对值与循环压力比的乘积;所述热状态偏差绝对值为当前实际温度与目标温度的差值的绝对值;所述循环压力比为当前高压侧压力与低压侧压力的比值。
2、本发明通过深度q网络结合一个由热状态偏差和循环压力比共同决定的系统状态指数来动态调整自适应折扣因子,解决了现有技术中固定控制逻辑或标准强化学习无法有效适应电动汽车复杂多变工况下动态平衡满足热需求与节能续航这对核心矛盾的问题。该方法使控制策略能根据系统偏离目标的程度和运行程度智能切换侧重点,在需要时快速响应,在稳定时精细节能,相比传统方法和标准dqn,显著提升了电动汽车热管理系统的自适应能力和整体能效。
3、进一步地,所述深度q网络模型的状态向量具体为:
4、;
5、其中表示时刻的状态向量;表示时刻的环境温度;表示时刻的目标温度;表示时刻的实际温度;表示时刻的低压侧压力;表示时刻的高压侧压力;表示时刻的压缩机输入功率。
6、进一步地,所述热状态偏差绝对值的计算方式具体为:
7、;
8、其中表示在时刻的热状态偏差绝对值;是时刻的实际温度;是时刻的目标温度。
9、进一步地,所述循环压力比的计算方式具体为:
10、;
11、其中表示在时刻的循环压力比;是时刻的高压侧压力;是时刻的低压侧压力;表示调参因子。
12、本发明通过循环压力比来反映热泵循环当前的运行强度或潜在效率区间。压力比与压缩功、温度提升和理论效率直接相关,将其作为计算系统状态指数的另一关键输入,使得后续自适应调整能够考虑到系统当前的运行负荷,而不仅是温度偏差,提升了适应性的维度和准确性。
13、进一步地,所述系统状态指数的计算方式具体为:
14、;
15、其中表示系统状态指数;表示在时刻的热状态偏差绝对值;表示时刻的循环压力比。
16、本发明通过构造系统状态指数,实现了一种非线性的结合方式,能够有效放大偏差大且运行强度高这种需要优先关注的不良状态,同时避免了引入需要人工调整的权重。这种构造方式相比简单的线性组合更能体现多因素共同作用下的系统运行强度,为自适应折扣因子的调整提供了更敏感、更合理的输入。
17、进一步地,所述深度q网络模型输出的动作指令定义为对所述压缩机转速的调整量,具体为:
18、;
19、其中表示降低压缩机运行转速一个预设步长;0表示保持压缩机当前转速不变;表示增加压缩机运行转速一个预设步长。
20、进一步地,所述深度q网络模型训练时采用的奖励函数具体为:
21、;
22、其中表示奖励函数;表示时刻的实际温度;表示时刻的目标温度。
23、进一步地,所述深度q网络模型的训练过程还包括:
24、隐藏层采用relu激活函数;学习率采用adam优化器进行自适应调整;动作决策采用ε-贪婪策略。
25、应用了当前深度强化学习领域的成熟技术(relu、adam、ε-greedy),有效提升了模型处理电动汽车热管理系统复杂非线性动态的学习效率、稳定性和收敛到高质量策略的可能性。
26、进一步地,还包括对所述历史状态参数进行数据清洗以及数据标准化。
27、进一步地,所述数据清洗为中值滤波算法;所述数据标准化为z-score标准化算法
28、通过对输入数据进行预处理,提高了数据的质量和一致性,减少了噪声干扰和不同参数尺度差异对模型训练的不利影响。这增强了训练模型的鲁棒性,提高了模型对真实世界数据的泛化能力,确保了最终控制策略在实际应用中的可靠性和稳定性,优于直接使用原始数据进行训练。
29、本发明的技术效果为:
30、本发明针对电动汽车热管理系统能效优化问题,提出了一种基于深度q网络(dqn)的智能控制方法,其关键是引入了自适应折扣因子机制。与现有技术不同,该自适应调整不依赖复杂的外部参数估计或人为权重,而是由一个与场景物理逻辑紧密关联的系统状态指数驱动。该指数通过将实时热状态偏差绝对值与反映循环运行强度的压力比相乘得到。基于此指数动态调整的折扣因子,使dqn能根据系统当前偏离目标程度和运行“费力”程度,智能切换其决策的时间尺度焦点,从而在满足舒适性、电池健康等即时需求与最大化续航里程的长远能效目标之间实现动态、有效的平衡。
1.一种热泵型热管理系统的能效优化方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种热泵型热管理系统的能效优化方法,其特征在于,所述深度q网络模型的状态向量具体为:
3.根据权利要求1所述的一种热泵型热管理系统的能效优化方法,其特征在于,所述热状态偏差绝对值的计算方式具体为:
4.根据权利要求1所述的一种热泵型热管理系统的能效优化方法,其特征在于,所述循环压力比的计算方式具体为:
5.根据权利要求1、3或4所述的一种热泵型热管理系统的能效优化方法,其特征在于,所述系统状态指数的计算方式具体为:
6.根据权利要求1所述的一种热泵型热管理系统的能效优化方法,其特征在于,所述深度q网络模型输出的动作指令定义为对所述压缩机转速的调整量,具体为:
7.根据权利要求1所述的一种热泵型热管理系统的能效优化方法,其特征在于,所述深度q网络模型训练时采用的奖励函数具体为:
8.根据权利要求1所述的一种热泵型热管理系统的能效优化方法,其特征在于,所述深度q网络模型的训练过程还包括:
9.根据权利要求1所述的一种热泵型热管理系统的能效优化方法,其特征在于,还包括对所述历史状态参数进行数据清洗以及数据标准化。
10.根据权利要求9所述的一种热泵型热管理系统的能效优化方法,其特征在于,所述数据清洗为中值滤波算法;所述数据标准化为z-score标准化算法。