本公开涉及车辆,并且更具体地涉及与具有强化学习的分布式嵌入式控制器系统相关联的系统和方法。
背景技术:
1、本节提供的信息是为了一般性地介绍本披露内容的背景。在本节中描述的范围内,以及在申请时可能不符合现有技术条件的描述方面,目前指定的发明人的工作既不明确也不暗示被承认为反对本披露内容的现有技术。
2、某些类型的车辆仅包括生成推进扭矩的内燃机。混合动力车辆包括内燃机和一个或多个电动马达。一些类型的混合动力车辆利用电动马达和内燃机来提高燃料效率。其他类型的混合动力车辆利用电动马达和内燃机来实现更大的扭矩输出。
3、混合动力车辆的示例包括并联混合动力车辆、串联混合动力车辆以及其他类型的混合动力车辆。在并联混合动力车辆中,电动马达与发动机并联工作,以将发动机的功率和范围优势与电动马达的效率和再生制动优势结合。在串联混合动力车辆中,发动机驱动发电机为电动马达发电,并且电动马达驱动变速器。这允许电动马达承担发动机的一些动力责任,这可允许使用更小并且可能更高效的发动机。本技术适用于电动车辆、混合动力车辆和其他类型的车辆。
技术实现思路
1、在一个特征中,一种用于车辆的分布式学习系统包括:控制模块,所述控制模块被配置为:使用策略控制车辆的装置,向学习模块发送包括有关对装置的控制的影响的信息的信号,并且使用探索性控制选择性地控制装置;以及学习模块,其中,学习模块与控制模块分离并且被配置为基于以下各项选择性地更新政策:(a)来自控制模块的信号,(b)由使用策略来控制装置所产生的状态参数,以及(c)基于使用策略对装置的控制和使用探索性控制对装置的选择性控制确定的性能反馈,其中,控制模块被配置为从学习模块接收探索性控制。
2、在进一步的特征中,学习模块被配置为使用强化学习选择性地更新策略。
3、在进一步的特征中,信号包括装置的测量参数和估计参数。
4、在进一步的特征中:控制模块被配置为以第一速率更新对设备的控制;并且学习模块被配置为以比第一速率慢的第二速率选择性地更新策略。
5、在进一步的特征中:控制模块具有第一内存需求;并且学习模块具有大于第一内存需求的第二内存需求。
6、在进一步的特征中,学习模块被配置为基于在预定时间段内的性能反馈的范围选择性地更新策略。
7、在进一步的特征中,学习模块在车辆上。
8、在进一步的特征中,学习模块位于远离车辆的位置。
9、在进一步的特征中,学习模块被配置为确定探索性控制并且将该探索性控制传输到控制模块。
10、在进一步的特征中:装置是包括第一电源(power source)和第二电源(powersource)的能量存储系统;并且控制模块被配置为控制将第一电源和第二电源与一个或多个负载连接和断开的开关的致动。
11、在进一步的特征中,控制模块被配置为:使用策略确定要从第一电源请求的功率需求的第一百分比;基于第一百分比确定要从第二电源请求的功率需求的第二百分比;以及基于第一百分比和第二百分比控制开关的致动。
12、在进一步的特征中,探索性控制涉及次优控制。
13、在进一步的特征中:控制模块被配置为在整个第一预定时间段内缓存(a)、(b)以及(c),并且将缓存的数据传输到学习模块;并且学习模块被配置为根据缓存数据选择性地更新策略。
14、在进一步的特征中:控制模块被配置为每隔第二预定时间段缓存(a)、(b)以及(c),并且将缓存的数据传输到学习模块;并且学习模块被配置为基于缓存数据选择性地更新策略。
15、在一个特征中,一种用于车辆的分布式学习方法包括:通过控制模块:使用策略控制车辆的装置,向学习模块传输包括有关控制对装置的影响的信息的信号;使用探索性控制选择性地控制装置,以及接收来自学习模块的探索性控制,其中,学习模块与控制模块分离;并且通过学习模块,基于以下各项选择性地更新策略:(a)来自控制模块的信号、(b)使用策略来控制装置所产生的状态参数,以及(c)基于使用策略控制装置和使用探索性策略选择性地控制装置确定的性能反馈。
16、在进一步的特征中,选择性地更新策略包括使用强化学习选择性地更新策略。
17、在进一步的特征中,信号包括装置的测量参数和估计参数。
18、在进一步的特征中:控制装置包括以第一速率更新对装置的控制;并且选择性地更新策略包括以比第一速率慢的第二速率选择性地更新策略。
19、在进一步的特征中:控制模块具有第一内存需求;并且学习模块具有大于第一内存需求的第二内存需求。
20、在进一步的特征中,存在以下各项中的一项:学习模块在车辆上;以及学习模块位于远离车辆的位置。
21、本发明具有以下方案。
22、方案1. 一种用于车辆的分布式学习系统,包括:
23、控制模块,所述控制模块被配置为:
24、使用策略来控制所述车辆的装置,
25、向学习模块发送信号,所述信号包括有关所述控制对所述装置的影响的信息,并且
26、使用探索性控制选择性地控制所述装置;以及
27、学习模块,其中,所述学习模块与所述控制模块分离并且被配置为基于以下各项选择性地更新所述策略:(a)来自所述控制模块的所述信号、(b)由使用所述策略控制所述装置产生的状态参数,以及(c)基于使用所述策略控制所述装置和使用探索性控制选择性地控制所述装置所确定的性能反馈,
28、其中,所述控制模块被配置为从所述学习模块接收所述探索性控制。
29、方案2. 如方案1所述的分布式学习系统,其中,所述学习模块被配置为使用强化学习选择性地更新所述策略。
30、方案3. 如方案1所述的分布式学习系统,其中,所述信号包括用于所述装置的测量参数和估计参数。
31、方案4. 如方案1所述的分布式学习系统,其中:
32、所述控制模块被配置为以第一速率更新对所述装置的所述控制;以及
33、所述学习模块被配置为以比所述第一速率慢的第二速率选择性地更新所述策略。
34、方案5. 如方案1所述的分布式学习系统,其中:
35、所述控制模块具有第一内存需求;以及
36、所述学习模块具有大于所述第一内存需求的第二内存需求。
37、方案6. 如方案1所述的分布式学习系统,其中,所述学习模块被配置为基于在预定时间段内的性能反馈的范围(horizon)选择性地更新所述策略。
38、方案7. 如方案1所述的分布式学习系统,其中,所述学习模块在所述车辆上。
39、方案8. 根据方案1所述的分布式学习系统,其中,所述学习模块位于远离所述车辆的位置。
40、方案9. 如方案1所述的分布式学习系统,其中,所述学习模块被配置为确定所述探索性控制并且将所述探索性控制传输到所述控制模块。
41、方案10. 如方案1所述的分布式学习系统,其中:
42、所述装置是能量存储系统,包括第一电源和第二电源;以及
43、所述控制模块被配置为控制将所述第一电源和所述第二电源与一个或多个负载连接和断开的开关的致动。
44、方案11. 如方案10所述的分布式学习系统,其中,所述控制模块被配置为:
45、使用所述策略确定从所述第一电源所请求的功率需求的第一百分比;
46、基于所述第一百分比确定要从所述第二电源请求的功率需求的第二百分比;以及
47、基于所述第一百分比和所述第二百分比控制所述开关的致动。
48、方案12. 如方案1所述的分布式学习系统,其中,所述探索性控制涉及次优控制。
49、方案13. 如方案1所述的分布式学习系统,其中:
50、所述控制模块被配置为在整个第一预定时间段内缓存(a)、(b)和(c),并且将所缓存的数据传输到所述学习模块;以及
51、所述学习模块被配置为基于所缓存的数据选择性地更新所述策略。
52、方案14. 如方案1所述的分布式学习系统,其中:
53、所述控制模块被配置为每隔第二预定时间段缓存(a)、(b)和(c),并且将所缓存的数据传输到所述学习模块;以及
54、所述学习模块被配置为基于所缓存的数据选择性地更新所述策略。
55、方案15. 一种用于车辆的分布式学习方法,包括:
56、通过控制模块:
57、使用策略控制所述车辆的装置,
58、向学习模块传输信号,所述信号包括有关所述控制对所述装置的影响的信息,
59、使用探索性控制选择性地控制所述装置,并且
60、接收来自所述学习模块的所述探索性控制,
61、其中,所述学习模块与所述控制模块分离;以及
62、通过所述学习模块,基于以下各项选择性地更新所述策略:(a)来自所述控制模块的所述信号、(b)由使用所述策略控制所述装置产生的状态参数,以及(c)基于使用所述策略对所述装置的所述控制和使用探索性控制对所述装置的选择性控制所确定的性能反馈。
63、方案16. 如方案15所述的分布式学习方法,其中,选择性地更新所述策略包括使用强化学习选择性地更新所述策略。
64、方案17. 如方案15所述的分布式学习方法,其中,所述信号包括用于所述装置的测量参数和估计参数。
65、方案18. 如方案15所述的分布式学习方法,其中:
66、控制所述装置包括以第一速率更新所述装置的所述控制;以及
67、选择性地更新所述策略包括以比所述第一速率慢的第二速率选择性地更新所述策略。
68、方案19. 如方案14所述的分布式学习方法,其中:
69、所述控制模块具有第一内存需求;以及
70、所述学习模块具有大于所述第一内存需求的第二内存需求。
71、方案20. 如方案14所述的分布式学习方法,其中,存在以下各项中的一项:
72、所述学习模块在所述车辆上;以及
73、所述学习模块位于远离所述车辆的位置。
74、根据详细描述、权利要求和附图,本公开的其他应用领域将变得显而易见。详细描述和具体示例仅用于说明的目的,并不旨在限制本公开的范围。