1.一种控制车辆的方法,其特征在于,所述方法包括:
获取目标车辆的车辆信息以及所述目标车辆所在的参考环境的环境信息;
基于所述车辆信息及所述环境信息,获取目标矩阵,所述目标矩阵中的元素为所述目标车辆在当前状态下执行动作后转移到下一个状态的概率值;
对所述目标矩阵进行拆分,得到多个子矩阵;
基于每个子矩阵中的矩阵元素以及所述目标车辆的周围车辆的行驶控制信息,获取所述目标车辆的目标行驶控制信息,所述目标行驶控制信息用于控制所述目标车辆。
2.根据权利要求1所述的方法,其特征在于,所述基于所述车辆信息及所述环境信息,获取目标矩阵,包括:
基于所述目标车辆的当前状态及下一个状态,以及对所述下一个状态采样得到的采样点和标准正态分布函数,根据非参数估计的方式确定每个子矩阵中的矩阵元素。
3.根据权利要求2所述的方法,其特征在于,所述根据非参数估计的方式确定每个子矩阵中的矩阵元素之后,所述方法还包括:
对于任一矩阵元素,基于所述矩阵元素进行迭代计算,得到更新后的矩阵元素。
4.根据权利要求1-3任一所述的方法,其特征在于,所述基于每个子矩阵中的矩阵元素以及所述目标车辆的周围车辆的行驶控制信息,获取所述目标车辆的目标行驶控制信息,包括:
基于每个子矩阵中的矩阵元素,确定所述目标车辆的一个或多个下一个状态的概率值;
根据下一个状态的概率值与行驶控制信息的对应关系,获取一个或多个参考行驶控制信息;
基于所述目标车辆的周围车辆的行驶控制信息,从所述一个或多个参考行驶控制信息中获取所述目标行驶控制信息。
5.根据权利要求4所述的方法,其特征在于,所述基于所述目标车辆的周围车辆的行驶控制信息,从所述一个或多个参考行驶控制信息中获取所述目标行驶控制信息,包括:
基于所述目标车辆的周围车辆的行驶控制信息,确定每个参考行驶控制信息在未来一个或多个时刻中的每个时刻对应的回报数值;
将每个时刻对应的回报数值之和最大的参考行驶控制信息作为所述目标行驶控制信息。
6.一种控制车辆的装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标车辆的车辆信息以及所述目标车辆所在的参考环境的环境信息;
第二获取模块,用于基于所述车辆信息及所述环境信息,获取目标矩阵,所述目标矩阵中的元素为所述目标车辆在当前状态下执行动作后转移到下一个状态的概率值;
拆分模块,用于对所述目标矩阵进行拆分,得到多个子矩阵;
控制模块,用于基于每个子矩阵中的矩阵元素以及所述目标车辆的周围车辆的行驶控制信息,获取所述目标车辆的目标行驶控制信息,所述目标行驶控制信息用于控制所述目标车辆。
7.根据权利要求6所述的装置,其特征在于,所述控制模块,用于基于每个子矩阵中的矩阵元素,确定所述目标车辆的一个或多个下一个状态的概率值;根据下一个状态的概率值与行驶控制信息的对应关系,获取一个或多个参考行驶控制信息;基于所述目标车辆的周围车辆的行驶控制信息,从所述一个或多个参考行驶控制信息中获取所述目标行驶控制信息。
8.根据权利要求7所述的装置,其特征在于,所述控制模块,用于基于所述目标车辆的周围车辆的行驶控制信息,确定每个参考行驶控制信息在未来一个或多个时刻中的每个时刻对应的回报数值;将每个时刻对应的回报数值之和最大的参考行驶控制信息作为所述目标行驶控制信息。
9.一种电子设备,其特征在于,所述设备包括存储器及处理器;所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现权利要求1-5任一所述的控制车辆的方法。
10.一种可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1-5任一所述的控制车辆的方法。