一种数据处理方法及装置与流程

文档序号:26803703发布日期:2021-09-29 02:15阅读:来源:国知局

技术特征:
1.一种基于分布式系统的数据处理方法,其特征在于,所述分布式系统中包括多个电子设备,各个电子设备分别存储模型中的一部分特征向量,所述方法应用于所述多个电子设备中的第一电子设备,所述方法包括:获取所述模型中的多个特征向量的向量标识;根据所述多个特征向量的向量标识生成至少一个标识张量;基于至少一个获取算子根据所述至少一个标识张量在所述分布式系统中获取至少一个特征张量,所述至少一个特征张量中包括所述多个特征向量;对所述至少一个特征张量拆分,得到所述多个特征向量。2.根据权利要求1所述的方法,其特征在于,所述基于至少一个获取算子根据所述至少一个标识张量在所述分布式系统中获取至少一个特征张量,包括:基于所述至少一个获取算子,在所述第一电子设备存储的特征向量中查找所述标识张量中的向量标识对应的特征向量;和/或,将所述标识张量中的向量标识分别发送给对应的特征向量所在的分布式系统中的第二电子设备,并接收所述第二电子设备返回的、根据接收的向量标识查找到的特征向量;所述第二电子设备包括所述分布式系统中的除所述第一电子设备以外的电子设备;基于所述至少一个获取算子,将接收的特征向量和/或在所述第一电子设备中查找到的特征向量缝合,得到所述特征张量。3.根据权利要求2所述的方法,其特征在于,所述在所述第一电子设备存储的特征向量中查找所述标识张量中的向量标识对应的特征向量,包括:在所述第一电子设备中的第一存储器中存储的特征向量中查找是否存在所述标识张量中的向量标识对应的特征向量;在存在所述标识张量中的向量标识对应的特征向量的情况下,获取第一存储器中存储的所述标识张量中的向量标识对应的特征向量,第一存储器中存储的所述标识张量中的向量标识对应的特征向量是事先在所述第一电子设备中的第二存储器中获取的并缓存在所述第一存储器中的;所述第一存储器的数据访问速率大于所述第二存储器的数据访问速率;在不存在所述标识张量中的向量标识对应的特征向量的情况下,在所述第二存储器中存储的特征向量中查找所述标识张量中的向量标识对应的特征向量。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取在所述第二存储器中存储的所述模型中的各个特征向量分别被访问的频率;按照被访问的频率由高至低的顺序,在所述第二存储器中存储的所述模型中的各个特征向量中选择至少部分特征向量;在所述第一存储器中缓存所述至少部分特征向量。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:在对所述模型进行多轮训练的其中一轮训练的过程中,在所述第二存储器中获取所述其中一轮训练之后的至少一轮训练所需使用的所述模型中的特征向量;在所述第一存储器中缓存所述至少一轮训练所需使用的所述模型中的特征向量。6.根据权利要求1所述的方法,其特征在于,所述根据所述多个特征向量的向量标识生成至少一个标识张量,包括:
使用一个生成算子对所述多个特征向量的向量标识去重复,得到去重复后的向量标识,确定去重复后各个向量标识对应的特征向量所在的电子设备的数量,根据所述数量对去重复后的向量标识分片,得到分片后的向量标识,以及,根据分片后的向量标识生成至少两个标识张量。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取在获取所述模型中的多个特征向量的过程中所需使用所述第一电子设备中的硬件资源的种类;根据所述种类的数量以及负载均衡原则对所述模型中的特征向量分组,得到多个的特征向量组。8.根据权利要求7所述的方法,其特征在于,所述模型中包括多个特征矩阵,各个特征矩阵中包括至少两个特征向量;所述根据所述种类的数量以及负载均衡原则对所述模型中的特征向量分组,得到多个的特征向量组,包括:将所述多个特征矩阵划分为所述数量个的特征矩阵组,各个特征矩阵组中包括的特征向量的数量之间的差异小于预设差异。9.根据权利要求7所述的方法,其特征在于,所述根据所述多个特征向量的向量标识生成至少一个标识张量,包括:将所述多个特征向量的向量标识按照对应的特征向量所在的特征向量组分组,得到至少两个向量标识组;根据每一个向量标识组中的向量标识分别生成一个标识张量,得到至少两个标识张量。10.根据权利要求7

9任一项所述的方法,其特征在于,所述基于至少一个获取算子根据所述至少一个标识张量在所述分布式系统中获取至少一个特征张量,包括:根据至少两个标识张量中的第一标识张量依次调取所述第一电子设备中的多个种类的硬件资源,以通过调取的硬件资源在特征向量组中获取所述第一标识张量中向量标识对应的特征向量;以及,根据至少两个标识张量中的第二标识张量依次调取所述多个种类的硬件资源,以通过调取的硬件资源在特征向量组中获取所述第二标识张量中向量标识对应的特征向量;所述第二标识张量包括所述至少两个标识张量中的除所述第一标识张量以外的标识张量;且,在根据所述第二标识张量依次调取所述多个种类的硬件资源的过程中,在需要根据第二标识张量调取所述多个种类中的目标种类的硬件资源的情况下,判断所述目标种类的硬件资源是否正在被使用;在所述目标种类的硬件资源未正在被使用的情况下,再根据所述第二标识张量调取所述目标种类的硬件资源。11.一种数据处理方法,其特征在于,所述方法包括:在训练稀疏模型的过程中或在使用已训练得到的稀疏模型处理数据的过程中,如果需要获取稀疏模型中的多个特征向量中的目标特征向量,在第一存储器中查找所述目标特征向量;在所述第一存储器中查找到所述目标特征向量的情况下,响应所述目标特征向量;所
述目标特征向量是事先根据第二存储器中存储的所述多个特征向量分别被访问的频率由高至低的顺序,在所述多个特征向量中选择并缓存在所述第一存储器中的,所述第一存储器的数据访问速率大于所述第二存储器的数据访问速率。12.一种数据处理方法,其特征在于,所述方法包括:在需要对稀疏模型进行多轮训练的下一轮训练的情况下,在第一存储器中获取所述下一轮训练所需使用的所述稀疏模型中的特征向量;使用所述特征向量对所述稀疏模型进行多轮训练的下一轮训练;所述特征向量是事先对所述稀疏模型进行多轮训练的上一轮训练的情况下在第二存储器中获取并缓存在所述第一存储器中的,所述第一存储器的数据访问速率大于所述第二存储器的数据访问速率。13.一种电子设备,其特征在于,所述电子设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行如权利要求1

12任一项所述的方法。14.一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1

12任一项所述的方法。

技术总结
本申请提供了一种数据处理方法及装置。在本申请中,可以使用至少一个获取算子来执行“根据至少一个标识张量在分布式系统中获取至少一个特征张量”的操作,如此实现使用较少的获取算子(例如使用一个获取算子等,使用的获取算子的数量可以少于多个特征向量的向量标识的数量等)即可获取到多个特征向量,如此,虽然标识张量中包括多个特征向量的向量标识,但是多个特征向量的向量标识均被同一个获取算子来执行操作,仅仅需要一次“启动算子”以及一次“调度算子”,减少了“启动算子”的次数以及“调度算子”的次数,从而可以节省获取多个特征向量的过程所需耗费的时间,提高获取多个特征向量的效率,以及节省硬件资源。以及节省硬件资源。以及节省硬件资源。


技术研发人员:袁满 陈浪石 张杰 李永
受保护的技术使用者:阿里巴巴(中国)有限公司
技术研发日:2021.08.31
技术公布日:2021/9/28
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1