本发明涉及计算机网络,尤其涉及一种异构推理后端上的可扩展负载均衡方法及系统。
背景技术:
1、从物联网和移动设备到边缘和云服务器,机器学习(ml)模型的推理服务无处不在。高精度和低延迟是大多数推理服务共有的两个典型服务级目标。在实际系统中,由于资源的限制,应用程序通常对精度和延迟有不同的偏好。像虚拟现实和语音助手这样的应用程序来说,确保实时推理是非常重要的。
2、现有方法主要集中在提高单个后端推理效率和生成精度和延迟不等的推理后端。模型压缩减小了ml模型的大小,以便在移动甚至嵌入式设备上执行低延迟推理,但精度略有下降。近似缓存从缓存中为到达的查询返回与先前处理的查询类似的快速响应。近似缓存机制需要在命中率和返回推断结果的准确性之间进行权衡。管道配置调整特定于任务的可配置旋钮(例如,视频分析中的帧分辨率和骨干神经网络),以平衡效率和准确性,以上这些方法均不能自适应的实现精度-延迟权衡。
技术实现思路
1、基于背景技术存在的技术问题,本发明提出了一种异构推理后端上的可扩展负载均衡方法及系统,根据实时精度,动态地将查询分配到静态更快的推理后端,以实现自适应的精度-延迟权衡。
2、本发明提出的一种异构推理后端上的可扩展负载均衡方法,包括如下步骤:
3、s1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度;
4、s2:计算所有推理后端的优先级,以推理后端由高到低的优先级排序作为步骤s3的后端选择顺序;
5、s3:设定控制阈值,计算上一个查询队列和当前查询队列的等待时间,若当前查询队列的等待时间大于控制阈值,则根据步骤s2中的优先级排序添加一个高优先级的推理后端,若上一个查询队列的等待时间小于等于控制阈值,则根据步骤s2中优先级排序去掉一个低优先级的推理后端。
6、步骤s2的推理后端优先级计算过程如下:
7、
8、其中,表示精度和时延权衡能力值,表示第个推理后端,表示第个推理后端的推理精度,表示第个推理后端的服务速率,表示常数。
9、进一步地,在步骤s1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度中,具体包括:
10、将多个推理后端中的其中一个后端作为黄金标准后端;
11、在一个时间窗口内收集进入包含黄金标准后端和其他推理后端的数据对,并记录数据对在黄金标准后端的输出结果;
12、以数据对在黄金标准后端的输出结果为标准,计算其他推理后端输出部分重合数据对的输出结果精度,以该输出结果精度估计其他推理后端推理精度。
13、进一步地,在步骤s3的计算上一个查询队列和当前查询队列的等待时间中,其中查询队列的具体公式如下:
14、
15、其中,表示等待时间,表示查询队列,表示队列长度,表示前个推理后端的平均服务速率,表示查询请求的到达速率,表示最大等待时间。
16、进一步地,在步骤s1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度中,黄金标准后端处理查询请求时,推理后端需满足两个条件:一是推理后端空闲,二是推理后端的服务速率高于当前到达速率。
17、一种异构推理后端上的可扩展负载均衡的系统,包括推理精度估计模块、优先级计算模块和负载平衡输出模块;
18、推理精度估计模块用于将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度;
19、优先级计算模块用于计算所有推理后端的优先级,以推理后端由高到低的优先级排序作为负载平衡输出模块的后端选择顺序;
20、负载平衡输出模块用于设定控制阈值,计算上一个查询队列和当前查询队列的等待时间,若当前查询队列的等待时间大于控制阈值,则根据优先级计算模块中的优先级排序添加一个高优先级的推理后端,若上一个查询队列的等待时间小于等于控制阈值,则根据优先级计算模块中优先级排序去掉一个低优先级的推理后端。
21、本发明提供的一种异构推理后端上的可扩展负载均衡方法及系统的优点在于:本发明结构中提供的一种异构推理后端上的可扩展负载均衡方法及系统,能够自适应地通过负载平衡控制器来决定每个查询应该分布到哪个后端。利用了动态精度估计器以及考虑系状态和用户需求的后端优先排序器,本发明在大规模高并发的系统上可以实现异构推理后端上的负载均衡。本实施例设计了一个动态感知负载和精度的负载平衡控制器,实现延迟与准确性之间的权衡。适用于云端大规模数据分析、物联网边缘数据实时分析,端设备低功耗数据分析等场景。
1.一种异构推理后端上的可扩展负载均衡方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的异构推理后端上的可扩展负载均衡方法,其特征在于,在步骤s1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度中,具体包括:
3.根据权利要求1所述的异构推理后端上的可扩展负载均衡方法,其特征在于,在步骤s3的计算上一个查询队列和当前查询队列的等待时间中,其中查询队列的具体公式如下:
4.根据权利要求1所述的异构推理后端上的可扩展负载均衡方法,其特征在于,在步骤s1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度中,黄金标准后端处理查询请求时,推理后端需满足两个条件:一是推理后端空闲,二是推理后端的服务速率高于当前到达速率。
5.一种异构推理后端上的可扩展负载均衡系统,其特征在于,包括推理精度估计模块、优先级计算模块和负载平衡输出模块;