一种长链接推送恢复的实现方法和装置与流程

文档序号:34013110发布日期:2023-04-29 23:14阅读:111来源:国知局
一种长链接推送恢复的实现方法和装置与流程

本发明涉及机器学习训练,尤其涉及一种长链接推送恢复的实现方法和装置。


背景技术:

1、随着人工智能技术的发展,通过深度学习机器训练能解决以往传统机器学习算法无法解决的众多问题。而深度学习模型依赖于大规模样本的训练及计算机硬件的支持。随着业务量的增加、模型复杂程度的不断提升,需要机房大规模计算机集群的方式为众多的模型训练提供算力。在这个过程中,进行机器学习训练任务的计算机集群实时监控成为需要关注的重点,机器学习研发人员及相关运维人员,需要可以支持高性能低延时同时监控大量的集群设备数据及实验任务状态,以便及时发现问题。需要通过长链接以实现客户端长期保持其与服务器的有效链接状态。当客户端与服务器因为集群升级、网络问题等原因断开后,需要进行重连,实现长链接推送状态的回复,传统的长链接重连尝试通常采用指数回退算法,即在试图再次传输之前将潜在的延迟加倍。在最初的失败之后,发送者会在一个或两个回合之后随机地重新传输,在第二次失败之后,它会在1-4个回合之后再次尝试,第三次失败将意味着要再等待1-8个回合,以此类推。这种简练的方法使网络能够容纳各种潜在的竞争信号。因为最大延迟长度(2,4,8,16……)呈现一种指数级的递增。因此,如果前期几次没有重试成功,后期的重试间隔概率上较长,而且和具体用户所在场景无关,也就是说用户等待的期望值是相同的,与用户角色和所处的状态无关,极大的影响用户体验。


技术实现思路

1、本发明为克服上述的不足之处,目的在于提供一种长链接推送恢复的实现方法和装置,本发明通过在增加多重因子的反馈调节中来计算重连间隔时间,实现了综合考虑系统环境、用户角色、用户当前在系统的活跃程度多重因素,确保在集群压力不至于过大的同时,也保证了用户体验。

2、本发明是通过以下技术方案达到上述目的:一种长链接推送恢复的实现方法,包括如下步骤:

3、(1)确认长链接断开,开始进入重连循环;

4、(2)进入循环重连之前对循环次数进行初始化赋值,进行初始训练赋值;其中设循环次数i,初始赋值i=0;

5、(3)判断循环次数是否超过最大重连次数,若是,则判断长链接推送恢复失败,退出循环并反馈重连结果;否则进入步骤(4);

6、(4)对循环次数进行加1后进入步骤(5);

7、(5)根据本次重连延迟时间,向系统发出重连请求;

8、(6)判断本次重连是否成功,如果是,则退出循环并反馈长链接推送恢复情况;否则返回步骤(3),继续循环直至退出循环,并反馈长链接推送恢复情况。

9、作为优选,所述的长链接是指在执行主体与对端进行数据交互时,联立一次连接后,能够连续发送多个数据包;所述确认长链接断开的方法为,tcp断开,或者心跳断开。

10、作为优选,所述步骤(3)中,定义一个最大重连次数m,当重连次数超过m后不再进行重试;在循环次数i小于等于最大重连次数m的情况下,才能进入重连循环;否则退出重连循环,确认重连失败。

11、作为优选,所述步骤(4)中,每次进入重连循环,需要累加训练次数,即执行i+=1,然后进入步骤(5)。

12、作为优选,所述步骤(5)中,获取重连延迟时间delay,延迟delay秒向系统连接对端发出重连请求;其中获取重连延迟时间delay的方式如下:

13、(5.1)获取系统运行参数,系统运行参数包括最大重连次数m,压力常量p,敏感时间δt,系统工作时间区间β,最小重连时间a,指数基底b,累进指数c;

14、(5.2)确定本次重连时间区间,其中通过如下方式确定本次重连的时间区间:设本次循环中重连的时间区间[begin,end],begin=a+b^i,end=a+b^(i+1);

15、(5.3)获取本次重连反馈因子及其权重;

16、(5.4)确定本次重连权重得分并归一化,其中通过如下方式计算权重得分并归一化:式中s表示存储各项得分的数组,为实时计算出来的得分;m表示存储各项最大得分的数组,为预先配置好的;由各个项目的得分*权重/各个项目的最高得分*权重,即按照百分比的方式计算实际的得分;本次计算的score取值在[0,1]区间内;

17、(5.5)获取本次循环的重连延迟时间。

18、作为优选,所述的压力常量p作为一个可以配置的权衡点,p取值在0-10之间;p越大则期望恢复时间越短,同时系统的压力越大,p越小则期望恢复时间长,对系统的压力小;

19、敏感时间δt用于表示计算权重时,前向考虑的时间;

20、系统工作时间区间β,指代系统可以及时被人工响应的时间,取值为[8,24];最小重连时间a,默认为3;指数基底b,默认为3;累进指数c,默认为0.5。

21、作为优选,所述步骤(5.3)具体为:通过调节该类权重因子可以实现针对某个或某组特定的用户进行长链接推送恢复的调节:因子f1,权重为1,当系统被用户可见时它的值为1,不可见时它的值为0;因子f2,权重为2,当系统在恢复前δt时间内无交互为0,有1-2次交互行为为0.5,有超过2次的交互行为为1;因子f3,权重为2,当前时间处于β内记为1,不处于β内记为0;因子f4,权重为3,当系统在两次恢复区间用户有交互行为记为1,无交互行为记为0;因子f5,权重为3,表示系统登录用户权重,默认为0;其中可以通过关系型数据库存储各个因子及其权重分数,也可以使用规则系统动态配置因子;对于非首次循环来说,每次循环需要重新获取f1-f5各个项目的得分。

22、作为优选,所述步骤(5.5)中通过如下方式获取本次循环的重连延迟时间:

23、source=rand(begin,end)

24、delay=begin+(source-begin)*(source-begin)/(end-begin)^(p+score)

25、delay=min(end,delay)

26、式中,rand表示随机函数,随机产生(begin,end)直接的一个数值。

27、一种长链接推送恢复的装置,包括长链接断开判断模块,长链接重连延迟时间获取模块,长链接推送恢复模块;

28、长链接断开判断模块,用于判断当前长链接是否断开,当出现tcp断开,或者发送心跳包没有回应时,则判定为长链接断开;

29、长链接重连延迟时间获取模块,用于获取长链接重连延迟时间本次重连延迟时间;

30、长链接推送恢复模块,根据长链接重连延迟时间,向对端服务器发出重连请求,并反馈是否重连成功的结果。

31、作为优选,所述的长链接重连延迟时间获取模块包括系统运行参数获取单元、重连时间区间获取单元、重连反馈因子获取单元、权重得分获取单元及延迟时间获取单元;

32、系统运行参数获取单元,用于获取系统运行参数;系统运行参数包括前述最大重连次数m,压力常量p,敏感时间δt,系统工作时间区间β,最小重连时间a,指数基底b,累进指数c;

33、重连时间区间获取单元,用于确定本次重连的时间区间;

34、重连反馈因子获取单元,用于获取本次重连反馈因子及其权重;通过调节该类权重因子可以实现针对某个或某组特定的用户进行长链接推送恢复的调节;

35、权重得分获取单元,用于获取计算权重得分并归一化;

36、延迟时间获取单元,获取本次循环的重连延迟时间。

37、本发明的有益效果在于:(1)本发明采用了反馈调节实现长链接恢复的时间控制,与传统长链接重连技术相比,后台管理人员可以根据当前系统压力,所有用户或者某个特定用户分组重连期望时间进行调节,实现了长链接重连间隔时间的灵活控制;(2)本发明既保留了指数回退的优势,避免对系统有太多额外请求,将压力和节点全局定时器分散均匀,又保证了交互比较多、更加关注当前系统的用户,会更加优先地被对待,他们延迟重试时间的期望值更短,从而能够获得更好地体验。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1