一种海量视频副本存放方法与流程

文档序号:20765361发布日期:2020-05-15 18:50阅读:405来源:国知局
一种海量视频副本存放方法与流程

本发明涉及网络视频技术领域,具体涉及一种网络环境下海量视频副本的存放方法。



背景技术:

hdfs分布式策略在选择存放副本的datanode时,已经尽可能地选取合适的节点,但是并不是最合适,比如对存储空间的考虑,仅仅只是判断副本是否能够存放到剩余的空间,却忽略了选择剩余空间率最大的数据节点。随机选择数据节点的方式,有很大几率使副本存放在某些空间使用率高的数据节点上,与之相对应的是空间使用率比较低的数据节点上却只有很少的副本。特别是在一个较大的分布式集群已经运行了很久之后,每个数据节点都有比较重的存储负载,此时若有少量的新的空载节点加入,由于系统采用的随机算法,分布式系统有可能继续在有较重存储负担的节点上存储数据,对于新的轻载的数据节点没有有效利用,甚至可能出现重载节点因为耗尽空间而停止服务。经研究表明,在不停向hdfs集群上传数据,当空间使用率超过50%时,负载不均衡现象便会出现。虽然hdfs提供了动态调整集群负载的工具balancer,然而在利用此工具时,数据迁移占用的网络带宽较大,效率低下,最重要的是需要管理员手动进行操作。由于datanode上有可能因为数据迁移造成严重的i/o负担,影响了对客户端的读写响应,因而往往只适合在集群空闲时间使用。假设集群进行长时间读写操作,那么某些节点的负载就有可能来不及及时调整,造成集群的负载不均衡度越来越大。



技术实现要素:

本发明的目的在于对hdfs本身的副本分布策略做出改进,在文件首次写入的时候便对其进行负载均衡处理,让数据块能相对平均的分布在数据节点上,以避免负载不均衡现象。

本发明的技术方案如下:

一种海量视频副本存放方法,其特征在于:

(1)在本地机架中存放备份数据时,根据剩余空间占磁盘总容量的比例进行选择,来减少本地机架上的负载不均衡;

(2)在跨机架选择数据节点时,不仅考虑剩余空间存储的因素,也考虑网络开销的影响,根据以下等式选择节点:

s(数据节点)=f(网络开销,剩余存储容量),

其中f(网络开销,剩余存储容量)同时考虑了网络开销与剩余存储容量这两个因素。s(数据节点)是f函数开销最小的数据节点;

同时引入变量ɑ,根据以下公式来衡量网络开销以及剩余存储空间所占的比例:

s(数据节点)=ɑn+(1-ɑ)c(0<=ɑ<=1)

其中n表示当前数据节点网络可用的连接数占总共连接数的比例,c表示剩余存储空间占总空间的比例,ɑ表示两个因素的权重;根据系统的实际情况,确定ɑ值的大小,当网络开销占主导因素时,ɑ值取较大,反之取较小。

本发明针对原有的hadoop副本放置策略的局限性进行分析,提出并实现了副本分布策略,极为有效的解决了负载均衡问题,同时根据hadoop分布式运算的特点,存放在高带宽、大内存、磁盘利用率高的机器的视频数据可以最大化进行智能视频分析处理。

附图说明

图1是本发明的视频副本放置策略流程图。

具体实施方式

如图1所示,本发明的实现方式如下:

(1)根据剩余空间占磁盘总容量的比例进行选择,来减少本地机架上的负载不均衡。本地机架中存放的备份数据,一般情况下,本地机架中网络情况差异很小,因此只需要考虑数据节点剩余存储空间率来选择节点,代替原来在本地机架中随机选取节点的方式。随机选择数据节点的放置策略不能够保证数据节点均匀存储数据,从而导致某些节点出现频繁的i/o磁盘操作,而有些节点过分空闲的情况。因此选择本机架上的数据节点时,根据剩余空间占磁盘总容量的比例进行选择,来减少本地机架上的负载不均衡。

(2)跨机架的选取不仅仅需要考虑剩余空间的存储容量,同时也需要考虑网络状况。在整个机架出现某种故障时,数据的丢失导致无法从本地机架的备份中恢复,而根据默认的放置策略,需要从其他机架中的数据节点中恢复数据,但是默认的策略没有考虑网络带宽、延迟等的因素,因此会影响备份恢复的进度。所以在跨机架选择数据节点时,不仅要考虑剩余空间存储的因素,也应该考虑网络开销的影响。故有以下等式成立:

s(数据节点)=f(网络开销,剩余存储容量)(1-1)

其中f(网络开销,剩余存储容量)同时考虑了网络开销与剩余存储容量这两个因素。s(数据节点)是f函数开销最小的数据节点。

选择节点时,同时考虑了网络开销以及数据节点的剩余存储空间。引入变量ɑ来衡量网络开销以及剩余存储空间所占的比例,有如下公式:

s(数据节点)=ɑn+(1-ɑ)c(0<=ɑ<=1)(1-2)

其中n表示当前数据节点网络可用的连接数占总共连接数的比例,c表示剩余存储空间占总空间的比例,ɑ表示两个因素的权重。根据系统的实际情况,确定ɑ值的大小。即当网络开销占主导因素时,ɑ值取较大,反之取较小。



技术特征:

1.一种海量视频副本存放方法,其特征在于:

(1)在本地机架中存放备份数据时,根据剩余空间占磁盘总容量的比例进行选择,来减少本地机架上的负载不均衡;

(2)在跨机架选择数据节点时,不仅考虑剩余空间存储的因素,也考虑网络开销的影响,根据以下等式选择节点:

s(数据节点)=f(网络开销,剩余存储容量),

其中f(网络开销,剩余存储容量)同时考虑了网络开销与剩余存储容量这两个因素。s(数据节点)是f函数开销最小的数据节点;

同时引入变量ɑ,根据以下公式来衡量网络开销以及剩余存储空间所占的比例:

s(数据节点)=ɑn+(1-ɑ)c(0<=ɑ<=1)

其中n表示当前数据节点网络可用的连接数占总共连接数的比例,c表示剩余存储空间占总空间的比例,ɑ表示两个因素的权重;根据系统的实际情况,确定ɑ值的大小,当网络开销占主导因素时,ɑ值取较大,反之取较小。


技术总结
本发明提供一种海量视频副本存放方法,在本地机架中存放备份数据时,根据剩余空间占磁盘总容量的比例进行选择,来减少本地机架上的负载不均衡;在跨机架选择数据节点时,不仅考虑剩余空间存储的因素,也考虑网络开销的影响。有效的解决了负载均衡问题,同时根据Hadoop分布式运算的特点,存放在高带宽、大内存、磁盘利用率高的机器的视频数据可以最大化进行智能视频分析处理。

技术研发人员:张超;赵凯
受保护的技术使用者:北京航天长峰科技工业集团有限公司
技术研发日:2018.11.08
技术公布日:2020.05.15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1