数据监控方法及装置的制造方法

文档序号:10578038阅读:369来源:国知局
数据监控方法及装置的制造方法【专利摘要】本发明公开了一种数据监控方法,包括:获取预设时间阈值内服务器网卡的数据流量,所述数据流量包括数据流入量和数据流出量;根据所述数据流量、预设流量阈值、和/或预设流量比值阈值,判定所述数据流量是否平衡。本发明提出的数据监控方法及装置,能够监测到数据流量的异常情况。【专利说明】数据监控方法及装置
技术领域
[0001]本发明设及数据处理
技术领域
,特别是指一种数据监控方法及装置。【
背景技术
】[0002]化doop和hive是目前业界广泛使用的数据存储W及查询的分布式解决方案。HIVE,是基于化doop的一个数据仓库工具,可W将结构化的数据文件映射为一张数据库表,并提供简单的sql(StructuredQueryLanguage,结构化查询语言)查询功能,可W将sql语句转换为MapReduce(映射化简)任务进行运行。其优点是学习成本低,可W通过类SQL语句快速实现简单的MapReduce统计,不必开发专口的MapReduce应用,十分适合数据仓库的统计分析。[0003]HDFS(Hadoop分布式文件系统)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。皿FS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。皿FS放宽了一部分P0SIX(F*o;rtableOperatingSystemInte;rface,可移植操作系统接口)标准的约束,来实现流式读取文件系统数据的目的。现有技术中HDFS中的数据监控包括对数据进行验平(即,数据量的平衡性验证,用于验证数据量处于平衡状态,属于系统数据监控方式的一种)。但在实现本发明的过程中,发明人发现现有技术至少存在W下问题:[0004]现有技术中的数据验平方式,仅能判断数据量的平衡,不能判断监控到数据流量过高或过低时的异常情况。流量过高会导致数据接收延时、积压,影响后续日志解析等操作,数据的及时性会受到影响,如果流量超过接收机的负载能力会导致数据丢失设置会岩机;而当流量过低对数据接收不会造成影响,但可W说明数据存在上报存在不准确的可能性。【
发明内容】[0005]有鉴于此,本发明的目的在于提出一种数据监控方法及装置,能够监测到数据流量的异常情况。[0006]基于上述目的本发明实施例提供的数据监控方法,包括:[0007]获取预设时间阔值内服务器网卡的数据流量,所述数据流量包括数据流入量和数据流出量;[000引根据所述数据流量、预设流量阔值、和/或预设流量比值阔值,验证所述数据流量是否平衡。[0009]在一些实施方式中,根据所述数据流量、预设流量阔值、和/或预设流量比值阔值,判定所述数据流量是否平衡包括:[0010]判断所述预设时间阔值内所述数据流入量、和/或所述数据流出量是否处于预设流量阔值范围内;[0011]若所述数据流入量、和/或所述数据流出量处于预设流量阔值范围内,说明所述数据流入量、和/或所述数据流出量平衡。[0012]在一些实施方式中,根据所述数据流量、预设流量阔值、和/或预设流量比值阔值,判定所述数据流量是否平衡包括:[0013]计算所述数据流出量和数据流入量的比值;[0014]判断预设时间阔值内所述比值是否处于预设流量比值阔值范围内;[0015]若所述比值处于预设流量比值阔值范围内,说明所述数据流入量和所述数据流出量的比平衡。[0016]在一些实施方式中,所述预设流量阔值包括预设流入量阔值和预设流出量阔值;所述预设流入量阔值对应于所述数据流入量,所述预设流出量阔值对应于所述数据流出量。[0017]在一些实施方式中,所述的方法还包括:[0018]若所述数据流入量高于所述预设流量阔值范围中的最大值,判定所述数据流量不平衡;[0019]增加临时接收机;[0020]若增加临时接收机后仍不能平衡数据流量,判断出现数据流量不平衡的业务线接P;[0021]修改接收机配置,停止接收数据流量不平衡的业务线接口的上报数据。[0022]在一些实施方式中,所述的方法还包括:[0023]若所述数据流入量低于所述预设流量阔值范围中的最小值,判定所述数据流量不平衡;[0024]判断出现数据流量不平衡的业务线接口;[0025]发送数据流量不平衡的提示信息到与所述出现数据流量不平衡的业务线接口相关的业务方。[00%]在一些实施方式中,所述的方法还包括:[0027]若所述数据流出量高于所述预设流量阔值范围中的最大值或低于所述预设流量阔值范围中的最小值,判定所述数据流量不平衡;[0028]将出现数据流量不平衡的时间段的日志文件重新写入分布式文件系统。[0029]在一些实施方式中,所述的方法还包括:[0030]若所述数据流出量高于所述预设流量阔值范围中的最大值、所述数据流入量高于所述预设流量阔值范围中的最大值且所述数据流入量和所述数据流出量的比值处于预设流量比值阔值范围内,判定所述数据流量平衡。[0031]本发明实施例的另一方面,还提供了一种数据监控装置,包括:[0032]流量获取模块,用于获取预设时间阔值内服务器网卡的数据流量,所述数据流量包括数据流入量和数据流出量;[0033]平衡判定模块,用于根据所述数据流量、预设流量阔值、和/或预设流量比值阔值,判定所述数据流量是否平衡。[0034]在一些实施方式中,所述平衡判定模块,具体用于:[0035]判断所述预设时间阔值内所述数据流入量、和/或所述数据流出量是否处于预设流量阔值范围内;[0036]若所述数据流入量、和/或所述数据流出量处于预设流量阔值范围内,说明所述数据流入量、和/或所述数据流出量平衡。[0037]在一些实施方式中,所述平衡判定模块,具体用于:[0038]计算所述数据流出量和数据流入量的比值;[0039]判断预设时间阔值内所述比值是否处于预设流量比值阔值范围内;[0040]若所述比值处于预设流量比值阔值范围内,说明所述数据流入量和所述数据流出量的比平衡。[0041]在一些实施方式中,所述预设流量阔值包括预设流入量阔值和预设流出量阔值;所述预设流入量阔值对应于所述数据流入量,所述预设流出量阔值对应于所述数据流出量。[0042]在一些实施方式中,所述平衡判定模块,具体用于:[0043]若所述数据流入量高于所述预设流量阔值范围中的最大值,判定所述数据流量不平衡;[0044]增加临时接收机;[0045]若增加临时接收机后仍不能平衡数据流量,判断出现数据流量不平衡的业务线接P;[0046]修改接收机配置,停止接收数据流量不平衡的业务线接口的上报数据。[0047]在一些实施方式中,所述平衡判定模块,具体用于:[0048]若所述数据流入量低于所述预设流量阔值范围中的最小值,判定所述数据流量不平衡;[0049]判断出现数据流量不平衡的业务线接口;[0050]发送数据流量不平衡的提示信息到与所述出现数据流量不平衡的业务线接口相关的业务方。[0051]在一些实施方式中,所述平衡判定模块,具体用于:[0052]若所述数据流出量高于所述预设流量阔值范围中的最大值或低于所述预设流量阔值范围中的最小值,判定所述数据流量不平衡;[0053]将出现数据流量不平衡的时间段的日志文件重新写入分布式文件系统。[0054]在一些实施方式中,所述平衡判定模块,具体用于:[0055]若所述数据流出量高于所述预设流量阔值范围中的最大值、所述数据流入量高于所述预设流量阔值范围中的最大值且所述数据流入量和所述数据流出量的比值处于预设比值阔值范围内,判定所述数据流量平衡。[0056]从上面所述可W看出,本发明实施例提供的数据监控方法,通过直接调用服务器网卡上报的数据流入量、数据流出量、和/或计算二者的数据量比值,判断数据流入量、数据流出量和/或数据量比值是否处于相应的阔值范围内,从而根据判断结果进行数据流量验平,一方面,直接利用服务器网卡上报的数据,无需增加其他流量监控设备,另一方面,能够对数据流量的异常情况进行监控。【附图说明】[0057]图I为本发明提供的数据监控方法的第一个实施例的流程示意图;[0058]图2为本发明提供的数据监控方法的第二个实施例的流程示意图;[0059]图3为本发明提供的数据监控方法的第=个实施例的流程示意图;[0060]图4为本发明提供的数据监控方法的第四个实施例的流程示意图;[0061]图5为本发明提供的数据监控方法的第五个实施例的流程示意图;[0062]图6为本发明提供的数据监控方法的第六个实施例的流程示意图;[0063]图7为本发明提供的数据监控装置的第一个实施例的模块结构示意图。[0064]图8为本发明提供的数据监控装置的第四个和/或第五个实施例的模块结构示意图。【具体实施方式】[0065]为使本发明的目的、技术方案和优点更加清楚明白,W下结合具体实施例,并参照附图,对本发明进一步详细说明。[0066]需要说明的是,本发明实施例中所有使用"第一"和"第二"的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见"第一""第二"仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。[0067]本发明实施例的第一个方面,提出了一种数据监控方法的第一个实施例,能够监测到数据流量的异常情况。如图1所示,为本发明提供的数据监控方法的第一个实施例的流程示意图。[0068]所述数据监控方法,包括W下步骤:[0069]步骤101:获取预设时间阔值内服务器网卡的数据流量,所述数据流量包括数据流入量和数据流出量;[0070]服务器网卡是服务器必备的设备,用于服务器与交换机等网络设备之间的连接;网卡,又称网络适配器或网络接口卡(NIC),英文名为化tworkInterface化rd;在网络中,如果有一台计算机没有网卡,那么运台计算机将不能和其他计算机通信,它将得不到服务器所提供的任何服务;当然如果服务器没有网卡,就称不上服务器了,所W服务器网卡是服务器必备的设备,就像普通PC(个人电脑)需要配置处理器一样;常见的PC机上的网卡主要是将PC机和LAN(局域网)相连接,而服务器网卡,一般是用于服务器与交换机等网络设备之间的连接;[0071]服务器网卡在平时工作时,其数据流量会被实时采集并上报,因此,步骤101中的服务器网卡的数据流量(包括数据流入量和数据流出量)直接从上报数据中提取即可;[0072]所述预设时间阔值,可W是指一个最佳的监控时间段(例如每天的中午12点至下午2点),也可W是用于确定数据流量平均值的一小段时间(例如5分钟);[0073]步骤102:根据所述数据流量、预设流量阔值、和/或预设流量比值阔值,判定所述数据流量是否平衡;[0074]运里,在判定所述数据流量是否平衡时,可W采用数据流量与预设流量阔值进行对比,采用运种对比方式时,如果着重考量数据流入量的稳定性,则可W是将数据流入量与预设流入量阔值进行对比,如果着重考量数据流出量的稳定性,则也可W是将数据流出量与预设流出量阔值进行对比,如果需要综合考量,则还可W是将数据流入量和数据流出量分别与预设流入量阔值和预设流出量阔值进行对比,然后综合判定数据流量是否平衡;并且,根据实际情况,所述预设流入量阔值和预设流出量阔值可W是同一个阔值,也可W是不同的阔值。此外,所述判定所述数据流量是否平衡,还可W采用将所述数据流入量除W数据流出量得到比值后,将比值与预设流量比值阔值进行比对,来判定数据流量是否平衡,在比值低于预设流量比值阔值范围的最小值或高于预设流量比值阔值范围的最大值时,则可说明数据流入量和数据流出量之间不平衡。[0075]从上述实施例可W看出,本发明提供的数据监控方法,通过直接调用服务器网卡上报的数据流量,判断数据流量和/或数据量比值是否处于相应的阔值范围内,从而根据判断结果进行数据流量验平,一方面,直接利用服务器网卡上报的数据,无需增加其他流量监控设备,另一方面,能够对数据流量的异常情况进行监控。[0076]本发明实施例的第二个方面,提出了一种数据监控方法的第二个实施例,能够监测到数据流量的异常情况。如图2所示,为本发明提供的数据监控方法的第二个实施例的流程示意图。[0077]所述数据监控方法,包括W下步骤:[0078]步骤101:获取服务器网卡的数据流入量和数据流出量;[0079]服务器网卡是服务器必备的设备,用于服务器与交换机等网络设备之间的连接;网卡,又称网络适配器或网络接口卡(NIC),英文名为化tworkInterface化rd;在网络中,如果有一台计算机没有网卡,那么运台计算机将不能和其他计算机通信,它将得不到服务器所提供的任何服务;当然如果服务器没有网卡,就称不上服务器了,所W服务器网卡是服务器必备的设备,就像普通PC(个人电脑)需要配置处理器一样;常见的PC机上的网卡主要是将PC机和LAN(局域网)相连接,而服务器网卡,一般是用于服务器与交换机等网络设备之间的连接;[0080]服务器网卡在平时工作时,其数据流入量和数据流出量会被实时采集并上报,因此,步骤101中的服务器网卡的数据流入量和数据流出量直接从上报数据中提取即可;[0081]步骤102:根据所述数据流量、预设流量阔值、和/或预设流量比值阔值,判定所述数据流量是否平衡;[0082]其中,在一些可选实施方式中,所述步骤102还可W具体包括W下步骤:[0083]步骤201:判断所述数据流入量是否处于预设流入量阔值范围内;[0084]运里,判断所述数据流入量是否处于预设流入量阔值范围内时,可W选择第一预设时间段内采集的数据流入量来判断;所述第一预设时间段,可W是指需要进行数据流量异常监控的时间段(例如一天中的某一个时段,运个时段采集的数据流量用于进行数据监控的效果最好)或者能够满足数据流量异常监控需要而应当采集数据的时间长度(例如每隔2小时进行一次日志量验平的效果最好);运里,根据实际需要,可W对第一预设时间段进行选择,并可W根据实际情况的变化,对第一预设时间段进行调整;并且,可选的,在判断第一预设时间段内所述数据流入量是否处于预设流入量阔值范围内时,可W是采用第一预设时间段内每个时间点的数据流入量是否都处于预设流入量阔值范围内的方式;但是,为了计算方便和节约资源的需要,所述判断第一预设时间段内所述数据流入量是否处于预设流入量阔值范围内的方式,可W是将第一预设时间段内采集得到的所有数据流入量取平均值后,再判断数据流入量平均值是否处于预设流入量阔值范围内;[0085]或者,还可W不设置第一预设时间段,而采用24小时随时监控的方式,例如任何时间出现流入量超出预设流入量阔值范围的情况,均认为数据流量不平衡,或者,出现流入量超出预设流入量阔值范围的情况超过一定时间(可假设为第一预设时间阔值,可选的,例如5分钟)则认为数据流量不平衡的方式;[0086]所述预设流入量阔值范围,是指可W认定所述数据流入量为正常状态的范围,其可根据实际需要进行选择并根据情况变化而进行调整,例如,通常情况下,数据流入量是200M/S,那么所述预设流入量阔值范围则需要在200M/S上下浮动才能认定为正常,此时预设流入量阔值范围可W是,例如150~250M/S;[0087]和/或,[0088]步骤202:判断所述数据流出量是否处于预设流出量阔值范围内;[0089]运里,判断所述数据流出量是否处于预设流出量阔值范围内时,可W选择第二预设时间段内采集的数据流出量来判断;运里的第二预设时间段可W与步骤201中的第一预设时间段相同,当然,在某些情况下,运里的第二预设时间段与步骤202中的第一预设时间段也可W不相同;同样的,可选的,在判断第二预设时间段内所述数据流出量是否处于预设流出量阔值范围内时,可W是采用第二预设时间段内每个时间点的数据流出量是否都处于预设流出量阔值范围内的方式;但是,为了计算方便和节约资源的需要,所述判断第二预设时间段内所述数据流出量是否处于预设流出量阔值范围内的方式,可W是将第二预设时间段内采集得到的所有数据流出量取平均值后,再判断数据流出量平均值是否处于预设流出量阔值范围内;[0090]或者,还可W不设置第二预设时间段,而采用24小时随时监控的方式,例如任何时间出现流入量超出预设流入量阔值范围的情况,均认为数据流量不平衡,或者,出现流入量超出预设流入量阔值范围的情况超过一定时间(可假设为第二预设时间阔值,可选的,例如5分钟)则认为数据流量不平衡的方式;[0091]同理,所述预设流出量阔值范围,是指可W认定所述数据流出量为正常状态的范围,其可根据实际需要进行选择并根据情况变化而进行调整,例如,通常情况下,数据流出量是200M/S,那么所述预设流出量阔值范围则需要在200M/S上下浮动才能认定为正常,此时预设流出量阔值范围可W是,例如150~250M/S;并且,根据不同的情况,所述预设流出量阔值范围可W等于或不等于所述预设流入量阔值范围;[0092]和/或,[0093]步骤203:计算所述数据流出量和数据流入量的数据量比值;[0094]步骤204:判断所述数据量比值是否处于第一预设比值阔值范围内;[0095]单独对数据流入量或数据流出量进行判断时,只能分别判断二者的流量是否出现异常,但是不能判断二者是否保持了平衡;正常情况下,流入量应当等于或约等于流出量,才能说明网络正常,因此,步骤203中对数据量比值进行了计算,并在步骤204中对数据量比值进行了阔值判断;[0096]运里,判断所述数据量比值是否处于第一预设比值阔值范围内时,可W选择第=预设时间段内采集的数据流出量来判断;所述第一预设比值阔值范围,是指可W认定所述数据量比值为正常状态的范围,其可根据实际需要进行选择并根据情况变化而进行调整,例如,通常情况下,数据流入量是200M/S、数据流出量是200M/S,那么数据量比值是1,所述预设流出量阔值范围则需要在I上下浮动才能认定为正常,但是,通常情况下,数据流出量小于数据流入量,因此所述数据量比值是小于或等于1的值,此时预设流出量阔值范围可W是,例如0.8~1;[0097]此外,运里的第=预设时间段可W与步骤201中的第一预设时间段相同,当然,在某些情况下,运里的第=预设时间段与步骤201中的第一预设时间段也可W不相同;同样的,可选的,在判断第=预设时间段内所述数据量比值是否处于第一预设比值阔值范围内时,可W是采用第=预设时间段内每个时间点的数据量比值是否处于第一预设比值阔值范围内的方式;但是,为了计算方便和节约资源的需要,所述判断第=预设时间段内所述数据量比值是否处于第一预设比值阔值范围内的方式,可W是将第=预设时间段内采集得到的所有数据量比值取平均值后,再判断数据量比值平均值是否处于第一预设比值阔值范围内;[0098]或者,还可W不设置第=预设时间段,而采用24小时随时监控的方式,例如任何时间出现数据量比值超出第一预设比值阔值范围的情况,均认为数据流量不平衡,或者,出现数据量比值超出第一预设比值阔值范围的情况超过一定时间(可假设为第一预设时间阔值或第二预设时间阔值,还可W根据需要选择其他阔值,可选的,例如5分钟)则认为数据流量不平衡的方式;[0099]步骤205:根据判断结果,判定数据流量是否平衡;[0100]运里的判断结果,包括步骤201、步骤202和/或步骤204的判断结果;[0101]若单独根据数据流入量进行判断,判定数据流量是否平衡的步骤可包括:当数据流入量处于预设流入量阔值范围内时,数据流量平衡,当数据流入量不处于预设流入量阔值范围内时,数据流量不平衡;例如,预设流入量阔值范围为150~250M/S,若数据流入量是200M/S,则数据流量平衡,若数据流入量是lOOM/s或400M/S,则说明数据流量出现了异常,即不平衡;[0102]同理,若单独根据数据流出量进行判断,判定数据流量是否平衡的步骤可包括:当数据流出量处于预设流出量阔值范围内时,数据流量平衡,当数据流出量不处于预设流出量阔值范围内时,数据流量不平衡;例如,预设流出量阔值范围为150~250M/S,若数据流出量是200M/S,则数据流量平衡,若数据流出量是lOOM/s或400M/S,则说明数据流量出现了异常,即不平衡;[0103]若单独根据数据量比值进行判断,判定数据量比值是否平衡的步骤可包括:当数据量比值处于第一预设比值阔值范围内时,数据流量平衡,当数据量比值不处于第一预设比值阔值范围内时,数据流量不平衡;例如,第一预设比值阔值范围为0.8~IM/s,若数据流入量是200M/S,数据流入量是180M/S,则数据量比值为0.9,因此数据流量平衡,若数据流入量是400M/S,数据流入量是180M/S,则数据量比值为0.45,因此说明数据流量出现了异常,即不平衡;[0104]除了单独判断外,步骤201、步骤202和步骤204还可W排列组合使用,例如,将步骤201和步骤202结合,或者将步骤201和步骤204结合,再或者将步骤202和步骤204结合,还能将步骤201、步骤202和步骤204=者进行结合;进行排列组合时,步骤201、步骤202和步骤204的顺序还能进行任意颠倒,即可W把步骤204放在前面,步骤202随后,步骤201最后,等等;[0105]可选的,在对步骤201、步骤202和步骤204排列组合使用时,若其中一个步骤中的判断结果为不平衡,即认为是数据流量不平衡,当全部步骤的判断结果都是平衡时,才能认为数据流量平衡。[0106]此外,在判断数据流量不平衡时,还可W发出警告信息,提醒技术人员及时分析问题原因并快速进行补救。[0107]从上述实施例可W看出,本发明实施例提供的数据监控方法,通过直接调用服务器网卡上报的数据流入量、数据流出量并计算二者的数据量比值,从而判断数据流入量、数据流出量和/或数据量比值是否处于相应的阔值范围内,从而根据判断结果进行数据流量验平,一方面,直接利用服务器网卡上报的数据,无需增加其他流量监控设备,另一方面,能够对数据流量的异常情况进行监控。[0108]本发明实施例的第=个方面,提出了一种数据监控方法的第=个实施例,能够监测到数据流量的异常情况。如图3所示,为本发明提供的数据监控方法的第=个实施例的流程示意图。[0109]所述数据监控方法,包括W下步骤:[0110]步骤101:获取服务器网卡的数据流入量和数据流出量;[0111]服务器网卡是服务器必备的设备,用于服务器与交换机等网络设备之间的连接;网卡,又称网络适配器或网络接口卡(NIC),英文名为化tworkInterface化rd;在网络中,如果有一台计算机没有网卡,那么运台计算机将不能和其他计算机通信,它将得不到服务器所提供的任何服务;当然如果服务器没有网卡,就称不上服务器了,所W服务器网卡是服务器必备的设备,就像普通PC(个人电脑)需要配置处理器一样;常见的PC机上的网卡主要是将PC机和LAN(局域网)相连接,而服务器网卡,一般是用于服务器与交换机等网络设备之间的连接;[0112]服务器网卡在平时工作时,其数据流入量和数据流出量会被实时采集并上报,因此,步骤101中的服务器网卡的数据流入量和数据流出量直接从上报数据中提取即可;[0113]步骤102:根据所述数据流量、预设流量阔值、和/或预设流量比值阔值,判定所述数据流量是否平衡;[0114]其中,在一些可选实施方式中,所述步骤102还可W具体包括W下步骤:[0115]步骤301:若所述数据流入量高于所述预设流量阔值范围中的最大值,说明数据流入量过高,判定所述数据流量不平衡;运里的预设流量阔值可W是指预设流入量阔值;[0116]步骤302:增加临时接收机,W保证数据正常接收;所述接收机,通常是指提供日志数据接收服务的服务器,数据流量则从服务器网卡中获取,因此,增加临时接收机,有助于缓解网卡数据流入量压力;运里,临时接收机可W采用备用服务器或具有数据接收功能的流量压力不大的其他服务器;增加临时接收机的方式,可W采用自动调用备用服务器或具有数据接收功能的流量压力不大的其他服务器的方式,或者采用技术工程师手动修改服务器配置的方式;[0117]步骤303:若增加临时接收机后仍不能平衡数据流量,判断出现数据流量不平衡的业务线接口;所述业务线接口可W是某一个或某几个的业务线的某一个或某几个服务器数据接口,一个业务线代表一个产品(例如移动端APP、网站,等等),一个业务线可W对应多个接口;接口是指服务器的日志数据接口,是对日志服务的一种分类,比如,乐视网移动端app的日志数据上报接口有:登录、环境、播放、广告等接口,登录接口负责接收用户登录的日志数据,环境接口负责接收app安装环境的日志数据,播放接口负责接收视频播放上报的日志数据,等等;[0118]判断出现数据流量不平衡的业务线接口的方式可W是,将每个业务线的每个接口的所述数据流入量与该接口相应的历史数据流入量进行对比,数据流量差异较大的业务线接口则为数据流量不平衡的业务线接口;[0119]步骤304:修改接收机配置,停止接收数据流量不平衡的业务线接口的上报数据,从而保证不影响其它业务线和接口的数据接收;[0120]和/或,[0121]步骤305:若所述数据流入量低于所述预设流量阔值范围中的最小值,说明数据流入量过低,判定所述数据流量不平衡;运里的预设流量阔值可W是指预设流入量阔值;[0122]步骤306:判断出现数据流量不平衡的业务线接口;[0123]同样的,所述业务线接口可W是某一个或某几个的业务线的某一个或某几个服务器数据接口,一个业务线代表一个产品(例如移动端APP、网站,等等),一个业务线可W对应多个接口;接口是指服务器的日志数据接口,是对日志服务的一种分类,比如,乐视网移动端app的日志数据上报接口有:登录、环境、播放、广告等接口,登录接口负责接收用户登录的日志数据,环境接口负责接收app安装环境的日志数据,播放接口负责接收视频播放上报的日志数据,等等;[0124]判断出现数据流量不平衡的业务线接口的方式可W是,将每个业务线的每个接口的所述数据流入量与该接口相应的历史数据流入量进行对比,数据流量差异较大的业务线接口则为数据流量不平衡的业务线接口;[0125]步骤307:发送数据流量不平衡的提示信息到与所述出现数据流量不平衡的业务线接口相关的业务方;与业务线接口相关的业务方,是指该业务线接口接收到的日志数据是谁上报的,比如说乐视视频移动端上报的数据量特别少,向移动端业务方发送所述提示信息,用于通知他们检查上报数据是否有问题;从而督促相关的业务方查找原因,解决问题;所述提示信息可W是被发送到的业务方预先设定的信息接收模块,或者是业务方的相关技术人员的测试设备或者智能终端(如技术人员的手机或个人电脑等等);[0126]和/或,[0127]步骤308:若所述数据流出量高于所述预设流量阔值范围中的最大值或低于所述预设流量阔值范围中的最小值,判定所述数据流量不平衡;运里的预设流量阔值可W是指预设流出量阔值;并且,根据不同的情况,所述预设流出量阔值范围可W等于或不等于所述预设流入量阔值范围;[0128]步骤309:将出现数据流量不平衡的时间段的日志文件重新写入分布式文件系统;可选的,在判定数据流量不平衡时,还可同时发出警告信息,所述警告信息的发送对象可W是皿FS的相关技术人员或维护人员的测试设备或者智能终端(如技术人员的手机或个人电脑等等),用于提醒他们查找相关问题并及时解决;[0129]其中,当数据流出量高于所述预设流量阔值范围中的最大值时:[0130]可W通过查看HDFS接收的日志文件数量与入库的日志文件数量是否一致来判断皿FS输出的日志文件数量是否正常,从而确定出现数据流出量高于所述预设流量阔值范围中的最大值的原因;[0131]通常情况下,接收机接收到日志数据后,会将日志数据暂存到接收机的磁盘上的日志文件con.log中,每隔一段时间,日志文件con.log被重命名为另一个文件(即完整日志文件)并重新生成新的日志文件con.log用于暂存新的日志数据,被重命名后得到的完整日志文件可使用一个程序(例如glume(可译为颖),一种类似于Flume(可译为水槽)的程序)存储到HDFS,得到seq(可译为序列,一种预设的外部命令,一般用作一堆数字的简化写法)文件格式的落盘日志文件,所述seq文件格式的落盘日志文件经过解析程序后得到RC(runcommand,运行命令)文件并挂载到化ve完成入库,得到入库日志文件;此时,若接收到的完整日志文件的数量与入库的入库日志文件数量不一致,则说明皿FS输出的日志文件数量不正常,反之,则为正常;Flume是一种高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力;[0132]如果正常,则可能是有相关技术人员在接收机上提取数据导致网卡流量偏高,因此可W忽略警告信息;[0133]如果不正常,可能是网络异常或glume异常导致数据重复发送,从而引起的数据输出量超高;比如,需要传输的文件大小为100M,传了80M的时候,因为网络异常或glume异常,传输失败了,glume会把运个已经传输的80M文件删了,并重新上传文件,如果文件传输成功了,流出的流量就有180M,而正常情况下则应该是1OOM;[0134]可选的,可W通过检查glume的运行日志来判断异常原因,在glume的运行日志中可W查到是由于gl皿e处理异常还是网络断开而导致的重试,查到相应的报错信息后,根据具体的报错信息进行处理即可;[0135]处理结束后,将出现数据流量不平衡的时间段的日志文件重新写入分布式文件系统皿FS;可选的,因为补数,会导致下一小时的数据流出量偏高,警告信息可W酌情忽略;所述补数,是指将接收机的数据重新发送到化doop集群的皿!^上,至于需要补哪些数据,就看哪些时间段的接收的日志文件数量与入库的日志文件数量不相等;[0136]当数据流出量低于所述预设流量阔值范围中的最小值时,可选的,首先检查数据流出量过低的原因,可包括W下步骤:[0137]分析gl皿e的日志,确定gl皿e是否出现问题;[013引若gl皿e出现问题,针对问题进行相应处理;[0139]若glume未出现问题,检查接收机到hadoop集群的网络是否杨通;可选的,通过判断延迟是否过大来确定集群网络是否杨通;[0140]若网络不杨通,则针对该问题进行相应处理;[0141]问题将出现数据流量不平衡的时间段的日志文件重新写入分布式文件系统HDFS;可选的,因为补数,会导致下一小时的数据流出量偏高,警告信息可W酌情忽略;所述补数,是指将接收机的数据重新发送到化doop集群的HDFS上,至于需要补哪些数据,就看哪些时间段的接收的日志文件数量与入库的日志文件数量不相等;[0142]和/或,[0143]正常情况下,数据流入量与数据流出量的比值会保持在一定的范围内;可选的,可W根据经验或者一些机器学习等方法得到一个比值,即预设流量比值阔值;[0144]由于数据流入量和数据流出量的波动相对比较大,如果不设比例监控就有可能发生漏报,比如预设流入量阔值是100-150M/S,预设流出量阔值是70-100M/S,如果真实流入流量是145,真实流量是71,运样不会报错,但其实运个比例已经低于50%,说明需要进行错误排查,如果预设流量比值阔值的最小值大于0.6,就可W防止此类漏报;[0145]此外,还可W采用W下步骤排除一些误报:[0146]步骤310:若所述数据流出量高于所述预设流量阔值范围中的最大值、所述数据流入量高于所述预设流量阔值范围中的最大值且所述数据流入量和所述数据流出量的比值处于预设流量比值阔值范围内,判定所述数据流量平衡;[0147]例如,乐视网如果上线一部非常火的电影,点击量会增加很多,运时上报的日志数量也会增加,从而导致数据流入量和数据流出量均大幅增加,数据流入量和数据流出量有可能会分别超出各自的预设流入量阔值和预设流出量阔值,但是数据流入量和数据流出量的比值却在正常的范围内,运样就可W酌情忽略流入流出流量过高报警;[0148]可选的,当数据流入量和数据流出量的比值超出预设流量比值阔值范围时:[0149]若比值过大,处理过程同流出量过高+流入量过低;若比值过小,处理过程同流出量过低+流入量过高;在此不再寶述。[0150]需要说明的是,上述步骤301-304、步骤305-307、步骤308-309、步骤310之间可W是并列关系,即择一采用,也可W是顺序关系,并且顺序可W排列组合,即不按照步骤的数字顺序依次进行,排在后面的步骤可W插入前面任意步骤之前先进行,只要能够实现本发明的部分发明目的并达到相应的技术效果,就能够作为本发明的实施例来进行。[0151]从上述实施例可W看出,本发明实施例提供的数据监控方法,除了能够通过直接调用服务器网卡上报的数据流入量、数据流出量并计算二者的数据量比值,判断数据流入量、数据流出量和/或数据量比值是否处于相应的阔值范围内,从而根据判断结果进行数据流量验平,实现直接利用服务器网卡上报的数据,无需增加其他流量监控设备,W及,能够对数据流量的异常情况进行监控的效果外;在监测到数据流量不平衡时,还可W分析不平衡的原因并采取相应的手段处理相应的问题。[0152]本发明实施例的第四个方面,提出了一种数据监控方法的第四个实施例,能够监测到数据流量的异常情况。如图4所示,为本发明提供的数据监控方法的第四个实施例的流程示意图。[0153]结合参照附图1和附图4,所述数据监控方法,包括W下步骤:[0154]步骤101:获取服务器网卡的数据流入量和数据流出量;[0155]服务器网卡是服务器必备的设备,用于服务器与交换机等网络设备之间的连接;网卡,又称网络适配器或网络接口卡(NIC),英文名为化tworkInterface化rd;在网络中,如果有一台计算机没有网卡,那么运台计算机将不能和其他计算机通信,它将得不到服务器所提供的任何服务;当然如果服务器没有网卡,就称不上服务器了,所W服务器网卡是服务器必备的设备,就像普通PC(个人电脑)需要配置处理器一样;常见的PC机上的网卡主要是将PC机和LAN(局域网)相连接,而服务器网卡,一般是用于服务器与交换机等网络设备之间的连接;[0156]服务器网卡在平时工作时,其数据流入量和数据流出量会被实时采集并上报,因此,步骤101中的服务器网卡的数据流入量和数据流出量直接从上报数据中提取即可;[0157]步骤102:根据所述数据流量、预设流量阔值、和/或预设流量比值阔值,判定所述数据流量是否平衡;[0158]其中,进一步的,在一些可选实施方式中,所述数据监控方法,还可进一步包括W下步骤:[0159]步骤401:接收日志数据,并根据配置文件生成完整日志文件;所述完整日志文件中包含有所有后续处理与分析所需要的日志信息;所述日志数据为用户方因为进行了相应操作而产生并上传的操作记录数据,所述完整日志文件可W是指正常情况下系统所记录的日志文件,其中包含了一个常规日志文件所需要具有的所有日志信息;[0160]可选的,本实施例针对的是离线分析架构,本实施例应用于Nginx,运里的配置文件可W直接利用Nginx中的配置文件;Nginx(也称"engineX",引擎X)是一个高性能的HTTP(^HyperTextTransferProtocol,超文本传输协议)和反向代理服务器,也是一个IMAP(InternetMailAccessProtocol,互联网邮件访问协议)/P0P3(PostOfficeProtocol-Version3,邮局协议版本3)/SMTP(SimpleMailTransferProtocol,简单邮件传输协议)服务器;Nginx作为负载均衡服务器,既可W在内部直接支持Rails(可译为轨道,是一种用于开发数据库驱动的网络应用程序的完整框架)和PHP(HypedextPr邱rocessor,超文本预处理器)程序对外进行服务,也可W支持作为HTTP代理服务器对外进行服务;[0161]步骤402:根据所述完整日志文件,统计第二预设时间阔值内接收得到的完整日志文件数量;所述第二预设时间阔值,可W是指需要进行日志量验平的时间段(例如一天中的某一个时段,运个时段采集的数据用于验平的效果最好)或者能够满足日志量验平需要而应当采集数据的时间长度(例如每隔2小时进行一次日志量验平的效果最好);运里,根据实际需要,可W对第二预设时间阔值进行选择,并可W根据实际情况的变化,对第二预设时间阔值进行调整;[0162]步骤403:将所述完整日志文件写入分布式文件系统并解析得到入库日志文件;[0163]运里,服务器接收到数据后,会存储到服务器的磁盘上,然后完整日志文件在服务器落盘后存储到分布式文件系统皿FS中,得到seq(可译为序列,一种预设的外部命令,一般用作一堆数字的简化写法)文件格式的落盘日志文件,所述seq文件格式的落盘日志文件经过解析程序后得到RC(runcommand,运行命令)文件并挂载到化ve完成入库,得到入库日志文件;[0164]具体的,完整日志文件的落盘过程(即完整日志文件写入皿FS的过程)可包括W下步骤:服务器接收到日志数据后,暂存在日志文件con.log中,每十分钟旋转一次,旋转后,完整日志文件被重命名为另一个文件(运个重命名的文件就是用于落盘的所述完整日志文件,例如cons.20160512-0110.log),同时重新加载(reload)所述配置文件,生成一个新的日志文件con.log(虽然与前一日志文件con.log命名相同,但因为前一日志文件被重命名后形成为一个完整日志文件,运里的重新生成的日志文件con.log则为一个全新的空日志文件,其中接下来继续暂存的内容也就是新的日志内容);接着,被重命名后得到的完整日志文件可使用一个程序(例如glume(可译为颖),一种类似于Flume(可译为水槽)的程序)存储到HDFS,运样,就完成了从日志数据接收到本地落盘写入HDFS的过程;Flume是一种高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力;[0165]步骤404:根据所述入库日志文件,统计所述第二预设时间阔值内的入库日志文件数量;可选的,所述入库日志文件数量是从化ve中统计得到的;[0166]步骤405:根据所述完整日志文件数量和入库日志文件数量,判定所述第二预设时间阔值内的日志量是否平衡;[0167]可选的,判定所述第二预设时间阔值内的日志量是否平衡的方法可W是,判断所述完整日志文件数量和入库日志文件数量是否相等,若相等,则日志量平衡,若不相等,贝U日志量不平衡。[0168]可W看出,结合上述实施例,本发明所提供的数据监控方法,除了能够监控网卡流量的异常情况外,还能针对日志量进行数据量验平,从而起到了更好更完善的数据监控效果。[0169]本发明实施例的第五个方面,提出了一种数据监控方法的第四个实施例,能够监测到数据流量的异常情况。如图5所示,为本发明提供的数据监控方法的第五个实施例的流程示意图。[0170]结合参照附图1和附图5,所述数据监控方法,包括W下步骤:[0171]步骤101:获取服务器网卡的数据流入量和数据流出量;[0172]服务器网卡是服务器必备的设备,用于服务器与交换机等网络设备之间的连接;网卡,又称网络适配器或网络接口卡(NIC),英文名为化tworkInterface化rd;在网络中,如果有一台计算机没有网卡,那么运台计算机将不能和其他计算机通信,它将得不到服务器所提供的任何服务;当然如果服务器没有网卡,就称不上服务器了,所W服务器网卡是服务器必备的设备,就像普通PC(个人电脑)需要配置处理器一样;常见的PC机上的网卡主要是将PC机和LAN(局域网)相连接,而服务器网卡,一般是用于服务器与交换机等网络设备之间的连接;[0173]服务器网卡在平时工作时,其数据流入量和数据流出量会被实时采集并上报,因此,步骤101中的服务器网卡的数据流入量和数据流出量直接从上报数据中提取即可;[0174]步骤102:根据所述数据流量、预设流量阔值、和/或预设流量比值阔值,判定所述数据流量是否平衡;[0175]其中,可选的,在另一些可选实施方式中,所述数据监控方法,还可进一步包括W下步骤:[0176]步骤501:接收日志数据,并根据所述配置文件生成完整日志文件(其中包含有所有需要的日志信息)和短日志文件;所述配置文件中包括短日志文件生成信息;所述短日志文件中包含的日志信息少于所述完整日志文件中包含的日志信息;所述完整日志文件可W是指正常情况下系统所记录的日志文件,其中包含了一个常规日志文件所需要具有的所有日志信息;[0177]可选的,本发明实施例针对的是离线分析架构,本发明实施例应用于Nginx,运里的配置文件可W直接利用Nginx中的配置文件,在该配置文件中增加短日志文件生成信息;Nginx(也称"engineX",引擎X)是一种高性能的HTTP巧yperTextIYansferProtocol,超文本传输协议)和反向代理服务器,也是一个IMAPQnternetMailAccessProtocol,互联网邮件访问协议)/P〇P3(PostOfficeProtocol-Version3,邮局协议版本3)/SMTP(SimpleMailIYansferProtocol,简单邮件传输协议)服务器;Nginx作为负载均衡服务器,既可W在内部直接支持Rails(可译为轨道,是一种用于开发数据库驱动的网络应用程序的完整框架)和PHP化ypertextPr邱rocessor,超文本预处理器)程序对外进行服务,也可W支持作为HTTP代理服务器对外进行服务;[0178]Nginx中的配置文件里有很多配置信息,设置日志文件(access_log)的日志格式的配置是其中一项,例如:[0179][0180][0181][0182]其中,PV运种日志格式包含的数据量较多,相反Sm包含的信息很少;[0183]可选的,按照前一模块的配置,每隔一段时间会旋转一次,旋转后服务器会重新加载(reload)所述配置文件,服务器的/log/con目录下生成两个日志文件:完整日志文件con.log(对应于PV日志格式,完整日志文件的实际名称为被重命名的名称,例如con.20160512-0110.log)和短日志文件cons.log(对应于Sm日志格式,同样的,短日志文件的实际名称为被重命名的名称,例如cons.20160512-0110.log),数据量较大时,每个日志文件中会存储很多条日志数据;其中,完整日志文件con.log中的每条数据都包含很多的数据信息,而短日志文件cons.log中的每条数据则只会存储一些用于区分不同日志数据的数据信息,例如接收到对应日志数据的时间;当日志量很大时,统计完整日志文件和短日志文件分别所消耗的时间和资源的对比就比较明显了;[0184]其中,所述旋转是指日志旋转,简单来说,是指将现有的日志文件重命名,然后重新创建原始空日志文件;[0185]例如,配置文件中有如下配置信息:[0186][0187][0188]配置信息设定后,在一段时间内是不会改变的,如果不进行日志旋转,那么服务器接收的所有文件都会存储在/1〇旨3八011八〇]1.1〇旨和/1〇旨3八〇]1八〇]13.1〇旨两个文件中,随着时间的增长,日志文件会越来越大;[0189]为了能及时处理日志文件,一般一段时间后(视具体情况,可能按小时、天或者周,可选的,设置为10分钟)会将接收日志的那个文件重命名,Wcon.log为例,每隔10分钟将con.log重命名(例如con.20160512-0110.log),然后重新创建一个空的日志文件con.log;因为配置文件中设置的是接收到的数据存储在con.log中,所W服务器新接收到的数据依然存入到con.log文件中,旋转之后,con.20160512-0110.log中的数据就可W被用来做后续的操作了,即:写入皿FS-〉文件解析-〉挂载到hive;[0190]步骤502:根据所述短日志文件,统计第=预设时间阔值内接收得到的短日志文件数量;所述第=预设时间阔值,可W是指需要进行数据验平的时间段(例如一天中的某一个时段,运个时段采集的数据用于验平的效果最好)或者能够满足数据验平需要而应当采集数据的时间长度(例如每隔2小时进行一次数据验平的效果最好);运里,根据实际需要,可W对第=预设时间阔值进行选择,并可W根据实际情况的变化,对第=预设时间阔值进行调整;此外,所述第=预设时间阔值通常情况下,可W是与所述第二预设时间阔值相等的,但不排除出现不相等的情况,因此,二者的取值视实际情况而定;[0191]步骤503:将所述完整日志文件写入分布式文件系统并解析得到入库日志文件;[0192]运里,同样的,服务器接收到数据后,会存储到服务器的磁盘上,然后完整日志文件在服务器落盘后存储到分布式文件系统HDFS中,得到seq(可译为序列,一种预设的外部命令,一般用作一堆数字的简化写法)文件格式的落盘日志文件,所述seq文件格式的落盘日志文件经过解析程序后得到RC(runcommand,运行命令)文件并挂载到化ve完成入库,得到入库日志文件;[0193]具体的,完整日志文件的落盘过程(即完整日志文件写入皿FS的过程)可包括W下步骤:服务器接收到日志数据后,暂存在日志文件con.log中,每十分钟旋转一次,旋转后,前述的日志文件被重命名为另一个文件(运个重命名的文件就是用于落盘的所述完整日志文件,例如cons.20160512-0110.log),同时重新加载(reload)所述配置文件,生成一个新的日志文件con.log;被重命名后得到的完整日志文件可使用一个程序(例如glume(可译为颖),一种类似于Flume(可译为水槽)的程序)存储到HDFS,运样,就完成了从日志数据接收到本地落盘写入皿FS的过程;Fl皿e是一种高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力;[0194]步骤504:根据所述入库日志文件,统计所述第=预设时间阔值内的入库日志文件数量;可选的,所述入库日志文件数量是从化ve中统计得到的;[01M]步骤505:根据所述短日志文件数量和入库日志文件数量,判定所述第=预设时间阔值内的日志量是否平衡;[0196]可选的,判定所述第=预设时间阔值内的日志量是否平衡的方法可W是,判断所述短日志文件数量和入库日志文件数量是否相等,若相等,则日志量平衡,若不相等,则日志量不平衡。[0197]可W看出,结合上述实施例,本发明所提供的数据监控方法,除了能够监控网卡流量的异常情况和针对日志量进行数据量验平外,在对日志量验平时,通过重新设计配置文件,并通过统计短日志文件来对接收到的日志数据进行统计,在完整日志文件落盘入库后对入库日志文件进行统计,从而根据两个统计数据完成数据验平;运样,在对接收到的日志数据进行统计时,因为只需要对接收到的日志数据的数量进行统计,而不用对日志数据的实际内容进行分析,因此可W仅对短日志文件的数量进行统计,而无需对完整日志文件的数量进行统计,从而对接收到的日志数据的数量统计是采用统计短日志文件的数量来完成,使得在数据验平时能够减少对系统资源的占用并缩短统计时间,在日志数据较为庞大时,能够节约大量的时间和资源,同时还起到了更好更完善的数据监控效果。[0198]可选的,在一些实施方式中,所述短日志文件包含的日志信息为日志数据产生时的本地时间(time_local)或日志状态(S化化S),运两个数据,一方面占用的资源较少,另一方面能够对日志数据进行初步区分,从而方便数量统计。[0199]写入到所述分布式文件系统中落盘入库的入库日志文件,其中的某些入库日志文件,因为其中的日志数据不符合规范或要求,会被清洗掉,清洗掉的数据会进行另外的处理,因此,落盘入库的入库日志文件的文件总数量则包括有效日志文件的数量和无效日志文件的数量,无效日志文件即被清洗掉的数据;从而,进一步的,在一些可选实施方式中,所述入库日志文件包括经所述分布式文件系统分析得到的有效日志文件和无效日志文件;所述入库日志文件数量为所述有效日志文件的数量和无效日志文件的数量之和;运样,在数据验平时,不会因为被清洗掉的无效日志文件没有被统计而影响数据验平结果。[0200]较佳的,在一些可选实施方式中,所述根据所述短日志文件数量和入库日志文件数量,判定所述第=预设时间阔值内的日志量是否平衡的步骤还可具体包括W下步骤:[0201]计算所述第=预设时间阔值内的所述入库日志文件数量与所述短日志文件数量的比值;[0202]通常情况下,所述预设比值阔值范围是1,即,所述短日志文件数量与所述入库日志文件数量相等;但是,在现代网络技术中,每天会产生大量日志数据,运样,正常情况下,经过解析程序后入库的入库日志文件可能会存在一部分的数据丢失或者数据的读取失败等问题产生,因此,所述预设比值阔值范围,是指预设的能够判定数据平衡的比值范围,例如0.97~1,运样,允许一部分数据的正常丢失,而不会出现数据不平衡的问题;[0203]判断所述比值是否处于第二预设比值阔值范围内;[0204]若所述比值处于第二预设比值阔值范围内,则判定所述第=预设时间阔值内的日志量平衡;[0205]若所述比值不处于第二预设比值阔值范围内,则判定所述第=预设时间阔值内的日志量不平衡。[0206]通过上述实施例,使得在日志量验平的过程中,一方面保证了日志量验平的正确性,另一方面又允许了数据的正常的少量丢失,从而使少量的数据丢失不影响日志量验平的判断结果。[0207]可选的,在一些实施方式中,所述配置文件中还包括第四预设时间阔值,所述根据所述配置文件生成完整日志文件和短日志文件的步骤还可具体包括:[0208]按照所述第四预设时间阔值,加载所述配置文件,并将所述日志数据生成为完整日志文件和短日志文件;运里,加载一次配置文件,生成一个完整日志文件con.log和一个短日志文件cons,log,分别用于存储相应的日志数据,每隔所述第四预设时间阔值,所述完整日志文件con.log和短日志文件cons.log被重命名并另存,然后再次加载所述配置文件,并生成新的一个完整日志文件con.log和一个短日志文件cons,log,运样周而复始,即可在第=预设时间阔值内产生多个完整日志文件和短日志文件,用于进行日志文件的数量统计;所述第四预设时间阔值小于第=预设时间阔值,可W根据需要进行设置,例如5~10分钟,在日志数据量较大时,可W适当缩短所述第四预设时间阔值。[0209]本发明实施例的第六个方面,提出了一种数据监控方法的第六个实施例,能够监测到数据流量的异常情况。如图6所示,为本发明提供的数据监控方法的第六个实施例的流程示意图。[0210]所述数据监控方法,包括W下步骤:[0211]步骤601:获取服务器网卡的数据流入量和数据流出量;[0212]步骤602:判断第一预设时间阔值内所述数据流入量是否处于预设流入量阔值范围内;[0213]步骤603:若第一预设时间阔值内所述数据流入量不处于预设流入量阔值范围内,则判定数据流量不平衡;[0214]步骤604:若第一预设时间阔值内所述数据流入量处于预设流入量阔值范围内,贝U判断第一预设时间阔值内所述数据流出量是否处于预设流出量阔值范围内;[0215]步骤605:若第一预设时间阔值内所述数据流出量不处于预设流出量阔值范围内,则判定数据流量不平衡;[0216]步骤606:若第一预设时间阔值内所述数据流出量处于预设流出量阔值范围内,贝U计算所述数据流出量和数据流入量的数据量比值;[0217]步骤607:判断第一预设时间阔值内所述数据量比值是否处于第一预设比值阔值范围内;[0218]步骤608:若第一预设时间阔值内所述数据量比值不处于第一预设比值阔值范围内,则判定数据流量不平衡;[0219]步骤609:接收日志数据,并根据所述配置文件生成完整日志文件和短日志文件;[0220]步骤610:根据所述短日志文件,统计第=预设时间阔值内接收得到的短日志文件数量;[0221]步骤611:将所述完整日志文件写入分布式文件系统并解析得到入库日志文件;[0222]步骤612:根据所述入库日志文件,统计所述第=预设时间阔值内的入库日志文件数量;[0223]步骤613:计算所述第=预设时间阔值内的所述入库日志文件数量与所述短日志文件数量的比值;[0224]步骤614:判断所述比值是否处于第二预设比值阔值范围内;[0225]步骤615:若所述比值不处于第二预设比值阔值范围内,则判定所述第=预设时间阔值内的数据量不平衡;[0226]步骤616:若所述比值处于第二预设比值阔值范围内且步骤607的判断结果为第一预设时间阔值内所述数据量比值处于第一预设比值阔值范围内,则判定数据平衡。[0227]从上述实施例可W看出,本发明实施例提供的数据监控方法,通过直接调用服务器网卡上报的数据流入量、数据流出量并计算二者的数据量比值,从而判断数据流入量、数据流出量和/或数据量比值是否处于相应的阔值范围内,从而根据判断结果进行数据流量验平,一方面,直接利用服务器网卡上报的数据,无需增加其他流量监控设备,另一方面,能够对数据流量的异常情况进行监控;此外,除了能够监控网卡流量的异常情况和针对日志量进行数据量验平外,在对日志量验平时,通过重新设计配置文件,并通过统计短日志文件来对接收到的日志数据进行统计,在完整日志文件落盘入库后对入库日志文件进行统计,从而根据两个统计数据完成数据验平;运样,在对接收到的日志数据进行统计时,因为只需要对接收到的日志数据的数量进行统计,而不用对日志数据的实际内容进行分析,因此可W仅对短日志文件的数量进行统计,而无需对完整日志文件的数量进行统计,从而对接收到的日志数据的数量统计是采用统计短日志文件的数量来完成,使得在数据验平时能够减少对系统资源的占用并缩短统计时间,在日志数据较为庞大时,能够节约大量的时间和资源,同时还起到了更好更完善的数据监控效果。[0228]本发明实施例的第屯个方面,提出了一种数据监控装置的第一个实施例,能够监测到数据流量的异常情况。如图7所示,为本发明提供的数据监控装置实施例的模块结构示意图。[0229]所述数据监控装置,包括:[0230]流量获取模块701,用于获取预设时间阔值内服务器网卡的数据流量,所述数据流量包括数据流入量和数据流出量;[0231]服务器网卡是服务器必备的设备,用于服务器与交换机等网络设备之间的连接;网卡,又称网络适配器或网络接口卡(NIC),英文名为化tworkInterface化rd;在网络中,如果有一台计算机没有网卡,那么运台计算机将不能和其他计算机通信,它将得不到服务器所提供的任何服务;当然如果服务器没有网卡,就称不上服务器了,所W服务器网卡是服务器必备的设备,就像普通PC(个人电脑)需要配置处理器一样;常见的PC机上的网卡主要是将PC机和LAN(局域网)相连接,而服务器网卡,一般是用于服务器与交换机等网络设备之间的连接;[0232]服务器网卡在平时工作时,其数据流量会被实时采集并上报,因此,步骤101中的服务器网卡的数据流量(包括数据流入量和数据流出量)直接从上报数据中提取即可;[0233]所述预设时间阔值,可W是指一个最佳的监控时间段(例如每天的中午12点至下午2点),也可W是用于确定数据流量平均值的一小段时间(例如5分钟);[0234]平衡判定模块702,用于根据所述数据流量、预设流量阔值、和/或预设流量比值阔值,判定所述数据流量是否平衡。运里,在判定所述数据流量是否平衡时,可W采用数据流量与预设流量阔值进行对比,采用运种对比方式时,如果着重考量数据流入量的稳定性,贝U可W是将数据流入量与预设流入量阔值进行对比,如果着重考量数据流出量的稳定性,贝U也可W是将数据流出量与预设流出量阔值进行对比,如果需要综合考量,则还可W是将数据流入量和数据流出量分别与预设流入量阔值和预设流出量阔值进行对比,然后综合判定数据流量是否平衡;并且,根据实际情况,所述预设流入量阔值和预设流出量阔值可W是同一个阔值,也可W是不同的阔值。此外,所述判定所述数据流量是否平衡,还可W采用将所述数据流入量除W数据流出量得到比值后,将比值与预设流量比值阔值进行比对,来判定数据流量是否平衡,在比值低于预设流量比值阔值范围的最小值或高于预设流量比值阔值范围的最大值时,则可说明数据流入量和数据流出量之间不平衡。[0235]从上述实施例可W看出,本发明提供的数据监控装置,通过直接调用服务器网卡上报的数据流量,判断数据流量和/或数据量比值是否处于相应的阔值范围内,从而根据判断结果进行数据流量验平,一方面,直接利用服务器网卡上报的数据,无需增加其他流量监控设备,另一方面,能够对数据流量的异常情况进行监控。[0236]本发明实施例的第八个方面,提出了一种数据监控装置的第二个实施例,能够监测到数据流量的异常情况。[0237]继续参照附图7,所述数据监控装置,包括:[0238]流量获取模块701,用于获取预设时间阔值内服务器网卡的数据流量,所述数据流量包括数据流入量和数据流出量;[0239]平衡判定模块702,用于根据所述数据流量、预设流量阔值、和/或预设流量比值阔值,判定所述数据流量是否平衡;[0240]其中,所述平衡判定模块702,还可具体用于:[0241]判断所述数据流入量是否处于预设流入量阔值范围内;[0242]运里,判断所述数据流入量是否处于预设流入量阔值范围内时,可W选择第一预设时间段内采集的数据流入量来判断;所述第一预设时间段,可W是指需要进行数据流量异常监控的时间段(例如一天中的某一个时段,运个时段采集的数据流量用于进行数据监控的效果最好)或者能够满足数据流量异常监控需要而应当采集数据的时间长度(例如每隔2小时进行一次日志量验平的效果最好);运里,根据实际需要,可W对第一预设时间段进行选择,并可W根据实际情况的变化,对第一预设时间段进行调整;并且,可选的,在判断第一预设时间段内所述数据流入量是否处于预设流入量阔值范围内时,可W是采用第一预设时间段内每个时间点的数据流入量是否都处于预设流入量阔值范围内的方式;但是,为了计算方便和节约资源的需要,所述判断第一预设时间段内所述数据流入量是否处于预设流入量阔值范围内的方式,可W是将第一预设时间段内采集得到的所有数据流入量取平均值后,再判断数据流入量平均值是否处于预设流入量阔值范围内;[0243]或者,还可W不设置第一预设时间段,而采用24小时随时监控的方式,例如任何时间出现流入量超出预设流入量阔值范围的情况,均认为数据流量不平衡,或者,出现流入量超出预设流入量阔值范围的情况超过一定时间(可假设为第一预设时间阔值,可选的,例如5分钟)则认为数据流量不平衡的方式;[0244]所述预设流入量阔值范围,是指可W认定所述数据流入量为正常状态的范围,其可根据实际需要进行选择并根据情况变化而进行调整,例如,通常情况下,数据流入量是200M/S,那么所述预设流入量阔值范围则需要在200M/S上下浮动才能认定为正常,此时预设流入量阔值范围可W是,例如150~250M/S;[0245]和/或,[0246]所述平衡判定模块702,还可具体用于:[0247]判断所述数据流出量是否处于预设流出量阔值范围内;[0248]运里,判断所述数据流出量是否处于预设流出量阔值范围内时,可W选择第二预设时间段内采集的数据流出量来判断;运里的第二预设时间段可W与前述第一预设时间段相同,当然,在某些情况下,运里的第二预设时间段与第一预设时间段也可W不相同;同样的,可选的,在判断第二预设时间段内所述数据流出量是否处于预设流出量阔值范围内时,可W是采用第二预设时间段内每个时间点的数据流出量是否都处于预设流出量阔值范围内的方式;但是,为了计算方便和节约资源的需要,所述判断第二预设时间段内所述数据流出量是否处于预设流出量阔值范围内的方式,可W是将第二预设时间段内采集得到的所有数据流出量取平均值后,再判断数据流出量平均值是否处于预设流出量阔值范围内;[0249]或者,还可W不设置第二预设时间段,而采用24小时随时监控的方式,例如任何时间出现流入量超出预设流入量阔值范围的情况,均认为数据流量不平衡,或者,出现流入量超出预设流入量阔值范围的情况超过一定时间(可假设为第二预设时间阔值,可选的,例如5分钟)则认为数据流量不平衡的方式;[0250]同理,所述预设流出量阔值范围,是指可W认定所述数据流出量为正常状态的范围,其可根据实际需要进行选择并根据情况变化而进行调整,例如,通常情况下,数据流出量是200M/S,那么所述预设流出量阔值范围则需要在200M/S上下浮动才能认定为正常,此时预设流出量阔值范围可W是,例如150~250M/S;并且,根据不同的情况,所述预设流出量阔值范围可W等于或不等于所述预设流入量阔值范围;[0巧1]和/或,[0252]所述平衡判定模块702,还可具体用于:[0253]计算所述数据流出量和数据流入量的数据量比值;[0254]判断所述数据量比值是否处于第一预设比值阔值范围内;[0255]单独对数据流入量或数据流出量进行判断时,只能分别判断二者的流量是否出现异常,但是不能判断二者是否保持了平衡;正常情况下,流入量应当等于或约等于流出量,才能说明网络正常,因此,对数据量比值进行了计算,并对数据量比值进行了阔值判断;[0256]运里,判断所述数据量比值是否处于第一预设比值阔值范围内时,可W选择第=预设时间段内采集的数据流出量来判断;所述第一预设比值阔值范围,是指可W认定所述数据量比值为正常状态的范围,其可根据实际需要进行选择并根据情况变化而进行调整,例如,通常情况下,数据流入量是200M/S、数据流出量是200M/S,那么数据量比值是1,所述预设流出量阔值范围则需要在1上下浮动才能认定为正常,但是,通常情况下,数据流出量小于数据流入量,因此所述数据量比值是小于或等于1的值,此时预设流出量阔值范围可W是,例如0.8~1;[0257]此外,运里的第=预设时间段可W与第一预设时间段相同,当然,在某些情况下,运里的第=预设时间段与第一预设时间段也可W不相同;同样的,可选的,在判断第=预设时间段内所述数据量比值是否处于第一预设比值阔值范围内时,可W是采用第=预设时间段内每个时间点的数据量比值是否处于第一预设比值阔值范围内的方式;但是,为了计算方便和节约资源的需要,所述判断第=预设时间段内所述数据量比值是否处于第一预设比值阔值范围内的方式,可W是将第=预设时间段内采集得到的所有数据量比值取平均值后,再判断数据量比值平均值是否处于第一预设比值阔值范围内;[0258]或者,还可W不设置第=预设时间段,而采用24小时随时监控的方式,例如任何时间出现数据量比值超出第一预设比值阔值范围的情况,均认为数据流量不平衡,或者,出现数据量比值超出第一预设比值阔值范围的情况超过一定时间(可假设为第一预设时间阔值或第二预设时间阔值,还可W根据需要选择其他阔值,可选的,例如5分钟)则认为数据流量不平衡的方式;[0259]所述平衡判定模块702,还可具体用于根据判断结果,判定数据流量是否平衡;[0260]运里的判断结果,可包括前述每一个判断步骤的判断结果;[0261]若单独根据数据流入量进行判断,判定数据流量是否平衡的步骤可包括:当数据流入量处于预设流入量阔值范围内时,数据流量平衡,当数据流入量不处于预设流入量阔值范围内时,数据流量不平衡;例如,预设流入量阔值范围为150~250M/S,若数据流入量是200M/S,则数据流量平衡,若数据流入量是lOOM/s或400M/S,则说明数据流量出现了异常,即不平衡;[0262]同理,若单独根据数据流出量进行判断,判定数据流量是否平衡的步骤可包括:当数据流出量处于预设流出量阔值范围内时,数据流量平衡,当数据流出量不处于预设流出量阔值范围内时,数据流量不平衡;例如,预设流出量阔值范围为150~250M/S,若数据流出量是200M/S,则数据流量平衡,若数据流出量是lOOM/s或400M/S,则说明数据流量出现了异常,即不平衡;[0263]若单独根据数据量比值进行判断,判定数据量比值是否平衡的步骤可包括:当数据量比值处于第一预设比值阔值范围内时,数据流量平衡,当数据量比值不处于第一预设比值阔值范围内时,数据流量不平衡;例如,第一预设比值阔值范围为0.8~IM/s,若数据流入量是200M/S,数据流入量是180M/S,则数据量比值为0.9,因此数据流量平衡,若数据流入量是400M/S,数据流入量是180M/S,则数据量比值为0.45,因此说明数据流量出现了异常,即不平衡;[0264]除了单独判断外,根据数据流入量进行判断、根据数据流出量进行判断和根据数据量比值进行判断还可W排列组合使用,例如,将数据流入量判断和数据流出量判断结合,或者数据流入量判断和数据量比值判断结合,再或者将数据流出量判断和数据量比值判断结合,还能将数据流入量判断、数据流出量判断和数据量比值判断=者进行结合;进行排列组合时,数据流入量判断、数据流出量判断和数据量比值判断的顺序还能进行任意颠倒,即可W把数据量比值判断放在前面,数据流出量判断随后,数据流入量判断最后,等等;[0265]可选的,在对数据流入量判断、数据流出量判断和数据量比值判断排列组合使用时,若其中一个步骤中的判断结果为不平衡,即认为是数据流量不平衡,当全部步骤的判断结果都是平衡时,才能认为数据流量平衡。[0266]此外,在判断数据流量不平衡时,还可W发出警告信息,提醒技术人员及时分析问题原因并快速进行补救。[0267]从上述实施例可W看出,本发明实施例提供的数据监控方法,通过直接调用服务器网卡上报的数据流入量、数据流出量并计算二者的数据量比值,从而判断数据流入量、数据流出量和/或数据量比值是否处于相应的阔值范围内,从而根据判断结果进行数据流量验平,一方面,直接利用服务器网卡上报的数据,无需增加其他流量监控设备,另一方面,能够对数据流量的异常情况进行监控。[0268]本发明实施例的第九个方面,提出了一种数据监控装置的第=个实施例,能够监测到数据流量的异常情况。[0269]继续参照附图7,所述数据监控装置,包括:[0270]流量获取模块701,用于获取预设时间阔值内服务器网卡的数据流量,所述数据流量包括数据流入量和数据流出量;[0271]平衡判定模块702,用于根据所述数据流量、预设流量阔值、和/或预设流量比值阔值,判定所述数据流量是否平衡;[0272]其中,所述平衡判定模块702,还可具体用于:[0273]若所述数据流入量高于所述预设流量阔值范围中的最大值,说明数据流入量过高,判定所述数据流量不平衡;运里的预设流量阔值可W是指预设流入量阔值;[0274]增加临时接收机,W保证数据正常接收;所述接收机,通常是指提供日志数据接收服务的服务器,数据流量则从服务器网卡中获取,因此,增加临时接收机,有助于缓解网卡数据流入量压力;运里,临时接收机可W采用备用服务器或具有数据接收功能的流量压力不大的其他服务器;增加临时接收机的方式,可W采用自动调用备用服务器或具有数据接收功能的流量压力不大的其他服务器的方式,或者采用技术工程师手动修改服务器配置的方式;[0275]若增加临时接收机后仍不能平衡数据流量,判断出现数据流量不平衡的业务线接口;所述业务线接口可W是某一个或某几个的业务线的某一个或某几个服务器数据接口,一个业务线代表一个产品(例如移动端APP、网站,等等),一个业务线可W对应多个接口;接口是指服务器的日志数据接口,是对日志服务的一种分类,比如,乐视网移动端app的日志数据上报接口有:登录、环境、播放、广告等接口,登录接口负责接收用户登录的日志数据,环境接口负责接收app安装环境的日志数据,播放接口负责接收视频播放上报的日志数据,AfrAfr寸寸;[0276]判断出现数据流量不平衡的业务线接口的方式可W是,将每个业务线的每个接口的所述数据流入量与该接口相应的历史数据流入量进行对比,数据流量差异较大的业务线接口则为数据流量不平衡的业务线接口;[0277]修改接收机配置,停止接收数据流量不平衡的业务线接口的上报数据,从而保证不影响其它业务线和接口的数据接收;[027引和/或,[0279]所述平衡判定模块702,还可具体用于:[0280]若所述数据流入量低于所述预设流量阔值范围中的最小值,说明数据流入量过低,判定所述数据流量不平衡;运里的预设流量阔值可W是指预设流入量阔值;[0281]判断出现数据流量不平衡的业务线接口;[0282]同样的,所述业务线接口可W是某一个或某几个的业务线的某一个或某几个服务器数据接口,一个业务线代表一个产品(例如移动端APP、网站,等等),一个业务线可W对应多个接口;接口是指服务器的日志数据接口,是对日志服务的一种分类,比如,乐视网移动端app的日志数据上报接口有:登录、环境、播放、广告等接口,登录接口负责接收用户登录的日志数据,环境接口负责接收app安装环境的日志数据,播放接口负责接收视频播放上报的日志数据,等等;[0283]判断出现数据流量不平衡的业务线接口的方式可W是,将每个业务线的每个接口的所述数据流入量与该接口相应的历史数据流入量进行对比,数据流量差异较大的业务线接口则为数据流量不平衡的业务线接口;[0284]发送数据流量不平衡的提示信息到与所述出现数据流量不平衡的业务线接口相关的业务方;与业务线接口相关的业务方,是指该业务线接口接收到的日志数据是谁上报的,比如说乐视视频移动端上报的数据量特别少,向移动端业务方发送所述提示信息,用于通知他们检查上报数据是否有问题;从而督促相关的业务方查找原因,解决问题;所述提示信息可W是被发送到的业务方预先设定的信息接收模块,或者是业务方的相关技术人员的测试设备或者智能终端(如技术人员的手机或个人电脑等等);[0285]和/或,[0286]所述平衡判定模块702,还可具体用于:[0287]若所述数据流出量高于所述预设流量阔值范围中的最大值或低于所述预设流量阔值范围中的最小值,判定所述数据流量不平衡;运里的预设流量阔值可W是指预设流出量阔值;并且,根据不同的情况,所述预设流出量阔值范围可W等于或不等于所述预设流入量阔值范围;[0288]将出现数据流量不平衡的时间段的日志文件重新写入分布式文件系统;[0289]可选的,在判定数据流量不平衡时,还可同时发出警告信息,所述警告信息的发送对象可W是HDFS的相关技术人员或维护人员的测试设备或者智能终端(如技术人员的手机或个人电脑等等),用于提醒他们查找相关问题并及时解决;[0290]其中,当数据流出量高于所述预设流量阔值范围中的最大值时:[0291]可W通过查看HDFS接收的日志文件数量与入库的日志文件数量是否一致来判断皿FS输出的日志文件数量是否正常,从而确定出现数据流出量高于所述预设流量阔值范围中的最大值的原因;[0292]通常情况下,接收机接收到日志数据后,会将日志数据暂存到接收机的磁盘上的日志文件con.log中,每隔一段时间,日志文件con.log被重命名为另一个文件(即完整日志文件)并重新生成新的日志文件con.log用于暂存新的日志数据,被重命名后得到的完整日志文件可使用一个程序(例如glume(可译为颖),一种类似于Flume(可译为水槽)的程序)存储到HDFS,得到seq(可译为序列,一种预设的外部命令,一般用作一堆数字的简化写法)文件格式的落盘日志文件,所述seq文件格式的落盘日志文件经过解析程序后得到RC(runcommand,运行命令)文件并挂载到化ve完成入库,得到入库日志文件;此时,若接收到的完整日志文件的数量与入库的入库日志文件数量不一致,则说明皿FS输出的日志文件数量不正常,反之,则为正常;Flume是一种高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力;[0293]如果正常,则可能是有相关技术人员在接收机上提取数据导致网卡流量偏高,因此可W忽略警告信息;[0294]如果不正常,可能是网络异常或glume异常导致数据重复发送,从而引起的数据输出量超高;比如,需要传输的文件大小为100M,传了80M的时候,因为网络异常或glume异常,传输失败了,glume会把运个已经传输的80M文件删了,并重新上传文件,如果文件传输成功了,流出的流量就有180M,而正常情况下则应该是1OOM;[0295]可选的,可W通过检查glume的运行日志来判断异常原因,在glume的运行日志中可W查到是由于gl皿e处理异常还是网络断开而导致的重试,查到相应的报错信息后,根据具体的报错信息进行处理即可;[0296]处理结束后,将出现数据流量不平衡的时间段的日志文件重新写入分布式文件系统皿FS;可选的,因为补数,会导致下一小时的数据流出量偏高,警告信息可W酌情忽略;所述补数,是指将接收机的数据重新发送到化doop集群的皿!^上,至于需要补哪些数据,就看哪些时间段的接收的日志文件数量与入库的日志文件数量不相等;[0297]当数据流出量低于所述预设流量阔值范围中的最小值时,可选的,首先检查数据流出量过低的原因,可包括W下步骤:[029引分析gl皿e的日志,确定gl皿e是否出现问题;[0299]若gl皿e出现问题,针对问题进行相应处理;[0300]若glume未出现问题,检查接收机到hadoop集群的网络是否杨通;可选的,通过判断延迟是否过大来确定集群网络是否杨通;[0301]若网络不杨通,则针对该问题进行相应处理;[0302]问题将出现数据流量不平衡的时间段的日志文件重新写入分布式文件系统HDFS;可选的,因为补数,会导致下一小时的数据流出量偏高,警告信息可W酌情忽略;所述补数,是指将接收机的数据重新发送到化doop集群的HDFS上,至于需要补哪些数据,就看哪些时间段的接收的日志文件数量与入库的日志文件数量不相等;[0303]和/或,[0304]正常情况下,数据流入量与数据流出量的比值会保持在一定的范围内;可选的,可W根据经验或者一些机器学习等方法得到一个比值,即预设流量比值阔值;[0305]由于数据流入量和数据流出量的波动相对比较大,如果不设比例监控就有可能发生漏报,比如预设流入量阔值是100-150M/S,预设流出量阔值是70-100M/S,如果真实流入流量是145,真实流量是71,运样不会报错,但其实运个比例已经低于50%,说明需要进行错误排查,如果预设流量比值阔值的最小值大于0.6,就可W防止此类漏报;[0306]此外,还可W采用一些方法排除一些误报,因此,所述平衡判定模块702,还可具体用于:[0307]若所述数据流出量高于所述预设流量阔值范围中的最大值、所述数据流入量高于所述预设流量阔值范围中的最大值且所述数据流入量和所述数据流出量的比值处于预设比值阔值范围内,判定所述数据流量平衡;[0308]例如,乐视网如果上线一部非常火的电影,点击量会增加很多,运时上报的日志数量也会增加,从而导致数据流入量和数据流出量均大幅增加,数据流入量和数据流出量有可能会分别超出各自的预设流入量阔值和预设流出量阔值,但是数据流入量和数据流出量的比值却在正常的范围内,运样就可W酌情忽略流入流出流量过高报警;[0309]可选的,当数据流入量和数据流出量的比值超出预设流量比值阔值范围时:[0310]若比值过大,处理过程同流出量过高+流入量过低;若比值过小,处理过程同流出量过低+流入量过高;在此不再寶述。[0311]需要说明的是,所述平衡判定模块702的上述每个用途互相之间可W是并列关系,即择一采用,也可W是顺序关系,并且顺序可W排列组合,即不按照上述顺序依次进行,排在后面的用途可W插入前面任意用途之前先进行,只要能够实现本发明的部分发明目的并达到相应的技术效果,就能够作为本发明的实施例来进行。[0312]从上述实施例可W看出,本发明实施例提供的数据监控装置,除了能够通过直接调用服务器网卡上报的数据流入量、数据流出量并计算二者的数据量比值,判断数据流入量、数据流出量和/或数据量比值是否处于相应的阔值范围内,从而根据判断结果进行数据流量验平,实现直接利用服务器网卡上报的数据,无需增加其他流量监控设备,W及,能够对数据流量的异常情况进行监控的效果外;在监测到数据流量不平衡时,还可W分析不平衡的原因并采取相应的手段处理相应的问题。[0313]本发明实施例的第十个方面,提出了一种数据监控装置的第四个实施例,能够监测到数据流量的异常情况。如图8所示,为本发明实施例提供的所述数据监控装置的第四个实施例的模块结构示意图。[0314]参照图8所示,所述数据监控装置,包括:[0315]流量获取模块701,用于获取预设时间阔值内服务器网卡的数据流量,所述数据流量包括数据流入量和数据流出量;[0316]平衡判定模块702,用于根据所述数据流量、预设流量阔值、和/或预设流量比值阔值,判定所述数据流量是否平衡;[0317]进一步的,在一些可选实施方式中,所述数据监控装置,还可包括W下模块:[0318]日志文件生成模块801,用于接收日志数据,并根据配置文件生成完整日志文件;所述完整日志文件中包含有所有后续处理与分析所需要的日志信息;所述日志数据为用户方因为进行了相应操作而产生并上传的操作记录数据,所述完整日志文件可W是指正常情况下系统所记录的日志文件,其中包含了一个常规日志文件所需要具有的所有日志信息;[0319]完整日志统计模块802,用于根据所述完整日志文件,统计第二预设时间阔值内接收得到的完整日志文件数量;[0320]可选的,本实施例针对的是离线分析架构,本实施例应用于Nginx,运里的配置文件可W直接利用Nginx中的配置文件;Nginx(也称"engineX",引擎X)是一个高性能的HTTP(^HyperTextTransferProtocol,超文本传输协议)和反向代理服务器,也是一个IMAP(InternetMailAccessProtocol,互联网邮件访问协议)/P0P3(PostOfficeProtocol-Version3,邮局协议版本3)/SMTP(SimpleMailTransferProtocol,简单邮件传输协议)服务器;Nginx作为负载均衡服务器,既可W在内部直接支持Rails(可译为轨道,是一种用于开发数据库驱动的网络应用程序的完整框架)和PHP(HypedextPr邱rocessor,超文本预处理器)程序对外进行服务,也可W支持作为HTTP代理服务器对外进行服务;根据所述完整日志文件,统计第二预设时间阔值内接收得到的完整日志文件数量;所述第二预设时间阔值,可W是指需要进行日志量验平的时间段(例如一天中的某一个时段,运个时段采集的数据用于验平的效果最好)或者能够满足日志量验平需要而应当采集数据的时间长度(例如每隔2小时进行一次日志量验平的效果最好);运里,根据实际需要,可W对第二预设时间阔值进行选择,并可W根据实际情况的变化,对第二预设时间阔值进行调整;[0321]日志写入模块803,用于将所述完整日志文件写入分布式文件系统并得到入库日志文件;[0322]运里,服务器接收到数据后,会存储到服务器的磁盘上,然后完整日志文件在服务器落盘后存储到分布式文件系统皿FS中,得到seq(可译为序列,一种预设的外部命令,一般用作一堆数字的简化写法)文件格式的落盘日志文件,所述seq文件格式的落盘日志文件经过解析程序后得到RC(runcommand,运行命令)文件并挂载到化ve完成入库,得到入库日志文件;[0323]具体的,完整日志文件的落盘过程(即完整日志文件写入皿FS的过程)可包括W下步骤:服务器接收到日志数据后,暂存在完整日志文件con.log中,每十分钟旋转一次,旋转后,完整日志文件被重命名为另一个文件(运个重命名的文件就是用于落盘的所述完整日志文件,例如cons.20160512-0110.log),同时重新加载(reload)所述配置文件,生成一个新的日志文件con.log(虽然与前一日志文件con.log命名相同,但因为前一日志文件被重命名后形成为一个完整日志文件,运里的重新生成的日志文件con.log则为一个全新的空日志文件,其中接下来继续暂存的内容也就是新的日志内容);接着,被重命名后得到的完整日志文件可使用一个程序(例如glume(可译为颖),一种类似于Flume(可译为水槽)的程序)存储到皿FS,运样,就完成了从日志数据接收到本地落盘写入皿FS的过程;Fl皿e是一种高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力;[0324]入库日志统计模块804,用于根据所述入库日志文件,统计所述第二预设时间阔值内的入库日志文件数量;可选的,所述入库日志文件数量是从化ve中统计得到的;[0325]所述平衡判定模块702,还用于根据所述完整日志文件数量和入库日志文件数量,判定所述第二预设时间阔值内的日志量是否平衡;[0326]可选的,判定所述第二预设时间阔值内的日志量是否平衡的方法可W是,判断所述完整日志文件数量和入库日志文件数量是否相等,若相等,则日志量平衡,若不相等,贝U日志量不平衡。[0327]可W看出,结合上述实施例,本发明所提供的数据监控装置,除了能够监控网卡流量的异常情况外,还能针对日志量进行数据量验平,从而起到了更好更完善的数据监控效果。[0328]本发明实施例的第十一个方面,提出了一种数据监控装置的第五个实施例,能够监测到数据流量的异常情况。如图8所示,也是本发明实施例提供的所述数据监控装置的第五个实施例的模块结构示意图。[0329]参照图8所示,所述数据监控装置,包括:[0330]流量获取模块701,用于获取预设时间阔值内服务器网卡的数据流量,所述数据流量包括数据流入量和数据流出量;[0331]平衡判定模块702,用于根据所述数据流量、预设流量阔值、和/或预设流量比值阔值,判定所述数据流量是否平衡;[0332]可选的,在另一些可选实施方式中,所述数据监控装置,还可包括短日志统计模块805,[0333]所述日志文件生成模块801,用于接收日志数据,并根据所述配置文件生成完整日志文件(其中包含有所有需要的日志信息)和短日志文件;所述配置文件中包括短日志文件生成信息;所述短日志文件中包含的日志信息少于所述完整日志文件中包含的日志信息;[0334]可选的,本发明实施例针对的是离线分析架构,本发明实施例应用于Nginx,运里的配置文件可W直接利用Nginx中的配置文件,在该配置文件中增加短日志文件生成信息;Nginx(也称"engineX",引擎X)是一种高性能的HTTP巧yperTextIYansferProtocol,超文本传输协议)和反向代理服务器,也是一个IMAPQnternetMailAccessProtocol,互联网邮件访问协议)/P〇P3(PostOfficeProtocol-Version3,邮局协议版本3)/SMTP(SimpleMailIYansferProtocol,简单邮件传输协议)服务器;Nginx作为负载均衡服务器,既可W在内部直接支持Rails(可译为轨道,是一种用于开发数据库驱动的网络应用程序的完整框架)和PHP化ypertextPr邱rocessor,超文本预处理器)程序对外进行服务,也可W支持作为HTTP代理服务器对外进行服务;[0335]Nginx中的配置文件里有很多配置信息,设置日志文件(access_log)的日志格式的配置是其中一巧,例化:[0336][0337][033引[0339]其中,PV运种日志格式包含的数据量较多,相反Sm包含的信息很少;[0340]可选的,按照前一模块的配置,每隔一段时间会旋转一次,旋转后服务器会重新加载(reload)所述配置文件,服务器的/log/con目录下生成两个日志文件:完整日志文件con.log(对应于PV日志格式,完整日志文件的实际名称为被重命名的名称,例如con.20160512-0110.log)和短日志文件cons.log(对应于sm日志格式,同样的,短日志文件的实际名称为被重命名的名称,例如cons.20160512-0110.log),数据量较大时,每个日志文件中会存储很多条日志数据;其中,完整日志文件con.log中的每条数据都包含很多的数据信息,而短日志文件cons.log中的每条数据则只会存储一些用于区分不同日志数据的数据信息,例如接收到对应日志数据的时间;当日志量很大时,统计完整日志文件和短日志文件分别所消耗的时间和资源的对比就比较明显了;[0341]其中,所述旋转是指日志旋转,简单来说,是指将现有的日志文件重命名,然后重新创建原始空日志文件;[0342]例如,配置文件中有如下配置信息:[0;343][0344]配置信息设定后,在一段时间内是不会改变的,如果不进行日志旋转,那么服务器接收的所有文件都会存储在/1〇旨3八011八〇]1.1〇旨和/1〇旨3八〇]1八〇]13.1〇旨两个文件中,随着时间的增长,日志文件会越来越大;[0345]为了能及时处理日志文件,一般一段时间后(视具体情况,可能按小时、天或者周,可选的,设置为10分钟)会将接收日志的那个文件重命名,Wcon.log为例,每隔10分钟将con.log重命名(例如con.20160512-0110.log),然后重新创建一个空的日志文件con.log;因为配置文件中设置的是接收到的数据存储在con.log中,所W服务器新接收到的数据依然存入到con.log文件中,旋转之后,con.20160512-0110.log中的数据就可W被用来做后续的操作了,即:写入皿FS-〉文件解析-〉挂载到hive;[0346]所述短日志统计模块805,用于根据所述短日志文件,统计第=预设时间阔值内接收得到的短日志文件数量;所述第=预设时间阔值,可W是指需要进行数据验平的时间段(例如一天中的某一个时段,运个时段采集的数据用于验平的效果最好)或者能够满足数据验平需要而应当采集数据的时间长度(例如每隔2小时进行一次数据验平的效果最好);运里,根据实际需要,可W对第=预设时间阔值进行选择,并可W根据实际情况的变化,对第=预设时间阔值进行调整;此外,所述第=预设时间阔值通常情况下,可W是与所述第二预设时间阔值相等的,但不排除出现不相等的情况,因此,二者的取值视实际情况而定;[0347]所述日志写入模块803,用于将所述完整日志文件写入分布式文件系统并得到入库日志文件;[0348]运里,同样的,服务器接收到数据后,会存储到服务器的磁盘上,然后完整日志文件在服务器落盘后存储到分布式文件系统皿FS中,得到seq可译为序列,一种预设的外部命令,一般用作一堆数字的简化写法)文件格式的落盘日志文件,所述seq文件格式的落盘日志文件经过解析程序后得到RC(runcommand,运行命令)文件并挂载到化ve完成入库,得到入库日志文件;[0349]具体的,完整日志文件的落盘过程(即完整日志文件写入皿FS的过程)可包括W下步骤:服务器接收到日志数据后,暂存在日志文件con.log中,每十分钟旋转一次,旋转后,前述的日志文件被重命名为另一个文件(运个重命名的文件就是用于落盘的所述完整日志文件,例如cons.20160512-0110.log),同时重新加载(reload)所述配置文件,生成一个新的日志文件con.log;被重命名后得到的完整日志文件可使用一个程序(例如glume(可译为颖),一种类似于Flume(可译为水槽)的程序)存储到HDFS,运样,就完成了从日志数据接收到本地落盘写入皿FS的过程;Fl皿e是一种高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力;[0350]所述入库日志统计模块804,用于根据所述入库日志文件,统计所述第=预设时间阔值内的入库日志文件数量;可选的,所述入库日志文件数量是从化ve中统计得到的;[0351]所述平衡判定模块702,还用于根据所述短日志文件数量和入库日志文件数量,判定所述第=预设时间阔值内的日志量是否平衡;[0352]可选的,判定所述第=预设时间阔值内的日志量是否平衡的方法可W是,判断所述短日志文件数量和入库日志文件数量是否相等,若相等,则日志量平衡,若不相等,则日志量不平衡。[0353]可W看出,结合上述实施例,本发明所提供的数据监控装置,除了能够监控网卡流量的异常情况和针对日志量进行数据量验平外,在对日志量验平时,通过重新设计配置文件,并通过统计短日志文件来对接收到的日志数据进行统计,在完整日志文件落盘入库后对入库日志文件进行统计,从而根据两个统计数据完成数据验平;运样,在对接收到的日志数据进行统计时,因为只需要对接收到的日志数据的数量进行统计,而不用对日志数据的实际内容进行分析,因此可W仅对短日志文件的数量进行统计,而无需对完整日志文件的数量进行统计,从而对接收到的日志数据的数量统计是采用统计短日志文件的数量来完成,使得在数据验平时能够减少对系统资源的占用并缩短统计时间,在日志数据较为庞大时,能够节约大量的时间和资源,同时还起到了更好更完善的数据监控效果。[0354]可选的,在一些实施方式中,所述短日志文件包含的日志信息为日志数据产生时的本地时间(time_local)或日志状态(S化化S),运两个数据,一方面占用的资源较少,另一方面能够对日志数据进行初步区分,从而方便数量统计。[0355]写入到所述分布式文件系统中落盘入库的入库日志文件,其中的某些入库日志文件,因为其中的日志数据不符合规范或要求,会被清洗掉,清洗掉的数据会进行另外的处理,因此,落盘入库的入库日志文件的文件总数量则包括有效日志文件的数量和无效日志文件的数量,无效日志文件即被清洗掉的数据;从而,进一步的,在一些可选实施方式中,所述入库日志文件包括经所述分布式文件系统分析得到的有效日志文件和无效日志文件;所述入库日志文件数量为所述有效日志文件的数量和无效日志文件的数量之和;运样,在数据验平时,不会因为被清洗掉的无效日志文件没有被统计而影响数据验平结果。[0356]较佳的,在一些可选实施方式中,所述平衡判定模块702,具体用于:[0357]计算所述第=预设时间阔值内的所述短日志文件数量与所述入库日志文件数量的比值;[0358]通常情况下,所述预设比值阔值范围是1,即,所述短日志文件数量与所述入库日志文件数量必须相等;但是,在现代网络技术中,每天会产生大量日志数据,运样,正常情况下,经过解析程序后入库的入库日志文件可能会存在一部分的数据丢失或者数据的读取失败等问题产生,因此,所述预设比值阔值范围,是指预设的能够判定数据平衡的比值范围,例如0.97~1,运样,允许一部分数据的正常丢失,而不会出现数据不平衡的问题;[0359]判断所述比值是否处于第二预设比值阔值范围内;[0360]若所述比值处于第二预设比值阔值范围内,则判定所述第=预设时间阔值内的日志量平衡;[0361]若所述比值不处于第二预设比值阔值范围内,则判定所述第=预设时间阔值内的日志量不平衡。[0362]通过上述实施例,使得在日志量验平的过程中,一方面保证了日志量验平的正确性,另一方面又允许了数据的正常的少量丢失,从而使少量的数据丢失不影响日志量验平的判断结果。[0363]可选的,在一些实施方式中,所述配置文件中还包括第四预设时间阔值,所述日志文件生成模块801,还可具体用于:[0364]按照所述第四预设时间阔值,加载所述配置文件,并将所述日志数据生成为完整日志文件和短日志文件;运里,加载一次配置文件,生成一个完整日志文件con.log和一个短日志文件cons,log,分别用于存储相应的日志数据,每隔所述第四预设时间阔值,所述完整日志文件con.log和短日志文件cons.log被重命名并另存,然后再次加载所述配置文件,并生成新的一个完整日志文件con.log和一个短日志文件cons,log,运样周而复始,即可在第=预设时间阔值内产生多个完整日志文件和短日志文件,用于进行日志文件的数量统计;所述第四预设时间阔值小于第=预设时间阔值,可W根据需要进行设置,例如5~10分钟,在日志数据量较大时,可W适当缩短所述第四预设时间阔值。[0365]所属领域的普通技术人员应当理解:W上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于运些例子;在本发明的思路下,W上实施例或者不同实施例中的技术特征之间也可W进行组合,步骤可WW任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。[0366]另外,为简化说明和讨论,并且为了不会使本发明难W理解,在所提供的附图中可W示出或可W不示出与集成电路(IC)忍片和其它部件的公知的电源/接地连接。此外,可WW框图的形式示出装置,W便避免使本发明难W理解,并且运也考虑了W下事实,即关于运些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,运些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)W描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可W在没有运些具体细节的情况下或者运些具体细节有变化的情况下实施本发明。因此,运些描述应被认为是说明性的而不是限制性的。[0367]尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,运些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可W使用所讨论的实施例。[0368]本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有运样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。【主权项】1.一种数据监控方法,其特征在于,包括:获取预设时间阈值内服务器网卡的数据流量,所述数据流量包括数据流入量和数据流出量;根据所述数据流量、预设流量阈值、和/或预设流量比值阈值,判定所述数据流量是否平衡。2.根据权利要求1所述的方法,其特征在于,根据所述数据流量、预设流量阈值、和/或预设流量比值阈值,判定所述数据流量是否平衡包括:判断所述预设时间阈值内所述数据流入量、和/或所述数据流出量是否处于预设流量阈值范围内;若所述数据流入量、和/或所述数据流出量处于预设流量阈值范围内,说明所述数据流入量、和/或所述数据流出量平衡。3.根据权利要求1或2所述的方法,其特征在于,根据所述数据流量、预设流量阈值、和/或预设流量比值阈值,判定所述数据流量是否平衡包括:计算所述数据流出量和数据流入量的比值;判断预设时间阈值内所述比值是否处于预设流量比值阈值范围内;若所述比值处于预设流量比值阈值范围内,说明所述数据流入量和所述数据流出量的比平衡。4.根据权利要求1所述的方法,其特征在于:所述预设流量阈值包括预设流入量阈值和预设流出量阈值;所述预设流入量阈值对应于所述数据流入量,所述预设流出量阈值对应于所述数据流出量。5.根据权利要求2所述的方法,其特征在于,还包括:若所述数据流入量高于所述预设流量阈值范围中的最大值,判定所述数据流量不平衡,增加临时接收机;若增加临时接收机后所述数据流入量高于所述预设流量阈值范围中的最大值,确定出现数据流量不平衡的业务线接口;修改接收机配置,停止接收所述出现数据流量不平衡的业务线接口的上报数据。6.根据权利要求2所述的方法,其特征在于,还包括:若所述数据流入量低于所述预设流量阈值范围中的最小值,判定所述数据流量不平衡;确定出现数据流量不平衡的业务线接口;发送数据流量不平衡的提示信息到与所述出现数据流量不平衡的业务线接口相关的业务方。7.根据权利要求2所述的方法,其特征在于,还包括:若所述数据流出量高于所述预设流量阈值范围中的最大值或低于所述预设流量阈值范围中的最小值,判定所述数据流量不平衡;将出现数据流量不平衡的时间段的日志文件重新写入分布式文件系统。8.根据权利要求2所述的方法,其特征在于,还包括:若所述数据流出量高于所述预设流量阈值范围中的最大值、所述数据流入量高于所述预设流量阈值范围中的最大值且所述数据流入量和所述数据流出量的比值处于预设流量比值阈值范围内,判定所述数据流量平衡。9.一种数据监控装置,其特征在于,包括:流量获取模块,用于获取预设时间阈值内服务器网卡的数据流量,所述数据流量包括数据流入量和数据流出量;平衡判定模块,用于根据所述数据流量、预设流量阈值、和/或预设流量比值阈值,判定所述数据流量是否平衡。10.根据权利要求9所述的装置,其特征在于,所述平衡判定模块,具体用于:判断所述预设时间阈值内所述数据流入量、和/或所述数据流出量是否处于预设流量阈值范围内;若所述数据流入量、和/或所述数据流出量处于预设流量阈值范围内,说明所述数据流入量、和/或所述数据流出量平衡。11.根据权利要求9或10所述的装置,其特征在于,所述平衡判定模块,具体用于:计算所述数据流出量和数据流入量的比值;判断预设时间阈值内所述比值是否处于预设流量比值阈值范围内;若所述比值处于预设流量比值阈值范围内,说明所述数据流入量和所述数据流出量的比平衡。12.根据权利要求9所述的装置,其特征在于:所述预设流量阈值包括预设流入量阈值和预设流出量阈值;所述预设流入量阈值对应于所述数据流入量,所述预设流出量阈值对应于所述数据流出量。13.根据权利要求10所述的装置,其特征在于,所述平衡判定模块,具体用于:若所述数据流入量高于所述预设流量阈值范围中的最大值,判定所述数据流量不平衡;增加临时接收机;若增加临时接收机后仍不能平衡数据流量,判断出现数据流量不平衡的业务线接口;修改接收机配置,停止接收数据流量不平衡的业务线接口的上报数据。14.根据权利要求10所述的装置,其特征在于,所述平衡判定模块,具体用于:若所述数据流入量低于所述预设流量阈值范围中的最小值,判定所述数据流量不平衡;判断出现数据流量不平衡的业务线接口;发送数据流量不平衡的提示信息到与所述出现数据流量不平衡的业务线接口相关的业务方。15.根据权利要求10所述的装置,其特征在于,所述平衡判定模块,具体用于:若所述数据流出量高于所述预设流量阈值范围中的最大值或低于所述预设流量阈值范围中的最小值,判定所述数据流量不平衡;将出现数据流量不平衡的时间段的日志文件重新写入分布式文件系统。16.根据权利要求10所述的装置,其特征在于,所述平衡判定模块,具体用于:若所述数据流出量高于所述预设流量阈值范围中的最大值、所述数据流入量高于所述预设流量阈值范围中的最大值且所述数据流入量和所述数据流出量的比值处于预设比值阈值范围内,判定所述数据流量平衡。【文档编号】H04L29/08GK105939234SQ201610425513【公开日】2016年9月14日【申请日】2016年6月15日【发明人】唐武兵【申请人】乐视控股(北京)有限公司,乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1