一种数据采集方法及装置的制造方法

文档序号:9326918阅读:396来源:国知局
一种数据采集方法及装置的制造方法
【技术领域】
[0001]本发明涉及数据采集技术领域,特别是涉及一种数据采集方法及装置。
【背景技术】
[0002]通常,当用户需要获得某种信息时,首先需要对包含这种信息的相关数据进行数据采集。例如,当用户需要了解搜索引擎的搜索情况时,首先需要对与搜索引擎的搜索情况相关的搜索引擎日志数据进行数据采集。又例如,当用户需要了解用户访问网页的情况时,首先需要对与网页访问相关的用户浏览日志数据进行数据采集。可见,数据采集是一个非常基础又非常重要的环节。
[0003]在实际应用中,进行数据采集时,通常需在进行数据采集之前由运维人员针对采集系统中的每一个采集节点进行配置,之后各个节点再根据配置信息进行数据采集。
[0004]由此可见,对采集系统中的每一个节点进行配置的工作量是很大的,尤其是随着采集的数据量增加而需要对采集系统进行水平扩展时,需要对各个新旧节点重新配置,这无疑是更加繁重的工作。

【发明内容】

[0005]本发明实施例的目的在于提供一种数据采集方法及装置,以实现降低对采集系统中的每一个节点进行配置的工作量,提高工作效率。
[0006]为达到上述目的,本发明实施例公开了一种数据采集方法,应用于日志采集系统中的主节点;所述日志采集系统具有至少I个主节点和多个从节点,所述方法包括:
[0007]获得预设的配置文件;其中,预设的配置文件中包含所述日志采集系统中预设数量个从节点的配置信息和各个从节点对应的任务信息;
[0008]对所获得的配置文件进行解析,确定所获得的配置文件中涉及的各个从节点之间的依赖关系;
[0009]根据所确定的依赖关系和所获得的配置文件中包含的各个从节点对应的任务信息,生成与所获得的配置文件相对应的任务集,其中,所述任务集中包括至少一个任务,且同一任务集中各个任务的执行优先级相同;
[0010]按照任务集的执行优先级由高到低的顺序,将所生成的每一任务集中的任务分配到其对应的从节点中,以便由分配到任务的从节点进行数据采集,其中,任务集的执行优先级与该任务集中任一任务的执行优先级相等。
[0011]较佳的,所述日志采集系统的每个从节点中包括至少一个用于执行任务的任务执行代理;
[0012]所述从节点的配置信息中包括:该从节点中所包括的任务执行代理的配置信息;
[0013]所述对所获得的配置文件进行解析,确定所获得的配置文件中涉及的各个从节点之间的依赖关系,包括:
[0014]对所获得的配置文件进行解析,确定所获得的配置文件中涉及到的各个从节点中所包括的任务执行代理之间的依赖关系。
[0015]较佳的,确定所述任务集的执行优先级由高到低的顺序的步骤,包括:
[0016]根据所确定的依赖关系,将不存在父依赖关系的从节点对应的任务集确定为最尚执行优先级对应的任务集;
[0017]从最高执行优先级对应的任务集开始,按照以下方式确定当前任务集的执行优先级的下一执行优先级对应的任务集:
[0018]获得当前任务集中的任务对应的从节点;
[0019]确定与所获得的从节点之间存在子依赖关系的从节点;
[0020]获得所确定的从节点对应的任务集;
[0021]将所获得的任务集确定为当前任务集的执行优先级的下一执行优先级对应的任务集。
[0022]较佳的,所述按照任务集的执行优先级由高到低的顺序,将所生成的每一任务集中的任务分配到其对应的从节点中,包括:
[0023]将最高执行优先级对应的任务集中的任务分配到其对应的从节点中;
[0024]接收最高执行优先级的任务集对应的从节点发送的任务执行反馈信息;
[0025]按照任务集的执行优先级由高到低的顺序,通过以下方式将所生成任务集中的其他任务集中的任务分配到其对应的从节点中:
[0026]根据当前执行优先级的上一优先级对应的任务集中的任务对应的从节点发送的任务执行反馈信息,将当前执行优先级对应的任务集中的任务分配到其对应的从节点中;
[0027]接收上述分配到任务的从节点发送的反馈信息;
[0028]确定当前执行优先级的下一执行优先级。
[0029]较佳的,所述方法还包括:
[0030]检测所述日志采集系统中的各个从节点的运行状态;
[0031]当检测到各个从节点中的任一从节点处于异常运行状态之后,向该从节点发送重启指令,以使其重新处于正常运行状态。
[0032]较佳的,所述当检测到各个从节点中的任一从节点处于异常运行状态之后,向该从节点发送重启指令,以使其重新处于正常运行状态,包括:
[0033]当检测到各个从节点中的任一从节点处于异常运行状态之后,根据已分配至该从节点的任务的执行进度,将已分配的任务转移至其他从节点中执行;
[0034]向该从节点发送重启指令,以使其重新处于正常运行状态,并根据已转移出的任务的执行进度,将已转移出的任务转移回该从节点继续执行。
[0035]为达到上述目的,本发明实施例公开了一种数据采集装置,应用于日志采集系统中的主节点;所述日志采集系统具有至少I个主节点和多个从节点,所述装置包括:
[0036]配置文件获得模块,用于获得预设的配置文件;其中,预设的配置文件中包含所述日志采集系统中预设数量个从节点的配置信息和各个从节点对应的任务信息;
[0037]配置文件解析模块,用于对所获得的配置文件进行解析,确定所获得的配置文件中涉及的各个从节点之间的依赖关系;
[0038]任务集生成模块,用于根据所确定的依赖关系和所获得的配置文件中包含的各个从节点对应的任务信息,生成与所获得的配置文件相对应的任务集,其中,所述任务集中包括至少一个任务,且同一任务集中各个任务的执行优先级相同;
[0039]任务分配模块,用于按照任务集的执行优先级由高到低的顺序,将所生成的每一任务集中的任务分配到其对应的从节点中,以便由分配到任务的从节点进行数据采集,其中,任务集的执行优先级与该任务集中任一任务的执行优先级相等。
[0040]较佳的,所述日志采集系统的每个从节点中包括至少一个用于执行任务的任务执行代理;
[0041]所述从节点的配置信息中包括:该从节点中所包括的任务执行代理的配置信息;
[0042]所述配置文件解析模块,用于对所获得的配置文件进行解析,确定所获得的配置文件中涉及到的各个从节点中所包括的任务执行代理之间的依赖关系。
[0043]较佳的,所述装置还包括:优先级顺序确定模块;
[0044]所述优先级顺序确定模块,包括:
[0045]最高优先级确定子模块,用于根据所确定的依赖关系,将不存在父依赖关系的从节点对应的任务集确定为最尚执行优先级对应的任务集;
[0046]其他优先级确定子模块,用于从最高执行优先级对应的任务集开始,依次触发以下单元确定当前任务集的执行优先级的下一执行优先级对应的任务集:
[0047]所述其他优先级确定子模块,包括:当前从节点获得单元、子依赖从节点确定单元、任务集确定单元和优先级确定单元;其中,
[0048]所述当前从节点获得单元,用于获得当前任务集中的任务对应的从节点;
[0049]所述子依赖从节点确定单元,用于确定与所获得的从节点之间存在子依赖关系的从节点;
[0050]所述任务集确定单元,用于获得所确定的从节点对应的任务集;
[0051]所述优先级确定单元,用于将所获得的任务集确定为当前任务集的执行优先级的下一执行优先级对应的任务集。
[0052]较佳的,所述任务分配模块包括:最高优先级任务分配子模块、反馈信息接收子模块和其他优先级任务分配子模块;其中,
[0053]所述最高优先级任务分配子模块,用于将最高执行优先级对应的任务集中的任务分配到其对应的从节点中;
[0054]所述反馈信息接收子模块,用于接收最高执行优先级的任务集对应的从节点发送的任务执行反馈信息;
[0055]所述其他优先级任务分配子模块,用于按照任务集的执行优先级由高到低的顺序,通过
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1