一种用于大型服务器集群的日志集群扫描与分析方法_3

文档序号：9202538阅读：来源：国知局

数据在单机物理服务器和集群主管机之间进行交换，集群主管机通过集群日志分析获得日志数据，单机物理服务器和集群主管机通过推送(“推”)与查询(“拉”)相结合的交互协议进行交换日志数据。
[0066]所述推送方法具体是指:单机物理服务器通过单机日志分析获得日志数据后，即时将紧急事件及其相关信息推送并汇总到集群主管机，并定期将部分统计信息汇总到集群主管机；其中，单机物理服务器进行定期汇总的汇总频率，由系统根据集群内部可使用通信带宽的情况自动调整(当集群内部可使用通信带宽变大时，汇总频率将自动升高；带宽变小时，汇总频率将自动减小)。
[0067]所述查询方法具体是指:集群主管机在发出步骤G中的平台运行状况警告通知、发出步骤H中的针对可能发生的紧急事件的预告通知前，向单机物理服务器以查询的方式确认相关信息。
[0068]如图1所示，哈希表用于事件模式的快速更新和查找。链表结构在哈希表中的使用可以有效地减少存储空间和哈希表的更新耗时。具有相同长度的事件模式会分享同一索弓丨，比如“AAAB”和“AAXN”。同时，在哈希表的同一索引项链表中的事件可以按字典序排序，比如 “AAAB” 在 “AAXN” 之前，“AAXN” 在 “ACFG” 之前。
[0069]如图2所示，前缀树、后缀树或根据模式库特点构建的一般树用于事件间关联的快速更新和查找。如果是前缀树，具有公共前缀的事件模式将存在于树的同一分支中，比如“AA”和“AC”在以“A”为根节点的同一分支中，而“AAAB”和“AAXN”在以“AA”为根节点的同一分支中；如果是后缀树，子结点们则存在于公共后缀所在的分支中。
[0070]最后，需要注意的是，以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形，均应认为是本发明的保护范围。
【主权项】
1.一种用于大型服务器集群的日志集群扫描与分析方法，其特征在于，包括: (一)单机日志分析； (二)集群日志分析； (三)日志集群分析； (四)日志数据交换； (一)单机日志分析包括日志事件的统一化处理和事件快速分类，且单机日志分析在每一单机物理服务器上进行；所述日志事件的统一化处理的具体步骤为: 步骤A:来源标识:记录每一日志事件产生的物理服务器在集群内的唯一标识，以及产生该日志事件的虚拟服务器标识；其中，所述虚拟服务器是指运行在物理服务器虚拟化软件上的服务器个体；步骤B:时间戳生成:将物理服务器和虚拟服务器的即时时间戳与对应的标识绑定，并生成相应的两个服务器签名；所述事件快速分类具体是指:根据来源的软硬件层级和预定义的严重程度，将所有日志事件分入不同的集合，并存入对应的文件；且若日志事件的严重程度超过预先定义的程度，则将该日志事件作为紧急事件推送至日志集群分析； (二)集群日志分析包括整体事件的关联处理和集群事件的来源分析，且集群日志分析在集群主管机上进行；所述集群主管机是指集群内用于管理的物理服务器；所述整体事件的关联处理具体包括:1、通过比较集群整体日志事件时间戳之间的相互关系，建立整体日志事件之间的关系，包括先后、并发；2、通过比较集群整体日志事件来源的软硬件层级，建立整体日志事件之间的因果关系；所述集群事件的来源分析具体是指:记录导致集群日志事件的物理服务器列表； (三)日志集群分析用于集群中各类日志的归总以及集群平台当前和未来运行状况的预测，具体包括下述步骤: 步骤C:事件库的建立或更新:当出现集群日志事件需要进行集群日志分析，或者有紧急事件从单机日志分析推送至日志集群分析，作为第一个集群事件，则触发建立事件库；在建立有事件库后，当出现集群日志事件需要进行集群日志分析，或者有紧急事件从单机日志分析推送至日志集群分析，则触发更新事件库；其中，所述事件库存储于集群主管机的一个数据库中；步骤D:事件库统计:每一次进行步骤C中的事件库更新时，计算事件库中对应事件在特定时间窗口内的出现次数，并重新计算事件库中每一事件的出现频率；其中，所述特定时间窗口的初始大小预先设定，并能自动调整大小；步骤E:事件库建模:建立基于事件频率、事件来源以及依赖关系的事件库模型，用于表达不同事件之间的因果关系或先后关系；其中，所述事件频率通过步骤D获得，所述事件来源通过步骤A和集群日志分析中的集群事件的来源分析获得，所述依赖关系通过集群日志分析中的整体事件的关联处理获得；事件库模型存储在哈希链表树中，树形结构的父子指针表示依赖关系中的因果关系或先后关系，树节点内存储事件频率和事件来源，事件索引由哈希链表表示；步骤F:事件模式识别:利用模式识别方法，对步骤E建立的事件库模型中的信息进行模式的建立和识别，并记录所有显示较强统计意义的事件模式，用于为集群平台紧急状况监测和预警提供依据；其中，所述模式识别方法包括主元分析、贝叶斯决策理论方法；所述模式识别的依据是事件来源、事件频率和事件关系；所述显示较强统计意义的事件模式是指超过设定值的事件模式，包括出现次数超过设定值的事件模式、出现频率超过设定值的事件模式、以一个紧急事件结束的事件模式；步骤G:集群平台运行状况预警:当步骤F中识别出显示较强统计意义的事件模式并记录时，发出平台运行状况警告通知，同时对显示较强统计意义的事件模式的日志条目进行记录；步骤H:集群平台未来事件预测:根据步骤E中建立的事件库模型，预测将来可能发生的事件，并发出针对可能发生的紧急事件的预告通知； (四)日志数据交换用于实现日志数据在单机物理服务器和集群主管机之间进行交换，集群主管机通过集群日志分析获得日志数据，单机物理服务器和集群主管机通过推送与查询相结合的交互协议进行交换日志数据；所述推送方法具体是指:单机物理服务器通过单机日志分析获得日志数据后，即时将紧急事件及其相关信息推送并汇总到集群主管机，并定期将部分统计信息汇总到集群主管机；其中，单机物理服务器进行定期汇总的汇总频率，由系统根据集群内部可使用通信带宽的情况自动调整；所述查询方法具体是指:集群主管机在发出步骤G中的平台运行状况警告通知、发出步骤H中的针对可能发生的紧急事件的预告通知前，向单机物理服务器以查询的方式确认相关信息。
【专利摘要】本发明涉及系统监控与系统管理领域，旨在提供一种用于大型服务器集群的日志集群扫描与分析方法。该种用于大型服务器集群的日志集群扫描与分析方法包括单机日志分析、集群日志分析、日志集群分析和日志数据交换。本发明具有单机日志处理的简单性，统一化处理后单机和集群日志交换高效性，“推”“拉”日志交互协议的及时性，集群日志关联分析的全面性，事件库结构的综合性和高效性，事件预测的准确性。
【IPC分类】G06F17/30, H04L12/24
【公开号】CN104917627
【申请号】CN201510028382
【发明人】邬正平, 范渊
【申请人】杭州安恒信息技术有限公司
【公开日】2015年9月16日
【申请日】2015年1月20日

完整全部详细技术资料下载

当前第3页1 2 3