基于分类聚类的故障预警算法的制作方法

文档序号:11952124阅读:127来源:国知局

本发明涉及故障预警算法技术领域,尤其涉及一种基于分类聚类的故障预警算法。



背景技术:

网站故障数据是面向的网站数据,这些数据包括文本信息(用户提问与反馈信息)、网站的链接信息(场景id)、访问记录(PV,UV等);网站故障的事件数据是相对罕见的,但是这并不表示它们是绝对没有规律的,某个数据对象不同于其他数据对象(即异常),可能是因为它属于一个不同的类型或类;异常往往是源于某种我们考虑到的或者我们没有考虑到的异常源,而数据集中可能有多种异常源,他们底层的原因常常是未知的,故障预警技术对于这些异常源的原因是透明的,致力于发现显著不同于其他对象的对象。

现有的故障预警技术大多是进行异常点检测,但异常点检测不考虑异常点之间的联系,将异常点数据作为离群点或者突变点进行检测,认为密度低的、变化显著的数据对象即为异常对象,这类算法并不需要事先进行统计的数据模型的训练,挖掘的方法相对简单、粗糙,虽然效率较高但是预警效果差强人意。



技术实现要素:

基于背景技术存在的技术问题,本发明提出了基于分类聚类的故障预警算法。

本发明提出的基于分类聚类的故障预警算法,包括以下步骤:

S1:监督的异常检测,用分类模型将网站数据训练出有故障数据和无故障数据两类;

S2:非监督的异常检测,将故障数据聚为多个数据集,进行故障的分析与检测;

S3:半监督的异常检测,用部分的置信度高的标识样本来处理其余为标记样本的信息;

S4:不均衡数据集的处理,采用抽样方法将数据集进行均衡化,显著异常数据的特征,完成故障预警。

优选地,所述S1中,用支持向量机算法得到最优的分类效果。

优选地,所述S2中,用X-Means方法将故障数据聚为多个数据集,进行故障的分析与检测。

优选地,所述S4中,用KRNN数据清理和SMOTE抽样方法进行抽样处理,将数据集进行均衡化,显著异常数据的特征,完成故障预警。

本发明中,所述基于分类聚类的故障预警算法能够不需要事先了解用户数据的统计模型,不需要考虑异常点的建模,数据变化的敏感度高,并且能够指出是哪个属性出现了问题;故障预警覆盖率高,充分考虑了网站业务的逻辑的复杂性与故障数据的模型特征;试图对故障数据进行建模预测;适合用于对文本数据的处理,展示故障原因,提高客户体验;降低预警的误报率,提高准确度,对不均衡数据进行抽样处理,对样本特征优化,进行特征放大,可以更好的获得少数类的挖掘效果,在保证准确度的前提下,提高故障预警的覆盖率,本发明使用分类与聚类的方法进行挖掘,充分考虑了异常点的数据对象内部的联系,试图训练出异常数据的特征模型,引入了不均衡数据的挖掘方法,强化故障数据的特征,以达到较好的分类与聚类的效果,方法简单,效率高。

具体实施方式

下面结合具体实施例对本发明作进一步解说。

实施例

本实施例提出了基于分类聚类的故障预警算法,包括以下步骤:

S1:监督的异常检测,用分类模型将网站数据训练出有故障数据和无故障数据两类;

S2:非监督的异常检测,将故障数据聚为多个数据集,进行故障的分析与检测;

S3:半监督的异常检测,用部分的置信度高的标识样本来处理其余为标记样本的信息;

S4:不均衡数据集的处理,采用抽样方法将数据集进行均衡化,显著异常数据的特征,完成故障预警。

本实施例中,S1中,用支持向量机算法得到最优的分类效果,S2中,用X-Means方法将故障数据聚为多个数据集,进行故障的分析与检测,S4中,用KRNN数据清理和SMOTE抽样方法进行抽样处理,将数据集进行均衡化,显著异常数据的特征,完成故障预警,基于分类聚类的故障预警算法能够不需要事先了解用户数据的统计模型,不需要考虑异常点的建模,数据变化的敏感度高,并且能够指出是哪个属性出现了问题;故障预警覆盖率高,充分考虑了网站业务的逻辑的复杂性与故障数据的模型特征;试图对故障数据进行建模预测;适合用于对文本数据的处理,展示故障原因,提高客户体验;降低预警的误报率,提高准确度,对不均衡数据进行抽样处理,对样本特征优化,进行特征放大,可以更好的获得少数类的挖掘效果,在保证准确度的前提下,提高故障预警的覆盖率,本发明使用分类与聚类的方法进行挖掘,充分考虑了异常点的数据对象内部的联系,试图训练出异常数据的特征模型,引入了不均衡数据的挖掘方法,强化故障数据的特征,以达到较好的分类与聚类的效果,方法简单,效率高。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1