一种基于相似度分析理论的电力客户异常行为预警方法与流程

文档序号:17541321发布日期:2019-04-29 14:38阅读:219来源:国知局
一种基于相似度分析理论的电力客户异常行为预警方法与流程

本发明属于信用风险预警及防范领域,尤其是涉及一种基于相似度分析理论的电力客户异常行为预警方法。



背景技术:

随着电力工业改革进程的深入,电力公司面临的电力客户异常行为等问题变得愈加严峻。用户作为市场的重要主体,对其进行行为分析是掌握市场安全状态的重要手段,且在异常检测中对于潜在威胁挖掘和预警具有重要的意义.为了保证电网公司资金的正常运转及效益,需要及时对用户的拖欠费等异常情况进行预警分析,帮助电力企业把可能发生的危险状况做到事先预计,从而降低用户为电力企业带来的信用风险,这对电力企业和社会的稳步发展都十分必要。

目前,预警建模方面缺乏对研究对象的预测过程,加上电力客户的行为原因十分复杂,仅从用户单次行为模式来预估其未来的行为可能性是不完备的,因此需要通过用户行为序列相似度描述用户间的关联,同时考虑用户属性的变化,对异常行为进行发现和安全预警。因此建立一种基于相似度分析理论的电力客户异常行为预警模型十分必要。此外,用户异常行为管理工作较为复杂,需要提出科学有效的方法来简化其复杂性。



技术实现要素:

本发明就是针对上述问题,提出了一种基于相似度分析理论的电力客户异常行为预警方法。为实现上述目的,本发明采用如下技术方案:

s1.用户行为序列模式描述

该步骤包括如下子步骤:

s1-1.基于时间的行为序列

s1-2.最大公共行为子序列

s1-3.行为序列相似度矩阵

s1-4.用户行为相关系数

s1-5.用户基本属性

s2.基于行为序列的异常分析

该步骤包括如下子步骤:

s2-1.数据预处理

s2-2.行为序列模式建立

s2-3.行为异常分析及预警

本发明的有益效果是,按照时间提取用户行为序列,并引入不同用户间的行为序列相似度和相关系数的概念,通过用户行为序列相似度描述用户间的关联,同时考虑用户属性的变化,对异常行为进行发现和安全预警。

附图说明

图1为基于相似度分析的行为异常预警系统结构图。

具体实施方式

下面参照附图1来说明本发明的实施例。本发明的一种基于相似度分析理论的电力客户异常行为预警方法的具体步骤如下:

s1.用户行为序列模式描述

该步骤包括如下子步骤:

s1-1.基于时间的行为序列

假设有两个用户分别访问目标主机a,b,c,d,在一定时间段内,用户1先后访问目标主机a,b,d,c,用户2先后访问目标主机b,a,d。

t11表示用户1发生第1次访问行为的时间,即用户1访问主机a的时间,t12表示用户1发生第2次访问行为的时间,t21表示用户2第1次访问行为的时间,以此类推,形成该分析场景下完整的用户访问行为的时间序列。基于用户访问行为时间序列,将用户i行为序列表示为sti=(tti1,tti2,tti3,...,ttin),其中,n表示用户根据时间先后发生访问行为的次序,ttin表示用户在tin时间发生的具体的访问行为。本方法采用基于时间的用户行为访问序列描述单个用户的用户行为,作为异常检测和预警的输入。

s1-2.最大公共行为子序列

s1-2-1.子序列:若给定序列x=(x1,x2,x3,...,xn),则序列z=(z1,z2,z3,...,zn)为x的子序列的规则为存在一个严格递减的下标序列(i1,i2,i3,...,ik),使对于所有的j=1,2,3…,k有zj=xi。

s1-2-2.最大公共序列:给定两个序列x和y,当序列z既是x的子序列又是y的子序列,则z是序列x和y的公共子序列,其中z最长的序列称为x和y的最大公共子序列。用c[i][j]表示用户x和用户y的最大公共子序列,stx=(ttx1,ttx2,ttx3,...,ttxn)和sty=(tty1,tty2,tty3,...,ttym),则有下列公式:

由此求得两个用户之间的最大公共行为子序列。

s1-3.行为序列相似度矩阵

根据用户行为最大公共子序列,可计算出不同用户之间的行为序列相似度,表示不同用户间的行为相似性。假定用户序列a及用户序列b,len()为求序列的长度,最大公用子序列为c,则使用commonjaccard算法计算用户a和用户b的相似度α的公式为:

s1-4.用户行为相关系数

通过分析一段时间内(前n个时间窗)行为序列相似度的变化,可以得到该时间段内,访问行为最相近的用户组合或用户类。平均相似度αavg越大,相似度变化越小,则这两个用户关系越相近.假设相似度方差为αx,则两个用户的行为相关系数为:

两个用户之间相关系数rc越大,则这两个用户的行为关系越相近。有了相似度α和相关系数rc,就能够更精确的描述用户之间行为相似程度,反应用户之间的关系,从而实现异常行为分析。

例如,在完成前n个时间窗行为序列相似度训练后,可得两个用户间的相关系数平均值rcavg和相关系数方差rcx,以rcavg±rcx作为后续检测的正常结果参考上下限,若用户间相关系数超出参考上下限,则判定出现异常的用户行为。

s1-5.用户基本属性

本方法采用六元组描述电力内网用户基本属性,user={name,ip,department,post,role,latestupdatetime},其中,name表示姓名,ip表示用户的绑定终端的ip地址,department表示用户当前所在部门,post表示用户当前职位,role表示用户的角色分工,latestupdatetime表示基本属性最近更新时间。

用户基本属性是对通过行为相似度分析发现的异常进行关联判断最终生成预警的关键要素。

s2.基于行为序列的异常分析

该步骤包括如下子步骤:

s2-1.数据预处理

原始数据来源于网络流报文,数据预处理的目的是为了减少所捕获网络流数据中的无效数据,包括剔除原始数据中的冗余信息、错误信息及与分析不相关的用户行为数据,如由于机器故障、人工疏忽等导致记录缺失和输入错误等。同时,针对网络拓扑信息未知的前提,在预处理中需对网络流中出现的1p所关联的用户进行识别和定位。

s2-1-1.对原始网络数据进行协议解析,转化成可识别的键值对格式数据。

s2-1-2.将网络数据出现的冗余、错误信息,及属性缺失的数据删除;删除规则包括:

(1)网络层报文协议不为tcp,作为冗余数据删除;

(2)tcp报文网络层数据中源、目的ip和源、目的端口,开始时间,应用层数据中业务类型缺失的,作为属性缺失数据删除。

s2-1-3.将网络数据中多余的属性进行删减.保留id(序号)、starttime(开始时间)、endtime(结束时间)、srcip(源ip),dstip(目的ip),实现数据降维,减少计算复杂度、提高计算效率、形成分析数据集。

s2-1-4.对网络数据中出现的所有的ip地址进行统计、按照连接数生成ip连接分布图、标记主机用户类型与服务器类型。

s2-1-5.在主机用户类型中筛选出连接数很少的主机,由于连接数未达到一定数量,无法清晰获得其和其他主机的相似关系,所以删除此部分的主机,最后得到主机用户类型的主机集合u。

s2-2.行为序列模式建立

基于数据预处理后获得数据,基于时间序列,提取每个用户的行为序列.序列模式挖掘步骤如下:

s2-2-1.根据用户行为序列的定义,采用字典的方式对用户主机ip集合进行编号,通过遍历主机ip集合奖励用户主机ip字典。

s2-2-2.针对预处理后的分析数据集,通过每条记录中的srcip对数据发送的路径进行序列化处理,基于用户主机ip字典生成每个ip用户的访问行为序列。

s2-2-3.根据最大公共行为子序列计算公式、得到用户之间的最大公共子序列。

s2-3.行为异常分析及预警

由序列模式挖掘得到的结果可以得到用户之间的行为相似度,并用可视化的方式展现出来,从而挖掘用户的网络访问行为习惯,寻找同类的用户之间的共同的访问习惯,通过比对差异获得异常行为分析结果,对异常行为进行预警.行为分析的步骤如下:

s2-3-1.取分析数据集前n个时间窗数据作为训练集,第n+1个时间窗作为测试集。

s2-3-2.分别求出训练集的所有用户之间的每个时间窗的相似度平均值和方差,获得每个时间窗的行为相关系数,从而得到相关系数平均值rcavg及相关系数方差rcx,作为检测结果参考.若测试集的用户之间的相关系数rc在rcavg±rcx范围内,则可视为正常用户集合,反之视为疑似异常用户集合。

s2-3-3.对于疑似异常用户集合,分别比较与其余用户之间的相关系数变化,若集合中某一用户与多个用户之间都存在相关系数超出参考上下限,则可判定为异常用户,加入到异常用户集。

s2-3-4.分别将第1个时间窗到第n个时间窗作为测试集,其余的作为训练集,重复s2-3-2.和s2-3-3.由此可求出n+1个时间窗内每一个时间窗所发生的异常用户和行为。

s2-3-5.针对步骤四获得的异常行为,根据ip获取该用户的用户基础属性,以行为发生的时间作为节点计算用户属性变更系数,若变更系数为0则判定该异常行为产生预警。

本发明所提供的一种基于相似度分析理论的电力客户异常行为预警方法,通过用户行为序列相似度描述用户间的关联,同时考虑用户属性的变化,对异常行为进行发现和安全预警,为加强用户管理提供了可靠的技术支持,具有很高的实用性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1