1.一种基于web日志的关联分析方法,其特征在于,包括:
步骤s100:日志数据的标准化处理
使用web服务器+过滤脚本采集日志数据,所述日志数据包括:访问接口的路径urlpath、访问时间timestamp、请求体和返回体,并将日志数据统一转换成json格式数据;按照访问流程,将日志数据按sessionid分组,sessionid为会话的标识id;
步骤s200:获取日志中的事件行为链
在每组日志中,提取每条日志的访问接口的路径urlpath、访问接口的方法method和访问时间timestamp,并按照访问时间timestamp排序,作为事件行为链;
步骤s300:统计接口调用承接关系概率
分析经过分组和排序的日志数据,统计得出当前接口访问后的下一个接口访问次数较多的n个接口,存储格式为:
{
currentinterface:“当前接口信息”
nextinterfacelist:[nextinterface1,nextinterface2,…nextinterfacen]
}
得到群体的访问特征属性;
步骤s400:事件行为链的相似度匹配
计算用户单个会话的事件行为链数据,依次提取每个接口和它的下一个接口,存储到承接关系对象relationinstance中,其基本格式为:
{
currentinterface:“当前接口信息”,
nextinterface:“下一个接口信息”
};
把每个relationinstance依次与群体的访问特征属性匹配:
如果nextinterface在nextinterfacelist中,即返回威胁得分为0,
如果nextinterface不在nextinterfacelist中,威胁得分为1;
将所有威胁得分累加,得到总的异常行为分值。