基于日志记录的异常行为组合识别方法及系统与流程

文档序号：36495110发布日期：2023-12-27 10:50阅读：40来源：国知局

本发明涉及计算机数据安全领域，具体涉及基于日志记录的异常行为组合识别方法及系统。

背景技术：

1、随着互联网技术及应用快速发展，互联网行为日志数据也处于高速增长，与此同时数据安全也越来越重要，面对海量系统日志数据，如何快速识别有问题行为组合，是有效发现数据泄露手段之一。目前现有技术处理海量日志数据需要大量的计算资源和时间，因为日志数据的规模很大，许多方法在大规模数据上可能变得效率低下，导致分析过程变得耗时。当日志中包含多个维度的特征时，可能会出现维度爆炸的问题，即特征的组合数量会呈指数级增长。这使得在异常行为组合上进行分析和挖掘变得非常困难，可能会导致数据稀疏性问题。在大规模数据中，一些特征可能会在不同的上下文中频繁出现，导致发现的异常行为组合可能只是数据的常见模式，而不是真正的异常，这可能会降低方法的准确性。

2、中国专利公开号cn113901441a公开了一种用户异常请求检测方法、装置、设备及存储介质，包括：获取预设时段内不同用户的请求频次数据，将每个用户的所述请求频次数据按照时间顺序进行排列生成时序序列；利用改进后的能够度量时序数据之间相似度的无监督算法对不同用户的所述时序序列进行处理，得到第一聚类结果；根据所述第一聚类结果中各个簇的用户数量确定在所述预设时段内存在异常请求的用户。该专利申请无法区分具体的异常行为，仅仅是将所述第一聚类结果中包含用户数量小于预设阈值的簇对应的用户确定为在所述预设时段内存在异常请求的用户，对存在异常请求的用户数量进行检测。因此该专利申请的方法无法解决海量数据异常行为识别，从而无法对大规模数据中在不同的上下文频繁出现的特征进行准确识别。

技术实现思路

1、本发明所要解决的技术问题在于现有技术异常行为识别方法容易将大规模数据中在不同的上下文频繁出现的数据常见模式的特征误判为异常行为，从而识别结果不够准确。

2、本发明通过以下技术手段解决上述技术问题的：基于日志记录的异常行为组合识别方法，包括以下步骤：

3、步骤一：提取系统操作日志数据并进行预处理得到数据集data；

4、步骤二：以预处理后的日志数据的账号为分析对象，根据每个账号的相邻日志之间的时间间隔判定两者是否属于同一个大类，若是，生成账号维度的标签sessionid；

5、步骤三：根据标签sessionid利用时序聚类算法对日志数据进行聚类，生成新类标签，按每个账号每个sessionid进行新类标签累加，生成标签clusterid；

6、步骤四：标签sessionid和标签clusterid进行标签字段拼接得到簇标签label；

7、步骤五：基于账号、簇标签label、序列内容对日志数据分析并合并得到处理后的序列，将处理后的序列利用广义序列模式挖掘算法筛选出频繁项集，将识别的频繁项集添加到行为知识库；

8、步骤六：将待分析的行为组合在行为知识库中进行匹配，进行异常行为组合识别。

9、进一步地，所述步骤一包括：

10、抽取预设时间内的系统操作日志数据，对每条日志记录标记唯一编码，将日志数据按照操作时间进行升序排列，得到数据集data，其中数据集data包括唯一编码、账号、操作时间、操作内容；根据操作内容，提取相应操作指令，形成数据集data的操作指令字段。

11、进一步地，所述步骤二包括：

12、根据数据集data，选取系统操作日志数据中操作时间，以账号为分析对象，计算每个账号相邻两条日志记录之间时间间隔δt，指定时间间隔阈值t，若δt小于t，则相邻两条日志记录属于同一个大类，记录对应的标签sessionid。

13、进一步地，所述步骤三包括：

14、提取每个账号的每个标签sessionid对象的时间间隔δt，形成数组δt1,δt2,…,δtn，利用时序聚类算法对数组进行聚类，聚类类别设置成3类，得到不同记录时间间隔的类标签；

15、根据类标签，计算每类的时间间隔均值，按照均值大小进行升序排列，并按值从小到大赋以0,1,2，形成数据集data的新类标签；

16、基于新类标签，按每个账号每个标签sessionid进行新类标签累加，生成标签clusterid。

17、进一步地，所述步骤五包括：

18、利用账号、簇标签label构建序列号，序列内容为账号、簇标签对应的操作指令，将同一簇标签label对应的操作指令按顺序进行合并，得到处理后的序列，将处理后的序列利用广义序列模式挖掘算法计算出各种序列组合置信度、支持度，根据设定的最小置信度、最小支持度筛选出频繁项集，将识别的频繁项集添加到行为知识库。

19、进一步地，所述步骤六包括：

20、随着操作时间，利用系统操作日志数据不断更新行为知识库，将待分析的行为组合在行为知识库中进行匹配，如可以匹配到相应行为知识库内容，则认为是正常行为组合，反之，则认为行为组合非正常，进行对应行为账号告警。

21、本发明还提供基于日志记录的异常行为组合识别系统，包括：

22、数据集获取模块，用于提取系统操作日志数据并进行预处理得到数据集data；

23、第一标签模块，用于以预处理后的日志数据的账号为分析对象，根据每个账号的相邻日志之间的时间间隔判定两者是否属于同一个大类，若是，生成账号维度的标签sessionid；

24、第二标签模块，用于根据标签sessionid利用时序聚类算法对日志数据进行聚类，生成新类标签，按每个账号每个sessionid进行新类标签累加，生成标签clusterid；

25、标签拼接模块，用于标签sessionid和标签clusterid进行标签字段拼接得到簇标签label；

26、知识库建立模块，用于基于账号、簇标签label、序列内容对日志数据分析并合并得到处理后的序列，将处理后的序列利用广义序列模式挖掘算法筛选出频繁项集，将识别的频繁项集添加到行为知识库；

27、异常识别模块，用于将待分析的行为组合在行为知识库中进行匹配，进行异常行为组合识别。

28、进一步地，所述数据集获取模块还用于：

29、抽取预设时间内的系统操作日志数据，对每条日志记录标记唯一编码，将日志数据按照操作时间进行升序排列，得到数据集data，其中数据集data包括唯一编码、账号、操作时间、操作内容；根据操作内容，提取相应操作指令，形成数据集data的操作指令字段。

30、进一步地，所述第一标签模块还用于：

31、根据数据集data，选取系统操作日志数据中操作时间，以账号为分析对象，计算每个账号相邻两条日志记录之间时间间隔δt，指定时间间隔阈值t，若δt小于t，则相邻两条日志记录属于同一个大类，记录对应的标签sessionid。

32、进一步地，所述第二标签模块还用于：

33、提取每个账号的每个标签sessionid对象的时间间隔δt，形成数组δt1,δt2,…,δtn，利用时序聚类算法对数组进行聚类，聚类类别设置成3类，得到不同记录时间间隔的类标签；

34、根据类标签，计算每类的时间间隔均值，按照均值大小进行升序排列，并按值从小到大赋以0,1,2，形成数据集data的新类标签；

35、基于新类标签，按每个账号每个标签sessionid进行新类标签累加，生成标签clusterid。

36、进一步地，所述知识库建立模块还用于：

37、利用账号、簇标签label构建序列号，序列内容为账号、簇标签对应的操作指令，将同一簇标签label对应的操作指令按顺序进行合并，得到处理后的序列，将处理后的序列利用广义序列模式挖掘算法计算出各种序列组合置信度、支持度，根据设定的最小置信度、最小支持度筛选出频繁项集，将识别的频繁项集添加到行为知识库。

38、进一步地，所述异常识别模块还用于：

39、随着操作时间，利用系统操作日志数据不断更新行为知识库，将待分析的行为组合在行为知识库中进行匹配，如可以匹配到相应行为知识库内容，则认为是正常行为组合，反之，则认为行为组合非正常，进行对应行为账号告警。

40、本发明的优点在于：本发明通过时序聚类，可以将相似的序列聚集在一起，形成簇，可以在每个簇内使用序列模式挖掘技术来发现在特定上下文下频繁出现的模式，从而更好地理解每个簇中的行为，通过结合时序聚类算法与序列模式挖掘算法这两种方法，可以更深入地解释和分析数据中的模式。时序聚类提供了簇的上下文信息，而序列模式挖掘提供了簇内模式的细节，从而更全面地理解数据的行为。两者方式结合实现精细化地行为日志记录分簇，可以细化行为序列组合，提升序列组合识别的效率以及准确性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：殷钱安
技术所有人：上海观安信息技术股份有限公司
我是此专利的发明人

上一篇：一种基于语言图模型的法案智能分析方法及系统
上一篇：用于防盗窗装配固定角码制作的定位组件的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。