一种用户操作行为的判定方法及装置与流程

文档序号：12829116阅读：255来源：国知局

本发明涉及数据处理技术领域，特别涉及一种用户操作行为的判定方法及装置。

背景技术：

随着企业电子办公的技术发展，越来越多的用户误操作事件或泄密事件等造成难以挽回的经济损失和信誉危机，而现有的审计系统虽然在追根溯源和孤立事件分析上面具有较强的优势，但是很难对用户的操作行为进行安全性判定，特别是在早期预警和安全行为理解方面尤其不足。

因此，亟需一种能够对用户日常的操作行为是否异常进行判定的技术方案。

技术实现要素：

有鉴于此，本发明的目的在于提供一种用户操作行为的判定方法及系统，用以解决现有技术中无法有效对用户日常的操作行为进行异常判定的技术问题。

本发明提供了一种用户操作行为的判定方法，包括：

采集目标用户的当前日志数据，所述当前日志数据为所述目标用户进行其相关操作行为的日志数据；

获得所述当前日志数据对应的对数概率；

在所述对数概率处于预设的对数概率范围内时，提取所述当前日志数据中的当前行为特征；其中，所述预设的对数概率范围为基于所述目标用户的历史日志数据利用马尔科夫模型进行概率计算获得；

基于预设的特征库中的目标行为特征，对所述当前行为特征进行分析，得到分析结果，所述目标行为特征为基于所述目标用户的历史日志数据获得，所述分析结果表征所述目标用户的操作行为状态。

上述方法，优选的，提取所述当前日志数据中的当前行为特征，包括：

生成所述当前日志数据基于其时间轴的量化值；

基于所述量化值，获得所述目标用户的行为规则量化指标；

利用所述行为规则量化指标，对所述当前日志数据进行特征量化，以得到所述当前日志数据中的当前行为特征。

上述方法，优选的，基于预设的特征库中的目标行为特征，对所述当前行为特征进行分析，得到分析结果，包括：

确定所述目标行为特征对应的特征阈值范围；

获得所述当前行为特征的状态概率值；

判断所述当前行为特征的状态概率值是否处于该特征阈值范围内，得到分析结果；

其中，所述当前行为特征的状态概率值处于该特征阈值范围内时，所述分析结果表征所述目标用户的操作行为正常，否则，所述分析结果表征所述目标用户的操作行为异常。

上述方法，优选的，所述当前行为特征至少包括：操作轨迹特征及操作指令特征。

上述方法，优选的，采集目标用户的当前日志数据，包括：

依据预设的关键字段对所述目标用户进行操作行为的原始日志数据进行数据采集，以得到所述目标用户的当前日志数据。

本发明还提供了一种用户操作行为的判定系统，包括：

数据采集单元，用于采集目标用户的当前日志数据，所述当前日志数据为所述目标用户进行其相关操作行为的日志数据；

概率获得单元，用于获得所述当前日志数据对应的对数概率；

特征提取单元，用于在所述对数概率处于预设的对数概率范围内时，提取所述当前日志数据中的当前行为特征；其中，所述预设的对数概率范围基于所述目标用户的历史日志数据利用马尔科夫模型进行概率计算获得；

特征分析单元，用于基于预设的特征库中的目标行为特征，对所述当前行为特征进行分析，得到分析结果，所述目标行为特征为基于所述目标用户的历史日志数据获得，所述分析结果表征所述目标用户的操作行为状态。

上述系统，优选的，所述特征提取单元包括：

量化值生成子单元，用于生成所述当前日志数据基于其时间轴的量化值；

量化指标获得子单元，用于基于所述量化值，获得所述目标用户的行为规则量化指标；

特征量化子单元，用于利用所述行为规则量化指标，对所述当前日志数据进行特征量化，以得到所述当前日志数据中的当前行为特征。

上述系统，优选的，所述特征分析单元包括：

范围确定子单元，用于确定所述目标行为特征对应的特征阈值范围；

概率值获得子单元，用于获得所述当前行为特征的状态概率值；

概率值判断子单元，用于判定所述当前行为特征的状态概率值是否处于该特征阈值范围内，得到分析结果；

上述系统，优选的，所述当前行为特征至少包括：操作轨迹特征及操作指令特征。

上述系统，优选的，所述数据采集单元包括：

原始数据采集子单元，用于依据预设的关键字段对所述目标用户进行数据采集，以得到所述目标用户的当前日志数据。

由上述方案可知，本发明提供的一种用户操作行为的判定方法及系统，在采集到目标用户的当前日志数据之后，获得该当前日志数据对应的对数概率，并利用基于该目标用户的历史日志数据利用马尔科夫模型所计算得到的对数概率范围，来判定该当前日志数据是否为有效的操作行为的日志数据，只有在该当前日志数据的对数概率处于计算得到的对数概率范围内时才表明该当前日志数据为目标用户进行有效的操作行为的日志数据，此时，提取该当前日志数据中的当前行为特征，进而基于特征库中的目标行为特征来对当前行为特征进行分析，进而得到表征目标用户操作行为状态是否正常的分析结果，从而实现对用户的操作行为进行有效的异常判定，实现本发明目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为为本发明实施例一提供的一种用户操作行为的判定方法的流程图

图2为本发明实施例二提供的一种用户操作行为的判定方法的部分流程图；

图3为本发明实施例三提供的一种用户操作行为的判定方法的部分流程图；

图4为本发明实施例四提供的一种用户操作行为的判定方法的流程图；

图5～图7分别为本发明实施例的应用示例图；

图8为本发明实施例五提供的一种用户操作行为的判定系统的结构示意图；

图9为本发明实施例六提供的一种用户操作行为的判定系统的部分结构示意图；

图10为本发明实施例七提供的一种用户操作行为的判定系统的部分结构示意图；

图11为本发明实施例八提供的一种用户操作行为的判定系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，为本发明实施例一提供的一种用户操作行为的判定方法的流程图，其中，所述方法适用于对一个或多个目标用户进行企业办公系统或互联网等操作行为是否异常进行判定。

具体的，本实施例中，所述方法可以包括以下步骤：

步骤101：采集目标用户的当前日常数据。

其中，所述当前日志数据为所述目标用户进行其相关操作行为的日志数据。

例如，所述目标用户对企业办公系统的操作系统进行各种业务操作行为，或者所述目标用户对计算机等操作系统进行网页浏览等操作行为，等等，相应的操作系统会对所述目标用户的各种操作行为进行记录，生成相应的日志数据，本实施例中对所述目标用户进行操作行为的日志数据进行采集。

步骤102：获得所述当前日志数据对应的对数概率。

具体的，本实施例中可以利用马尔科夫模型对应的算法获取所述当前日志数据对应的对数概率，如马尔科夫模型对应的识别规则库算法，这里的规则库可以理解为下文中的特征库，可以用来获得所述当前日志数据对应的对数概率。

步骤103：在所述对数概率处于预设的对数概率范围内时，提取所述当前日志数据中的当前行为特征。

其中，所述预设的对数概率范围为基于所述目标用户的历史日志数据利用马尔科夫模型进行概率计算获得。

具体的，本实施例中可以通过以下步骤实现：

(1)提取所述目标用户的历史日志数据中的访问ip地址，由此得到整个待识别轨迹ips＝{ip¹,ip²,ip³...ipⁿ}，由n个简单跳转(ip地址)行为串接而成，其中，nmin≤n≤nmax，令n＝nmin。

(2)将ip按简单行为模型λv可能的时长范围取第一段称为第1层，对应一个简单行为。为模型λv的长度阈值，一般取λv训练样本平均长度的1/2。

(3)使用forward算法对求对应所有λ1到λt的概率，然后找出λv中最大的概率以及对应的简单行为模型；如果则把作为的识别结果，否则认为不是任何简单行为，舍弃这种无意义行为。

(4)以第1层的各个可能的终点t1作为起点取第2段计算并找出

(5)以此类推，类似步骤(4)逐层求出直到第l层的最大概率以及对应的简单行为模型

(6)求累计对数概率:

其中，t0＝1；tl＝t。挑选合适的t1，t2…tl使累计对数概率最大，作为整条轨迹由l个简单行为组成的对数概率。然后通过行为语法验证如果不符合逻辑就重新挑选t1，t2…tl使式1取次大值，重复验证直到符合逻辑为止。

(7)令l＝l+1，重复步骤(1)～步骤(6)直到l＝lmax，选择累计对数概率中最大的层数的对数概率值作为对数概率范围的最大值，由此确定所述对数概率范围。

需要说明的是，本实施例中获得所述当前日志数据对应的对数概率时，可以通过上述算法获得，此处不再详述。

步骤104：基于预设的特征库中的目标行为特征，对所述当前行为特征进行分析，得到分析结果。

其中，所述目标行为特征为基于所述目标用户的历史日志数据获得，也就是说，本实施例中以所述目标用户操作行为正常的历史日志数据作为标准，对其当前的操作行为进行异常判定分析，进而得到表征所述目标用户的操作行为状态的分析结果。具体的，在所述当前行为特征与预设的目标行为特征相匹配时，所述分析结果表征所述目标用户当前的操作行为正常，否则，所述分析结果表征所述目标用户当前的操作行为异常。

由上述方案可知，本发明实施例一提供的一种用户操作行为的判定方法，在采集到目标用户的当前日志数据之后，获得该当前日志数据对应的对数概率，并利用基于该目标用户的历史日志数据利用马尔科夫模型所计算得到的对数概率范围，来判定该当前日志数据是否为有效的操作行为的日志数据，只有在该当前日志数据的对数概率处于计算得到的对数概率范围内时才表明该当前日志数据为目标用户进行有效的操作行为的日志数据，此时，提取该当前日志数据中的当前行为特征，进而基于特征库中的目标行为特征来对当前行为特征进行分析，进而得到表征目标用户操作行为状态是否正常的分析结果，从而实现对用户的操作行为进行有效的异常判定，实现本实施例目的。

参考图2，为本发明实施例二提供的一种用户操作行为的判定方法中所述步骤103的实现流程图，其中，所述步骤103可以通过以下步骤实现：

步骤131：生成所述当前日志数据基于其时间轴的量化值。

步骤132：基于所述量化值，获得所述目标用户的行为规则量化指标。

步骤133：利用所述行为规则量化指标，对所述当前日志数据进行特征量化，以得到所述当前日志数据中的当前行为特征。

具体的，本实施例中可以通过所述当前日志数据产生基于其时间轴这些量化的观察值，即量化值，再通过所述量化值来产生所述目标用户的行为规则量化指标，进而生成概率矩阵，以得到真正的状态序列，这个状态序列即是该目标用户的行为规则量化特征，即所述目标用户的当前行为特征。在这一过程中，其量化计算过程为：设t＝0(事实上t的首项应该为1，但是考虑到编程的方便这里就设首项为0)即alpha(i，t)＝pi(i)*q(i，t)。alpha(i，t)指t时刻状态为si的概率(下面同义)，pi(i)为状态si的初始概率，q(i，t)：指的是t时刻观测值vt由状态si生成的概率；在t>0而且在t<＝n时，即alpha(t,i)＝sum[alpha(j,t-1)*p(j,i)*q(i,t)]，p(j,i)指由状态sj转移到si的概率；即将所算的所有状态si的结果再求和，得到规则的状态概率，即为得到的所述当前日志数据中的当前行为特征。

参考图3，为本发明实施例三提供的一种用户操作行为的判定方法中所述步骤104的实现流程图，其中，所述步骤104可以包括以下步骤：

步骤141：确定所述目标行为特征对应的特征阈值范围。

具体的，所述目标行为特征可以包括两种特征：目标操作轨迹特征，如ip的跳转和操作的设备范围，以及目标操作指令特征，如用户的操作指令和指令的执行阈值范围等，由此，本实施例中基于这些目标行为特征中的两种特征及特征属性，确定所述目标行为特征对应的特征阈值范围，如ip跳转匹配率范围、指令匹配率范围及指令执行阈值范围匹配率范围等。

步骤142：获得所述当前行为特征的状态概率值。

其中，所述当前行为特征的状态概率值的获取可以参考前述实施例中对所述当前行为特征的提取过程中获得其状态概率的实现方案。

步骤143：判断所述当前行为特征的状态概率值是否处于该特征阈值范围内，得到分析结果。

其中，在具体实现中，所述当前行为特征至少包括：操作轨迹特征及操作指令特征。也就是说，本实施例中，所述目标用户行为的规则可以分为两个维度来描述：一个是目标用户的运动轨迹，即ip的跳转和操作的设备范围，另一个为目标用户的操作指令和和指令的执行阈值范围。因此本实施例中可以量化这种维度的格式为：

{用户名：“张三”，用户uuid：“f906e67b-678d-402a-8b3d-0126051688ee

”，范围密度：[3，{192.168.100.120，192.168.100.20，192.168.100.22}]，

相应的，指令阈值密度：[{192.168.100.120，[adoptsettlecommission：10，simpukqry：21]}，{192.168.100.20，[.....]}，{192.168.100.22,[.....]}]}。

由此，本实施例中通过可以通过所述当前日志数据得到目标用户的当前行为特征如操作轨迹特征和操作指令特征等之后，获得在得到这些当前行为特征过程中所产生的相应的状态概率值，同时确定特征库中相应特征的特征阈值范围，进而判定这些状态概率值是否在对应的特征阈值范围内，由此来得到分析结果，表征所述目标用户的操作行为是否出现异常状态。

参考图4，为本发明实施例四提供的一种用户操作行为的判定方法的流程图，其中，所述步骤101可以通过以下步骤实现：

步骤111：依据预设的关键字段对所述目标用户进行操作行为的原始日志数据进行数据采集，以得到所述目标用户的当前日志数据。

在具体实现中，所述目标用户的当前日志数据需要包含以下关键字段或属性，如表1中所示：

表1

由此，本实施例中基于这些需要支持按照指定的关键字段对原始日志数据进行采集，这里采集的关键字段包括但不局限于：源ip地址、源端口、目的ip地址、目的端口、操作时间、操作内容等信息。并且应支持：源端口、目标端口、url地址、get参数、post参数、cookie参数、域名、referer、用户浏览器(user-agent)、x-forward-for、响应消息类型(content-type)、响应消息体(应答页面)等业务操作特征日志数据。

其中，在采集过程中，采集的方式有主动采集和被动采集方式，主动采集：通过jdbc接口，通过轮询的方式在用户的应用日志系统中将业务操作日志进行全量采集；被动采集：通过syslog方式侦听操作系统发送过来的系统用户登录日志等。完成后进行字段补齐和用户“会话”合并，用户“会话”合并即：用户一次登录到退出过程中全部的操作记录集合。具体的采集过程可以参考图5中所示。最后将合并好的数据以用户名称+用户uuid作为key，通过solr对操作进行分词后以文件形式保存，这样的目的便于对操作指令进行快速的查询，同时以用户为维度产生其行为规则和模式，即该用户的当前行为特征。本实施例中随着规则每隔相应的时间段如每月实际新的数据产生，具有自动更新修正规则库(特征库)的能力，理论上讲，历史日志数据越长久，状态划分越多，判定精度越高；并通过日志数据建立规则库，再通过规则库分析日志数据，这样完成了一个数据驱动分析的过程，同时利用了大数据平台存储日志文件，采用solr进行操作日志分词索引存储，为统计分析算法提供了快速的查询计算基础，能快速得到用户的规则库，即特征库。

在具体实例中，本发明中基于应用系统用户业务轨迹和操作行为之间相互影响，以符合隐形马尔科夫模型的映射隐含关系，即从可观察的参数中确定该过程的隐含参数，然后利用这些参数来作进一步的分析，例如模式识别，因此，本发明使用用户的时序ip地址和操作命令之间形成一个隐形的马尔科夫链关系，如图6中所示，用户在系统中通常访问的ip地址反应了用户的日常行为轨迹，用户在一定的时间范围(一天/一周/一个月)内日志中出现、消失、停留的范围区域(如图中ip1，ip2，ip3，或ip段)以及某些有特殊意义的服务器ip等，把它们定义为标志点“landmark”：lk{lk1，lk2，…，lki}。标志点可以通过统计方法获得，也可以实际业务部署的ip通过手工指定。图6中纵向上看，每个ip都对应一个用户操作指令集合，通过这个操作指令反应为具体的业务功能，可以称之为业务功能映射，每个功能映射中的操作指令和指令数量是具有一定范围和阈值门限。横向上看用户在其活动范围内是通过一连串的跳转指令进行业务切换，这些跳转指令的目的ip地址可以称之为业务范围映射。

本发明通过对每个用户的业务范围和业务功能映射，可以建立一种基于门限阈值的隐马尔科夫模型，阈值模型给出了进行行为判决的底线，只有观测序列o在已定义简单行为模型下的概率大于其在阈值模型下的概率时，才进行判决，否则就认为观测序列无意义或属于未定义的行为。这样既可以减轻系统的判别负载，又能减少误判和错判的可能。也就是说，本发明中将规则库即前文中提到的特征库中每个用户的业务状态概率值载入行为判定服务引擎中，行为判定服务引擎将根据规则概率对数建立阈值，将无关的操作滤掉，只对有用的操作进行判定，如图7中所示，从而比较准确的判定一个用户在某个时域中业务操作的安全性，不仅提高了处理效率也提高了判定的准确率。

参考图8，为本发明实施例五提供的一种用户操作行为的判定系统的结构示意图，其中，所述系统适用于对一个或多个目标用户进行企业办公系统或互联网等操作行为是否异常进行判定。

具体的，本实施例中，所述系统可以包括以下结构：

数据采集单元801，用于采集目标用户的当前日志数据。

其中，所述当前日志数据为所述目标用户进行其相关操作行为的日志数据。

概率获得单元802，用于获得所述当前日志数据对应的对数概率。

特征提取单元803，用于在所述对数概率处于预设的对数概率范围内时，提取所述当前日志数据中的当前行为特征。

其中，所述预设的对数概率范围为基于所述目标用户的历史日志数据利用马尔科夫模型进行概率计算获得。

具体的，本实施例中可以通过以下步骤实现：

(2)将ip按简单行为模型λv可能的时长范围取第一段称为第1层，对应一个简单行为。为模型λv的长度阈值，一般取λv训练样本平均长度的1/2。

(4)以第1层的各个可能的终点t1作为起点取第2段计算并找出

(5)以此类推，类似步骤(4)逐层求出直到第l层的最大概率以及对应的简单行为模型

(6)求累计对数概率:

(7)令l＝l+1，重复步骤(1)～步骤(6)直到l＝lmax，选择累计对数概率中最大的层数的对数概率值作为对数概率范围的最大值，由此确定所述对数概率范围。

需要说明的是，本实施例中获得所述当前日志数据对应的对数概率时，可以通过上述算法获得，此处不再详述。

特征分析单元804，用于基于预设的特征库中的目标行为特征，对所述当前行为特征进行分析，得到分析结果。

其中，所述目标行为特征为基于所述目标用户的历史日志数据获得，所述分析结果表征所述目标用户的操作行为状态。

由上述方案可知，本发明实施例五提供的一种用户操作行为的判定系统，在采集到目标用户的当前日志数据之后，获得该当前日志数据对应的对数概率，并利用基于该目标用户的历史日志数据利用马尔科夫模型所计算得到的对数概率范围，来判定该当前日志数据是否为有效的操作行为的日志数据，只有在该当前日志数据的对数概率处于计算得到的对数概率范围内时才表明该当前日志数据为目标用户进行有效的操作行为的日志数据，此时，提取该当前日志数据中的当前行为特征，进而基于特征库中的目标行为特征来对当前行为特征进行分析，进而得到表征目标用户操作行为状态是否正常的分析结果，从而实现对用户的操作行为进行有效的异常判定，实现本实施例目的。

参考图9，为本发明实施例六提供的一种用户操作行为的判定系统中所述特征提取单元803的结构示意图，其中，所述特征提取单元803可以包括以下结构：

量化值生成子单元831，用于生成所述当前日志数据基于其时间轴的量化值。

量化指标获得子单元832，用于基于所述量化值，获得所述目标用户的行为规则量化指标。

特征量化子单元833，用于利用所述行为规则量化指标，对所述当前日志数据进行特征量化，以得到所述当前日志数据中的当前行为特征。

参考图10，为本发明实施例七提供的一种用户操作行为的判定系统中所述特征分析单元804的结构示意图，其中，所述特征分析单元804可以包括以下结构：

范围确定子单元841，用于确定所述目标行为特征对应的特征阈值范围。

概率值获得子单元842，用于获得所述当前行为特征的状态概率值。

其中，所述当前行为特征的状态概率值的获取可以参考前述实施例中对所述当前行为特征的提取过程中获得其状态概率的实现方案。

概率值判断子单元843，用于判定所述当前行为特征的状态概率值是否处于该特征阈值范围内，得到分析结果。

{用户名：“张三”，用户uuid：“f906e67b-678d-402a-8b3d-0126051688ee

”，范围密度：[3，{192.168.100.120，192.168.100.20，192.168.100.22}]，

相应的，指令阈值密度：[{192.168.100.120，[adoptsettlecommission：10，simpukqry：21]}，{192.168.100.20，[.....]}，{192.168.100.22,[.....]}]}。

参考图11，为本发明实施例八提供的一种用户操作行为的判定系统的结构示意图，其中，所述数据采集单元801可以通过以下结构实现：

原始数据采集子单元811，用于依据预设的关键字段对所述目标用户进行数据采集，以得到所述目标用户的当前日志数据。

在具体实现中，所述目标用户的当前日志数据需要包含以下关键字段或属性，如表1中所示。由此，本实施例中基于这些需要支持按照指定的关键字段对原始日志数据进行采集，这里采集的关键字段包括但不局限于：源ip地址、源端口、目的ip地址、目的端口、操作时间、操作内容等信息。并且应支持：源端口、目标端口、url地址、get参数、post参数、cookie参数、域名、referer、用户浏览器(user-agent)、x-forward-for、响应消息类型(content-type)、响应消息体(应答页面)等业务操作特征日志数据。

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王曦
技术所有人：亿阳安全技术有限公司
我是此专利的发明人

上一篇：加密方法和加密装置与流程
上一篇：一种液压坐封的悬挂封隔器的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。