一种基于用户语言特征的内部威胁检测方法与流程

文档序号:11292228阅读:284来源:国知局
一种基于用户语言特征的内部威胁检测方法与流程

本发明涉及一种基于用户语言特征的内部威胁检测方法,属于信息安全建设/网络安全技术领域。



背景技术:

随着网络的发展,网络信息的安全越来越引起社会的重视,各种防病毒软件、防火墙、入侵检测等安全产品得到了广泛的应用。但是这些信息安全产品仅仅是为了防御外部的入侵和窃取,伴随人们对网络安全的认知和技术的发展,发现由于内部人员造成的泄密和入侵事件占了很大比例,如2013年的斯诺登“棱镜门”事件,就是一起典型的内部人员泄密的安全事例。所以应对内部威胁应该与抵御外部的入侵必须同样地受到重视,然而现实中尚无有效的内部威胁检测机制。

由于内部威胁攻击者一般是企业或组织的员工(在职或离职)、承包商以及商业伙伴等,且具有组织的系统、网络以及数据的访问权,因此内部威胁通常具备极高的隐蔽性与危害性,基于防火墙、ids等安全设备的传统纵深防御体系并不能有效应对内部威胁。

检测内部威胁的关键在于完善的内部安全审计,其核心是以用户为中心,记录其在系统与网络中的所有关键操作与行为,从而形成用户在内部网络中的行为轨迹。当前内部安全审计的重点是以下行为:

文档审计:审计文档的写入、创建、复制、删除等操作;

打印审计:审计用户发起的打印事件与文件内容等;

登录审计:审计用户登录系统的行为,以及注销、重启、关闭系统的操作;

进程审计:审计用户创建、关闭的进程;

网络监控:审计web访问行为,包括访问目标ip/port、页面请求等;

设备审计:审计usb等可移动存储设备使用行为,如复制、删除的文件;

邮件审计:审计用户邮件行为,如邮件头信息中的收/发件人、邮件标题、部分正文以及附件个数(类型)等。

多维度、细粒度的内部安全审计必然导致巨大的数据量,随之而来的急剧增长的检测复杂度为内部威胁检测提出了挑战。因此,结合大数据分析技术来建模用户行为,尤其是针对内部安全审计日志的大数据安全研究已经成为当今研究热点。然而实际中的内部威胁检测系统因为其数据源刻画维度片面、检测系统架构单一等不足导致检测误报率较高,实用性较差,因此很有必要设计具有良好实用性的内部威胁检测系统。

现有内部威胁检测系统设计研发的重点是运用异常检测方法,基于用户的内部安全审计日志建立内部威胁分类器,其主要步骤如下:

内部安全审计采集:部署内部安全审计系统,收采集用户的文档访问等内部系统与网络行为,格式化处理后传递给分类器构建模块;

异常检测分类器:运用异常检测方法从接收的数据中学习用户行为模型,构建异常检测分类器;

用户行为检测:异常检测分类器对特定时间窗口的用户行为日志进行检测,判断是否为内部威胁;

上述基于异常检测的内部威胁检测方法可以应对实际中大部分内部攻击情况,然而其前提假设具有不能忽视的缺陷,即其假设:内部恶意用户的恶意行为一定不同于正常工作行为,故可以借助异常检测区分恶意行为;实际中,上述假设的恶意行为与异常行为并不完全等价,即两类行为集合并不相等,因此若仅考虑异常行为检测,则必然导致高误报率(正常用户识别为恶意用户)与高漏报(恶意用户识别为正常用户),具体的,可以参考下面两个事例:

1.项目经理a与b平时经常通过邮件交流合作项目的进展事宜,某天a通过邮件将应保密的项目技术材料发给了b(恶意行为并不异常);

2.采购员a平时总是从供销公司b处采购,忽然有一次从供销公司c采购,但是不能由此判断a收受了c的回扣(异常行为并不一定是恶意)

如上所述,现有内部威胁检测系统的核心在于依靠策略检查与攻击过程中用户行为的异常检测来构建检测异常的分类器。然而单纯分析攻击过程特征的前提假设混淆了“异常”与“恶意”的界限,实际中用户恶意的行为也许不属于异常,异常行为也未必属于恶意。仅仅依靠采集的内部安全审计日志中的用户系统与网络行为数据并不足以细粒度区分“异常”与“恶意”的界限,因此基于现有数据维度的内部威胁检测系统不可避免地存在高误报与漏报问题。高误报导致报警质量偏低,一方面分析人员无法全面分析,另一方面导致系统可用性降低,结果检测系统形同虚设;高漏报则直接使得安全防御失效,致使企业或组织资产陷于高风险之中。高误报与高漏报是制约内部威胁检测系统实用性的关键因素,也是当前内部威胁检测系统存在的主要问题。



技术实现要素:

针对现有技术依靠策略检查与行为数据异常检测的现有内部威胁检测方法存在的高误报、高漏报的不足,本发明提供了一种基于用户语言特征的内部威胁检测方法,其能够全面分析检测内部威胁,有效降低传统内部威胁检测方法的高误报与漏报问题。

本发明解决其技术问题采取的技术方案是:一种基于用户语言特征的内部威胁检测方法,其特征是,首先分析用户的语言数据,提取语言特征并建立能够表征用户人格心理特征的数值化特征向量,然后构建分类器并进行分类器训练来识别异常人格心理特征的用户,最后分析异常人格心理特征用户的特征向量偏移度来筛选出误报用户,并将剩余的用户作为内部潜在恶意用户上报给安全管理员进行分析应对。

优选地,所述基于用户语言特征的内部威胁检测方法包括以下步骤:

1)、数据预处理:对内部审计系统的用户语言数据进行至少包含自动化审计、自动化内容处理和自动化聚合三方面的分析处理;

2)、人格心理特征向量构建:首先对每个用户的用户语言数据进行分析,将得到相应的重要词类的词频结果作为中文词liwc的分析结果,然后借助liwc词类与大五人格的特征关联,将计算出大五人格的18个子维度特征数值作为该用户的人格心理特征向量;

3)、分类器训练:首先构建分类器,并选择初始的某个时间段内审计的用户语言数据,计算每个用户的人格心理特征向量,然后应用单类支持向量机训练得到初始的用户群组的心理模型,最后在之后任意一个新的时间段内计算基于用户语言数据内容建模的人格心理特征向量,并使用用户群组心理模型判断是否异常,判断异常的用户群组集合记为abnormalusers;

4)、威胁置信度计算:对判断为异常的用户群组集合abnormalusers进行计算威胁置信度来进一步筛选用户;所述威胁置信度计算过程包括以下具体步骤:

41)、对于异常用户群组集合abnormalusers中的用户,将其对应的18维度特征向量构成一个矩阵matrix_1,行数为abnormalusers的用户数,列为18;

42)、按照列计算矩阵martix_1的每行的z分数得到martrix_2,martrix_2的计算公式如下:

其中,对于matrix_1中的第i个用户而言,xij代表其第j个维度数值,代表其矩阵中第j列的数值均值,σj代表第j列的标准差;

当对matrix_1中每个用户计算z分数后,组成新的矩阵matrix_2;

43)、计算矩阵martrix_2的每列数据的均值,得到18维度的均值向量mean_value;

44)、首先对异常用户群组集合abnormalusers中的每个用户依次比较其18维度特征向量中超过均值向量mean_value中对应数值的个数,然后将所得新的18维二元向量作为其威胁置信度tcd,如果威胁置信度tcd中‘1’的个数超过阈值k,则标记该用户为正常用户,并从异常用户群组集合abnormalusers中删除该用户;

45)、重复上述步骤41)至步骤44)直到所有异常用户群组集合abnormalusers中所有用户均经过判断,最后剩余的异常用户群组集合abnormalusers中用户作为内部潜在恶意用户上报给安全管理员分析应对。

优选地,所述用户语言数据包括工作邮件数据、电子文档数据和社交应用数据,所述工作邮件数据为用户发送的工作邮件的文本内容,所述电子文档数据为用户书写的与工作相关且以电子版形式存储的文本内容,所述社交应用数据为用户的社交状态爬取后的文本内容。

优选地,所述对工作邮件数据的分析处理过程包括以下步骤:

111)、自动化审计:收集某时间段内的工作邮件数据;

112)、自动化内容处理:仅分析用户发送的邮件,对于每一封邮件筛去邮件头信息,仅提取文本内容;对于带有多个时间标签的发送邮件,仅考虑时间最近一次发送的邮件;

113)、自动化聚合:将每个用户的工作邮件数据进行自动化审计和自动化内容处理的文本内容聚合成一个大文本文件并进行存储。

优选地,所述对电子文档数据的分析处理过程包括以下步骤:

121)、自动化审计:收集某时间段内工作中的电子文档数据;

122)、自动化内容处理:去除电子文档中的各级标题数据、格式数据以及图片声音数据,仅提取电子文档中的纯文本内容;

123)、自动化聚合:将每个用户的电子文档数据进行自动化审计和自动化内容处理的文本内容聚合成一个大文本文件并进行存储。

优选地,所述对社交应用数据的分析处理过程包括以下步骤:

131)、自动化审计:收集某时间段中内部用户的社交应用状态数据;

132)、自动化内容处理:去除社交应用状态数据中的图片、声音以及超链接数据,仅处理状态中由该用户所书写的文本内容;

133)、自动化聚合:将每个用户的社交应用数据进行自动化审计和自动化内容处理的文本内容数据聚合成一个大文本文件并进行存储。

优选地,在人格心理特征向量构建过程中,使用中国科学院心理研究所的文心中文心理分析系统对每个用户的邮件文本文件分析,得到相应的重要词类的词频结果,作为中文词liwc的分析结果;借助liwc词类与大五人格的特征关联,计算出大五人格的18个子维度特征数值,作为该用户的人格心理特征向量。

优选地,所述18个大五人格的子维度分别是:焦虑特质、愤怒特质、抑郁特质、自我意识特质、冲动特质、脆弱特质、信任特质、道德特质、利他特质、合作特质、谦虚特质、同情特质、自我效能、秩序特质、责任特质、成就感、自律特质和谨慎特质。

优选地,所述118个子维度特征数值的计算过程如下:

对于18个子维度中的第i个维度而言,该子维度与liwc词类的统计相关性为:

其中,feati表示第i个子维度,而(qi,j,ci,j)表示对应的liwc词类qi,j及其对应的统计相关性ci,j,而ni为与第i个子维度统计显著相关的liwc词类个数;

在公式(1)的基础上,通过公式(2)计算用户的人格心理特征向量:

其中,feati表示用户的18个维度中的任意一个的人格心理特征向量,qj与cj分别代表了该用户在第i个维度关联的liwc的第j个词类上的词频值与对应的统计相关性。

优选地,所述威胁置信度tcd的计算公式如下:

tcdi={1,1,0,1,0,1,1,1,0,1,1,1,1,0,1,1,1,1}(5)

其中,zij表示matrix_2中的i行j列数据,即第i个用户第j列维度特征的z分数,mvj表示均值向量mean_value中的第j个值;公式(5)中的用户的威胁置信度中数值‘1’的个数为14,如果数值‘1’的个数14大于给定的阈值k,则该用户被修正为正常用户,并被从abnormalusers集合中剔除。

本发明的有益效果是:本发明通过分析用户的语言数据提取语言特征并建立能够表征用户人格心理特征的数值化特征向量,然后从用户中训练分类器以识别出异常人格心理特征的用户,并进一步分析这些用户的特征向量偏移度,从而筛选出误报用户,将剩余的用户作为内部潜在恶意用户上报给安全管理员分析应对。本发明充分考虑了内部攻击中攻击者自身的心理特点,从人格角度进行了心理建模,并以此构建出异常检测分类器,弥补了现有检测方法只关注攻击过程忽视攻击主体的不足,从而可以细粒度地区分“异常”与“恶意”,全面分析检测内部威胁,有效避免了传统内部威胁检测方法的高误报与漏报问题。

与现有技术相比较,本发明具有以下特点:

建模攻击者特征:弥补了现有检测方法仅关注攻击过程特征的不足,建模攻击者特征,从而提供了分析攻击动机与预测攻击的可能;以工作邮件为例,通过分析邮件中用户语言特征,结合liwc词类与人格特征的统计相关性研究,构建出表征该用户人格心理特征的18维度特征向量,以此进行机器学习训练得到分类器。

提出威胁置信度tcd:如果单独依靠语言特征建模人格心理特征判断恶意用户,必然存在较高误报,因此本发明对于分类器检测出的异常用户,进一步分析这些用户在18个人格心理维度上的平均偏移变化,最终识别出偏移较大的判断为正常用户,从abnormalusers中删除,从而降低检测方法的误报率。

除了上述主要有点,本发明还解决了传统心理检测方法的不足。传统的心理检测方法主要依靠用户心理问卷测试、同事或领导评价等实现,其中不仅需要付出较多的时间与经济成本,更重要的是用户自我评价与第三方评价难以避免主观偏差,而且还可能会触犯隐私保护等法律法规。本发明中的检测方法立足内部审计系统,全程分析过程无人工参与,自动化进行,liwc词类分析后自动删除原始内容文件,在有效保护员工隐私的同时,实现内部恶意用户的检测,最终不仅降低了传统检测的时间经济成本,降低了法律道德风险,还有效降低了企业与组织面临的内部威胁风险。

附图说明

下面结合说明书附图对本发明进行说明。

图1为本发明的方法流程图;

图2为本发明进行内部威胁检测的方法流程图。

具体实施方式

为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

内部攻击(或称内部威胁)是由企业或组织中内部人发起,区别于传统网络入侵攻击的新型威胁。内部人位于传统网络安全边界内部,且具备安全防御与攻击目标的关键知识,因此内部人可以绕过现有安全防御机制,从企业或组织内部实施网络攻击(如窃取技术专利、客户名单等),从而造成巨大损失。本发明的目标是:基于企业或政府组织的内部信息审计系统,收集用户的语言数据以分析其特征,并针对所有用户建立心理模型,从中区分出内部潜在恶意用户,即极有可能成为内部攻击者的高危用户。在此基础上提交高危用户名单供内部安全管理人员分析,并采取应对行动预防或中止内部攻击行为。

本发明的一种基于用户语言特征的内部威胁检测方法,其特征是,首先分析用户的语言数据,提取语言特征并建立能够表征用户人格心理特征的数值化特征向量,然后构建分类器并进行分类器训练来识别异常人格心理特征的用户,最后分析异常人格心理特征用户的特征向量偏移度来筛选出误报用户,并将剩余的用户作为内部潜在恶意用户上报给安全管理员进行分析应对。

优选地,如图1所示,所述基于用户语言特征的内部威胁检测方法包括以下步骤:

1)、数据预处理:对内部审计系统的用户语言数据进行至少包含自动化审计、自动化内容处理和自动化聚合三方面的分析处理;

2)、人格心理特征向量构建:首先对每个用户的用户语言数据进行分析,将得到相应的重要词类的词频结果作为中文词liwc的分析结果,然后借助liwc词类与大五人格的特征关联,将计算出大五人格的18个子维度特征数值作为该用户的人格心理特征向量;

3)、分类器训练:首先构建分类器,并选择初始的某个时间段内审计的用户语言数据,计算每个用户的人格心理特征向量,然后应用单类支持向量机训练得到初始的用户群组的心理模型,最后在之后任意一个新的时间段内计算基于用户语言数据内容建模的人格心理特征向量,并使用用户群组心理模型判断是否异常,判断异常的用户群组集合记为abnormalusers;

4)、威胁置信度计算:对判断为异常的用户群组集合abnormalusers进行计算威胁置信度来进一步筛选用户;所述威胁置信度计算过程包括以下具体步骤:

41)、对于异常用户群组集合abnormalusers中的用户,将其对应的18维度特征向量构成一个矩阵matrix_1,行数为abnormalusers的用户数,列为18;

42)、按照列计算矩阵martix_1的每行的z分数得到martrix_2,martrix_2的计算公式如下:

其中,对于matrix_1中的第i个用户而言,xij代表其第j个维度数值,代表其矩阵中第j列的数值均值,σj代表第j列的标准差;

当对matrix_1中每个用户计算z分数后,组成新的矩阵matrix_2;

43)、计算矩阵martrix_2的每列数据的均值,得到18维度的均值向量mean_value;

44)、首先对异常用户群组集合abnormalusers中的每个用户依次比较其18维度特征向量中超过均值向量mean_value中对应数值的个数,然后将所得新的18维二元向量作为其威胁置信度tcd,如果威胁置信度tcd中‘1’的个数超过阈值k,则标记该用户为正常用户,并从异常用户群组集合abnormalusers中删除该用户;

45)、重复上述步骤41)至步骤44)直到所有异常用户群组集合abnormalusers中所有用户均经过判断,最后剩余的异常用户群组集合abnormalusers中用户作为内部潜在恶意用户上报给安全管理员分析应对。

优选地,所述用户语言数据包括工作邮件数据、电子文档数据和社交应用数据,所述工作邮件数据为用户发送的工作邮件的文本内容,所述电子文档数据为用户书写的与工作相关且以电子版形式存储的文本内容,所述社交应用数据为用户的社交状态爬取后的文本内容。

优选地,所述18个大五人格的子维度分别是:焦虑特质、愤怒特质、抑郁特质、自我意识特质、冲动特质、脆弱特质、信任特质、道德特质、利他特质、合作特质、谦虚特质、同情特质、自我效能、秩序特质、责任特质、成就感、自律特质和谨慎特质。

本发明的主要思路是分析用户的语言数据,提取语言特征建立能够表征用户人格心理特征的数值化特征向量,然后从用户中训练分类器以识别出异常人格心理特征的用户,并进一步分析这些用户的特征向量偏移度,从而筛选出误报用户,将剩余的用户作为内部潜在恶意用户上报给安全管理员分析应对。如图2所示,本发明的整体技术方案可以分为数据处理、人格心理特征向量构建、分类器训练以及威胁置信度计算四个主要步骤,下面分别详细阐述。

一、数据预处理

分析的用户语言数据来自于内部审计系统,主要包括三类:

1、工作邮件审计:审计的该用户发送的工作邮件的文本内容;

2、电子文档内容审计:该用户书写的工作相关的计划书、工作汇报等以电子版形式审计的工作文档、表格以及ppt等多媒体格式的文本内容;

3、社交应用内容审计:该用户的微博、微信朋友圈等社交状态爬取后的文本内容审计。

对于上述三类语言数据源的分析处理是类似的方法,为了便于说明,本发明接下来对三类语言数据源的预处理工作分别进行说明。

对于工作邮件而言,数据处理工作主要有:

11)自动化审计:收集某时间段(几个月或一年)的工作邮件数据;

12)自动化内容处理:仅分析用户的发送邮件,对于每一封邮件而言,筛去邮件头(标题、发送者、接收者等)信息,仅提取文本内容;对于带有多个时间标签的发送邮件,仅考虑时间最近的一次(如:对于转发与回复邮件,仅考虑回复文本或转发时的文本);

13)自动化聚合:对于每个用户而言,将其所有按照上述步骤自动化处理的文本内容聚合成一个大文本文件,存储后供下步分析。

对于电子文档而言:

21)自动化审计:收集某时间段(几个月或一年)中工作中的电子文档数据;

22)自动化内容处理:去除电子文档中的各级标题数据、格式数据以及图片声音等多媒体数据,仅提取电子文档中的纯文本内容;

23)自动化聚合:对于每个用户而言,将所有按照上述步骤自动化处理的对应电子文档内容聚合成一个大文本文件,存储后供下步分析。

对于社交应用而言:

31)自动化审计:收集某时间段(几个月或一年)中内部用户的社交应用状态数据(如微博、朋友圈等);

32)自动化内容处理:去除社交应用状态数据中的图片、声音以及超链接等非格式化数据,仅处理状态中由该用户所书写的文本内容,即不包含转发类型的文本内容;

33)自动化聚合:对于每个用户而言,将所有按照上述步骤自动化处理的对应社交应用状态文本内容数据聚合成一个大文本文件,存储后供下步分析。

二、心理特征构建

本发明的以下处理分析过程适用于工作邮件、电子文档以及社交应用状态三类数据源,不再一一区分说明。

使用中国科学院心理研究所的文心中文心理分析系统(http://ccpl.psych.ac.cn/textmind/)【1】对每个用户的邮件文本文件分析,得到相应的重要词类的词频结果,作为中文词liwc【2】的分析结果。其中liwc(linguisticinquiryandwordcount,语言获得与词汇计数库)是一个被广泛使用的用于从语言中分析思想、情感、人格等主观因素的开放分析系统,文心中文分析系统是对原英文系统在中文语言词汇库上的科学扩展。在本步骤结束后,删除每个用户的原始内容文件,以确保隐私性安全;

借助liwc词类与大五人格【3】的特征关联,计算出大五人格的18个子维度特征数值,作为该用户的人格心理特征向量【4】。

18个大五人格的子维度分别是:

下面以脆弱特质为例,说明具体如何依据liwc词类分析结果来计算每个用户每个子维度特质数值的方法。从【4】中可以得到子维度特质与liwc词类的统计相关性,如脆弱特质为:感觉类词汇(0.18),焦虑类词汇(0.16),冠词(-0.16),第一人称单数词汇(0.14),反身代词类(0.13),因果词(0.11),差距词(0.11),认知过程词-congnitiveprocesses(0.1),修饰词(0.1),第二人称类词汇-(-0.1)。

其中列出了与脆弱特质相关性较强的10个liwc词类,括号中的数值为相关性系数,可以依据这些相关性与用户的liwc词类分析结果得到用户的脆弱特质的数值分数以作为18个子维度中的一个数值。

对于18个子维度中的第i个维度而言,通过查找研究【4】得到该子维度与liwc词类的统计相关性为:

其中,feati表示第i个子维度,而(qi,j,ci,j)表示对应的liwc词类qi,j及其对应的统计相关性ci,j,而ni为与第i个子维度统计显著相关的liwc词类个数。在公式(1)的基础上,我们计算公式(2):

上述公式代表对于任意一个用户而言,其18个维度的人格心理特征向量计算的方法。qj与cj分别代表了该用户在第i个维度关联的liwc的第j个词类上的词频值与对应的统计相关性。其余数值均按照此类方法结合相关性计算。最终对于每个用户而言,得到了代表其人格心理特征的18维度的特征向量,每个数值均是按照上述方法结合liwc词类分析结果与人格特质相关性加权和得到。

三、训练分类器

为了能够应用机器学习算法构建分类器,本发明建议选择初始的某个时间段(如1个月),依据此时间段内审计的用户工作邮件,按照心理特征构建过程计算每个用户的人格心理特征向量,然后应用单类支持向量机(oneclasssvm,sklearn-0.19版本算法库)训练得到初始的用户群组的心理模型psymodel。

当之后任一个新的时间段(如之后时间的某个月),按照心理特征构建过程的方法计算该时间段内基于用户工作邮件内容建模的人格心理特征向量,使用上步得到的用户群组心理模型psymodel判断是否异常,判断异常的用户群组集合记为abnormalusers。

四、计算威胁置信度

对于训练分类器过程中得到的分类器判断为异常的用户群组集合abnormalusers,其中可能包含一定的正常用户,因此需要计算威胁置信度以进一步筛选用户。具体地:

1)对于abnormalusers中的用户,将其对应的18维度特征向量构成一个矩阵matrix_1,行数为abnormalusers的用户数,列为18;

2)按照列计算矩阵martix_1的每行的z分数得到martrix_2,即公式:

其中,对于matrix_1中的第i个用户而言,xij代表其第j个维度数值,代表其矩阵中第j列的数值均值,σj代表第j列的标准差。当对matrix_1中每个用户(即每行数据)计算z分数后,组成新的矩阵matrix_2;

3)计算矩阵martrix_2的每列数据的均值,得到18维度的均值向量mean_value;

4)对于abnormalusers中的每个用户而言,依次比较其18维度特征向量中超过均值向量mean_value中对应数值的个数,然后将所得新的18维二元向量作为其威胁置信度(tcd);如tcd中‘1’的个数超过阈值k,则标记该用户为正常用户,并从abnormalusers中删除该用户;这里的k建议为12,具体可根据情况在(12~16)间灵活调整,具体公式如下:

tcdi={1,1,0,1,0,1,1,1,0,1,1,1,1,0,1,1,1,1}(5)

其中,zij表示matrix_2中的i行j列数据,即第i个用户第j列维度特征的z分数,mvj表示均值向量mean_value中的第j个值。公式(5)中的用户的威胁置信度中数值‘1’的个数为14,大于给定的阈值k=12,故该用户被修正为正常用户,并被从abnormalusers集合中剔除。

5)重复上述步骤1)至步骤4)直到所有abnormalusers中所有用户均经过判断,最后剩余的abnormalusers中用户作为内部潜在恶意用户上报给安全管理员分析应对.

本发明正是针对依靠策略检查与行为数据异常检测的现有内部威胁检测方法存在的高误报、高漏报的不足,提出基于用户(员工)的语言数据特征,构建出表征用户人格特征的心理特征向量,借助机器学习算法建立整体的用户群组心理模型,最后从中识别出内部异常用户的心理建模检测方法。在此基础上,本发明对上一步识别出的异常用户分析其在特征维度上的整体偏移度,从而去掉可能误报的正常用户,最后得到内部潜在恶意用户,提交给安全管理员进一步分析与应对。本发明充分考虑了内部攻击中攻击者自身的心理特点,从人格角度进行了心理建模,并以此构建出异常检测分类器,弥补了现有检测方法只关注攻击过程忽视攻击主体的不足,从而可以细粒度地区分“异常”与“恶意”,全面分析检测内部威胁,有效降低传统内部威胁检测方法的高误报与漏报问题。

本发明对于来自于审计工作邮件、审计工作文档以及审计社交媒体应用(微博、朋友圈等)的用户语言数据,删除身份识别信息(如邮件头,工作文档元数据、社交id等)后,将文本数据汇聚为大文件,然后借助文心中文心理分析系统【1】对中文分析得到liwc词类结果;

本发明依据liwc词类【2】与人格心理特征【3】的统计相关性研究成果【4】,建立以焦虑特质为首的18个维度的人格心理特征向量;

本发明对于分类器判断为异常的用户集合abnormalusers,分析其中用户的列的z分数,并且按列计算平均值作为参考向量,计算每个用户中超过对应均值的列特征个数作为其威胁置信度,如超过预先给定的阈值k,则判定为正常,从abnormalusers中剔除;

本发明涉及到的参考文献:

【1】文心中文心理分析系统:http://ccpl.psych.ac.cn/textmind/

【2】liwcprogram:http://liwc.wpengine.com/

【3】大五人格模型:

http://www.baike.com/wiki/%e5%a4%a7%e4%ba%94%e4%ba%ba%e6%a0%bc%e7%90%86%e8%ae%ba

【4】liwc词类与大五人格模型关联:

https://www.researchgate.net/publication/44687893personalityin100000wordsalarge-scaleanalysisofpersonalityandworduseamongbloggers。

以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1