基于用户行为和文档内容的数据防泄漏分析方法及系统与流程

文档序号：14391967阅读：120来源：国知局

本发明涉及数据安全领域，具体涉及基于用户行为和文档内容的数据防泄漏分析方法及系统。

背景技术：

企业数据防泄漏系统的主要功能是防止企业员工外发敏感数据。因此，准确判断员工外发的数据是否敏感，是数据防泄漏系统的关键。传统的手段是通过精确匹配的手段，例如关键词或正则表达式的命中次数来实现，往往容易产生很多误报。因此数据防泄漏系统迫切需要考虑更多的因素，来判定企业员工的外发数据行为是否安全事件。

对比文献1

公开号：105357217a，发明名称：基于用户行为分析的数据盗取风险评估方法和系统

该现有技术通过对内网终端用户的网络行为进行分析，发现存在风险操作的潜在终端，保护数据安全，提高内部网络的安全性。

该现有技术通过获取终端用户的操作行为对；根据所述操作行为对，获取危险操作行为对和危险操作行为对数，计算第一危险性系数；根据所述危险操作行为对，获取访问网站行为业务类型与注册业务类型的匹配数和不匹配数，计算第二危险性系数；根据拷贝行为，获取危险拷贝行为和危险拷贝文件数，计算第三危险性系数和第四危险性系数；根据所述第一危险性系数、第二危险性系数、第三危险性系数和第四危险性系数，采用预设的风险评估模型计算终端危险性系数。

上述现有技术根据终端的操作对计算危险系数，包括：拦截网络数据流；对所述网络数据流进行协议解析得到字符流；获取预设的与程序语言对应的检测字符串和/或语法分析库函数；根据所述检测字符串和/或语法分析库函数判断所述解析得到的字符流是否包含源码，若是，则阻断所述网络数据流。

上述专利文献存在以下缺点：

(1)通过用户在终端上的操作对来进行风险评估，依据风险评估后的值，进行危险性的判定，不考虑数据本身的内容，容易产生很大的误报率。

(2)真实的终端操作行为的异常，未必等价于数据盗取的安全事件。操作行为的异常，涉及到操作者的情绪、工作的临时变动等多重因素，因此不结合其他因素融合考虑，实用性必定不好。

技术实现要素：

为解决上述技术问题，本发明提供了基于用户行为和文档内容的数据防泄漏分析方法，其特征在于，该方法包括以下步骤：

1)分别获取用户预定长时间段和预定短时间段的外发邮件行为相关数据，经过数据平均、归一化处理，分别得到该用户的长期行为数据向量和短期行为数据向量；

2)计算所述用户长期行为数据向量和短期行为数据向量间的向量间距离，根据计算得到的该向量间距离与预定向量距离阈值的比较结果，确定用户外发邮件行为是否存在异常，如果存在异常，跳转到步骤3)，否则跳转到步骤5；

3)对于存在异常行为的用户外发邮件，提取邮件内容文档，并判定文档的主题类别；

4)根据文档主题类别选定与该类别关联的文本精确匹配策略规则，并采用该匹配策略规则确定文档中是否存在敏感数据；

5)结束。

根据本发明的实施例，优选的，所述步骤1)中的外发邮件行为相关数据包括：邮件发送时间、邮件发件人地址、邮件发件人域、邮件收件人地址、邮件收件人域、邮件收件人顶级域名、邮件主题类型、发送的邮件数量、收到的邮件数量、邮件的大小、邮件客户端ip地址、邮件服务器ip地址。

根据本发明的实施例，优选的，所述步骤2)中所述用户长期行为数据向量和短期行为数据向量间的向量间距离为马氏距离(mahalanobisdistance)，而向量距离阈值由卡方校验方法确定，如果所述向量间距离大于所述向量距离阈值，则判定用户外发邮件行为存在异常。

根据本发明的实施例，优选的，所述步骤3)中，对提取的邮件文档内容进行分词，然后使用线性判别式分析lda(lineardiscriminantanalysis)方法，根据文档包含的字词内容，判定文档的主题类别。

根据本发明的实施例，优选的，所述步骤4)中的精确匹配策略规则包括正则表达式匹配策略规则和关键词匹配策略规则。

为解决上述技术问题，本发明提供了一种基于用户行为和文档内容的数据防泄漏分析系统，其特征在于，该系统包括：

数据向量建立模块，分别获取用户预定长时间段和预定短时间段的外发邮件行为相关数据，经过数据平均、归一化处理，分别得到该用户的长期行为数据向量和短期行为数据向量；

异常确定模块，计算所述用户长期行为数据向量和短期行为数据向量间的向量间距离，根据计算得到的该向量间距离与预定向量距离阈值的比较结果，确定用户外发邮件行为是否存在异常；

文档主题类别判定模块，对于存在异常行为的用户外发邮件，提取邮件内容文档，并判定文档的主题类别；

精确分析模块，根据文档主题类别选定与该类别关联的文本精确匹配策略规则，并采用该匹配策略规则确定文档中是否存在敏感数据。

根据本发明的实施例，优选的，所述外发邮件行为相关数据包括：邮件发送时间、邮件发件人地址、邮件发件人域、邮件收件人地址、邮件收件人域、邮件收件人顶级域名、邮件主题类型、发送的邮件数量、收到的邮件数量、邮件的大小、邮件客户端ip地址、邮件服务器ip地址。

根据本发明的实施例，优选的，所述用户长期行为数据向量和短期行为数据向量间的向量间距离为马氏距离(mahalanobisdistance)，而向量距离阈值由卡方校验方法确定；

如果异常确定模块确定所述向量间距离大于所述向量距离阈值，则判定用户外发邮件行为存在异常。

根据本发明的实施例，优选的，文档主题类别判定模块先将待检测的邮件文档统一转换为txt文本文档格式，对提取的邮件文档内容进行分词，然后使用线性判别式分析lda(lineardiscriminantanalysis)方法，根据文档包含的字词内容，判定文档的主题类别。

为解决上述技术问题，本发明提供了一种计算机可读存储介质，其特征在于，该介质包括计算机程序指令，通过执行所述计算机程序执行实现上述之一的方法。

采用本发明的技术方案，于用户行为和内容匹配的双重敏感数据外泄检测方法，可以明显提高敏感数据外泄事件判断的准确程度，增强企业对于源代码数据安全管控的能力。该方法能有效降低仅通过内容匹配进行判断的误报率。

附图说明

图1为本发明的分析流程图。

具体实施方式

本发明提出并实现了一种同时考虑数据内容和用户行为的数据外泄检测方法。该方法能在匹配数据内容的基础上考虑用户行为，从而极大的降低了数据防泄漏系统的误报次数。

下面结合附图以及具体实施例对本发明作进一步的说明，但本发明的保护范围并不限于此。

<复合分析方法>

本发明提出的基于用户行为和数据内容的双重监测机制，针对企业数据的敏感度检测需求，有效降低了企业数据防泄漏系统安全事件的误报率。本专利对数据内容的监测，根据主题模式和精确描述匹配模式来进行；对用户行为的监测，主要从时间、数量、外发群落关系等方面进行分析；最后通过逻辑组合的关系，将内容检测和行为检测的结果组合起来。

第一级检测：用户行为的异常分析。对企业每个用户的外发邮件行为进行分析，包括以下方面，发送时间、邮件发件人地址、邮件发件人域、邮件收件人地址、邮件收件人域、邮件收件人顶级域名、邮件主题类型、发送的邮件数量、收到的邮件数量、邮件的大小、邮件客户端ip地址、邮件服务器ip地址等。通过分析长时间的用户数据(通常大于三个月)，统计得到每个用户的以上各方面的平均数据，并进行归一化处理，从而得到该用户的日常行为数据向量。具体来说，可以通过将需统计的数据项的值减去平均数据值，然后除以标准差，将得到的值取e的指数，最后做softmax函数计算，得到该用户的日常行为数据向量。将用户每天的数据，或者三天或者一周的数据，按照同样的归一化方法得到用户的短期行为向量。

通过计算长期平均用户行为向量和短期行为向量间的距离(建议采用马氏距离)，并使用卡方校验方法得到距离阈值。如果短期行为向量和长期行为向量的距离值大于阈值，则认定该用户当天的邮件外发行为异常。短期行为异常并不能保证是数据防泄漏的安全事件，因此需要再对数据本身进行分析。

卡方检验是用途非常广的一种假设检验方法，它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合。

将需统计的样本数据的各个向量值，计算与均值的距离，得到的距离值全部映射到卡方函数上，取卡方零点的值即可以得到距离阈值。

第二级检测：数据内容的主题模式分析。邮件的附件或者正文，包含大量的字词，从主体模式分析的角度来判别文档(主要指邮件附件)是何种类型，对后续的精确内容匹配意义重大。对文档的内容进行分词后，使用lda分析方法，根据文档包含的字词内容，判定文档的主题类别。

第三级检测：数据内容的描述精确匹配分析。涉及敏感数据的文档，必须包含确定的敏感特征，不论是关键字词还是正则表达式等数字串特征。以上三个阶段的检测都能满足，则待检测的文档一定包含了敏感数据。

结合附图1，对本发明提出的基于用户行为和数据内容的双重检测方法的处理过程进行详细描述，该处理过程主要包括了行为异常分析，主题分析和精确内容匹配三个过程。

(1)基于用户行为的异常分析

针对具体的发件人，先统计发件人的历史发件信息，特别是和该发件人关联的发件数量，邮件大小，收件人地址信息，邮件域名类别等，最终得到归一化的邮件行为向量(发件数量、邮件数量、收件人数量、邮件域数量…)；然后计算得到当日或当前时间间隔里的发件人关联的邮件行为向量；最后计算两个向量的马氏距离或者夹角余弦。如果马氏距离超过阈值，则认定该邮件发送行为属于行为异常。

行为分析可以有很多方法，包括长期行为向量和短期行为向量的马氏距离判断，或者总体平均向量和个体行为向量的距离判断，包含本发明的各种向量距离计算方法均未脱离本发明的实质，包含在本发明的保护范围之内。

(2)文档内容的主题判定

主题类别的分析和训练过程，采用lda方法进行，应在邮件外发之前就建立完成，lda模型应提前建立好。在邮件外发过程中，先将待检测的文档(如doc、xls、pdf等格式)统一转换为txt文本文档格式；然后，依据字典对文本中的内容做分词处理，利用lda方法，判定文本所属的主题类别。

(3)精确内容匹配

根据主题类别判定结果，选择类别关联的精确匹配策略规则，所述策略规则包括：正则表达式匹配策略和关键词阈值匹配策略。对于正则表达式匹配，如果匹配成功后，还需要进行脚本匹配，如果匹配失败，则说明文档内容正常，不包括敏感数据；如果通过正则表达式匹配和处理脚本匹配后发现可能存在敏感数据，还需要进一步进行关键词匹配，如果匹配失败，则说明文档内容正常，不包括敏感数据；如果关键词匹配成功，则说明该文档包含敏感数据，据此输出判定结果，比如向用户和管理员发送警告提示，并进行日志记录，在此仅仅作为输出的举例，而并非限定，其他各种结果输出方式均在该发明的保护范围之内。

数据防泄漏的内容规则，一般是某些关键词的出现频次超过某个阈值，某些正则表达式特征的出现种类超过特定阈值，或者是以上两种情况的特定逻辑组合。精确内容匹配方法是数据防泄漏的常用方法，易于实现。

若某个用户的外发邮件过程中，首先检测到该用户的邮件外发行为是行为异常，比如邮件外发数量的急剧变化，或者外发频率的急剧增大，或者目的收件人的群落显著有差异，则需要进行内容检查。内容检查中如果通过主题分析，能够判定该文档的主题内容，且通过该主题的精确内容匹配，能命中匹配规则，则可认定该外发行为是数据外泄。

<复合分析系统>

本发明提供了基于用户行为和文档内容的数据防泄漏分析系统，其特征在于，该系统包括：

文档主题类别判定模块，对于存在异常行为的用户外发邮件，提取邮件内容文档，并判定文档的主题类别；

精确分析模块，根据文档主题类别选定与该类别关联的文本精确匹配策略规则，并采用该匹配策略规则确定文档中是否存在敏感数据。

所述外发邮件行为相关数据包括：邮件发送时间、邮件发件人地址、邮件发件人域、邮件收件人地址、邮件收件人域、邮件收件人顶级域名、邮件主题类型、发送的邮件数量、收到的邮件数量、邮件的大小、邮件客户端ip地址、邮件服务器ip地址。

所述用户长期行为数据向量和短期行为数据向量间的向量间距离为马氏距离(mahalanobisdistance)，而向量距离阈值由卡方校验方法确定；

如果异常确定模块确定所述向量间距离大于所述向量距离阈值，则判定用户外发邮件行为存在异常。

文档主题类别判定模块先将待检测的邮件文档统一转换为txt文本文档格式，对提取的邮件文档内容进行分词，然后使用线性判别式分析lda(lineardiscriminantanalysis)方法，根据文档包含的字词内容，判定文档的主题类别。

精确分析模块采用的精确匹配策略规则包括正则表达式匹配策略规则和关键词匹配策略规则。

<应用举例>

某银行人员在即将申请离职前夕，通过行内邮箱频繁外发敏感数据文档，无论是外发邮件的数量，还是外发邮件的字节数，都明显增加。

经本专利描述的双重监测方法，判定该用户的外发行为是确定的敏感数据外泄安全事件，因此采取了阻断的管控措施，有效保护了银行的数据资产。

通过本方法提出的基于用户行为和内容匹配的双重敏感数据外泄检测方法和系统，可以明显提高敏感数据外泄事件判断的准确程度，增强企业对于源代码数据安全管控的能力。该方法能有效降低仅通过内容匹配进行判断的误报率。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换以及改进等，均应保护在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：魏效征;王志海;喻波;安鹏
技术所有人：北京明朝万达科技股份有限公司
我是此专利的发明人

上一篇：一种消息群发方法与流程
上一篇：一种新的H5微传单系统及应用的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。