一种敏感数据动态检测方法及装置与流程

文档序号：15213216发布日期：2018-08-21 15:30阅读：168来源：国知局

本发明涉及计算机技术领域，具体涉及一种基于多属性决策的分布式敏感数据动态感知方法及装置。

背景技术：

近年来，随着机器学习、人工智能技术的发展，数据的价值越来越重要。特别对于金融、互联网等行业来说，数据成为了企业的核心资产。随之而来的数据的管理和安全问题也逐渐成为企业it管理的首要问题。针对不同类别的数据能够自动识别其敏感的类型和程度，对数据进行动态感知并进行防护成为很多企业目前迫切需要解决的问题。

针对目前遇到的数据敏感性判断和防护问题，传统的解决方案主要有以下几种：

1：dlp技术，主要分为网络、存储、终端、数据库等几类，核心手段是通过对数据内容进行扫描来确定文件数据是否涉及敏感信息，并在文件操作时进行管控。

2：传统的防火墙、ids(intrusiondetectionsystem)、杀毒软件等技术来防止数据泄露。这些技术手段不会对数据内容进行分析，而是对于边界进行防护。

与本发明最接近的现有技术是dlp(datalossprevention)技术。目前的dlp技术的实现方案如图1所示。除终端dlp以外，其他的存储、网络dlp都是服务器，部署在企业的机房或者数据中心。

dlp技术的核心是要首先检测出敏感数据，如果没有准确的检测，数据安全系统就会生成许多误报(将并未违规的消息或文件标识为违规)以及漏报(未将违反策略的消息或文件标识为违规)。目前常用的检测技术包括以下几种：

1.正则表达式检测(标识符)

2.关键字和关键字对检测

3.文档属性检测

4.指纹文档对比idm

5.精确数据比对edm

6.向量分类比对svm

但是，在现有的技术中，检测敏感数据的策略和规则都是预先设置成固定的，不能够根据被检测的数据的时间、空间和特征进行动态调整；而人为手动的调整存在着延迟和策略设定不恰当的问题。

此外，现有的检测技术中，由于数据检测技术的不成熟导致存在较多的漏报和误报的情况存在。

因此，本发明需要解决以下技术问题：解决敏感数据定义策略和准则不能动态调整并适配企业所有部门人员的问题；降低数据扫描技术中的误报和漏报率。

技术实现要素：

为解决上述技术问题，本发明公开了一种敏感数据动态检测方法，该方法包括以下步骤：

1)配置并下发敏感数据扫描策略与规则；

2)探测节点判断自身是否可以成为超级探测节点；

3)成为超级探测节点的节点注册自身的超级探测节点信息；

4)超级探测节点收集特征结果，根据特征结果中的特征权重动态生成新的增量策略与规则；

5)超级探测节点下发新的增量策略与规则到归属于自身的普通探测节点，普通探测节点进行敏感信息扫描，并向超级探测节点更新特征结果，跳转到步骤4)。

根据本发明的方法，优选的，所述步骤2)中所有探测节点在本终端环境内执行一次完整周期的敏感信息扫描，并提取一些判断探测节点是否可以成为超级节点的准则信息，以此判断探测节点是否可以成为超级探测节点。

根据本发明的方法，优选的，所述步骤3)之后还包括：对于认定自身为普通探测节点的探测节点，向dlp服务器请求自身附近的超级探测节点。

根据本发明的方法，优选的，所述步骤4)中，普通探测节点向归属的超级探测节点注册信息，并向超级探测节点发送自身扫描出的特征结果，超级节点收集这些特征结果。

根据本发明的方法，优选的，所述步骤5)中，普通探测节点和超级探测节点均进行周期性的全盘敏感信息扫描，普通探测节点探测敏感数据信息，并且把扫描得出敏感信息的特征结果反馈给超级探测节点，以供超级探测节点动态调整扫描检测的策略与规则，并更新普通探测节点和超级探测节点的扫描策略与规则。

为解决上述技术问题，本发明公开了一种敏感数据动态检测装置，该装置包括：

配置模块，配置并下发敏感数据扫描策略与规则；

超级探测节点判断模块，探测节点判断自身是否可以成为超级探测节点；

节点信息注册模块，成为超级探测节点的节点注册自身的超级探测节点信息；

特征结果收集模块，超级探测节点收集特征结果，根据特征结果中的特征权重动态生成新的增量策略与规则；

增量策略生成模块，超级探测节点下发新的增量策略与规则到归属于自身的普通探测节点，普通探测节点进行敏感信息扫描，并向超级探测节点更新特征结果。

根据本发明的装置，优选的，超级探测节点判断模块，通过所有探测节点在本终端环境内执行一次完整周期的敏感信息扫描，并提取一些判断探测节点是否可以成为超级节点的准则信息，以此判断探测节点是否可以成为超级探测节点。

根据本发明的装置，优选的，该装置还包括：超级探测节点请求模块，对于认定自身为普通探测节点的探测节点，会向dlp服务器请求自身附近的超级探测节点。

根据本发明的装置，优选的，所述增量策略生成模块，通过普通探测节点向归属的超级探测节点注册信息，并向超级探测节点发送自身扫描出的特征结果，由超级节点收集这些特征结果。

根据本发明的装置，优选的，所述增量策略生成模块，通过普通探测节点和超级探测节点进行周期性的全盘敏感信息扫描，普通探测节点探测敏感数据信息，并且把扫描得出敏感信息的特征结果反馈给超级探测节点，以供超级探测节点动态调整扫描检测的策略与规则，并更新普通探测节点和超级探测节点的扫描策略与规则。

通过本发明提供的技术方案，可以在区域范围内动态生成并调整策略与规则，提高策略规则与区域敏感数据的匹配贴合程度；可以提高敏感数据检测的准确度。

附图说明

此处所说明的附图是用来提供对本发明的进一步理解，构成本申请的一部分，但并不构成对本发明的不当限定，在附图中：

图1是现有技术中的dlp技术架构图；

图2是现有技术中的网络图；

图3是本发明的敏感信息感知结构图；

图4是本发明的敏感信息检测流程图。

具体实施方式

下面将结合附图以及具体实施例来详细说明本发明，其中的示意性实施例以及说明仅用来解释本发明，但并不作为对本发明的不当限定。

ahp(analytichierarchyprocess)在系统决策分析中常用的层次分析方法，其核心是将系统划分层次且只考虑上层元素对下层元素的支配作用，同一层次中的元素被认为是彼此独立的。

anp(analyticnetworkprocess)anp是ahp算法的改进，该算法首先将系统元素划分为两大部分，第一部分称为控制因素层，包括问题目标及决策准则。所有的决策准则均被认为是彼此独立的且只受目标元素支配。控制因素中可以没有决策准则，但至少有一个目标。控制层中每个准则的权重均可用ahp方法获得。第二部分是网络层，它由所受控制层支配的元素组成的，其内部是互相影响的网络结构，如图2所示。

madm(multi-attributedecision-making)多属性决策也称有限方案多目标决策，是指在考虑多个属性的情况下，选择最优备选方案或进行方案排序的决策问题。主要是指给定义组可能的方案a1、a2、、、an，伴随每个方案的n个属性记为c1、c2、、、cn，各属性的重要程度用w1、w2、、、wn表示，符合归一化条件及各权重的和加起来等于1，决策的目的是要找出a1、a2、、、an中最满意的方案amax。

属性决策问题可表示成矩阵形式

其中，xij表示第i个方案对应的第j个属性的权值^/5/。

它是现代决策科学的一个重要组成部分。它的理论和方法在工程、技术、经济、管理和军事等诸多领域中都有广泛的应用。

dlp(datalossprevention)，核心技术是在服务器端预设相应的策略和规则，通过客户端代理程序对存储中的文件进行扫描，当检测文件中包含的内容和预设的策略和规则匹配时，则记录相应的日志，并对该文件的外发(邮件外发、拷贝到移动存储、拷贝到贡献、刻录等)操作进行阻断。

ids(intrusiondetectionsystem)入侵检测系统，是指依照一定的安全策略，通过软、硬件对网络、系统的运行状况进行监视，尽可能发现各种攻击企图、攻击行为或者攻击结果，以保证网络系统自由的机密性、完整性和可用性。

本发明技术的核心有两部分，一是对影响敏感数据的元素运用多属性决策的技术进行了分析，最终确定了决策方案及其中影响元素的权重；二是发明了一种分布式的敏感数据检测方法。

敏感数据决策方案分析

基于多元素决策的敏感信息感知的技术方案的分析可以参考图3，

首先决策过程分为控制层和网络层，控制层中的核心目标只有一个，就是提高敏感数据检测的准确程度。为了实现该目标所定义的准则包含有两个，一是降低检测扫描的误报率；二是降低检测扫描的漏报率。基于这两个准则所包含的影响元素如图中网络层所示：包括但不限于：用户的扫描策略与规则、用户角色、部门与职位等。

通过运用基于多属性决策理论的分析，最终确定了技术方案及其内部各元素的权重。即通过公式a＝c1*w1+c2*w2+……+cn*wn确定。其中wi表示权重、c1、c2…cn分别表示图3中的用户角色、用户部门与职位、入职年限等：

分布式敏感数据检测方法

分布式敏感数据检测方法的核心思想是在传统的分布式终端探测节点(detectionnode)基础上，有些终端探测节点在通过准则条件判断后会把自己标记成超级探测节点(superdetectionnode)。这些核心的超级探测节点会根据自己终端的数据文件的敏感信息探测情况及周围探测节点上报的部分扫描信息作判断，动态的抽取关键词、准则条件等并发回到周围的普通探测节点上，供其后续探测使用。详细的检测流程可以参考图4，具体步骤如下：

1)dlp服务器启动后，配置baseline的扫描策略与准则，并准备下发工作。

2)所有探测节点执行初始化工作，初始化完成后接收服务器下发的baseline策略与准则。

3)探测节点在本终端环境内执行一次完整周期的终端全盘敏感信息扫描，并提取一些判断是否可以成为超级探测节点的准则信息。

4)经过一定时长的运行后，探测节点判断自身是否可以成为超级探测节点，如果是的话跳转步骤5)，如果否的话跳转步骤6)。

探测节点要成为超级探测节点需要满足以下条件：

终端硬件的配置达到一定条件，即cpu/内存/网络带宽/稳定性超过基准的配置后才具备成为超级探测节点的基准条件。

平均开机时长/天数需要超过一定的比率。

扫描文件的数量应该超过一定的数量。

5)对于可以成为超级探测节点的终端节点，他们会向dlp服务器注册自己的超级探测节点信息。

6)对于认定自身为普通探测节点的探测节点，会向服务器请求自己附近的超级探测节点(通过部门、人员关系来确定归属关系)

7)普通探测节点向归属的超级探测节点注册信息，并向超级探测节点发送自己的扫描出的特征结果。

特征结果包括：关键字的偏向种类、内容的特征等。因为：不同业务部门中一般包含的文档的类型也不同，拿银行为例，根据业务的不同可以大致分为财务、市场营销、投资、融资、理财、银行贷款、信托、私募基金、金融租赁、人力资源等类型的文档。每种类型的文档对应的关键字的内容各不相同，比如财务类更多的是：人民币；预算；固定资产；内部审计；增值税；债务；资产负债；财务报告；个人所得税等；而人力资源类型文档更多的是人力资源；工资；薪酬；绩效奖励；公积金；年终奖；面试等。因此每种文档的关键字偏向种类不同。一些客户信息如姓名、身份证、卡号、手机号等也是属于数据标识符特征的信息。

8)超级探测节点收集特征结果，根据权重动态生成新的增量扫描策略与规则(适合本超级探测节点和普通探测节点)。

假设超级探测节点o下面有m个普通探测节点，所有扫描出来的关键字规则汇集到o以后，统计发现一共有x个特征关键字，则最终xi特征关键字能否成为超级探测节点o生成的增量规则要看该关键字xi出现的节点的个数mi与m的比值(即权重)是否大于或等于1/3，是的话就可以成为超级探测节点o生成的最终增量规则。

9)超级探测节点会把自己生成的增量扫描策略与规则动态的下发到归属于自己的普通探测节点上。

10)探测节点开始周期性的全盘扫描，探测感知敏感数据信息，并且把扫描得出敏感信息的特征结果反馈给超级探测节点，以供超级探测节点动态调整扫描检测的策略与规则。

根据本发明的实施例，本发明公开了一种敏感数据动态检测装置，该装置包括：

配置模块，配置并下发敏感数据扫描策略与规则；

超级探测节点判断模块，探测节点判断自身是否可以成为超级探测节点；

节点信息注册模块，成为超级探测节点的节点注册自身的超级探测节点信息；

特征结果收集模块，超级探测节点收集特征结果，根据特征结果中的特征权重动态生成新的增量策略与规则；

所述超级探测节点判断模块，通过所有探测节点在本终端环境内执行一次完整周期的敏感信息扫描，并提取一些判断探测节点是否可以成为超级节点的准则信息，以此判断探测节点是否可以成为超级探测节点。

该装置还包括：超级探测节点请求模块，对于认定自身为普通探测节点的探测节点，向dlp服务器请求自身附近的超级探测节点。

所述增量策略生成模块，通过普通探测节点向归属的超级探测节点注册信息，并向超级探测节点发送自身扫描出的特征结果，由超级节点收集这些特征结果。

所述增量策略生成模块，通过普通探测节点和超级探测节点进行周期性的全盘敏感信息扫描，普通探测节点探测敏感数据信息，并且把扫描得出敏感信息的特征结果反馈给超级探测节点，以供超级探测节点动态调整扫描检测的策略与规则，并更新普通探测节点和超级探测节点的扫描策略与规则。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、系统、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式发送机或其他可编程数据发送终端设备的发送器以产生一个机器，使得通过计算机或其他可编程数据发送终端设备的发送器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据发送终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据发送终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的发送，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种敏感数据动态检测方法及装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭岩岭;喻波;王志海;秦凯;安鹏;王玮
技术所有人：北京明朝万达科技股份有限公司
我是此专利的发明人

上一篇：加热饭盒的制作方法
上一篇：一种基于教学专用的带转笔刀的文具盒的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。