一种基于数据挖掘的敏感数据动态识别方法

文档序号:6336427阅读:288来源:国知局
专利名称:一种基于数据挖掘的敏感数据动态识别方法
技术领域
本发明涉 及一种敏感数据动态识别的方法。主要用于解决企业中敏感数据的动 态准确的识别,为敏感数据泄漏保护提供支撑。属于信息安全软件领域。
背景技术
数据的保密性、完整性和可用性关系到国家的安全、企业的核心竞争力、个人 的隐私,数据安全,作为信息安全领域中的重要课题,正越来越受到关注。数据安全涵盖了防泄露、防丢失、防滥用三个方面,其中,数据防泄漏是当前 尤为突出的热点问题。电子邮件、即时通讯、可移动存储介质的广泛应用,在提升人们 工作效率的同时,也不可避免地扩展了数据泄漏的通道,尤其是主动泄密行为,其泄漏 途径更是纷繁复杂。面对这样的严峻形势,国内外安全厂商纷纷推出自己的解决方案, 目标就是确保数据的安全,防止数据被有意和无意的非法窃取和丢失。敏感数据泄漏事关国家安全和社会稳定,其防泄漏产品是信息安全的基础性产 品,无论从国家安全的高度来看,还是从经济发展的角度来看,敏感数据防泄漏都变得 日益重要。敏感数据防泄漏的关键技术主要包括敏感数据识别、敏感数据标记、敏感数 据阻断与销毁和策略管理等,其中敏感数据识别是敏感数据防泄漏解决方案中非常关键 的一环,只有准确地识别出了敏感数据才能对这些数据进行有效保护。因此研究一种能 够准确并高效地识别敏感数据的方法能够更好地提高敏感数据防泄漏方案的能力,具有 重要的意义。敏感数据识别主要考虑如下几方面的问题(1)敏感数据和待识别文档的预处 理;(2)敏感数据动态识别模型的建立。对于敏感数据动态识别而言,首先就是要对敏 感数据和待识别文档进行分词、量化和归一化处理,得到敏感数据和待识别文档对应的 特征词-文档矩阵,然后对特征词_文档矩阵中进行降维处理,再对降维后的敏感数据文 档进行训练,得到敏感数据动态识别模型。最后将待识别的文档输入到敏感数据动态识 别模型中进行动态识别。

发明内容
本发明的目的是提供一种基于数据挖掘的敏感数据识别方法,来解决数据防泄 漏方案中敏感数据的识别问题,通过使用本方法可以实现对企业数据中心中存储的敏感 数据的自动、准确和高效的识别。为了实现上述发明目的,本发明采用的是一种数据挖掘的方法,通过对已知的 敏感数据文档向量化和特征提取,组成敏感数据训练样本集,使用BP神经网络来训练学 习出一个敏感数据识别模型,最终使用该BP神经网络模型来识别敏感数据。该模型还可 以在使用过程中通过不断地学习来提高识别的准确度。一种基于数据挖掘的敏感数据动态识别方法,包括以下步骤为
步骤1:流程开始输入敏感数据文档和待识别的文档这两类文档,前者是用于 敏感数据识别模型的训练数据,后者由敏感数据识别模型进行运算得出是否为敏感数据 文档;步骤2:对文档进行分词处理,使用中文电子词典将文档中的汉字串与词典中 的字符串相匹配,匹配采用逆向最大匹配的方法,从右往左对文档的汉字串进行匹配直 到找到最长的匹配,将最后匹配成功的汉字串作为文档的特征词汇;步骤3 对分词处理后文档中的特征词汇进行统计运算,生成特征词_文档矩 阵,记录分词后的特征词在文档中出现的频率;步骤4:采用向量空间模型对特征词_文档矩阵进行向量化处理,构造出文本特 征向量;步骤5 计算文本特征向量的协方差矩阵和该协方差矩阵的特征值及特征向 量;步骤6:根据主成分分析法的定义计算出各特征值的贡献率及累积贡献率,并 根据累积贡献率选择对应的特征值计算出主成分,同时计算出文档特征向量空间的主成 分后,确定各文档特征分量在各主成分在上的载荷,最后得到降维后的主成分分量来代 替原来特征向量空间;步骤7 根据步骤1中的两类文档来选择是否对敏感数据识别模型进行训练;如 果是则转到步骤8,否则转到步骤13 ;步骤8:根据预处理后的敏感数据训练样本集参数,初始化BP神经网络,包括 BP神经网络的输入层、隐层和输出层神经元的个数及各神经元的权值和阈值;步骤9 由BP神经网络来对训练数据集进行运算;步骤10 计算BP神经网络的输出向量和预先定义文档敏感级别向量之间的误 差,如果误差超过阈值,则转到步骤11,否则转到步骤14;步骤11 调整BP神经网络隐层中神经元个数及其权值,转到步骤9 ;步骤12 输出一个BP神经网络敏感数据识别模型;步骤13 根据步骤12得到的敏感数据识别模型,对待识别的文档进 行动态识 另IJ,并输出动态识别结果;步骤14 敏感数据识别结束。本发明的有益效果在于提出了一种基于数据挖掘的敏感数据动态识别方法,主 要用于解决数据防泄漏中敏感数据动态识别的问题,通过使用本发明中提出的方法可以 快速识别出当前用户操作的数据是否为敏感数据,便于结合策略管理来阻断敏感数据的 泄漏。


图1是敏感数据识别组成结构图。主要包括敏感数据动态识别器、敏感数据 识别操作核心、文本预处理控制器和敏感数据动态识别控制器。图2是参考体系结构示意图。表示本发明方法包括的组件。图3是本发明方法的流程示意图。
具体实施例方式体系结构图1给出了基于数据挖掘的敏感数据识别方法的组成结构图,它主要包括四个部分敏感数据识别模型训练器、敏感数据识别操作核心、文本预处理控制器和敏感数 据动态识别控制器。图中的敏感数据操作核心包括了在文档被预处理过后对文档集中的 敏感数据进行识别的所有具体操作。本发明增加的其它三个部分是用来保证使用数据挖 掘的方法进行敏感数据识别的辅助模块,能够保证敏感数据识别更加顺利有效地进行。下面给出这四个部分的具体介绍敏感数据动态识别器在该发明中进行敏感数据识别主要是使用BP神经网络作 为识别敏感数据的模型,通过该模型来完成对敏感数据的动态识别,本发明中由敏感数 据识别器来完成模型的建立、训练以及使用模型对敏感数据进行识别。敏感数据识别操作核心该部分是在其他三个部分的辅助下完成敏感数据识别 具体操作的核心部分,通过将预处理过的文档以多个分向量的方式作为一个识别模型的 输入,由该模型来计算文档的敏感程度作为模型的输出从而达到动态识别敏感数据的效果。文本预处理控制器由文本分词器提取出来的各敏感关键词的频度并不能直接 作为敏感数据识别操作核心中敏感数据识别模型的输入,需要将其量化,使用向量空间 模型表示出来,并且为了消除各文档词汇集合中词汇量不同所造成的敏感词汇频度统计 上的差异还需要由文本向量处理器来对向量空间模型中各向量进行标准化处理。敏感数据动态识别控制器在该发明中,需要通过BP神经网络的方法来得到一 个敏感数据的识别模型。该敏感数据识别模型使用敏感数据训练样本集通过BP神经网络 训练得到,同时将待识别的文档输入到该模型中得到相应的敏感数据类型,故需要一个 控制器来区分是训练用的已知包含敏感数据的文档还是待识别的文档。本专利中对敏感 数据动态识别控制的具体实现不做任何限制。方法流程1、文本预处理控制器文本属于非结构化的数据,对可能包含敏感数据的文档进行识别时首先需要对 文档进行预处理将其转化为可处理的结构化形式,它把从文本中抽取出的特征词进行量 化来表示文本信息,将文档从无结构的原始文本转化为结构化的计算机可识别和处理的 信息,这样就可以由计算机挖掘和识别文本中的一些有用信息。目前对文本的预处理需要考虑如下的几个问题1)有具体的分词方法,对敏感 数据进行分词处理,将文档中有独立含义的词汇统计出来;2)对分词处理后的词汇统计 信息这种离散值进行处理,用结构化的形式表示;3)对从不同结构的文本中统计出来的 数据要能够屏蔽其差异;4)对统计出来的初始结构化信息表示要能够尽量消除其中无用 数据的干扰。针对上述问题,在本发明中,我们对分词过后的文本采用词频统计的方法来得 到文本中词汇的统计信息,对这样一种离散的信息我们采用向量空间模型来得到文本的 向量描述。在选择特征词汇时,本发明主要考虑如下的几个原则1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能 太多;4)特征项分离要比较容易实现。一般在中文文本中可以采用字、词或短语作为表 示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切 分难度比短语的切分难度小得多。因此,本发明中采用词作为文本的特征项,称作为特 征词,用Tk表示。特征词的选取方面我们主要采用对文本进行分词的方法,使用一个中文电子词 典与文档中的汉字串匹配,将匹配得到的文本中的汉字串作为文本的特征词。匹配过程 采用逆向最大匹配算法,该算法从右往左对文本中的汉字串进行最大匹配,匹配成功则 将该汉字串提取出来作为文本的一个特征词,若匹配不成功则将文本中用于匹配的汉字 串最前的一个汉字去掉,剩下的汉字串作为新的匹配字段与中文电子词典中的字符串进 行匹配,重复上述的过程直到提取出所有的特征词。对预处理的文本用DJj = 1,2,…,η)来表示,经过分词处理得到一个词-文 档矩阵,矩阵中的每一个元素表示词Tk在文档D”中出现的频率。如表1所示表1词在文档中出现的频率
权利要求
1. 一种基于数据挖掘的敏感数据动态识别方法,其特征就在于,包括以下步骤为 步骤1:流程开始输入敏感数据文档和待识别的文档这两类文档,前者是用于敏感 数据识别模型的训练数据,后者由敏感数据识别模型进行运算得出是否为敏感数据文 档;步骤2:对文档进行分词处理,使用中文电子词典将文档中的汉字串与词典中的字 符串相匹配,匹配采用逆向最大匹配的方法,从右往左对文档的汉字串进行匹配直到找 到最长的匹配,将最后匹配成功的汉字串作为文档的特征词汇;步骤3:对分词处理后文档中的特征词汇进行统计运算,生成特征词-文档矩阵,记 录分词后的特征词在文档中出现的频率;步骤4:采用向量空间模型对特征词_文档矩阵进行向量化处理,构造出文本特征向量;步骤5 计算文本特征向量的协方差矩阵和该协方差矩阵的特征值及特征向量; 步骤6:根据主成分分析法的定义计算出各特征值的贡献率及累积贡献率,并根据 累积贡献率选择对应的特征值计算出主成分,同时计算出文档特征向量空间的主成分后, 确定各文档特征分量在各主成分在上的载荷,最后得到降维后的主成分分量来代替原来 特征向量空间;步骤7:根据步骤1中的两类文档来选择是否对敏感数据识别模型进行训练;如果 是则转到步骤8,否则转到步骤13 ;步骤8:根据预处理后的敏感数据训练样本集参数,初始化BP神经网络,包括BP神 经网络的输入层、隐层和输出层神经元的个数及各神经元的权值和阈值; 步骤9 由BP神经网络来对训练数据集进行运算;步骤10:计算BP神经网络的输出向量和预先定义文档敏感级别向量之间的误差,如 果误差超过阈值,则转到步骤11,否则转到步骤14;步骤11:调整BP神经网络隐层中神经元个数及其权值,转到步骤9; 步骤12:输出一个BP神经网络敏感数据识别模型;步骤13:根据步骤12得到的敏感数据识别模型,对待识别的文档进行动态识别,并 输出动态识别结果;步骤14:敏感数据识别结束。
全文摘要
一种基于数据挖掘的敏感数据动态识别方法。当各种数据需要进行网络传输、终端处理时,需要判断当前待传输或处理的业务数据是否敏感,根据敏感程度结合管理策略来决定业务数据是否可以进行网络传输等各种操作。通过对现有的敏感数据文档进行分词、量化和归一化处理,得到该敏感数据文档的特征词-文档矩阵,利用主成分分析法对特征词-文档矩阵进行降维,得到降维后的特征词-文档矩阵,再基于BP神经网络对降维后的特征词-文档矩阵进行分类建模,得到敏感数据识别模型,对待识别的文档进行分词、量化、归一化和降维处理后代入敏感数据识别模型中进行识别计算,判断出待识别的文档是否为敏感数据。用于解决数据防泄漏中敏感数据动态识别的问题。
文档编号G06F21/00GK102012985SQ20101055265
公开日2011年4月13日 申请日期2010年11月19日 优先权日2010年11月19日
发明者张涛, 林为民, 楚杰, 秦超, 费稼轩, 邓松, 邵志鹏, 陈亚东 申请人:国网电力科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1