一种基于数据挖掘的敏感数据动态识别方法

文档序号：6336427阅读：288来源：国知局

专利名称：一种基于数据挖掘的敏感数据动态识别方法
技术领域：
本发明涉及一种敏感数据动态识别的方法。主要用于解决企业中敏感数据的动态准确的识别，为敏感数据泄漏保护提供支撑。属于信息安全软件领域。
背景技术：
数据的保密性、完整性和可用性关系到国家的安全、企业的核心竞争力、个人的隐私，数据安全，作为信息安全领域中的重要课题，正越来越受到关注。数据安全涵盖了防泄露、防丢失、防滥用三个方面，其中，数据防泄漏是当前尤为突出的热点问题。电子邮件、即时通讯、可移动存储介质的广泛应用，在提升人们工作效率的同时，也不可避免地扩展了数据泄漏的通道，尤其是主动泄密行为，其泄漏途径更是纷繁复杂。面对这样的严峻形势，国内外安全厂商纷纷推出自己的解决方案，目标就是确保数据的安全，防止数据被有意和无意的非法窃取和丢失。敏感数据泄漏事关国家安全和社会稳定，其防泄漏产品是信息安全的基础性产品，无论从国家安全的高度来看，还是从经济发展的角度来看，敏感数据防泄漏都变得日益重要。敏感数据防泄漏的关键技术主要包括敏感数据识别、敏感数据标记、敏感数据阻断与销毁和策略管理等，其中敏感数据识别是敏感数据防泄漏解决方案中非常关键的一环，只有准确地识别出了敏感数据才能对这些数据进行有效保护。因此研究一种能够准确并高效地识别敏感数据的方法能够更好地提高敏感数据防泄漏方案的能力，具有重要的意义。敏感数据识别主要考虑如下几方面的问题(1)敏感数据和待识别文档的预处理；(2)敏感数据动态识别模型的建立。对于敏感数据动态识别而言，首先就是要对敏感数据和待识别文档进行分词、量化和归一化处理，得到敏感数据和待识别文档对应的特征词-文档矩阵，然后对特征词_文档矩阵中进行降维处理，再对降维后的敏感数据文档进行训练，得到敏感数据动态识别模型。最后将待识别的文档输入到敏感数据动态识别模型中进行动态识别。

发明内容
本发明的目的是提供一种基于数据挖掘的敏感数据识别方法，来解决数据防泄漏方案中敏感数据的识别问题，通过使用本方法可以实现对企业数据中心中存储的敏感数据的自动、准确和高效的识别。为了实现上述发明目的，本发明采用的是一种数据挖掘的方法，通过对已知的敏感数据文档向量化和特征提取，组成敏感数据训练样本集，使用BP神经网络来训练学习出一个敏感数据识别模型，最终使用该BP神经网络模型来识别敏感数据。该模型还可以在使用过程中通过不断地学习来提高识别的准确度。一种基于数据挖掘的敏感数据动态识别方法，包括以下步骤为
步骤1:流程开始输入敏感数据文档和待识别的文档这两类文档，前者是用于敏感数据识别模型的训练数据，后者由敏感数据识别模型进行运算得出是否为敏感数据文档；步骤2:对文档进行分词处理，使用中文电子词典将文档中的汉字串与词典中的字符串相匹配，匹配采用逆向最大匹配的方法，从右往左对文档的汉字串进行匹配直到找到最长的匹配，将最后匹配成功的汉字串作为文档的特征词汇；步骤3 对分词处理后文档中的特征词汇进行统计运算，生成特征词_文档矩阵，记录分词后的特征词在文档中出现的频率；步骤4:采用向量空间模型对特征词_文档矩阵进行向量化处理，构造出文本特征向量；步骤5 计算文本特征向量的协方差矩阵和该协方差矩阵的特征值及特征向量；步骤6:根据主成分分析法的定义计算出各特征值的贡献率及累积贡献率，并根据累积贡献率选择对应的特征值计算出主成分，同时计算出文档特征向量空间的主成分后，确定各文档特征分量在各主成分在上的载荷，最后得到降维后的主成分分量来代替原来特征向量空间；步骤7 根据步骤1中的两类文档来选择是否对敏感数据识别模型进行训练；如果是则转到步骤8，否则转到步骤13 ；步骤8:根据预处理后的敏感数据训练样本集参数，初始化BP神经网络，包括 BP神经网络的输入层、隐层和输出层神经元的个数及各神经元的权值和阈值；步骤9 由BP神经网络来对训练数据集进行运算；步骤10 计算BP神经网络的输出向量和预先定义文档敏感级别向量之间的误差，如果误差超过阈值，则转到步骤11，否则转到步骤14;步骤11 调整BP神经网络隐层中神经元个数及其权值，转到步骤9 ；步骤12 输出一个BP神经网络敏感数据识别模型；步骤13 根据步骤12得到的敏感数据识别模型，对待识别的文档进行动态识另IJ，并输出动态识别结果；步骤14 敏感数据识别结束。本发明的有益效果在于提出了一种基于数据挖掘的敏感数据动态识别方法，主要用于解决数据防泄漏中敏感数据动态识别的问题，通过使用本发明中提出的方法可以快速识别出当前用户操作的数据是否为敏感数据，便于结合策略管理来阻断敏感数据的泄漏。

图1是敏感数据识别组成结构图。主要包括敏感数据动态识别器、敏感数据识别操作核心、文本预处理控制器和敏感数据动态识别控制器。图2是参考体系结构示意图。表示本发明方法包括的组件。图3是本发明方法的流程示意图。
具体实施例方式体系结构图1给出了基于数据挖掘的敏感数据识别方法的组成结构图，它主要包括四个部分敏感数据识别模型训练器、敏感数据识别操作核心、文本预处理控制器和敏感数据动态识别控制器。图中的敏感数据操作核心包括了在文档被预处理过后对文档集中的敏感数据进行识别的所有具体操作。本发明增加的其它三个部分是用来保证使用数据挖掘的方法进行敏感数据识别的辅助模块，能够保证敏感数据识别更加顺利有效地进行。下面给出这四个部分的具体介绍敏感数据动态识别器在该发明中进行敏感数据识别主要是使用BP神经网络作为识别敏感数据的模型，通过该模型来完成对敏感数据的动态识别，本发明中由敏感数据识别器来完成模型的建立、训练以及使用模型对敏感数据进行识别。敏感数据识别操作核心该部分是在其他三个部分的辅助下完成敏感数据识别具体操作的核心部分，通过将预处理过的文档以多个分向量的方式作为一个识别模型的输入，由该模型来计算文档的敏感程度作为模型的输出从而达到动态识别敏感数据的效果。文本预处理控制器由文本分词器提取出来的各敏感关键词的频度并不能直接作为敏感数据识别操作核心中敏感数据识别模型的输入，需要将其量化，使用向量空间模型表示出来，并且为了消除各文档词汇集合中词汇量不同所造成的敏感词汇频度统计上的差异还需要由文本向量处理器来对向量空间模型中各向量进行标准化处理。敏感数据动态识别控制器在该发明中，需要通过BP神经网络的方法来得到一个敏感数据的识别模型。该敏感数据识别模型使用敏感数据训练样本集通过BP神经网络训练得到，同时将待识别的文档输入到该模型中得到相应的敏感数据类型，故需要一个控制器来区分是训练用的已知包含敏感数据的文档还是待识别的文档。本专利中对敏感数据动态识别控制的具体实现不做任何限制。方法流程1、文本预处理控制器文本属于非结构化的数据，对可能包含敏感数据的文档进行识别时首先需要对文档进行预处理将其转化为可处理的结构化形式，它把从文本中抽取出的特征词进行量化来表示文本信息，将文档从无结构的原始文本转化为结构化的计算机可识别和处理的信息，这样就可以由计算机挖掘和识别文本中的一些有用信息。目前对文本的预处理需要考虑如下的几个问题1)有具体的分词方法，对敏感数据进行分词处理，将文档中有独立含义的词汇统计出来；2)对分词处理后的词汇统计信息这种离散值进行处理，用结构化的形式表示；3)对从不同结构的文本中统计出来的数据要能够屏蔽其差异；4)对统计出来的初始结构化信息表示要能够尽量消除其中无用数据的干扰。针对上述问题，在本发明中，我们对分词过后的文本采用词频统计的方法来得到文本中词汇的统计信息，对这样一种离散的信息我们采用向量空间模型来得到文本的向量描述。在选择特征词汇时，本发明主要考虑如下的几个原则1)特征项要能够确实标识文本内容；2)特征项具有将目标文本与其他文本相区分的能力；3)特征项的个数不能太多；4)特征项分离要比较容易实现。一般在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言，词比字具有更强的表达能力，而词和短语相比，词的切分难度比短语的切分难度小得多。因此，本发明中采用词作为文本的特征项，称作为特征词，用Tk表示。特征词的选取方面我们主要采用对文本进行分词的方法，使用一个中文电子词典与文档中的汉字串匹配，将匹配得到的文本中的汉字串作为文本的特征词。匹配过程采用逆向最大匹配算法，该算法从右往左对文本中的汉字串进行最大匹配，匹配成功则将该汉字串提取出来作为文本的一个特征词，若匹配不成功则将文本中用于匹配的汉字串最前的一个汉字去掉，剩下的汉字串作为新的匹配字段与中文电子词典中的字符串进行匹配，重复上述的过程直到提取出所有的特征词。对预处理的文本用DJj = 1，2，…，η)来表示，经过分词处理得到一个词-文档矩阵，矩阵中的每一个元素表示词Tk在文档D”中出现的频率。如表1所示表1词在文档中出现的频率
权利要求
1. 一种基于数据挖掘的敏感数据动态识别方法，其特征就在于，包括以下步骤为步骤1:流程开始输入敏感数据文档和待识别的文档这两类文档，前者是用于敏感数据识别模型的训练数据，后者由敏感数据识别模型进行运算得出是否为敏感数据文档；步骤2:对文档进行分词处理，使用中文电子词典将文档中的汉字串与词典中的字符串相匹配，匹配采用逆向最大匹配的方法，从右往左对文档的汉字串进行匹配直到找到最长的匹配，将最后匹配成功的汉字串作为文档的特征词汇；步骤3:对分词处理后文档中的特征词汇进行统计运算，生成特征词-文档矩阵，记录分词后的特征词在文档中出现的频率；步骤4:采用向量空间模型对特征词_文档矩阵进行向量化处理，构造出文本特征向量；步骤5 计算文本特征向量的协方差矩阵和该协方差矩阵的特征值及特征向量；步骤6:根据主成分分析法的定义计算出各特征值的贡献率及累积贡献率，并根据累积贡献率选择对应的特征值计算出主成分，同时计算出文档特征向量空间的主成分后，确定各文档特征分量在各主成分在上的载荷，最后得到降维后的主成分分量来代替原来特征向量空间；步骤7:根据步骤1中的两类文档来选择是否对敏感数据识别模型进行训练；如果是则转到步骤8，否则转到步骤13 ；步骤8:根据预处理后的敏感数据训练样本集参数，初始化BP神经网络，包括BP神经网络的输入层、隐层和输出层神经元的个数及各神经元的权值和阈值；步骤9 由BP神经网络来对训练数据集进行运算；步骤10:计算BP神经网络的输出向量和预先定义文档敏感级别向量之间的误差，如果误差超过阈值，则转到步骤11，否则转到步骤14;步骤11:调整BP神经网络隐层中神经元个数及其权值，转到步骤9; 步骤12:输出一个BP神经网络敏感数据识别模型；步骤13:根据步骤12得到的敏感数据识别模型，对待识别的文档进行动态识别，并输出动态识别结果；步骤14:敏感数据识别结束。
全文摘要
一种基于数据挖掘的敏感数据动态识别方法。当各种数据需要进行网络传输、终端处理时，需要判断当前待传输或处理的业务数据是否敏感，根据敏感程度结合管理策略来决定业务数据是否可以进行网络传输等各种操作。通过对现有的敏感数据文档进行分词、量化和归一化处理，得到该敏感数据文档的特征词-文档矩阵，利用主成分分析法对特征词-文档矩阵进行降维，得到降维后的特征词-文档矩阵，再基于BP神经网络对降维后的特征词-文档矩阵进行分类建模，得到敏感数据识别模型，对待识别的文档进行分词、量化、归一化和降维处理后代入敏感数据识别模型中进行识别计算，判断出待识别的文档是否为敏感数据。用于解决数据防泄漏中敏感数据动态识别的问题。
文档编号G06F21/00GK102012985SQ20101055265
公开日2011年4月13日申请日期2010年11月19日优先权日2010年11月19日
发明者张涛, 林为民, 楚杰, 秦超, 费稼轩, 邓松, 邵志鹏, 陈亚东申请人:国网电力科学研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林为民;张涛;邓松;费稼轩;秦超;邵志鹏;楚杰;陈亚东
技术所有人：国网电力科学研究院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。