一种在文本大数据中发现敏感数据的方法与流程

文档序号:14940907发布日期:2018-07-13 20:44阅读:901来源:国知局

本发明涉及一种在文本大数据中发现敏感数据的方法。



背景技术:

在海量、异构、多义数据中准确快速的发现敏感隐私数据,满足在大数据环境中进行数据共享交换、数据发布和数据安全使用的需求,并为数据的访问控制提供依据。目前,用于在文本中发现敏感信息的方法主要有:关键词快速匹配算法,本体语义检索、基于数据挖掘等方式。其中,基于模式匹配的敏感信息发现技术是目前的主要技术手段。敏感数据发现技术大量的应用于信息过滤、数据交换共享和安全邮件、系统审计、数据交换、新闻公告等方面。

(1)方法一:内容关键词匹配法

该方法主要以关键词对比和匹配为核心,构建敏感信息词语仓库,在仓库预定义好敏感关键词等数据信息。当对某个文本资料进行敏感信息检测时,通过匹配算法(如bm算法、qs算法等)对文本资料进行检测,如果发现文本中存在仓库中的敏感词时,即判定文本中存在敏感隐私信息。该方法实现简单,但缺点也较为明显,该检测方式是精确匹配,只有当待检测的文本中存在和仓库中预定义的词完全匹配时才能发现敏感信息。否则将不能检测到敏感词信息,例如在关键词中插入无效单词、空格、甚至对字进行拆分,将会很难用该方法发现敏感词。举例:有些经过变形后的敏感词语信息表述很难通过关键词匹配发现,但是并不影响敏感信息的阅读和传播。

(2)方法二:语义检索

该方法是通过计算机利用语义知识库实现语句处理,挖掘出敏感词字面之间的潜在语义,从而实现对敏感词的监测和发现。实现语义检索的关键是语义空间的建立和检索语义的提取。一般的语义检索扩展技术有:基于数据库、语义树和语义词典等方式实现。这种方式在一定程度上提高了敏感信息检索的效率,但是存在如下问题:缺乏统一、规范的知识表示;缺乏明确的知识约束;没有挖掘出知识间存在的深层隐性关系;缺乏统一的输出形式,无法较好实现知识的共享和重用。

(3)方法三:关联规则的分析方法

该方法是通过数据挖掘技术挖掘词语之间的关联关系,找出敏感词语之间的内在关联关系,从而发现敏感隐私信息。该方法最主要的两个指标是数据之间的支持度和信任度。这种方法实现的难度也相对较为简单,但是如何高效的确定大量数据集是解决关联规则问题的重点和难点。



技术实现要素:

为了克服现有技术的上述缺点,本发明提供了一种在文本大数据中发现敏感数据的方法,旨在解决如下技术问题:

(1)解决传统方法中发现敏感数据或者检测经过人工干扰后的形成的敏感信息困难的问题,本发明方法能有效发现异构文本大数据集合中潜在的敏感隐私信息;

(2)提高不同文本数据中敏感信息发现的准确率问题;

(3)提高异构文本大数据中敏感信息发现的效率问题;

(4)为数据的共享交换、审查发布和应用展示提供可靠的内容审查方法。

本发明解决其技术问题所采用的技术方案是:一种在文本大数据中发现敏感数据的方法,包括如下步骤:

步骤一、建立敏感词信息库:敏感词信息库中的每条记录包括敏感词描述和扩展信息;利用敏感词的不规范描述词语构建变异词库并进行索引归类;

步骤二、对敏感词信息库中的所有敏感词建立敏感词语检索树;

步骤三、将经过预处理的文本以字符串流的形式通过检索树进行敏感词检索发现,同时统计每个敏感词的出现频率;

步骤四、利用敏感词的出现频率、文档类别和敏感词语的权重级别计算待检索文本的敏感度;

步骤五、将待检索文本的敏感度与预设的阀值进行比较,将敏感度值超过阀值的检索文本确定为敏感类文本。

与现有技术相比,本发明的积极效果是:

(1)本方法提供了通过敏感词库和变异词共同构建敏感词语库的方式,多维度发现潜在敏感信息。同时通过敏感词库构建敏感词库搜索树,同时用检索树的分流作用大大的提高了发现所有规范化描述和非规范化描述的敏感信息的效率。

(2)本方法提出在文本敏感信息检索的过程中,通过模糊搜索的方式,尽最大的可能性发现潜在所有敏感信息,同时通过特色化的敏感词索引,能很快的分析出敏感信息的类别等,为后续敏感度的计算提供支撑。

(3)本方法利用敏感词词频、敏感词所在的文本类型和敏感词权重综合分析计算文本的敏感度,为文档的敏感度提供客观的衡量依据。

综上所述,本发明能够为海量异构文本提供快速发现规范化和非规范化描述的敏感信息的方法,通过文本流和检索树技术,实现敏感信息的快速精准查找和模糊检索相结合的方式实现潜在的敏感信息的快速发现,最后通过词频、类型和权重多维度分析异构文档的敏感度,具有分析全面准确等特点,同时,本发明采用了易于实现的、相对成熟的技术和算法。本方法可以适用于病毒防护、系统审计、数据交换、内容保护等方面。

附图说明

本发明将通过例子并参照附图的方式说明,其中:

图1为本发明方法的原理图;

图2为敏感词库示例;

图3为敏感词检索树示例。

具体实施方式

如图1所示,本发明提出的发现文本大数据中潜在敏感数据的方法的基本思路为:

(1)首先建立敏感词信息库,该库包含了每个预定义敏感词的规范描述,以及各种人工干扰变形的方式,包括拆字、网络语、别字处理,拼音翻译等(规范化描述和对应的变异描述属于同一敏感信息),同时在词库中按照词语出现的语境和词语语义确定每个敏感词语的权重系数;

(2)然后对敏感词库中的所有敏感词建立敏感词语检索搜索树;

(3)对文本进行预处理,包括去掉标点符号以及去掉助词、停用词等操作;

(4)将第3步骤处理过后的文本以字符串流的形式通过第2步建立的检索树进行敏感词检索发现,同时统计每个不同敏感词的出现频率;

(5)计算整篇文本信息的敏感度,通过和预定的阀值进行大小判断,如果计算后的结果,超过阀值则该检测文本是属于敏感类,对其共享的程度做出审核限制。

本发明中的敏感词库和敏感信息检索树构建技术(forbiddenwordsearchtree)是设计重点,包含数据集的敏感词库的构建、检索树构建、敏感度计算三个部分。

(1)敏感信息词库构建

敏感词信息库的构建分两部分,第一部分是敏感词词库的构建,第二部分是变异词的构建,其中:

第一部分敏感词词库的构建,主要包括如下内容:敏感词库中的每条记录包括敏感词描述和扩展信息。敏感词描述即该节点的文本内容信息,拼音等;扩展信息包括与该词相关的变异词,领域访问敏感权重,词长等。领域访问敏感权重分为重要、一般和待审核三类,相应的权重值为:3、2、1(也可以按照实际的业务场景自行设定),针对词语出现的场合(如军事类、党政类和其他类)确定权重的取值,有些词语在互联网网页中是敏感信息,在军事或者党政类内部文档就不一定是敏感信息,所以取值可以在词库中进行相应调整。如图2所示。

第二部分变异词的构建,变异词是通过敏感词不规范描述词语,包括词语的拆字、别字转化、网络语、拼音组合等方式形成的词语,这些词语是经过人工变形形成的词语,但是其意思并不妨碍敏感信息的表述,通过一般的基于关键词匹配等方式很难发现,且效率低。变形词语的构成主要是人工不定期的收集网络上常出现的变形词、网路用语等形成变形词库。收集变形词库后进行索引归类。索引的构成方式如下:

敏感词的规范化描述形式的索引值为:该词语中第一个汉字的unicode码和后面两个词语的汉语拼音首字母的组合。这样变异词可以通过索引能快速准确的找到敏感词的规范化描述,便于后面对全文的基于敏感词频的统计计算整体的敏感值。

(2)敏感词检索树

敏感词检索树,是实现敏感信息发现的最核心部分,对所有敏感词信息库中的词语(包括敏感词的规范描述词语和敏感词的变异词语)。按照计算机数据结构中的典型树结构生成算法构建检索树。构建的原则,按照每个字的汉语拼音首字母进行构建,同时每个规范化描述的词语存储相应的索引值,方便后续映射分析。

如图3所示,其中每个节点包含的信息如下:

node{

infostring;//本节点的文本信息

next[]string;//子节点的指针;

prevstring;//父节点的指针;

weightfloat;//权重,该数据只在叶子节点赋值,其他节点为null;

lengthint;//该节点只在叶子节点赋值,其他非叶子节点为赋值为0;

indexstring//索引,该值只在叶子节点出现,其值等于该变异词的规范化描述,如果不是变异词该值为null;

}

通过树的方式进行敏感词检索具有较高的敏感词检索效率和较低时间复杂度,同时,为了避免由于敏感信息词库中词语收集不全等问题造成的检索异构,进行检索时可以进行模糊匹配,然后通过计算相似性确定检索的信息是不是敏感词,相似性的确定按照如下规则:待判断的词语与敏感信息词库中收集的长度最短的词语至多有一个字不同才能视作相似,否则就视为不相似。

(3)敏感度计算

计算待检索文本的敏感度,主要包含敏感词的频率frequence、文档类别class(内部文件、日常办公、公开文件),敏感词语的权重级别lev(在敏感词信息库中事先设定为三类:重要、一般和待审核)三个部分;计算公式如下:

∑degreei=∑frequencei+class+∑γ*levi

frequencei表示敏感词的出现频率,frequencei=每个敏感词在文档中出现的次数/检索文档的词语总数。

class取值为:内部文档为1,日常办公为0.5,公开文件为0.1;取值可以根据实际需要进行调整,对于非公开类文档应给予相对较高的权重值。

levi为敏感信息词库中的值,如图2中所示:对于“歼二十”,如果是“重要级别”,其levi值为1;如果是“一般级别”,其levi值为2;如果是“待审核级别”,其levi值为3。

权重系数γ用于确定不同敏感词在不同类型文档出现的敏感度,如有些词语出现在公开文档为敏感词,同样出现在内部文档就可能是一般级别的词汇了。即当class=1时γ=0.5~1;当class=0.5时,γ=0.1~0.5;当class=0.1时,γ=0~0.5。

最后通过计算出所有词语的敏感度的总和来确定最终待检测文件的敏感程度。该方法权衡了敏感词频,敏感词的权重,和待检测文件的类别,同时给予重要文档更高的权重计算敏感性,该方法多维度客观的判别文档的敏感程度,能更进一步的控制数据交换引起的泄密。最后确定文档是不是可以向外发布的文件:通过预设定一定的阀值,通过∑degreei和阀值比较来确定,计算结果为大于阀值的不能外发需要进一步审核,小于等于的可以外发。

每个文档根据其类型不同设定不同的阀值,通常情况下内部文档的阀值取值范围为1~2,日常办公文档为(0.5~1):公开文档为(0.1~0.5)。

阀值的取值范围也可以通过计算文档的最高极值和最低极值,然后取最高极值和最低极值的中间值作为阀值。比如:

1、对于内部文件:

最高极值=全文全部是敏感词,按上述敏感度计算公式计算得到该值为5;

最低极值=全文全部不是敏感词,即该值为1。

2、对于日常办公文件:

最高极值=全文全部是敏感词,即该值为3.5;

最低极值=全文全部不是敏感词,即该值为0.5。

3、对于公开文件:

最高极值=全文全部是敏感词,即该值为3.1;

最低极值=全文全部不是敏感词,即该值为0.1。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1