用于数据泄露防护的方法和系统与流程

文档序号:13109615阅读:来源:国知局
技术特征:
1.一种从文档中提取数据特征的方法,包括步骤:对所述文档进行分词处理,以便获得词序列;对于所述词序列中的每个词语,计算表征该词语在所述文档中的重要性的特征值,并基于所述特征值从所述词序列中选取第一预定数目个词语;以及对于所选择的第一预定数目个词语中的每个词语,计算该词语对应的数据特征串,并基于所述数据特征串来构造所述文档的第一数据指纹来作为所述文档的数据特征。2.如权利要求1所述的方法,还包括步骤:按照顺序对所述文档中的词序列进行分块,以得到一个或者多个第二预定长度的词块,其中相邻词块之间相互重叠第三预定长度;对于所得到的一个或者多个词块,基于所述每个词块中的数据内容来计算该词块的数据特征串;以及组合每个词块的数据特征串来构造该文档的第二数据指纹以作为该文档的数据特征。3.如权利要求1或2所述的方法,其中所述计算表征该词语在所述文档中的重要性的特征值的步骤包括:计算该词语在该文档中的出现频率作为该词语的词频;计算文档库中的文档总数与文档库中包含该词语的文档数目之间的比例作为该词语的逆文档频率;以及根据所述词语的词频和逆文档频率计算所述表征该词语在文档中重要性的特征值。4.如权利要求3所述的方法,其中所述表征该词语在文档中重要性的特征值TF-IDF被定义为:TF-IDF=TF×IDF,其中,TF是该词语的词频,IDF是该词语的逆文档频率,TF和IDF分别为:以及基于所述特征值从所述词序列中选取第一预定数目个词语的步骤包括:按照所计算得的TF-IDF值从高到低的顺序选取第一预定数目个词语。5.一种从文档中提取数据特征的设备,所述设备包括:分词模块,适于对所述文档进行分词处理,以便获得词序列;计算模块,适于对所述词序列中的每个词语,计算表征该词语在所述文档中的重要性的特征值、还适于对所选择的第一预定数目个词语中的每个词语,计算该词语对应的数据特征串;选取模块,适于基于所述特征值从所述词序列中选取第一预定数目个词语;以及特征提取模块,适于基于所述数据特征串来构造所述文档的第一数据指纹来作为所述文档的数据特征。6.一种判断第一文档和第二文档是否相关的判断方法,所述方法包括步骤:对所述第一文档执行如权利要求1-4中任一项所述的方法,提取文档的数据特征得到第一特征集合,其中所述第一特征集合包括:第一文档的第一数据指纹和/或第二数据指纹;对所述第二文档执行如权利要求1-4中任一项所述的方法,提取文档的数据特征得到第二特征集合,其中所述第二特征集合包括:第二文档的第一数据指纹和/或第二数据指纹;以及计算第一特征集合与第二特征集合的相似度,若相似度达到预定范围,则认为该第一文档和第二文档相关。7.一种判断第一文档和第二文档是否相关的判断设备,所述设备包括:如权利要求5所述的从文档中提取数据特征的设备,适于分别提取出所\t述第一文档和第二文档的第一特征集合和第二特征集合,其中,所述第一特征集合包括:第一文档的第一数据指纹和/或第二数据指纹;所述第二特征集合包括:第二文档的第一数据指纹和/或第二数据指纹;相似度计算模块,适于计算第一特征集合与第二特征集合的相似度;以及相似度判断模块,适于在判断相似度达到预定范围时,认为该第一文档和第二文档相关。8.一种判断可疑文档是否包含敏感内容的方法,所述方法包括步骤:对受保护文档执行如权利要求1-4中任一项所述的方法,提取该文档的数据特征,建立特征库,其中特征库中包含:受保护文档的第一数据指纹和第二数据指纹;对可疑文档执行如权利要求6所述的判断方法,其中,提取所述可疑文档的数据特征作为第一特征集合,将所述特征库作为第一特征集合;若判断所述可疑文档与受保护文档相关,则认为所述可疑文档包含敏感内容;以及若判断所述可疑文档与受保护文档不相关,则认为所述可疑文档不包含敏感内容。9.一种判断可疑文档是否包含敏感内容的设备,所述设备包括:如权利要求5所述的从文档中提取数据特征的设备,适于对受保护文档提取数据特征、还适于提取可疑文档的数据特征作为第二特征集合;存储模块,适于存储所述受保护文档的数据特征,作为特征库,其中特征库中包含:受保护文档的第一数据指纹和第二数据指纹;如权利要求7所述的判断设备,适于判断可疑文档与特征库中的受保护文档是否相关;以及确定模块,适于当判断所述可疑文档与受保护文档相关时,确定所述可疑文档包含敏感内容、和当判断所述可疑文档与受保护文档不相关时,确定所述可疑文档不包含敏感内容。10.一种数据泄露防护系统,包括:计算设备,与数据安全防护设备相连;以及数据安全防护设备,包括:文档获取设备,适于获取计算设备发送的文档内容;如权利要求9所述的敏感内容判断设备,适于判断获取的文档是否包含敏感内容;控制策略获取设备,适于在判断文档是否包含敏感内容时,获取与文档相关的进程对应的控制策略;和控制设备,适于当判断可疑文档包含敏感内容时,根据所获取的控制策略对所述文档的操作行为进行控制。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1