一种基于关键字技术的数据防泄漏方法与流程

文档序号:13446678阅读:376来源:国知局

本发明涉及一种数据防泄漏方法,尤其涉及一种应用于石油石化企业中、基于关键字技术的非结构化数据防泄漏方法,属于数据防泄漏技术领域。



背景技术:

数据作为企业的核心资产,国内外大量敏感数据的泄露会对企业利益带来巨大的损害,包括客户流失、信誉度下降、核心技术丢失、事件曝光造成声誉损失、法律问题和经济赔偿等。根据专业数据泄露防护研究机构统计,89%的企业遭受过敏感信息泄露;超过85%的安全泄密来自企业内部,经济损失达6056.5亿美元,是黑客造成损失的16倍,是病毒造成损失的12倍。目前市场上成熟的数据泄露防护(简称dlp)系统能侦测到敏感内容并阻止它,或者在传输前进行加密,任何需要保护敏感数据的企业都需要数据泄露防护(dlp)技术的帮助。

伴随着信息系统的依赖性增加,石油石化企业的数据量、数据重要性日益增大,随之增大的还有数据泄露风险。作为拥有大量关键核心数据的龙头国企,数据泄露对于石油石化企业而言不仅仅是经济损失,更有可能影响到国家机密,导致不可估量的后果。保证各类业务敏感数据不被泄露,已经成为石油石化企业信息化建设过程中的迫切需求和需要重视的问题。

石油石化企业数据安全现状:虽然目前国内外厂商已经基于不同用户需求开发出了数据泄露防护产品,石油石化企业也制定了初步的数据定义和管控策略,但是石油石化企业在实施数据安全工作过程中普遍存在数据资产识别不充分,方法落地难,dlp设置策略的制定不够客观和充分,数据泄露防护场景考虑不全面等问题。信息安全建设更多的考虑了人员和数据,而忽视了业务流程和特定场景等重要因素。

在技术层面,没有完整的对石油石化企业的敏感数据进行调研和梳理,识别出石油石化企业需要防护的敏感数据,dlp策略的制定仅仅依靠安全产品的内定策略和技术人员的主观决定。

在管理层面,石油石化企业的现有数据安全工作更多的是在企业层面对数据进行宏观的定义,没有深入到特定业务部门对数据进行有针对性的细分,导致业务部门对数据安全感知度不高,信息中心对数据敏感程度把握不够,数据泄露防护工作的效果有限。

根据业界分析,大批量数据的典型泄露主要通过网络和终端两种途径,但本质上数据泄露还是发生在终端,真正的数据保护需要在终端实现。由于工作流程的不完善,以及日常工作中的不规范行为导致的敏感数据泄露时有发生。对于每天使用这些数据的员工来说,已经对这些数据的敏感性及数据对企业的重要性日渐麻木,因此时常会通过终端有意无意地(例如发送邮件)轻易将某些数据外发出去。为了工作方便,有时也会将某些数据上传到网盘或共享空间等。甚至有些员工只是为了炫耀个人的才能,而将自己新编写的代码或者设计图纸上传至专业网站或论坛等与人分享。这使得企业敏感数据遭到外泄,企业自身损失惨重。因此,关注终端通过邮件、web通道、u盘拷贝、刻录、打印等通道泄露敏感信息已经变得尤其重要。

另外,信息分为结构化数据和非结构化数据,我们都知道结构化数据是怎样的,并知道它驻留在哪里,所以必须严格地控制谁能访问它,对于结构化数据,定义和应用安全控制相对简单,可以使用结构内置的特性或者专门的特定设计的第三方工具。相比之下,非结构化数据更难以管理和保护。非结构化数据能存在任何地方,以任何形式,在任何设备上,能够跨越任何网络。试想一下,假如一个客户的个人信息从数据库中提取出来,显示在一个网页上,并将其从网页中复制到数据表格中,附在电子邮件中,然后发送到另外的位置。

非结构化数据没有严格的格式。当然,word文档和电子邮件等符合定义它们内部结构的标准,然而,它们其中包含的数据是没有限制的。回到客户信息的例子,假设员工从其网页上复制到数据表格中,其内容会被修改,如可能删除了某些字段和标题。因为这个信息从一个格式转换成了另一种格式,它原始的结构被有效地改变了。

石油石化企业中,80%以上的电子信息都是非结构化的,而且非结构化的数据增长的速度是结构化数据增长速度的10-20倍。再考虑下,屡见不鲜的知识产权的窃取、敏感信息的意外丢失,以及数据的恶意使用,最核心的问题都是非结构化的数据。在2010年,全球非结构数据的总量大概有100万pb,而且正在以每年25%的速度增加。显然,我们急需了解如何保护非结构化数据的安全。

非结构化数据在任何给定时间处在以下状态之一。它可以是静止的,安静地存储在终端上,它可以是在传输过程中,有时候也被称为“运动中”,意思是它从一个地方被复制到另一个地方,或者它也可以在使用中,在这种情况下,数据正被一些应用程序打开着。比如一个pdf文件。它可以以静止的状态存储在一个usb设备上。可以从usb设备上复制同一个pdf文件,并将其附在电子邮件发送到互联网上。pdf文件从usb设备上被复制,通过很多传输状态到达电子邮件服务器,并沿着网络从一个信箱传到另一个信箱。最后,收件人收到邮件,打开pdf文件,此时非结构化数据处于使用状态——驻留在内存中,在一个应用程序的控制下,如adobe阅读器,并被呈现给拥有相应读写权限的用户。

非结构化数据不断发生变化,数据终结在你未预期的地方,特别是互联网提供了令人难以置信由擅长传输非结构化数据的计算机组成的大型网络。企业投入大量的金钱和精力建设社交网络、文件共享和协同服务。点对点的应用提供了无数种将非结构化数据在几秒钟内发布给数十亿用户的方法。因此,用来阻止攻击者访问保护数据的网络控制保证已经再也无法安全了。



技术实现要素:

本发明的目的在于:结合石油石化企业在实施数据泄露防护项目的过程中,遇到数据定义不清晰,数据分类分级制度难以落地,dlp策略制定过于依赖个人主观决策等问题,针对这些问题,提供一种基于关键字技术的数据防泄漏方法,有效的解决上述现有技术存在的技术问题。

本发明的技术发明是这样实现的:一种基于关键字技术的数据防泄漏方法,包括以下步骤:

第一步,对业务流程进行数据调研:连接业务流程,找出业务流程中涉及的敏感数据;

第二步,数据泄露风险评估:建立数据分类分级与策略管理平台,从流程管理和安全技术两个方面对安全风险进行评定;

第三步,数据定义:通过关键字技术对各种场景下各种文档模型进行预先定义,找出能够表征数据价值的关键字体系,扫描待检测数据,通过是否被命中关键字来判断是否属于敏感数据;

第四步,敏感数据监控和阻止,处理抓到的恶意企图和恶意事件。

作为优选方式之一:在第三步中,判断是否属于敏感数据的具体方法为:把关键字进行组合,形成关键字词典;然后将关键字的出现频度作为参考依据形成一套查询对照蓝本,扫描待检测数据时,统计敏感关键字词典中被命中的敏感关键字数量,如果命中的敏感关键字数量符合蓝本中定制好的阀值,则这个待检测数据就属于敏感数据。

作为优选方式之一:预先定义文档是否是敏感信息的方法:首先,进行敏感文件的学习和训练,拿到敏感内容的文档,然后采用语义分析的技术进行分词,提出需要学习和训练的敏感信息文档的指纹模型,再对被测的文档或内容进行指纹抓取,将得到的指纹与训练的指纹进行比对,根据预设的相似度去确认被检测文档是否为敏感信息。

作为优选方式之一:指纹模型包括文档结构化数据指纹和非结构化数据指纹。

作为优选方式之一:在第一步中,找出业务流程中涉及的敏感数据的方法为:将文件内容的哈希值与预先获取和配置的哈希值进行比较,如果相同,则表示该文件内容中包含敏感信息。

作为优选方式之一:在第四步中,敏感数据监控包括数据发现和数据分类分级;数据发现根据策略定义的发现规则对数据内容或数据格式进行检查,它针对终端上存储的所有数据,一旦发现违反策略的数据,就根据策略响应规则进行处理,或加密或发送邮件告警,同时将发现事件报告数据分类分级与策略管理平台,由数据分类分级与策略管理平台进行统一的数据视图展示。

作为优选方式之一:数据分类分级与策略管理平台包括数据项模块、信息内容审计平台、相关系统和互联网出口端,所述信息内容审计平台包括数据加密子系统、数据内容审计子系统、和数据分类分级与策略管理子系统,相关系统包括soc(securityoperatorcenter安全运维中心的缩写)综合管理平台、桌面安全管理系统和身份管理与认证系统,所述数据项模块分别与数据加密子系统、数据内容审计子系统、和数据分类分级与策略管理子系统相连,数据内容审计子系统和数据分类分级与策划管理子系统与soc综合管理平台相连。

本发明使得防护面积更加广泛,它不仅针对所有机密数据,同时在防护手段上,它能覆盖终端所有的泄密通道。从而构成了一个以企业网络出口为边界的防护面积。通过监控打印、cd/dvd刻录、u盘、移动硬盘、存储卡、网络共享、红外、串口、文件拖拽、内容拷贝等行为,对通过im、邮件客户端等发送敏感信息的方式也进行监控,从而最大程度的降低终端泄密的可能性。

本发明的有益效果:本发明提供一种基于关键字技术的数据防泄漏方法,其符合石油石化企业数据定义标准,能够较为客观的指导石油石化企业数据安全风险评估和数据安全策略的制定;通过在不同的位置采用不同的技术手段,确保在任何位置任何使用方式下,数据泄露风险都能得到有效降低,提升了数据泄露防护的工作效率;保护了用户终端上非结构化数据的安全,使数据泄露防护工作更加规范化、标准化和智能化。

附图说明

图1是本发明实施例1中数据分类分级与策略管理平台的结构框图。

具体实施方式

下面结合附图,对本发明作详细的说明。

为了使本发明的目的、技术发明及优点更加清楚明白,以下结合附图及实施例,对本发明技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

一种基于关键字技术的数据防泄漏方法,包括以下步骤:

第一步,对业务流程进行数据调研:连接业务流程,找出业务流程中涉及的敏感数据。

具体方法为:将文件内容的哈希值与预先获取和配置的哈希值进行比较,如果相同,则表示该文件内容中包含敏感信息。

第二步,数据泄露风险评估:建立数据分类分级与策略管理平台,从流程管理和安全技术两个方面对安全风险进行评定;

第三步,数据定义:通过关键字技术对各种场景下各种文档模型进行预先定义,找出能够表征数据价值的关键字体系,扫描待检测数据,通过是否被命中关键字来判断是否属于敏感数据;具体来说:

预先定义文档是否是敏感信息的方法:首先,进行敏感文件的学习和训练,拿到敏感内容的文档,然后采用语义分析的技术进行分词,提出需要学习和训练的敏感信息文档的指纹模型,再对被测的文档或内容进行指纹抓取,将得到的指纹与训练的指纹进行比对,根据预设的相似度去确认被检测文档是否为敏感信息。

判断是否属于敏感数据的具体方法为:把关键字进行组合,形成关键字词典;然后将关键字的出现频度作为参考依据形成一套查询对照蓝本,扫描待检测数据时,统计敏感关键字词典中被命中的敏感关键字数量,如果命中的敏感关键字数量符合蓝本中定制好的阀值,则这个待检测数据就属于敏感数据。

其中:指纹模型包括文档结构化数据指纹和非结构化数据指纹。

第四步,敏感数据监控和阻止,处理抓到的恶意企图和恶意事件。

敏感数据监控包括数据发现和数据分类分级;数据发现根据策略定义的发现规则对数据内容或数据格式进行检查,它针对终端上存储的所有数据,一旦发现违反策略的数据,就根据策略响应规则进行处理,或加密或发送邮件告警,同时将发现事件报告数据分类分级与策略管理平台,由数据分类分级与策略管理平台进行统一的数据视图展示。

数据分类分级与策略管理平台包括数据项模块、信息内容审计平台、相关系统和互联网出口端,所述信息内容审计平台包括数据加密子系统、数据内容审计子系统和数据分类分级与策略管理子系统,相关系统包括soc综合管理平台、桌面安全管理系统和身份管理与认证系统,所述数据项模块分别与数据加密子系统、数据内容审计子系统和数据分类分级与策略管理子系统相连,数据内容审计子系统和数据分类分级与策略管理子系统与soc综合管理平台相连。

如图1所示,实施例1,针对石油石化企业的数据防泄漏方法如下:

一、基于业务流程的数据调研。

针对石油石化企业信息安全环境进行深入调研,以得出业务流程中哪些数据是机密信息,并且这些数据泄露可能会侵犯个人隐私、降低企业的竞争优势或给企业造成损害。业务流程调研,通过访谈、工作小组的形式与业务部门一同梳理流程、识别流程中产生各种数据、数据的流转通道、数据的存储形式、不同存储位置的访问权限,分析流程在设计、运行等方面存在的问题,特别是对流程中的关键点进行控制。同时对业务流程进行穿行测试,尤其对业务流程产生的数据、数据流转,以确保调研结果的完整性和准确性。

二、数据泄露风险评估。

运用科学的方法和手段,系统的分析石油石化企业所面临的威胁及其环境存在的脆弱性,评估数据泄露事件一旦发生可能造成的危害程度。为了全面识别石油石化企业当前的数据安全风险,从流程管理和安全技术两个方面对安全风险进行评定。数据安全控制点调研,通过对数据流转环节和运维环节的控制点调研,识别石油石化企业在数据安全控制方面存在的不足和风险。

泄密事件分析,通过数据流转监控所收集的数据,对其进行分析可发现在业务流程中部分用户的文档操作可能涉及涉密事件或恶意损坏公司重要文件的动作。对这一系列的行为进行分析,并与相关用户、主管领导进行沟通,获取用户正常的工作行为,从而获取真实性。在确认行为后,对行为的危害进行分析,并提出解决发明。

流程脆弱性分析:在现状调研阶段,通过各种形式了解完业务流程后,对业务流程、流程节点构成、流程安全控制进行分析,找出流程中可能存在的数据泄露风险点。最后汇总流程风险点并与it、内审、业务部门领导进行沟通确认,以保证风险发现完整真实。

三、通过多种内容感知技术对内容进行定义并分析,识别出敏感数据。

数据定义的最常用的方式是通过关键字进行。通过预先定义,找出能够表征数据价值的关键字体系,形成不同的关键字组。在扫描待检测数据,通过是否被命中关键字组来判断是否属于敏感数据。关键字字典是关键字检测的一个延伸,把关键字进一步组合,同时将关键字的出现频度作为参考依据形成一套完整的查询对照蓝本,扫描待检测数据时,统计敏感关键字词典中被命中的敏感关键字数量,如果命中的敏感关键字数量符合蓝本中定制好的阀值,则这个待检测数据就属于敏感数据。词典检测在一定程度上会提高检测精度。

数据指纹主要是通过访问和提取文本和数据,对其进行规范化处理,然后进行不可逆哈希。哈希函数是指将文件内容通过散列算法,变换成固定长度的输出,该输出就是哈希值。哈希转换是一种压缩映射,也就是散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来确定的唯一输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。在进行敏感信息查找时,可以将该文件内容的哈希值与预先获取和配置的哈希值进行比较,如果相同,则表示该文件内容中包含敏感信息。哈希分析这种方式也比较精确,因为哈希碰撞的概率十分低,几乎可以忽略,但是也存在着大文件哈希的性能问题,而且文件的任何修改都会导致哈希匹配的失效。为了改进这种方法,可以对文件内容进行分块哈希,以循环哈希的方式获取文件的多个哈希值,这样,一方面保存了散列分析准确率高的特点,同时,简单的修改也不会影响整体散列分析的结果。

结构化数据指纹:结构化数据指纹可保护客户与员工的数据,以及其他通常存储在数据库中的结构化数据。例如,客户可能会编制有关使用检测的策略,以在消息中查找“姓名”、“身份证号”、“银行帐号”或“电话号码”其中任意三项同时出现的情况,并将其映射至客户数据库中的记录。

根据特定数据列中的任何数据栏组合进行检测;也就是在特定记录中检测m个字段中的n个字段。它能够在“值组”或指定的数据类型集上触发;例如,可接受名字与身份证号这两个字段的组合,但不接受名字与手机号这两个字段的组合。

在给定数据行的任意列组合的基础上进行检测,即给定记录的m字段中的n。它可以针对“元组”,或指定的数据类型组进行发现。还使用更加复杂的规则,如查找m字段中的n,但指定的元组除外。每个数据单元都保存有独立的散列,因此,查找不同数据组合的检测策略只能由一行中的相应数据触发。例如,要求“姓名+身份证号码”的策略将由“张三+[张三的身份证号码]”触发,但不能由“张三+[李四的身份证号码]”触发,即使李四也在同一个数据库中。结构化数据指纹还支持近接逻辑,以减少潜在的误报。对于检测过程中正在处理的自由格式文本,指纹的某一行中所有数据的字数都必须在可配置的字数范围内才会被视为匹配。例如,默认情况下,要达到匹配,所检测电子邮件正文中的“张三”和“[张三的身份证号码]”的字数必须在所选字数范围内。对于包含表格数据的文本(如来自excel电子表格的数据),指纹某一行中的所有数据都必须在表格文本的同一行中才会被视为匹配,以减少总体误报。

非结构化数据指纹:非结构化数据指纹能准确检测以文档形式存储的非结构化数据,例如word与ppt文件、pdf文档、财务、并购文档,以及其他敏感或专有信息。创建文档指纹特征,以检测原始文档的已检索部分、草稿或不同版本的受保护文档。

首先要进行敏感文件的学习和训练,拿到敏感内容的文档时,然后采用语义分析的技术进行分词,然后进行语义分析,提出来需要学习和训练的敏感信息文档的指纹模型,然后利用同样的方法对被测的文档或内容进行指纹抓取,将得到的指纹与训练的指纹进行比对,根据预设的相似度去确认被检测文档是否为敏感信息文档。这种方法可让非结构化指纹具备极高的准确率与较大的扩展性。

四.敏感数据监控:终端的敏感数据存在管理比较松散的情况,管理员也不清楚这些敏感数据分布在什么地方以及正在被怎么使用,数据面临非常大的泄密风险,不及时采取措施进行控制的话,这种情况会越来越严重。而以人工的方式进行大规模的筛选过滤的话,工作量巨大且效果难以保证。那么需要一种自动化的工具,来帮助用户建立数据管理模式。本发明提供两个产品功能:数据发现及数据分类分级。数据发现根据策略定义的发现规则对数据内容或数据格式进行检查,它针对终端上存储的所有数据,一旦发现违反策略的数据,就根据策略响应规则进行处理,或加密或发送邮件告警。同时将发现事件报告管理平台,由管理平台进行统一的数据视图展示。

该实施例是针对石油石化企业数据进行全方位保护,从数据的价值、业务流程入手,了解业务需求,数据的关键性、评估数据面临的风险及危害,从而构建与业务流程吻合、数据安全管理与数据安全技术双层面的全面防护体系。将数据保护与业务紧密结合,形成的安全模型有极高的针对性、显著的防护效果以及实施可行性。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1