数据泄漏监测方法及装置与流程

文档序号：17324792发布日期：2019-04-05 21:44阅读：294来源：国知局

本申请涉及计算机领域，特别涉及数据防泄漏技术。

背景技术：

近些年来，信息技术的迅猛发展，由于企业安全防护不足和黑产利益的驱动，数据泄漏事件层出不穷，为企业和互联网用户都造成巨大损失。

例如，2013年东航等航空公司疑泄漏乘客信息泄漏用户行程，部分用户反映受诈骗影响行程安排。又例如，2015年网易邮箱账号疑似数据泄漏，造成部分iphone手机用户账户安全受到牵连。又例如，2018年1月3日，美国国土安全部通知247167名员工，2014年在那里工作的人员中有一个数据库存在“泄漏事件”。2002-2014年期间，受到调查的人员也受到数据丢失的影响。泄漏的数据包括姓名、社会安全号码和工作人员的职位。2017年5月官方首次发现泄漏行为，但花了大半年确认之后到2018年初才公布。又例如，2018年4月，fackbook泄漏大量用户数据，扎克伯格承认其22亿用户的公开数据已被第三方实体所盗用。

可见，安全防护不足会造成企业和互联网用户的巨大损失。

因此，为防止敏感数据的泄漏，企业已经积极采取了多项措施进行防范，包括加强数据权限管理、采用数据加密技术和购买使用数据防泄漏产品等。

但是，以上几种措施仍存在各自缺陷。具体的，例如，加强数据权限管理仍难以从根本上杜绝和防范数据泄漏风险；采用数据加密技术常常对业务和性能产生较大影响；购买和使用数据防泄漏产品往往需要新增外来设备并依靠第三方平台标记和管理敏感数据，系统侵入明显，也增加了数据泄漏风险。

另一方面，目前主流数据防泄漏(dlp)解决方案主要由数据标识、数据监控、数据保护和数据管理几部分组成，以平台化、模板化加强数据管理为基础，通过显式定义被保护敏感数据并标记，通过标记监测数据泄漏事件。

上述方案仍然存在不足，一是往往需要新增网络设备完成数据监测，二是需要显式的定义或标识敏感数据，三是需要依赖第三方平台集中管理敏感数据或数据标识，这些都额外增加了数据泄漏的风险，尤其是难以适用于同公司核心业务紧密相关的敏感数据防护。

因此，需要能够更加有效地发现、分析甚至溯源整个数据泄漏过程的技术方案，特别是对于核心账户数据相关表的防泄漏方案。

技术实现要素：

本申请的目的在于提供一种数据泄漏监测方法及装置，能够更加有效地发现、分析甚至溯源整个数据泄漏过程的技术方案，特别是对于核心账户数据相关表的防泄漏方案。

为了解决上述问题，本申请公开了一种数据泄漏监测方法，包括：

根据待保护的目标业务数据，设计相应的指纹数据算法；

根据该指纹数据算法，对待保护的目标业务数据进行计算，生成相应的指纹数据；

在该待保护的目标业务数据中布放该相应的指纹数据；

在多个网络节点对该指纹数据进行监测；

若监测到疑似指纹数据，则根据该指纹数据算法对该疑似指纹数据进行验证,若通过验证，则确定该待保护的目标业务数据发生数据泄漏。

在一个优选例中，还包含以下步骤：

当确定该待保护的目标业务数据发生数据泄漏时，根据该指纹数据算法，对发生泄漏的指纹数据解密，并根据该解密后的指纹数据确定该待保护的目标业务数据泄漏发生的信息。

在一个优选例中，该指纹数据算法用于生成一组同该待保护的目标业务数据的格式一致的指纹数据。

在一个优选例中，该根据待保护的目标业务数据，设计相应的指纹数据算法的步骤中，基于该目标业务数据的类型和场景设计相应的指纹数据算法。

在一个优选例中，该根据待保护的目标业务数据，设计相应的指纹数据算法的步骤中，对用户账号、和/或密码数据设计相应的指纹数据算法。

在一个优选例中，该根据该指纹数据算法，对待保护的目标业务数据进行计算，生成相应的指纹数据的步骤中，预先设置、和/或调整所需生成的指纹数据的具体数量。

在一个优选例中，该在该待保护的目标业务数据中布放该相应的指纹数据的步骤中，按随机的方式布放该指纹数据，使该指纹数据均匀地分布在待防护的目标业务数据中。

在一个优选例中，该在该待保护的目标业务数据中布放该相应的指纹数据的步骤中，对高危用户数据布放的指纹数据多于对非高危用户数据布放的指纹数据。

在一个优选例中，该在多个网络节点对该指纹数据进行监测的步骤中，持续地在多个可能发生数据泄漏的网络节点对该指纹数据进行监测。

在一个优选例中，该待保护的目标业务数据泄漏发生的信息包括发生数据泄漏的时间信息和机房信息。

本申请还公开了一种数据泄漏监测装置，包括：

指纹数据算法设计模块，用于根据待保护的目标业务数据，设计相应的指纹数据算法；

指纹数据生成模块，用于根据该指纹数据算法，对待保护的目标业务数据进行计算，生成相应的指纹数据；

指纹数据布放模块，用于在该待保护的目标业务数据中布放该相应的指纹数据；

指纹数据监测模块，用于在多个网络节点对该指纹数据进行监测；

指纹数据验证模块，用于若监测到疑似指纹数据，则根据该指纹数据算法对该疑似指纹数据进行验证,若通过验证，则确定该待保护的目标业务数据发生数据泄漏。

在一个优选例中，还包含：

数据泄漏分析模块，用于当确定该待保护的目标业务数据发生数据泄漏时，根据该指纹数据算法，对发生泄漏的指纹数据解密，并根据该解密后的指纹数据判断该待保护的目标业务数据泄漏发生的信息。

本申请还公开了一种数据泄漏监测设备，包括：

存储器，用于存储计算机可执行指令；以及，

处理器，用于在执行该计算机可执行指令时实现如前文描述的方法中的步骤。

本申请还公开了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。

本申请实施方式中，通过设计、布放和验证“指纹数据”，能够实现对待保护的目标业务数据泄漏的监测和追溯。该方法无需引入第三方设备或产品(自行生成和布放)，无需显式标识敏感数据(隐蔽性更高)，无需直接管理敏感信息(其他方案需要显式标识和集中存储敏感信息用于监测和比对，本方案管理实际无业务风险的“指纹数据”)，是一种静默、被动的数据泄漏监测和检测方法，可实现对无法预测的泄漏风险进行监测和发现，弥补主动防泄漏措施的不足，大大缩短发生泄漏后的排查和分析周期。

本申请的说明书中记载了大量的技术特征，分布在各个技术方案中，如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话，会使得说明书过于冗长。为了避免这个问题，本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征，都可以自由地互相组合，从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载)，除非这种技术特征的组合在技术上是不可行的。例如，在一个例子中公开了特征a+b+c，在另一个例子中公开了特征a+b+d+e，而特征c和d是起到相同作用的等同技术手段，技术上只要择一使用即可，不可能同时采用，特征e技术上可以与特征c相组合，则，a+b+c+d的方案因技术不可行而应当不被视为已经记载，而a+b+c+e的方案应当视为已经被记载。

附图说明

图1是根据本申请第一实施方式的数据泄漏监测方法流程示意图；

图2是根据本申请第一实施方式的数据泄漏监测方法过程示意图；

图3是根据本申请第二实施方式的数据泄漏监测装置的结构示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

部分概念的说明：

指纹数据：指基于被监测的目标数据字段特点而生成的一组具备一定特征的数据，用于帮助监测目标数据是否已经泄漏。指纹数据与待保护的目标业务数据的格式一致。指纹数据具有隐蔽性高、可辨识、可验证的特性。

拖库：拖库本来是数据库领域的术语，指从数据库中导出数据。到了黑客攻击泛滥的今天，它被用来指网站遭到入侵后，黑客将数据库中的表数据全部盗走的行为。

撞库：撞库是黑客通过收集互联网已泄露的用户和密码信息，生成对应的字典表，尝试批量登陆其他网站后，得到一系列可以登录的用户账号。很多用户在不同网站使用的是相同的帐号密码，因此黑客可以通过获取用户在a网站的账户从而尝试登录b网址，这就可以理解为撞库攻击。

下面概要说明本申请的部分创新点：

本发明基于企业需要加强保护的目标业务数据，以一种特定算法生成一组同目标数据格式一致的特征数据，通过监测和验证这些数据即可帮助发现、分析甚至溯源整个泄漏过程。尤其适合于核心账户数据相关表的防泄漏。

进一步地，该方法根据被防护的目标数据特征选取特定算法，以一次一密的方式生成一组“指纹数据”，随机布放到被防护目标数据中；通过线上线下监测该类“指纹数据”，达到对敏感数据泄漏的监测；通过对监测到疑似泄漏的“指纹数据”进行“解密”，验证泄漏并分析可能的泄漏途径。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

本申请的第一实施方式涉及一种数据泄漏监测方法，图1是本实施例的数据泄漏监测方法的主要步骤示意图，图2是本实施例的数据泄漏监测方法的过程示意图。

如图1和图2所示，本申请的一个实施例的数据泄漏检测方法包含以下步骤：

步骤101：算法设计

具体的，在本步骤中，根据待保护的目标业务数据，设计相应的指纹数据算法。

具体的，指纹数据算法用于以一种特定算法生成一组同待保护的目标业务数据的格式一致的特征数据，即，指纹数据。换句话说，指纹数据的格式与待保护的目标业务数据的格式是一致的。

需指出，在本发明实施例中，可以基于目标业务数据的具体特点和具体场景，设计相应的指纹数据算法。例如，针对用户账号可以使用具备一定规律的字符串作为指纹数据，对于密码字段可以使用插入日期作为密码明文用于后续泄露时间的判断等。

这样做的好处在于，能够针对不同数据的具体情况(例如数据类型)，以及不同的应用场景，提供更加灵活的设计方案，使根据该指纹数据算法生成的指纹数据能够能有效地发现和防止数据泄漏。

具体的，基于敏感数据，即，目标业务数据的特点，以及这种具体的目标业务数据的泄漏高发场景，针对性地设计“指纹数据”的生成规则，即，指纹数据算法。通过该算法，生成具有隐蔽性高、可辨识、可验证的特性的特殊数据，即，指纹数据。

其中，“隐蔽性高”是指普通人员(即，不了解该算法机制的人员)无法分辨指纹数据与待防护的目标业务数据之间的差别，在这种情况下，普通人员无法区别对待该类数据。

其中，“可辨识”是指该类数据对于特定管理人员(即，了解和掌握该算法机制的人员)可以区分和标识，尤其是，可以使用自动化方法进行辨识，进而使得待防护的目标业务数据可以被持续的针对性监测。

其中，“可验证”是指在监测过程中，一旦发现这些“指纹数据”中的一条或多条，可通过上述对应的指纹数据算法进行验证，如果通过验证，则确认指纹数据已遭泄漏。

需指出，在本发明的一些实施例中，有一些指纹数据算法还能够进一步帮助追溯数据泄漏的可能途径和源头。

这样做的好处是，不但及时发现数据泄漏的情况，并且能够进一步分析追溯泄漏的原因和源头，更迅速有效地杜绝数据泄漏情况。

举例来说，对于用户账号和密码数据，如果对用户账户数据的存储位置进行编号区分(北京机房、上海机房等)，加密后作为密码字段的一部分，一旦监测到疑似泄漏数据，则通过解密恢复后可得出具体哪几个物理机房发生了数据泄漏。

换句话说，在本实施例中，指纹数据算法用于利用诸如账号、密码、邮箱等字段，“植入”用于后续验证和分析所需要的关键信息。其中，“植入”的含义可以具体理解为“插入”，换句话说，就是“插入可用于后续帮助验证和分析泄漏单的信息”。例如“对未来可能接触到该类敏感数据的人群进行标识，将标识加密后写入密码字段，一旦发现疑似泄漏数据，可通过统计该标识来判断泄漏是否与某一人群强相关”。

这样做的好处在于，可以以一种相对隐蔽的方式保留辅助验证信息到待保护的目标业务数据中。

需指出，之所以使用以上几个字段是因为可以更好地隐藏和携带额外信息，但本发明的实施例不限于此，也可以根据数据和场景的具体情况，选择其它字段进行计算，生成指纹数据。

例如，部分中文字段中也可以使用生僻字来进行信息隐藏，或者还可以使用“特定组合规律的字母串作为账号”来进行信息隐藏。

又例如，在本实施例中，根据待防护的目标业务数据特点(例如：账号、手机号、支付交易记录、地址等)，以及可能的泄漏场景(拖库、内部人员泄漏、第三方泄漏)等进行针对性设计。

在本申请的实施例中，以一次一密的方式生成指纹数据，换句话说，每生成一批指纹数据，均使用不同的密钥/规则来生成指纹数据。

这样做的好处在于，能够使指纹数据在不同的数据和不同场景下，具有更好地隐秘性，能够有效地防止长期使用一个密钥或规则而被恶意者通过长期监测、收集和分析而破解，进而造成数据泄漏。

步骤102：指纹数据生成

具体的，在本步骤中，根据所述指纹数据算法，对待保护的目标业务数据进行计算，生成相应的指纹数据。

需指出，在本发明的实施例中，可以根据待保护的目标业务数据的数据量，预先设置和调整所需生成的指纹数据的具体数量。

这样做的原因在于，一方面需要考虑指纹数据的数据量越大越不容易出现漏判，即，指纹数据越多，占比越大，能够用于帮助发现数据泄漏的可能性就越大；反之越小；但另一方面还需要考虑指纹数据但也浪费存储空间，因此需要根据数据的具体特点，以及具体的应用场景，合理设置和调整指纹数据的数量。

需指出，在本说明书中提到的业务敏感数据，其具体含义是从业务角度看，不希望被第三方获取到的数据。

步骤103：指纹数据布放

具体的，在本步骤中，在所述待保护的目标业务数据中布放所述相应的指纹数据。

具体的，在本步骤中，按预定设定的规则，将生成的所述“指纹数据”分布到待防护的目标业务数据中，使得当产生一定数量级的数据泄漏时，有“指纹数据”包含在所述泄漏的数据中。

需指出，在本实施例中，按随机的方式“播撒”上述指纹数据，使其均匀分布在待防护的目标业务数据中。

这样做的好处在于，能够保证一旦产生一定数量级的数据泄漏，就一定会有“指纹数据”包含其中。

需指出，在本申请的其它实施例中，“播撒”方式并不限于随机方式，也可以根据需要灵活调整“播撒”方式。

举例来说，对高危用户数据，可以布放相对非高危用户数据更多的指纹数据，即，布放密度高于其它目标业务数据：例如，账户余额超过100万的客户、一个月内无任何操作的不活跃用户，等。

上述这种播撒方式的好处在于，以更小的冗余数据和存储空间，提高对待保护的业务目标数据的防护，更高效的降低数据泄漏风险。

步骤104：指纹数据监测

具体的，在多个网络节点对所述指纹数据进行监测。

需指出，在本实施例中，是持续地在多个可能发生数据泄漏的网络节点对所述指纹数据进行监测。

具体的，这些网络节点包括线上系统交互接口和线下的黑灰产市场。线上监测是指，在互联网上进行监测。例如，不断扫描和分析公司网络边界出口处的数据，监测是否包含指纹数据。线下监测是例如监测一些黑灰产交易中活动的数据包是否包含指纹数据。

如果监测到疑似泄漏指纹数据，则进入步骤105。

步骤105：验证疑似指纹数据

具体的，若监测到疑似指纹数据，则根据所述指纹数据算法对所述疑似指纹数据进行验证,若通过验证，则确定所述待保护的目标业务数据发生数据泄漏。

需指出，疑似指纹数据是指通过持续监测发现的、尚未确定是否泄露的“指纹数据”，需要对其通过先前设计的算法进行验证以确定泄露是否发生。

在本实施例中，根据平台上存储的指纹数据，对检测到的所述指纹数据进行验证，确定是否发生数据泄漏。

具体的，可以通过以下方式进行验证：

先将根据指纹数据算法生成的指纹数据存储在平台上，当监测到疑似指纹数据时，将监测到的疑似指纹数据与平台存储的“指纹数据”进行匹配、解密、校验关键信息正确性等。

更具体的，上述的匹配是指判断是否是指纹数据，例如前面例子中提到的，是否为预设好的生僻字组合、特定字母组合等。

更具体的，解密后校验关键信息是指解密后能够获得该指纹数据的诸如插入时间等关键信息。

步骤106：分析

具体的，在本步骤中，当确定所述待保护的目标业务数据发生数据泄漏时，根据所述指纹数据算法，对发生泄漏的指纹数据解密，并根据所述解密后的指纹数据确定所述待保护的目标业务数据泄漏发生的信息。

举例来说，如解密密码字段后得出2015080805,20150808代表2015年8月8日插入的该条指纹数据，数据泄漏应该发生在这日期之后；05代表上海机房，说明上海机房存储的数据很可能已遭到泄漏。换句话说，待保护的目标业务数据泄漏发生的信息包括发生数据泄漏的时间信息以及机房信息。

换句话说，本步骤是依据前期“指纹数据”的生成规则，对部分携带较多信息量的字段进行恢复与判断，例如通过密码字段中的日期判断大概的泄漏事件。

这样做的好处是，能够通过“指纹数据”的按照一定的规律，针对性布放，实现泄漏渠道的初步判定等。

本实施方式可以更有效地发现数据泄漏并进行分析甚至溯源整个泄漏过程，并且，不需要依靠第三方平台，避免了由于第三方平台引起的数据泄漏风险。并且，也不需要新增网络设备完成数据监测。并且，也不需要显式的定义或表示敏感数据。进一步提高对企业核心业务紧密相关的敏感数据的防护能力。

本申请的第二实施方式涉及一种数据泄漏监测装置，其结构如图3所示，该数据泄漏监测装置包括：指纹数据算法设计模块、指纹数据生成模块、指纹数据布放模块、指纹数据监测模块、指纹数据验证模块，以及数据泄漏分析模块。具体地：

指纹数据算法设计模块，用于根据待保护的目标业务数据，设计相应的指纹数据算法。

指纹数据生成模块，用于根据所述指纹数据算法，对待保护的目标业务数据进行计算，生成相应的指纹数据。

指纹数据布放模块，用于在所述待保护的目标业务数据中布放所述相应的指纹数据。

指纹数据监测模块，用于在多个网络节点对所述指纹数据进行监测。

指纹数据验证模块，用于若监测到疑似指纹数据，则根据所述指纹数据算法对所述疑似指纹数据进行验证,若通过验证，则确定所述待保护的目标业务数据发生数据泄漏。

数据泄漏分析模块，用于当确定所述待保护的目标业务数据发生数据泄漏时，根据所述指纹数据算法，对发生泄漏的指纹数据解密，并根据所述解密后的指纹数据判断所述待保护的目标业务数据泄漏发生的信息。

第一实施方式是与本实施方式相对应的方法实施方式，第一实施方式中的技术细节可以应用于本实施方式，本实施方式中的技术细节也可以应用于第一实施方式。

需要说明的是，本领域技术人员应当理解，上述数据泄漏监测装置的实施方式中所示的各模块的实现功能可参照前述数据泄漏监测方法的相关描述而理解。上述数据泄漏监测装置的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现，也可通过具体的逻辑电路而实现。本申请实施例上述数据泄漏监测装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，readonlymemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

相应地，本申请实施方式还提供一种计算机存储介质，其中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。

此外，本申请实施方式还提供一种数据泄漏监测设备，其中包括用于存储计算机可执行指令的存储器，以及，处理器；该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中，该处理器可以是中央处理单元(centralprocessingunit，简称“cpu”)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，简称“dsp”)、专用集成电路(applicationspecificintegratedcircuit，简称“asic”)等。前述的存储器可以是只读存储器(read-onlymemory，简称“rom”)、随机存取存储器(randomaccessmemory，简称“ram”)、快闪存储器(flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

需要说明的是，在本专利的申请文件中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中，如果提到根据某要素执行某行为，则是指至少根据该要素执行该行为的意思，其中包括了两种情况：仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。

在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内容中，以便在必要时可以作为修改的依据。此外应理解，在阅读了本申请的上述公开内容之后，本领域技术人员可以对本申请作各种改动或修改，这些等价形式同样落于本申请所要求保护的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王昕;落红卫
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：从番石榴中提取果糖技术的制作方法
上一篇：智能电视的多媒体文件的展示方法、装置及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。