一种数据追踪的方法及系统与流程

文档序号：11236778阅读：1082来源：国知局

本申请涉及数据处理技术领域，特别是涉及一种数据追踪的方法及系统。

背景技术：

随着个人和企业数据量的不断快速增长，着眼点逐渐的从数据量的增长转变向对数据的保护，时有发生的数据泄露案件往往会伴随着针对隐私权的全民大探讨，同时也会使企业在公众中的威望和信任度极大的下降且伴随着巨大的经济损失，所以如何防止数据的泄露，以及在数据泄露后如何准确的追查攻击者来划分泄露的权责是十分重要且迫切的要求。

近年来，为防止数据泄露出现了多种解决方案，包括数据防护(dataleakprevention)方案和数据检测(dataleakdetection)方案。

但不管上述哪种解决方案，都是仅仅从不使数据向外流出这一出发点来做相应的工作：通过给用户设置分级权限、详细的记录所有访问者的操作日志等。而一旦恶意访问者的攻击意图十分明显，他会千方百计、想方设法的绕开或突破防护措施，而个人或企业也只能在事后对被突破的漏洞采取相应的修复措施，那么所述恶意访问者下次只需要更换一种入侵的方式、采取突破另一个漏洞就可以再次达成同样的目的。

所以，上述方案只能在一定程度上防止数据外流、泄露，且无法对泄露数据的恶意访问者进行追踪，无法追踪也就意味着无法确定泄露的源头在哪里，无法确定数据泄露的权责所在，进而无法追查、举证所述恶意访问者。而一旦恶意访问者的攻击意图十分明显，他会千方百计、想方设法的绕开或突破防护措施，而个人或企业也只能在事后对被突破的漏洞采取相应的修复措施，那么所述恶意访问者下次只需要更换一种入侵的方式、采取突破另一个漏洞就可以再次达成同样的目的，无法杜绝同一恶意访问者再次偷取数据行为的发生。

因此，如果在数据泄露后，通过一个行之有效的方法来追踪到所述数据泄露的源头、明确数据泄露的权责，能够追查、举证所述恶意访问者，是本领域技术人员亟待解决的一个问题。

技术实现要素：

本申请的目的是提供一种数据追踪的方法及系统，能够确定数据泄露的源头、明确数据泄露的权责以及减少个人和企业因数据泄露而造成的损失。

为解决上述技术问题，本申请提供一种数据追踪的方法，该方法包括：

抓取访问者的数据流，并获取所述数据流中携带的目标数据文件和所述访问者的身份信息；

对所述目标数据文件做附加所述身份信息的处理，并将附加了所述身份信息的最终目标数据文件发送给所述访问者；

取出被泄露的最终目标数据文件中被附加的所述身份信息，以确定对应的恶意访问者。

可选的，所述获取所述数据流携带的目标数据文件，包括：

获取所述目标数据文件的特征值来确定所述目标数据文件的文件种类，其中，所述文件种类包括敏感数据文件以及诱饵数据文件。

可选的，所述对所述目标数据文件做附加所述身份信息的处理，包括：

当目标数据文件为敏感数据文件时，对所述目标数据文件嵌入身份数据标记，并将嵌入所述身份数据标记的最终目标数据文件发送给相应的访问者；

当目标数据文件为诱饵数据文件时，替换所述目标数据文件为能够获取所述访问者身份信息的病毒文件，并将所述病毒文件发送给相应的访问者。

可选的，所述对所述目标数据文件嵌入身份数据标记，并将嵌入所述身份数据标记的最终目标数据文件发送给相应的访问者，包括：

压缩所述身份信息，将压缩后的身份信息进行加密处理；

将经过加密处理后的身份信息嵌入所述目标数据文件中并打包成原格式，形成所述最终目标数据文件来发送给相应的访问者。

可选的，所述压缩所述身份信息，将压缩后的身份信息进行加密处理，包括：

通过huffman编码压缩所述身份信息，设置密匙并通过des算法加密压缩后的身份信息。

可选的，所述压缩所述身份信息，将压缩后的身份信息进行加密处理，包括：

通过shannon-fano编码压缩所述身份信息，并通过rsa算法加密压缩后的身份信息。

可选的，所述取出被泄露的最终目标数据文件中被嵌入的所述身份信息，包括：

当目标数据文件为敏感数据文件时，对被泄露的所述最终目标数据文件进行逆向解析，取出嵌入的所述身份数据标记，得到所述身份数据标记中的所述身份信息；

当目标数据文件为诱饵数据文件时，所述病毒文件上传所述访问者的身份信息。

可选的，在替换所述目标数据文件为能够获取所述访问者身份信息的病毒文件时，还包括：

将所述访问者的数据流引入蜜罐环境中或下发黑名单策略给防火墙。

可选的，在取出被泄露的最终目标数据文件中被附加的所述身份信息后，还包括：

利用取出的所述身份信息在日志中心记录的完整信息中进行反查，以弹窗或文档表格的方式呈现所述反查结果。

本申请还提供了一种数据追踪的系统，该系统包括：

数据检测模块，用于抓取访问者的数据流，并获取所述数据流中携带的目标数据文件和所述访问者的身份信息；

数据标记模块，用于对所述目标数据文件做附加所述身份信息的处理，并将附加了所述身份信息的最终目标数据文件发送给所述访问者；

数据标记逆向解析模块，用于取出被泄露的最终目标数据文件中被附加的所述身份信息，以确定对应的恶意访问者。

可选的，所述数据检测模块包括：

特征值识别子模块，用于获取所述目标数据文件的特征值来确定所述目标数据文件的文件种类，其中，所述文件种类包括敏感数据文件以及诱饵数据文件。

可选的，所述数据标记模块包括：

敏感数据处理子模块，用于当目标数据文件为敏感数据文件时，对所述目标数据文件嵌入身份数据标记，并将嵌入所述身份数据标记的最终目标数据文件发送给相应的访问者；

诱饵数据处理子模块，用于当目标数据文件为诱饵数据文件时，替换所述目标数据文件为能够获取所述访问者身份信息的病毒文件，并将所述病毒文件发送给相应的访问者。

可选的，所述敏感数据处理子模块包括：

压缩加密单元，用于压缩所述身份信息，将压缩后的身份信息进行加密处理；

封装发送单元，用于将经过加密处理后的身份信息嵌入所述目标数据文件中并打包成原格式，形成所述最终目标数据文件来发送给相应的访问者。

可选的，所述压缩加密单元包括：

第一处理子单元，用于通过huffman编码压缩所述身份信息，设置密匙并通过des算法加密压缩后的身份信息。

可选的，所述压缩加密单元包括：

第二处理子单元，用于通过shannon-fano编码压缩所述身份信息，并通过rsa算法加密压缩后的身份信息。

可选的，所述数据标记逆向解析模块包括:

敏感数据解析子模块，用于当目标数据文件为敏感数据文件时，对被泄露的所述最终目标数据文件进行逆向解析，取出嵌入的所述身份数据标记，得到所述身份数据标记中的所述身份信息；

诱饵数据上传子模块，用于当目标数据文件为诱饵数据文件时，所述病毒文件上传所述访问者的身份信息。

可选的，所述诱饵数据上传子模块，还包括：

下发策略单元，用于在替换所述目标数据文件为能够获取所述访问者身份信息的病毒文件后，将所述访问者的数据流引入蜜罐环境中或下发黑名单策略给防火墙。

可选的，所述数据标记逆向解析模块，还包括：

反查显示子模块，用于利用取出的所述身份信息在日志中心记录的完整信息中进行反查，以弹窗或文档表格的方式呈现所述反查结果。

本申请所提供的一种数据追踪的方法，通过抓取访问者的数据流，并获取所述数据流中携带的目标数据文件和所述访问者的身份信息；对所述目标数据文件做附加所述身份信息的处理，并将附加了所述身份信息的最终目标数据文件发送给所述访问者；取出被泄露的最终目标数据文件中被附加的身份信息，以确定对应的恶意访问者。

显然，本申请所提供的技术方案会发将附加了访问者身份信息的目标数据文件发送给所述访问者，一旦附加了所述访问者身份信息而形成的最终目标数据文件被泄露，就能够通过取出当时附加进的所述访问者身份信息来追查到泄露的源头，便于明确泄露数据的权责，能够从源头上杜绝相同泄露事件再次发生，有效的减少了个人或企业因数据泄露而造成的损失。本申请同时还提供了一种数据追踪的系统，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种数据追踪的方法所处于的硬件环境示意图；

图2为本申请实施例所提供的一种数据追踪的方法的流程图；

图3为本申请实施例所提供的另一种数据追踪的方法的流程图；

图4为本申请实施例所提供的又一种数据追踪的方法的流程图；

图5为本申请实施例所提供的一种数据追踪的系统的结构示意图；

图6为本申请实施例所提供的一种具体数据追踪的系统结构示意图。

具体实施方式

在实际情况中，恶意访问者总会想尽方法绕开或突破保护目标数据文件的防护措施，而防护措施即使被攻破，有能力的个人和企业也仅能对被突破的漏洞做相应修复，无法保证所有的问题和漏洞都被修复，即，无法杜绝同一恶意访问者的再次攻击，也无法确定恶意访问者具体是谁、是用的哪台终端设备，也就无从谈起确定泄露数据的权责，无法很好的在数据泄露发生后阻挡后续的攻击和同样的手段。所以本申请所提供的一种数据追踪的方法和系统，通过对被访问的目标数据文件做附加访问者的身份信息的处理后生成最终目标数据文件，将最终目标数据文件发送给访问者，而非仅仅将原始的目标数据文件发送给访问者，能够很好的在最终目标数据文件发生泄露时通过取出所附加进的身份信息确认恶意访问者的身份，明确数据泄露的权责，同时，也杜绝了同一攻击者的再次攻击，更能震慑其他的潜在恶意访问者，能够很好的杜绝同一恶意访问者再次泄露数据事件的发生。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请所提供的一种数据追踪的方法及系统，可以应用于以下硬件场景中：

请参考图1，图1为本申请中提供的一种数据追踪的方法所处于的硬件环境示意图，包括数据中心101、网关102、终端103。

其中，数据中心101是用来存放个人或公司的数据文件的存储装置，例如：大到数量巨大的阵列服务器，小到个人的终端设备，只要是存放数据文件的都可以被称为数据中心101，此处并不对数据中心101做具体的限制。网关102，可以下辖多个功能单元，例如，日志中心，即，用来记录所有访问者的所有详细操作记录；权限验证单元，用于验证访问的用户是否拥有相应权限，并使得没有权限的用户无法访问相应数据文件，等等。网关102是对访问数据中心101中的数据流做限制和记录或实现在实际使用中需要的功能的集合的一个装置，其中的功能单元则可以根据实际情况的需要添加、删除或者升级改造，并不对网关102做具体的功能限制。终端103，既是将网关102展现出的限制结果或日志中心的记录呈现给网络管理员的一个显示平台，也是对网关102做出相应升级或修复漏洞的一个操作平台，同时也可以作为本方案中显示数据追踪结果的窗口。终端103可以以多种形式呈现出来，例如，pc机、移动终端、特定的控制终端等。

以下结合图2，图2本申请实施例所提供的一种数据追踪的方法的流程图；该方法可以包括：

步骤s201：抓取访问者的数据流，并获取数据流中携带的目标数据文件和访问者的身份信息；

其中，该数据流是携带了目标数据文件以及访问者身份信息的数据流，是访问者首先发送给数据中心一个访问请求，数据中心接到访问请求后，将访问请求相对应的想要被访问者访问的数据文件作为目标数据文件发送出去。所换句话说，向数据中心发送想要访问目标数据文件的请求后，数据中心将目标数据文件以及访问者的身份信息整合为数据流。也就是说，数据流中已经携带了目标数据文件，所要做的只是从数据流中提取出被携带的目标数据文件以及访问者的身份信息，且目标数据文件在数据中心存储的原始数据文件并没有拿走，而只是将其复制后的备份将要发送给访问者。数据流此时还没有被访问者接收到。

步骤s202：对目标数据文件做附加身份信息的处理，并将附加了身份信息的最终目标数据文件发送给访问者；

其中，做附加身份信息的处理是为了便于追查、举证恶意访问者。而身份信息中也可以包含很多内容，包括：访问者的ip地址、物理单元识别符(puid)、mac地址、用户信息等。而之所以要获得身份信息，是为了利用身份信息中包括的访问者的个人信息来确定访问者的具体身份。换句话说，就是能够把访问者的身份落实到某个具体的人身上或者具体的某台终端设备上，是为了明确权责所做出的第一步。

而既然身份信息可以包含很多内容，当然可以选择将身份信息中的所有内容全部都记录下来，以备后用，显然，也可以基于实际情况中提高工作效率的原则来有选择性的挑一部分重点内容来记录，这都可以根据实际情况由网络管理员来对自己的企业做出最优化的选择。进一步的，将需要记录的身份信息中的内容记录在哪个位置也可以根据实际情况来做出相应的差异化选择。

具体的，做附加身份信息的处理的对象可以为数据中心内的全部数据文件，即，能达到对数据中心内的所有数据文件都能实现泄露后的追踪。当然，也可以对数据中心内一部分数据文件做附加身份信息的处理，即，只对一部分数据文件来实现泄露后的追踪。这是考虑到实际情况下的一个较为优选的方案，企业内数据中心的数据文件量可能会异常庞大，而并不是所有的数据文件都值得进行附加身份信息的处理，而是只对数据中心中较为重要的数据文件执行上面的处理过程就可以，这样做是考虑到可能会使得该处理过程耗费的时间过程、占用系统资源过多，进而使得处理工作的效率低下而优选的。实际情况下，可以由网络管理员根据自己企业内的情况来做出相应的差异化选择和改变。即用户可以对数据文件进行划分，本实施例并不对具体的划分形式进行限定。可以根据用户的实际需求进行划分和修改。例如，划分为重要数据文件，不重要数据文件；或者是敏感数据文件、诱饵数据文件以及普通数据文件。

然后，将经过附加身份信息处理的目标数据文件发送给访问者，且该经过处理的目标数据文件在数据中心存储的原始数据文件并没有被发送走，而只是对其复制后的备份执行了该处理过程，进而发送给访问者而已。

本实施例并不对具体的进行附加身份信息处理方式进行限定。例如可以直接添加包含身份信息的标识，或者在原数据文件中添加身份信息字段，或者使用隐藏手段进行身份信息的添加以避免该身份信息被访问者发现等。且可以根据数据中心中数据文件划分对象设置不同的附加身份信息处理方式，以提高对不同数据文件的追踪效率。

步骤s203：取出被泄露的最终目标数据文件中被附加的身份信息，以确定对应的恶意访问者。

此步骤建立在经过处理的目标数据文件已经泄露的前提下，而此时只需要根据步骤s202中的处理过程来执行逆向过程，即这里的逆向过程要与步骤s202中处理过程相对应设置，经过逆向工程来取出当初附加进的身份信息，再按照身份信息所涵盖的内容来查找对应的访问者，并将其定性为恶意访问者，从而追查、举证该恶意访问者，达到杜绝同一恶意访问者再次偷取数据行为的发生。

基于上述技术方案，本申请实施例提供的数据追踪的方法，能够在发生数据泄露后，通过附加进的身份信息来明确泄露数据的权责，从源头上杜绝同一恶意访问者再次泄露数据事件的发生，有效的减少了个人或企业因数据泄露而造成的损失。

下面请参见图3，图3为本申请实施例所提供的另一种数据追踪的方法的流程图：此实施例是在上述实施例的基础上，将数据中心内的数据文件按重要程度分为重要的数据文件和一般的数据文件，且同时是利用数据流所携带的目标数据文件的特征值来判别目标数据文件属于那种重要性下的数据文件，并将数据流中的身份信息记录下来。具体步骤可以包括：

步骤s301：抓取访问者的数据流，并获取数据流中携带的目标数据文件和访问者的身份信息；

此步骤与上面的步骤的s201内容大致相同，此处不再赘述。

步骤s302：记录数据流中携带的身份信息；

由于身份信息中含盖很多内容，显而易见的，此处可以将身份信息中的全部内容记录下来，并将此含盖全部内容的身份信息记录在数据库中，当然，也可以记录在数据中心中，毕竟数据中心会记录有所有访问者的全部且详细的操作记录，且减少另外的数据库对应的硬件损耗。而后续过程中，从被泄露的最终目标数据文件中取出的就是含盖所有内容的身份信息，可以直接拿该身份信息在日志中心里反查即可。也可以有选择性的将身份信息中比较重要的内容记录在不同于日志中心的数据库中，再根据给数据库此次记录唯一分配的标识符再在日志中心反查完整的操作记录。当然也可以有其他的方法能够实现同样的效果，此处强调的只是能够根据记录的相关身份信息反查到完整的访问操作记录的结果，并不对其具体方法做限制。

步骤s303：根据目标数据文件的特征值判断文件种类；

数据文件的特征值，是指不同的数据文件按照不同的算法可以得到由唯一的数据文件所对应的唯一值，一旦数据文件被篡改或经过处理，其唯一对应的值也会变化，从而突出了数据文件的唯一性，在实际使用中，一般使用特征值来验校数据文件的完整性，以避免用户得不到发布者发布的第一手数据文件。此处是用目标数据文件的特征值来判别是哪类数据文件，因为一般情况下并不对所有的数据文件进行处理。而特征值的选取有很多种算法，本实施例并不对此进行限定，用户可以根据实际硬件计算能力和需求进行选择。一般可以选用哈希算法来计算特征值，当然不止哈希算法一种可以用来计算特征值。其算法原理是通过对数据文件进行一种散列运算，得到数据文件唯一对应的一个值，而只要改变了数据文件，它所对应的这个值也会随之改变，而md5算法作为现金哈希算法中最为常用的一种算法，广泛使用md5特征值来验校数据文件的完整性和有没有经过二次修改。

其中，目标数据文件可以按照其所含内容的重要程度做划分，根据企业的实际情况和硬件的负荷程度来划分，考虑到多方面情况来做出最适合本企业的最优方式接口，本实施例对此并不进行限定。例如，可以分为两种，一种是一般的数据文件，即，泄露不泄露无所谓的文件，也就是重要程度不高的数据文件；一种是重要的数据文件，对个人来说，可能是一些个人的隐私数据文件，包括：相册、短信、日记、下载的文件等等，对企业来说，很可能是一些公司的内部文件，不宜对外公开的数据文件，一旦泄露很可能造成经济损失。通常并不对重要程度不高的一般数据文件做处理，只对重要的敏感数据文件进行处理。也可以那更进一步的，从重要的数据文件中再挑选一部分极度重要的数据文件，即，分为三种。极度重要的数据，对个人来说，是自己绝对不想让其他人看到的数据文件，对企业而言，极有可能是客户名册或一旦泄露就会给企业带来毁灭性打击的数据文件，这些极度重要的数据一般拥有最高权限，且只允许及个别有权限的企业高层查看。

而在实际情况中，这些极度重要的数据文件，一般都会与以上其他两种数据文件分开存放，置于不连接公网的个人数据中心保存，以防止丢失。更进一步的，还可以在数据中心中，设置一些顶着极度重要的数据文件的名字的诱饵数据，顾名思义，诱饵数据就是用来诱使恶意访问者上钩的，即，只要访问者想要访问诱饵数据，那就可以直接定性访问者为恶意访问者。换句话说，数据中心内的诱饵数据就是不允许访问者触碰的“炸弹”，一旦触碰，就会被“炸弹”标记，定性为恶意访问者。

本实施例中将数据中心的数据文件按重要性分为敏感数据文件以及诱饵数据文件。即，根据目标数据文件的特征值，将会出现导向敏感数据文件还是诱饵数据文件的岔路。

步骤s304：对目标数据文件嵌入身份数据标记，并将嵌入身份数据标记的最终目标数据文件发送给相应的访问者。

此步骤为根据特征值判别目标数据文件为敏感数据文件后，对目标数据文件所做的处理步骤。

其中，嵌入身份数据标记的过程可以为首先压缩身份信息，将压缩的身份信息进行加密处理；再将加密处理的身份信息嵌入与特征值相对应的目标数据文件中。之后再将其打包成原格式，得到最终目标数据文件。当然，其中的压缩和加密过程都可以根据敏感数据文件的类型来择优选择，有多种压缩和加密算法可供灵活选择、搭配，此处并不对选取怎样的压缩、加密算法做限定，只要能够实现最终效果即可。例如，如果敏感数据文件为图片，就需要把图片信息压缩为像素信息，再进行相应的加密过程后最终嵌入。

步骤s314：对被泄露的最终目标数据文件进行逆向解析，取出嵌入的身份数据标记，得到身份信息；

在最终目标数据文件已经被泄露的情况下，在互联网或者其他网络环境中能够采集到被泄露的最终目标数据文件后，按照步骤s303的处理过程，对最终目标数据文件进行逆向解析，取出嵌入的身份数据标记，得到身份数据标记中的身份信息。逆向解析是根据在步骤s303中选取了怎样的压缩、加密算法后，按照原算法来执行逆向解析的。最终要取出当初嵌入进的身份信息，来按照身份信息中包含的信息确定相应的访问者，明确数据泄露的权责，以便举证、追查工作的展开。

步骤s305：直接替换目标数据文件为病毒文件，并将病毒文件发送给相应的访问者；

此步骤为根据特征值判别目标数据文件为诱饵数据文件后，对目标数据文件所做的处理步骤。在直接替换目标数据文件为病毒文件时，因为访问者已经被定性为恶意访问者，还可以执行相关策略，封锁访问者的ip，以杜绝下次同一访问者使用相同ip再次攻击。将恶意访问者封锁的方法有很多，绝不限于上面的两种，可以按照实际情况下网络管理员来选择最适合自己企业的一种。同时，病毒文件可以通过多种方式伪装自己，使得向访问者要想的目标数据文件，例如，将能够获取访问者主机身份信息的脚本嵌入压缩包、图片、音视频等可运行程序中等。

步骤s315：病毒文件上传访问者的主机身份信息；

病毒文件上传访问者的主机身份信息。即，当病毒文件被相应的访问者接收后，病毒文件会自动运行，获取攻击者的主机身份信息，且将获取到的主机身份信息上传至特定的网络地址，而企业的网络管理员可以定期从网络地址下载上传的主机身份信息，从而确定恶意访问者，明确想要访问企业数据中极度重要数据的恶意访问者的个人信息，明确权责，追查到具体的某个人、某台攻击用终端设备。

步骤s306：利用身份信息反查得到访问者的完整操作记录。

而在获得访问者的身份信息后，利用身份信息与在步骤s302中记录的完整操作记录中进行反查，最终是要得到反查结果，并将反查结果呈现给网络管理员，并不局限于在什么地方记录，且呈现的方式多种多样本实施例对此并不进行限定。例如，弹窗、表格、报警等。只要能够给予网络管理员警示，起到反馈结果的效果就可以。

下面请参见图4，图4为本申请又一实施例所提供的一种数据追踪的方法的流程图。具体步骤可以包括：

步骤s401：抓取数据流，并获取数据流中携带的目标数据文件和访问者的身份信息；

步骤s402：将身份信息中的ip、mac地址记在数据库中，同时为此次访问操作分配唯一的uuid；

只将身份信息中十分重要的ip、mac地址记录在数据库中，因为数据库与日志中心性质相同但逻辑上相互区别且独立存在，同时为此次访问者的访问操作分配一个唯一存在的uuid，uuid是与日志中心的记录的所有且详细的操作记录提供的索引用标识，即，数据库与日志中心通过uuid相关联，可以起到减少嵌入进目标数据文件的信息内容和长度，更不易被访问者发现，提高数据追踪的效率。

步骤s403：根据目标数据文件的特征值判断文件种类；

即通过md5特征值来判断目标数据文件是属于敏感数据文件还是诱饵数据文件。

步骤s404：对目标数据文件嵌入身份数据标记，并将嵌入身份数据标记的最终目标数据文件发送给相应的访问者；

步骤s404是在由目标数据文件的md5特征值所对应的目标数据文件属于敏感数据文件后，做出后续工作。嵌入身份数据标记过程为：

首先通过huffman编码算法来压缩身份信息，使得身份信息的平均长度和期望值都降低，然后设置一个密匙，通过密匙和des加密算法将压缩的身份信息进行加密处理；最后将加密处理的身份信息嵌入与特征值相对应的敏感数据文件中并打包成原格式，得到最终的敏感数据文件。

步骤s414：对被泄露的最终目标数据文件进行逆向解析，取出嵌入的身份数据标记，得到身份信息；

通过密匙和des加密算法反向解析出当初嵌入的身份信息。

步骤s405：替换目标数据文件为带病毒的压缩包，并将压缩包发送给相应的访问者；

步骤s405是在由目标数据文件的md5特征值所对应的目标数据文件属于诱饵数据文件后，做出后续工作。

步骤s415：将访问者的数据流加入黑名单；

此步骤为将访问诱饵数据的访问者的数据流下发给黑名单策略给防火墙，强行封锁ip的数据流，杜绝恶意访问者再次通过这个ip访问数据中心。

步骤s425：压缩包上传访问者的身份信息；

嵌入病毒的压缩包在进入访问者的主机后，自动运行病毒程序，获取访问者的主机身份信息上传至特定的网络地址，供网络管理员获取相关信息。

步骤s406：利用身份信息在数据库中查询得到相应的uuid；

根据上面步骤s414和步骤s425能够得到恶意访问者的身份信息，之后利用身份信息在数据库中查询得到相应的uuid。

步骤s407：通过uuid在日志中心查询，得到反查结果；

利用uuid将数据库和日志中心相关联的特性，使用uuid在日志中心查询得到恶意访问者完整、详细的操作记录，并将其反查结果呈献给网络管理员，为下一步的举证、追查的后续工作做准备。

基于上述技术方案，本申请实施例提供的数据追踪的方法，能够在发生数据泄露后，通过采集被泄露的做了附加身份信息的处理后行程的最终目标数据文件，通过执行附加过程的逆向解析来取出附加的身份信息，再拿身份信息在数据库或数据中心反查出完整的操作记录来确定恶意访问者，进而明确泄露数据的权责，从源头上杜绝同一恶意访问者再次泄露数据事件的发生，有效的减少了个人或企业因数据泄露而造成的损失。

由于系统部分的实施例与方法部分的实施例相互对应，因此系统部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

下面请参见图5，图5为本申请所提供的一种数据追踪的系统结构示意图；该系统可以包括：

数据检测模块100，用于抓取访问者的数据流，并获取数据流中携带的目标数据文件和访问者的身份信息；

数据标记模块200，用于对目标数据文件做附加身份信息的处理，并将附加了身份信息的最终目标数据文件发送给访问者；

数据标记逆向解析模块300，用于取出被泄露的最终目标数据文件中被附加的身份信息，以确定对应的恶意访问者。

进一步的，数据标记模块下进一步包括有数据库单元，用于记录身份信息中较重要的ip地址、mac地址和分配得到的具有唯一性的uuid。

更进一步的，系统还包括日志中心，用于记录所有访问者的所有的详细操作记录，以使能够使用uuid在日志中心中反查到访问者详细的操作记录。

基于上述实施例，数据检测模块100可以包括：

特征值识别子模块，用于获取目标数据文件的特征值来确定目标数据文件的文件种类，其中，文件种类包括敏感数据文件以及诱饵数据文件。

基于上述任意实施例，数据标记模块200可以包括：

敏感数据处理子模块，用于当目标数据文件为敏感数据文件时，对目标数据文件嵌入身份数据标记，并将嵌入身份数据标记的最终目标数据文件发送给相应的访问者；

诱饵数据处理子模块，用于当目标数据文件为诱饵数据文件时，替换目标数据文件为能够获取访问者身份信息的病毒文件，并将病毒文件发送给相应的访问者。

基于上述实施例，敏感数据处理子模块可以包括：

压缩加密单元，用于压缩身份信息，将压缩后的身份信息进行加密处理；

封装发送单元，用于将经过加密处理后的身份信息嵌入目标数据文件中并打包成原格式，形成最终目标数据文件来发送给相应的访问者。

基于上述实施例，压缩加密单元可以包括：

第一处理子单元，用于通过huffman编码压缩身份信息，设置密匙并通过des算法加密压缩后的身份信息。

基于上述实施例，压缩加密单元可以包括：

第二处理子单元，用于通过shannon-fano编码压缩身份信息，并通过rsa算法加密压缩后的身份信息。

基于上述任意实施例，数据标记逆向解析模块300可以包括：

敏感数据解析子模块，用于当目标数据文件为敏感数据文件时，对被泄露的最终目标数据文件进行逆向解析，取出嵌入的身份数据标记，得到身份数据标记中的身份信息；

诱饵数据上传子模块，用于当目标数据文件为诱饵数据文件时，病毒文件上传访问者的身份信息。

基于上述实施例，诱饵数据上传子模块还可以包括：

下发策略单元，用于在替换目标数据文件为能够获取访问者身份信息的病毒文件后，将访问者的数据流引入蜜罐环境中或下发黑名单策略给防火墙。

基于上述任意实施例，数据标记逆向解析模块300还可以包括：

反查显示子模块，用于利用取出的身份信息在日志中心记录的完整信息中进行反查，以弹窗或文档表格的方式呈现反查结果。

下面举例说明上述系统的工作过程，具体请参考图6。图6中还包含了存储数据文件的数据中心，且将全部数据文件按重要性划分为敏感数据文件、诱饵数据文件、其他数据文件，其中还准备有装在“蜜罐”中的病毒文件，具体的为带病毒的压缩文件。

同时，明确了是将数据流所携带的访问者的身份信息记录在日志中心里，相应的在取出嵌入的身份信息后也回到日志中心反查处完整、详细的操作记录。同时，恶意访问者收到病毒文件后，病毒文件上传恶意访问者的身份信息至网络管理员设置的公有云，而网络管理员可以定期从该公有云下载上传的恶意访问者的身份信息来去反查确定恶意访问者。且恶意访问者是将数据文件泄露在internet中，网络管理员通过在internet中采集到被泄露的最终数据文件，作为输入信息来进行解析工作的。

即攻击者使用未知的手段绕过企业的防火墙，从而访问到受保护的敏感数据区，窃取企业的敏感数据即敏感数据区中的数据文件。保护机制可能失效，但是攻击者窃取的敏感数据完整性是不会改变的，所以可以利用校验数据的hash值的办法，来区分经过网关的数据类型，从而区分敏感数据、诱饵数据、不重要数据等，并对不同的数据进行不通程度的篡改，来达到数据标记的目的。而后通过对泄漏数据进行逆向的解析，还原信息泄密者的真实身份，从而达到数据追踪的目的。

该系统主要可以部署单个模块即数据检测模块、数据标记模块、数据标记逆向解析模块具体如图6。

数据检测模块的工作原理及过程为：用户首先需要对数据中心的数据进行标记，将诱饵数据、敏感数据的特征(一般是md5值)下发到数据检测模块，用于对数据种类进行区分。数据检测模块一般部署在网关设备中，对所有访问数据中心的流量进行分析，通过特征值识别子模块识别出访问者需要访问的目标数据文件的数据种类是敏感数据、诱饵数据还是其他数据，并将目标数据文件的流量抓包到数据标记模块。

数据标记模块的工作原理及过程为：数据标记模块部署在网关设备的应用层，对数据检测模块抓包上来的数据进行篡改。操作步骤如下：提取数据访问者的身份信息(ip、puid、mac、用户信息等)，记入数据库。根据请求的数据种类进行相应的处理。(1)若是敏感数据，则在敏感数据处理子模块通过水印、签名、指纹技术等数据标记技术，对被浏览、下载、传输的文件进行秘密信息嵌入，打包成原数据格式。其中，秘密信息嵌入：首先通过haffman编码将用户信息进行压缩，使用户信息的平均长度和期望值都降低，然后设置密匙将编码后的用户信息进行des加密，使加密后的用户信息变成等概率随机分布的0和1比特流，最后将它嵌入原信息文件即嵌入原目标数据文件中。具体的，秘密信息嵌入的步骤具体选在压缩加密单元和封装发送单元执行，且按照敏感数据文件的类型，例如，图片、文字等，可具体选在压缩加密模块下的第一处理子单元或第二处理子单元。(2)若是诱饵数据，则在诱饵数据处理子模块中替换为包含病毒的压缩文件，并且可以选择在下发策略单元中下发相应黑名单策略给防火墙，强行封锁这个ip的数据流。

数据标记逆向解析模块的工作原理及过程为：数据标记逆向解析模块作为一个独立的软件提供给管理员使用，一旦非法访问者将敏感数据发布到互联网，管理员可以采集网上的泄密数据，作为输入交给数据标记逆向解析模块中的敏感数据解析子模块进行逆向解析，解析出泄漏数据中的身份数据标记，并且和日志中心的详细访问记录进行对照，然后将非法访问者的身份信息通过界面展示给管理员，作为举证非法访问者的证据。或通过诱饵数据上传子模块上传的非法访问者的身份信息和日志中心的详细访问记录进行对照，然后将非法访问者的身份信息通过界面展示给管理员，作为举证的证据。

即对应的工作流程为：

1、数据检测模块对访问者访问的目标数据文件进行分类，分为三类：诱饵数据、敏感数据、其它数据。

2、数据检测模块把目标数据文件的数据流发送给数据标记单元，数据标记单元分别对这两类数据进行处理。

如果目标数据文件是敏感数据：数据标记模块会通过敏感数据处理子模块并利用压缩加密单元给这些数据打上数据标记，再通过封装发送单元发送给访问者。

如果目标数据文件是诱饵数据：数据标记模块会通过诱饵数据处理子模块替换诱饵数据，把诱饵数据完全替换为带病毒的压缩文件，并发送给访问者，并且通过下发策略单元对访问者的数据流进行一些策略(比如：引入蜜罐环境中，或者下发黑名单，封锁这个访问者)。

3、当访问者把敏感数据发布到互联网，也可以理解为公有云，管理员可以采集互联上这些数据，并且通过数据标记逆向解析模块下的敏感数据解析子模块，把敏感数据的详细访问记录全部提取出来，作为报案的证据或者追查泄密者的线索。

4、当访问者激活诱饵数据中的病毒，病毒通过诱饵数据上传子模块把访问者的主机身份信息等上传到云端，此处可以为私有云，日志中心可以定期从云端下载这些非法访问者的记录，并且根据病毒的上报，从日志中心提取完整的访问者的非法访问记录，作为证据或者追查攻击者的线索。

该系统能够较为容易的实现数据跟踪，且可以控制跟踪过程，为追踪和举证数据泄露的访问者提供线索和证据，便于进行追责，从而避免经济损失。

以上对本申请所提供的一种数据追踪的方法及系统进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李文博;唐志豪;
技术所有人：深信服科技股份有限公司;
我是此专利的发明人

上一篇：差动放大器、接收器和电路的制造方法与工艺
上一篇：变压器反馈放大器的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。