用于备份和归档的公司数据与私人数据的自动分离的制作方法

文档序号:6496868阅读:175来源:国知局
用于备份和归档的公司数据与私人数据的自动分离的制作方法
【专利摘要】本发明公开了一种计算装置,当满足第一标准时,所述计算装置将数据项分类为公司数据项,并当满足第二标准时,所述计算装置将数据项分类为个人数据项。所述计算装置将识别的公司数据项提供至将所述公司数据项存储到公司数据存储器的第一备份系统。所述计算装置还将识别的个人数据项提供至将所述个人数据项存储到个人数据存储器的第二备份系统。
【专利说明】用于备份和归档的公司数据与私人数据的自动分离
【技术领域】
[0001]本发明的实施例涉及数据备份和归档领域,更具体地讲,涉及出于备份和归档目的而分离私人数据和公司数据。
【背景技术】
[0002]公司员工将公司资源(例如,公司电子邮件系统、公司计算机、公司电话等)用于个人使用是常见的。这种将公司资源混合用于公司目的和个人目的会导致有关生成备份和归档的多个问题。
[0003]混合使用公司资源会使得资源里包括混合的个人数据和公司数据。传统的备份和归档系统无法将公司数据与个人数据加以区分。因此,传统的备份系统只是简单地将所有个人数据连同公司数据一起进行备份。这就增加了备份和归档系统使用的存储空间。另外,还可能存在公司备份用户的个人数据的法律后果。员工可能也对其个人数据被公司备份而感到不舒服。此外,当员工从公司离职时,员工就失去了对已由公司归档或备份的其个人数据的访问权限。最后,试图执行对公司资源上的其个人数据的个人备份的员工可能无意中将敏感的公司数据复制到员工的个人备份中。

【发明内容】

[0004]在一个实施例中,计算装置对多个数据项分类,其中满足一个或多个第一标准的数据项被分类为公司数据项,满足一个或多个第二标准的数据项被分类为个人数据项。计算装置将所述多个公司数据项提供给第一备份系统,由该系统将公司数据项存储到公司数据存储器。计算装置将所述多个个人数据项提供给第二备份系统,由该系统将个人数据项存储到个人数据存储器。
[0005]在一个实施例中,对数据项分类包括:为数据项分配评定等级,该评定等级指示数据项为公司数据项的可能性,如果评定等级在第一评定等级范围内,则将数据项提供至第一备份系统;如果评定等级在第二评定等级范围内,则将数据项提供至第二备份系统。在一个实施例中,使用数据丢失防护(DLP)系统来执行分类。对于每个数据项而言,DLP系统应用索引文档匹配、精确数据匹配、描述内容匹配或向量机学习中的至少一者来确定数据项是否包含敏感信息,其中如果数据项包含敏感信息,则将数据项分类为公司数据项。
[0006]在一个实施例中,计算装置接收第二备份系统和用于访问第二备份系统的验证凭据的用户指定。在一个实施例中,计算装置扫描公司数据存储器中先前已备份或已归档的数据。然后,计算装置从先前已备份或已归档的数据中分离出个人数据项,将个人数据项存储到个人数据存储器,并且从公司数据存储器中删除个人数据项。
[0007]在一个实施例中,计算装置包括拦截第一备份系统尝试访问所述多个数据项的文件系统过滤器驱动程序。所述文件系统过滤器驱动程序从所述多个数据项中过滤出个人数据项,使得仅公司数据项是可由第一备份系统访问的。在一个实施例中,计算装置包括拦截第二备份系统尝试访问所述多个数据项的文件系统过滤器驱动程序。所述文件系统过滤器驱动程序从所述多个数据项中过滤出公司数据项,使得仅个人数据项是可由第二备份系统访问的。
[0008]在一个实施例中,计算机可读介质包括指令,所述指令将使执行所述指令的处理器对多个数据项分类,其中将每个满足一个或多个第一标准的数据项分类为公司数据项,并将每个满足一个或多个第二标准的数据项分类为个人数据项。所述指令进一步使处理器执行第一操作以将公司数据项备份或归档到第一数据存储器上。所述指令进一步使处理器执行第二操作以将个人数据项备份或归档到不同于第一数据存储器的第二数据存储器上。
[0009]在一个实施例中,一种方法包括由计算装置对多个数据项分类,其中将每个满足一个或多个第一标准的数据项分类为公司数据项,并将每个满足一个或多个第二标准的数据项分类为个人数据项。所述方法进一步包括将所述多个公司数据项提供至将公司数据项存储到公司数据存储器的第一备份系统。所述方法进一步包括将所述多个个人数据项提供至将个人数据项存储到个人数据存储器的第二备份系统。
【专利附图】

【附图说明】
[0010]根据下文给出的详细描述并且根据本发明的各种实施例的附图将更全面地理解本发明,然而,所述详细描述和所述附图不应视为使本发明限于特定的实施例,而是仅作为解释和理解之用。
[0011]图1示出了示例性网络架构,本专利申请的实施例可在该示例性网络架构中操作。
[0012]图2是根据本发明的一个实施例的备份代理的框图。
[0013]图3是根据本发明的一个实施例的数据丢失防护系统的框图。
[0014]图4是用于将公司数据与个人数据分离以进行备份和归档的方法的一个实施例的流程图。
[0015]图5是用于将数据项分类为公司数据项或个人数据项的方法的一个实施例的流程图。
[0016]图6是用于将数据项分类为公司数据项或个人数据项的方法的另一个实施例的流程图。
[0017]图7是用于过滤出数据项以执行备份和归档任务的方法的一个实施例的流程图。
[0018]图8是可执行本文所述操作中的一者或多者的示例性计算机系统的框图。
【具体实施方式】
[0019]本发明描述了用于执行对混合的公司和个人数据的备份和归档的自动、基于策略的控制的方法和设备。备份数据的进程创建数据的第二副本。归档数据的进程将数据从特定位置(例如,电子邮件服务器)移动到次级位置。所述方法和设备提供了用于将员工的个人数据(例如,消息、文件、联系人等)与公司数据(例如,消息、文件、联系人等)分离以及将公司数据存储在公司数据存储器上并且将个人数据存储在员工的个人数据存储器上的机制。
[0020]结合备份系统或备份客户端描述了本发明的一些实施例。应当理解,如本文所使用,备份系统和备份客户端既可以执行备份操作也可以执行归档操作。另外,应当理解,关于执行备份所描述的任何实施例可以同样应用于执行归档,并且结合执行归档所描述的任何实施例可以应用于执行备份。
[0021]在以下描述中,阐述了许多细节。然而,显而易见的是,对于本领域的技术人员而言,可以在没有这些具体细节的情况下实施本发明。在一些情况下,为了避免使本发明不清楚,以框图形式(而不是详细地)示出了公知的结构和装置。
[0022]下面详细描述的一些部分以对计算机内存中的数据位操作的算法和符号表示的方式来呈现。这些算法描述和表示是由数据处理领域的那些技术人员用于将其工作的本质(substance)最有效地传达给本领域的其他技术人员的手段。算法在此通常被构思成达到所需结果的步骤的有条理的序列。步骤是指需要物理量的物理操纵的那些步骤。通常(但不是必须的),这些量采用能够被存储、传输、组合、比较以及以其他方式操纵的电信号或磁信号的形式。已经证明,有时主要出于常见用法的原因,将这些信号称为位、值、元素、符号、字符、项、数等是方便的。
[0023]然而,应该牢记,这些和类似术语中的全部都将与适当的物理量相关,并且仅仅是应用于这些量的方便标记。除非另有具体说明,否则根据以下讨论显而易见的是,应当理解,在全部描述中,使用诸如“分类”、“应用”、“提供”、“接收”、“分离”、“存储”等术语的讨论是指计算机系统或类似电子计算装置的动作和过程,所述动作和过程将表示为计算机系统的寄存器和内存内的物理(例如,电子)量的数据操纵和转换为类似地表示为计算机系统内存或寄存器或其他此类信息存储装置内的物理量的其他数据。
[0024]本发明还涉及用于执行本文中操作的设备。该设备可出于所需目的而专门构造,或者其可包括由存储在计算机中的计算机程序选择性地启动或重新配置的通用计算机。此类计算机程序可以存储在计算机可读存储介质中,诸如但不限于包括软盘、光盘、⑶-ROM和磁光盘在内的任何类型的磁盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPR0M、磁卡或光卡,或适合用于存储电子指令的任何类型的介质。
[0025]本文呈现的算法和展示并不是固有地与任何特定计算机或其他设备有关。各种通用系统可以与按照本文中教导的程序一起使用,或者构造更专用的设备来执行所需的方法步骤可证明是便利的。各种这样的这些系统所需的结构将根据以下描述显现。另外,并未结合任何具体的编程语言来描述本发明。应当理解,可以使用各种编程语言来实施如本文所述的本发明的教导。
[0026]本发明的实施例从混合数据项集合中自动识别公司数据项和个人数据项。然后可以将公司数据项提供至公司备份系统,而个人数据项可提供至用户指定的个人备份系统。这可减少由公司系统出于备份或归档目的而使用的磁盘存储器的量。另外,这允许公司员工管理其个人数据的备份。公司员工可以选择数据服务以用于其个人备份系统,并且可以在其从公司离职后访问该数据。另外,公司员工只需通过更改与其个人备份系统相关的密码即可防止在其从公司离职后公司访问其个人备份。因此,本发明的实施例提供了用于公司和其员工两者的优于传统备份和归档技术的优点。
[0027]图1示出了示例性网络架构100,本专利申请的实施例可在该示例性网络架构中操作。网络架构100可以包括连接在一起并且通过网络120连接到企业服务器124的端点110。网络120可以是公共网络(例如,互联网)、私有网络(例如,局域网(LAN)或广域网(WAN)),或者公共网络和私有网络的组合。网络120可以是企业(例如,公司)的网络,并且还可以包括诸如网络打印机、交换机、路由器、网关、防火墙的装置或具有网络地址的任何其他装置。在一个实施例中,网络架构100进一步包括连接到网络120的基于网络的数据丢失防护(DLP)系统140、公司备份系统130和一个或多个个人备份系统118。注意,术语“总公司”和“公司”分别指业务实体或企业以及由业务实体或企业控制或与业务实体或企业相关的组成机构。
[0028]端点110可以是连接到网络120的膝上型计算机、台式计算机、移动电话、个人数字助理(PDA)、笔记本计算机、平板型电脑或其他端点计算装置。或者,端点110可以是虚拟机。端点110包括访问数据项132、操作数据项132以及生成数据项132的应用程序155。应用程序的例子包括电子邮件应用程序(例如,Microsoft Outlook、Mozilla Thunderbird、Apple Mail等)、文字处理器(例如,Microsoft Word、0pen Office等)、电子表格应用程序(例如,Excel)、即时消息传递应用程序(例如,Yahoo Instant Messenger、Windows LiveMessengerUCQ等),等等。数据项132的例子包括电子邮件消息、电子表格文件、文字处理器文件、演示文稿文件、图像、虚拟名片(或其他电子联系人信息)等等。
[0029]在一个实施例中,端点110包括一个或多个备份客户端116。备份客户端116可以促进和/或执行将数据项132备份和归档到公司备份系统130和/或个人备份系统118。在一个实施例中,端点110包括用于将数据备份(或将数据归档)到个人备份系统的个人备份客户端,以及用于将数据备份(或将数据归档)到公司备份系统130的公司备份客户端。或者,端点110可以包括能将数据项132备份到个人备份系统118和公司备份系统130两者的单个备份客户端。
[0030]在一个实施例中,个人备份系统118为在线备份服务。个人备份系统118从在端点110或服务器124上执行的备份客户端116处接收数据项,并将数据项132存储在数据存储器142中。个人备份客户端116的例子包括由
Carbonite \ BackbIaze \ SOS \ Dropbox'Jungle Diskκ 和(^瓜8丨1卩丨&1'1?提供的备
份客户端,所述备份客户端中的每一者将数据备份到特定的个人备份系统118(例如,备份到Carbonite的数据中心、备份到Backblaze的数据中心等)。端点110的用户(例如,公司员工)可以选择他或她喜欢的特定个人备份系统,并且安装由该个人备份系统118的服务提供商提供的备份客户端116。或者,备份客户端可以不由个人备份系统118的服务提供商提供。而是用户可以在备份客户端116中指定个人备份系统118。备份客户端116可以包括所支持的个人备份系统的列表。或者,用户可以输入个人备份系统的位置(例如,互联网协议(IP)地址和/或端口号)。备份客户端116然后可以自动地将数据项132备份到个人备份系统118。不同端点110的用户可以使用不同的个人备份系统118。
[0031]公司备份系统130可以是在线备份服务。在一个实施例中,公司备份系统130
是例如由 Barracuda Networks.";、IronMountain?、CoreVault\ Rackspace\
Amazon Simple Storage Service (S3)?等提供的企业级在线备份系统。或者,公司备份系统130可以是公司管理的备份系统,该备份系统将数据项备份到由数据正被保护的公司所控制的数据存储器145。此类公司备份系统130的例子包括Symantec^Backup Exec'\ Symantec NetBackup \ EMC Networker \ IBM TivoliStorage Manager!i 等等。
[0032]公司备份系统130可以包括被配置为执行指定任务的一个或多个计算装置,例如,台式计算机、膝上型计算机、服务器计算机等。公司备份系统130可以包括一个或多个处理装置、内存、数据存储器等。另外,公司备份系统130可以是单个机器或可以是布置在一个集群中的多个机器。不同的公司备份系统130可以使用备份客户端116、安装在服务器计算机上的备份服务器软件、网络设备等等的各种组合。
[0033]在一个实施例中,备份客户端116独立于任何远程备份系统而执行备份。在此种实施例中,备份客户端116可以在不与个人备份系统118或公司备份系统130进行通信的情况下将数据备份或归档到本地驱动器(例如,联接至端点110的外部硬盘驱动器)或网络驱动器(例如,存储区域网络(SAN)或网络附加存储器(NAS))。在另一个实施例中,在不使用备份客户端的情况下执行备份。例如,公司备份系统130可以在不使用备份客户端116的情况下访问端点110上的数据项132。
[0034]企业服务器124为网络120上的端点110提供服务。企业服务器124的例子包括提供网络存储的存储服务器、处理传入和传出电子邮件通信的电子邮件服务器、网络服务器等等。企业服务器124可以包括被配置为执行指定任务的一个或多个计算装置,例如,台式计算机、膝上型计算机、服务器计算机等。服务器124可以包括一个或多个处理装置、内存、数据存储器等。另外,服务器124可以是单个机器或可以是布置在一个群集中的多个机器。服务器124可以包括将要备份或归档的数据项132。在一个实施例中,服务器124包括促进或执行备份的备份客户端116。或者,可以在不使用备份客户端116的情况下执行备份。
[0035]由服务器124存储的数据项132和由端点110存储的数据项可以包括个人数据项和公司数据项的混合。个人数据项可以包括个人电子邮件消息、个人文字处理器文件(例如,简历、食谱、信件)、个人图像文件(例如,个人照片)、个人联系人等等。公司数据项可以包括公司(例如,工作相关的)电子邮件、工作相关的电子表格、工作相关的文字处理器文件、演示文稿等等。此外,数据项132可以包括多个不同个体的个人数据项。
[0036]在一个实施例中,端点110和/或服务器124包括备份过滤器170。备份过滤器116分析数据项以确定数据项是否类似于个人数据项或公司数据项。备份过滤器170然后将各个数据项分类为个人数据项或公司数据项。此外,备份过滤器170可以将个人数据项归类为属于具体个体的个人数据项。例如,备份过滤器116可以将来自特定员工的邮箱的个人电子邮件识别为属于该员工的个人数据项。
[0037]备份过滤器170将公司数据项138提供给公司备份客户端和/或公司备份系统130进行公司备份,将个人数据项135提供给个人备份客户端和/或个人备份系统118进行个人备份。在一个实施例中,备份过滤器170控制有哪些数据项对于不同的备份客户端和/或备份系统是可见的。例如,备份过滤器170可以阻止公司备份客户端116对个人数据项135的所有可见性和/或访问,并且可以阻止个人备份客户端对公司数据项138的所有可见性和/或访问。
[0038] 在一个实施例中,备份客户端116和备份系统130、118被指定给备份过滤器170作为个人备份客户端/系统或公司备份客户端/系统。或者,备份过滤器170可以自动指定具体的备份客户端/系统作为个人备份客户端/系统或公司备份客户端/系统。例如,Symantec Backup Exec备份系统是一种企业级备份解决方案,并且通常不会被个体用于个人备份。因此,Backup Exec可以自动地被识别为公司备份系统130。
[0039]在一个实施例中,备份过滤器170依靠数据丢失防护(DLP)系统将数据项识别为个人数据项或公司数据项。例如,如果DLP系统已经将数据项识别为包括如机密信息的敏感信息,则备份过滤器170可以将数据项归类为公司数据项。因此,在一个实施例中,端点和/或服务器124包括基于主机的DLP系统115。每个基于主机的DLP系统115均保护端点110或服务器124免于数据丢失。在一个实施例中,将公司数据项备份到个人备份系统被归类为数据丢失。基于主机的DLP系统115可以针对敏感信息扫描数据项132。在一个实施例中,当基于主机的DLP系统115在数据项中识别出敏感信息时,基于主机的DLP系统115通知备份过滤器170该数据项包含敏感信息。然后,备份过滤器170将该数据项归类为公司数据项。在另一个实施例中,基于主机的DLP系统115确定数据项是个人数据项或公司数据项,并且向备份过滤器170报告该确定。基于主机的DLP系统115还可以执行其他数据丢失防护,例如限制访问敏感数据、追踪对包含敏感信息的数据项132进行访问的程序和/或用户等等。
[0040]在一个实施例中,备份过滤器170与基于网络的DLP系统140进行通信以帮助将数据项识别为公司数据项或个人数据项。基于网络的DLP系统140保护在网络120上处于静止状态和/或传输的敏感数据。基于网络的DLP系统140可以保护存在于网络存储器上的数据和/或存在于各个端点110的存储装置上的数据。基于网络的DLP系统140还可以保护包括在电子邮件消息、即时消息中,上传至网站或将以其他方式从网络120传输出的数据。基于网络的DLP系统140在一个实施例中包括被配置为实施网络120上的DLP策略的网络设备。
[0041]图2是根据本发明的一个实施例的备份过滤器200的框图。在一个实施例中,备份过滤器200对应于图1的备份过滤器170。在一个实施例中,备份过滤器200包括文件系统过滤器驱动程序205、DLP系统交互器210、用户界面215和分类器220。在其他实施例中,这些模块的功能可以进一步划分到额外的模块中,或者多个模块的功能可以组合到单个模块中。
[0042]分类器220将数据项250分类为个人数据项或公司数据项。在一个实施例中,分类器220使用分类规则230来确定应将数据项分类为个人数据项还是公司数据项。一个示例性分类规则可以规定如果数据项包含敏感信息(例如,如由DLP确定)则将该数据项分类为公司数据项。另一个分类规则可以规定如果数据项是发至或接收自公司域内的个人的消息(例如,如果数据项是发至同事的电子邮件),则将该数据项分类为公司数据项。另一个分类规则可以规定如果数据项是发至或接收自竞争对手的公司域中或在对托管备份过滤器200的端点进行控制的公司的附属机构的公司域中的个人的消息,则将该数据项分类为公司数据项。还可使用其他分类规则。
[0043]在一个实施例中,分类器220为数据项250分配评定等级。评定等级指示数据项为公司数据项的可能性。在一个实施例中,评定等级在O至100范围内,其中100表示数据项为公司数据项的几率为100%,0表示数据项为公司数据项的几率为0% (因而数据项为个人数据项的几率为100% )。在一个实施例中,评定等级在第一评定等级范围内的数据项被归类为公司数据项,评定等级在第二评定等级范围内的数据项被归类为个人数据项。例如,在O至100的范围内,可以将0-40的评定等级归类为个人数据项,且将60-100的评定等级归类为公司数据项。在另一个例子中,可以将0-40的评定等级归类为个人数据项,且将41-100的评定等级归类为公司数据项。可以将具有介于这两个评定等级范围之间的评定等级(例如,在第一例子中具有41-59的评定等级)的数据项归类为既是公司数据项也是个人数据项。或者,可以将此类数据项归类为不可识别的数据项。
[0044]在一个实施例中,数据项的评定等级基于分类规则230来确定。例如,如果数据项包括敏感信息,则可以为其分配最高评定等级(例如,100)。如果数据项发至或来自公司域内的个人并且包括附件,则可以应用80的评定等级。如果数据项发至或来自公司域内的个人,则可以应用70的评定等级等等。分类器220可以确定数据项满足哪个分类规则,然后基于该结果来为该数据项分配评定等级。
[0045]在一个实施例中,分类器220在对数据项分类之后标记那些数据项。标记数据项可以包括将元数据添加至数据项。与数据项相关的标签将该数据项标识为个人数据项或公司数据项。还可将数据项标记为不可识别的数据项或者标记为同时为公司数据项和个人数据项。
[0046]在另一个实施例中,分类器220生成分类数据结构,该分类数据结构包含每个已分类数据项的条目。每个条目可将数据项识别为个人数据项、公司数据项或两者兼而有之。分类数据结构260可以是列表、表格、数据库、键值对的集合或者其他数据结构。
[0047]在一个实施例中,分类器220依靠DLP系统对数据项分类。在另一个实施例中,分类器220基于数据项是否包含敏感信息而将数据项分类为个人数据项或公司数据项。在此种实施例中,DLP系统指示数据项是否包括敏感信息。
[0048]在一个实施例中,分类器220定期对数据项归类。例如,分类器220可被配置为每天、每小时、每15分钟或以一些其他频率来对数据项分类。在另一个实施例中,分类器220响应于一个或多个预定事件来对数据项分类。例如,分类器220可在数据项被创建和/或修改时对其进行分类。在另一个实例中,分类器220可响应于检测到数据备份或归档操作来对数据项进行分类。
[0049]备份过滤器200可以包括与基于网络的DLP系统和/或基于主机的DLP系统交换通信的DLP系统交互器210。DLP系统交互器210可以向DLP系统发送数据项,或者可以向DLP系统发送可用于定位数据项的指针或其他标识符。DLP系统可以使用设计用于将数据项归类为公司或个人数据项的DLP策略,或者使用设计用于识别数据项是否包含敏感信息的DLP策略来处理数据项。然后,DLP系统交互器210可以接收来自DLP系统的指示数据项是公司数据项还是个人数据项或者数据项是否包含敏感信息的响应。在一个实施例中,响应指示数据项的评定等级。然后,DLP系统交互器210可以将数据项的已接收信息转发至分类器220。
[0050]在一个实施例中,备份过滤器200包括文件系统过滤器驱动程序205。作为另外一种选择和/或除此之外,备份过滤器200可包括磁盘过滤器驱动程序(未示出)。文件系统过滤器驱动程序是修改文件系统行为的驱动程序。文件系统过滤器驱动程序可过滤一个或多个文件系统和/或文件系统卷的I/O请求。文件系统过滤器驱动程序205可记录、观察、修改和/或防止文件系统的I/o操作。在一个实施例中,文件系统过滤器驱动程序205被配置为防止由公司备份客户端或系统进行的指向个人数据项的I/O操作以及防止由个人备份客户端或系统进行的指向公司数据项的I/O操作。文件系统过滤器驱动程序205可以拦截I/O请求,并确定请求方是公司备份客户端/系统还是个人备份客户端/系统。如果请求方是公司备份客户端或系统,则文件系统过滤器驱动程序205仅提供公司数据项(例如,过滤掉所有个人数据项),或者如果请求方是个人备份客户端或系统,则仅提供个人数据项(例如,过滤掉所有公司数据项)。
[0051]在一个实施例中,备份过滤器200结合现成的备份服务来操作,并且文件系统过滤器驱动程序205有选择地决定给每个备份服务提供哪些数据项250。在另一个实施例中,备份过滤器200是备份客户端的组成部分,或者可经由应用编程接口(API)被备份服务和/或备份客户端访问。
[0052]在一个实施例中,备份过滤器200包括还原模块225。如果需要将已备份(或已归档)的数据还原,则还原模块225可从公司备份系统和个人备份系统两者中提取数据以对端点或服务器实现公司和个人数据的完全还原。还原模块225可允许用户通过单个界面搜索已备份或已归档的数据。还原模块225可以提供所有已归档数据的集成视图,如同数据已经全部归档在单个数据存储器中。在一个实施例中,还原模块225识别搜索数据项的集成视图中的个人数据项和公司数据项。用户可以任选地选择只搜索、显示或操作公司数据项,或仅搜索、显示或操作个人数据项。
[0053]在一个实施例中,备份过滤器200包括用户界面215。用户界面215可以是图形用户界面、命令行用户界面或其他用户界面,使用户能够配置备份过滤器200。例如,用户可以调整分类规则和/或策略、将备份服务或客户端指定为公司的或个人的、控制备份数据的格式、调整个人数据将被备份的位置、输入验证信息(例如,用于访问具有个人备份系统的用户账户)、控制是否将个人数据项复制到公司备份系统,等等。在一个实施例中,如果备份过滤器200无法联系指定的个人备份系统,则用户可以另外调整由备份过滤器200执行的操作。例如,备份过滤器200可被配置为如果个人备份系统不可用则使公司备份系统复制个人数据项。或者,备份过滤器200可被配置为如果个人备份系统不可用则不对个人数据项采取任何措施。
[0054]在一个实施例中,备份过滤器200可用于扫描先前已备份或已归档的数据。该数据可能已备份或归档到公司备份系统。备份过滤器200可以识别包含在已备份或已归档数据中的个人数据项。然后,备份过滤器可以将已备份或已归档的个人数据项复制或移动至个人数据系统。
[0055]图3是根据本发明的一个实施例的数据丢失防护系统300的框图。DLP系统300可以是基于主机的DLP系统(例如,图1的基于主机的DLP系统115)或基于网络的DLP系统(例如,图1的基于网络的DLP系统140)。DLP系统300可以监视不同的数据丢失向量、应用程序、数据等,以检测将敏感数据和诱饵数据(bait data)移出端点装置和/或企业网络的企图。DLP系统300还可以响应备份过滤器的请求而确定数据项是否包含敏感数据。另外,DLP系统300可以响应备份过滤器的请求而将数据项分类为个人数据项或公司数据项。在一个实施例中,DLP系统300包括索引文档匹配(IDM)模块310、描述内容匹配(DCM)模块320、精确数据匹配(EDM)模块325、事件报告处理器315、向量机学习(VML)模块335和备份代理交互器330。
[0056]IDM模块310、DCM模块310、EDM模块355和VML模块335各自实施具体的数据丢失防护技术。DLP系统300实施一个或多个DLP策略340,所述一个或多个DLP策略340指示要使用哪些DLP技术。如果满足了一个或多个包含在DLP策略340中的条件,则违反了DLP策略340。条件的例子包括用户状态(例如,用户是否具有对文件的访问权限)、文件位置(例如,文件是否存储在机密数据库中)、文件内容(例如,文件是否包括敏感信息)、时间(例如,是否在正常工作时间请求操作)、数据丢失向量、试图执行操作的应用程序,等
坐寸ο
[0057]DLP策略340可以包括调用IDM模块310、DCM模块320、EDM模块325或VML模块335中的一者或多者的配置文件。每个模块均可以识别敏感数据。在一个实施例中,DLP策略340包括调用描述内容匹配(DCM)模块310的DCM配置文件。DCM配置文件定义要搜索的一个或多个关键字和/或正则表达式。例如,配置文件可以使用正则表达式来定义社会保险号。通过使用DCM配置文件,DCM模块320确定包含在所扫描的数据中的任何信息是否匹配关键字和/或正则表达式。如果发现匹配,则可以确定数据包含敏感信息。
[0058]在一个实施例中,DLP策略340包含分别调用EDM模块325和/或IDM模块310的精确数据匹配(EDM)配置文件和/或索引文档匹配(IDM)配置文件。精确数据匹配(EDM)可以用于保护通常为结构化格式的数据,例如数据库记录。索引文档匹配(IDM)可以用于保护非结构化数据,例如Microsoft1'' Word或PowerPoint'"文档或CAD绘图。对于EDM和IDM两者而言,首先将敏感数据识别到DLP系统300。然后,DLP系统300对敏感数据采集指纹,以用于精确的、持续的检测。在一个实施例中,采集指纹过程包括访问和提取文本和数据、将其归一化以及使用不可逆散列来对其进行保护。当要扫描文件或其他数据时,生成该文件或该文件内容的指纹(例如,散列),并将该指纹与已存储指纹进行对比。如果发现匹配,则将所扫描的文件识别为包含敏感数据。
[0059]在一个实施例中,DLP策略340包括调用VML模块335的向量机学习(VML)配置文件。向量机学习可以用于保护敏感的非结构化数据。对于VML而言,将包含敏感数据集以及非敏感数据集的培训数据集提供给DLP系统300。VML模块335使用向量机学习来分析培训数据集以生成归类模型和特征集,所述归类模型和特征集连同培训数据集一起添加到VML配置文件。归类模型是用于数据归类的统计模型,其包括代表边界特征的支持向量的映射。特征集是如列表或表格的数据结构,其包括从培训数据集中提取的多个特征(例如,文本)。VML模块225处理VML配置文件并输入未归类数据以将数据归类为敏感或不敏感(或将数据归类为个人数据或公司数据)。
[0060]在一个实施例中,DLP策略340包括用于将数据归类为个人数据或公司数据的DLP策略。DLP策略可以包括IDM配置文件、DCM配置文件、EDM配置文件和/或VML配置文件。另外,DLP策略可以包括另外的分类规则,如结合图2所述。在一个实施例中,DLP系统300为已处理的数据项分配分类评定等级,以指示数据项为公司数据项的可能性。
[0061]在一个实施例中,DLP策略140包括确定数据项是否包含指示个人数据项内容的DLP策略。例如,签有“爱人”或“诚挚地”的消息或者包括如“生日快乐”的特定短语的消息更有可能是个人数据项。用于检测个人数据项的DLP策略可以包括IDM配置文件、DCM配置文件、EDM配置文件和/或VML配置文件。[0062]备份过滤器交互器330接收来自备份过滤器的请求以处理一个或多个数据项。在处理数据项之后,备份过滤器交互器330将结果报告至备份过滤器。报告可以表明数据项是否包含敏感数据,或者可以将数据项识别为个人数据项或公司数据项。
[0063]图4-7是由计算装置执行的方法的一些实施例的流程图。由可包括硬件(电路、专用逻辑等)、软件(诸如在通用计算机系统或专用机上运行的软件)或两者的组合的处理逻辑来执行所述方法。在一个实施例中,由备份过滤器200来执行所述方法的至少一些操作,如图2所描述。在一个实施例中,由DLP系统300来执行所述方法的至少一些操作,如图3所描述。
[0064]图4是用于将公司数据与个人数据分离以进行备份和归档的方法400的一个实施例的流程图。在步骤405处,处理逻辑将数据项分类为公司数据项或个人数据项。通常,数据项的某个部分将被分类为个人数据项,数据项的另一部分将被分类为公司数据项。
[0065]在步骤410处,处理逻辑将公司数据项提供至公司备份系统。公司备份系统将所提供的公司数据项存储至公司数据存储器。在步骤415处,处理逻辑将个人数据项提供至个人备份系统。个人备份系统可能已经由用户指定。个人备份系统将所提供的个人数据项存储至个人数据存储器。
[0066]图5是用于将数据项分类为公司数据项或个人数据项的方法500的一个实施例的流程图。在一个实施例中,方法500由方法400的步骤405执行。在步骤505处,处理逻辑识别数据项。数据项可以是电子邮件消息、即时消息、文件、联系人(例如,MicrosoftOutlook的联系人)或某种其他数据类型。数据项可以存储在网络存储装置中(例如,由用户的雇主分派给网络存储装置的用户的存储空间中)或本地存储装置(例如,由雇主分配给用户的个人计算机的存储装置)中。对于电子邮件消息而言,数据项可以存储在消息服务器中。
[0067]在步骤510处,处理逻辑应用一个DLP策略(或多个DLP策略)以确定数据项是否包含敏感信息。所应用的DLP策略可以包括IDM配置文件、DCM配置文件、EDM配置文件和/或VML配置文件。在步骤515处,处理逻辑确定数据项是否包含敏感信息。如果数据项的确包含敏感信息,则方法继续至步骤535,并且数据项被分类为公司数据项。如果数据项不包含敏感信息,则数据项仍可能是公司数据项。因此,方法继续至步骤520。
[0068]在步骤520处,处理逻辑确定数据项是否是发至或来自公司域中的实体的消息(例如,电子邮件消息或即时消息)。例如,处理逻辑确定数据项是否在公司的两名员工之间。如果数据项是公司的员工之间的消息,则消息可能涉及公司业务。因此,如果数据项是公司的员工之间的消息,则方法继续至步骤535,并且数据项被归类为公司数据项。在一个实施例中,如果仅消息的发送人或接收人是公司域的实体,则方法继续至步骤525。
[0069]在步骤525处,处理逻辑确定数据项是否是发至或来自公司的合作伙伴或竞争对手的消息。例如,处理逻辑可以确定消息是否来自公司的供应商、客户、承包商等。如果信息发至或来自公司合作伙伴或竞争对手,则方法前进至步骤535,且消息被分类为公司数据项。否则,方法继续至步骤530。
[0070]在步骤530处,处理逻辑确定消息是否被标记为高优先级消息。处理逻辑还可以确定消息是否包括将消息标注为紧急或立即采取行动等的标头。高优先级消息可能是公司数据项。因此,如果数据项是标记了高优先级的消息,则方法继续至步骤535,并且数据项被归类为公司数据项。否则,方法继续至步骤540,在步骤540处,处理逻辑将数据项分类为个人数据项。
[0071]图6是用于将数据项分类为公司数据项或个人数据项的方法600的另一个实施例的流程图。在一个实施例中,方法600在方法400的步骤405处执行。在步骤605处,处理逻辑识别数据项。可在要归档或备份的旧电子邮件或已存储数据项的扫描期间识别数据项。
[0072]在步骤610处,处理逻辑应用一个DLP策略(或多个DLP策略)以确定数据项是
否包含敏感信息。
[0073]在步骤620处,处理逻辑确定数据项是否为消息。如果数据项是消息,则处理逻辑将消息的发送人和/或接收人归类为个人联系人或工作联系人。在步骤625处,如果数据项是消息,则处理逻辑确定数据项是否被标记为高优先级消息。
[0074]在步骤635处,处理逻辑基于步骤610-625的结果为数据项应用评定等级。所应用的评定等级可以是指示数据项为公司数据项的可能性的分类评定等级。评定等级越高,数据项为公司数据项的可能性越高。例如,如果数据项包含敏感信息(如由DLP策略所识别),则可以将近100%的准确度确定数据项应被归类为公司数据项。分配的评定等级在第一范围中的数据项可被分类为公司数据项,而分配的评定等级在第二范围中的数据项可被分类为个人数据项。分配有在第一范围与第二范围之间的中间评定等级的数据项可能无法明确地识别为公司数据项或个人数据项。因此,可以将此类数据项归类为同时为公司数据项和个人数据项。
[0075]图7是用于过滤出数据项以执行备份和归档任务的方法700的一个实施例的流程图。可由备份过滤器执行方法700来响应备份客户端或备份系统试图备份或归档数据项。在步骤705处,处理逻辑拦截备份系统(或备份客户端)访问数据项的试图。在一个实施例中,处理逻辑包括文件系统过滤器驱动程序,所述文件系统过滤器驱动程序拦截来自备份系统或备份客户端的I/O请求。文件系统过滤器驱动程序可以基于那些数据项的分类来阻拦或允许对数据项的I/O请求。例如,文件系统过滤器驱动程序可以阻拦由公司备份客户端或系统对个人数据项的所有I/O请求。
[0076]在步骤710处,处理逻辑确定哪些数据项是公司数据项以及哪些数据项是个人数据项。在步骤715处,处理逻辑确定备份系统(或备份客户端)是公司备份系统(或客户端)还是个人备份系统(或客户端)。如果备份系统是公司备份系统,则方法继续至步骤720。如果备份系统是个人备份系统,则方法前进至步骤725。
[0077]在步骤720处,处理逻辑过滤出个人数据项,使得仅公司数据项可由公司备份系统(或客户端)访问。公司备份系统可以因此在不备份任何个人数据项的情况下,备份所有的公司数据项。在步骤725处,处理逻辑过滤出公司数据项,使得仅个人数据项可由个人备份系统(或客户端)访问。个人备份系统可以因此在不备份任何公司数据项的情况下,备份所有的个人数据项。
[0078]图8示出了示例形式的计算机系统800的机器图示,在该计算机系统800内,可以执行用于使该机器执行本文所讨论的方法的任一者或多者的指令集。在可供选择的实施例中,该机器可以连接到(例如,网络连接到)LAN、内部网、外部网或互联网中的其他机器。该机器可以在客户端-服务器网络环境中以服务器或客户机的身份运行,或者在对等(或分布式)网络环境中作为对等机运行。该机器可以是个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、网络设备、服务器、网络路由器、交换机或网桥,或能够(顺序地或以其他方式)执行规定由该机器采取的动作的指令集的任何机器。此外,虽然仅示出了单个机器,但术语“机器”还应视为包括机器的任何集合,该集合独立地或联合地执行一指令集(或多个指令集)以执行本文所讨论的方法的任一者或多者。
[0079]示例性计算机系统800包括处理装置(处理器)802、主存储器804 (例如,只读存储器(ROM)、闪存、诸如同步DRAM (SDRAM)或Rambus DRAM (RDRAM)的动态随机存取存储器(DRAM)等)、静态存储器806 (例如,闪存、静态随机存取存储器(SRAM)等)以及数据存储装置818,其通过总线830彼此进行通信。
[0080]处理器802代表一个或多个通用处理装置,诸如微处理器、中央处理单元等等。更具体地讲,处理器802可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器,或实施其他指令集的处理器或实施指令集的组合的多个处理器。处理器802还可以是一个或多个专用处理装置,诸如专用集成电路(ASIC)JI场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器等等。处理器802被配置为执行指令826以执行本文所讨论的操作和步骤。
[0081 ] 计算机系统800可以进一步包括网络接口装置822。计算机系统800还可以包括视频显示单元810 (例如,液晶显示器(LCD)或阴极射线管(CRT))、字母数字输入装置812 (例如,键盘)、光标控制装置814 (例如,鼠标)以及信号生成装置820 (例如,扬声器)。
[0082]数据存储装置818可以包括计算机可读存储介质824,在计算机可读存储介质824上存储有体现本文所讨论的方法或功能的任一者或多者的指令826 (例如,软件)的一个或多个集合。在计算机系统800执行指令826期间,指令826还可以完全或至少部分地驻留在主存储器804内和/或处理器802内,主存储器804和处理器802还构成计算机可读存储介质。指令826可以进一步经由网络接口装置822通过网络874来传输或接收。
[0083]在一个实施例中,指令826包括用于如图2的备份过滤器880的备份过滤器880的指令,和/或包含调用备份过滤器880的方法的软件库。虽然计算机可读存储介质824在示例性实施例中显示为单个介质,但术语“计算机可读存储介质”应视为包括存储了一个或多个指令集的单个介质或多个介质(例如,集中式或分布式数据库和/或相关缓存和服务器)。术语“计算机可读存储介质”还应视为包括能够存储、编码或携带用于由机器执行且使机器执行本发明的方法的任一者或多者的指令集的任何介质。术语“计算机可读存储介质”应因此视为包括但不限于固态存储器、光学介质以及磁介质。
[0084]应当理解,上述描述旨在示例性描述,而非限制性描述。在阅读并理解上述描述后,许多其他实施例对于本领域的技术人员而言将是显而易见的。因此,应在参考随附权利要求的情况下,并连同此类权利要求有权获得的等效物的全面范围一起,来确定本发明的范围。
[0085]虽然计算机可读存储介质可以是单个介质,但术语“计算机可读存储介质”应视为包括存储了一个或多个指令集的单个介质或多个介质(例如,集中式或分布式数据库和/或相关缓存和服务器)。术语“计算机可读存储介质”还应视为包括能够存储、编码或携带用于由机器执行且使机器执行本发明的方法的任一者或多者的指令集的任何介质。术语“计算机可读存储介质”应因此视为包括但不限于固态存储器、光学介质以及磁介质。[0086]应当理解,上述描述旨在示例性描述,而非限制性描述。在阅读并理解上述描述后,许多其他实施例对于本领域的技术人员而言将是显而易见的。
【权利要求】
1.一种方法,所述方法包括: 由计算装置对多个数据项分类,将其中每个满足一个或多个第一标准的数据项分类为公司数据项,并将每个满足一个或多个第二标准的数据项分类为个人数据项; 将所述多个公司数据项提供至将所述公司数据项存储到公司数据存储器的第一备份系统;以及 将所述多个个人数据项提供至将所述个人数据项存储到个人数据存储器的第二备份系统。
2.根据权利要求 1所述的方法,其中使用数据丢失防护(DLP)系统来执行所述分类,所述方法还包括: 对于每个数据项而言,由所述DLP系统应用索引文档匹配、精确数据匹配、描述内容匹配或向量机学习中的至少一者以确定所述数据项是否包含敏感信息,其中如果所述数据项包含敏感信息,则将所述数据项分类为公司数据项。
3.根据权利要求1所述的方法,还包括: 接收所述第二备份系统和用于访问所述第二备份系统的验证凭据的用户指定。
4.根据权利要求1所述的方法,还包括: 扫描所述公司数据存储器中先前已备份或已归档的数据; 从所述先前已备份或已归档的数据中分离出个人数据项; 将所述个人数据项存储至所述个人数据存储器;以及 从所述公司数据存储器中删除所述个人数据项。
5.根据权利要求1所述的方法,还包括: 由文件系统过滤器驱动程序拦截所述第一备份系统访问所述多个数据项的试图;以及从所述多个数据项中过滤出所述个人数据项,使得仅所述公司数据项可由所述第一备份系统访问。
6.根据权利要求1所述的方法,还包括: 由文件系统过滤器驱动程序拦截所述第二备份系统访问所述多个数据项的试图;以及从所述多个数据项中过滤出所述公司数据项,使得仅所述个人数据项可由所述第二备份系统访问。
7.根据权利要求1所述的方法,其中对数据项分类包括: 为所述数据项分配指示所述数据项为公司数据项的可能性的评定等级; 如果所述评定等级在第一评定等级范围内,则将所述数据项提供至所述第一备份系统;以及 如果所述评定等级在第二评定等级范围内,则将所述数据项提供至所述第二备份系统。
8.一种计算机可读存储介质,所述计算机可读存储介质包括指令,当由处理装置执行时,所述指令使所述处理装置执行一方法,所述方法包括: 由所述处理装置对多个数据项分类,将其中每个满足一个或多个第一标准的数据项分类为公司数据项,且将每个满足一个或多个第二标准的数据项分类为个人数据项; 执行第一操作以将所述公司数据项备份或归档到第一数据存储器上;以及 执行第二操作以将所述个人数据项备份或归档到不同于所述第一数据存储器的第二数据存储器上。
9.根据权利要求8所述的计算机可读存储介质,其中使用数据丢失防护(DLP)系统来执行所述分类,所述方法还包括: 对于每个数据项而言,由所述DLP系统应用索引文档匹配、精确数据匹配、描述内容匹配或向量机学习中的至少一者以确定所述数据项是否包含敏感信息,其中如果所述数据项包含敏感信息,则将所述数据项分类为公司数据项。
10.根据权利要求8所述的计算机可读存储介质,所述方法还包括: 接收所述第二数据存储器和用于访问所述第二数据存储器的验证凭据的用户指定。
11.根据权利要求8所述的计算机可读存储介质,所述方法还包括: 扫描所述第一数据存储器中先前已备份或已归档的数据; 从所述先前已备份或已归档的数据中分离出个人数据项; 将所述个人数据项存储至所述第二数据存储器;以及 从所述第一数据存储器中删除所述个人数据项。
12.根据权利要求8所述的计算机可读存储介质,所述方法还包括: 使用文件系统过滤器驱动程序来拦截将数据备份到所述第一数据存储器的备份系统访问所述多个数据项的试图;以及 从所述多个数据项中过滤出所述个人数据项,使得仅所述公司数据项可由所述备份系统访问。
13.根据权利要求8所述的计算机可读存储介质,所述方法还包括: 使用文件系统过滤器驱动程序来拦截将数据备份到所述第二数据存储器的备份系统访问所述多个数据项的试图;以及 从所述多个数据项中过滤出所述公司数据项,使得仅所述个人数据项可由所述备份系统访问。
14.根据权利要求8所述的计算机可读存储介质,其中对数据项分类包括: 为所述数据项分配指示所述数据项为公司数据项的可能性的评定等级; 如果所述评定等级在第一评定等级范围内,则将所述数据项提供至所述第一数据存储器;以及 如果所述评定等级在第二评定等级范围内,则将所述数据项提供至所述第二数据存储器。
15.一种设备,所述设备包括: 存储器,所述存储器用于存储备份过滤器用指令;以及 处理装置,所述处理装置联接至所述存储器以执行所述指令,其中所述处理装置被所述指令配置为: 对多个数据项分类,将其中每个满足一个或多个第一标准的数据项分类为公司数据项,并将每个满足一个或多个第二标准的数据项分类为个人数据项; 将所述多个公司数据项提供至将所述公司数据项存储到公司数据存储器的第一备份系统;以及 将所述多个个人数据项提供至将所述个人数据项存储到个人数据存储器的第二备份系统。
16.根据权利要求15所述的设备,其中使用数据丢失防护(DLP)系统来执行所述分类,其中所述指令进一步使所述处理装置: 对于每个数据项而言,由所述DLP系统应用索引文档匹配、精确数据匹配、描述内容匹配或向量机学习中的至少一者以确定所述数据项是否包含敏感信息,其中如果所述数据项包含敏感信息,则将所述数据项分类为公司数据项。
17.根据权利要求15所述的设备,其中所述指令进一步使所述处理装置: 扫描所述公司数据存储器中先前已备份或已归档的数据; 从所述先前已备份或已归档的数据中分离出个人数据项; 将所述个人数据项存储至所述个人数据存储器;以及 从所述公司数据存储器中删除所述个人数据项。
18.根据权利要求15所述的设备,其中所述指令进一步使所述处理装置: 使用文件系统过滤器驱动程序来拦截所述第一备份系统访问所述多个数据项的试图;以及 从所述多个数据项中过滤出所述个人数据项,使得仅所述公司数据项可由所述第一备份系统访问。
19.根据权利要求15所述的设备,其中所述指令进一步使所述处理装置: 使用文件系统过滤器驱动程序来拦截所述第二备份系统访问所述多个数据项的试图;以及 从所述多个数据项中过滤出所述公司数据项,使得仅所述个人数据项可由所述第二备份系统访问。
20.根据权利要求15所述的设备,其中对数据项分类包括: 为所述数据项分配指示所述数据项为公司数据项的可能性的评定等级; 如果所述评定等级在第一评定等级范围内,则将所述数据项提供至所述第一备份系统;以及 如果所述评定等级在第二评定等级范围内,则将所述数据项提供至所述第二备份系统。
【文档编号】G06F7/00GK103930864SQ201280051759
【公开日】2014年7月16日 申请日期:2012年9月5日 优先权日:2011年9月7日
【发明者】D·E·吉布森, K·纽斯塔特 申请人:赛门铁克公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1