文件共享网络中的片段匹配的制作方法

文档序号:8460747阅读:283来源:国知局
文件共享网络中的片段匹配的制作方法
【专利说明】文件共享网络中的片段匹配
[0001]相关申请的交叉引用
本申请要求于2012年9月7日提交的序列号为N0.61/697,916的美国临时专利申请的优先权和权益。
技术领域
[0002]本申请涉及确定某些信息是否在计算机网络中共享。
【背景技术】
[0003]文件共享是分配或提供对诸如计算机程序、多媒体(音频、图像和视频)、文档或电子书的数字存储的信息的访问的实践。共享机制可以包括:集中式服务器、以万维网为基础的超链接文档,或文件共享网络的使用。可以使用各种方式来实现共享网络,诸如使用对等技术、比特洪流技术、文件托管服务等等。
[0004]文件共享继续位列最流行的因特网应用之一。从数千或数百万用户汇集资源的能力使得文件共享对于许多应用来说非常有吸引力。然而,这样的便利性和对信息的快速可访问性并非没有其风险。具体而言,不小心或无意地共享私人文件的用户可能发现个人和其它敏感信息被世界各地的其它用户迅速下载。
[0005]大多数企业收集并存储关于他们的员工和客户的敏感信息,诸如社会安全号码、信用卡和账户信息、医疗和其它个人数据。他们中的许多有保护该信息以免意外公开的法律义务。如果这样的信息落入不法分子手中,它可能导致欺诈和身份盗用。使用P2P文件共享软件的人可能最终会无意地共享文件。他们可能会不小心选择共享包含敏感信息的驱动器和文件夹,或者他们可能错误地把私人文件保存到共享驱动器或文件夹,从而使私人文件对于他人为可用。此外,病毒和其它恶意软件可以改变对设计用于共享的驱动器和文件夹的访问,从而也把私人文件置于危险之中。结果,取代如意图的那样简单地共享他们的音乐文件的是,诸如纳税记录、私人医疗记录、工作文档等等的其它敏感信息最终被经由文件共享网络上的一般流通而可获得。
[0006]对于企业以及终端用户来说该风险非常高。例如,美国联邦贸易委员会(FTC)最近宣布了针对通过允许在对等(P2P)网络上共享他们的客户的敏感个人信息而非法暴露了其的多家公司的和解。这些执法行动指出了数据隐私和安全政策的不足或缺乏造成的严重影响。
[0007]存在用于雇佣的可以在组织中定位敏感数据并确定可以经由文件共享网络来获得什么种类的对其访问的审计服务。在政府和军事终端用途中,可以使用用于对数据的敏感性(诸如“秘密”、“绝密”等)进行分类的深度标准。这些分类详细规定了谁可以访问该信息,以及应该实施什么级别的安全保证以防止无意的公开。
[0008]当企图在文件共享网络上对包括敏感信息的私人文件进行定位时,会出现若干问题。信息的所有者或保管人想要知道他们的文件是否正在被共享,并且甚至还想知道文件片段是否正在被共享。例如,即使少量的信用卡号被暴露,一长串信用卡号也可能会受到损害。此外,可以对敏感信息进行重新排列或与其它信息组合以使其模糊。另外,敏感内容可以在多个文件之间进行分割。除了私人文件可以包含机密或其它高度敏感的信息之外,信息的保管人还希望能够利用商业服务本身来定位信息,但不要将其完全公开。

【发明内容】

[0009]本公开内容提供了将私人文件与经由公共网络(诸如web服务器、P2P网络、比特洪流等)可获得的文件进行匹配以确定私人文件的信息内容是否已经被泄漏。工具集合对从私人文件获得的信息或关于私人文件的信息的段进行操作,其提供了包括下列各项的多个优点:更大的处理吞吐量、处理不同类型内容的能力、以及在不公开信息本身的情况下搜索机密信息的能力。
[0010]在特定实施例中,提供了用于将私人文件的段与文件共享网络上可获得的公共文件进行匹配的技术。例如,过程至少利用例如切段器工具、匹配器工具和后匹配工具。
[0011]切段器工具将文件的内容提取成字的流,并将该流切分成被称为片段的具有可配置大小的卷动组块。例如,给定50个字的流中大小为25的片段,切段器工具将50个字的流切分成26个片段,每个片段的长度为25个字。然后针对每个片段计算散列。
[0012]匹配器工具加载针对所有私人文件的所生成的所有片段计算出的所有散列。针对位于文件共享网络上的每个公共文件,然后使用与上述相同的片段处理来生成片段和散列的集合。为了执行匹配,将公共文件的所产生的散列与私人散列的图进行比较。然后,将匹配过程的结果(诸如匹配文件的列表)持久保存到例如数据库。
[0013]后匹配工具检查所产生的所有匹配文件,并将连续匹配片段聚合成匹配字的邻接块。然后,将结果持久保存到例如数据库。然后可以经由匹配评估用户接口(例如可以呈现给人类分析师)来检查邻接匹配块,以获得关于文件之间的特定匹配的更多细节。
[0014]在特定实施例中,用户接口可以允许人类分析师针对位于一个或多个文件共享网络上的公共文件的目录启动匹配/片段过程。匹配器针对公共文件执行相同的片段过程,并且然后将来自该结果的概要信息持久保存到数据库。
[0015]片段匹配评估用户接口还可以允许分析师检查两个文件之间的匹配。例如,用户接口可以使用在左边示出的私人信息和在右边示出的公共信息来呈现匹配的并排视图。可以在滚动列表中显示匹配文件的列表。当用户选择私人文件和公共文件时,匹配视图可以呈现例如所找到的匹配百分比的概要。可以使用诸如红、绿和黄的颜色或者没有这些颜色来指示匹配度。
[0016]匹配过程还可以检查所有的匹配片段,并确定匹配文件之间的连续匹配区段的块。诸如可以在屏幕的一部分上的滚动列表中呈现每个块的预览。可以对块进行排序,诸如,例如,找到的具有最高数量文件的匹配块被排序在第一。
[0017]可以向实现提供进一步的修饰。例如,如果私人文件包含高度敏感信息,那么该私人文件的所有者可能不希望向外部服务提供商提供该私人文件的完整复制。所有者可以代之以只提供他们寻求定位的该私人文件的段,或者甚至可以只向工具提供散列信息。
[0018]片段大小可由分析师确定或者经由启发法确定。例如,分析师可应用其它启发法来专注于哪些信息是最重要的,通过自动或手动过程。
【附图说明】
[0019]下面的发明描述参照附图。
[0020]图1是确定私人信息是否被泄漏给了公共网络的系统的高级架构。
[0021]图2更加详细地示出了扫描器组件。
[0022]图3是示例公共/私人扫描表。
[0023]图4示出了假脱机器(spoo I er )组件。
[0024]图5是示例假脱机器批表。
[0025]图6示出了切段器组件。
[0026]图7是示例切段器批表。
[0027]图8示出了用于对文件进行“切段”的提取过程。
[0028]图9示出了匹配器组件。
[0029]图10是所存储的关于匹配文件的示例概要信息。
[0030]图11是总文件匹配报告。
[0031]图12是文件匹配报告。
[0032]图13是分类工具。
[0033]图14是并排匹配评估工具。
[0034]图15是匹配块评估工具。
【具体实施方式】
[0035]概述
本系统提供了用于将包含敏感信息的私人文件与从公共网络下载的文件进行匹配的数据处理工具的集合。这些工具确定私人文件的内容中的全部或部分是否已经被泄漏给公共网络。该工具的集合通常至少包括切段器、匹配器和后匹配(PostMatch)元件。
[0036]切段器
切段器工具将文件的内容提取成字的流,并将该流切分成具有可配置大小的卷动块(即,“片段”)。例如,给定50个字的流以及大小为25的片段,切段器将把50个字切分成长度为25个字的26个片段[长度:]
片段I 字1-25 片段2 字2-26
片段26 字26-50
针对每个片段计算散列,以便促进片段随后的匹配。
[0037]匹配器
匹配器工具将针对所有私人文件的所生成的所有片段计算出的所有散列加载到基于存储器的图中。针对每
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1