有效检测采指纹数据和信息的系统和方法

文档序号:7912618阅读:138来源:国知局
专利名称:有效检测采指纹数据和信息的系统和方法
技术领域
本发明的领域涉及用于有效并准确地检测指纹信息的系统和方法。相关技术的描述在许多情况下,组织和企业创造并积累的信息和知识是他们最宝贵的财富。未经授权地传播知识产权、财务信息以及其他机密或敏感信息会明显破坏公司的声誉和竞争优势。此外,组织内的个人隐私信息,以及客户、消费者和商业伙伴的隐私信息可能包括被具有不良意图的使用者滥用的敏感细节。除商业秘密和声誉外,美国国内和国外的法规都为信息泄漏订立了基本的法律责任。例如健康保险流通与责任法案(HIPAA)、金融服务现代化法案(GLBA)以及各州和各国的隐私保护法律的法规都意味着组织内的信息资产应该受到监控并服从隐私保护政策,以便保护客户的隐私并降低潜在滥用和造假的风险。文件可以被分成片段。然后这些片段的散列(hash)的子集可以被用作文档的“指纹”。可以以两种方式之一将文件分为片段1)分割和幻分句。“分割”包括将文件分成被称为η元语法(n-gram)的η项的子序列。由这些η元语法覆盖的分割可重叠(称为“叠盖”情況)。可以通过在文本上应用“滑动窗ロ”来生成η元语法。每个“窗ロ”都包括给定数量的字符或单词,并且通过每个“窗ロ”的内容计算散列值。“分句”包括使用例如逗号、分号或句界的分隔符将内容分成短语。从每个短语的内容中计算散列值。随后,散列的集合被后期选择,或“稀释”,以便通过选择可被某一整数 P整除的散列值来减少存储并提高性能。例如,若P = 5,则平均将选出五分之一的散列。为了评估两个文本(即,文档)之间的相似水平,首先通过将文档改为检测系统所使用的标准格式来使每个文本规范化(例如,通过将文本内容转换为小写统ー码字母、去除类似“这个(the)”、“是(is)”以及其他“噪声”等的常用词(也称为“停用词 (stopword)")) ο此外,可以执行“取词干”,其包括将屈折的(或有时衍生的)词减少为其词干、词基或词根形式。相似性度量被用于对两个规范化文本的指纹进行比较。ー种相似性度量是杰卡德 (Jaccard)相似性度量,其中将文档A与B之间的相似性定义为
这里通过两个文档的共有指纹的散列数量来定义交集|Α η Β|。但是,申请人认识到至少由于指纹的尺寸与采指纹的内容的尺寸成比例的原因,所以以便于稳健辨识的方式对大量内容采指纹需要分配相当多的存储资源。通常难以在现有的随机访问内存(RAM)中维持较大的库。检测过程也需要对磁盘存储进行昂贵的接入。 这些存储器需求妨碍了性能,并且当例如膝上型电脑和台式电脑的端点采用基于指纹检测时这个问题尤其明显。本实施方式设想了一种用于有效检测采指纹信息的新方法和系统,由此克服了上述当前方法的缺陷和低效。

发明内容
本发明的系统、方法和设备均具有多个方面,任何一个方面都不能单独地负责其所需的属性。在不限制本发明范围的情况下,现将简要论述本发明的更明显的特征。在考虑此论述之后,尤其是在阅读标题为“具体实施方式
”的部分后,人们将理解本发明的特征如何提供优于其它显示设备的优势。某些实施方式设想了一种用于使电子内容的指纹紧凑的系统,其包括紧凑表示模块,所述紧凑表示模块具有处理器,所述处理器被配置成使所述电子内容中的内容散列,以创建所述内容的电子指纹。所述紧凑表示模块的所述处理器可被配置成对所述电子内容执行多次散列并生成所述电子内容的多个指纹。在一些实施方式中,该系统可进一步包括紧凑库,所述紧凑库用于存储所述电子内容的所述指纹。在某些实施方式中,该系统包括分析模块,所述分析模块具有处理器,并且所述分析模块被配置成使新内容散列并生成所述新内容的指纹。在一些实施方式中,该系统可包括匹配估计件,所述匹配估计件用于将所述紧凑库中存储的指纹与所述新内容的指纹进行比较,并且基于存在于所述紧凑库中的匹配的概率来确定指纹是否匹配。在一些实施方式中,该系统包括决定模块,所述决定模块被配置成基于所述新内容的指纹与所述紧凑库中存储的指纹之间存在的匹配的概率来在所述新内容上应用传输策略。一些实施方式包括一种用于在电子网络中存储的电子内容上应用传输策略的系统,所述系统包括扫描引擎,具有处理器,并且所述扫描引擎被配置为识别所述电子内容; 采指纹模块,与所述扫描引擎进行电子通信,所述采指纹模块被配置成使所述电子内容散列,以便生成由所述扫描引擎识别的所述电子内容的紧凑指纹;以及至少一个紧凑指纹库, 与所述采指纹模块进行电子通信,所述至少一个紧凑指纹库被配置成存储由所述采指纹模块生成的指纹。该系统还可包括内容处理器,与所述电子网络进行电子通信,所述内容处理器被配置成使所述电子网络中的新电子内容散列;以及匹配估计件,与所述指纹库和所述内容处理器进行电子通信。在一些实施方式中,所述匹配估计件可被配置成确定所述新电子内容的指纹与所述指纹库中存储的指纹之间的概率性匹配;该系统还包括决定模块,与所述匹配估计件和所述电子网络进行电子通信,所述决定模块被配置成基于来自所述匹配估计件的输出对所述新电子内容应用所述传输策略。在一些实施方式中,该系统还可包括指纹库,所述指纹库与所述采指纹模块进行电子通信,所述采指纹模块被配置为生成所述电子内容的散列并将所述电子内容的散列存储于所述指纹库中。在一些实施方式中,所述匹配估计件可被配置成基于被匹配的散列之间的距离来确定匹配。
某些实施方式设想了一种在电子网络中传输电子内容的方法,所述方法包括以下步骤利用扫描引擎识别所述电子网络上的电子内容;利用至少ー个散列对所述电子内容进行采指紋,以生成所述电子内容的紧凑指纹;将至少ー个所述紧凑指纹存储在紧凑指纹库中;利用至少ー个散列对新电子内容进行采指紋,所述新电子内容将在所述电子网络上传输;将所述新电子内容的指纹与所述紧凑指纹库里存储的指纹进行比较;以及响应于所述指纹的比较确定在所述电子网络上是否传输所述新电子内容。在某些实施方式中,该方法进ー步包括响应于确定是否应传输所述新电子内容, 对所述新电子内容应用传输策略的步骤。确定是否应传输所述新电子内容的步骤可包括确定所述紧凑指纹库中存储的指纹与所述新电子内容的指纹之间的匹配。确定匹配的步骤可包括确定所述指纹的匹配之间的距离。某些实施方式设想了一种用于使电子内容的指纹紧凑的系统,所述系统包括一个或多个处理器,其中所述ー个或多个处理器中的至少ー个处理器被配置成接收第一电子指纹中的至少一部分;并且所述ー个或多个处理器中的至少ー个处理器被配置成对阵列中的一个或多个地址进行标记,所述ー个或多个地址与所述第一电子指纹中的至少一部分关联。在一些实施方式中,散列函数确定所述地址与所述第一指纹的至少一部分的关联。在某些实施方式中,所述散列函数被配置成使得至少ー个所述地址与两个或更多个所述指纹关联。该系统可进ー步包括紧凑库,所述紧凑库包括地址阵列,与第二电子内容的第 ニ指纹关联的所述地址将被标记。在一些实施方式中,具有与所述电子内容的所述第一指纹关联的地址的所述阵列被存储于所述紧凑库中。在一些实施方式中,与所述第一指纹关联的所述地址的阵列和与所述第二指纹关联的所述地址的阵列中均没有既与所述第一指纹又与所述第二指纹关联的地址。在某些实施方式中,所述ー个或多个处理器中的至少ー个处理器被配置成将与所述第一指纹关联的被标记的地址和与所述第二指纹关联的被标记的地址进行比较,并确定所述指纹匹配的概率。在一些实施方式中,所述ー个或多个处理器中的至少ー个处理器被配置成基于所述电子内容的指纹与所述紧凑库中表示的指纹之间存在的匹配的概率对所述电子内容应用传输策略。某些实施方式设想了一种用于在电子网络中存储的电子内容上应用传输策略的系统。所述系统可包括扫描引擎处理器,被配置成识别电子内容;散列处理器,被配置成接收由所述扫描引擎处理器识别的所述电子内容的电子指纹中的至少一部分,所述散列处理器进一歩被配置成对阵列中与所述电子指纹中的至少一部分关联的多个地址进行标记, 所述散列处理器与所述扫描引擎处理器进行电通信;至少ー个紧凑指纹库,可与所述散列处理器进行电通信,并且所述至少一个紧凑指纹库被配置成存储与所述电子指纹中的至少一部分关联的阵列。该系统还可包括内容处理器,与所述电子网络进行电通信,所述内容处理器被配置成生成所述电子网络中的新电子内容的指紋。该系统还可包括匹配估计处理器,与所述指纹库和所述内容处理器进行电通信,所述匹配估计处理器被配置成确定所述新电子内容的指纹与所述指纹库中存储的指纹之间的概率性匹配。该系统还可包括决定处理器,与所述匹配估计处理器和所述电子网络进行电通信,所述决定处理器被配置成基于来自所述匹配估计处理器的输出对所述新电子内容应用传输策略。
在某些实施方式中,所述扫描引擎处理器、所述散列处理器、所述内容处理器、所述匹配估计处理器以及所述决定处理器中的至少两个均包括单独的处理器。一些实施方式还可包括非紧凑指纹库,所述非紧凑指纹库与所述散列处理器进行电通信。在一些实施方式中,所述匹配估计处理器可被进一步配置成基于两个指纹之间的距离来确定匹配。某些实施方式设想了一种在电子网络中传输电子内容的方法,其包括在一个或多个电子处理器上执行以下步骤在所述电子网络上识别电子内容;生成所述电子内容的新指纹;将所述电子内容的新指纹与紧凑指纹库中存储的指纹进行比较,包括当应用至散列函数时确定由所述新指纹标记的一个或多个地址以及当应用至所述散列函数时将这些地址与由所述库的所述指纹标记的所述一个或多个地址进行比较;以及响应于所述指纹的比较确定在所述电子网络中是否传输所述新电子内容。在一些实施方式中,确定是否传输所述新电子内容包括对所述新电子内容应用传输策略。在一些实施方式中,确定在所述电子网络上是否传输所述新电子内容至少部分依赖于将所述电子内容的新指纹与所述紧凑指纹库中存储的指纹进行比较。在一些实施方式中,确定匹配的步骤包括确定所述指纹的匹配之间的距离。某些实施方式设想了一种计算机可读介质,其包括被配置成使一个或多个处理器执行以下步骤的代码接收第一电子指纹中的至少一部分;将阵列中的一个或多个地址进行标记,所述一个或多个地址与所述第一电子指纹中的至少一部分关联;存储所述阵列; 接收第二电子指纹中的至少一部分;确定与所述第二电子指纹中的至少一部分关联的地址是否和与所述第一电子指纹关联的地址相同。在某些实施方式中,所述第一电子指纹与第一电子文档关联,所述第二电子指纹与第二电子文档关联。在某些实施方式中,权利要求31的计算机可读介质,其中所述一个或多个处理器被进一步配置成至少基于确定与所述第二电子指纹中的至少一部分关联的地址和与所述第一电子指纹关联的地址是否相同,来确定所述第一电子文档与第二电子文档是相同的概率。在一些实施方式中,所述阵列被存储于紧凑库中。


图1是示出包括查找紧凑指纹库的扫描系统的网络化系统的框图;图2是示出采用指纹库的紧凑表示的用于防止信息泄漏的方法的流程图;图3是示出采用采指纹文本的有效而紧凑的概率性表示的方法的流程图;图4是示出用于评估被分析的内容与服从某一策略的采指纹的内容之间的相似性的方法的流程图;图5是示出处理多种策略的方法的流程图;图6是示出包括端点上的本地紧凑库和具有原始指纹库的服务器的系统的框图;图7是示出被分析的内容包括来自采指纹的内容的一段和来自未采指纹的内容的另一段的情况的框图;图8是示出考虑存在散列的连串指示之间的距离以便决定内容是否包含明显采指纹部分的系统的框图;图9是示出允许进一步减少误报(false positive)并使更有效的更新机构方便的方法的流程图10是示出用于同时查询若干紧凑库的方法的流程图。
具体实施例方式以下详细的描述针对某些特定的实施方式。但是,本文中的教导能以多种不同方式应用。在本说明中将參照附图,在整个附图中同样的部件用同样的标号指定。各实施方式可以在包括计算功能性的多种设备中实现。具体地,设想各实施方式可以在多种电子设备上实现或与其关联,这些电子设备例如,但不限于数据库存储系统、移动电话、无线设备、 个人数据助手(PDA)、手持式或便携式电脑、GPS接收器/导航仪、照相机、MP3播放器、游戏控制器、便携式电子阅读设备等。应该认识到所描述的部件是示意性而非限制性的,而且可以以软件、硬件及它们的組合的形式实现。具体地,以下附图參考作为模块、系统、存储、引擎、接ロ等的各种实施方式的某些特征。应该认识到,这些特征中的每ー个均可以以软件、硬件或固件的形式实现。另外,这些特征可以彼此独立地存在于分立软件或硬件部件上,或者一起出现于单个部件上。以下实施方式描述了用于有效检测采指纹的内容的系统、方法和装置。具体地,紧凑且有效的指纹成分库被用于分析内容并确定该内容与先前采指纹的内容的相似性。ー些实施方式采用关于库中指纹成分的存在的概率性指示。当应用于防止信息(或数据)泄露的系统时该系统特别有用处。信息采指纹是用于对机密和敏感信息的未授权传播及使用进行监控和阻挡的方法。以下的公开提供了采指纹方法的粗略概述 第20020U9140号美国专利公开;第 20050288939号美国专利公开;第20040255147号美国专利公开;第200402609 号美国专利公开;第7,493,650号美国专利;第20050025291号美国专利申请,这些公开中的每ー个的全部内容通过引用并入。指纹FP (Cm)可以被定义为以下集合FP (Cm) = {H (Xi) | g (Cm),H (Xi),ξ ) = 0}其中Cm=第M个信息项(例如,文档或表格);H是通用散列函数;Xi是长度N的矢量,其中N是“滑动窗ロ”的尺寸。该矢量概括地描述为XiLk] =WkCri^k其中Wj =确定窗ロ的形状的权重因子;{Cr}=限定窗ロ的基本分类单元(例如,单词或字符);g=选择函数,(例如仅选择可被ξ整除的那些)。函数g可以是散列函数自身, 但通常还是待被采指纹的文档的函数(其尺寸、平均单词长度等)以及确定将保存多少散列的安全參数ξ的函数。直觉地,ξ可被视为确定“文本筛”中孔的尺寸的參数。这些孔可以确定不由散列值表示的最大摘录的尺寸。一般来说,可以为较不敏感的内容选择“较宽的孔”。可以通过多种方式来进行对将被保存的散列值的选择,例如通过仅选择可被数P整除(“除以P余数为0”)的散列。在此情况下,ξ =Ρ,并且g (CM,H (Xi),ξ ) = H (Xi) mod (ρ)有效的相似性度量需要指纹对其表示的原始内容足够“忠实”,原始内容的相似性可以通过指纹的相似性来度量。具体来说,两份文档Ca和Cb之间的相似性水平d(CA,Cb)可以利用其各自的指纹之间的相似性d(FP(CA),FP(CB))来估计。将采指纹的方案FP定义为 “(ε,δ)忠实表示”,对于一些(ε,δ ) > 0,若d (FP (Ca),FP(Cb)) < ε — d(CA,CB) < δ如上所述,指纹尺寸包含对有效实现文档识别的主要障碍。如果系统能够检测出原始内容中大于某些预定尺寸的任何片段(例如,具有多于50个单词的每个片段或段落), 那么为了提供准确而稳健的识别,指纹的尺寸需要与采指纹的内容的尺寸成比例。在大型且现代的组织中,这个尺寸会非常大。因此,在不妨碍准确性的同时基本减少指纹的尺寸至关重要,尤其在例如膝上型电脑和台式电脑的端点处采用基于指纹的检测的情况时。以下实施方式提供了克服这些障碍的方法,而且还有其他优点。图1示出了计算机网络系统1000。在此系统中,多个客户机lOOla-lOOlb通过内部网络1002彼此进行交互,并且偶尔通过互联网或外部网络1005发送并接收数据。客户机可包括多种计算设备,例如膝上型电脑、蜂窝电话、个人数字助手、固定客户终端、工作站等。在某些实施方式中,扫描系统1003监控通过内部网络1002传输的文档。某些文档可包含机密信息,并且根据其包含的主题的敏感性服从各种安全策略(副本数、传输、仅某些用户可读等)。当扫描系统1003面对文档时(即,当用户请求传输文件时),系统1003将查阅“指纹”库1004。扫描系统1003可扫描客户机lOOla-lOOlb上的文件服务器、文档管理系统和驱动以识别文档。管理员可预先将给定的文档或文档格式与特定的安全策略关联。 这种关联反映在库1004中,库1004提供将一个或多个指纹与那个文档的安全策略关联的表或类似方式。扫描系统1003将库1004中的指纹与引入的文档的指纹进行比较,以确定该引入的文档是否与关联至特定的安全策略的文档相同。如果确定匹配,那么系统1003可加强与匹配的文档关联的策略。尽管该附图中示出了内部网络1002和外部网络1005之间的中间物,但是本领域的技术人员可容易确认扫描引擎可替代运行的众多位置。另外,分立的系统可扫描发出的文档并执行指纹提取和比较。图2是示出由扫描系统1003使用的实现用于检测、存储、随后比较和识别指纹的方法的模块的流程图。通过预处理器110对内容Ci 100进行预处理。例如,在内容是文本文档的情况下,该文本将首先被提取,然后通过将其改为标准格式(例如,将字母改为小写,然后去除诸如“这个”、“和”、“或”等常用词的“停用词”)来规范化。预处理阶段之后, 通过散列提取模块120来提取散列,并随后通过散列选择器模块130来选择散列。为内容 C的指纹FP(Ci) 140选定的散列可能和提供内容C的识别的数或字符串、以及适用策略PLj 一起被存储在指纹库150中。识别可允许指纹与内容关联。识别数或字符串与内容的其他基本特性(诸如名称、位置、所有者等)关联的表可以用于此目的。分配给内容的策略可以是确定诸如被允许的发送者、被允许的接收者、被允许的存储设备、被允许的分配信道以及其他被允许的行动的分布和使用策略。在最实际的情形中,从一系列预定的组织策略(例如,“机密的R&D文档不允许发送至组织外的人员,并且必须存储于中央文件服务器X中。”)中选出分配和使用策略。将内容C服从策略PLi的事实用q卜PLi.标注。将从服从相同的策略PI^.的全部
内容中采集全部散列用FPLiMFP(Ci) I C1トPLJ标注。通过共享相同的策略PLj的内容中的
全部选定的散列,可创建的紧凑表示RPバ例如以下所述的概率性表示)并可将其存储在紧凑库1004中。为了决定应用或加强哪个策略,系统可评估受监测的内容(例如,在受监测的信道上传播的内容诸如邮件或即时消息)与被限定为服从多种策略的内容之间的相似性。在此分析阶段中,可分析新内容Ck 170(例如,发出的邮件所附的PDF文档)。内容首先被预处理模块112预处理。在预处理阶段之后,通过散列提取模块122来提取散列, 井随后通过散列选择器模块132对这些散列进行后期选择。(应该认识到在某些实施方式中,模块112、122和132的功能性可相应地使用模块110、120和130来执行)。内容180的紧凑表示被创建,并且与存储在紧凑库1004中的FPLj的紧凑表示RPj匹配。随后,基于采指纹的内容Ci与被分析的内容Ck之间评估的相似性,通过决定模块190使用匹配的数来决定策略PLj是否可适用以及是否必须在Ck上加強。现參考图3,其示出了用于利用采指纹的内容的有效而紧凑的概率性表示的模块的流程图。紧凑表示创建模块(CRCM) 210从指纹库150中取出散列X 220,并采用ー个或多个散列函数hi 212将每个散列值转换为L比特的ニ进制数、(Χ)214,其中这些数的分布可近似于在1 浐的范围上的均勻分布。对于每一个散列函数,存在长度浐的对应阵列 Bi 232,对应阵列存储在紧凑表示库1004中。这些阵列中的元素都是全部被初始化为具有零值的比持。在评价h (X)之后,地址Iii (X)处的阵列ら的元素被设定为1,即,元素被“标记”,其表示元素X的存在性。因为将元素映射至阵列中的地址是拟随机的,所以两个不同的项之间通常存在“冲突”的可能性,即hi (Xl) = hi (X2)而 Xl 乒 X2当项数基本大于地址数的平方根(S卩,2α/2))吋,冲突发生的概率会接近于“1”, 被称为“生日问题”的现象。因此,通常来说,确定地表明某ー项的存在性并不实际。但是,如果在对应阵列^的至少ー个中存在“0”,那么可以肯定该项不存在。此特征提供了 “不存在性的快速证据”(考虑由H Bloom Burton在ACM通信(Communications of the ACM) 13 (7),422-426,1970上的具有容许误差的散列编码中的空间/时间权衡(Space/Time Trade-offs in Hash Coding with Allowable Errors)中所描述的布隆(Bloom)过滤器, 上述文件的全部内容以引用的方式并入本文)。因此,在遇到第一个“0”后停止检索。阵列中的每ー个能因此被视为“过滤器”。基于占用量来计算阵列的优化长度(以及散列函数的输出中的比特数)。50%呈现优化,其需要阵列的尺寸约是项数的1.44倍。考虑库中不存在的元素Y。如果阵列i被占用一半,那么hi (Y)与被占用的元(cell)匹配的概率是1/2。如果存在使用不同的散列函数tv"hn占用的η个阵列,那么误报(即,地址为对应阵列中的Ii1 (X) ···&( 的全部元都被占用)的概率是2_n。因此,将误报的概率减少因子2的代价近似为每项1. 5比持。图4示出了通过用于对被分析的内容与服从策略PLj的采指纹的内容之间的相似性评估的处理器执行的方法的流程图。在阶段A 320中对新内容Ck 170进行分析。该分析阶段可包括预处理322,散列提取324以及散列后期选择326。在阶段B 330中,可以为锋个后期选定的散列X评价若干不同的散列函数Ii1⑴…ん⑴。指示MX)=ん,值ん被8/10 页
视为阵列 中的地址,该地址被存储在紧凑库1004中。对于i = 1……IiAi(Ai) = 1表明与紧凑库1004中存储的服从FPLj的内容的紧凑表示的正匹配。在阶段C 340中,为了决定策略PLj是否适用以及是否应该在Ck上得到加强使用了匹配数。对匹配数的评价将考虑误报的因素,如果N个散列中存在pN个正确匹配并且误报的概率是PFP,那么期望的匹配数是pN = (p(l - Pfp ) + Pfp )N因此,ρ的最大似然估计量是
权利要求
1.一种用于使电子内容的指纹紧凑的系统,所述系统包括紧凑表示模块,具有处理器,所述处理器被配置成使所述电子内容中的内容散列,以创建所述内容的电子指紋。
2.如权利要求1所述的系统,其中,所述紧凑表示模块的所述处理器被配置成对所述电子内容执行多次散列并生成所述电子内容的多个指紋。
3.如权利要求1所述的系统,进一歩包括紧凑库,所述紧凑库用于存储所述电子内容的所述指紋。
4.如权利要求3所述的系统,进ー步包括分析模块,所述分析模块具有处理器,并且所述分析模块被配置成使新内容散列并生成所述新内容的指纹。
5.如权利要求4所述的系统,进ー步包括匹配估计件,所述匹配估计件用于将所述紧凑库中存储的指纹与所述新内容的指纹进行比较,并且基于存在于所述紧凑库中的匹配的概率来确定指纹是否匹配。
6.如权利要求5所述的系统,进ー步包括决定模块,所述决定模块被配置成基于所述新内容的指纹与所述紧凑库中存储的指纹之间存在的匹配的概率在所述新内容上应用传输策略。
7.一种用于在存储于电子网络中的电子内容上应用传输策略的系统,所述系统包括 扫描引擎,具有处理器,并且所述扫描引擎被配置为识别所述电子内容;采指纹模块,与所述扫描引擎进行电子通信,所述采指纹模块被配置成使所述电子内容散列,以便生成由所述扫描引擎识别的所述电子内容的紧凑指纹;至少ー个紧凑指纹库,与所述采指纹模块进行电子通信,所述至少一个紧凑指纹库被配置成存储由所述采指纹模块生成的指纹;内容处理器,与所述电子网络进行电子通信,所述内容处理器被配置成使所述电子网络中的新电子内容散列;匹配估计件,与所述指纹库和所述内容处理器进行电子通信,所述匹配估计件被配置成确定所述新电子内容的指纹与所述指纹库中存储的指纹之间的概率性匹配;以及决定模块,与所述匹配估计件和所述电子网络进行电子通信,所述决定模块被配置成基于来自所述匹配估计件的输出对所述新电子内容应用所述传输策略。
8.如权利要求7所述的系统,进一歩包括指纹库,所述指纹库与所述采指纹模块进行电子通信,所述采指纹模块被配置为生成所述电子内容的散列并将其存储于所述指纹库中。
9.如权利要求7所述的系统,其中,所述匹配估计件被配置成基于被匹配的散列之间的距离来确定匹配。
10.一种在电子网络中传输电子内容的方法,所述方法包括以下步骤 利用扫描引擎识别所述电子网络上的电子内容;利用至少ー个散列对所述电子内容进行采指紋,以生成所述电子内容的紧凑指纹; 将至少一个所述紧凑指纹存储在紧凑指纹库中;利用至少ー个散列对新电子内容进行采指紋,所述新电子内容将在所述电子网络上传;将所述新电子内容的指纹与所述紧凑指纹库里存储的指纹进行比较;响应于所述指纹的比较确定在所述电子网络上是否传输所述新电子内容。
11.如权利要求10所述的方法,进一步包括响应于确定是否应传输所述新电子内容, 对所述新电子内容应用传输策略的步骤。
12.如权利要求10所述的方法,其中,确定是否应传输所述新电子内容的步骤包括确定所述紧凑指纹库中存储的指纹与所述新电子内容的指纹之间的匹配。
13.如权利要求12所述的方法,其中,所述确定匹配的步骤包括确定所述指纹的匹配之间的距离。
14.一种用于使电子内容的指纹紧凑的系统,所述系统包括一个或多个处理器,其中所述一个或多个处理器中的至少一个处理器被配置成接收第一电子指纹中的至少一部分;并且所述一个或多个处理器中的至少一个处理器被配置成对阵列中的一个或多个地址进行标记,所述一个或多个地址与所述第一电子指纹中的至少一部分关联。
15.如权利要求14所述的系统,其中,散列函数确定所述地址与所述第一指纹的至少一部分的关联。
16.如权利要求15所述的系统,其中,所述散列函数被配置成使得至少一个所述地址与两个或更多个所述指纹关联。
17.如权利要求14所述的系统,进一步包括紧凑库,所述紧凑库包括地址阵列,与第二电子内容的第二指纹关联的所述地址将被标记。
18.如权利要求17所述的系统,其中,具有与所述电子内容的所述第一指纹关联的地址的所述阵列被存储于所述紧凑库中。
19.如权利要求18所述的系统,其中,与所述第一指纹关联的所述地址的阵列和与所述第二指纹关联的所述地址的阵列中均没有既与所述第一指纹又与所述第二指纹关联的地址。
20.如权利要求17所述的系统,其中,所述一个或多个处理器中的至少一个处理器被配置成将与所述第一指纹关联的被标记的地址和与所述第二指纹关联的被标记的地址进行比较,并确定所述指纹匹配的概率。
21.如权利要求20所述的系统,其中,所述一个或多个处理器中的至少一个处理器被配置成基于所述电子内容的指纹与所述紧凑库中表示的指纹之间存在的匹配的概率对所述电子内容应用传输策略。
22.一种用于对电子网络中存储的电子内容应用传输策略的系统,所述系统包括扫描引擎处理器,被配置成识别电子内容;散列处理器,被配置成接收由所述扫描引擎处理器识别的所述电子内容的电子指纹中的至少一部分,所述散列处理器进一步被配置成对阵列中与所述电子指纹中的至少一部分关联的多个地址进行标记,所述散列处理器与所述扫描引擎处理器进行电通信;至少一个紧凑指纹库,与所述散列处理器进行电通信,并且所述至少一个紧凑指纹库被配置成存储与所述电子指纹中的至少一部分关联的阵列;内容处理器,与所述电子网络进行电通信,所述内容处理器被配置为生成所述电子网络中的新电子内容的指纹;匹配估计处理器,与所述指纹库和所述内容处理器进行电通信,所述匹配估计处理器被配置成确定所述新电子内容的指纹与所述指纹库中存储的指纹之间的概率性匹配;以及决定处理器,与所述匹配估计处理器和所述电子网络进行电通信,所述决定处理器被配置成基于来自所述匹配估计处理器的输出对所述新电子内容应用传输策略。
23.如权利要求22所述的系统,其中,所述扫描引擎处理器、所述散列处理器、所述内容处理器、所述匹配估计处理器以及所述决定处理器中的至少两个包括单独的处理器。
24.如权利要求22所述的系统,进一步包括非紧凑指纹库,所述非紧凑指纹库与所述散列处理器进行电通信。
25.如权利要求22所述的系统,其中,所述匹配估计处理器被进一步配置成基于两个指纹之间的距离来确定匹配。
26.—种在电子网络中传输电子内容的方法,包括在一个或多个电子处理器上执行以下步骤在所述电子网络上识别电子内容;生成所述电子内容的新指纹;将所述电子内容的新指纹与紧凑指纹库中存储的指纹进行比较,包括当应用至散列函数时确定由所述新指纹标记的一个或多个地址以及当应用至所述散列函数时将这些地址与由所述库的所述指纹标记的所述一个或多个地址进行比较;以及响应于所述指纹的比较确定在所述电子网络中是否传输所述新电子内容。
27.如权利要沈所述的方法,其中,确定是否传输所述新电子内容包括对所述新电子内容应用传输策略。
28.如权利要求25所述的方法,其中,确定在所述电子网络上是否传输所述新电子内容至少部分依赖于将所述电子内容的新指纹与所述紧凑指纹库中存储的指纹进行比较。
29.如权利要27所述的方法,其中,确定匹配的步骤包括确定所述指纹的匹配之间的距离。
30.一种计算机可读介质,包括被配置成使一个或多个处理器执行以下步骤的代码接收第一电子指纹中的至少一部分;将阵列中的一个或多个地址进行标记,所述一个或多个地址与所述第一电子指纹中的至少一部分关联;存储所述阵列;接收第二电子指纹中的至少一部分;确定与所述第二电子指纹中的至少一部分关联的地址是否和与所述第一电子指纹关联的地址相同。
31.如权利要求30所述的计算机可读介质,其中,所述第一电子指纹与第一电子文档关联,所述第二电子指纹与第二电子文档关联。
32.如权利要求31所述的计算机可读介质,其中,所述一个或多个处理器被进一步配置成至少基于确定与所述第二电子指纹中的至少一部分关联的地址和与所述第一电子指纹关联的地址是否相同,来确定所述第一电子文档与第二电子文档是相同的概率。
33.如权利要求30所述的计算机可读介质,其中,所述阵列被存储于紧凑库中。
全文摘要
公开的实施方式提供了用于有效检测采指纹的内容的系统、方法和装置,概括地涉及防止信息(或数据)泄露的领域。具体地,紧凑而有效的指纹成分库被用于分析内容并确定该内容与先前被采指纹的内容的相似性。一些实施方式采用了关于库中指纹成分的存在的概率性指示。
文档编号H04L29/06GK102598007SQ201080032907
公开日2012年7月18日 申请日期2010年5月24日 优先权日2009年5月26日
发明者大卫·拉杂罗夫, 罗伊·巴堪, 耶夫翟妮·麦那可, 里卓尔·特洛彦斯基 申请人:韦伯森斯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1