机密信息的检测的制作方法

文档序号:9667702阅读:247来源:国知局
机密信息的检测的制作方法
【专利说明】机密信息的检测
[0001]本申请为以下申请的分案申请:
[0002]申请日:2009年10月1日
[0003]申请号:200980139094.8
[0004]发明名称:机密信息的检测
技术领域
[0005]本申请涉及机密信息的检测。
【背景技术】
[0006]在一些数据处理环境中,机密信息有可能出现在没有被充分保护的数据存储设备中存储的电子文件中。在不安全文件中存在这种机密信息可能危及其所关联的个体的安全性和私密性,并使操作该不安全数据存储系统的实体负有责任。机密信息可以包括敏感的财务数据或者可用于识别具体个体并且将他们与文件的内容相关的任何信息。机密信息的一些例子包括:姓名、地址、电话号码、社保号码以及信用卡号码。

【发明内容】

[0007]在一个一般方面,一种用于读取存储的数据的方法包括:识别所述存储的数据内的字串,其中每个字串包括连续字节序列,所述字节全部具有在可能值的预定子集中的值;对于至少一些字串中的每一个,确定所述字串是否包括表示一个或多个格式匹配的字节,其中格式匹配包括匹配与机密信息关联的预定格式的值的集合;对于每个格式匹配,利用与所述机密信息关联的规则集合测试匹配预定格式的值,以确定所述格式匹配是否是包括一个或多个无效值的无效格式匹配;以及至少部分地基于无效格式匹配的计数对其它格式匹配的计数的比值,计算所述存储的数据的得分。
[0008]在另一个一般方面,一种用于检测机密信息的系统包括:数据存储设备;以及连接到所述数据存储设备的运行时环境。该运行时环境被配置为:从所述数据存储设备读取存储的数据;识别所述存储的数据内的字串,其中每个字串包括连续字节序列,所述字节全部具有在可能值的预定子集中的值;对于至少一些字串中的每一个,确定所述字串是否包括表示一个或多个格式匹配的字节,其中格式匹配包括匹配与机密信息关联的预定格式的值的集合;对于每个格式匹配,利用与所述机密信息关联的规则集合测试和匹配预定格式的值,以确定所述格式匹配是否是包括一个或多个无效值的无效格式匹配;以及至少部分地基于无效格式匹配的计数对其它格式匹配的计数的比值,计算所述存储的数据的得分。
[0009]在又一个一般方面,一种计算机可读介质存储用于检测机密信息的计算机程序。该计算机程序包括导致计算机执行以下步骤的指令:读取存储的数据;识别所述存储的数据内的字串,其中每个字串包括连续字节序列,所述字节全部具有在可能值的预定子集中的值;对于至少一些字串中的每一个,确定所述字串是否包括表示一个或多个格式匹配的字节,其中格式匹配包括匹配与机密信息关联的预定格式的值的集合;对于每个格式匹配,利用与所述机密信息关联的规则集合测试匹配预定格式的值,以确定所述格式匹配是否是包括一个或多个无效值的无效格式匹配;以及至少部分地基于无效格式匹配的计数对其它格式匹配的计数的比值,计算所述存储的数据的得分。
[0010]这些方面可以包括一个或多个下列特征:
[0011]所述机密信息可以是信用卡号码。当在所述字串中检测到的具有表示数字的值的字节数目等于在信用卡号码的标准格式中的数字数目时,确定出现格式匹配。与信用卡号码关联的规则可以包括有效发行商识别号码的列表的规范。与信用卡号码关联的规则可以包括校验和算法的规范。
[0012]所述机密信息可以是社保号码。当在所述字串中检测到的具有表示数字的值的字节数目等于9时,确定出现格式匹配。与社保号码关联的规则可以包括对于由社保号码的前五个数字表示的号码的值的有效子集的规范。
[0013]所述机密信息可以是电话号码。当在所述字串中检测到的具有表示数字的值的字节数目等于10、或者在所述字串中检测到的数字数目等于第一个数字为“1”的11个数字时,确定出现格式匹配。与电话号码关联的规则可以包括有效区号的列表的规范。与电话号码关联的规则可以包括在区号之后的第一个数字必须不是1或0的规范。
[0014]所述机密信息可以是邮政编码。当检测到如下字节序列时确定出现格式匹配:由具有表示数字的值的五个字节组成、或者由具有表示九个数字且在第五个数字与第六个数字之间有连字号的值的十个字节组成。与电话号码关联的规则可以包括有效的五个数字邮政编码的列表的规范。
[0015]对于每个字串,确定该字串是否包括一个或多个匹配姓名的词,其中,词是字串内的连续字节序列,所述字节全部具有表示字母数字字符的值,以及姓名是来自通常用于指代个别个人的序列的列表的字符序列;以及至少部分地基于存储的数据中检测到的姓名的计数,计算存储的数据的得分。所述姓名列表可以被分成两个子集:姓和名。
[0016]对于每个字串,确定该字串是否包括一个或多个全名,其中全名是字符序列,该字符列表如下组成:来自姓列表姓后面跟着空格符、并且后面跟着来自名列表的名;以及至少部分地基于检测到的全名的计数,计算存储的数据的得分。
[0017]列表中的姓名可以各自具有与它们关联的频率计数,并且对于出现在存储的数据中的姓名计算平均频率计数,以及可以至少部分地基于所述平均频率计数计算存储的数据的得分。如果存储的数据中检测到的姓名数目小于阈值,则可以忽略平均频率计数。
[0018]对于每个字串,对由两个字母组成的词的数目计数,其中,词是字串内的连续字节序列,所述字节全部具有表示字母数字字符的值。对于每个两个字母的词,确定该两个字母的词是否是有效的州缩写;以及至少部分地基于有效的州缩写的计数以及两个字母的词的计数,计算存储的数据的得分。
[0019]对于每个字串,确定该字串是否包括一个或多个州/邮编对,其中,州/邮编对是如下组成的字符列表:州缩写后面跟着空格符,所述空格符后面依次跟着邮政编码;以及至少部分地基于检测到的州/邮编对的计数,计算存储的数据的得分。
[0020]检测在电存储的文件系统中哪些文件最近被更新过;以及在最近被更新过的文件中的每一个中搜索机密信息。
[0021]定义字串的字节值的子集可以表示字母数字字符、括号、连字号以及空格符。
[0022]将所述得分与阈值相比较;以及如果该得分超过所述阈值,则将该存储的数据标记为可能包含机密信息。
[0023]这些方面可以包括一个或多个下列好处:
[0024]使得对机密信息的搜索自动化。有效检测机密信息以实现并增强安全性和私密性保护手段。
[0025]本申请的其它特征和好处将从以下说明以及从权利要求中变得清楚。
【附图说明】
[0026]图1是用于检测存储的数据中的机密信息的系统的框图。
[0027]图2是用于检测存储的数据中的机密信息的软件的框图。
[0028]图3是用于计算表示文件包含机密信息的可能性的得分的过程的流程图。
【具体实施方式】
[0029]期望能够在较大数据集中检测的机密数据的出现,并且具体来说,期望在搜索机密数据的过程中检测机密信息而无需人工代理审阅大部分的数据。用于检测机密信息的系统能够自动检测可能的机密数据,这些可能的机密数据之后能够被人工代理整体或者部分地审阅。在一些实施例中,机密数据的人工审阅可能局限于明确的工作人员在极少时间进行或者被完全避免,由此降低或者消除由机密信息的误处理所引起的私密性侵害。
[0030]图1描绘了用于检测电子存储的数据中的机密信息的示范性系统。感兴趣的数据可以存储在一个或多个数据存储设备中,诸如实现在平行文件系统的多个设备上的平行“多文件”110(例如,如通过引用并入此处的美国申请5,897,638中所述)或者数据库服务器120中。机密信息检测(CID)系统100使用运行在运行时环境150中的软件来分析数据存储设备中存储的数据。分析的结果,包括存储的数据的每个单元一一诸如文件一一的得分、以及可能指示存储的数据的哪些单元可能包含机密信息的标记,可以被写入同一个110、120或者其它数据存储设备160、170。在一些情况下,可以由操作者使用用户接口 180配置和控制CID系统的运行以及审阅结果。
[0031]可以在合适的操作系统--诸如UNIX操作系统--的控制下在一个或多个通用计算机上提供运行时环境150。例如,运行时环境150能够包括多节点平行计算环境,该环境包括使用多个中央处理单元(CPU)的计算机系统的配置,多个中央处理单元要么是本地的(例如,诸如SMP计算机的多处理器系统)或者本地分布的(例如,耦接为群或者MPP的多个处理器),要么是远程或者远程分布的(例如,经由LAN或者WAN网络耦接的多个处理器),或者其任意组合。由运行时环境150存取的输入、输出或者中间数据集可以是存储在平行文件系统(例如,数据存储器160,或者本地或者通过通信链接远程地耦接到系统100的外部数据存储器170)中的平行“多文件”。
[0032]图2描绘了可以在运行时环境中运行以实现用于检测电子存储文件中的机密信息的系统的软件的结构。CID系统100将所有文件格式都视为未知并且搜索包含机密数据的字符串。文件是从数据存储设备201读取的。字串提取模块210将文件视为数据字节序列。用于识别字串的方法将去除除了表示下述字符的字节之外的所有字节:这些字符用于表示机密信息的数据或者表示机密信息的数据的通常格式化。典型地,字节是8比特长,但是可以定义为适合于试图检测的字符集的任意大小。例如,一字节的长度可以定义为16或32比特。所示的示例系统使用8比特的字节大小。
[0033]使用与感
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1