识别和保护个人敏感文档的制作方法

文档序号：20361514发布日期：2020-04-10 23:43阅读：243来源：国知局

相关申请的交叉引用

本申请要求于2017年7月19日提交的标题为“识别和保护个人敏感文档”的当前待决的美国临时专利申请序列号62/534,458的优先权，该临时申请的全部公开内容通过引用合并于此。

本公开总体上涉及计算机系统，更具体地，涉及识别和保护计算机系统上的个人敏感文档。

背景技术：

个人计算系统通常包含操作系统、应用和用户数据。某些个人计算机可以基于云(例如chromebooks)，并且可以从网络服务器运行应用，也可以将数据存储到网络服务器。但是，当用户打算脱机工作并且计算机可以使用其自己的内部磁盘存储时，可以覆盖此默认设置。

个人计算系统通常针对一个或多个特定用户进行个性化设置。例如，在安装操作系统时，这种个性化可以非常早地开始。安装过程可能会要求提供各种个人信息，诸如用户名、计算机名和密码。例如，windows10操作系统通常会询问用户的电子邮件地址，并且它包含一个向导页面，该页面指导用户创建帐户，在该页面中提示用户不仅提供个人电子邮件地址，而且还会提供名字、姓和国家/地区。如果操作系统是由oem供应商预先安装的，即购买新的计算机或笔记本电脑时，安装过程可以分为两部分。第一部分包括安装操作系统二进制文件和配置硬件驱动程序。当新客户第一次打开计算机时开始第二部分。然后，第二部分为客户个性化操作系统。

用户可以将其计算系统用于各种活动，诸如web浏览、处理电子邮件通信、管理文档或从因特网下载文档。这些文档可能包含个人信息。此类个人信息可以出现在正式文档(申请、退税文档)、旅行文档(签证申请、登机证)，员工文档等中。可以使用web浏览器下载用户生成的文档(例如，飞机票、发票等)。

包含个人信息的文档通常对用户敏感，并且在被盗时可能会被滥用。例如，旅行文档(登机证、签证申请或酒店预订)可以帮助小偷预测某人何时不在家，通过住所地址信息，小偷可以知道用户的住所所在位置。住所地址通常显示在发票中，其可以从在线购物网站作为送货地址找到，也可以在其他发票中找到，诸如电费单。税收文档可能会显示付款习惯和债务，也可能被滥用。例如，恶意个人可以使用税收文档中的个人信息来提交带有用户的社会安全号的非法退税，以要求退税。用户通常在其计算机上存储的其他财务文档与贷款、抵押等有关。这样的文档也很容易被社会工程学中的某些技能所误用。例如，恶意人员可以在家中与用户联系，或致电用户的家，并且当某人知道可能的受害者的财务背景时，可以轻松获得用户的信任。员工笔记本电脑还可以包含有关公司计划、内部结构、预测和未来计划的机密文档。

但是，考虑到个人计算机系统上存储的文档数量众多和类型多种多样，可能很难对其进行分析以识别个人信息。

技术实现要素：

系统和方法获得个人身份信息，识别包含敏感信息的用户个人文档，并可以选择保护敏感文档。可以从各种来源(诸如，操作系统、电子邮件客户端、web浏览器、活动目录(activedirectory)或从用户的文档)获得用户的个人身份信息。可以搜索硬盘、云存储等上的用户文档。可以识别具有个人身份的敏感文档，并可以选择地防止其被滥用和盗窃。

附图说明

为了更好地理解本发明的主题，可以参考附图，其中：

图1是根据实施例的操作环境的框图；

图2是描述根据实施例的用于识别个人敏感文档的方法的流程图；以及

图3是可以在其上执行本发明主题的实施例的计算机系统的示例实施例的框图。

具体实施方式

在示例实施例的以下详细描述中，参考形成其一部分的附图，并且在附图中通过说明的方式示出了可以实践本发明主题的特定示例实施例。对这些实施例进行了足够详细的描述，以使本领域技术人员能够实践本发明的主题，并且应当理解，可以利用其他实施例，并且可以在不背离本发明主题的范围的情况下进行逻辑、机械、电气和其他改变。

下面的详细描述的某些部分是根据对计算机存储器内数据位的运算的算法和符号表示来呈现的。这些算法描述和表示是数据处理领域的技术人员用来最有效地向本领域的其他技术人员传达其工作实质的方式。这里，算法通常被认为是导致所需结果的步骤的自洽序列。这些步骤是需要对物理量进行物理操纵的步骤。通常，尽管不是必须的，这些量采取能够被存储、传输、组合、比较和以其他方式操纵的电或磁信号的形式。主要出于通用的原因，有时已经证明将这些信号称为位、值、元素、符号、字符、项、数字等是方便的。但是，应该记住，所有这些和类似术语均应与适当的物理量相关联，并且仅仅是应用于这些量的方便标签。除非从下面的讨论中另外明确指出，否则诸如“处理”或“计算”或“运算”或“确定”或“显示”等之类的术语是指计算机系统或类似计算设备的动作和过程，该类似计算设备将表示为计算机系统的寄存器和存储器中的物理(例如电子)量的数据操纵和转换为类似地表示为计算机系统存储器或寄存器或其他此类信息存储、传输或显示设备中的物理量的其他数据。

各种实施例的描述将仅被解释为示例，并且没有描述本发明主题的每个可能的实例。可以使用当前或未来技术的组合来实现多种替代方案，但其仍将落入权利要求的范围内。因此，以下详细描述不应被理解为限制性的，并且本发明主题的范围仅由所附权利要求限定。

图1是根据实施例的用于系统识别和保护个人敏感文档的操作环境100的框图。在一些实施例中，操作环境100包括具有操作系统(os)104的设备102、个人身份分析器114以及可以包括web浏览器106、电子邮件客户端108和/或应用110的各种程序。设备102还可以包括保护单元136。在一些方面，设备102可以是台式计算机、膝上型计算机、平板计算机、服务器计算机、智能电话、机顶盒、游戏控制台或具有用于文档112的处理器、存储器和内存的任何其他设备。

操作系统104控制在设备102上运行的应用(例如web浏览器106、电子邮件客户端108、应用10等)的执行。此外，操作系统104管理设备102的资源，并在设备102上运行的应用和设备102的硬件组件之间提供接口。在一些实施例中，操作系统104可以是操作系统的windows家族的版本。然而，实施例不限于任何特定的操作系统，并且在替代实施例中，操作系统104可以是linux操作系统的版本、chromeos的版本、android^tm操作系统的版本或操作系统的版本。

操作系统104可以维护os用户帐户数据132。作为示例，在windows操作系统上，os用户账户数据132可以包括用户名或名字、姓和电子邮件地址。

已安装的应用(例如，web浏览器106、电子邮件客户端108和应用110)可以根据其目的维护个人信息。电子邮件客户端108可以是任何类型的电子邮件客户端。此类电子邮件客户端的示例包括microsoftthunderbird等。通常，电子邮件客户端配置为访问用户的个人网络邮件(webmail)电子邮件服务器。配置详细信息可以包括用户的电子邮件地址、名字和姓等。该个人信息可以被存储在用户的计算设备102上，例如，在注册表中，在活动目录中、或在诸如磁盘的持久存储单元上的文件上。

web浏览器106可以是任何类型的web浏览器。此类web浏览器的示例包括internetmicrosoftgoogle和web浏览器106可以具有一个或多个缓存或简档126，这些缓存或简档126包含可以用来加速网络浏览以及提供使用便利性的信息。例如，web浏览器106可以提供自动完成功能(也称为自动填充)，其预测用户正在键入的单词的其余部分或预测表单(form)上的条目。自动完成功能可以识别网页上的特定字段，并可以提供来自针对当前使用的字段类型的自动完成数据128的信息。例如，在期望电话号码的字段中，web浏览器106将不提供除存储的电话号码之外的任何其他缓存的信息。web浏览器106可以包括登录数据130，该登录数据130可以包括用于自动将用户登录到需要用户认证的网站中的登录数据。web浏览器106还可以包括对信用卡的特殊支持，因此用户无需再次在网上商店(eshops)(等)上输入其信用卡信息。这些个人信息可以包括用户在信用卡上的全名、或支持邮寄定购包裹的邮寄地址。其他缓存的信息可以包括居住地址、电话号码或公司名称。

各种web浏览器106可以将不同的存储机制用于简档126、自动完成数据128和/或登录数据130。例如，google使用数据库存储自动完成数据128，其中名称列代表表单名称(例如“名字(firstname)”，“名(givenname)”，取决于特定网站的设计)、值列、上次创建和使用该记录时使用的建议和时间戳的数量。利用该信息，尤其是使用的建议的数量，系统可以确定使用给定建议的频率。该信息可用于将期望的信息与不太期望的或错误的信息区分开。例如，如果数据库指示“john”已用于名字字段十五次，而“johnn”已被使用一次，则系统可以做出“johnn”是印刷错误的预测，而“john”是是正确的名字。登录数据130包含用于特定网站的类似记录。在存在计算设备102的多个用户的情况下，web浏览器106可以支持多个简档126。

应用110和电子邮件客户端108可以具有类似于简档126的简档，该简档126可用于与以上针对web浏览器106所述的相同目的。例如，在用户具有几个电子邮件地址或者计算设备102被其他家庭成员共享的情况下，电子邮件客户端108可以支持多个简档126。

应用110可以是在设备102上运行的任何类型的应用。在某些方面，应用110可以是访问敏感信息的应用，诸如访问银行帐户、股票交易帐户或其他金融应用的应用。可替代地，应用110可以是访问健康信息的应用。各种个人信息项可以存储在与应用110相关联的注册表项或文件中。

个人身份分析器114可以确定计算设备102上存在的各种类型的个人信息，诸如上述信息。例如，个人身份分析器114可以扫描与web浏览器106、电子邮件客户端108或应用110相关联的注册表和文件，以确定包括个人信息的名称、标识符、电子邮件地址等。个人身份分析器114可以创建和维护电子邮件地址列表120、个人名称列表118、居住地址列表116和/或包括在计算设备102上找到的个人信息的敏感信息列表138。敏感信息列表138可以包括诸如税收标识符(id)(例如，社会保险号)、信用卡号、电话号码、公司名称等项。然后，个人身份分析器114可以使用电子邮件地址列表120、个人名称列表118、居住地址列表116和/或敏感信息列表138扫描文档112，以确定任何文档112是否包含个人信息。个人身份分析器114可以在敏感文档134中包含此类包含个人信息的文档。

保护单元136可以可选地存在于计算设备102上。保护单元136可以为敏感文档134提供额外的安全性。例如，在可以访问敏感文档134中的文档之前，保护单元136可能需要特定的权限、用户识别等。

尽管在图1中显示为存储在计算设备102上，但是文档112可以存储在云存储124上，作为在计算设备102上的补充或替代。计算设备102可以经由一个或多个有线或无线网络122访问云存储124。在某些方面，网络122可以包括互联网。

将参照图2进一步描述上述组件的操作的更多细节。

图2是描述根据实施例的用于识别个人敏感文档的方法的流程图200。在某些方面，该方法可以构成由计算机可执行指令组成的计算机程序。通过参考流程图描述该方法，本领域技术人员可以开发包括这样的指令的程序，以在合适的处理器(从计算机可读介质执行该指令的计算机的一个或多个处理器)上执行该方法。图2所示的方法包括执行本发明的示例实施例的操作环境100可以采取的动作。

该方法通过获得个人身份信息开始于框202。可以以各种方式执行获得个人身份信息，并且可以使用方法的各种组合。例如，可以经由计算设备102上的消息提示用户提供他们的个人身份信息。但是，为了避免使用户烦恼，或处理用户输入无效信息只是为了消除提示或忘记某些个人信息的情况(即，不输入使用中的所有电子邮件地址，不输入对于该设备的其他用户的信息)，除提示用户之外或代替提示用户，可以使用自动搜索个人身份信息的方法。例如，个人身份分析器114可以从os用户帐户数据132获得个人身份信息，诸如用户名、电子邮件地址、名字(名(givenname))、姓(姓氏)等。此外，可以从简档126、自动完成数据128或登录数据130获得个人身份信息。如果需要，可以合并数据中的各个字段。例如，“名字(firstname)”或“名(givenname)”字段可以与另一个字段(例如“姓(lastname)”，“姓氏(famliyname)”等)结合使用，以将整个名称组合在一起。字段值的时间戳数据(如果存在)通常将是相同的，因为它们通常用于在同一网页上输入数据。因此，时间戳数据可用于关联各个字段。在某些情况下，简档126中的个人身份信息可能不可读或不完整。例如，internet不包含人类可读格式的字段名，而是仅存储此类字段名的sha-1哈希值。但是，在对字段进行哈希的情况下，可以预先计算通用或潜在的字段名，并将其与确切的预定义字段名匹配。例如，单词“firstname(名字)”代表“9b0711dd64bfafdb50ce97c460b59ebf89920695de”sha-1哈希值。如果在哈希数据库的搜索中找到与sha-1值匹配的“名字”字段，则可以假定该字段的非哈希(unhashed)值是“名字”。同样，常见的名字、姓、街道名称等可以预先进行哈希，并用于在具有哈希值的数据库中执行匹配。此外，可以对用户的名称、地址信息等进行哈希，并将其用于搜索具有哈希值的数据库。其他存储的信息可用于创建完整的个人身份，例如包括居住地址、公司名称、信用卡号等

还可以从已安装的电子邮件客户端108获得个人身份信息，该电子邮件客户端被配置为用户访问其网络邮件(webmail)电子邮件服务器。此外，可以从与应用110相关联的简档中获得个人身份信息。

在个人身份分析器114没有足够的信息的情况下，它可以搜索用户的文档112(例如，doc、pdf、txt文件等)并检查这些文档的内容。仅使用名字或电子邮件地址之类的部分信息，个人身份分析器可以找到一个或多个具有此信息的文档，并检查文档的内容以获得其他丢失的信息。

一旦检查了所有源输入，个人身份分析器114就评估找到的结果。在一些实施例中，如果有这样的信息，则个人身份分析器114可以考虑使用字段的频率。例如，如果相同的名字和电子邮件数据在整个文档集中多次出现，则可以确定名字和/或电子邮件地址是用户的主要名字和/或电子邮件地址。此外，在一些实施例中，个人身份分析器114可以验证电子邮件地址、信用卡号、居住地址等的格式。个人身份分析器114可以将搜索结果存储在一个或多个列表中，例如，电子邮件地址列表120、居住地址列表116或个人名称列表118。

在框204处，搜索用户的文档。在一些实施例中，用户的文档通常以几种众所周知的格式存储，诸如文本文档(例如，“.txt”文件)、电子表格文档(例如“.xls”或“.xlsx”文件)、文字处理文档(例如“.doc”或“.docx”文件)或可移植文档格式(例如“.pdf”文件)。当搜索文档112时，个人身份分析器114可以搜索用户的整个硬盘驱动器和云存储集，或者可以考虑打开文档的最后一个文件夹。例如，某些应用将这些位置保存在注册表设置中的“最近使用过的”(mru)键下。使用最近使用过的键可以加快文档搜索的速度，但可能会丢失一些带有已存储文档的文件夹。

在框206，识别敏感文档。例如，可以读取文档的内容以确定该文档是否包含任何个人身份信息项，诸如在框202处所识别的名字、姓、电子邮件地址、居住地址、税收标识符、信用卡数据等中的任何一项。此类个人身份信息在文档中的存在可用于确定该文档是敏感文档。不包含用户个人身份信息的任何部分的文档通常不被视为敏感文档134。然而，在一些实施例中，如果文档与其他敏感文档存储在同一文件夹中，或者其文件名包含敏感词，诸如“机密”、“发票”、“税”等，则仍可以将其视为敏感文档134。

在框208处，可以可选地保护在框206处识别的敏感文档，即，可以限制对这种敏感文档的访问。这是理想的，因为敏感文档可能包含用户专有的信息。保护可以通过几种方法来实现。例如，在一些实施例中，受保护的文档可以被加密。在替代实施例中，敏感文档可以被移动到外部设备。例如，可以将文档从内部驱动器移至外部usb连接的硬盘驱动器或其他存储设备。此类设备通常仅在需要时且通常在很短的时间段内连接到笔记本电脑或其他计算设备。因此，如果小偷窃取了用户的笔记本电脑或其他计算设备，则小偷可能也不会获得可能留在用户家中的外部硬盘驱动器。在其他替代实施例中，对敏感文档的访问可以被限制为用户的帐户。这可以通过内核模式下的文件系统过滤器以非侵入方式实现，而无需更改文档的元数据信息。文件系统过滤器可以检查哪个用户帐户尝试打开敏感文档并根据尝试访问敏感文档的帐户是否属于用户或具有用户许可来允许或阻止此类请求。

在一些实施例中，对敏感文档的访问可以限于系统中的特定受信任过程。例如，防病毒软件通常知道有关此类过程的详细信息。当查询防病毒云基础服务时，它可以分析过程二进制代码、嵌入式证书、行为症状或整个防病毒用户群中运行的统计信息。基于所有防病毒用户之间的首次出现、来源、受欢迎程度或证书的组合，防病毒软件可以确定该过程的信任级别，并基于信任级别可以将信息提供给用于允许或拒绝访问敏感文档的保护单元136。如果对是否应允许访问存在任何疑问，保护单元136可以提供对话提示，并让用户决定是允许还是拒绝尝试访问敏感文档的过程。

从以上将认识到，本公开的实施例可以提供对计算机功能的改进。此外，实施例可以提供计算机安全技术领域的改进。如上所述，实施例可以提高文档的安全性，该文档包括个人身份信息或其他敏感信息，这些信息可能被恶意方用来对计算机用户造成财务或其他损害。

图3是可以在其上执行本发明主题的实施例的计算机系统300的示例实施例的框图。图3的描述旨在提供可以与本发明一起实现的合适的计算机硬件和合适的计算环境的简要、概括描述。在一些实施例中，在由计算机执行的计算机可执行指令(诸如程序模块)的一般上下文中描述了本发明主题。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。

如上所述，本文公开的系统可以分布在许多物理主机上。因此，图3的许多系统和子系统可以涉及实现本文公开的发明主题。

此外，本领域技术人员将理解，本发明可以与其他计算机系统配置一起实践，包括手持式设备、多处理器系统、基于微处理器的或可编程的消费电子产品、智能电话、网络pc、小型计算机、大型计算机等。本发明的实施例也可以在分布式计算机环境中实践，其中任务由通过通信网络链接的i/o远程处理设备执行。在分布式计算环境中，程序模块可以位于本地和远程内存存储设备中。

参考图3，示例实施例扩展到计算机系统300的示例形式的机器，在其中可以执行用于使机器执行本文所讨论的方法中的任何一个或多个的指令。在替代示例实施例中，机器作为独立设备操作，或者可以连接(例如，联网)到其他机器。在网络部署中，机器可以在服务器-客户端网络环境中以服务器或客户端机器的身份运行，或者在对等(或分布式)网络环境中作为对等机器运行。此外，虽然仅示出了单个机器，但是术语“机器”也应被理解为包括机器的任何集合，这些机器单独地或共同地执行一组(或多组)指令以执行本文讨论的任何一个或多个方法。

示例计算机系统300可以包括处理器302(例如，中央处理单元(cpu)、图形处理单元(gpu)或两者)、主存储器304和静态存储器306，它们经由总线308彼此通信。计算机系统300可以进一步包括视频显示单元310(例如，液晶显示器(lcd)或阴极射线管(crt))。在示例实施例中，计算机系统300还包括字母-数字输入设备312(例如，键盘)、用户界面(ui)导航设备或光标控制设备314(例如，鼠标)、磁盘驱动单元316、信号生成设备318(例如，扬声器)和网络接口设备320中的一个或多个。

磁盘驱动器单元316包括机器可读介质322，在该机器可读介质上存储了一组或多组指令324和数据结构(例如，软件指令)，这些指令和数据结构由本文所述的任何一种或多种方法或功能体现或使用。在计算机系统300执行指令324的过程中，指令324也可以全部或至少部分地驻留在主存储器304中或处理器302中，主存储器304和处理器302也构成机器可读介质。

尽管在示例实施例中将机器可读介质322示出为单个介质，但是术语“机器可读介质”可以包括存储一个或多个指令的单个介质或多个介质(例如，集中式或分布式数据库或相关联的缓存和服务器)。术语“机器可读介质”也应被认为包括能够存储、编码或携带用于由机器执行的指令并且使机器执行本发明的实施例的任何一种或多种方法，或能够存储、编码或携带由此类指令使用或与之相关联的数据结构的任何有形介质。因此，术语“机器可读存储介质”应被认为包括但不限于固态存储器以及可以以非暂时性方式存储信息的光学和磁性介质，即能够存储信息的介质。机器可读介质的特定示例包括非易失性存储器，例如包括半导体存储设备(例如，可擦可编程只读存储器(eprom)、电可擦可编程只读存储器(eeprom)和闪存设备)；磁盘，诸如内部硬盘和可移动磁盘；磁光盘；以及cd-rom和dvd-rom磁盘。

指令324还可以经由网络接口设备320使用信号传输介质并利用许多公知的传输协议(例如，ftp、http)中的任何一种在通信网络326上被发送或接收。通信网络的示例包括局域网(lan)、广域网(wan)、互联网、移动电话网络、普通老式电话(pots)网络和无线数据网络(例如wifi和wimax网络)。术语“机器可读信号介质”应被认为包括能够存储、编码或携带由机器执行的指令的任何暂时性无形介质，并且包括数字或模拟通信信号或其他无形介质以促进这样的软件的通信。

尽管已经参考特定示例实施例描述了本发明主题的概述，但是在不脱离本发明实施例的更广泛精神和范围的情况下，可以对这些实施例进行各种修改和改变。仅出于方便起见，本文中可以单独地或共同地用术语“发明”来指代发明主题的此类实施例，并且如果实际上公开了多个以上的发明，则不希望将本申请的范围自动限制为任何单个发明或发明概念。

从前面的描述中可以明显看出，本发明主题的某些方面不受本文所示示例的特定细节的限制，因此可以预期，本领域技术人员将想到其他修改和应用或其等同形式。因此，意图是权利要求书将覆盖不脱离发明主题的精神和范围的所有这样的修改和应用。因此，显然旨在使本发明主题仅由所附权利要求及其等同物限制。

提供摘要以符合37c.f.r.§1.72(b)，以允许读者快速确定技术公开的性质和要旨。提交摘要时应理解为将不用于限制权利要求的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：P.库尔丁;O.弗尔切克
技术所有人：爱维士软件有限责任公司
我是此专利的发明人

上一篇：一种基于拉盖尔高斯变换的旋转物体成像系统的制作方法
上一篇：面向深度学习的医学影像标注方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。