一种文件检测的方法与设备的制造方法

文档序号:10553251阅读:324来源:国知局
一种文件检测的方法与设备的制造方法
【专利摘要】本申请的目的是提供一种文件检测的方法与设备。与现有技术相比,本申请通过获取待检测文件,并抽取所述待检测文件中的内容信息,将所述内容信息与预设的策略进行匹配,得到匹配结果,若所述匹配结果为匹配成功,执行策略触发动作。本申请采用预设策略对待检测文档的内容信息进行检测,实现了只检测待检测文档中的内容信息,避免了对内容载体的加密处理,提高了企业的运行效率。同时,若待检测文件中的内容信息与预设的策略匹配,则执行策略触发动作,即对窃取企业机密数据的行为进行报警和阻断,可使得企业的机密数据、信息得到有效的保护。
【专利说明】
_种文件检测的方法与设备
技术领域
[0001]本申请涉及计算机领域,尤其涉及一种文件检测的技术。
【背景技术】
[0002]企业机密数据、信息被盗一直是一个令企业担忧的问题。目前,为了解决企业数据通过无线网络、USB等存储设备泄密的问题,一些安全厂商提出了一些解决方案,虽然起到了一定的防护作用,但是也存在很大的漏洞与不足:
[0003](I)物理隔绝技术:有些企业不提供上网环境,有线网络、无线WiFi等都不允许私自使用。PC端直接封堵或者拆除USB接口。但是,这样一来,各种网络资源得不到员工的充分利用,USB接口的封堵也限制了其他USB设备的使用,给员工的正常工作带来了一些麻烦,同时也降低了工作的效率。
[0004](2)文件加密技术:有些企业采用加解密技术,对某一类型的文档进行统一加密,例如财务部门可能会把所有的excel文件进行加密、创作部门可能会把所有的word文件进行加密。这样员工窃取加密后的文件也不能使用。这种技术的缺点在于一刀切,要么word文档全部加密、要么不加密。而且,这样导致员工的普通word文档也遭到强制加密,给员工日常生活的文件传输带来了困扰。另外,文件统一加密的缺陷也是很明显的,员工很容易将一个文件的内容转换为其他格式的文件从而逃避加密处理。
[0005]无论是物理隔绝技术还是文件加密技术,都在实际使用中存在有极大的弊端与麻烦,其不能既防护企业机密数据、信息被盗,又能不影响员工的日常工作、降低其工作效率。

【发明内容】

[0006]本申请的一个目的是提供一种文件检测的方法和设备。
[0007]根据本申请的一个方面,提供了一种文件检测的方法,其中,该方法包括:
[0008]获取待检测文件,并抽取所述待检测文件中的内容信息;
[0009]将所述内容信息与预设的策略进行匹配,得到匹配结果;
[0010]若所述匹配结果为匹配成功,则执行策略触发动作。
[0011]根据本申请的另一个方面,提供了一种文件检测的设备,其中,该设备包括:
[0012]第一装置,用于获取待检测文件,并抽取所述待检测文件中的内容信息;
[0013]第二装置,用于将所述内容信息与预设的策略进行匹配,得到匹配结果;
[0014]第三装置,用于当若所述匹配结果为匹配成功时,则执行策略触发动作。
[0015]与现有技术相比,本申请通过获取待检测文件,并抽取所述待检测文件中的内容信息,将所述内容信息与预设的策略进行匹配,得到匹配结果,若所述匹配结果为匹配成功,执行策略触发动作。本申请采用预设策略对待检测文档的内容信息进行检测,实现了只检测待检测文档中的内容信息,避免了对内容载体的加密处理,提高了企业的运行效率。同时,若待检测文件中的内容信息与预设的策略匹配,则执行策略触发动作,即对窃取企业机密数据的行为进行报警和阻断,可使得企业的机密数据、信息得到有效的保护。
【附图说明】
[0016]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0017]图1示出根据本申请一个方面的一种文件检测的方法流程图;
[0018]图2示出根据本申请一个优选实施例的一种文件检测的方法流程图;
[0019]图3示出根据本申请另一个方面的一种文件检测的设备示意图;
[0020]图4示出根据本申请一个优选实施例的一种文件检测的设备示意图。
[0021]附图中相同或相似的附图标记代表相同或相似的部件。
【具体实施方式】
[0022 ]下面结合附图对本申请作进一步详细描述。
[0023]在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0024]内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
[0025]计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0026]图1示出根据本申请一个方面的一种文件检测的方法流程图,其中,该方法包括步骤Sll、步骤S12和步骤S13。具体地,在步骤Sll中,设备I获取待检测文件,并抽取所述待检测文件中的内容信息;在步骤S12中,设备I将所述内容信息与预设的策略进行匹配,得到匹配结果;在步骤S13中,若所述匹配结果为匹配成功,设备I则执行策略触发动作。
[0027]在此,所述设备I包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于计算机、触控终端等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地,设备I还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的脚本程序。当然,本领域技术人员应能理解上述设备I仅为举例,其他现有的或今后可能出现的设备I如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
[0028]在步骤Sll中,设备I获取待检测文件,并抽取所述待检测文件中的内容信息。
[0029]例如,设备I通过网关分析FTP、http、smtp、pop3、smb等协议获取待检测的原始文件A和描述原始文件的文件B,其中,所获取的原始文件A包括word文件、excel文件、PowerPoint文件、PDF文件、xml文件、html文件、图片文件、7z文件、rar文件和z ip文件;描述原始文件的文件B中含有文件协议、源/目的IP和端口号、文件大小、文件类型和原始文件路径等信息。获取所述待检测文件后,从所获取的原始文件A中抽取内容信息。
[0030]优选地,在步骤Sll中,设备I获取用户上传、下载或者复制到存储介质中的文件。
[0031]例如,设备I通过网关分析、抓取用户上传至网络中的文件、从网络上下载的文件,或者通过信息获取技术(例如hook)抓取用户复制到U盘、硬盘等USB存储介质中文件,对所抓取的文件进行检测,以免用户利用此种机会将企业机密信息窃取之。
[0032]优选地,抽取的内容信息为所述待检测文件中的所有文本信息,即在步骤Sll中,设备I抽取所述待检测文件中的所有文本信息。
[0033]例如,设备I抽取通过网关分析、抓取的用户上传至网络中或者从网络中下载的word文件、excel文件、PowerPoint文件、PDF文件、xml文件、html文件、图片文件、7z文件、rar文件和zip文件中的所有文本信息,且只抽取文本信息;或者通过hook抓取用户复制至USB存储介质中的word文件、excel文件、PowerPoint文件、PDF文件、xml文件、html文件、图片文件、7z文件、rar文件和zip文件中的所有文本信息,且只抽取文本信息。比如说,在图片文件中,如果既有图像内容,也有描述或者解释图片的文字内容的话,则设备I在抽取该图片文件中的内容信息时,只抽取其中的文字内容,对于图像内容则不进行抽取。
[0034]在步骤S12中,设备I将所述内容信息与预设的策略进行匹配,得到匹配结果。
[0035]具体地,在进行文件检测之前,用户首先需要自定义相应的策略,策略包含策略名称、策略级别、策略内容以及策略触发动作。设备I将所抽取出来的内容信息与这些自定义的策略进行匹配,若所述内容信息能与其中任一项策略匹配,则得到匹配结果。
[0036]优选地,在步骤S12中,设备I按照策略级别由高至低,将所述内容信息依次与预设的策略中的策略内容进行匹配,若匹配成功,则得到匹配结果;否则,与下一策略级别的策略中的策略内容进行匹配。
[0037]例如,用户在自定义相应的策略时,基于策略中策略内容的重要程度为每一个策略定义不同的策略级别。在抽取了待检测文件中的内容信息后,设备I将会按照预先定义的策略级别的高低顺序,将所述内容信息与策略中的策略内容进行匹配,也就是说,设备I首先会将所述内容信息与最高策略级别的策略中的策略内容进行匹配,所述内容信息符合该最高策略级别的策略中的策略内容的话,则得到匹配结果;若所述内容信息与该最高策略级别的策略中的策略内容不匹配的话,则将该内容信息与下一策略级别的策略中的策略内容进行匹配。
[0038]优选地,在步骤S12中,所述策略内容至少包括关键字、结构化信息、文件指纹和机器学习模型中的任一项。
[0039]具体地,在每一个策略级别的策略中的策略内容包括关键字、结构化信息、文件指纹和机器学习模型中的至少一项。在进行文件检测之前,用户可以自定义这些策略内容。
[0040]比如说,用户可以定义一些关键的词汇,如财务数据、VIP会员、中央人民银行等来实现策略内容包括关键字的策略。用户可以定义如何使用身份证号、银行卡号、手机号、社保号等结构化数据来实现策略内容包括结构化信息的策略。结构化数据是用户自定义或者选取的满足一定规则的数据,比如说身份证号,并不是说任意18位数字组合都是一个有效的身份证号、都是一个结构化数据,用户可以自定义为有效的身份证号必须满足其第七位至第十四位为有效的出生年月日的18位数字的组合或者前六位特定规则排序的18位数字的组合。
[0041]用户还可以采用设置文件指纹作为策略内容。所述文件指纹是文件的唯一标识,比如说文件的md5(message_digest algorithm 5,信息摘要算法第五版)码。实际应用中,可以采用模糊哈希算法等类似的算法,对企业机密文档进行文件指纹入库操作,当用户上传、下载或者复制到存储介质中的文件指纹与文件指纹数据库中的指纹相似度达到了设定的阈值,则说明该被上传、下载或者复制的文件属于企业的机密文件,即与该项策略内容匹配。
[0042]用户也可以对企业内部文件进行贝叶斯模型训练来生成可用的机器学习模型,并对被上传、下载或者复制到存储介质中文件是否符合贝叶斯分类器所生成的机器学习模型进行判断,若被上传、下载或者复制的文件符合所述的机器学习模型(例如与机器学习模型的相似度超过了设定的阈值)则说明该被上传、下载或者复制的文件属于企业的机密文件,即与该项策略内容匹配。
[0043]在将所述内容信息与任一策略级别中的策略内容进行匹配时,只要所述内容信息能够与该策略级别的策略内容中的任一项内容匹配,则就匹配成功,得到匹配结果;当所述内容信息与该策略级别的所有策略内容均不匹配时,则进行下一策略级别的策略内容的匹配。
[0044]在步骤S13中,设备I若所述匹配结果为匹配成功,则执行策略触发动作。
[0045]具体地,若所述内容信息与任一策略级别中的策略内容相匹配,则匹配成功,执行相应的策略触发动作。
[0046]优选地,在步骤S13中,所述执行策略触发动作至少包括记录日志、发送报警信息和阻断网络中的任一项。
[0047]具体地,在自定义相应的策略时,用户可以根据策略级别的高低来区分待检测文档的机密程度,并基于该待检测文档的机密程度,执行相应的策略触发动作,这些策略触发动作可以是记录日志、发送报警信息和阻断网络中任一项或者任意几项。比如说,待检测文档的内容信息与最高策略级别的策略内容相匹配的话,用户可以自定义策略触发动作为阻断网络(即向代理服务器或者防火墙发送断网策略,阻断指定源/目的IP与端口的通信)和发送报警信息(向指定的Email发送邮件或者向指定的手机号发送短信,或者两者兼发);再比如说,待检测文档的内容信息只是与最低策略级别的策略内容相匹配的话,用户可以自定义策略触发动作仅仅为记录日志,即记录用户上传或者下载了何种文件的日志。
[0048]图2示出根据本申请一个优选实施例的一种文件检测的方法流程图。
[0049]该方法包括步骤S11’、步骤S12’、步骤S13’和步骤S14’。在此,所述步骤S11’、步骤S12 ’、步骤S13 ’与图1中的步骤S11、步骤S12、步骤S13的内容相同或基本相同,为简明起见,不再赘述。
[0050]具体地,在步骤S14’中,设备I通过训练样本文件更新所述文件指纹和机器学习模型。
[0051 ] 例如,随着企业业务的发展,企业的机密内容会跟着变化,因而,企业的管理员可以将近期的企业机密文档加入到指定的目录中,设备I会通过诸如内容更新器等自动向文件指纹数据库中增加文件指纹、更新贝叶斯模型训练的训练样本,以此来更新文件指纹和机器学习模型。
[0052]图3示出根据本申请一个方面的一种文件检测的设备示意图,其中,该设备I包括第一装置U、第二装置12和第三装置13。具体地,所述第一装置11获取待检测文件,并抽取所述待检测文件中的内容信息;所述第二装置12将所述内容信息与预设的策略进行匹配,得到匹配结果;所在第三装置13若所述匹配结果为匹配成功,则执行策略触发动作。
[0053]在此,所述设备I包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于计算机、触控终端等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地,设备I还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的脚本程序。当然,本领域技术人员应能理解上述设备I仅为举例,其他现有的或今后可能出现的设备I如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
[0054]所述第一装置11获取待检测文件,并抽取所述待检测文件中的内容信息。
[°°55] 例如,所述第一装置11通过网关分析?1?、111^口、811^口4(^3、811113等协议获取待检测的原始文件A和描述原始文件的文件B,其中,所获取的原始文件A包括word文件、excel文件、PowerPoint文件、PDF文件、xml文件、html文件、图片文件、7z文件、rar文件和z ip文件;描述原始文件的文件B中含有文件协议、源/目的IP和端口号、文件大小、文件类型和原始文件路径等信息。获取所述待检测文件后,从所获取的原始文件A中抽取内容信息。
[0056]优选地,所述第一装置11获取用户上传、下载或者复制到存储介质中的文件。
[0057]例如,所述第一装置11通过网关分析、抓取用户上传至网络中的文件、从网络上下载的文件,或者通过信息获取技术(例如hook)抓取用户复制到U盘、硬盘等USB存储介质中文件,对所抓取的文件进行检测,以免用户利用此种机会将企业机密信息窃取之。
[0058]优选地,抽取的内容信息为所述待检测文件中的所有文本信息,即所述第一装置11抽取所述待检测文件中的所有文本信息。
[0059]例如,所述第一装置11抽取通过网关分析、抓取的用户上传至网络中或者从网络中下载的word文件、excel文件、PowerPoint文件、PDF文件、xml文件、html文件、图片文件、7z文件、rar文件和zip文件中的所有文本信息,且只抽取文本信息;或者通过hook抓取用户复制至USB存储介质中的word文件、excel文件、PowerPoint文件、PDF文件、xml文件、html文件、图片文件、7z文件、rar文件和zip文件中的所有文本信息,且只抽取文本信息。比如说,在图片文件中,如果既有图像内容,也有描述或者解释图像的文字内容的话,则所述第一装置11在抽取该图片文件中的内容信息时,只抽取其中的文字内容,对于图像内容则不进行抽取。
[0060]所述第二装置12将所述内容信息与预设的策略进行匹配,得到匹配结果。
[0061 ]具体地,在进行文件检测之前,用户首先需要自定义相应的策略,策略包含策略名称、策略级别、策略内容以及策略触发动作。所述第二装置12将所抽取出来的内容信息与这些自定义的策略进行匹配,若所述内容信息能与其中任一项策略匹配,则得到匹配结果。
[0062]优选地,所述第二装置12按照策略级别由高至低,将所述内容信息依次与预设的策略中的策略内容进行匹配,若匹配成功,则得到匹配结果;否则,与下一策略级别的策略中的策略内容进行匹配。
[0063]例如,用户在自定义相应的策略时,基于策略中策略内容的重要程度为每一个策略定义不同的策略级别。在抽取了待检测文件中的内容信息后,所述第二装置12将会按照预先定义的策略级别的高低顺序,将所述内容信息与策略中的策略内容进行匹配,也就是说,所述第二装置12首先会将所述内容信息与最高策略级别的策略中的策略内容进行匹配,所述内容信息符合该最高策略级别的策略中的策略内容的话,则得到匹配结果;若所述内容信息与该最高策略级别的策略中的策略内容不匹配的话,则将该内容信息与下一策略级别的策略中的策略内容进行匹配。
[0064]优选地,所述第二装置12中,所述策略内容至少包括关键字、结构化信息、文件指纹和机器学习模型中的任一项。
[0065]具体地,在每一个策略级别的策略中的策略内容包括关键字、结构化信息、文件指纹和机器学习模型中的至少一项。在进行文件检测之前,用户可以自定义这些策略内容。
[0066]比如说,用户可以定义一些关键的词汇,如财务数据、VIP会员、中央人民银行等来实现策略内容包括关键字的策略。用户可以定义如何使用身份证号、银行卡号、手机号、社保号等结构化数据来实现策略内容包括结构化信息的策略。结构化数据是用户自定义或者选取的满足一定规则的数据,比如说身份证号,并不是说任意18位数字组合都是一个有效的身份证号、都是一个结构化数据,用户可以自定义为有效的身份证号必须满足其第七位至第十四位为有效的出生年月日的18位数字的组合或者前六位特定规则排序的18位数字的组合。
[0067]用户还可以采用设置文件指纹作为策略内容。所述文件指纹是文件的唯一标识,比如说文件的md5(message_digest algorithm 5,信息摘要算法第五版)码。实际应用中,可以采用模糊哈希算法等类似的算法,对企业机密文档进行文件指纹入库操作,当用户上传、下载或者复制到存储介质中的文件指纹与文件指纹数据库中的指纹相似度达到了设定的阈值,则说明该被上传、下载或者复制的文件属于企业的机密文件,即与该项策略内容匹配。
[0068]用户也可以对企业内部文件进行贝叶斯模型训练来生成可用的机器学习模型,并对被上传、下载或者复制到存储介质中文件是否符合贝叶斯分类器所生成的机器学习模型进行判断,若被上传、下载或者复制的文件符合所述的机器学习模型(例如与机器学习模型的相似度超过了设定的阈值)则说明该被上传、下载或者复制的文件属于企业的机密文件,即与该项策略内容匹配。。
[0069]在将所述内容信息与任一策略级别中的策略内容进行匹配时,只要所述内容信息能够与该策略级别的策略内容中的任一项内容匹配,则就匹配成功,得到匹配结果;当所述内容信息与该策略级别的所有策略内容均不匹配时,则进行下一策略级别的策略内容的匹配。
[0070]所述第三装置13若所述匹配结果为匹配成功,则执行策略触发动作。
[0071]具体地,若所述内容信息与任一策略级别中的策略内容相匹配,则匹配成功,执行相应的策略触发动作。
[0072]优选地,所述第三装置13中,所述执行策略触发动作至少包括记录日志、发送报警信息和阻断网络中的任一项。
[0073]具体地,在自定义相应的策略时,用户可以根据策略级别的高低来区分待检测文档的机密程度,并基于该待检测文档的机密程度,执行相应的策略触发动作,这些策略触发动作可以是记录日志、发送报警信息和阻断网络中任一项或者任意几项。比如说,待检测文档的内容信息与最高策略级别的策略内容相匹配的话,用户可以自定义策略触发动作为阻断网络(即向代理服务器或者防火墙发送断网策略,阻断指定源/目的IP与端口的通信)和发送报警信息(向指定的Email发送邮件或者向指定的手机号发送短信,或者两者兼发);再比如说,待检测文档的内容信息只是与最低策略级别的策略内容相匹配的话,用户可以自定义策略触发动作仅仅为记录日志,即记录用户上传或者下载了何种文件的日志。
[0074]图4示出根据本申请一个优选实施例的一种文件检测的设备示意图。
[0075]该设备I包括第一装置11’、第二装置12’、第三装置13’和第四装置14’。在此,所述第一装置11’、第二装置12’、第三装置13’与图3中的第一装置11、第二装置12、第三装置13的内容相同或基本相同,为简明起见,不再赘述。
[0076]具体地,所述第四装置14’通过训练样本文件更新所述文件指纹和机器学习模型。
[0077]例如,随着企业业务的发展,企业的机密内容会跟着变化,因而,企业的管理员可以将近期的企业机密文档加入到指定的目录中,所述第四装置14’会通过诸如内容更新器等自动向文件指纹数据库中增加文件指纹、更新贝叶斯模型训练的训练样本,以此来更新文件指纹和机器学习模型。
[0078]与现有技术相比,本申请通过获取待检测文件,并抽取所述待检测文件中的内容信息,将所述内容信息与预设的策略进行匹配,得到匹配结果,若所述匹配结果为匹配成功,执行策略触发动作。本申请采用预设策略对待检测文档的内容信息进行检测,实现了只检测待检测文档中的内容信息,避免了对内容载体的加密处理,提高了企业的运行效率。同时,若待检测文件中的内容信息与预设的策略匹配,则执行策略触发动作,即对窃取企业机密数据的行为进行报警和阻断,可使得企业的机密数据、信息得到有效的保护。
[0079]需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
[0080]另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
[0081]对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此夕卜,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
【主权项】
1.一种文件检测的方法,其中,该方法包括: 获取待检测文件,并抽取所述待检测文件中的内容信息; 将所述内容信息与预设的策略进行匹配,得到匹配结果; 若所述匹配结果为匹配成功,则执行策略触发动作。2.根据权利要求1所述的方法,其中,获取待检测文件,包括: 获取用户上传、下载或者复制到存储介质中的文件。3.根据权利要求1所述的方法,其中,抽取所述待检测文件中的内容信息,包括: 抽取所述待检测文件中的所有文本信息。4.根据权利要求1至3中任一项所述的方法,其中,所述策略包括策略级别以及至少一项策略内容; 将所述内容信息与预设的策略进行匹配,得到匹配结果,包括: 按照策略级别由高至低,将所述内容信息依次与预设的策略中的策略内容进行匹配,若匹配成功,则得到匹配结果;否则,与下一策略级别的策略中的策略内容进行匹配。5.根据权利要求4所述的方法,其中,所述策略内容至少包括关键字、结构化信息、文件指纹和机器学习模型中的任一项。6.根据权利要求5所述的方法,其中,该方法还包括: 通过训练样本文件更新所述文件指纹和机器学习模型。7.根据权利要求1所述的方法,其中,所述执行策略触发动作至少包括记录日志、发送报警信息和阻断网络中的任一项。8.一种文件检测的设备,其中,该设备包括: 第一装置,用于获取待检测文件,并抽取所述待检测文件中的内容信息; 第二装置,用于将所述内容信息与预设的策略进行匹配,得到匹配结果; 第三装置,用于在所述匹配结果为匹配成功时,则执行策略触发动作。9.根据权利要求8所述的设备,其中,获取待检测文件,包括: 获取用户上传、下载或者复制到存储介质中的文件。10.根据权利要求8所述的设备,其中,抽取所述待检测文件中的内容信息,包括: 抽取所述待检测文件中的所有文本信息。11.根据权利要求8至10中任一项所述的设备,其中,所述策略包括策略级别以及至少一项策略内容; 将所述内容信息与预设的策略进行匹配,得到匹配结果,包括: 按照策略级别由高至低,将所述内容信息依次与预设的策略中的策略内容进行匹配,若匹配成功,则得到匹配结果;否则,与下一策略级别的策略中的策略内容进行匹配。12.根据权利要求11所述的设备,其中,所述策略内容至少包括关键字、结构化信息、文件指纹和机器学习模型中的任一项。13.根据权利要求12所述的设备,其中,该设备还包括: 第四装置,用于通过训练样本文件更新所述文件指纹和机器学习模型。14.根据权利要求8所述的设备,其中,所述执行策略触发动作至少包括记录日志、发送报警信息和阻断网络中的任一项。
【文档编号】G06F21/62GK105912946SQ201610206473
【公开日】2016年8月31日
【申请日】2016年4月5日
【发明人】李梦雅, 王志龙, 石印
【申请人】上海上讯信息技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1