一种确定文件类型并对文件类型进行识别的方法及装置与流程

文档序号:28804719发布日期:2022-02-09 01:36阅读:75来源:国知局
一种确定文件类型并对文件类型进行识别的方法及装置与流程

1.本发明涉及数据安全领域,尤其涉及一种确定文件类型并对文件类型进行识别的方法及装置。


背景技术:

2.在数据防泄漏系统中,特别是邮件系统,通常预先设定对某些特定类型的文件进行拦截的手段,但对于企业内部常常存在若干自定义的文件,这些文件的类型不属于常规的文件类型,在数据防泄漏系统中难以预先设定文件类型,在对文件进行识别时,也难以识别文件的类型,因此,造成难于有效拦截文件,造成数据泄漏。


技术实现要素:

3.为解决上述技术问题,本发明提出了一种确定文件类型并对文件类型进行识别的方法及装置,所述方法及装置,用以解决现有技术中当前已知的文件类型识别工具或者方案,如文件扩展名、tika识别、mime type等,不能标识自定义文件、难于按需求识别某些专有文件、自定义文件难于确定文件类型、自定义文件难于进行有效拦截的技术问题。
4.根据本发明的第一方面,提供一种确定文件类型并对文件类型进行识别的方法,所述方法包括以下步骤:
5.步骤s101:获取一组未确定文件类型的自定义文件和/或企业内部专有文件,确定所述自定义文件和/或企业内部专有文件的共有部分;所述未确定文件类型的自定义文件和/或企业内部专有文件是能够根据共同的文件头信息来确定是同一类文件的企业内部文件;
6.步骤s102:控制台系统将确定出的所述共有部分结合所述未确定文件类型的自定义文件和/或企业内部专有文件的企业内部约定类型,确定文件签名;所述企业内部约定类型是基于所述企业的命名规范确定的,所述文件签名用于标识一组相同类型的文件的信息;
7.步骤s103:所述控制台系统保存所述文件签名,并将保存的文件签名下发到文件解析系统;
8.步骤s104:所述文件解析系统接收所述控制台系统下发的文件签名列表;所述文件签名列表包括所述控制台系统保存的全部文件签名;
9.步骤s105:所述文件解析系统接收用户发送的文件,确定所述用户发送的文件内容是否与文件签名列表匹配;若匹配,进入步骤s106;若不匹配,方法结束;
10.步骤s106:对所述用户发送的文件设置文件签名,基于文件管控策略,确定所述用户发送的文件的控制方式。
11.根据本发明第二方面,提供一种确定文件类型并对文件类型进行识别的装置,所述装置包括:
12.共有部分查找模块:配置为获取一组未确定文件类型的自定义文件和/或企业内
部专有文件,确定所述自定义文件和/或企业内部专有文件的共有部分;所述未确定文件类型的自定义文件和/或企业内部专有文件是能够根据共同的文件头信息来确定是同一类文件的企业内部文件;
13.文件签名模块:配置为控制台系统将确定出的所述共有部分结合所述未确定文件类型的自定义文件和/或企业内部专有文件的企业内部约定类型,确定文件签名;所述企业内部约定类型是基于所述企业的命名规范确定的,所述文件签名用于标识一组相同类型的文件的信息;
14.下发文件签名模块:配置为所述控制台系统保存所述文件签名,并将保存的文件签名下发到文件解析系统;
15.文件签名接收模块:配置为所述文件解析系统接收所述控制台系统下发的文件签名列表;所述文件签名列表包括所述控制台系统保存的全部文件签名;
16.匹配模块:配置为所述文件解析系统接收用户发送的文件,确定所述用户发送的文件内容是否与文件签名列表匹配;
17.文件管控模块:配置为对所述用户发送的文件设置文件签名,基于文件管控策略,确定所述用户发送的文件的控制方式。
18.根据本发明第三方面,提供一种确定文件类型并对文件类型进行识别的系统,包括:
19.处理器,用于执行多条指令;
20.存储器,用于存储多条指令;
21.其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的确定文件类型并对文件类型进行识别的方法。
22.根据本发明第四方面,提供一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的确定文件类型并对文件类型进行识别的方法。
23.根据本发明的上述方案,在邮件数据防漏泄系统中支持识别自定义文件类型,并配置相关策略对自定义文件类型进行处理,支持导入需要提取类型的一组文件,通过读取文件内容,从文件内容中提取从头开始到内容的某一个位置,直至找到相同的部分,将这部分内容编码保存,作为该类文件的签名。待用户在邮件发送附件时,使用已提取的文件签名,与邮件附件进行比对,如果发现附件内容与文件签名相匹配,则对附件文件进行标识,通过预先设置的策略,对已标识的文件进行相应的处理,如放行、保存、拦截等。该方案应用于需要识别自定义文件类型的dlp产品中。本方案支持自定义文件类型,提取文件签名信息;能够识别文件内容,使用已提取的文件签名信息,识别文件类型。
24.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
25.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前
提下,还可以根据这些附图获得其他的附图。
26.图1为本发明一个实施方式的确定文件类型并对文件类型进行识别的方法流程图;
27.图2为本发明一个实施方式的确定文件类型并对文件类型进行识别的总体方案示意图;
28.图3(a)-图3(g)分别为本发明提取文件签名、下发文件签名、获取文件签名、获取待解析的文件、读取文件内容、匹配文件类型、保存识别结果的示意图;
29.图4为本发明一个实施方式的系统架构图;
30.图5为本发明一个实施方式的确定文件类型并对文件类型进行识别的装置结构框图。
具体实施方式
31.定义:
32.文件类型提取:从一组相同类型的文件的内容中,提取共同的部分标识该类文件;
33.文件签名:用于标识一组相同类型的文件的信息;
34.文件类型识别:根据已提取的文件签名,识别相同类型的文件,并标识。
35.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
36.首先结合图1-2说明为本发明一个实施方式的确定文件类型并对文件类型进行识别的方法。所述方法包括以下步骤:
37.步骤s101:获取一组未确定文件类型的自定义文件和/或企业内部专有文件,确定所述自定义文件和/或企业内部专有文件的共有部分;所述未确定文件类型的自定义文件和/或企业内部专有文件是指可以根据共同的文件头信息来确定是同一类文件的企业内部文件;
38.本实施例中,例如明朝万达v3加密邮件文件,所述未确定文件类型的自定义文件和/或企业内部专有文件还包括其余更多满足条件的文件。
39.步骤s102:控制台系统将确定出的所述共有部分结合所述未确定文件类型的自定义文件和/或企业内部专有文件的企业内部约定类型,确定文件签名;所述企业内部约定类型是基于所述企业的命名规范确定的,所述文件签名用于标识一组相同类型的文件的信息;
40.步骤s103:所述控制台系统保存所述文件签名,并将保存的文件签名下发到文件解析系统;
41.步骤s104:所述文件解析系统接收所述控制台系统下发的文件签名列表;所述文件签名列表包括所述控制台系统保存的全部文件签名;
42.步骤s105:所述文件解析系统接收用户发送的文件,确定所述用户发送的文件内容是否与文件签名列表匹配;若匹配,进入步骤s106;若不匹配,方法结束;
43.步骤s106:对所述用户发送的文件设置文件签名,基于文件管控策略,确定所述用
户发送的文件的控制方式。
44.本实施例中,所述一组未确定文件类型的自定义文件和/或企业内部专有文件,一组的文件数量至少为三个。
45.本实施例中,在数据防泄漏系统中,如果当前已知的文件类型不能标识、拦截未确定文件类型的自定义文件和/或企业内部专有文件,则可以将所述未确定文件类型的自定义文件和/或企业内部专有文件作为样本文件,准备一组未确定文件类型的自定义文件和/或企业内部专有文件用于确定文件签名。
46.进一步地,所述获取一组未确定文件类型的自定义文件和/或企业内部专有文件,确定所述自定义文件和/或企业内部专有文件的共有部分,包括:获取所述未确定文件类型的自定义文件和/或企业内部专有文件的头文件,从头文件中查找该组文件的共同部分,若该组文件中没有共同部分,方法结束;若存在共同部分,则获取所述共同部分。
47.所述未确定文件类型的自定义文件和/或企业内部专有文件的企业内部约定类型,所述企业内部约定类型是基于所述企业的命名规范确定的,包括:
48.基于企业内部的命名规范,确定企业内部对所述未确定文件类型的自定义文件和/或企业内部专有文件的命名,从命名中确定企业内部约定类型。例如,获取命名中类似文件扩展名的字段作为企业内部约定类型。
49.控制台系统将确定出的所述共有部分结合所述未确定文件类型的自定义文件和/或企业内部专有文件的企业内部约定类型,确定文件签名。即提取文件的头部信息,找到这类文件的共同部分,与文件的企业内部约定类型(企业内部称呼该类型的名称,可以是一个类似文件扩展名的字段)一起作为文件签名,用于标识这类文件。
50.进一步地,所述控制台系统在确定出文件签名后,保存所述文件签名,本实施例支持提取多个文件签名、以及对其他文件进行解析,根据解析确定的文件签名,识别所述其他文件的文件类型。所述控制台系统还用于下发文件签名,以及管理可视化界面,所述可视化界面用于展示信息。
51.所述步骤s103中,通过将文件签名下发到类型识别进程的方式,实现文件签名的下发。
52.所述步骤s105:所述文件解析系统接收用户发送的文件,确定所述用户发送的文件内容是否与文件签名列表匹配,包括:
53.所述文件解析系统获取用户发送的文件,例如,用户发送的邮件;将所述用户发送的文件作为待匹配的文件,所述文件解析系统基于从所述控制台系统获取的文件签名列表,将所述待匹配的文件进行对比。例如,将己提取的文件签名列表逐个与要匹配的文件内容的头部开始作对比。
54.所述步骤s106:对所述用户发送的文件设置文件签名,基于文件管控策略,确定所述用户发送的文件的控制方式,其中:
55.匹配成功时,则将该待匹配的文件的类型设置为匹配的文件签名中指定的文件类型,将已识别文件的信息上报到控制台系统进行展示。
56.本实施例中,所述文件解析系统接收控制台系统下发的文件签名列表,并支持接收文件,识别文件内容;使用文件签名列表,逐个与已识别的文件内容作比对,如果文件内容与某一个文件签名匹配,则使用文件签名中已指定的文件类型标识该文件,即设置该文
的类型;最后,将已识别文件的信息上报到控制台展示。
57.如图3(a)-图3(g)所示,本实施例中,通过将一组未确定文件类型的自定义文件和/或企业内部专有文件设置为样本文件,通过控制台系统上传样本文件,进而确定文件签名,并保存文件签名。所述控制台系统将文件签名列表下发至文件类型识别系统。所述文件解析系统获取文件签名列表,所述文件签名列表用于类型识别。所述文件解析系统获取用户发送的文件,作为要解析的文件,通过读取文件内容,匹配要解析的文件的文件签名,确定所述要解析的文件的文件类型,存储识别的文件类型。
58.如图4所示,本发明通过控制台系统和文件解析系统协作完成,由文件解析系统从独立的文件服务器获取文件。
59.本发明实施例进一步给出一种确定文件类型并对文件类型进行识别的装置,如图5所示,所述装置包括:
60.共有部分查找模块:配置为获取一组未确定文件类型的自定义文件和/或企业内部专有文件,确定所述自定义文件和/或企业内部专有文件的共有部分;所述未确定文件类型的自定义文件和/或企业内部专有文件是能够根据共同的文件头信息来确定是同一类文件的企业内部文件;
61.文件签名模块:配置为控制台系统将确定出的所述共有部分结合所述未确定文件类型的自定义文件和/或企业内部专有文件的企业内部约定类型,确定文件签名;所述企业内部约定类型是基于所述企业的命名规范确定的,所述文件签名用于标识一组相同类型的文件的信息;
62.下发文件签名模块:配置为所述控制台系统保存所述文件签名,并将保存的文件签名下发到文件解析系统;
63.文件签名接收模块:配置为所述文件解析系统接收所述控制台系统下发的文件签名列表;所述文件签名列表包括所述控制台系统保存的全部文件签名;
64.匹配模块:配置为所述文件解析系统接收用户发送的文件,确定所述用户发送的文件内容是否与文件签名列表匹配;
65.文件管控模块:配置为对所述用户发送的文件设置文件签名,基于文件管控策略,确定所述用户发送的文件的控制方式。
66.本发明实施例进一步给出一种确定文件类型并对文件类型进行识别的系统,包括:
67.处理器,用于执行多条指令;
68.存储器,用于存储多条指令;
69.其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的确定文件类型并对文件类型进行识别的方法。
70.本发明实施例进一步给出一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的确定文件类型并对文件类型进行识别的方法。
71.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
72.在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以
通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
73.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
74.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
75.上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,实体机服务器,或者网络云服务器等,需安装windows或者windows server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
76.以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1