一种电子文档检测方法、装置、设备及存储介质与流程

文档序号:20187864发布日期:2020-03-27 19:19阅读:284来源:国知局
一种电子文档检测方法、装置、设备及存储介质与流程

本申请涉及信息安全技术领域,具体而言,涉及一种电子文档检测方法、装置、设备及存储介质。



背景技术:

在电子文档管理过程中,经常会出现人为或恶意软件把敏感内容隐藏在普通的文档附件中,对文档类型进行伪装、按照合法管理流程将文档携带出去。

现有技术中的电子文档检测方法中,通过对电子文档内容进行检测,判断电子文档内容中是否存在敏感内容或涉密信息。

但是这样的检测方法只能对电子文档的内容进行检测,若夹带者将涉密文件以夹带的方式隐藏在电子文档中,则通过建有技术的检测方法无法检测到该隐藏文件,从而会造成泄密的风险高。



技术实现要素:

本申请的目的在于,针对上述现有技术中的不足,提供一种电子文档检测方法、装置、设备及存储介质,以解决现有技术中无法检测到电子文档中夹带的隐藏信息,从而造成泄密风险高的问题。

为实现上述目的,本申请实施例采用的技术方案如下:

第一方面,本申请一实施例提供了一种电子文档检测方法,包括:

读取待检测文件的属性信息;

根据预设规则,在预设数据库匹配检测所述属性信息的一致性,获取属性一致性结果;

根据所述属性一致性结果,获取文件检测结果。

可选地,所述读取待检测文件的属性信息之前,还包括:

接收上传的文件数据;

根据文件层级,对所述文件数据进行剥离,获取至少一个子文件中符合待检测类型的所述待检测文件。

可选地,所述属性信息包括:文件头信息、文件参数信息;

所述根据预设规则,在预设数据库匹配检测所述属性信息的一致性,获取属性一致性结果,包括:

在预设数据库匹配检测所述文件头信息的一致性;

若所述文件头信息满足一致性,根据所述规则在所述数据库匹配依次检测所述文件参数信息的一致性,获取属性一致性结果。

可选地,所述在预设数据库匹配检测所述文件头信息的一致性之后,还包括:

若所述文件头信息不满足一致性,则确定所述待检测文件不满足一致性;或者,

若所述文件参数信息包含不满足一致性的文件参数信息,则确定所述待检测文件不满足一致性。

可选地,所述文件参数信息包括下述一项或多项:文件大小、文件密级、文件类型、文件元数据;其中,所述文件元数据包括下述一项或多项:数据规模、数据敏感度、数据结构。

可选地,所述根据所述属性一致性结果,获取文件检测结果之后,还包括:

根据所述文件检测结果,生成检测报表。

第二方面,本申请另一实施例提供了一种电子文档检测装置,所述装置包括:读取模块、检测模块和获取模块,其中:

所述读取模块,用于读取待检测文件的属性信息;

所述检测模块,用于根据预设规则,在预设数据库匹配检测所述属性信息的一致性,获取属性一致性结果;

所述获取模块,用于根据所述属性一致性结果,获取文件检测结果。

可选地,所述装置还包括:接收模块,用于接收上传的文件数据;

所述获取模块,还用于根据文件层级,对所述文件数据进行剥离,获取至少一个子文件中符合待检测类型的所述待检测文件。

可选地,所述属性信息包括:文件头信息、文件参数信息;

所述检测模块,还用于在预设数据库匹配检测所述文件头信息的一致性;

所述获取模块,若所述文件头信息满足一致性,根据所述规则在所述数据库匹配依次检测所述文件参数信息的一致性,获取属性一致性结果。

可选地,所述装置还包括:确定模块,用于若所述文件头信息不满足一致性,则确定所述待检测文件不满足一致性;或者,

若所述文件参数信息包含不满足一致性的文件参数信息,则确定所述待检测文件不满足一致性。

可选地,所述装置还包括:生成模块,用于根据所述文件检测结果,生成检测报表。

第三方面,本申请另一实施例提供了一种电子文档检测设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子文档检测设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述第一方面任一所述方法的步骤。

第四方面,本申请另一实施例提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述第一方面任一所述方法的步骤。

本申请的有益效果是:预设数据库根据预设规则,对读取待检测文件的属性信息进行判断,判断属性信息的一致性,并根据一致性结果获取文件检测结果,通过一致性的判断,可以确定待检测文件是否违规,通过对违规文档的及时检测,从而降低文档资源泄露的风险。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例提供的电子文档检测方法的流程示意图;

图2为本申请另一实施例提供的电子文档检测方法的流程示意图;

图3为本申请另一实施例提供的电子文档检测方法的流程示意图;

图4为本申请另一实施例提供的电子文档检测方法的流程示意图;

图5为本申请一实施例提供的电子文档检测装置的结构示意图;

图6为本申请另一实施例提供的电子文档检测装置的结构示意图;

图7为本申请另一实施例提供的电子文档检测装置的结构示意图;

图8为本申请另一实施例提供的电子文档检测装置的结构示意图;

图9为本申请一实施例提供的电子文档检测设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。

本申请可适用于电子文档检测的实现场景,例如:需要对一个文档或文件夹进行分析检测,判断其是否符合预设规则,即是否是合规数据,本申请提供的电子文档检测方法由设备执行,该设备可以为计算机设备、服务器或其他类型的设备,具体设备类型根据用户需要设计,本申请在此不做任何限制。

图1为本申请一实施例提供的一种电子文档检测方法的流程示意图,如图1所示,该方法包括:

s101:读取待检测文件的属性信息。

待检测文件的文件类型可以为officeword、ppt、excel、visio,wps,pdf、rar、zip、dwg、html、txt、bmp、jpeg等任一主流文件类型,本申请在此不做任何限制。

其中,文件的属性信息可以是用来描述文件或指示文件某些特征的信息等,例如文件类型、文件名等,在此不具体限制。

s102:根据预设规则,在预设数据库匹配检测属性信息的一致性,获取属性一致性结果。

其中,预设规则为用户预先配置好的相关规则,在使用过程中可以根据用户的需要调整优化。预设规则可以用来说明如何进行一致性检测,例如什么信息匹配预设数据库的什么信息等。

其中,预设数据库在匹配过程中,根据预设规则逐一比对待检测文件的属性信息是否满足预设规则,并根据比对结果反馈一致性的检测结果:若满足则返回属性一致结果,若不满足则返回属性不一致结果。

s103:根据属性一致性结果,获取文件检测结果。

其中,文件检测结果用于表示当前待检测文件是否违规,若接收到的结果为属性一致,则确定当前待检测文件未违规,为安全文件;若接收到的结果为属性不一致,则确定当前待检测文件违规,为夹带文件。

本实施例中,预设数据库根据预设规则,对读取待检测文件的属性信息进行判断,判断属性信息的一致性,并根据一致性结果获取文件检测结果,通过一致性的判断,可以确定待检测文件是否违规,通过对违规文档的及时检测,从而降低文档资源泄露的风险。

图2为本申请另一实施例提供的电子文档检测方法的流程示意图,如图2所示,s101之前,还包括:

s104:接收上传的文件数据。

其中,文件数据为用户选择的需要检测的文件或文件夹,选择操作可以为用户通过鼠标在多个文件或文件夹中勾选的,也可以为用户通过触屏的方式在多个文件或者文件夹中选择的,具体选择方式可以根据用户需要设计,本申请在此不做任何限制。

s105:根据文件层级,对文件数据进行剥离,获取至少一个子文件中符合待检测类型的待检测文件。

其中,对文件数据进行逐层提取与剥离,是为了对文件数据的一致性进行检查,判断文档中是否存在隐藏信息。

其中,若夹带者在一个word文档中,插入一个对象(例如:压缩文件.rar文件)并且把这个压缩文件隐藏,我们在打开这个文件的时候是看不到这个压缩文件的,所以在检查时,我们需要对接收的文件数据进行剥离后按照文件层级逐层检查。举例说明:若当前文件数据为文件夹或压缩文件,则会对文件数据进行逐层提取文件,并对逐层提取的每个文件进行分析检查;若当前文件数据为一个文件,但文件中有其他文件嵌入时,也需要逐层提取信息,不仅是提取外层文件信息,对嵌入的文件信息也会提取分析。

例如:文件数据为压缩包时,会将该压缩包打开后,对压缩包内的每个文件进行分析:获取到每个文件后,读取分析每个文件,判断当前文件内是否存在夹带文件,若不存在,则获取下一个文件进行读取分析;若存在,则获取夹带文件,并对夹带文件进行逐层提取剥离与分析。

可选地,属性信息包括:文件头信息、文件参数信息。

其中,文件头信息用于表示当前文件的文件类型,例如:jpg格式的文件文件头由16进制组成ffd8ff;pdf格式的文件文件头是%pdf-1。文件参数信息包括下述一项或多项:文件大小、文件密级、文件类型、文件元数据;其中,文件元数据包括下述一项或多项:数据规模、数据敏感度、数据结构。

图3为本申请另一实施例提供的电子文档检测方法的流程示意图,如图3所示,s102包括:

s106:在预设数据库匹配检测文件头信息的一致性。

在本申请的一个实施例中,预设规则将不同类型的文件对应的文件头结构作为一个规则,对当前待检测文件的文件头信息进行分析判断,判断当前待检测文件的文件头信息是否与文件主体信息一致,例如:若夹带者在pdf文件中夹带一张图片,在对该pdf文件进行判断时,该文件的文件头还是%pdf-1格式,但是文件主体却不是该文件头信息对应的文件主体,而是文件主体中有一个文件头ffd8ff的文件信息,即表示文件头信息与文件主体内容不一致,则该pdf文件就是一个违规文件。

s107:若文件头信息满足一致性,根据规则在数据库依次匹配检测文件参数信息的一致性,获取属性一致性结果。

可选地,在本申请的一个实施例中,若文件头信息不满足一致性,则确定待检测文件不满足一致性,则直接返回不满足一致性的结果,即当前待检测文件为夹带文件;若文件头信息满足一致性,但文件参数信息包含不满足一致性的文件参数信息,则确定待检测文件不满足一致性;若文件头信息和文件参数信息均满足一致性结果,则返回满足一致性的结果,即当前待检测文件为安全文件。

其中,若上传的文件数据中,剥离后的每一个待检测文件均为安全文件,则该文件数据为安全文件数据;如剥离后的待检测文件中,存在至少一个待检测文件为夹带文件,则该文件数据为夹带数据。

可选地,在本申请的一个实施例中,若待检测文件的文件头信息满足一致性,可进一步对待检测文件的文档内容进行编码转换,并对转换后的全文信息进行检索,判断是否存在敏感信息,若存在,则发出告警指令,指示当前待检测文件中存在敏感信息;若不存在,则认为该待检测文件为安全文件。

采用本申请提供的电子文档检测方法,对获取的文件数据的剥离,获取至少一个待检测文件,分别对至少一个待检测文件进行深度检查,通过对待检测文件的文件头信息和文件参数信息的逐一对比,从而确定文件数据中是否存在夹带现象,从而降低文档资源泄露的风险。

图4为本申请另一实施例提供的电子文档检测方法的流程示意图,如图4所示,s103之后,该方法还包括:

s108:根据文件检测结果,生成检测报表。

可选地,可以对未通过检测的文件数据生成检测报表;也可以对所有文件数据均生成检测报表;其中,检测报表中可以包括接收的上传文件数据的标识,检测结果、异常信息等;异常信息可包括:文件数据中的异常文件的标识、异常类型及异常位置;具体检测报表的生成方式,以及检测报表中包括的内容可以根据用户需要设计,本申请在此不做任何限制。

可选地,在本申请的一个实施例中,未通过检测的文件不但会生成检测报表,同时对该未通过检测的文件进行预警,预警可以为语音预警或文字预警,本申请在此不做任何限制。

采用本申请提供的电子文档检测方法,通过对文档文件头一致性的检查、文档内容的提取与敏感信息分析、文档参数信息一致性检查、文档元数据解析和深度分析并根据分析结果,生成检测报表,从而实现文档异常信息定位分析等,识别异常的文档或文件夹,从而减低文档或文件夹资源泄露的风险。

图5为本申请一实施例提供的电子文档检测装置的结构示意图,如图5所示,该装置包括:读取模块201、检测模块202和获取模块203,其中:

读取模块201,用于读取待检测文件的属性信息。

检测模块202,用于根据预设规则,在预设数据库匹配检测属性信息的一致性,获取属性一致性结果。

获取模块203,用于根据属性一致性结果,获取文件检测结果。

图6为本申请另一实施例提供的电子文档检测装置的结构示意图,如图6所示,该装置还包括:接收模块204,用于接收上传的文件数据。

获取模块203,还用于根据文件层级,对所述文件数据进行剥离,获取至少一个子文件中符合待检测类型的所述待检测文件。

可选地,属性信息包括:文件头信息、文件参数信息;

检测模块202,还用于在预设数据库匹配检测文件头信息的一致性。

获取模块203,若文件头信息满足一致性,根据规则在数据库匹配依次检测文件参数信息的一致性,获取属性一致性结果。

图7为本申请另一实施例提供的电子文档检测装置的结构示意图,如图7所示,该装置还包括:确定模块205,用于若文件头信息不满足一致性,则确定待检测文件不满足一致性;或者,若文件参数信息包含不满足一致性的文件参数信息,则确定待检测文件不满足一致性。

图8为本申请另一实施例提供的电子文档检测装置的结构示意图,如图8所示,该装置还包括:生成模块206,用于根据所述文件检测结果,生成检测报表。

上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(applicationspecificintegratedcircuit,简称asic),或,一个或多个微处理器(digitalsingnalprocessor,简称dsp),或,一个或者多个现场可编程门阵列(fieldprogrammablegatearray,简称fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessingunit,简称cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。

图9为本申请一实施例提供的电子文档检测设备的结构示意图,该电子文档检测设备可以集成于终端设备或者终端设备的芯片。

该电子文档检测设备包括:处理器501、存储介质502和总线503。

处理器501用于存储程序,处理器501调用存储介质502存储的程序,以执行上述图1-图5对应的方法实施例。具体实现方式和技术效果类似,这里不再赘述。

可选地,本申请还提供一种程序产品,例如存储介质,该存储介质上存储有计算机程序,包括程序,该程序在被处理器运行时执行上述方法对应的实施例。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文:read-onlymemory,简称:rom)、随机存取存储器(英文:randomaccessmemory,简称:ram)、磁碟或者光盘等各种可以存储程序代码的介质。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1