一种压缩包安全检测方法、装置、终端及存储介质与流程

文档序号：24729423发布日期：2021-04-20 11:45阅读：177来源：国知局

1.本发明实施例涉及但不限于文件检测领域，具体而言，涉及但不限于一种压缩包安全检测方法、装置、终端及存储介质。

背景技术：

2.在window(或linux)环境下，将一个名为test.doc的文件改为test.java，拷贝到java web项目的src目录下，如果代码中没有引用到test.java文件，则java web应用程序可以正常编译通过，并生成可以发布版本的压缩包，如war包。这样存在编译漏洞的问题，使得敏感信息有可能被泄漏；即使使用文件头检测工具来检测文件类型也不一定保证安全，因为使用二进制工具可以篡改文件头已达到混淆的目的；以上描述的压缩包编译漏洞对于企业而言是致命的，因为企业的安全受到了威胁，对企业造成的损失是不可限量的。

技术实现要素：

3.本发明实施例提供的一种压缩包安全检测方法、装置、终端及存储介质，主要解决的技术问题是相关在以压缩包的方式发布版本时，由于压缩包可能会携带敏感文件被发布到云端服务器上，从而出现信息泄露的重大安全问题。
4.为至少解决上述技术问题，本发明实施例提供了一种压缩包安全检测方法，包括：读取压缩包，并解压所述压缩包得到各文件；基于ai的文件类型识别模型rrn检测文件类型file-rnn对各文件进行识别，确定各文件所属的目标文件类型；当至少一个文件所属的目标文件类型与该文件的后缀名称不同时，输出警告。
5.本发明实施例还提供了一种安全检测装置，包括解压模块、file-rnn模型识别模块、检测模块；所述解压模块，用于读取压缩包，并将解压所述压缩包得到各文件；所述file-rnn模型识别模块，用于基于ai的文件类型识别模型file-rnn对所述各文件进行识别，确定各文件所属的目标文件类型；所述检测模块，用于当至少一个文件所属的目标文件类型与该文件的后缀名称不同时，输出警告。
6.本发明实施例还提供了一种终端，包括：处理器、存储器及通信总线；所述通信总线用于实现处理器和存储器之间的连接通信；所述处理器用于执行存储器中存储的一个或者多个计算机程序，以实现如上述任一项所述的压缩包安全检测方法的步骤。
7.本发明实施例还提供一种存储介质，所述存储介质存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现如上述任一项所述的压缩包安全检测方法的步骤。
8.本发明的有益效果至少包括：
9.本发明提供的一种压缩包安全检测方法、装置、终端及存储介质，读取压缩包，并解压所述压缩包得到各文件；基于ai的文件类型识别模型file-rnn对各文件进行识别，确定各文件所属的目标文件类型；当至少一个文件所属的目标文件类型与该文件的后缀名称不同时，输出警告。在某些实施例中，使用ai的文件类型识别技术检测文件，可以检测出压
缩包中可能携带敏感信息文件的安全漏洞，既高效且准确；当文件的所属的目标文件类型与文件的后缀不一致时，视该文件为非法文件，通过警告，可高效全面的过滤出压缩包中可能存在的敏感信息文件，降低企业的安全风险。
10.本发明其他特征和相应的有益效果在说明书的后面部分进行阐述说明，且应当理解，至少部分有益效果从本发明说明书中的记载变的显而易见。
附图说明
11.图1为本发明实施例一提供的一种压缩包安全检测方法的流程示意图；
12.图2为本发明实施例二提供的一种file-rnn模型训练方法的流程示意图；
13.图3为本发明实施例二提供的一种文件切片模块流程图；
14.图4为本发明实施例三提供的一种基于ai文件类型识别的压缩包安全检测机制流程图；
15.图5为本发明实施例三提供的一种文件特征提取模块流程图；
16.图6为本发明实施例四提供的安全检测装置的结构示意图；
17.图7为本发明实施例四提供的file-rnn模型识别模块的结构示意图；
18.图8为本发明实施例四提供的终端的结构示意图。
具体实施方式
19.为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
20.实施例一：
21.为了至少解决企业的服务器在以压缩包的方式发布版本时，由于压缩包可能会携带敏感文件被发布到云端服务器上，从而出现信息泄露的重大安全问题，本发明实施例提出了一种基于ai文件类型识别的压缩包机制。该机制的核心在于ai的文件类型识别模型，该模型的样本使用了“切片法”进行采集，该方法可以高效的收集样本信息且能广泛的覆盖文件的文本特征，从而使得模型的损失函数更好的收敛到局部最优解；同时本发明实施例提出了特有的文件特征结构，使得模型在学习文本特征时更具针对性。
22.以该模型为基础，会在发布压缩包之前对其进行解压，并对解压后的所有文件使用上述模型进行检测，模型会针对每个文件给出其所属的类型及其概率值。当结果与文件的命名后缀不吻合时会给出警告。
23.通过以上机制，可以有效的解决压缩包携带敏感信息文件的问题，从而降低企业敏感信息泄露的风险。请参见图1，本实施例提供了一种压缩包安全检测方法包括下述步骤。
24.步骤s101、读取压缩包，并解压压缩包得到各文件。
25.压缩包包括但不限于war包、jar包，在本发明实施例中，以压缩包为war包为例进行说明；当java web应用程序编译出war包后，读取该war包，使用解压工具将其解压为各文件，该文件为未经过本发明实施例提供的压缩包安全检测的文件。
26.步骤s102、基于ai的文件类型识别模型file-rnn对各文件进行识别，确定各文件
所属的目标文件类型。
27.在本发明实施例中，使用ai的文件类型识别技术对未检测的文件进行识别，具体file-rnn模型(the file distinguish with rnn，rnn(循环神经网络)检测文件类型)可对文件的信息进行识别判断出该文件的所属类型。值得注意的是，由于文件信息量过大，为了保证文件检测的高效性，基于file-rnn模型对文件进行识别之前，还可以对文件内容进行过滤，对关键信息进行提取；具体的，将各文件转换为二进制流，并过滤各文件中的无效信息，根据预设的文本特征结构，从过滤后的二进制流中提取各文件的特征信息。其中将文件转换为二进制流，是因为其它方式如字节流等在提取文本特征和制作向量方面效率不如二进制流，而由于文件中可能会包括没有意义的无效信息，如无意义的符号、无效词语、编码后的乱码、无时间戳的信息内容等，将无效信息对应的流编码从二进制流中进行过滤，以提高文件的特征信息提取的效率。
28.需要说明的是，文件的特征信息的提取是依赖于文件特征结构，该文件特征结构可以预先定义，在本发明实施例中，如下述表1所示，定义的文件特征结构可以包括，但不限于：文件编码和单位长度内容编码，其中可将单元长度内容编码划分为n段，该n由各文件预设的文件定义类型来确定，n为正整数。文件编码指的是文件的编码格式，由于文件的编码格式不同，同一类型文件的二进制也不同，该编码格式包括但不限于utf-8或gbk编码等。单位长度内容编码是指在定义好的长度范围内，取出该长度的文件二进制流，n是指取出的段数，即根据文件特征结构中将n段单位长度内容编码作为文件的特征信息。在一些实施例中，该文件特征结构可以为文件编码、文件魔数和单位长度内容编码。在一实施方式中，所述文件魔数是指文件二进制形式的前4个字节，通常每个类型的文件的魔数都不相同，该字段在模型训练中作为参考值，不参与模型训练。例如，如表1所示，规定java类型的文件在200个字节的长度范围内取出二进制流，共取50段的单位长度编码，则java等文本类型的文件结构特征共有52个字段。而其它类型的文件可以定义更多一些，例如当解压后的文件的后缀为.jpg，由于jpg等图片文件数据比较庞大，根据表1，可以取100段作为该文件的特征信息，则图片类型的文件结构特征共有102字段；音视频类型的文件可取200段，则其文件结构特征共有202字段等等；不同的文件类型可以定义不同的结构特征，即n可根据文件类型的不同，设置不同数据，使得该文件特征结构具有可扩展性。
29.表1
[0030][0031]
n＝50(文件类型为java、txt等文本文件)；
[0032][0033]
n＝100(文件类型为bmp、png等图片文件)；
[0034][0035]
n＝200(文件类型为mkv、mp3等音视频文件)；
[0036][0037]
当提取出文件的特征信息后，将其封装为数据结构对象，还需要将数据结构对象转换为file-rnn模型可以处理的向量类型，其中可通过word2vec等模型转化。
[0038]
在本发明实施例中，file-rnn模型对向量对象进行推导演算，确定向量类型对应文件所属的文件类型以及所属的文件类型对应的概率值，将最大概率值所对应的文件类型该文件所属的目标文件类型。具体的，在接收到向量类型的特制信息，file-rnn模型会根据之前训练得到的参数通过前向传播算法，计算得到该特性信息属于哪种文件类型特征集合的子集，如果属于某一类型的子集，则会根据子集的覆盖率算出概率值，该值代表了该文件属于该类型的概率；同理如果特征信息属于多种类型的子集，则会给出多个概率值，概率值越大，该特征信息对应的文件属于该类型的概率可能性越大，因此，将最大概率值所对应文件所属文件类型作为该文件所属的目标文件类型；其中文件类型特征集合包括但不限于文本类型、图片类型、音视频类型。例如，根据表1获取文件后缀名为.tet对应的向量对象1，将向量对象1导入file-rnn模型进行计算，假设确定向量对象1属于文本类型的概率为76％，属于图片类型的概率为30％，将文本类型作为文件后缀名为.tet的目标文件类型。
[0039]
值得注意的是，本发明实施例中的file-rnn模型是根据多次训练得到的成品模型，在读取war包，并解压war包得到各文件之前，会根据ai中的循环神经网络rnn对不同类型的已知文件的文件样本进行模型训练，得到该file-rnn模型，其中该不同类型的已知文件指的是明确某个文件的文件类型，且包括各种不同的文件类型，当然可以至少包括但不限于表1所对应的三种文件类型。
[0040]
在一实施方式中，通过rnn确定file-rnn模型具体包括收集不同类型的已知文件，其可以是由终端或用户收集；对每个类型的已知文件进行随机切片，得到文件样本，根据预设的文件特征结构对文件样本进行特征信息提取得到向量对象，然后根据ai模型训练在向量对象上执行rnn推断模型，确定file-rnn模型；其中根据文件样本的文件特征结构得到向量对象如上述，在此不再赘述；根据传统的ai模型训练步骤进行循环训练，训练步骤包括：输入训练的文件样本的向量对象、在向量对象上执行rnn推断模型、计算损失、调整模型参数等步骤；当待损失函数的值达到最优解时停止训练，得到成品的具备识别各种文件类型的能力的file-rnn模型。
[0041]
需要说明的是，为了提高模型训练的效率，本发明实施例中通过切片方法为file-rnn模型提供已知文件的文件样本，具体通过对已知文件进行随机切片是指将整个文件进行随机切割，且切割的内容时连续的，该随机切割指的是随机选择该文件的一个起点，按照要求进行切割；例如随机选择文件的a起点进行切割，假设切割终点为b，则得到一个“a-b”的切割文件1；然后以b为起点进行切割，切割终点为c，则得到一个“b-c”的切割文件2，即切
割文件1和切割文件2是连续的；在ai模型训练中，除了模型的建模至关重要外，样本也是同等重要的，样本的好坏决定了模型是否可用，切片的方法可以将较大的文件碎片化，可以提高制作样本及模型训练的效率，且随机切割的特性不会遗漏样本的重要特征信息。在本发明实施例中，由于不同的文件类型对应不同的文件特征结构，因此在对已知文件进行随机切片之前，还可以针对各类型的已知文件，分别设置的切片的大小和数量，进而根据切片的大小和数量对各类型的已知文件进行随机切割，将分割得到的文件作为文件样本。例如，已收集了1000个不同的java文件，该模块会将java的切片设置为大小10k，且每个文件的切片数量为10。这样，将会有10000个切片，且每个切片都是10k大小；这10000个切片将会作为样本提供给file-rnn模型进行java文件类型的训练；这种方法会比直接将1000个文件作为样本效率更高，因为这1000个文件中如果有许多重复片段或者每个文件都很大时，都会浪费训练时间和硬件资源，且训练结果不一定达到最优解。当然不同类型的对应设置的切片的大小和数量可以根据实际需求进行灵活设置，如音视频文件的切片大小和切片数量可以设置大一点。
[0042]
在本发明实施例中，根据切片的大小和数量对各类型的已知文件进行随机切割包括，当已知文件的大小大于预设阈值时，才对已知文件进行随机切割，过滤已知文件的文件头，即过滤已知文件的文件特征结构中的文件魔数(二进制流的前4个字节)，随机选择过滤后的已知文件的起点，按照切片大小进行切割，直到达到设置的切分数量。其中该预设阈值可以由自定义设置，例如可以等于切片大小，即当已知文件的大小大于切片大小时，进行切割；当然该预设阈值也可以大于切分大小。当已知文件的大小小于预设阈值是，则需要切片操作，将整个已知文件作为文件样本。
[0043]
s103、当至少一个文件所属的目标文件类型与该文件的后缀名称不同时，输出警告。
[0044]
可以理解的是，当某一个文件所属的目标文件类型与该文件的后缀名词不同时，则表示该文件可能被修改，将该文件视为“非法”文件，将该文件进行警告标记，并置入警告列表中；当该警告列表存在至少一个“非法”文件时，输出警告以进行提示，例如发出声音、闪灯警告等；在一些实施例中，当文件所属的目标文件类型与文件的后缀名称不同时，输出警告同时禁止war包发布。当然，所述输出警告的方式并不局限于上述方式，其他任意能够通知或提醒到用户或设备的方式都是适用的。
[0045]
本发明实施例提供的压缩包安全检测方法，提出一种基于ai的文件类型识别模型，该模型通过对各类文件类型进行样本收集并在训练中根据定义的文件特征结构进行特征提取，经过多次且系统的模型训练后，该模型便可以识别出任意文件属于哪种类型并给出其属于该文件类型的概率，以该基于ai的文件类型识别模型为基础，对解压后的war包中所有的文件进行类型检查，并输出每个文件所属的类型及概率，如果检测发现某个(些)文件的所属类型与文件的后缀不一致，则视该文件为“非法”文件，该机制会给予警告并阻止压缩包的发布。使用ai的方法检测文件既高效且准确，以ai技术为基础提高系统软件产品的安全性在相关领域内是具有创新性的，因为ai技术不仅能够解决复杂的问题，同时也能够预防敏感信息的泄露，该机制可以高效全面的过滤出压缩包中可能存在的敏感信息文件，降低企业的安全风险。
[0046]
实施例二：
[0047]
为了便于理解，本发明实施例提供一种file-rnn模型训练方法，首先将所有需要识别的文件类型进行文件收集，并将这些文件通过文件切片模块的输出内容作为file-rnn模型的样本，然后根据传统的ai模型训练步骤——输入训练样本、在训练样本上执行推断模型、计算损失、调整模型参数等进行循环训练，待损失函数的值达到最优解时则停止训练，此时的模型便具备了识别各种文件类型的能力；如图2所示，该file-rnn模型训练方法包括：
[0048]
步骤s201：对文件进行分类(假设有n种类型)，并对每种类型的文件组成集合，记为s
n
。并为每个集合s
i
(i＝1,...n)添加训练标记，若标记为1，则代表训练完成；若标记为0，则代表未被训练。执行步骤202。
[0049]
步骤s202：检测s
i
的训练标记，若标记值为0，则执行步骤s203；若s
i
(i＝1,...n)的标记值均为1，则执行步骤s208。
[0050]
步骤s203：取出集合s
i
的所有文件，并将这些文件输入到文件切片模块，从切片模块输出的样本数量记为q，则每个样本记为l
k
(k＝1,...q)，并为l
k
进行添加训练标记，若标记为1，则代表训练完成；若标记为0，则代表未被训练。执行步骤s204。l
k
[0051]
步骤s204：检测l
k
的训练标记，若标记值为0，执行步骤s205；若标记值为1，执行步骤s202。
[0052]
步骤s205：l
k
以文本的方式进入文本特征提取模块，以向量对象(记为vec-objs)的方式输出。执行步骤s206。
[0053]
步骤s206：初始化模型参数，输入vec-objs，在vec-objs上执行rnn推断模型，计算损失函数的损失值，执行步骤s207。
[0054]
步骤s207：通过梯度下降等方法，更新模型参数，使得损失最小化。当损失值达到最优解时，停止模型对l
k
的训练,并将l
k
的训练标记值置为1。
[0055]
步骤s208：停止模型训练，训练完成后的模型称为file-rnn模型。
[0056]
如图3所示，图3为文件切片模块流程图，文件切片模块是为file-rnn模型提供样本的重要模块，也是本发明实施例的核心所在。该模块会将提前收集的各种类型文件设置切片的大小及切片数量。该文件切片模块流程包括：
[0057]
步骤s301：针对每一种类型文件，分别设置切片的大小s和切片的数量c。进步步骤s302。
[0058]
步骤s302：对于输入的每个类型文件，如果该文件的大小大于s，则进入步骤s303；否则进入步骤s303。
[0059]
步骤s303：将输入的每个类型文件按照设置的s、c进行切割。切割的原理是过滤掉文件头，防止文件魔数被参入到样本中，然后随机选取文件的起点，并从起点开始截取文件，使得文件的大小等于s。则该截取的文件片段即为切片。重复切割步骤，直到切片数量达到c。进入步骤s305。
[0060]
步骤s304：将输入的文件本身视为一个切片，不需要切割等操作。进入步骤s305。
[0061]
步骤s305：将每个切片作为训练该类型文件的模型训练样本。
[0062]
实施例三：
[0063]
以实施例二的模型为基础，提出一种压缩包检测系统。该系统会在发布war包之前对其进行解压，并对解压后的所有文件使用上述模型进行检测，模型会针对每个文件给出
其所属的类型及其概率值。当结果与文件的命名后缀不吻合时会给出警告并阻止war包的发布。
[0064]
如图4所示，图4为压缩包安全检测方法包括：
[0065]
步骤s401：待java web程序编译出war包后，首先需要进行检测，读取war包文件，并调用解压工具将其解压为文件夹。将解压后的所有文件置入列表中，并将每个文件标记为未检测。执行步骤s402。
[0066]
步骤s402：遍历文件列表，是否存在未检测的文件。如果存在，执行步骤s403；否则执行步骤s409。
[0067]
对解压后的文件夹进行遍历，并将属于同一种类型的文件进行归类并置入列表中进行存储，该列表称为类型列表。遍历类型列表中所有的项是否已经经过检测。
[0068]
步骤s403：根据文件定义的类型，定义其文件特征结构体的字段数值。执行步骤s404。
[0069]
文件特征结构体可以如表1所示。
[0070]
步骤s404：将待检测的文件及其特征结构体的字段数值作为入参输入到文件特征提取模块，输出向量对象。执行步骤s405。
[0071]
文件特征提取模块，其存在的意义在于：由于文件信息量过大，需要对关键信息进行提取，并将其转化为ai模型能够直接处理的对象类型，保证文件检测的高效性；首先文件会被转化为二进制流，并分段式读入内存。其次该模块会过滤掉文件中的无效信息，如乱码、无意义的符号等，最后提取文件流中的特征信息，并将特征信息转化为ai模型可以处理的向量类型。
[0072]
步骤s405：file-rnn模型接收到来自步骤s404的输出结果后，经过模型的推导演算，输出该文件可能所属的所有文件类型及其对应的概率值。执行步骤s406。
[0073]
基于rnn的文件类型识别模型(简称file-rnn模型)在接收到文本特征提取模块提供的特征信息后，会根据之前训练得到的参数通过前向传播算法，得到此时的特征信息属于哪种文件类型特征集合的子集，如果属于某一类型的子集，则会根据子集的覆盖率算出概率值，该值代表了该文件属于该类型的概率。同理如果特征信息属于多种类型的子集，则会给出多个概率值。
[0074]
步骤s406：选出最大概率值所对应的文件类型作为最终的结果，执行步骤s407。
[0075]
将模型输出的类型结果与其对应的概率值进行判断，理论上概率值越大的类型，该文件属于该类型的可能性越大。
[0076]
步骤s407：判断输出的文件类型结果与文件后缀名是否一致，若不一致，执行步骤s408；否则执行步骤s402。
[0077]
步骤s408：将该文件标记为警告，并将文件名称记入警告列表中。
[0078]
步骤s409：检查警告列表是否为空。若为空，则执行步骤s411；否则执行步骤s410。
[0079]
步骤s410：禁止war包发布，并列出所有警告文件。
[0080]
步骤s411：允许war包发布，并列出检测结果。
[0081]
如图5所示，图5为文件特征提取模块流程图，文件征信息的提取依赖于文件特征结构，该结构约束了文件特征需要包含的信息内容。如表1所示定义了文件特征结构体，文件特征结构体的属性包括文件编码、文件魔数和单位长度内容编码。文件编码指文件的编
码格式，文件的编码不同，同一种类型文件的二进制流也不同，则识别方法也有差异，所以文件编码必不可少。文件魔数是指文件二进制形式的前4个字节，通常每个类型的文件的魔数都不相同，该字段在模型训练中作为参考值，不参与模型训练。单位长度内容编码是指在定义好的长度范围内，取出该长度的文件二进制流，n是指取出的段数，这些字段的内容值将作为样本的训练参数；该文件特征提取模块包括：
[0082]
步骤s501：读取文件，将文件的编码格式统一化，如统一为utf-8或gbk编码等。执行步骤s502。
[0083]
步骤s502：将文件转化为二进制流，因为其它方式如字节流等在提取文本特征和制作向量方面效率不如二进制流。执行步骤s503。
[0084]
步骤s503：过滤掉文件中的无效信息，包括无意义的符号、无效词语、统一编码后的乱码、无时间戳的信息内容等，过滤方法可使用正则表达式等。执行步骤s504。
[0085]
步骤s504：根据表1定义的文本特征结构，从二进制流中提取特征信息。提取出的信息将存储成数据结构对象，这些对象被称为文件的特征信息。执行步骤s505。
[0086]
步骤s505：使用word2vec、fasttext或其它模型工具将文件特征信息转化为向量对象(即数学符号)。到此步骤该模块完成了文件特征的提取并输出了ai模型可以直接处理的向量对象。
[0087]
本发明实施例基于ai的rnn模型，通过对不同类型的文件进行训练，该模型可以根据文件的特征结构判断出该文件的所属类型。ai不同于传统的技术特征，它可以通过不断的训练以及优化来解决不断变化的问题，相对于传统技术而言更加灵活和易于扩展，并且传统技术解决不了的问题通常利用ai技术都有不错的解决效果。
[0088]
进一步的，本发明实施例主要用于检测发布的版本文件，防止通过以版本文件携带敏感信息的方式造成信息泄露的风险。文件检测在业界内有不少技术方案，但大多数都是通过文件头部进行识别。然而ai的文件类型识别技术、卷积神经网络(rnn)与文件特征结构的结合可以推算文件从属类型的概率，且不依赖文件头部。在本发明实施例中可以检测出war包中是否含有敏感信息文件，防止在发布版本时将企业的敏感信息进行泄露。
[0089]
实施例四：
[0090]
本发明实施例提供一种安全检测装置，如图6所示，包括解压模块601、file-rnn模型识别模块602、检测模块603。
[0091]
所述解压模块601，用于读取压缩包，并解压压缩包解压得到各文件；
[0092]
所述file-rnn模型识别模块602，用于基于预设ai的文件类型识别模型file-rnn对各文件进行识别，确定各文件所属的目标文件类型；
[0093]
检测模块603，用于当至少一个文件所属的目标文件类型与该文件的后缀名称不同时，输出警告。
[0094]
如图7所示，其中file-rnn模型识别模块603，包括文件特征提取模块6031，该模块用来过滤文件内容，提取文件的文本特征，是该方案中重要的文件处理模块；文件切片模块6032，该模块主要用来给file-rnn模型提供训练样本，是该方案的核心模块；和file-rnn模型模块6033，该模型可以检测出任意文件的所属类型并给出概率值；
[0095]
文件特征提取模块6031，用于将各文件转化为二进制流，并过滤各文件中的无效信息；根据预设的文本特征结构，从过滤后的二进制流中提取各文件的特征信息；其中预设
的文本特征结构包括文件编码、文件魔数和单位长度内容编码，将所述单位长度内容编码划分为n段，根据文件定义类型确定n，n为正整数；将n段单位长度内容编码作为文件的特征信息；将特征信息转换为向量对象。
[0096]
文件切片模块6032，用于将不同类型的已知文件进行文件收集，针对各类型的已知文件，分别设置切片的大小和数量；根据切片的大小和数量对各类型的已知文件进行随机切割，将分割得到的文件作为文件样本；其中当已知文件的大小大于预设阈值时，过滤已知文件的文件头；随机选择过滤后的已知文件的起点，按照切片大小进行切割，直到达到设置的切片数量。
[0097]
file-rnn模型模块6033，用于根据预设的文件特征结构对文件样本进行特征信息提取得到向量对象；根据ai模型训练在向量对象上执行rnn推断模型，确定file-rnn模型。
[0098]
本发明在系统软件的安全性及高效性领域内结合了ai的文件类型识别技术，可以检测出压缩包中可能携带敏感信息文件的安全漏洞。使用ai的方法检测文件既高效且准确，以ai技术为基础提高系统软件产品的安全性在相关领域内是具有创新性的，因为ai技术不仅能够解决复杂的问题，同时也能够预防敏感信息的泄露。
[0099]
该发明提出的技术方案不需要投入大量的硬件设备，软件成本低且产品布局广泛(可以部署到终端、服务器、嵌入式系统等)，后期维护简单(主要涉及到模型的重训练)，可以有效降低企业的安全信息泄露的风险。
[0100]
本实施例还提供了一种终端，参见图8所示，其包括处理器801、存储器803及通信总线802，其中：
[0101]
通信总线802用于实现处理器801和存储器803之间的连接通信；
[0102]
处理器801用于执行存储器803中存储的一个或者多个计算机程序，以实现上述各实施例中压缩包安全检测方法中的至少一个步骤。
[0103]
值得注意的是，ai文件类型识别模型是一种比较复杂的、基于rnn(卷积神经网络)的算法。由于算法的时间和空间复杂都比较高，所以ai模型在训练样本时对软件的响应速度要求也较高，因为样本的训练是一种不断优化并逐渐收敛到最优解的过程，当样本较多时，其对于cpu与ram的消耗是相当严重的。
[0104]
其次，若使用在服务器侧(不局限于本地终端)，则系统需要有接入因特网的需求。
[0105]
综上，本发明提出的要求其依附系统的cpu和ram应具有强大的处理能力，同时该系统应具备运行因特网协议(ip)的能力，除此之外的物理硬件没有要求。对于软件环境而言，由于本发明的实现不依赖于具体的操作系统(具有移植性)，所以对系统产品软件运行的操作系统没有要求。
[0106]
本实施例还提供了一种计算机可读存储介质，该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于ram(random access memory，随机存取存储器),rom(read-only memory，只读存储器),eeprom(electrically erasable programmable read only memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、cd-rom(compact disc read-only memory，光盘只读存储器)，数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
[0107]
本实施例中的计算机可读存储介质可用于存储一个或者多个计算机程序，其存储的一个或者多个计算机程序可被处理器执行，以实现上述各实施例中的压缩包安全检测方法的至少一个步骤。
[0108]
本实施例还提供了一种计算机程序(或称计算机软件)，该计算机程序可以分布在计算机可读介质上，由可计算装置来执行，以实现上述各实施例中的显示数据处理方法和/或显示方法的至少一个步骤；并且在某些情况下，可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。
[0109]
应当理解的是，在某些情况下，可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。
[0110]
本实施例还提供了一种计算机程序产品，包括计算机可读装置，该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。
[0111]
可见，本领域的技术人员应该明白，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件(可以用计算装置可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。
[0112]
此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。所以，本发明不限制于任何特定的硬件和软件结合。
[0113]
以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘博
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。