基于大数据分析的恶意软件识别方法、服务器及存储介质与流程

文档序号:20442175发布日期:2020-04-17 22:29阅读:202来源:国知局
基于大数据分析的恶意软件识别方法、服务器及存储介质与流程

本发明涉及软件安全技术领域,特别是涉及一种基于大数据分析的恶意软件识别方法、服务器及计算机可读存储介质。



背景技术:

随着软件技术的迅速发展,软件的种类和数量也呈指数增长,尤其以各种操作系统的应用软件尤为突出。每年发行在移动互联网上的软件数量庞大、种类繁多,人们可以从很轻松的移动互联网中下载各种各样的应用软件。

然而,移动互联网海量的软件中通常存在很多恶意软件,使用或安装恶意软件会给用户的隐私安全、账户安全等等带来威胁,有的恶意软件还有造成终端资费或流量的流失的可能。目前,对恶意软件防范通常仅仅是提醒用户不要下载或使用不明来源的应用软件,但是目前还没有对恶意软件的进行有效识别的方式。

针对以上问题,本领域技术人员一直在寻求解决方法。

前面的叙述在于提供一般的背景信息,并不一定构成现有技术。



技术实现要素:

本发明要解决的技术问题在于,针对上述现有技术的缺陷,提供了基于大数据分析的恶意软件识别方法、服务器及计算机可读存储介质,以实现有效的识别恶意软件的目的,进而能够实现保障用户的软件下载安全或使用安全的目的。

本发明是这样实现的:

本发明提供了一种基于大数据分析的恶意软件识别方法,该恶意软件识别方法包括:从数据库中获取已知软件信息。对已知软件信息中的特征信息进行模型训练以构建预测模型。获取待测软件的特征信息。将待测软件的特征信息代入预测模型进行模型预测以获取预测结果。在预测结果符合预设规则时,则判定待测软件为恶意软件。

进一步地,从数据库中获取已知软件信息的步骤之后,包括:对已知软件信息中的特征信息进行特征筛选操作以将已知软件信息中的特征信息更新为显著特征信息。根据已知软件信息中的特征信息进行模型训练以构建预测模型的步骤中,包括:根据已知软件信息中的显著特征信息进行模型训练以构建预测模型。

进一步地,对已知软件信息中的特征信息进行特征筛选操作以将已知软件信息中的特征信息更新为显著特征信息的步骤中,包括:对已知软件信息中的特征信息采用逐步回归法进行特征筛选操作以获取显著特征信息。将已知软件信息中的特征信息更新为显著特征信息。

进一步地,对已知软件信息中的特征信息进行模型训练以构建预测模型的步骤中,包括:对已知软件信息中的特征信息采用逻辑回归算法进行二分类模型训练以构建预测模型。

进一步地,对已知软件信息中的特征信息采用逻辑回归算法进行二分类模型训练以构建预测模型的步骤,包括:引入sigmoid函数和损失函数以获取概率函数。

进一步地,将待测软件的特征信息代入预测模型进行模型预测以获取预测结果的步骤中,包括:将待测软件的特征信息代入概率函数以获取恶意软件概率信息。根据恶意软件概率信息获取预测结果。

进一步地,恶意软件概率信息中包括与待测软件的特征信息包括的每一个应用特征对应的子概率信息。根据恶意软件概率信息获取预测结果的步骤中,包括:根据恶意软件概率信息包括的每一个子概率信息获取每一个应用特征对应的预测参数。根据每一个应用特征及其对应的预测参数获取综合指标以得到预测结果。在预测结果符合预设规则时,则判定待测软件为恶意软件的步骤中,包括:在综合指标符合预设的数值规定时,则判定待测软件为恶意软件。

进一步地,在预测结果符合预设规则时,则判定待测软件为恶意软件的步骤之后,包括:获取待测软件的软件发行方信息。根据软件发行方信息中信用信息进行惩罚操作,惩罚操作包括信用分扣除操作和/或不可信发行方标识操作。

本发明还提供一种服务器,包括存储器和处理器。处理器用于执行存储器中存储的计算机程序以实现如上所描述的基于大数据分析的恶意软件识别方法的步骤。

本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上所描述的基于大数据分析的恶意软件识别方法的步骤。

本发明提供的基于大数据分析的恶意软件识别方法、服务器及计算机可读存储介质,其中,基于大数据分析的恶意软件识别方法,包括:从数据库中获取已知软件信息。对已知软件信息中的特征信息进行模型训练以构建预测模型。获取待测软件的特征信息。将待测软件的特征信息代入预测模型进行模型预测以获取预测结果。在预测结果符合预设规则时,则判定待测软件为恶意软件。因此,本发明能够依靠大数据技术获取大量的软件信息,并且能够根据大量的软件信息构建恶意软件的预测模型,从而能够通过构建的预测模型待测软件进行模型预测以判定待测软件是否为恶意软件。故而,本发明能够实现有效的识别恶意软件的目的,进而能够实现保障用户的软件下载安全或使用安全的目的。

为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。

附图说明

图1是本发明第一实施例提供的恶意软件识别方法的流程示意图;

图2是本发明第二实施例提供的恶意软件识别系统的结构示意图;

图3是本发明第三实施例提供的服务器的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图对本发明实施例做进一步详述。

第一实施例:

图1是本发明第一实施例提供的恶意软件识别方法的流程示意图。为了清楚的描述本发明第一实施例提供的基于大数据分析的恶意软件识别方法,请参见图1。

本发明第一实施例提供的基于大数据分析的恶意软件识别方法,包括:

s11:从数据库中获取已知软件信息。

在一实施方式中,在步骤s11:从数据库中获取已知软件信息之后,可以但不限于包括:对已知软件信息中的特征信息进行特征筛选操作以将已知软件信息中的特征信息更新为显著特征信息。根据已知软件信息中的特征信息进行模型训练以构建预测模型的步骤中,包括:根据已知软件信息中的显著特征信息进行模型训练以构建预测模型。

在一实施方式中,对已知软件信息中的特征信息进行特征筛选操作以将已知软件信息中的特征信息更新为显著特征信息的步骤中,可以但不限于包括:对已知软件信息中的特征信息采用逐步回归法进行特征筛选操作以获取显著特征信息。将已知软件信息中的特征信息更新为显著特征信息。

在一实施方式中,对已知软件信息中的特征信息采用逐步回归法进行特征筛选操作以获取显著特征信息的基本思想是:将变量(例如特征信息中的应用特征)逐个引入模型,每引入一个变量后都要进行f校验,并对引入的变量进行f校验,当原来引入的变量由于后来引入的变量而变得不再显著时,则将原来引入的变量进行删除,以确保每次引入的新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的变量引入回归方程,也没有不显著的变量从回归方程中删除为止,从而得到一个最优的变量集(即显著特征信息)。

在一实施方式中,在对已知软件信息中的特征信息进行特征筛选操作以将已知软件信息中的特征信息更新为显著特征信息的步骤中,还可以包括对特征信息中的应用特征进行特征清洗操作(例如缺失值填充、异常值删除等等)。

在一实施方式中,特征信息中的应用特征可以但不限于包括运行时间信息、软件类型、运行地点、广告信息、流量使用信息等等。具体地,应用特征为数值型信息(例如向量),在本实施例中非数值型的应用特征也会把它转换成数值型的应用特征。

s12:对已知软件信息中的特征信息进行模型训练以构建预测模型。

在一实施方式中,在步骤s12:对已知软件信息中的特征信息进行模型训练以构建预测模型中,可以但不限于包括:对已知软件信息中的特征信息采用逻辑回归算法进行二分类模型训练以构建预测模型。

在一实施方式中,对已知软件信息中的特征信息采用逻辑回归算法进行二分类模型训练以构建预测模型的步骤,可以但不限于包括:引入sigmoid函数和损失函数以获取概率函数。

在一实施方式中,在引入sigmoid函数和损失函数以获取概率函数的步骤中,可以但不限于包括:引入sigmoid函数:其中,x为已知软件信息中的特征信息包括的应用特征,w为预测参数,p(x)为概率函数,e为常数。还引入损失函数:并根据损失函数对w求导,并不断迭代w以获取最优预测参数w*。

在一实施方式中,引入损失函数:之后,对w进行求导可以得到梯度的δw,以此进行模型训练更新w。其中,

其中,p′是已知软件的特征信息中的应用特征为x时该应用特征对应的已知软件是否是恶意软件,是恶意软件则p′=0,不是恶意软件则p′=1。

在一实施方式中,获取最优预测参数w*的步骤,包括:对w求导得到不断迭代w以得到最优预测参数w*。其中,最优预测参数w*是模型训练后得到的使模型效果最佳的预测参数w的值。

在一实施方式中,在引入sigmoid函数和损失函数以获取概率函数的的步骤,可以但不限于包括:获取概率函数:具体地,通过可以根据待测软件的特征信息中的应用特征预测与该应用特征对应的待测软件是恶意软件的概率p(x)。

s13:获取待测软件的特征信息。

s14:将待测软件的特征信息代入预测模型进行模型预测以获取预测结果。

在一实施方式中,在步骤s14:将待测软件的特征信息代入预测模型进行模型预测以获取预测结果中,可以但不限于包括:将待测软件的特征信息代入概率函数以获取恶意软件概率信息。根据恶意软件概率信息获取预测结果。

s15:在预测结果符合预设规则时,则判定待测软件为恶意软件。

在一实施方式中,恶意软件概率信息中包括与待测软件的特征信息包括的每一个应用特征对应的子概率信息。在根据恶意软件概率信息获取预测结果的步骤中,可以但不限于包括:根据恶意软件概率信息包括的每一个子概率信息获取每一个应用特征对应的预测参数。根据每一个应用特征及其对应的预测参数获取综合指标以得到预测结果。在预测结果符合预设规则时,则判定待测软件为恶意软件的步骤中,包括:在综合指标符合预设的数值规定时,则判定待测软件为恶意软件。

在一实施方式中,根据每一个应用特征及其对应的预测参数获取综合指标以得到预测结果,例如:待测软件a的特征信息包括第一应用特征x1、第二应用特征x2、第三应用特征x3及第四应用特征x4,第一应用特征x1对应的第一预测参数为w1*、第二应用特征x2对应的第二预测参数为w2*、第三应用特征x3对应的第三预测参数为w3*及第四应用特征x4对应的第四预测参数为w4*,则综合指标k=w1*x1+w2*x2+w3*x3+w4*x4。

在一实施方式中,在根据每一个应用特征及其对应的预测参数获取综合指标以得到预测结果的步骤之后,可以但不限于包括:判断综合指标是否符合预设的数值规定。在在综合指标符合预设的数值规定时,则判定待测软件为恶意软件。在综合指标不符合预设的数值规定时,则判定待测软件为正常软件。例如,判断综合指标k是否小于预设值m(例如m为0.5);若k小于m,则判定待测软件为恶意软件;若k不小于m,则判定待测软件为正常软件。

在一实施方式中,本实施例提供的基于大数据分析的恶意软件识别方法可以但不限于应用于终端或服务器中。

在一实施方式中,本实施例应用于服务器,在步骤s15:在预测结果符合预设规则时,则判定待测软件为恶意软件之后,可以但不限于包括:获取该待测软件的软件发行方信息。根据软件发行方信息中信用信息进行惩罚操作。该惩罚操作可以但不限于包括信用分扣除操作和/或不可信发行方标识操作。其中,信用分扣除操作,例如从信用信息中扣除预设的信用分。其中,不可信发行方标识操作,例如,加入不可信标识至信用信息以进行公示中等等。

在一实施方式中,在根据软件发行方信息中信用信息进行惩罚操作的步骤中,可以但不限于包括:判断信用信息中的信用分是否大于预设信用分阈值。在信用信息中的信用分大于预设信用分阈值时,则进行信用分扣除操作。在信用信息中的信用分不大于预设信用分阈值时,则进行不可信发行方标识操作以将不可信标识加入至信用信息进行公示。

在一实施方式中,在信用信息中的信用分不大于预设信用分阈值时,则加入不可信标识至信用信息的步骤之后,可以但不限于包括:接收到对应该软件发行方信息的软件下载请求时,输出风险提示信息或者进行限制下载操作。

在一实施方式中,本实施例应用于终端,在步骤s15:在预测结果符合预设规则时,则判定待测软件为恶意软件之后,可以但不限于包括:自动修改该待测软件的运行权限。其中,自动修改该待测软件的运行权限,例如,限制该待测软件的运行时间、限制该待测软件的运行地点、限制软件的流量使用条件为正在使用期间等等、禁止软件使用期间推送广告、禁止软件自动访问终端中的个人信息(例如账户信息、存储信息、电话信息等等)。

本发明第一实施例提供的基于大数据分析的恶意软件识别方法,包括:s11:从数据库中获取已知软件信息。s12:对已知软件信息中的特征信息进行模型训练以构建预测模型。s13:获取待测软件的特征信息。s14:将待测软件的特征信息代入预测模型进行模型预测以获取预测结果。s15:在预测结果符合预设规则时,则判定待测软件为恶意软件。因此,本发明第一实施例提供的基于大数据分析的恶意软件识别方法能够依靠大数据技术获取大量的软件信息,并且能够根据大量的软件信息构建恶意软件的预测模型,从而能够通过构建的预测模型待测软件进行模型预测以判定待测软件是否为恶意软件。故而,本发明第一实施例提供的基于大数据分析的恶意软件识别方法能够实现有效的识别恶意软件的目的,进而能够实现保障用户的软件下载安全或使用安全的目的。

第二实施例:

图2是本发明第二实施例提供的恶意软件识别系统的结构示意图。为了清楚的描述本发明第二实施例提供的基于大数据分析的恶意软件识别系统,请参见图2。

本发明第二实施例提供的基于大数据分析的恶意软件识别系统,包括:第一获取模块、模型构建模块、第二获取模块、预测模块及判定模块。

其中,第一获取模块用于从数据库中获取已知软件信息。

在一实施方式中,第一获取模块中可以包括筛选单元,该筛选单元可以用于对已知软件信息中的特征信息进行特征筛选操作以将已知软件信息中的特征信息更新为显著特征信息。

在一实施方式中,第一获取模块包括的筛选单元还可以用于对已知软件信息中的特征信息采用逐步回归法进行特征筛选操作以获取显著特征信息,从而将已知软件信息中的特征信息更新为显著特征信息。

其中,模型构建模块用于对已知软件信息中的特征信息进行模型训练以构建预测模型。

在一实施方式中,模型构建模块可以用于根据已知软件信息中的显著特征信息进行模型训练以构建预测模型。

在一实施方式中,模型构建模块可以用于对已知软件信息中的特征信息采用逻辑回归算法进行二分类模型训练以构建预测模型。

在一实施方式中,模型构建模块可以包括第一函数单元和第二函数单元。其中,第一函数单元用于引入sigmoid函数:其中,x为已知软件信息中的特征信息包括的应用特征,w为预测参数,p(x)为概率函数,e为常数。其中,第二函数单元用于引入损失函数:并根据损失函数对w求导,并不断迭代w以获取最优预测参数w*。

在一实施方式中,模型构建单元还可以包括函数获取单元,该函数获取单元用于获取概率函数:

其中,第二获取模块用于获取待测软件的特征信息。

其中,预测模块用于将待测软件的特征信息代入预测模型进行模型预测以获取预测结果。

在一实施方式中,预测模块可以用于将待测软件的特征信息代入概率函数以获取恶意软件概率信息,从而根据恶意软件概率信息获取预测结果。

在一实施方式中,恶意软件概率信息中包括与待测软件的特征信息包括的每一个应用特征对应的子概率信息。预测模块可以包括预测参数获取单元和预测单元。其中,预测参数获取单元可以用于根据恶意软件概率信息包括的每一个子概率信息获取每一个应用特征对应的预测参数。其中,预测单元可以用于根据每一个应用特征及其对应的预测参数获取综合指标以得到预测结果。

其中,判定模块用于在预测结果符合预设规则时,则判定待测软件为恶意软件。

在一实施方式中,判定模块可以用于在综合指标符合预设的数值规定时,则判定待测软件为恶意软件。

在一实施方式中,本实施例提供的恶意软件识别系统还可以包括惩罚模块,该惩罚模块可以用于获取该待测软件的软件发行方信息,以根据软件发行方信息中信用信息进行惩罚操作。该惩罚操作可以但不限于包括信用分扣除操作和/或不可信发行方标识操作。

在一实施方式中,本实施例提供的基于大数据分析的恶意软件识别系统具体实施方式及有益效果可以参考本发明第一实施例提供的基于大数据分析的恶意软件识别方法,在此将不再赘述。

本发明第二实施例提供的基于大数据分析的恶意软件识别系统,包括:第一获取模块、模型构建模块、第二获取模块、预测模块及判定模块。其中,第一获取模块用于从数据库中获取已知软件信息。其中,模型构建模块用于对已知软件信息中的特征信息进行模型训练以构建预测模型。其中,第二获取模块用于获取待测软件的特征信息。其中,预测模块用于将待测软件的特征信息代入预测模型进行模型预测以获取预测结果。其中,判定模块用于在预测结果符合预设规则时,则判定待测软件为恶意软件。因此,本发明第二实施例提供的基于大数据分析的恶意软件识别系统能够实现有效的识别恶意软件的目的,进而能够实现保障用户的软件下载安全或使用安全的目的。

第三实施例:

图3是本发明第三实施例提供的服务器的结构示意图。为了清楚的描述本发明第三实施例提供的服务器,请参见图3。

本发明第三实施例提供的服务器,包括:处理器101及存储器102,其中,处理器101用于执行存储器102中存储的计算机程序以实现如第一实施例所描述的基于大数据分析的恶意软件识别方法的步骤。

在一实施方式中,本实施例提供的服务器可以包括至少一个处理器101,以及至少一个存储器102。其中,至少一个处理器101可以称为处理单元,至少一个存储器102可以称为存储单元。具体地,存储单元存储有计算机程序,当该计算机程序被处理单元执行时,使得本实施例提供的服务器实现如第一实施例提供的基于大数据分析的恶意软件识别方法的步骤,例如,图1中所示的步骤s11:从数据库中获取已知软件信息;步骤s12:对已知软件信息中的特征信息进行模型训练以构建预测模型;步骤s13:获取待测软件的特征信息;步骤s14:将待测软件的特征信息代入预测模型进行模型预测以获取预测结果;步骤s15:在预测结果符合预设规则时,则判定待测软件为恶意软件。

在一实施方式中,本实施例提供的服务器可以包括多个存储器102(简称为存储单元),存储单元可以包括例如随机存取存储器(ram)和/或高速缓存存储器和/或只读存储器(rom)等等。

在一实施方式中,本实施例提供的服务器还可以包括通信总线103及收发器104。其中,收发器104可以通过通信总线103与处理器101及存储器102连接,并在处理器101的控制下执行以上功能。例如,收发器104可以用于获取待测软件的特征信息。例如,处理器101可以用于对已知软件信息中的特征信息进行模型训练以构建预测模型。

本发明第三实施例提供的服务器,包括处理器101和存储器102,且处理器101用于执行存储器102中存储的计算机程序以实现如第一实施例所描述的基于大数据分析的恶意软件识别方法的步骤,因此,本实施例提供的服务器能够实现有效的识别恶意软件的目的,进而能够实现保障用户的软件下载安全或使用安全的目的。

本发明第三实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器101执行时实现如第一实施例提供的基于大数据分析的恶意软件识别方法的步骤,例如图1所示的步骤是s11至步骤s15。

在一实施方式中,本实施例提供能的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,rom、ram、磁盘、光盘、闪存等。

本发明第三实施例提供的计算机可读存储介质中存储的计算机程序被处理器101执行时能够实现有效的识别恶意软件的目的,进而能够实现保障用户的软件下载安全或使用安全的目的。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,除了包含所列的那些要素,而且还可包含没有明确列出的其他要素。

以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1