一种基于支持向量机的移动互联网恶意应用软件检测方法

文档序号:7777972阅读:191来源:国知局
一种基于支持向量机的移动互联网恶意应用软件检测方法
【专利摘要】本发明涉及一种基于支持向量机的移动互联网恶意应用软件检测方法,属于信息安全【技术领域】。目前,移动互联网应用软件在人们生活中扮演着越来越重要的角色,而移动互联网恶意应用软件检测的方法还不够成熟。本发明利用隐马尔科夫模型对所监控的移动互联网应用软件进行分析,得到当前软件相对于每种软件基本操作类型的相似程度,形成相似度向量,将相似度向量输入到根据不同的核函数训练好的5个支持向量机模型(SVM模型),输出结果由表决系统判定其是否为恶意应用。采用本发明所述的方法,能克服现有技术中对恶意行为定义不完备以及训练数据集过于庞大的不足之处,实现对于恶意应用软件的有效检测,并且可靠性较高。
【专利说明】一种基于支持向量机的移动互联网恶意应用软件检测方法
【技术领域】
[0001]本发明涉及一种移动互联网恶意应用软件检测方法,确切地说,涉及一种基于支持向量机的移动互联网恶意应用软件检测方法,属于移动互联网环境下应用软件恶意性分析的信息安全【技术领域】。
【背景技术】
[0002]伴随着移动互联网时代的到来,移动智能终端的性能越来越强大,普及程度也越来越高,加上全球都在推动3G甚至4G移动网络的发展,移动网络的高速度为智能手机应用提供了环境。用户开始在移动智能终端上消费音乐、电子产品、电影、地图、游戏等应用,同时也利用移动智能终端沟通交流,如社交网络Facebook、Twitter、微博等。但是,大量的终端软件和应用也意味着大量的安全风险,针对终端设备的各类攻击是从2004年之后就开始出现的。目前移动智能终端面临的安全威胁和安全风险主要包括三方面:一是自身系统或软件的漏洞;二是恶意软件(病毒、木马等);三是出现违反国家法律的内容或服务。具体可能存在的安全隐患包括:个人隐私泄露、个人身份盗用、应用程序安全、位置定位、手机病毒、信息窃取、存在安全漏洞的业务应用等。
[0003]对于移动智能终端安全领域的研究是一个比较新的方向和课题,并且随着移动设备用户的不断增加这也将成为网络安全领域的热点。目前国内外在这方面的研究不多,主要包括政策性法规研究和技术研究,技术研究分为两部分:一部分是从硬件方面来寻求安全的解决方案,认为单纯的软件解决方案已不能满足来自复杂移动网络的各类威胁,现在国内外都期望从硬件方面来寻求解决方案。而可信计算的出现为终端安全提供了一种新的思路。在软件方面,各网络安全厂商,如赛门铁克,卡巴斯基,趋势科技等都开始致力于智能移动终端的安全解决方案,而国内的瑞星等也开始有一些相关产品的研究,但是技术尚处于不完善阶段。
[0004]和传统的电脑遇到的安全问题一样,移动智能终端也遇到了同样的问题,病毒、恶意程序、木马等的侵害也开始出现在了终端上,给终端用户带来了许多侵害。比如设备运行速度变慢甚至死机,费用不明增加等。而且,当手持终端设备成为人们信息的中心时,存储在设备上的信息越来越多且重要性越来越大,如果设备丢失或被他人利用,后果将不堪设想。因此终端安全不容忽视,根据现在来自各方的多种威胁,软件方案涉及技术众多。
[0005]在智能移动终端安全的领域中,软件方案涉及到的关键技术包括关键数据保密,文件访问控制、智能防盗、恶意程序的检测、软件的更新优化等。目前针对手持智能终端设备的安全国内外的主要解决方案有:Symantec Mobile Security for Symbian、卡巴斯基手机版7.0、F_Secure Mobile Security、趋势科技移动安全精灵、德国 G_Data、Avira、Panda、McAfee Mobile Security、奇虎360手机安全管家、瑞星杀毒软件手机版等相关产品。
[0006]国际著名反病毒测试机构AV-Comparatives发布了 2011年9月份杀毒软件恶意软件手动检测报告。测试系统和环境最后更新时间为8月12日。此次,来自德国的G-Data以99.7%的高百分比荣获第一名,Avira,Panda分别排名第二、三名,紧随其后的F-Secure略显风骚,以99.3%的百分比排名第四。国内Qihoo虽然进入第二阵营,本质上由于使用小红伞,BD及自己的引擎,遗漏数和AVIRA相近,但误报数远远高于Avira,扫描速度上也是远远慢于小红伞。
[0007]在这些产品中国外的相关产品技术相对成熟一些,但功能不完善,且功能实现效率等有待改善;通过这些相关产品介绍可知,这些产品均可提供包括病毒、木马等恶意程序的检测等,同时能提供对文件,邮件消息等的防护。然而这些产品使用的查杀恶意程序的原理是检测病毒特征码的过程,这是通过检测文件等各类属性来确定恶意程序的方法。这种检测方法是电脑上查杀病毒所使用的方案,它的缺点是并不能检测未知的病毒,并且需要病毒库的更新,这对于处理速度较慢,资源有限的终端设备来说是一个巨大的挑战,因此还需要深入的研究。而国内的大部分相关产品尚处于免费下载使用阶段,很多关键技术尚未成熟。
[0008]综上所述,移动互联网应用软件在人们生活中的作用越发的重要,而移动互联网恶意应用软件检测的方法还不够成熟。为此,如何对全面有效的移动互联网恶意应用软件进行检测就成为业内科技人员所关注的新课题。

【发明内容】

[0009]有鉴于此,本发明的目的是提供一种基于支持向量机的移动互联网恶意应用软件检测方法,使用该方法检测移动互联网恶意应用软件时,我们只需要对非恶意的软件行为建模,该环境模型采用双重嵌套的方式,底层是隐马尔可夫模型,上层是支持向量机模型。由于在移动互联网环境下对于非恶意行为的定义比恶意行为的定义简便,所以使用该方法分析恶意应用软件时,更加全面和有效。
[0010]为了达到上述目的,本发明提供了一种基于支持向量机的移动互联网恶意应用软件检测方法,其特征在于,所述方法包括下述操作步骤:
[0011](I)利用隐马尔科夫模型对所监控的移动互联网应用软件进行分析,得到当前程序相对于每一种行为类型的相似程度,形成相似度向量;
[0012](2)先采用五种不同的核函数分别训练样本建立SVM模型,再根据训练好的模型,输入当前待测应用软件的相似度向量,输出SVM模型的判断结果,最后根据表决系统判定该软件是否为恶意应用软件。
[0013]所述步骤(I)进一步包括下列操作内容:
[0014](11)运行所需分析的移动互联网应用软件,对其行为进行监控,按照设定的时长进行分段处理,将移动互联网应用软件的行为数据划分为一个行为段序列;
[0015](12)提取行为段序列中每个行为段的特征:段CPU平均占用率、段内存平均占用率、段隐私访问次数、段wifi网络占用时间、段2G/3G网络占用时间、段摄像头开启次数、段位置信息获取、段设备信息获取;
[0016](13)利用隐马尔科夫模型对基本软件操作进行建模和检测:先在训练过程中采用Baum-Welch算法调整隐马尔科夫模型中的各项参数,得到各个相应的模型后,再用Viterbi算法计算和检测当前检测的应用软件与每一种模型的相似程度,即最大似然值,在最大似然值的基础上形成最大似然值向量。
[0017]所述步骤(12)进一步包括下列操作内容:[0018](121)段CPU平均占用率指在应用软件在监控时间段内平均每秒钟对CPU的占用量;
[0019](122)段内存平均占用率指在应用软件在监控时间段中平均每秒钟对内存的占用量;
[0020](123)段隐私访问次数指应用软件在监控时间段中访问用户通信录、图片和短信的总次数;
[0021](124)段网络占用时间指应用软件在监控时间段中访问网络的时间;
[0022](125)段摄像头开启次数指应用软件在监控时间段中打开手机摄像头的次数;
[0023](126)段位置信息获取指示了应用软件在监控时间段中是否获取过用户位置信息,如果有,则此特征为1,如果没有,则此特征为O ;
[0024](127)段设备信息获取指示了应用软件在监控时间段中是否获取IMEI号、基带版本、内核版本这些设备信息,如果有,则此特征为1,如果没有,则此特征为O。
[0025]所述步骤(13)进一步包括下列操作内容:
[0026](131)设定共需建立N种基本软件操作类型,当前待检测应用的行为与其中第i种类型的相似程度,即最大似然值为Ci,那么,当前待检测应用的最大似然值向量为
C_ {。1,C2,......,CN}。
[0027]所述步骤(2)进一步包括下列操作内容:
[0028](21)对于指定样本分别选择线性核函数、多项式核函数、径向基函数、Sigmoid核函数和复合核函数建立SVM模型,标记为SVMi,其中i=l,2,3,4,5 ;
[0029](22)根据训练好的SVM模型,将当前待测应用软件的相似度向量依次输入SVMi,输出结果Ci,其中若该软件为恶意软件则输出结果为1,否则为0,i=l,2, 3,4,5 ;
[0030](23)计算
【权利要求】
1.一种基于支持向量机的移动互联网恶意应用软件检测方法,其特征在于,所述方法包括下述操作步骤: (1)利用隐马尔科夫模型对所监控的移动互联网应用软件进行分析,得到当前程序相对于每一种软件基本操作类型的相似程度,形成相似度向量; (2)先采用五种不同的核函数分别训练样本建立支持向量机模型,再根据训练好的模型,输入当前待测应用软件的相似度向量,输出支持向量机模型的判断结果,最后根据表决系统判定该软件是否为恶意应用软件。
2.根据权利要求1所述的方法,其特征在于: 所述步骤(1)进一步包括下列操作内容: (11)运行所需分析的移动互联网应用软件,对其行为进行监控,按照设定的时长进行分段处理,将移动互联网应用软件的行为数据划分为一个行为段序列; (12)提取行为段序列中每个行为段的特征:段CPU平均占用率、段内存平均占用率、段隐私访问次数、段wifi网络占用时间、段2G/3G网络占用时间、段摄像头开启次数、段位置信息获取、段设备信息获取; (13)利用隐马尔科夫模型对基本软件操作进行建模和检测:先在训练过程中采用Baum-Welch算法调 整隐马尔科夫模型中的各项参数,得到各个相应的模型后,再用Viterbi算法计算和检测当前检测的应用软件与每一种模型的相似程度,即最大似然值,在最大似然值的基础上形成最大似然值向量。
3.根据权利要求2所述的方法,其特征在于: 所述步骤(12)进一步包括下列操作内容: (121)段CPU平均占用率指在应用软件在监控时间段内平均每秒钟对CPU的占用量; (122)段内存平均占用率指在应用软件在监控时间段中平均每秒钟对内存的占用量; (123)段隐私访问次数指应用软件在监控时间段中访问用户通信录、图片和短信的总次数; (124)段网络占用时间指应用软件在监控时间段中访问网络的时间; (125)段摄像头开启次数指应用软件在监控时间段中打开手机摄像头的次数; (126)段位置信息获取指示了应用软件在监控时间段中是否获取过用户位置信息,如果有,则此特征为1,如果没有,则此特征为O ; (127)段设备信息获取指示了应用软件在监控时间段中是否获取IMEI号、基带版本、内核版本这些设备信息,如果有,则此特征为1,如果没有,则此特征为O。
4.根据权利要求2所述的方法,其特征在于: 所述步骤(13)进一步包括下列操作内容: (131)设定共需建立N种基本软件操作类型,当前待检测应用的行为与其中第i种类型的相似程度,即最大似然值为Ci,那么,当前待检测应用的相似度向量为C= {Cl,c2,……,CN} ο
5.根据权利要求2所述的方法,其特征在于:所述步骤(11)中的设定时长范围推荐为200s至500s的短时间时长。
6.根据权利要求1所述的方法,其特征在于: 所述步骤(2)进一步包括下列操作内容:(21)对于指定样本分别选择线性核函数、多项式核函数、径向基函数、Sigmoid核函数和复合核函数建立支持向量机模型,并将这些模型分别标记为SVMi,其中i=l,2,3,4,5 ; (22)根据训练好的支持向量机模型,将当前待测应用软件的相似度向量依次输入5个模型,得到输出结果。若SVMi的输出结果表明当前软件为恶意软件则令Ci=I,否则Ci=O,其中 i=l,2, 3, 4, 5 ; (23)计算i?= tc1-3,若R >0,则判定该软件为恶意应用软件,否则为非恶意应用软

/=1件。
【文档编号】H04L29/06GK103617393SQ201310616988
【公开日】2014年3月5日 申请日期:2013年11月28日 优先权日:2013年11月28日
【发明者】张程鹏, 李承泽, 杨昕雨, 董航, 徐国爱 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1