一种移动互联网恶意数据的检测系统的制作方法

文档序号：6550023阅读：165来源：国知局

一种移动互联网恶意数据的检测系统的制作方法
【专利摘要】本发明提供了一种移动互联网恶意数据的检测系统，属于网络通信安全【技术领域】，所述系统包括：用于将从移动网关Gn接口采集的数据进行数据预处理并发送的数据预处理模块；用于对经过预处理的数据进行特征扫描并输出扫描结果的特征扫描模块；用于对经过预处理的数据进行机器学习监测并输出监测结果的机器学习模块；用于根据所述扫描结果和所述检测结果判断所述数据是安全或恶意的决策模块。本发明将从移动网关Gn接口高速采集的数据经过数据预处理后，分别送到特征扫描模块和机器学习模块进行检测，然后由决策模块合并检测结果并通过计算数据的恶意系数来判断数据是安全的还是恶意的，具有检测准确率较高，对样本中没有的数据也能监测的特点。
【专利说明】一种移动互联网恶意数据的检测系统

【技术领域】
[0001] 本发明涉及一种移动互联网恶意数据的检测系统，属于网络通信安全【技术领域】。

【背景技术】
[0002] 随着科技的发展，手机上各种应用在丰富人们生活的同时也为手机安全性增添了一份隐患，不法分子能够利用手机恶意程序窃取用户隐私信息或发送大量垃圾短信，从而危害用户正当利益和移动互联网的安全。由于恶意程序必须通过移动通信网来实现其窃取用户隐私和恶意吸费的目的，因此若能够及时、有效地发现并拦截移动通信网上的恶意信息，就可以阻止恶意程序的传播，从而极大地降低受害的用户数量。移动通信网的现有安全检测产品包括两大类产品：一是在手机智能终端上安装的安全查杀和防御类产品，二是在服务器端进行的安全检测类产品。
[0003] 然而，由于这两种产品均要求用户主动安装手机病毒查杀软件或者上传恶意样本到云服务器，这样的方式不仅对移动终端有性能消耗，还对用户安全意识要求较高。因此在移动网关层面实现一个移动互联网数据的安全检测系统，对全网数据的安全检测是保证移动互联网数据安全的根本方法。
[0004] 目前的安全检测系统主要有两种方法，包括异常检测和误用检测。异常检测是分析安全的数据，建立检测模型，如果带检测的数据无法匹配安全数据建立的模型，则将其判定为异常数据，常采用机器学习算法来建立检测模型，优点是可以检测样本集以外的新数据，缺点是误报率较高。误用检测是分析恶意数据的规则模式，如果待检测数据匹配恶意数据的规则模式，则判定为恶意数据，常采用方法是病毒库特征扫描等方法，优点是检测准确度较高，缺点是对样本中没有的数据没有检测能力。

【发明内容】

[0005] 本发明为解决现有的移动互联网的安全监测技术存在的误报率较高、对样本中没有的数据无法监测的问题，进而提供了一种移动互联网恶意数据的检测系统。为此，本发明提供了如下的技术方案：
[0006] 一种移动互联网恶意数据的检测系统，包括：
[0007] 用于将从移动网关Gn接口采集的数据进行数据预处理并发送的数据预处理模块；
[0008] 用于对经过预处理的数据进行特征扫描并输出扫描结果的特征扫描模块；
[0009] 用于对经过预处理的数据进行机器学习监测并输出监测结果的机器学习模块；
[0010] 用于根据所述扫描结果和所述检测结果判断所述数据是安全或恶意的决策模块。
[0011] 本发明将从移动网关Gn接口高速采集的数据经过数据预处理后，分别送到特征扫描模块和机器学习模块进行检测，然后由决策模块合并检测结果并通过计算数据的恶意系数来判断数据是安全的还是恶意的，具有检测准确率较高，对样本中没有的数据也能监测的特点。

【专利附图】

【附图说明】
[0012] 为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0013] 图1是本【具体实施方式】提供的移动互联网恶意数据的检测系统的结构示意图；
[0014] 图2是本【具体实施方式】提供的数据预处理模块的工作流程示意图；
[0015] 图3是本【具体实施方式】提供的特征扫描模块的检测流程示意图；
[0016] 图4是本【具体实施方式】提供的机器学习模块的检测流程示意图；
[0017]图5是本【具体实施方式】提供的决策模块的决策流程示意图；
[0018]图6是本【具体实施方式】提供的系统优化模块的工作流程示意图。

【具体实施方式】
[0019] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0020] 本【具体实施方式】提供了一种移动互联网恶意数据的检测系统，如图1所示，包括：
[0021] 用于将从移动网关Gn接口采集的数据进行数据预处理并发送的数据预处理模块；
[0022] 用于对经过预处理的数据进行特征扫描并输出扫描结果的特征扫描模块；
[0023] 用于对经过预处理的数据进行机器学习监测并输出监测结果的机器学习模块；
[0024] 用于根据所述扫描结果和所述检测结果判断所述数据是安全或恶意的决策模块。
[0025] 本【具体实施方式】提供的移动互联网恶意数据的检测系统从移动网关Gn接口高速采集的数据经过数据预处理模块处理后，分别送到特征扫描模块和机器学习模块进行检测，然后由决策模块合并特征扫描模块和机器学习模块的检测结果，通过计算数据的恶意系数来判断数据是安全的还是恶意的，并且对于满足恶意系数满足一定条件的恶意数据，会进行进一步的样本审核，并用于丰富恶意特征库和机器学习数据集。
[0026] 为了更清楚地说明本【具体实施方式】提供的移动互联网恶意数据的检测系统，下面以一个具体的实施例详细说明本发明的方法。
[0027] 1、从移动互联网网关采集的数据首先会送到数据预处理模块进行数据预处理。图 2示出了数据预处理模块工作流程图，详细介绍了其对移动互联网网关采集数据进行数据预处理的流程。在服务支持结点SGSN到网关支持结点GGSN的Gn 口采集数据，送入数据预处理模块处理。数据预处理实现的功能包括根本规则过滤掉部分不需要分析的数据，缓存待分析的数据并安装会话重组。最后从会话数据中提取出基本特征和流量特征来表征会话数据。因此，数据预处理引擎主要包括三个子模块：
[0028] 过滤子模块S1，可以设定一系列规则过滤掉不需要系统分析的数据。如设定URL 白名单可以过滤到URL为白名单里面的数据，这样可以很大程度减少待分析数据的数据量。过滤模块S1里面的过滤规则可以是多样的，如IP地址白名单、URL黑名单等。
[0029] 会话重组子模块S2,对过滤后的数据进行会话重组。首先需要缓存一段时间或者一定内存量的数据，然后按照IP五元组进行会话重组。重组后的会话包含了比较全面的数据信息。
[0030] 第一特征提取子模块S3,从重组后的会话数据中提取相关特征。提取的特征分为基本特征和流量特征两大类。基本特征包括访问方法、连接状态、协议类型、URL、源IP、目的 IP、源端口、目的端口、頂SI号、是否携带附件、附件类型、接收文件还是发送文件、是否包括可疑关键字、是否包含链接等，流量特征包括上下行数据包长度、发送包个数、接收包个数、连接频率等。经过特征提取模块的处理，会话数据可以用基本特征和流量特征表示。
[0031] 2、经过数据预处理模块处理后的会话数据会分别送到特征扫描模块和机器学习模块进行安全检测。图3示出了特征扫描模块检测的流程图，利用特征扫描模块扫描恶意特征首先从会话数据中提取出相关特征，再进行恶意特征扫描，因此特征扫描模块包括两个子模块：
[0032] 第二特征提取子模块S4 :从会话数据中提取扫描需要用到的相关特征，如URL、下载文件信息、数据包内容等。
[0033] 特征扫描子模块S5 :包括两种扫描方式，一类不需要用到恶意特征库，如URL加密检测；一类需要用到恶意特征库，如扫描数据内容中出现的恶意内容。会话数据的恶意特征扫描结果需要存成向量的形式，表示该会话各项恶意特征的分布情况。
[0034] 3、图4示出了机器学习模块检测的流程图，机器学习检测模块也包括两个子模块：
[0035] 第三特征提取子模块S6 :从会话数据中提取扫描需要用到的相关特征，如协议类型、附件类型、是否包含连接、上下行数据包长度、发送包个数、接收包个数等。
[0036] 机器学习模型检测子模块S7 :可以有多个机器学习模型，如贝叶斯分类模型、决策树分类模型。这里的机器学习模型都是训练好的分类模型，能够根据会话特征把会话数据分类为安全会话或者恶意会话。可以选择一个或者多个机器学习模型对会话进行检测，如果有N个检测模型，那么机器学习引擎的检测结果就是一个N维向量，每一维向量就是一个检测模型的检测结果。
[0037] 4、特征扫描模块和机器学习模块分别对会话数据进行安全检测后，其检测结果均会传入决策模块，由决策模块进行会话恶意系数计算，并判断会话是安全或者恶意。图5为决策模块的流程图。决策模块做出决策有两个过程，首先需要计算该会话的恶意系数，然后再进行阈值比较决策，因此决策引擎有以下两个子模块组成：
[0038] 恶意系数计算子模块S8 :根据特征扫描模块和机器学习模块的检测结果计算该会话的恶意系数。恶意系数是用于评价一个会话恶意程度的数值，其取值越大，会话越可能是恶意的。恶意系数计算子模块首先会将特征扫描引擎和机器学习引擎的检测结果向量合并成一个新的综合结果向量，会有一个和综合结果向量维度相同的权值向量，综合结果向量和权值向量的点积就是该会话的恶意系数的取值。权值向量的取值是可以调整的，比如对机器学习模块，如果某个模型的性能比较好，可以相对其它模型赋予一个较高的权值；对于特征扫描模块，如果具有某个恶意特征该会话是恶意的可能性非常大，则可为该特征赋予一个较高的权值。
[0039] 判定子模块S9 :根据恶意系数计算子模块S8计算的恶意系数判定该会话是安全或者恶意的。会话的恶意系数小于设定的阈值则判定为安全会话，否则为恶意会话。
[0040] 5、为了优化检测模型性能，本【具体实施方式】还提供了一个用于若所述决策模块判定为恶意的数据的恶意系数低于阈值，则对所述恶意的数据通过人工分析确定数据是安全或恶意的，然后再对所述恶意的数据进行特征分析，用于更新特征扫描模块的权值和阈值以及更新机器学习模块的机器学习模型的系统优化模块。系统优化模块S10如图6的虚线框部分所示。对于决策模块判定为恶意的数据，如果其恶意系数低于阈值（大于恶意阈值，但是接近恶意阈值），则对这部分数据进行人工分析，首先进一步确定数据是安全的还是恶意的，然后再对这部分数据进行特征分析，用于完备恶意特征集以及调节决策系统的权值和阈值，最后把这部分数据用于更新机器学习模块的各个机器学习模型。系统优化模块在系统初期的时候的优化效果尤其明显。
[0041] 以上所述，仅为本发明较佳的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉本【技术领域】的技术人员在本发明实施例揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。
【权利要求】
1. 一种移动互联网恶意数据的检测系统，其特征在于，包括：用于将从移动网关Gn接口采集的数据进行数据预处理并发送的数据预处理模块；用于对经过预处理的数据进行特征扫描并输出扫描结果的特征扫描模块；用于对经过预处理的数据进行机器学习监测并输出监测结果的机器学习模块；用于根据所述扫描结果和所述检测结果判断所述数据是安全或恶意的决策模块。
2. 根据权利要求1所述的系统，其特征在于，所述数据预处理模块包括：用于根据预定规则对所述数据进行过滤的过滤子模块；用于对过滤后的数据进行会话重组的会话重组子模块；用于从重组后的会话数据中提取相关特征的第一特征取子模块。
3. 根据权利要求1所述的系统，其特征在于，所述特征扫描模块包括：用于从采集的数据中提取扫描需要的相关特征的第二特征提取子模块；用于通过不基于恶意特征库和基于恶意特征库将提取的相关特征进行特征扫描的特征扫描子模块。
4. 根据权利要求1所述的系统，其特征在于，所述机器学习模块包括：用于从采集的数据中提取扫描需要的相关特征的第三特征提取子模块；用于通过预定的机器学习分类模型根据提取的相关特征将采集的数据分类为安全会话或者恶意会话的机器学习模型检测子模块。
5. 根据权利要求1所示的系统，其特征在于，所述决策模块包括：用于根据所述扫描结果和所述检测结果计算采集的数据的恶意系数的恶意系数计算子模块；用于根据计算获得的恶意系数判定相应会话是安全或者恶意的判定子模块。
6. 根据权利要求1所示的系统，其特征在于，所述系统还包括：用于若所述决策模块判定为恶意的数据的恶意系数低于阈值，则对所述恶意的数据通过人工分析确定数据是安全或恶意的，然后再对所述恶意的数据进行特征分析，用于更新特征扫描模块的权值和阈值以及更新机器学习模块的机器学习模型的系统优化模块。
【文档编号】G06F21/56GK104091122SQ201410272857
【公开日】2014年10月8日申请日期:2014年6月17日优先权日:2014年6月17日
【发明者】崔宝江, 何苗, 刘芃成, 袁隽, 金建林申请人:北京邮电大学, 北京直真科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：崔宝江;何苗;刘芃成;袁隽;金建林
技术所有人：北京邮电大学;北京直真科技股份有限公司
我是此专利的发明人

上一篇：一种rfid物联网芯片的制作方法
上一篇：一种基于分布式电源接入对配电网影响的综合评估方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。