通过主动学习方法构建互联网应用特征识别数据库的方法及系统的制作方法

文档序号:9524265阅读:198来源:国知局
通过主动学习方法构建互联网应用特征识别数据库的方法及系统的制作方法
【技术领域】
[0001]本发明涉及智能管道技术领域,尤其涉及一种通过主动学习方法构建互联网应用特征识别数据库的方法及系统。
【背景技术】
[0002]应用特征识别在智能管道、网络安全等领域应用很广,一般通过调用应用特征库对流经的数据流量进行识别,但由于互联网应用协议变化比较大而且有相当多的应用并不遵循RFC等标准要求,因此应用特征库如果不能快速更新就直接用于识别应用时,识别率不尚。
[0003]现有技术中,应用特征库均是通过人工整理方法给出的,由于技术的差异,在使用深度包检测功能时,都存在着更新应用特征库慢、不能检测出所有的应用流量等问题。

【发明内容】

[0004]本发明为克服上述现有技术所述的至少一种缺陷(不足),首先提出一种通过主动学习方法构建互联网应用特征识别数据库的方法。该方法对互联网中应用的特征可实现动态的学习,具有操作灵活,可扩展性好,部署容易的特点,应用特征数据库中的特征数据具有实时性,实现一点构建,全网通用。
[0005]本发明还提出一种通过主动学习方法构建互联网应用特征识别数据库的系统。
[0006]为了实现上述目的,本发明的技术方案如下:
一种通过主动学习方法构建互联网应用特征识别数据库的方法,包括以下步骤:
1)样本获取:在互联网上部署模拟器,模拟器安装模拟访问指定的互联网应用的软件,按预先定义的软件向互联网应用发起主动访问,获取应用运行时的协议交互过程,然后通过报文的捉取模块,获取应用运行过程中协议报文固定的标志位字段,提取报文固定特征位生成对互联网应用的交互特征样本;
2)训练学习:通过机器学习方法对训练样本训练学习,得到互联网应用特征模型;
3)生成特征库:利用特征模型对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。
[0007]本发明公开的通过主动学习方法构建应用特征识别数据库的方法,通过模拟的虚拟客户端,向真实的互联网应用发起交互访问,获取协议交互特征,再通过协议特征提取单元,将协议交互特征转化为应用特征记录,并写入应用特征识别数据库。本发明对互联网应用的特征可实现动态的学习,操作灵活,可扩展性好,部署容易,应用特征数据库中的特征数据具有实时性,实现一点构建,全网通用。
[0008]优选的,所述步骤1)中获取的应用特征包括IP地址、URL、端口和元素。
[0009]—种通过主动学习方法构建互联网应用特征识别数据库的系统,其特征在于,包括模拟器主动访问单元、样本生成单元、机器学习单元和流处理单元; 所述模拟器主动访问单元:虚拟机中集成有互联网协议访问工具,模拟用户的访问行为对互联网应用网站进行访问,并处理互联网网站返回的结果;
所述样本生成单元:用于监听虚拟机主动访问单元与互联网应用之间交互的数据报文,按照预先定义的特征数据提取规则,提取出数据报文中固定的标志位字段中的关键特征信息,生成对互联网应用的交互特征样本;
所述机器学习单元,通过机器学习方法对训练样本训练学习,得到互联网应用特征模型。
[0010]所述流处理单元:利用特征模型对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。
[0011]与现有技术相比,本发明技术方案的有益效果是:
本发明提出的特征采集是采用部署在互联网上的的模拟器实现,与现有采集端无关,生成的特征数据库可直接替换现有特征库或者插入现有特征库供识别设备使用。本发明还可作为第三方数据库提供给运营商网内的应用识别设备使用,能够帮助运营商区分传输管道内传输的各类互联网应用分布的情况、带宽占用等情况,从而帮助运营商制定更加合理的流量套餐;可以为客户提供个性化的增值服务,帮助客户分析其购买带宽的利用情况,帮助客户减少在流量分析、网络管理及网络安全方面的投资。
【附图说明】
[0012]图1为采用本发明方法实现应用特征库自动构建的示意图。
[0013]图2为本发明系统的结构示意图。
【具体实施方式】
[0014]附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0015]如图1,一种通过主动学习方法构建互联网应用特征识别数据库的方法,包括以下步骤:
1)样本获取:在互联网上部署模拟器,模拟器安装模拟访问指定的互联网应用的软件,按预先定义的软件向互联网应用发起主动访问,获取应用运行时的协议交互过程,然后通过报文的捉取模块,获取应用运行过程中协议报文固定的标志位字段,提取报文固定特征位生成对互联网应用的交互特征样本;
2)训练学习:通过机器学习方法对训练样本训练学习,得到互联网应用特征模型;
3)生成特征库:利用特征模型对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。
[0016]本发明公开的通过主动学习方法构建应用特征识别数据库的方法,通过模拟的虚拟客户端,向真实的互联网应用发起交互访问,获取协议交互特征,再通过协议特征提取单元,将协议交互特征转化为应用特征记录,并写入应用特征识别数据库。本发明对互联网应用的特征可实现动态的学习,操作灵活,可扩展性好,部署容易,应用特征数据库中的特征数据具有实时性,实现一点构建,全网通用。
[0017]如图2,一种通过主动学习方法构建互联网应用特征识别数据库的系统,其特征在于,包括模拟器主动访问单元、样本生成单元、机器学习单元和流处理单元;
所述模拟器主动访问单元:虚拟机中集成有互联网协议访问工具,模拟用户的访问行为对互联网应用网站进行访问,并处理互联网网站返回的结果;
所述样本生成单元:用于监听虚拟机主动访问单元与互联网应用之间交互的数据报文,按照预先定义的特征数据提取规则,提取出数据报文中固定的标志位字段中的关键特征信息,生成对互联网应用的交互特征样本;
所述机器学习单元,通过机器学习方法对训练样本训练学习,得到互联网应用特征模型。
[0018]所述流处理单元:利用特征模型对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。
[0019]本发明提出的特征采集是采用部署在互联网上的的虚拟机实现,与现有采集端无关,生成的特征数据库可直接替换现有特征库或者插入现有特征库供识别设备使用。
[0020]目前由于DPI技术在网络上大量使用,对应用识别准确性要求越来越高了,目前采用特征库匹配的DPI设备占据大多数,大部分设备需要更新特征库来保证设备具备高的识别准确性,否则,会因为互联网应用协议的变化而导致识别率下降,因此,运营商就有使用第三方特征库对设备特征库进行更新的需求。
[0021]本发明提出一种可以自动学习生成特征库的方法,通过该方法,可以构建出最新的特征库条目,通过人工或者自动的方式,对DPI设备现有的特征库进行在线更新,使得采用了 DPI技术的设备,能够保持全网识别能力的一致性,并且能够跟上移动互联网快速更新的特点,使得识别准确性得以保持甚至提高。
[0022]本发明还可作为第三方数据库提供给运营商网内的应用识别设备使用,能够帮助运营商区分传输管道内传输的各类互联网应用分布的情况、带宽占用等情况,从而帮助运营商制定更加合理的流量套餐;可以为客户提供个性化的增值服务,帮助客户分析其购买带宽的利用情况,帮助客户减少在流量分析、网络管理及网络安全方面的投资。
[0023]显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
【主权项】
1.一种通过主动学习方法构建应用特征识别数据库的方法,其特征在于,包括以下步骤: 1)样本获取:在互联网上部署模拟器,模拟器安装模拟访问指定的互联网应用的软件,按预先定义的软件向互联网应用发起主动访问,获取应用运行时的协议交互过程,然后通过报文的捉取模块,获取应用运行过程中协议报文固定的标志位字段,提取报文固定特征位生成对互联网应用的交互特征样本; 2)训练学习:通过机器学习方法对训练样本训练学习,得到互联网应用特征模型; 3)生成特征库:利用特征模型对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。2.根据权利要求1所述的方法,其特征在于,所述步骤I)中获取的应用特征包括IP地址、URL、端口和元素。3.—种通过主动学习方法构建互联网应用特征识别数据库的系统,其特征在于,包括模拟器主动访问单元、样本生成单元、机器学习单元和流处理单元; 所述模拟器主动访问单元:虚拟机中集成有互联网协议访问工具,模拟用户的访问行为对互联网应用网站进行访问,并处理互联网网站返回的结果; 所述样本生成单元:用于监听虚拟机主动访问单元与互联网应用之间交互的数据报文,按照预先定义的特征数据提取规则,提取出数据报文中固定的标志位字段中的关键特征信息,生成对互联网应用的交互特征样本; 所述机器学习单元,通过机器学习方法对训练样本训练学习,得到互联网应用特征模型; 所述流处理单元:利用特征模型对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。
【专利摘要】本发明公开一种通过主动学习方法构建互联网应用特征识别数据库的方法及系统,方法包括:在互联网上部署客户端模拟器,主动向互联网应用发起交互访问,获取应用运行时的协议交互过程报文,提取报文固定特征位生成对互联网应用的交互特征样本,通过机器学习方法对训练样本训练学习,得到互联网应用特征模型,对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。该方法对互联网中应用的特征可实现动态的学习,有操作灵活,可扩展性好,部署容易的特点,应用特征数据库中的特征数据有实时性,实现一点构建,全网通用。
【IPC分类】G06F17/30
【公开号】CN105279230
【申请号】CN201510588327
【发明人】谭彦, 李元新, 龙云亮, 邓博存, 梁志禧
【申请人】广东顺德中山大学卡内基梅隆大学国际联合研究院, 广东顺德中卡云网络科技有限公司
【公开日】2016年1月27日
【申请日】2015年9月16日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1