一种软件识别特征的获取方法和装置与流程

文档序号：11138609阅读：432来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及网络安全技术领域，尤其涉及一种软件识别特征的获取方法和装置。

背景技术：

随着互联网的快速发展，网络安全问题逐步凸显，以木马、病毒、后门程序、广告软件等为代表的非法软件，即恶意软件，在数量、更新速度和使用技术等方面较之前也有了突飞猛进的发展，恶意软件给互联网用户造成的影响和损失逐年增加。

目前，主要采用的对恶意软件网络流量中识别特征进行鉴别的方法识别恶意软件，针对恶意软件网络流量的识别特征获取方法主要有两种：

1)针对恶意软件文件的静态及沙盒分析识别方法，如文件软件哈希等；通过反向工程分析恶意软件运行逻辑，并通过沙盒运行获取实际的恶意软件网络行为，获取可用的识别特征；

2)采用传统的互联网协议(IP，Internet Protocol)地址、端口及深度包检测(DPI，Deep Packet Inspection)技术的识别方法，通过对恶意软件网络流量抓包样本进行分析，提取识别特征。

以上两种传统的识别方法存在共同的问题：

1)需要获取到恶意软件样本进行分析，而样本及变种数量庞大，更新迅速；

2)需要投入大量的人力进行样本分析，资源需求量大，效率较低；

3)恶意软件如绑定在正常软件上，流量样本中的包含大量正常流量，造成区分困难；

4)恶意软件变种较多较快，现有方案不能满足及时性需求。

以上情况使得传统的以软件文件哈希及其他静态分析方法为代表的恶意软件检测方法越来越难以应对，建立可以有效识别新型恶意软件的识别和控制体系成为当前网络安全最迫切的工作。

因此，如何在没有非法软件样本的情况下，获取非法软件的识别特征，适应非法软件及其变种过多、变化过快带来的无法及时获取非法软件识别特征的问题，是亟待解决的问题。

技术实现要素：

有鉴于此，本发明实施例期望提供一种软件识别特征的获取方法和装置，能在没有非法软件样本的情况下，获取非法软件的识别特征，适应非法软件及其变种过多、变化过快带来的无法及时获取非法软件识别特征的问题。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提供了一种软件识别特征的获取方法，所述方法包括：

根据预设合法网络标识样本和非法网络标识样本，确定所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值；

根据各待检测网络标识关联信息的向量值，以及所述各合法网络标识和各非法网络标识分别对应的网络标识关联信息的向量值，确定所述各待检测网络标识的合法性；

获取所述确定合法性的网络标识与关联软件之间的指定通信信息，将不同合法性网络标识对应的所述指定通信信息确定为不同合法性软件对应的识别特征。

上述方案中，所述网络标识，包括：互联网协议IP地址；

所述网络标识关联信息的向量值，包括：IP地址关联信息的向量值。

上述方案中，所述IP地址关联信息的向量值，包括：IP地址关联域名生成算法(DGA，Domain Generation Algorithm)域名所占比例、和/或IP地址关联DGA主域名所占比例、和/或IP地址关联域名集中度、和/或IP地址关联域名数量、和/或IP地址关联主域名数量、和/或IP地址关联统一资源定位器(URL，Uniform Resource Locator)数量、和/或IP地址关联URL类型均值、和/或IP地址关联URL类型方差、和/或已检测为非法的URL检测结果均值；和/或已检测为非法的URL检测结果方差、和/或与所述IP地址通信的样本数量、和/或与所述IP地址通信的样本杀毒软件识别结果均值、和/或与所述IP地址通信的样本杀毒软件识别结果均方差；和/或从所述IP地址下载的样本数量、和/或从所述IP地址下载的样本杀毒软件识别结果均值、和/或从所述IP地址下载的样本杀毒软件识别结果方差。

上述方案中，所述确定所述各待检测网络标识的合法性之前，所述方法还包括，不检测满足预设筛选规则的所述待检测网络标识；所述筛选规则包括：无关联信息的IP地址；无域名关联的IP地址；无软件关联的IP地址；关联知名网站的IP地址。

上述方案中，所述获取所述确定合法性的网络标识与关联软件之间的预设通信信息，包括：获取所述确定合法性的网络标识与关联软件之间的网络通信协议、和/或网络通信端口、和/或超文本传输协议(HTTP，HyperText Transfer Protocol)请求URL、和/或域名、和/或用户代理(User Agent)。

上述方案中，所述确定所述各待检测网络标识的合法性，包括：采用分类器确定所述各待检测网络标识的合法性。

上述方案中，所述采用分类器确定所述各待检测网络标识的合法性，包括：采用支持向量机(SVM，Support Vector Machine)分类器、和/或随机森林、和/或决策树确定所述各待检测网络标识的合法性。

本发明实施例还提供了一种软件识别特征的获取装置，所述装置包括：确定模块、检测模块和获取模块；其中，

所述确定模块，用于根据预设合法网络标识样本和非法网络标识样本，确定所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值；

所述检测模块，用于根据各待检测网络标识关联信息的向量值，以及所述各合法网络标识和各非法网络标识分别对应的网络标识关联信息的向量值，确定所述各待检测网络标识的合法性；

所述获取模块，用于获取所述确定合法性的网络标识与关联软件之间的指定通信信息，将不同合法性网络标识对应的所述指定通信信息确定为不同合法性软件对应的识别特征。

上述方案中，所述网络标识，包括：IP地址。

所述网络标识关联信息的向量值，包括：IP地址关联信息的向量值。

上述方案中，所述IP地址关联信息的向量值，包括：IP地址关联DGA域名所占比例、和/或IP地址关联DGA主域名所占比例、和/或IP地址关联域名集中度、和/或IP地址关联域名数量、和/或IP地址关联主域名数量、和/或IP地址关联URL数量、和/或IP地址关联URL类型均值、和/或IP地址关联URL类型方差、和/或已检测为非法的URL检测结果均值；和/或已检测为非法的URL检测结果方差、和/或与所述IP地址通信的样本数量、和/或与所述IP地址通信的样本杀毒软件识别结果均值、和/或与所述IP地址通信的样本杀毒软件识别结果均方差；和/或从所述IP地址下载的样本数量、和/或从所述IP地址下载的样本杀毒软件识别结果均值、和/或从所述IP地址下载的样本杀毒软件识别结果方差。

上述方案中，所述检测模块，还用于：不检测满足预设筛选规则的所述待检测网络标识；所述筛选规则包括：无关联信息的IP地址；无域名关联的IP地址；无软件关联的IP地址；关联知名网站的IP地址。

上述方案中，所述获取模块，具体用于：获取所述确定合法性的网络标识与关联软件之间的网络通信协议、和/或网络通信端口、和/或HTTP请求URL、和/或域名、和/或User Agent。

上述方案中，所述检测模块，具体用于：采用分类器确定所述各待检测网络标识的合法性.

上述方案中，所述检测模块，具体用于：采用SVM分类器、和/或随机森林、和/或决策树确定所述各待检测网络标识的合法性。

本发明实施例所提供的软件识别特征的获取方法和装置，根据预设合法网络标识样本和非法网络标识样本，确定所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值；根据各待检测网络标识关联信息的向量值，以及所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值，确定所述各待检测网络标识的合法性；获取所述确定合法性的网络标识与关联软件之间的预设通信信息，将不同合法性网络标识对应的所述预设通信信息确定为不同合法性软件对应的识别特征。这样，先对与非法软件进行通信的基础设施的网络标识进行识别，进而获取非法软件与非法网络标识对应的基础设施的通信信息，即非法软件的识别特征；如此，能在没有非法软件样本的情况下，获取非法软件的识别特征，适应非法软件及其变种过多、变化过快带来的无法及时获取非法软件识别特征的问题。

附图说明

图1为本发明实施例软件识别特征的获取方法的流程示意图；

图2为本发明实施例非法软件网络流量识别系统的组成结构示意图；

图3为本发明实施例非法软件识别特征的获取方法的流程示意图；

图4为本发明实施例软件识别特征的获取装置组成结构示意图。

具体实施方式

本发明实施例中，根据预设合法网络标识和非法网络标识样本，确定所述各合法网络标识和非法网络标识对应的网络标识关联信息的向量值；根据各待检测网络标识关联信息的向量值，以及所述各合法网络标识和非法网络标识对应的网络标识关联信息的向量值，采用分类器确定所述各待检测网络标识的合法性；获取所述确定合法性的网络标识与关联软件之间的通信信息，将不同合法性网络标识的对应的所述通信信息确定为不同合法性软件对应的识别特征。

下面结合实施例对本发明再作进一步详细的说明。

本发明实施例提供的软件识别特征的获取方法，如图1所示，所述方法包括：

步骤101：根据预设合法网络标识样本和非法网络标识样本，确定所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值；

这里，本发明实施例以收集的大量威胁情报为基础，对海量威胁情报进行过滤及挖掘，对威胁情报进行量化处理，并创建模型，通过合法和非法样本的训练，实现自动化提取准确的非法网络标识情报，进而与非法软件进行关联并生成识别特征，实现对非法软件的网络流量识别；可以预先收集大量网络标识及与所述网络标识关联的信息作为威胁情报；可以在威胁情报中，根据已知合法性的网络标识确定用于作为样本的合法网络标识和非法网络标识，并确定所述各合法网络标识和非法网络标识对应的网络标识关联信息的向量值；其中，所述网络标识包括：IP地址。

也可以以实时获取的网络标识威胁情报为基础进行处理；非法软件通常会将获取的非法信息上传至非法软件预设的一些IP地址等网络标识对应的设备，如服务器等，或从这些设备上获取非法软件更新信息，这些设备通常称为非法软件的基础设施，非法软件的变种仍然是和这些基础设施进行通信，通常非法软件的基础设施在网络中的网络标识是固定的；因此，可以通过先确定非法软件的基础设施的网络标识，再确定与确定出的网络标识进行通信的非法软件。

目前，常用的威胁情报主要是针对IP地址、域名、URL及软件哈希等安全观察对象的情报信息，如IP地址威胁情报中包含以下信息：IP地址的地理信息、自治系统(AS，Autonomous System)信息、IP地址关联过的域名历史、与该IP地址通信过的非法软件及正常软件的文件哈希列表、该IP地址关联的非法网页网址等于IP地址相关联的信息；域名的威胁情报包含：域名的whois(查询域名的IP地址以及所有者等信息的传输协议)信息、域名的工信部备案信息、域名的关联IP地址信息等；软件哈希的威胁情报主要是沙盒运行的结果，包括：软件的静态分析信息，如文件大小、引用库，运行系统、签名、各种哈希算法值，软件运行时的文件操作信息，如创建、读、写、修改等，软件运行时的创建的进程及服务等，软件运行时的的网络行为，如HTTP访问、域名系统(DNS，Domain Name System)查询、传输控制协议(TCP，Transmission Control Protocol)/用户数据报协议(UDP，User Datagram Protocol)连接等；

海量的威胁情报并不能直接作为识别非法软件和网站的识别特征，原因主要包括：非法软件也会与正常的网站、IP地址及DNS等服务器进行连接，此流量不应识别为非法流量；非法软件如绑定在正常软件上，则会产生正常软件的网络流量，需要与非法流量区分处理；同一IP地址上可能关联多个网站及服务，此IP地址的部分流量为非法流量，另一部分则为正常流量，需要区分识别；

对威胁情报中的信息进行处理，可以采用统计学方法计算该IP地址关联信息，得到IP地址关联信息的向量值，包括：

IP地址关联DGA域名所占比例，可以用dga_fqdn_ratio表示；

IP地址关联DGA主域名所占比例，可以用dga_domain_ratio表示；

IP地址关联域名集中度，可以用domain_concentration表示，domain_concentration可以是域名数量除以主域名数量之商；

IP地址关联域名数量，可以用fqdn_count表示；

IP地址关联主域名数量，可以用domain_count表示；

IP地址关联URL数量，可以用urls_count表示；

IP地址关联URL类型均值，可以用urls_type_mean表示，其中，当urls_type_mean为0，可以表示无端口，无文件exe后缀；当urls_type_mean为1，可以表示有exe文件后缀；当urls_type_mean为2，可以表示有端口，有exe文件后缀；

IP地址关联URL类型方差，可以用urls_type_variance表示；

已检测为非法的IP地址关联URL检测结果均值，可以用urls_pos_ratio_mean表示；

已检测为非法的IP地址关联URL检测结果方差，可以用urls_pos_ratio_variance表示；

与IP地址通信的样本数量，可以用communicating_sample_count表示；

与IP地址通信的样本杀毒软件识别结果均值，可以用cs_pos_ratio_mean表示；

与IP地址通信的样本杀毒软件识别结果均方差，可以用cs_pos_ratio_variance表示；

从IP地址下载的样本数量，可以用downloaded_sample_count表示；

从IP地址下载的样本杀毒软件识别结果均值，可以用ds_pos_ratio_mean表示；

从IP地址下载的样本杀毒软件识别结果方差，可以用ds_pos_ratio_variance表示。

步骤102：根据各待检测网络标识关联信息的向量值，以及所述各合法网络标识和各非法网络标识分别对应的网络标识关联信息的向量值，确定所述各待检测网络标识的合法性；

基于以上IP地址关联信息的向量值数据，可以采用其中的一种或多种数据，以合法网络标识关联信息的向量值作为正向样本，以非法网络标识关联信息的向量值作为反向样本，采用机器学习技术训练分类器；机器学习分类器可采用支持向量机(SVM，Support Vector Machine)分类器、随机森林、决策树等；分类器确定后分析各待检测网络标识关联信息的向量值，确定所述各待检测网络标识的合法性；其中所述各待检测网络标识关联信息可以是从已有的威胁情报库中获取，也可以在网络的实时流量中获取，并通过分类器分类；

分类器采用的数据分类是指在已有分类的训练数据的基础上，根据某种原理，经过训练形成一个分类器；然后使用分类器判断没有分类的数据的类别。数据都是以向量形式出现的，如<0.4，0.123，0.323>。如SVM分类器采用一种基于分类边界的方法。其基本原理是：如果训练数据分布在二维平面上的点，它们按照其分类聚集在不同的区域。基于分类边界的分类算法的目标是，通过训练，找到这些分类之间的边界(直线的称为线性划分，曲线的称为非线性划分)。对于多维数据(如N维)，可以将它们视为N维空间中的点，而分类边界就是N维空间中的面，称为超面(超面比N维空间少一维)。线性分类器使用超平面类型的边界，非线性分类器使用超曲面；

通过合法网络标识和非法网络标识关联信息向量值样本训练过的分类器，可以对待检测网络标识关联信息向量值进行识别，并确定所述待检测网络标识的合法性，其中所述网络标识包括IP地址。

进一步的，由于并非每个待检测的IP地址的关联信息都是完整的，因此，可以在检测前进行筛选，对满足预设筛选规则的IP地址不进行处理；所述预设规则包括：无关联信息的IP地址；无域名关联IP地址；无软件关联IP地址；关联知名网站网址IP地址等。

步骤103：获取所述确定合法性的网络标识与关联软件之间的指定通信信息，将不同合法性网络标识对应的所述指定通信信息确定为不同合法性软件对应的识别特征；

这里，分类器确定所述待检测网络标识的合法性分类后，可以从已有的威胁情报或实时威胁情报中确定与所述网络标识进行通信的软件，并获取所述网络标识与软件的指定通信信息；如果所述网络标识为非法网络标识，则对应的指定通信信息为用于识别非法软件的识别特征；如果所述网络标识为合法网络标识，则对应的指定通信信息为用于识别合法软件的识别特征；也可以仅获取非法网络标识与软件的指定通信信息。其中所述指定通信信息可以包括：网络通信协议、网络通信端口、HTTP请求URL、域名、用户代理(User Agent)等；

进一步的，可以对所述指定通信信息进行格式化，成为常用的软件识别特征；其中，对所述指定通信信息进行格式化可以采用Java描述语言对象表示法(JSON，JavaScript Object Notation)格式输出；可以采用生成的非法软件的识别特征对非法软件及其变种进行识别。

下面结合具体示例对本发明产生的积极效果作进一步详细的描述；

图2为本发明实施例的非法软件网络流量识别系统的组成结构图，所述非法软件网络流量识别系统包括：客户设备21、非法软件流量识别设备22、非法软件识别特征存储单元23、威胁情报挖掘单元24、威胁情报存储单元25和威胁情报收集单元26；其中，

威胁情报收集单元26，用于收集网络威胁情报及本地沙盒运行非法样本获取情报，将收集到的情报存储于威胁情报存储单元25，威胁情报挖掘单元24基于威胁情报存储单元25存储的威胁情报进行过滤和挖掘，生成非法软件识别特征，并将输出的非法软件识别特征存储于非法软件识别特征存储单元23；

客户设备21为用户日常使用的PC、服务器及移动设备等，通过非法软件流量识别设备22与互联网进行网络交互访问；非法软件流量识别设备22读取非法软件识别特征存储单元23中存储的识别特征对客户设备21与互联网之间通信的网络流量进行识别和监控。当非法软件产生的网络流量流经非法软件流量识别设备22时，非法软件流量识别设备22将网络流量与非法软件识别特征存储单元23中的非法软件识别特征进行匹配，以完成非法软件流量的识别。

图3为本发明实施例的非法软件识别特征的获取方法流程图。

首先，建立威胁请报库，并训练分类器，包括：

步骤3001：收集网络威胁情报并存储在威胁情报库D101。

步骤3002：将确认的非法IP地址及合法IP地址的威胁情报分别进行量化处理，获取非法IP地址及合法IP地址关联信息的向量值，形成非法IP地址训练样本D103及合法IP地址训练样本D104，以D103及D104作为训练样本训练机器学习分类器D105，机器学习分类器可采用SVM分类器、随机森林、决策树等。

然后，对威胁请报库中的IP地址进行鉴别并获取与非法IP地址通信的非法软件的识别特征

步骤3101：流程开始；

步骤3102：从威胁情报库读取一条IP地址的威胁情报；

步骤3103：根据预设筛选规则D102对数据进行筛选，如果匹配规则放弃该条IP地址的威胁情报的后续判断逻辑，并进入3109判断情报是否处理完毕；

步骤3104：如果未匹配清洗规则，则对情报进行量化计算，确定IP地址关联信息的向量值；

步骤3105：通过情报分类器D105对量化后的情报进行分类，分类结果为合法IP地址则进入步骤3109判断情报是否处理完毕；

步骤3106：分类结果为非法IP地址，则根据该情报确认该IP地址关联的非法软件；

步骤3107：通过对IP地址关联非法软件情报进行分析，获取非法软件与该IP地址的网络通信细节，数据包括但不限于：网络通信协议；网络通信端口；HTTP请求URL、域名、User-Agent等；

步骤3108：将以上通信细节形成格式化识别特征，以JSON格式输出至非法软件识别特征库D106；

步骤3109：确认是否仍然有未处理的IP地址威胁情报，如果有则进入步骤3102读取并处理下一条情报，如果全部情报处理完成则进入步骤3110结束流程；

步骤3110：流程结束。

本发明实施例提供的软件识别特征的获取装置，如图4所示，所述装置包括：确定模块41、检测模块42和获取模块43；其中，

所述确定模块41，用于根据预设合法网络标识样本和非法网络标识样本，确定所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值；

目前，常用的威胁情报主要是针对IP地址、域名、URL及软件哈希等安全观察对象的情报信息，如IP地址威胁情报中包含以下信息：IP地址的地理信息、AS信息、IP地址关联过的域名历史、与该IP地址通信过的非法软件及正常软件的文件哈希列表、该IP地址关联的非法网页网址等于IP地址相关联的信息；域名的威胁情报包含：域名的whois(查询域名的IP地址以及所有者等信息的传输协议)信息，域名的工信部备案信息，域名的关联IP地址信息等；软件哈希的威胁情报主要是沙盒运行的结果，包括：软件的静态分析信息，如文件大小、引用库，运行系统、签名、各种哈希算法值，软件运行时的文件操作信息，如创建、读、写、修改等，软件运行时的创建的进程及服务等，软件运行时的的网络行为，如HTTP访问、DNS查询、TCP/UDP连接等；

对威胁情报中的信息进行处理，可以采用统计学方法计算该IP地址关联信息，得到IP地址关联信息的向量值，包括：

IP地址关联DGA域名所占比例，可以用dga_fqdn_ratio表示；

IP地址关联DGA主域名所占比例，可以用dga_domain_ratio表示；

IP地址关联域名集中度，可以用domain_concentration表示，domain_concentration可以是域名数量除以主域名数量之商；

IP地址关联域名数量，可以用fqdn_count表示；

IP地址关联主域名数量，可以用domain_count表示；

IP地址关联URL数量，可以用urls_count表示；

IP地址关联URL类型方差，可以用urls_type_variance表示；

已检测为非法的IP地址关联URL检测结果均值，可以用urls_pos_ratio_mean表示；

已检测为非法的IP地址关联URL检测结果方差，可以用urls_pos_ratio_variance表示；

与IP地址通信的样本数量，可以用communicating_sample_count表示；

与IP地址通信的样本杀毒软件识别结果均值，可以用cs_pos_ratio_mean表示；

与IP地址通信的样本杀毒软件识别结果均方差，可以用cs_pos_ratio_variance表示；

从IP地址下载的样本数量，可以用downloaded_sample_count表示；

从IP地址下载的样本杀毒软件识别结果均值，可以用ds_pos_ratio_mean表示；

从IP地址下载的样本杀毒软件识别结果方差，可以用ds_pos_ratio_variance表示。

所述检测模块42，用于根据各待检测网络标识关联信息的向量值，以及所述各合法网络标识和各非法网络标识分别对应的网络标识关联信息的向量值，确定所述各待检测网络标识的合法性；

进一步的，由于并非每个待检测的IP地址的关联信息都是完整的，因此，可以在检测前进行筛选，对满足预设筛选规则的IP地址不进行处理；所述预设规则包括：无关联信息的IP地址；无域名关联IP地址；无软件关联IP地址；关联知名网站网址IP地址等；

所述获取模块43，用于获取所述确定合法性的网络标识与关联软件之间的指定通信信息，将不同合法性网络标识对应的所述指定通信信息确定为不同合法性软件对应的识别特征；

这里，分类器确定所述待检测网络标识的合法性分类后，可以从已有的威胁情报或实时威胁情报中确定与所述网络标识进行通信的软件，并获取所述网络标识与软件的指定通信信息；如果所述网络标识为非法网络标识，则对应的指定通信信息为用于识别非法软件的识别特征；如果所述网络标识为合法网络标识，则对应的指定通信信息为用于识别合法软件的识别特征；也可以仅获取非法网络标识与软件的指定通信信息。其中所述指定通信信息可以包括：网络通信协议；网络通信端口；HTTP请求URL、域名、用户代理(User Agent)等；

进一步的，可以对所述指定通信信息进行格式化，成为常用的非法软件的识别特征；其中，对所述指定通信信息进行格式化可以采用JSON格式输出；可以采用生成的非法软件的识别特征对非法软件及其变种进行识别。

在实际应用中，所述确定模块41、检测模块42和获取模块43均可由网络安全设备中的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。

以上所述，仅为本发明的最佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马勇;周松松;张永臣;
技术所有人：北京网康科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。