一种计算机应用识别方法、装置及存储介质

文档序号:26050943发布日期:2021-07-27 15:26阅读:55来源:国知局
一种计算机应用识别方法、装置及存储介质

本发明属于计算机通信安全技术领域,具体为一种计算机应用识别方法、装置及存储介质。



背景技术:

电子计算机通称电脑,是现代一种用于高速计算的电子计算机器,可以进行数值计算、逻辑计算,具有存储记忆功能,能够按照程序运行,自动、高速处理海量数据,应用程序是指为了完成某项或某几项特定任务而被开发运行于操作系统之上的计算机程序。应用程序与应用软件的概念不同,但常常因为概念相似而被混淆。软件指程序与其相关文档或其他从属物的集合。一般我们视程序为软件的一个组成部分。

现有的计算机应用在进行下载识别时一般依靠流量特征数据库的支持,在识别时效率较低,且现有的应用识别不能判断出应用是否存在缺陷或者病毒,可能在下载后影响计算机中用户的信息安全;因此,针对目前的状况,现需对其进行改进。



技术实现要素:

针对上述情况,为克服现有技术的缺陷,本发明提供一种计算机应用识别方法、装置及存储介质,有效的解决了现有的计算机应用在进行下载识别时一般依靠流量特征数据库的支持,在识别时效率较低,且现有的应用识别不能判断出应用是否存在缺陷或者病毒,可能在下载后影响计算机中用户的信息安全的问题。

为实现上述目的,本发明提供如下技术方案:一种计算机应用识别方法,包括以下步骤:

s1:请求信息识别:终端在进行应用下载前,向应用识别系统发送应用识别的请求,应用识别系统在接收到请求消息后,通过数据流获取终端的属性信息,以及确定出与所述应用识别的请求对应的待识别的应用的文件路径信息,根据所述文件路径信息获取相应的待识别的应用的标识信息;

s2:应用信息识别:通过多条数据流提取待识别的应用标识信息的切词特征、流表和域名表,所述流表包括多个流表项,多个所述流表中的每个流表项包括匹配字段、优先级、计数器、指令、超时时间、cookie以及流起始时间,所述域名表包括多个域名表项,多个所述域名表项中的每个域名表项包括源互联网协议ip地址、目的域名、目的ip地址和域名类型,通过对所述流表和所述域名表进行特征分析后,得到多个应用类型的标签,所述标签信息用于识别所述终端属性信息进行数据流匹配;

s3:应用特征模拟:在上述步骤s2以及获取了待识别的应用标识信息的切词特征以及与所述终端属性信息进行数据流匹配后,对所提取的切词特征进行均值编码,从而得到均值编码特征,接着将得到的均值编码特征发送至模拟学习系统中,进行模拟学习预测,在模拟学习预测完毕后,得到预测值;

s4:应用识别判断:在上述步骤s3中得到预测值的情况下,将预测值发送至智能识别系统中进行智能识别判断,若预测值大于均衡值,则判断待识别的应用存在缺陷或病毒,若预测值小于均衡值,则判断待识别的应用合格,接着将判断信息发送至终端,终端对应用进行下载。

优选的,所述步骤s2中,应用类型的标签的获取过程为:首先通过所述流表进行流行为特征分析,从而获得由ip地址和端口标识构成的多个服务,每个服务至少包括一个ip地址和一个端口标识,接着通过所述流表和所述域名表的特征,对所述多个服务进行聚类,得到多个应用类型,最后确定所述多个应用类型中每个应用类型对应的标签。

优选的,所述步骤s3中,均值编码特征的编辑基于category-encoders库、bayesian-target-encoding目标编码方法、weight-of-evidence自变因变管理函数以及nonlinear-pca分类量化方法。

优选的,所述步骤s3中,模拟学习系统为基于逻辑回归模型的函数模拟系统,所述逻辑回归模型包括二项逻辑回归函数、多元逻辑回归函数以及随机逻辑回归函数。

优选的,所述步骤s4中,均衡值的获取办法为:从缺陷或病毒应用样本以及常规应用样本中的样本集中提取样本值标记和应用标识信息的样本切词特征,对所述样本切词特征进行均值编码得到均值编码特征,基于提取的样本值标记和样本均值编码特征对逻辑回归模型进行模拟训练,以得到均衡值函数。

优选的,一种计算机应用识别装置,包括:

信息接收单元:所述信息接收单元用于接收终端发送的请求消息,并根据此消息获取终端的属性信息,以及确定出与所述应用识别的请求对应的待识别的应用的文件路径信息;

特征提取单元:所述特征提取单元用于通过多条数据流提取待识别的应用标识信息的切词特征、流表和域名表,所述流表包括多个流表项,多个所述流表中的每个流表项包括匹配字段、优先级、计数器、指令、超时时间、cookie以及流起始时间;

分析确定单元:所述分析确定单元用于通过所述流表进行流行为特征分析,从而获得由ip地址和端口标识构成的多个服务,每个服务至少包括一个ip地址和一个端口标识,接着通过所述流表和所述域名表的特征,对所述多个服务进行聚类,得到多个应用类型,最后确定所述多个应用类型中每个应用类型对应的标签,所述标签信息用于识别所述终端属性信息进行数据流匹配;

编码预测单元:所述编码预测单元用于对所提取的切词特征进行均值编码,从而得到均值编码特征,接着将得到的均值编码特征发送至模拟学习系统中,进行模拟学习预测;

识别判断单元:所述识别判断单元用于比较预测值和均衡值数据大小,从而判断待识别的应用合格与否。

优选的,所述特征提取单元包括待识别的应用特征提取模块和样本特征提取模块,所述特征提取模块包括样本值标记提取模块、样本切词特征提取模块、样本独热编码模块以及模型训练模块。

优选的,所述待识别的应用特征提取模块和所述样本特征提取模块为相互独立的两个模块。

优选的,一种计算机应用识别存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至5中任一所述的方法的步骤。

与现有技术相比,本发明的有益效果是:1、本发明,通过多条数据流提取待识别的应用标识信息的切词特征、流表和域名表,流表包括多个流表项,多个流表中的每个流表项包括匹配字段、优先级、计数器、指令、超时时间、cookie以及流起始时间,域名表包括多个域名表项,多个域名表项中的每个域名表项包括源互联网协议ip地址、目的域名、目的ip地址和域名类型,通过对流表和域名表进行特征分析后,得到多个应用类型的标签,标签信息用于识别终端属性信息进行数据流匹配,此种计算机应用识别方法通过流行为特征识别应用,不需流量特征数据库的支持,可在新应用出现时,快速进行识别,从而提高了计算机对应用的识别效率;

2、本发明,通过编码预测单元用于对所提取的切词特征进行均值编码,从而得到均值编码特征,接着将得到的均值编码特征发送至模拟学习系统中,进行模拟学习预测,且识别判断单元用于比较预测值和均衡值数据大小,若预测值大于均衡值,则判断待识别的应用存在缺陷或病毒,若预测值小于均衡值,则判断待识别的应用合格,可在计算机进行应用安装时,对应用进行有效的安全分析,避免存在缺陷或病毒的应用被下载安装,提高了计算机应用安装的安全性,同时保护了用户的信息安全。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。

在附图中:

图1为本发明流程图;

图2为本发明装置框图;

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明提供一种技术方案:一种计算机应用识别方法,包括以下步骤:

s1:请求信息识别:终端在进行应用下载前,向应用识别系统发送应用识别的请求,应用识别系统在接收到请求消息后,通过数据流获取终端的属性信息,以及确定出与应用识别的请求对应的待识别的应用的文件路径信息,根据文件路径信息获取相应的待识别的应用的标识信息;

s2:应用信息识别:通过多条数据流提取待识别的应用标识信息的切词特征、流表和域名表,流表包括多个流表项,多个流表中的每个流表项包括匹配字段、优先级、计数器、指令、超时时间、cookie以及流起始时间,域名表包括多个域名表项,多个域名表项中的每个域名表项包括源互联网协议ip地址、目的域名、目的ip地址和域名类型,通过对流表和域名表进行特征分析后,得到多个应用类型的标签,标签信息用于识别终端属性信息进行数据流匹配;

s3:应用特征模拟:在上述步骤s2以及获取了待识别的应用标识信息的切词特征以及与终端属性信息进行数据流匹配后,对所提取的切词特征进行均值编码,从而得到均值编码特征,接着将得到的均值编码特征发送至模拟学习系统中,进行模拟学习预测,在模拟学习预测完毕后,得到预测值;

s4:应用识别判断:在上述步骤s3中得到预测值的情况下,将预测值发送至智能识别系统中进行智能识别判断,若预测值大于均衡值,则判断待识别的应用存在缺陷或病毒,若预测值小于均衡值,则判断待识别的应用合格,接着将判断信息发送至终端,终端对应用进行下载。

其中,步骤s2中,应用类型的标签的获取过程为:首先通过流表进行流行为特征分析,从而获得由ip地址和端口标识构成的多个服务,每个服务至少包括一个ip地址和一个端口标识,接着通过流表和域名表的特征,对多个服务进行聚类,得到多个应用类型,最后确定多个应用类型中每个应用类型对应的标签;

步骤s3中,均值编码特征的编辑基于category-encoders库、bayesian-target-encoding目标编码方法、weight-of-evidence自变因变管理函数以及nonlinear-pca分类量化方法;模拟学习系统为基于逻辑回归模型的函数模拟系统,逻辑回归模型包括二项逻辑回归函数、多元逻辑回归函数以及随机逻辑回归函数;

步骤s4中,均衡值的获取办法为:从缺陷或病毒应用样本以及常规应用样本中的样本集中提取样本值标记和应用标识信息的样本切词特征,对样本切词特征进行均值编码得到均值编码特征,基于提取的样本值标记和样本均值编码特征对逻辑回归模型进行模拟训练,以得到均衡值函数。

通过多条数据流提取待识别的应用标识信息的切词特征、流表和域名表,流表包括多个流表项,多个流表中的每个流表项包括匹配字段、优先级、计数器、指令、超时时间、cookie以及流起始时间,域名表包括多个域名表项,多个域名表项中的每个域名表项包括源互联网协议ip地址、目的域名、目的ip地址和域名类型,通过对流表和域名表进行特征分析后,得到多个应用类型的标签,标签信息用于识别终端属性信息进行数据流匹配,此种计算机应用识别方法通过流行为特征识别应用,不需流量特征数据库的支持,可在新应用出现时,快速进行识别,从而提高了计算机对应用的识别效率。

如图2所示,本发明提供一种技术方案:一种计算机应用识别装置,包括:

信息接收单元:信息接收单元用于接收终端发送的请求消息,并根据此消息获取终端的属性信息,以及确定出与应用识别的请求对应的待识别的应用的文件路径信息;

特征提取单元:特征提取单元用于通过多条数据流提取待识别的应用标识信息的切词特征、流表和域名表,流表包括多个流表项,多个流表中的每个流表项包括匹配字段、优先级、计数器、指令、超时时间、cookie以及流起始时间;

分析确定单元:分析确定单元用于通过流表进行流行为特征分析,从而获得由ip地址和端口标识构成的多个服务,每个服务至少包括一个ip地址和一个端口标识,接着通过流表和域名表的特征,对多个服务进行聚类,得到多个应用类型,最后确定多个应用类型中每个应用类型对应的标签,标签信息用于识别终端属性信息进行数据流匹配;

编码预测单元:编码预测单元用于对所提取的切词特征进行均值编码,从而得到均值编码特征,接着将得到的均值编码特征发送至模拟学习系统中,进行模拟学习预测;

识别判断单元:识别判断单元用于比较预测值和均衡值数据大小,从而判断待识别的应用合格与否。

其中,特征提取单元包括待识别的应用特征提取模块和样本特征提取模块,特征提取模块包括样本值标记提取模块、样本切词特征提取模块、样本独热编码模块以及模型训练模块;待识别的应用特征提取模块和样本特征提取模块为相互独立的两个模块。

通过编码预测单元用于对所提取的切词特征进行均值编码,从而得到均值编码特征,接着将得到的均值编码特征发送至模拟学习系统中,进行模拟学习预测,且识别判断单元用于比较预测值和均衡值数据大小,若预测值大于均衡值,则判断待识别的应用存在缺陷或病毒,若预测值小于均衡值,则判断待识别的应用合格,可在计算机进行应用安装时,对应用进行有效的安全分析,避免存在缺陷或病毒的应用被下载安装,提高了计算机应用安装的安全性,同时保护了用户的信息安全。

本发明提供一种技术方案:一种计算机应用识别存储介质,存储介质内存储有计算机程序,计算机程序被处理器执行时实现权利要求1至5中任一的方法的步骤。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1