网络请求数据分类模型训练方法、分类方法及存储介质与流程

文档序号:30183886发布日期:2022-05-26 16:33阅读:73来源:国知局
网络请求数据分类模型训练方法、分类方法及存储介质与流程

1.本发明涉及数据处理技术领域,具体而言,涉及一种网络请求数据分类模型训练方法、分类方法及存储介质。


背景技术:

2.随着互联网技术的发展和网络业务的拓展,网络服务也在不断增多。由于网络服务用户中,除了正常访问和使用网络服务的用户,还存在部分通过拼装非法请求数据来获取不公开信息或涉密信息的用户,使得网络服务数据和服务器资源的数据安全存在严重的安全隐患。因此,对网络请求数据进行正确分类是保证网络数据安全的重要技术手段。
3.目前,常用的网络请求数据分类方法是通过正则表达式对用户的请求数据进行匹配,根据匹配结果对请求数据进行分类,若匹配结果显示请求数据为非法请求,则服务器将该请求拦截并进行计数。
4.但是,正则表达式是预先定义的字符串的匹配规则,其匹配规则相对固定,容易被破解以绕开该匹配规则,同时针对新型数据拼装方法生成的非法请求数据的分类准确度较差。


技术实现要素:

5.本发明解决的问题是如何提高网络请求数据分类的准确性。
6.为解决上述问题,本发明提供一种网络请求数据分类模型训练方法、分类方法及存储介质。
7.第一方面,本发明提供一种网络请求数据分类模型训练方法,所述网络请求数据分类模型包括第一计算模型和第二计算模型,包括:
8.获取多条网络请求数据,并提取各条所述网络请求数据中的特征数据,其中,所述网络请求数据包括合法请求数据,所述特征数据包括请求地址数据;
9.采用预设的特征数据匹配规则对所述网络请求数据中的所述特征数据进行匹配,获得每条所述网络请求数据中所述特征数据的数量匹配结果;
10.采用各条所述合法请求数据的所述请求地址数据对预先构建的隐马尔可夫模型进行训练,获得第一计算模型,所述第一计算模型用于计算所述网络请求数据中所述请求地址数据的文本序列生成概率;
11.采用所述第一计算模型计算各条所述网络请求数据中所述请求地址数据的所述文本序列生成概率;
12.根据所述数量匹配结果和所述文本序列生成概率生成各条所述网络请求数据的特征向量,采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型,所述第二计算模型用于确定所述网络请求数据的合法概率。
13.本发明的网络请求数据分类模型训练方法的有益效果是:可获取多条网络请求数据作为带标签的样本数据,网络请求数据可采用历史网络请求数据,样本数据包括合法请
求数据和非法请求数据。提取各条网络请求数据中的特征数据,特征数据可包括请求地址数据、用户代理数据和证书数据等,采用预设的特征数据匹配规则对各条网络请求数据中的特征数据进行匹配,获得各条网络请求数据中特征数据的数量匹配结果,该数据匹配结果作为一个数值特征。采用合法请求数据的请求地址数据对预先构建的隐马尔科夫模型进行训练,获得第一计算模型,并采用第一计算模型计算各个网络请求数据中请求地址数据的文本序列生成概率,该文本序列生成概率作为另一个数值特征,将网络请求数据抽象成为数值特征,能够最大程度地获取其内部信息,提高后续训练得到模型的精度。采用数量匹配结果和文本序列生成概率组成的特征向量训练第一逻辑回归模型,得到第二计算模型,第二计算模型用于确定网络请求数据的合法概率,以对网络请求数据进行分类,例如可将网络请求数据的合法概率和预设阈值进行对比,根据对比结果确定网络请求数据为合法请求数据或非法请求数据。本发明中利用机器学习算法从多个维度学习网络请求数据的规律,相较于现有技术中采用固定格式的正则表达式匹配方法进行网络请求数据分类,训练得到的第二计算模型具有更高的分类准确性。且第二计算模型可根据输入的网络请求数据不断优化,很难被破解,大幅提高了安全性。并且,在面对新型拼装方法生成的非法请求数据时,本发明也能够根据学习的一般规律进行识别并拦截,应用范围广且分类准确度高。
14.可选地,所述网络请求数据分类模型还包括第三计算模型,所述采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型之后,还包括:
15.获取指定时段内的所有所述网络请求数据,并将所述指定时段内的所有所述网络请求数据按照用户进行分组,确定各个所述用户的所述网络请求数据;
16.采用余弦相似度算法计算各条所述网络请求数据中所述请求地址数据的文本相似度,并采用所述第二计算模型计算各条所述网络请求数据的合法概率;
17.根据各个所述用户的所有所述网络请求数据对应的所述文本相似度和所述合法概率训练预先构建的第二逻辑回归模型,获得第三计算模型,所述第三计算模型用于确定所述用户属于高风险用户的概率。
18.可选地,所述采用各条所述合法请求数据的所述请求地址数据对预先构建的隐马尔可夫模型进行训练,获得第一计算模型包括:
19.对各条所述合法请求数据的所述请求地址数据进行切分,获得多个切分后的数据;
20.对各个所述切分后的数据进行标记,获得标记后的数据,其中,将同一字符串的所述切分后的数据标记为同一数值,将不同符号的所述切分后的数据标记为不同数值;
21.基于前向后向算法,采用所述标记后的数据训练所述隐马尔可夫模型,获得所述第一计算模型。
22.可选地,所述采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型包括:
23.将所述特征向量输入所述第一逻辑回归模型,输出对应的所述网络请求数据的合法概率,其中,所述第一逻辑回归模型采用第一公式表示,所述第一公式包括:
[0024][0025]
其中,x表示所述网络请求数据的合法概率,kj表示所述第一逻辑回归模型的参
数,wj表示所述特征向量中的第j个元素;
[0026]
将所述合法概率与第一预设阈值进行比对,根据比对结果确定所述网络请求数据的第一预测标签;
[0027]
根据所述第一预测标签和所述网络请求数据的第一实际标签优化所述第一逻辑回归模型的参数,直至所述第一逻辑回归模型的精度满足第一预设条件,获得所述第二计算模型。
[0028]
可选地,所述采用余弦相似度算法计算各条所述网络请求数据中所述请求地址数据的文本相似度包括:
[0029]
按照词义对各条所述网络请求数据中的所述请求地址数据进行切分,获得与各条所述网络请求数据对应的词序列;
[0030]
对各个所述词序列分别进行编码,获得与各条所述网络请求数据对应的编码向量;
[0031]
基于所述余弦相似度算法,根据所述编码向量采用第二公式计算各条所述网络请求数据对应的所述文本相似度,所述第二公式包括:
[0032][0033]
其中,θi表示第i条所述网络请求数据对应的所述文本相似度,vi表示与第i条所述网络请求数据对应的所述编码向量,vj表示与第j条所述网络请求数据对应的所述编码向量。
[0034]
可选地,所述根据各个所述用户的所有所述网络请求数据对应的所述文本相似度和所述合法概率训练预先构建的第二逻辑回归模型,获得第三计算模型包括:
[0035]
对于任一所述用户,根据所述用户在所述指定时段内所有所述网络请求数据对应的所述文本相似度计算相似度均值,并根据所述用户在所述指定时段内所有所述网络请求数据对应的所述合法概率计算概率均值;
[0036]
将所述相似度均值和所述概率均值输入所述第二逻辑回归模型,输出对应的所述用户为高风险用户的概率,所述第二逻辑回归模型采用第三公式表示,所述第三公式包括:
[0037][0038]
其中,x
p
表示所述用户为高风险用户的概率,avg1表示所述相似度均值,avg2表示所述概率均值,t1和t2表示所述第二回归模型的参数;
[0039]
将所述用户为高风险用户的概率与第二预设阈值进行比对,根据比对结果确定所述第二逻辑回归模型的第二预测标签;
[0040]
根据所述第二预测标签和所述用户的第二实际标签优化所述第二逻辑回归模型的参数,直至所述第二逻辑回归模型的精度满足第二预设条件,获得所述第三计算模型。
[0041]
第二方面,本发明还提出了一种网络请求数据分类方法,包括:
[0042]
获取待分类的目标网络请求数据,并提取所述目标网络请求数据中的目标特征数据,其中,所述目标特征数据包括目标请求地址数据;
[0043]
采用预设的特征数据匹配规则对所述目标网络请求数据中的所述目标特征数据进行匹配,获得所述目标特征数据的数量匹配结果;
[0044]
将所述目标请求地址数据输入第一计算模型,输出所述目标请求地址数据的文本
序列生成概率;
[0045]
根据所述数量匹配结果和所述文本序列生成概率生成所述目标网络请求数据的目标特征向量,将所述目标特征向量输入第二计算模型,输出所述目标网络请求数据的合法概率;
[0046]
将所述合法概率和第一预设阈值进行对比,根据对比结果确定所述目标网络请求数据的数据类型,所述数据类型包括合法请求数据和非法请求数据;
[0047]
其中,所述第一计算模型和所述第二计算模型采用上述任一项所述的网络请求数据分类模型训练方法训练得到。
[0048]
本发明的网络请求数据分类方法的有益效果是:获取待分类的目标网络请求数据,并提取目标网络请求数据中的目标特征数据。采用预设的特征数据匹配规则对目标网络请求数据中的目标特征数据进行匹配,从特征数据维度提取目标特征数据的数值特征,获得数量匹配数量。将目标请求地址数据输入第一方面任一项所述的网络请求数据分类模型训练方法训练得到第一计算模型,从目标请求地址数据维度提取数值特征,输出文本序列生成概率。将数量匹配结果和文本序列生成概率组成的目标特征向量输入第一方面任一项所述的网络请求数据分类模型训练方法训练得到第二计算模型,输出目标网络请求数据的合法概率,并根据合法概率和第一预设阈值的对比结果确定目标网络请求数据的数据类型。本发明从多个维度提取网络请求数据的数值特征,根据多个维度的数值特征计算目标网络请求数据的合法概率,以实现目标网络请求数据的分类,有效提高了网络请求数据分类的准确度。
[0049]
可选地,本发明一种网络请求数据分类方法,还包括:
[0050]
获取目标用户在指定时段内的所有所述目标网络请求数据;
[0051]
采用余弦相似度算法计算各条所述目标网络请求数据中所述请求地址数据的文本相似度,并采用所述第二计算模型计算各条所述目标网络请求数据的合法概率;
[0052]
确定所有所述文本相似度的相似度均值和所有所述合法概率的概率均值,将所述相似度均值和所述概率均值输入第三计算模型,输出所述目标用户属于高风险用户的概率;
[0053]
将所述目标用户属于高风险用户的概率与第二预设阈值进行对比,根据对比结果确定所述目标用户的用户类型,所述用户类型包括高风险用户和非高风险用户;
[0054]
其中,所述第三计算模型采用上述中的任一项所述的网络请求数据分类模型训练方法训练得到。
[0055]
可选地,所述根据对比结果确定所述目标用户的用户类型之后,还包括:
[0056]
若所述目标用户为高风险用户,则将所述目标用户加入黑名单,拒绝所述目标用户的所有网络请求数据;
[0057]
若所述目标用户为非高风险用户,则允许接收所述目标用户的网络请求数据。
[0058]
第三方面,本发明还提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上述任一项所述的网络请求数据分类模型训练方法,或如上述任一项所述的网络请求数据分类方法。
[0059]
本发明所述的计算机可读存储介质与上述网络请求数据分类方法的有益效果相近似,在此不再进行赘述。
附图说明
[0060]
图1为本发明实施例的一种网络请求数据分类模型训练方法的流程示意图;
[0061]
图2为本发明另一实施例的一种网络请求数据分类方法的流程示意图;
[0062]
图3为本发明又一实施例的一种网络请求数据分类模型训练装置的结构示意图;
[0063]
图4为本发明又一实施例的一种网络请求数据分类装置的结构示意图。
具体实施方式
[0064]
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
[0065]
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”;术语“可选地”表示“可选的实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0066]
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0067]
如图1所示,本发明实施例提供的一种网络请求数据分类模型训练方法,所述网络请求数据分类模型包括第一计算模型和第二计算模型,包括:
[0068]
步骤s110,获取多条网络请求数据,并提取各条所述网络请求数据中的特征数据,其中,所述网络请求数据包括合法请求数据,所述特征数据包括请求地址数据。
[0069]
具体地,网络请求数据为带有标签的数据,包括合法请求数据和非法请求数据,合法请求数据的标签为合法状态,非法请求数据的标签为非法状态。
[0070]
可从服务器中搭载的elasticsearch、logstash、kibana等服务中收集历史网络请求数据。其中,elasticsearch是一种分布式的数据搜索引擎,其用于搜索存储在服务器中的数据;logstash是一种日志数据收集和解析引擎,其用于存储服务器上的请求数据;kibana是一种可视化数据分析平台,其可提供可视化工具便于用户开展数据分析工作。可通过人工对获取的所有网络请求数据进行分类,从所有网络请求数据中人为地筛选出非法请求数据,与合法请求数据分离,并将分类后的各个网络请求数据作为样本数据。获取样本数据作为后续训练模型的训练数据,并分离出原网络请求数据中的合法请求数据和非法请求数据,便于模型从数据中学习到合法请求数据的一般规律,用于对接收的网络请求数据进行分类。
[0071]
提取各个样本数据中的特征数据,特征数据可包括请求地址数据、用户代理数据和证书数据,请求地址数据可为request-url,表示用户想要查询或者访问的内容;用户代理数据可为user-agent,其保存了用户的操作系统和浏览器的相关信息;证书数据可为cookies,其保存了用户在发送网络请求时的状态信息。
[0072]
步骤s120,采用预设的特征数据匹配规则对所述网络请求数据中的所述特征数据进行匹配,获得每条所述网络请求数据中所述特征数据的数量匹配结果;采用各条所述合法请求数据的所述请求地址数据对预先构建的隐马尔可夫模型进行训练,获得第一计算模型,所述第一计算模型用于计算所述网络请求数据中所述请求地址数据的文本序列生成概率;采用所述第一计算模型计算各条所述网络请求数据中所述请求地址数据的所述文本序列生成概率。
[0073]
具体地,调取数据库中预设的请求地址数据的正则表达式匹配规则,用户代理数据的正则表达式匹配规则和证书数据的正则表达式匹配规则,分别对请求地址数据、用户代理数据和证书数据进行数据匹配,获得各条网络请求数据中的请求地址数据匹配数量、用户代理数据匹配数量和证书数据匹配数量。
[0074]
预先构建隐马尔可夫模型,调取样本数据中合法请求数据的请求地址数据对隐马尔可夫模型进行训练,获得第一计算模型,即请求地址数据的文本序列生成概率计算模型。训练得到第一计算模型后,采用第一计算模型对每条网络请求数据中请求地址数据的文本序列生成概率进行计算。
[0075]
步骤s130,根据所述数量匹配结果和所述文本序列生成概率生成各条所述网络请求数据的特征向量,采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型,所述第二计算模型用于确定所述网络请求数据的合法概率。
[0076]
具体地,预先构建第一逻辑回归模型,根据各条网络请求数据的请求地址数据匹配数量、用户代理数据匹配数量、证书数据匹配数量和请求地址数据的文本序列生成概率生成特征向量,采用特征向量对第一逻辑回归模型进行训练,获得第二计算模型,即网络请求数据的合法概率计算模型。
[0077]
本实施例中,可获取多条网络请求数据作为带标签的样本数据,网络请求数据可采用历史网络请求数据,样本数据包括合法请求数据和非法请求数据。提取各条网络请求数据中的特征数据,特征数据可包括请求地址数据、用户代理数据和证书数据等,采用预设的特征数据匹配规则对各条网络请求数据中的特征数据进行匹配,获得各条网络请求数据中特征数据的数量匹配结果,该数据匹配结果作为一个数值特征。采用合法请求数据的请求地址数据对预先构建的隐马尔科夫模型进行训练,获得第一计算模型,并采用第一计算模型计算各个网络请求数据中请求地址数据的文本序列生成概率,该文本序列生成概率作为另一个数值特征,将网络请求数据抽象成为数值特征,能够最大程度地获取其内部信息,提高后续训练得到模型的精度。采用数量匹配结果和文本序列生成概率组成的特征向量训练第一逻辑回归模型,得到第二计算模型,第二计算模型用于确定网络请求数据的合法概率,以对网络请求数据进行分类,例如可将网络请求数据的合法概率和预设阈值进行对比,根据对比结果确定网络请求数据为合法请求数据或非法请求数据。本发明中利用机器学习算法从多个维度学习网络请求数据的规律,相较于现有技术中采用固定格式的正则表达式匹配方法进行网络请求数据分类,训练得到的第二计算模型具有更高的分类准确性。且第二计算模型可根据输入的网络请求数据不断优化,很难被破解,大幅提高了安全性。并且,在面对新型拼装方法生成的非法请求数据时,本发明也能够根据学习的一般规律进行识别并拦截,应用范围广且分类准确度高。
[0078]
可选地,所述网络请求数据分类模型还包括第三计算模型,所述采用所述特征向
量训练预先构建的第一逻辑回归模型,获得第二计算模型之后,还包括:
[0079]
获取指定时段内的所有所述网络请求数据,并将所述指定时段内的所有所述网络请求数据按照用户进行分组,确定各个所述用户的所述网络请求数据。
[0080]
具体地,从所有网络请求数据中获取指定时段的网络请求数据,例如,从样本数据中选取第10分钟至第20分钟内的所有网络请求数据,指定时段可根据实际情况进行设定,按照用户对获取的指定时段内的所有网络请求数据进行分组,将同一用户对应的所有网络请求数据分为一组,获得各个用户的数据组,每个数据组包括对应用户在该时段内的所有网络请求数据。
[0081]
采用余弦相似度算法计算各条所述网络请求数据中所述请求地址数据的文本相似度,并采用所述第二计算模型计算获得各条所述网络请求数据的合法概率。
[0082]
具体地,提取每条网络请求数据中的请求地址数据,采用余弦相似度算法计算各条请求地址数据相较于其它请求地址数据的相似度,并采用第二计算模型计算各条网络请求数据的合法概率,需要说明的是,将网络请求数据输入第二计算模型之前,需要先按照上述步骤s110至步骤s130的方法对网络请求数据进行处理,在此不再赘述。
[0083]
根据各个所述用户的所有所述网络请求数据对应的所述文本相似度和所述合法概率训练预先构建的第二逻辑回归模型,获得第三计算模型,所述第三计算模型用于确定所述用户属于高风险用户的概率。
[0084]
具体地,预先构建第二逻辑回归模型,对于任一用户,根据其网络请求数据对应的文本相似度和合法概率生成训练数据,采用各个用户对应的训练数据对第二逻辑回归模型进行训练,获得训练好的第二逻辑回归模型,该训练好的第二逻辑回归模型就是第三计算模型,即高风险用户概率计算模型,其用于确定用户属于高风险用户的概率。
[0085]
本可选的实施例中,从样本数据中提取指定时段内的网络请求数据,并将提取的网络请求数据按照用户进行分组,利用余弦相似度算法计算各个用户的网络请求数据对应的文本相似度,并采用第二计算模型计算各个用户的网络请求数据的合法概率,并采用对应的文本相似度和合法概率生成的训练数据训练第二逻辑回归模型,以获得第三计算模型。可采用第三计算模型确定用户属于高风险用户的概率,在采用第二模型计算网络请求数据合法概率以对网络请求数据进行分类的基础上,增加了用户风险检测,能够对用户进行分类,进一步提高了网络请求数据的安全性,并且有利于对用户进行管理,提高用户管理的便利性。相较于现有技术中依据个人经验判断用户类型,训练得到的第三计算模型可以学习到高风险用户的特征,能够动态地根据网络请求数据判断用户是否为高风险用户,提高了判断用户是否为高风险用户的准确性。
[0086]
可选地,所述采用各条所述合法请求数据的所述请求地址数据对预先构建的隐马尔可夫模型进行训练,获得第一计算模型包括:
[0087]
对各条所述合法请求数据的所述请求地址数据进行切分,获得多个切分后的数据。
[0088]
具体地,按照字符串和符号对合法请求数据的request-url进行切分。
[0089]
对各个所述切分后的数据进行标记,获得标记后的数据,其中,将同一字符串的所述切分后的数据标记为同一数值,将不同符号的所述切分后的数据标记为不同数值。
[0090]
基于前向后向算法,采用所述标记后的数据训练所述隐马尔可夫模型,获得所述
第一计算模型。
[0091]
具体地,第一计算模型包括初始概率矩阵、状态转移矩阵和发射矩阵,通过对隐马尔科夫模型进行训练,得到训练好的隐马尔科夫模型,即第一计算模型,确定第一计算模型中的初始概率矩阵、状态转移矩阵和发射矩阵。
[0092]
其中,初始概率矩阵计算公式包括:
[0093][0094]
其中,qi表示数值i的初始概率,qi表示出现数值i,∑q表示数值总数,即切分后的数据总数,其中数值即为状态。
[0095]
状态转移矩阵的计算公式包括:
[0096]aij
=c(i

j)/∑
q∈q
c(i

q),
[0097]
其中,a
ij
表示数值i跳转到数值j的概率,c(i

j)表示数值i跳转到数值j的次数,c(i

q)表示所有从数值i出发的跳转。
[0098]
发射矩阵的计算公式包括:
[0099][0100]
其中,bj(vk)表示数值为j且观察状态为vk的概率,o
t
表示t时刻的观察状态,s
t
表示t时刻的状态,1
[
·
]
表示指示函数,t为预设周期。
[0101]
本可选的实施例中,采用合法请求数据的请求地址数据训练预设的隐马尔可夫模型,获得第一计算模型,在训练得到第一计算模型过程中,能够学习合法请求数据中请求地址数据的特征,使得训练得到的第一计算模型能够从请求地址数据的维度判断网络请求数据是否为合法请求数据,提高了网络请求数据分类的准确度。
[0102]
可选地,所述采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型包括:
[0103]
将所述特征向量输入所述第一逻辑回归模型,输出对应的所述网络请求数据的合法概率,其中,所述第一逻辑回归模型采用第一公式表示,所述第一公式包括:
[0104][0105]
其中,x表示所述网络请求数据的合法概率,kj表示所述第一逻辑回归模型的参数,wj表示所述特征向量中的第j个元素。
[0106]
具体地,根据数量匹配结果和文本序列生成概率生成各条所述网络请求数据的特征向量,包括将网络请求数据的请求地址数据匹配数量、用户代理数据匹配数量、证书数据匹配数量和请求地址数据的文本序列生成概率组合成特征向量,特征向量可表示为:
[0107]vi
=[w
i1
,w
i2
,w
i3
,w
i4
],
[0108]
其中,vi表示第i条网络请求数据的特征向量,w
i1
表示第i条数据的用户代理数据的正则匹配数量,w
i2
表示第i条数据的证书数据正则匹配数量,w
i3
表示第i条数据的请求地址正则匹配数量,w
i4
表示第i条数据的文本序列生成概率。
[0109]
将所述合法概率与第一预设阈值进行比对,根据比对结果确定所述网络请求数据的第一预测标签。
[0110]
具体地,第一预设阈值可为0.5,当合法概率大于0.5时,认定对应的网络请求数据为合法请求数据;当合法概率小于或等于0.5时,认定对应的网络请求数据为非法请求数
据,第一预测标签包括合法或合法请求数据。
[0111]
根据所述第一预测标签和所述网络请求数据的第一实际标签优化所述第一逻辑回归模型的参数,直至所述第一逻辑回归模型的精度满足第一预设条件,获得所述第二计算模型。
[0112]
具体地,初始获取的网络请求数据为带标签的数据,并且预先对网络请求数据进行人为筛选后,已将网络请求数据中的合法请求数据和非法请求数据分离开,确定了每个网络请求数据的标签,第一实际标签包括合法请求数据和非法请求数据。基于预设的损失函数,可确定第一预测标签和第一实际标签之间的差值,损失函数可根据实际情况具体设置,在此不做限定,例如交叉熵损失函数等,根据该差值优化第一逻辑回归模型的参数kj,直至第一逻辑回归模型处理后确定的第一预测标签与第一实际标签之间的差值满足第一预设条件,第一预设条件可根据实际情况具体设置,则获得训练好的第一逻辑回归模型,即第二计算模型。
[0113]
本可选的实施例中,相较于现有技术中通过单一的正则表达式匹配方法判断网络请求数据是否为合法请求数据,采用特征数据匹配规则对网络请求数据中的特征数据进行匹配,从特征数据的数量匹配结果的维度确定网络请求数据的特征,采用第一计算模型计算网络请求数据中请求地址数据的文本序列生成概率,从请求地址数据文本序列生成概率的维度确定网络请求数据的特征,采用数量匹配结果和文本序列生成概率组成的特征向量训练第一逻辑回归模型,使得训练得到的第二计算模型能够从多个维度学习合法请求数据的规律,提高第二计算模型计算网络请求数据的合法概率的准确性,进而提高网络请求数据分类的准确性。其中,将网络请求数据抽象成为数值特征,能够最大程度获取网络请求数据的内部信息,提高训练得到的第二计算模型的精度。
[0114]
可选地,所述采用余弦相似度算法计算各条所述网络请求数据中所述请求地址数据的文本相似度包括:
[0115]
按照词义对各条所述网络请求数据中的所述请求地址数据进行切分,获得与各条所述网络请求数据对应的词序列;
[0116]
对各个所述词序列分别进行编码,获得与各条所述网络请求数据对应的编码向量。
[0117]
具体地,编码向量表示为vi=[a1,a2,a3,

,aj],其中,vi表示第i条网络请求数据的编码向量,aj表示预设的词库中是否有词j。
[0118]
基于所述余弦相似度算法,根据所述编码向量采用第二公式计算各条所述网络请求数据对应的所述文本相似度,所述第二公式包括:
[0119][0120]
其中,θi表示第i条所述网络请求数据对应的所述文本相似度,vi表示与第i条所述网络请求数据对应的所述编码向量,vj表示与第j条所述网络请求数据对应的所述编码向量。
[0121]
本可选的实施例中,利用余弦相似度算法能够确定一个网络请求数据与其它网络请求数据之间的相似度,采用预先相似度算法计算的文本相似度训练模型时,使得训练得到的模型能够从网络请求数据之间相似度的维度进行预测,例如若一个网络请求数据相对于其它网络请求数据的偏差较大,则该网络请求数据则可能存在异常,能够提高训练得到
的模型的精度。
[0122]
可选地,所述根据各个所述用户的所有所述网络请求数据对应的所述文本相似度和所述合法概率训练预先构建的第二逻辑回归模型,获得第三计算模型具体包括:
[0123]
对于任一所述用户,根据所述用户在所述指定时段内所有所述网络请求数据对应的所述文本相似度计算相似度均值,并根据所述用户在所述指定时段内所有所述网络请求数据对应的所述合法概率计算概率均值。
[0124]
将所述相似度均值和所述概率均值输入所述第二逻辑回归模型,输出对应的所述用户为高风险用户的概率,所述第二逻辑回归模型采用第三公式表示,所述第三公式包括:
[0125][0126]
其中,x
p
表示所述用户为高风险用户的概率,avg1表示所述相似度均值,avg2表示所述概率均值,t1和t2表示所述第二回归模型的参数。
[0127]
将所述用户为高风险用户的概率与第二预设阈值进行比对,根据比对结果确定所述第二逻辑回归模型的第二预测标签。
[0128]
具体地,第二预设阈值可为0.5,当用户为高风险用户的概率大于0.5时,认定该用户为高风险用户;当用户为高风险用户的概率小于或等于0.5时,认定该用户为非高风险用户。第二预测标签包括高风险用户和非高风险用户。
[0129]
根据所述第二预测标签和所述用户的第二实际标签优化所述第二逻辑回归模型的参数,直至所述第二逻辑回归模型的精度满足第二预设条件,获得所述第三计算模型。
[0130]
具体地,可预先确定各个用户为高风险用户还是非高风险用户,可采用人工确定等方式,其中,高风险用户和非高风险用于作为用户的第二实际标签。基于预设的损失函数,可确定第二预测标签和第二实际标签之间的差值,损失函数可根据实际情况具体设置,在此不做限定,例如交叉熵损失函数等,根据该差值优化第二逻辑回归模型的参数t1和t2,循环迭代训练第二逻辑回归模型,以获得更加准确的参数,直至第二逻辑回归模型处理后确定的第二预测标签与第二实际标签之间的差值满足第二预设条件,第二预设条件可根据实际情况具体设置,获得训练好的第二逻辑回归模型,即第三计算模型。
[0131]
本可选的实施例中,相较于依据人工经验判断用户是否为高风险用户,采用用户输入的网络请求数据对应的文本相似度和合法概率训练得到第三计算模型,使得第三计算模型能够学习文本相似度和合法概率的特征,以及这些特征与用户类型之间的关系,文本相似度能够表征该用户与其它用户输入的网络请求数据之间的相似度,合法概率能够表征该用户输入的网络请求数据为合法请求数据的概率,这些特征与用户类型之间的关联性较高,能够提高训练得到的第三计算模型的精度。采用第三计算模型可根据用户实时输入的网络请求数据动态地判断该用户的类型,提高了用户管理的便利性。
[0132]
如图2所示,本发明另一实施例提供的一种网络请求数据分类方法,包括:
[0133]
步骤s210,获取待分类的目标网络请求数据,并提取所述目标网络请求数据中的目标特征数据,其中,所述目标特征数据包括目标请求地址数据;
[0134]
步骤s220,采用预设的特征数据匹配规则对所述目标网络请求数据中的所述目标特征数据进行匹配,获得所述目标特征数据的数量匹配结果;将所述目标请求地址数据输入第一计算模型,输出所述目标请求地址数据的文本序列生成概率;
[0135]
步骤s230,根据所述数量匹配结果和所述文本序列生成概率生成所述目标网络请
求数据的目标特征向量,将所述目标特征向量输入第二计算模型,输出所述目标网络请求数据的合法概率;
[0136]
步骤s240,将所述合法概率和第一预设阈值进行对比,根据对比结果确定所述目标网络请求数据的数据类型,所述数据类型包括合法请求数据和非法请求数据;
[0137]
其中,所述第一计算模型和所述第二计算模型采用如上所述的网络请求数据分类模型训练方法训练得到。
[0138]
具体地,本实施例的网络请求数据分类方法中具体处理步骤与上述网络请求数据分类模型训练方法中的对应处理步骤相同,在此不再赘述。
[0139]
本实施例中,获取待分类的目标网络请求数据,并提取目标网络请求数据中的目标特征数据。采用预设的特征数据匹配规则对目标网络请求数据中的目标特征数据进行匹配,从特征数据维度提取目标特征数据的数值特征,获得数量匹配数量。将目标请求地址数据输入第一方面任一项所述的网络请求数据分类模型训练方法训练得到第一计算模型,从目标请求地址数据维度提取数值特征,输出文本序列生成概率。将数量匹配结果和文本序列生成概率组成的目标特征向量输入第一方面任一项所述的网络请求数据分类模型训练方法训练得到第二计算模型,输出目标网络请求数据的合法概率,并根据合法概率和第一预设阈值的对比结果确定目标网络请求数据的数据类型。本发明从多个维度提取网络请求数据的数值特征,根据多个维度的数值特征计算目标网络请求数据的合法概率,以实现目标网络请求数据的分类,有效提高了网络请求数据分类的准确度。
[0140]
可选地,本发明实施例提供的一种网络请求数据分类方法,包括:
[0141]
获取目标用户在指定时段内的所有所述目标网络请求数据;
[0142]
采用余弦相似度算法计算各条所述目标网络请求数据中所述请求地址数据的文本相似度,并采用所述第二计算模型计算各条所述目标网络请求数据的合法概率;
[0143]
确定所有所述文本相似度的相似度均值和所有所述合法概率的概率均值,将所述相似度均值和所述概率均值输入第三计算模型,输出所述目标用户属于高风险用户的概率;
[0144]
将所述目标用户属于高风险用户的概率与第二预设阈值进行对比,根据对比结果确定所述目标用户的用户类型,所述用户类型包括高风险用户和非高风险用户;
[0145]
其中,所述第三计算模型采用如上所述的网络请求数据分类模型训练方法训练得到。
[0146]
本可选的实施例的具体实施步骤与上述网络请求数据分类模型训练方法中训练第三计算模型的具体步骤相对应,在此不再赘述。
[0147]
本可选的实施例中,利用上述网络请求数据分类模型训练方法训练得到第三计算模型计算用户为高风险用户的概率,进而对目标用户进行分类,在原有判定网络请求数据的数据类型的基础上,增加了用户风险检测,提高用户管理的便利性,并且,相较于现有技术中依据人工经验判断用户类型,第三计算模型能够动态地根据目标网络请求数据判定对应的用户是否高风险用户,提高了用户分类的准确度和实时性。
[0148]
可选地,所述根据对比结果确定所述目标用户的用户类型之后,还包括:
[0149]
若所述目标用户为高风险用户,则将所述目标用户加入黑名单,拒绝所述目标用户的所有网络请求数据;
[0150]
若所述目标用户为非高风险用户,则允许接收所述目标用户的网络请求数据。
[0151]
本可选的实施例中,根据用户类型对用户进行针对性管理,若目标用户为高风险用户,则将目标用户加入黑名单,拒绝目标用户的所有网络请求数据,有效提高了网络安全性,保障了网络安全。
[0152]
如图3所示,本发明又一实施例提供的一种网络请求数据分类模型训练装置,所述网络请求数据分类模型包括第一计算模型和第二计算模型,包括:
[0153]
获取模块,用于获取多条网络请求数据,并提取各条所述网络请求数据中的特征数据,其中,所述网络请求数据包括合法请求数据,所述特征数据包括请求地址数据;
[0154]
处理模块,用于采用预设的特征数据匹配规则对所述网络请求数据中的所述特征数据进行匹配,获得每条所述网络请求数据中所述特征数据的数量匹配结果;采用各条所述合法请求数据的所述请求地址数据对预先构建的隐马尔可夫模型进行训练,获得第一计算模型;采用所述第一计算模型计算各条所述网络请求数据中所述请求地址数据的所述文本序列生成概率;
[0155]
训练模块,用于根据所述数量匹配结果和所述文本序列生成概率生成各条所述网络请求数据的特征向量,采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型,所述第二计算模型用于确定所述网络请求数据的合法概率。
[0156]
该装置用于实现如上网络请求数据分类模型训练方法,具体内容在此不再赘述。
[0157]
如图4所示,本发明又一实施例提供的一种网络请求数据分类装置,包括:
[0158]
获取模块,用于获取待分类的目标网络请求数据,并提取所述目标网络请求数据中的目标特征数据,其中,所述目标特征数据包括目标请求地址数据;
[0159]
处理模块,用于采用预设的特征数据匹配规则对所述目标网络请求数据中的所述目标特征数据进行匹配,获得所述目标特征数据的数量匹配结果;将所述目标请求地址数据输入第一计算模型,输出所述目标请求地址数据的文本序列生成概率;
[0160]
预测模块,用于根据所述数量匹配结果和所述文本序列生成概率生成所述目标网络请求数据的目标特征向量,将所述目标特征向量输入第二计算模型,输出所述目标网络请求数据的合法概率;
[0161]
分类模块,用于将所述合法概率和第一预设阈值进行对比,根据对比结果确定所述目标网络请求数据的数据类型,所述数据类型包括合法请求数据和非法请求数据;
[0162]
其中,所述第一计算模型和所述第二计算模型采用如上所述的网络请求数据分类模型训练方法训练得到。
[0163]
该装置用于实现如上所述的网络请求数据分类方法,具体内容在此不再赘述。
[0164]
本发明又一实施例提供了一种电子设备包括存储器和处理器,所述存储器上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的网络请求数据分类模型训练方法,或如上所述的网络请求数据分类方法。
[0165]
本发明又一实施例提供的一种计算机可读存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的网络请求数据分类模型训练方法,或如上所述的网络请求数据分类方法。
[0166]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质
中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。在本技术中,所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0167]
虽然本公开披露如上,但本公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1