金融信息系统的入侵检测方法、相关装置及存储介质与流程

文档序号:33642071发布日期:2023-03-29 02:23阅读:44来源:国知局
金融信息系统的入侵检测方法、相关装置及存储介质与流程

1.本技术涉及计算机技术领域,特别涉及一种金融信息系统的入侵检测方法、相关装置及存储介质。


背景技术:

2.随着信息化时代的迅猛发展,每天都在产生越来越多的缓存数据。
3.在金融信息化向信息化金融发展过程中,金融信息系统安全是金融行业发展的关键。随着电子商务的快速发展,以及移动互联、云计算和大数据等新技术应用的不断深入,金融信息系统对信息技术的依赖性越发加强,信息安全保障工作的难度不断加大,互联网应用又进一步加大了信息安全风险的扩散效应。入侵金融信息系统成为犯罪分子窃取信息、劫掠金钱的捷径。当安全事件影响到对社会提供的服务时,不仅会影响金融机构声誉,还会给整个行业带来不良社会影响。


技术实现要素:

4.有鉴于此,本技术提供一种金融信息系统的入侵检测方法、相关装置及存储介质,有效防止非法入侵,提高信息安全性和保密性。
5.本技术第一方面提供了一种金融信息系统的入侵检测方法,包括:
6.基于分布式消息队列采集金融信息系统中的目标数据;其中,所述目标数据包括:客户的基本信息、客户的资产信息、客户的社会和经济背景;
7.采用关联分析算法对所述目标数据进行处理,得到有效特征信息;
8.将所述有效特征信息输入至入侵检测模型,输出得到分析结果;其中,所述入侵检测模型由训练样本集对自回归积分滑动平均模型和循环神经网络的组合模型进行训练得到;
9.若分析结果表明当前发生入侵,则生成异常告警信息。
10.可选的,所述基于分布式消息队列采集金融信息系统中的目标数据,包括:
11.消息发布者通过切面拦截用户的请求,并从切面中提取请求头的基本信息;
12.提取请求的接口参数信息,并提取返回值中信息;
13.将提取得到的信息封装成json字符串,放到阻塞队列中;
14.异步线程从本地阻塞队列中获取数据,并将信息组装发送到kafka的代理中;
15.消息接收者实时从kafka的代理中批量拉取消息,并将拉取的消息转化成对象;
16.解析数据包对应的信息,并对不同理财类型的信息进一步解析;
17.将日志信息转化成json字符串,持久化到日志文件中,得到目标数据。
18.可选的,所述采用关联分析算法对所述目标数据进行处理,得到有效特征信息,包括:
19.将所述目标数据作为一个事务集合;其中,所述事务集合中的每个事务表示一个包含不同数量特征的数据包;
20.第一次扫描所述事务集合,计算每个项出现的支持度;
21.删除第一目标项;其中,所述第一目标项为支持度小于初始阈值的项;
22.将第二目标项放入项头表,并按照支持度降序排列;其中,所述第二目标项为除了所述第一目标项的项;
23.第二次扫描所述事务集合,删除所有事务中包含的第一目标项;
24.将所述事务中剩余的项按照支持度降序排列,得到预处理事务集合;
25.根据所述预处理事务集合构建fp树;
26.逆序遍历所述项头表,生成所述项头表中每一个项对应的条件模式基;其中,所述条件模式基是以查找元素项为结尾的路径集合;
27.从条件模式基递归挖掘,得到所述项头表的频繁项集合;
28.根据每一个频繁项对应的条件模式基,生成所述频繁项对应的条件fp树,并删除所述条件fp树中节点计数不满足第一阈值的节点;
29.针对每一个条件fp树,生成所有的从根节点到叶子节点的路径,由路径中的集合生成其所有非空子集;其中,所有所述非空子集和每一个频繁项集合中的元素共同构成了原始数据集中的频繁集合,即得到预处理后的标识数据异常与否的所有特征集;
30.对所述特征集中的数据进行预处理,将每一个数据包处理成一条标准化的向量,得到有效特征信息。
31.可选的,所述入侵检测模型的构建方法,包括:
32.获取历史时间序列数据集;其中,所述时间序列数据集包含所有标准化数据包向量;所述数据包根据是否异常进行标注;
33.将正常数据作为训练样本,得到训练样本集;
34.利用自回归积分滑动平均模型对所述训练样本进行训练,得到第一预测值;
35.利用循环神经网络对非线性误差因素建模,进行迭代训练,得到第二预测值;
36.将所述第一预测值和第二预测值的和作为最终预测值;
37.根据所述最终预测值与所述训练样本的真实异常情况的误差,对所述自回归积分滑动平均模型和所述循环神经网络进行调整,直至所述所述最终预测值与所述训练样本的真实异常情况的误差满足预设的收敛条件,将所述自回归积分滑动平均模型和循环神经网络的组合模型作为入侵检测模型。
38.本技术第二方面提供了一种金融信息系统的入侵检测装置,其特征在于,包括:
39.采集单元,用于基于分布式消息队列采集金融信息系统中的目标数据;其中,所述目标数据包括:客户的基本信息、客户的资产信息、客户的社会和经济背景;
40.处理单元,用于采用关联分析算法对所述目标数据进行处理,得到有效特征信息;
41.第一输入单元,用于将所述有效特征信息输入至入侵检测模型,输出得到分析结果;其中,所述入侵检测模型由训练样本集对自回归积分滑动平均模型和循环神经网络的组合模型进行训练得到;
42.第一生成单元,用于若分析结果表明当前发生入侵,则生成异常告警信息。
43.可选的,所述采集单元,包括:
44.拦截单元,用于消息发布者通过切面拦截用户的请求,并从切面中提取请求头的基本信息;
45.第一提取单元,用于提取请求的接口参数信息,并提取返回值中信息;
46.封装单元,用于将提取得到的信息封装成json字符串,放到阻塞队列中;
47.第一获取单元,用于异步线程从本地阻塞队列中获取数据,并将信息组装发送到kafka的代理中;
48.第一转化单元,用于消息接收者实时从kafka的代理中批量拉取消息,并将拉取的消息转化成对象;
49.解析单元,用于解析数据包对应的信息,并对不同理财类型的信息进一步解析;
50.第二解析单元,用于将日志信息转化成json字符串,持久化到日志文件中,得到目标数据。
51.可选的,所述处理单元,包括:
52.第一确定单元,用于将所述目标数据作为一个事务集合;其中,所述事务集合中的每个事务表示一个包含不同数量特征的数据包;
53.第一扫描单元,用于第一次扫描所述事务集合,计算每个项出现的支持度;
54.删除单元,用于删除第一目标项;其中,所述第一目标项为支持度小于初始阈值的项;
55.第一排列单元,用于将第二目标项放入项头表,并按照支持度降序排列;其中,所述第二目标项为除了所述第一目标项的项;
56.第二扫描单元,用于第二次扫描所述事务集合,删除所有事务中包含的第一目标项;
57.第二排序单元,用于将所述事务中剩余的项按照支持度降序排列,得到预处理事务集合;
58.第一构建单元,用于根据所述预处理事务集合构建fp树;
59.第二生成单元,用于逆序遍历所述项头表,生成所述项头表中每一个项对应的条件模式基;其中,所述条件模式基是以查找元素项为结尾的路径集合;
60.挖掘单元,用于从条件模式基递归挖掘,得到所述项头表的频繁项集合;
61.第二构建单元,用于根据每一个频繁项对应的条件模式基,生成所述频繁项对应的条件fp树,并删除所述条件fp树中节点计数不满足第一阈值的节点;
62.第三生成单元,用于针对每一个条件fp树,生成所有的从根节点到叶子节点的路径,由路径中的集合生成其所有非空子集;其中,所有所述非空子集和每一个频繁项集合中的元素共同构成了原始数据集中的频繁集合,即得到预处理后的标识数据异常与否的所有特征集;
63.处理子单元,用于对所述特征集中的数据进行预处理,将每一个数据包处理成一条标准化的向量,得到有效特征信息。
64.可选的,所述入侵检测模型的构建单元,包括:
65.第二获取单元,用于获取历史时间序列数据集;其中,所述时间序列数据集包含所有标准化数据包向量;所述数据包根据是否异常进行标注;
66.第二确定单元,用于将正常数据作为训练样本,得到训练样本集;
67.第一训练单元,用于利用自回归积分滑动平均模型对所述训练样本进行训练,得到第一预测值;
68.第二训练单元,用于利用循环神经网络对非线性误差因素建模,进行迭代训练,得到第二预测值;
69.第三确定单元,用于将所述第一预测值和第二预测值的和作为最终预测值;
70.调整单元,用于根据所述最终预测值与所述训练样本的真实异常情况的误差,对所述自回归积分滑动平均模型和所述循环神经网络进行调整,直至所述所述最终预测值与所述训练样本的真实异常情况的误差满足预设的收敛条件,将所述自回归积分滑动平均模型和循环神经网络的组合模型作为入侵检测模型。
71.本技术第三方面提供了一种电子设备,包括:
72.一个或多个处理器;
73.存储装置,其上存储有一个或多个程序;
74.当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面任意一项所述的金融信息系统的入侵检测方法。
75.本技术第四方面提供了一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如第一方面任意一项所述的金融信息系统的入侵检测方法。
76.由以上方案可知,本技术提供一种金融信息系统的入侵检测方法、相关装置及存储介质,所述金融信息系统的入侵检测方法包括:首先,基于分布式消息队列采集金融信息系统中的目标数据;其中,所述目标数据包括:客户的基本信息、客户的资产信息、客户的社会和经济背景;然后,采用关联分析算法对所述目标数据进行处理,得到有效特征信息;再将所述有效特征信息输入至入侵检测模型,输出得到分析结果;其中,所述入侵检测模型由训练样本集对自回归积分滑动平均模型和循环神经网络的组合模型进行训练得到;若分析结果表明当前发生入侵,则生成异常告警信息。有效防止非法入侵,提高信息安全性和保密性。
附图说明
77.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
78.图1为本技术实施例提供的一种金融信息系统的入侵检测方法的具体流程图;
79.图2为本技术另一实施例提供的一种金融信息系统的入侵检测方法的流程图;
80.图3为本技术另一实施例提供的一种金融信息系统的入侵检测方法的流程图;
81.图4为本技术另一实施例提供的一种入侵检测模型的构建方法的流程图;
82.图5为本技术另一实施例提供的一种arima模型训练过程示意图;
83.图6为本技术另一实施例提供的一种gru模型示意图;
84.图7为本技术另一实施例提供的一种金融信息系统的入侵检测装置的示意图;
85.图8为本技术另一实施例提供的一种实现金融信息系统的入侵检测方法的电子设备的示意图。
具体实施方式
86.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
87.需要注意,本技术中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系,而术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
88.本技术实施例提供了一种金融信息系统的入侵检测方法,如图1所示,具体包括以下步骤:
89.s101、基于分布式消息队列采集金融信息系统中的目标数据。
90.其中,目标数据包括:客户的基本信息、客户的资产信息、客户的社会和经济背景。客户的基本信息包括但不限于,客户姓名、性别、年龄、联系方式、工作类型、婚姻状况、受教育程度等;客户的资产信息包括但不限于账户余额、是否存在违约信用、是否有贷款、理财种类、信用卡状态等;客户的社会和经济背景包括但不限于就业变化率、消费者价格指数、消费者信心指数、定期存款利率等。
91.为了保证数据集的准确性和全面性,需充分考虑金融信息系统的数据流信息,从多重属性、维度、指标出发,采集高质量结构化数据。
92.可选的,在本技术的另一实施例中,步骤s101的一种实施方式,如图2所示,包括:
93.s201、消息发布者通过切面拦截用户的请求,并从切面中提取请求头的基本信息。
94.其中,请求的基本信息包括但不限于客户信息、理财信息等,此处不做限定。
95.s202、提取请求的接口参数信息,并提取返回值中信息。
96.其中,返回值中的信息包括但不限于年龄、姓名、账户余额等,此处不做限定。
97.s203、将提取得到的信息封装成json字符串,放到阻塞队列中。
98.需要说明的是,加入阻塞队列溢出会有三次重试机制。
99.s204、异步线程从本地阻塞队列中获取数据,并将信息组装发送到kafka的代理中。
100.s205、消息接收者实时从kafka的代理中批量拉取消息,并将拉取的消息转化成对象。
101.s206、解析数据包对应的信息,并对不同理财类型的信息进一步解析。
102.需要说明的是,解析数据包对应的信息包括但不限于姓名、年龄、受教育程度等,此处不做限定。
103.s207、将日志信息转化成json字符串,持久化到日志文件中,得到目标数据。
104.s102、采用关联分析算法对目标数据进行处理,得到有效特征信息。
105.需要说明的是,由于金融信息系统数据有以下特点:
106.(1)金融信息系统操作流程完全标准化,业务处理速度极快,实时产生大量用户个人金融行为数据,数据量成倍增长;
107.(2)由于金融行业的特殊性,金融信息系统属于封闭化闭环操作,数据多以结构化数据为主,主要包括客户账户信息、客户存贷数据、资产数据等,影响范围广,数据质量高。
108.基于金融信息系统数据密集且相关性强的特点,选择关联分析fp-growth(frequent pattern growth,频繁模式增长)算法进行数据处理。得到有效特征信息。
109.可选的,在本技术的另一实施例中,步骤s102的一种实施方式,如图3所示,包括:
110.s301、将目标数据作为一个事务集合。
111.其中,事务集合t={t1,t2,t3,...,tn}中的每个事务tm(1≤m≤n)={ia,ib,...,i
x
}表示一个包含不同数量特征的数据包,i
x
则是数据包中代表数据包是否异常的项。通过运行fp-growth算法找出标识数据异常的所有频繁项集。
112.s302、第一次扫描事务集合,计算每个项出现的支持度。
113.其中,计算每个项出现的支持度support(i
x
)的计算方式可以如下:
[0114][0115]
s303、删除第一目标项。
[0116]
其中,第一目标项iy为支持度小于初始阈值的项。
[0117]
s304、将第二目标项放入项头表,并按照支持度降序排列。
[0118]
其中,第二目标项为除了第一目标项的项。
[0119]
s305、第二次扫描事务集合,删除所有事务中包含的第一目标项。
[0120]
s306、将事务中剩余的项按照支持度降序排列,得到预处理事务集合。
[0121]
即tm={ia,ib,i
x
...,iy}

t`m={ib,i
x
,ia...},
[0122]
support(ib)>support(i
x
)>support(ia)
[0123]
其中,t`为预处理事务集合,包含处理后的事务t`m。
[0124]
s307、根据预处理事务集合构建fp树。
[0125]
s308、逆序遍历项头表,生成项头表中每一个项对应的条件模式基。
[0126]
其中,条件模式基是以查找元素项为结尾的路径集合。
[0127]
s309、从条件模式基递归挖掘,得到项头表的频繁项集合。
[0128]
例如:if的条件模式基为{if,i1},{if,i1,i2},{if},从条件模式基递归挖掘得到项头表项的频繁项集。
[0129]
s310、根据每一个频繁项对应的条件模式基,生成频繁项对应的条件fp树,并删除条件fp树中节点计数不满足第一阈值的节点。
[0130]
s311、针对每一个条件fp树,生成所有的从根节点到叶子节点的路径,由路径中的集合生成其所有非空子集。
[0131]
其中,所有非空子集和每一个频繁项集合中的元素共同构成了原始数据集中的频繁集合,即得到预处理后的标识数据异常与否的所有特征集。
[0132]
s312、对特征集中的数据进行预处理,将每一个数据包处理成一条标准化的向量,得到有效特征信息。
[0133]
s103、将有效特征信息输入至入侵检测模型,输出得到分析结果。
[0134]
其中,入侵检测模型由训练样本集对自回归积分滑动平均模型和循环神经网络的组合模型进行训练得到。
[0135]
续接上述实例,可以根据历史数据按照图3中的方式进行处理,在将历史数据的每一个数据包处理成一条标准化的向量后,根据是否异常进行标注,最终获得包含所有标准化数据包向量的历史时间序列数据集。
[0136]
然后,根据历史数据包是否异常,将数据集划分训练样本集、测试样本集和验证样本集,其中训练样本集中数据全部为正常数据,测试样本集中包含正产数据和异常数据,验证样本集为随机数据集。
[0137]
可选的,在本技术的另一实施例中,入侵检测模型的构建方法的一种实施方式,如图4所示,包括:
[0138]
s401、获取历史时间序列数据集。
[0139]
其中,时间序列数据集包含所有标准化数据包向量;数据包根据是否异常进行标注。
[0140]
需要说明的是,若不是时间序列数据需要转换为时间序列数据。因为是基于特定大时间尺度下采集的数据,所以该数据集需要为时间序列。
[0141]
s402、将正常数据作为训练样本,得到训练样本集。
[0142]
s403、利用自回归积分滑动平均模型对训练样本进行训练,得到第一预测值。
[0143]
其中,自回归积分滑动平均模型记作arima(p,d,q),属于统计预测模型,arma(p,q)其模型为:
[0144][0145]
其中,x
t
为序列当前时刻值,x
t-j
(j=1,2,...,p)是过去p个时刻的序列值,表示各阶自回归项系数,μ
t
为残差,θi(i=1,2,...,q)表示回归系数,为q阶移动平均系数多项式。在此基础上经差分阶次d处理过的模型就是arima模型。
[0146]
如图5所示,为arima模型训练过程示意图,arima模型训练过程具体算法步骤如下:
[0147]
(1)对数据绘图,观测是否为平稳时间序列:如果原始时间序列是平稳的,那么d=0;如果原始数据不平稳,要先进行d阶差分运算,化为平稳时间序列。因为金融信息数据通常为结构性数据,可将d设置为2。
[0148]
(2)要对平稳时间序列分别求得其自相关系数acf和偏自相关系数pacf,通过对自相关图和偏自相关图的分析,得到最佳的阶层p和阶数q。一般以acf图和pacf图中各自截尾的位置作为p和q的最大值,得到多种参数组合,最后利用赤化信息准则aic进行定阶。
[0149]
aic=2k-2ln l
[0150]
其中,k为模型参数的个数,l为模型的似然函数。
[0151]
(3)由以上得到的d、q、p,得到arima模型,将模型残差记为error
t+1
。通过ljung-box检验方法确认模型残差是否为白噪声序列验证模型。如果不是,则反馈步骤(2)重新选择p和q。
[0152]
(4)根据训练样本集对未来序列值是否正常进行预测,得到线性预测值x
t+1

[0153]
s404、利用循环神经网络对非线性误差因素建模,进行迭代训练,得到第二预测值。
[0154]
其中,循环神经网络可以采用但不限于gru(gate recurrent unit,门控循环单元),其是循环神经网络的一种可以解决长期记忆和反向传播中的梯度等问题,此处不做限定。
[0155]
gru模型神经网络层训练过程的函数表达式为:
[0156]zt
=σ(wzx
t
+u
zht-1
+bz)
[0157][0158][0159][0160]
其中,z
t
,r
t
分别表示gru的更新门和重置门,表示记忆单元,表示隐藏层状态,x
t
表示金融信息数据时间序列x中第t个时间间隔的数据包向量,w,u分别表示各层的权重矩阵,b表示各层的偏倚量,

表示矩阵的哈达马乘积,σ()表示sigmoid函数,表示tanh函数。
[0161]
如图6所示,为gru模型示意图,其输出层训练过程的函数表达式为:
[0162][0163]
式中h为表示数据异常状态的向量,t表示时间间隔的总数,ws,bs分别表示权重矩阵和偏倚量。
[0164]
(1)分批次将处理后的历史时间序列数据输入到循环神经网络预测模型中;
[0165]
(2)根据预设的模型参数进行训练,训练的过程中根据验证集的结果的调整模型优化器学习率、权重衰减系数等;
[0166]
(3)进行迭代训练预设的次数后,保存模型的参数;输入测试集的数据,获得测试结果;重复步骤(1)-(3),直至模型收敛,将测试结果最优的模型作为最终的gru预测模型。
[0167]
最终,可以利用训练好的gru模型对非线性误差因素建模,得到第二预测值g
t+1

[0168]gt+1
=softmax(error
t
,error
t-1
,...,error
t-m
)+∈
t+1
[0169]
其中,∈
t+1
为随机误差,softmax()为gru模型输出层训练过程的函数。
[0170]
s405、将第一预测值和第二预测值的和作为最终预测值。
[0171]
s406、判断最终预测值与训练样本的真实异常情况的误差是否满足预设的收敛条件。
[0172]
具体的,若判断出最终预测值与训练样本的真实异常情况的误差满足预设的收敛条件,则执行步骤s407;若判断出最终预测值与训练样本的真实异常情况的误差不满足预设的收敛条件,则执行步骤s408。
[0173]
s407、将自回归积分滑动平均模型和循环神经网络的组合模型作为入侵检测模型。
[0174]
s408、根据最终预测值与训练样本的真实异常情况的误差,对自回归积分滑动平
均模型和循环神经网络进行调整。
[0175]
s104、若分析结果表明当前发生入侵,则生成异常告警信息。
[0176]
从而在安全人员注意早异常告警信息后,启动金融交易系统中的防御措施,保护金融交易系统安全。
[0177]
可以看出,本技术在数据采集前充分考虑了金融信息系统的数据流信息分类,多维度分析金融数据分类,根据历史经验初步确定了待采集的数据信息标签,为采集质量打下基础。然后使用kafka分布式消息队列进行数据采集,该方式能安全、高效处理大量实时数据,具有快速、可扩展、分布式和可复制等特点,可以保证零停机和零数据丢失,提高了数据采集效率和质量。
[0178]
本技术在数据处理前分析了金融信息系统数据的特点,提出了使用fp-growth算法进行数据关联分析处理的方法,充分挖掘采集到的数据信息,确定数据信息中的无效特征和特征关联关系,而且该方法仅扫描两次采集数据即可得到有效数据特征集,大大提高了数据处理速度,为后续模型训练精度提升打下基础。
[0179]
本技术在模型训练期间采用arima和gru模型叠加的方法进行预测。该组合模型可以分别对数据中的线性趋势和非线性规律进行训练预测,充分挖掘数据训练价值。因此,可以基于已知威胁检测和异常行为分析来发现恶意代码、apt攻击等未知威胁攻击,及时反馈入侵检测和异常报警将系统实时运行及安全状态实时展示给安全人员。最终提高了金融信息系统的入侵检测准确率,降低了误报率。
[0180]
由以上方案可知,本技术提供一种金融信息系统的入侵检测方法:首先,基于分布式消息队列采集金融信息系统中的目标数据;其中,目标数据包括:客户的基本信息、客户的资产信息、客户的社会和经济背景;然后,采用关联分析算法对目标数据进行处理,得到有效特征信息;再将有效特征信息输入至入侵检测模型,输出得到分析结果;其中,入侵检测模型由训练样本集对自回归积分滑动平均模型和循环神经网络的组合模型进行训练得到;若分析结果表明当前发生入侵,则生成异常告警信息。有效防止非法入侵,提高信息安全性和保密性。
[0181]
本技术另一实施例提供了一种金融信息系统的入侵检测装置,如图7所示,具体包括:
[0182]
采集单元701,用于基于分布式消息队列采集金融信息系统中的目标数据。
[0183]
其中,目标数据包括:客户的基本信息、客户的资产信息、客户的社会和经济背景。
[0184]
可选的,在本技术的另一实施例中,采集单元701的一种实施方式,具体包括:
[0185]
拦截单元,用于消息发布者通过切面拦截用户的请求,并从切面中提取请求头的基本信息。
[0186]
第一提取单元,用于提取请求的接口参数信息,并提取返回值中信息。
[0187]
封装单元,用于将提取得到的信息封装成json字符串,放到阻塞队列中。
[0188]
第一获取单元,用于异步线程从本地阻塞队列中获取数据,并将信息组装发送到kafka的代理中。
[0189]
第一转化单元,用于消息接收者实时从kafka的代理中批量拉取消息,并将拉取的消息转化成对象。
[0190]
解析单元,用于解析数据包对应的信息,并对不同理财类型的信息进一步解析。
[0191]
第二解析单元,用于将日志信息转化成json字符串,持久化到日志文件中,得到目标数据。
[0192]
本技术上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图2所示,此处不再赘述。
[0193]
处理单元702,用于采用关联分析算法对目标数据进行处理,得到有效特征信息。
[0194]
可选的,在本技术的另一实施例中,采集单元702的一种实施方式,具体包括:
[0195]
第一确定单元,用于将目标数据作为一个事务集合。
[0196]
其中,事务集合中的每个事务表示一个包含不同数量特征的数据包。
[0197]
第一扫描单元,用于第一次扫描事务集合,计算每个项出现的支持度。
[0198]
删除单元,用于删除第一目标项。
[0199]
其中,第一目标项为支持度小于初始阈值的项。
[0200]
第一排列单元,用于将第二目标项放入项头表,并按照支持度降序排列。
[0201]
其中,第二目标项为除了第一目标项的项。
[0202]
第二扫描单元,用于第二次扫描事务集合,删除所有事务中包含的第一目标项。
[0203]
第二排序单元,用于将事务中剩余的项按照支持度降序排列,得到预处理事务集合。
[0204]
第一构建单元,用于根据预处理事务集合构建fp树。
[0205]
第二生成单元,用于逆序遍历项头表,生成项头表中每一个项对应的条件模式基。
[0206]
其中,条件模式基是以查找元素项为结尾的路径集合。
[0207]
挖掘单元,用于从条件模式基递归挖掘,得到项头表的频繁项集合。
[0208]
第二构建单元,用于根据每一个频繁项对应的条件模式基,生成频繁项对应的条件fp树,并删除条件fp树中节点计数不满足第一阈值的节点。
[0209]
第三生成单元,用于针对每一个条件fp树,生成所有的从根节点到叶子节点的路径,由路径中的集合生成其所有非空子集。
[0210]
其中,所有非空子集和每一个频繁项集合中的元素共同构成了原始数据集中的频繁集合,即得到预处理后的标识数据异常与否的所有特征集。
[0211]
处理子单元,用于对特征集中的数据进行预处理,将每一个数据包处理成一条标准化的向量,得到有效特征信息。
[0212]
本技术上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图3所示,此处不再赘述。
[0213]
第一输入单元703,用于将有效特征信息输入至入侵检测模型,输出得到分析结果。
[0214]
其中,入侵检测模型由训练样本集对自回归积分滑动平均模型和循环神经网络的组合模型进行训练得到。
[0215]
第一生成单元704,用于若分析结果表明当前发生入侵,则生成异常告警信息。
[0216]
本技术上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图1所示,此处不再赘述。
[0217]
可选的,在本技术的另一实施例中,入侵检测模型的构建单元的一种实施方式,包括:
[0218]
第二获取单元,用于获取历史时间序列数据集。
[0219]
其中,时间序列数据集包含所有标准化数据包向量;数据包根据是否异常进行标注。
[0220]
第二确定单元,用于将正常数据作为训练样本,得到训练样本集。
[0221]
第一训练单元,用于利用自回归积分滑动平均模型对训练样本进行训练,得到第一预测值。
[0222]
第二训练单元,用于利用循环神经网络对非线性误差因素建模,进行迭代训练,得到第二预测值。
[0223]
第三确定单元,用于将第一预测值和第二预测值的和作为最终预测值。
[0224]
调整单元,用于根据最终预测值与训练样本的真实异常情况的误差,对自回归积分滑动平均模型和循环神经网络进行调整,直至最终预测值与训练样本的真实异常情况的误差满足预设的收敛条件,将自回归积分滑动平均模型和循环神经网络的组合模型作为入侵检测模型。
[0225]
本技术上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图4所示,此处不再赘述。
[0226]
由以上方案可知,本技术提供一种金融信息系统的入侵检测装置:首先,采集单元701基于分布式消息队列采集金融信息系统中的目标数据;其中,目标数据包括:客户的基本信息、客户的资产信息、客户的社会和经济背景;然后,处理单元702采用关联分析算法对目标数据进行处理,得到有效特征信息;第一输入单元703将有效特征信息输入至入侵检测模型,输出得到分析结果;其中,入侵检测模型由训练样本集对自回归积分滑动平均模型和循环神经网络的组合模型进行训练得到;若分析结果表明当前发生入侵,则第一生成单元704生成异常告警信息。有效防止非法入侵,提高信息安全性和保密性。
[0227]
本技术另一实施例提供了一种电子设备,如图8所示,包括:
[0228]
一个或多个处理器801。
[0229]
存储装置802,其上存储有一个或多个程序。
[0230]
当所述一个或多个程序被所述一个或多个处理器801执行时,使得所述一个或多个处理器801实现如上述实施例中任意一项所述的金融信息系统的入侵检测方法。
[0231]
本技术另一实施例提供了一种计算机存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述实施例中任意一项所述的金融信息系统的入侵检测方法。
[0232]
在本技术公开的上述实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用
的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0233]
另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,直播设备,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0234]
专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1