本发明涉及大数据安全,尤其涉及一种用于在线业务会话交互的大数据安全分析方法及系统。
背景技术:
1、大数据时代来临,各行业数据规模呈tb级增长,高价值数据源在大数据产业链中占据至关重要的核心地位。随着各行业的线上业务升级,业务交互大多通过在线会话实现,由此所产生的会话大数据的信息量也不容忽视,如何确保会话大数据安全性是现目前亟需重视的问题。传统的数据安全分析技术大多通过对检测文本进行分析实现,但是这种方式存在效率和精度低下的问题。
技术实现思路
1、本发明提供一种用于在线业务会话交互的大数据安全分析方法及系统,为实现上述技术目的,本发明采用如下技术方案。
2、第一方面是一种用于在线业务会话交互的大数据安全分析方法,应用于人工智能服务系统,所述方法包括:
3、对目标会话安全检测文本进行文本描述挖掘,得到所述目标会话安全检测文本对应的第一异常文本描述集及所述第一异常文本描述集对应的第一异常文本描述数组;
4、对所述第一异常文本描述集进行处理,得到所述第一异常文本描述集对应的第一文本检测变量,所述第一文本检测变量用于表征所述第一异常文本描述集反映所述目标会话安全检测文本中风险主题词向量的检测偏移指数;
5、依据所述第一异常文本描述数组、所述第一文本检测变量以及参考会话安全检测文本的第二异常文本描述集对应的第二异常文本描述数组、所述第二异常文本描述集对应的第二文本检测变量,获取所述目标会话安全检测文本和所述参考会话安全检测文本之间的共性度量值,所述第二文本检测变量用于表征所述第二异常文本描述集反映所述参考会话安全检测文本中风险主题词向量的检测偏移指数;
6、在所述共性度量值大于设定度量值的基础上,确定所述目标会话安全检测文本与所述参考会话安全检测文本为相似文本,并基于所述参考会话安全检测文本对所述目标会话安全检测文本进行安全分析。
7、在一些可选的实施例中,所述对目标会话安全检测文本进行文本描述挖掘,得到所述目标会话安全检测文本对应的第一异常文本描述集及所述第一异常文本描述集对应的第一异常文本描述数组,包括:
8、通过transformer网络中的文本描述挖掘子网,对目标会话安全检测文本进行文本描述挖掘,得到所述目标会话安全检测文本对应的第一异常文本描述集及所述第一异常文本描述集对应的第一异常文本描述数组。
9、在一些可选的实施例中,所述对所述第一异常文本描述集进行处理,得到所述第一异常文本描述集对应的第一文本检测变量,包括:
10、通过所述transformer网络中的描述特征解析子网,对所述第一异常文本描述集进行处理,得到所述第一异常文本描述集对应的第一文本检测变量。
11、在一些可选的实施例中,所述文本描述挖掘子网包括文本描述挖掘单元和文本描述投影单元,所述通过transformer网络中的文本描述挖掘子网,对目标会话安全检测文本进行文本描述挖掘,得到所述目标会话安全检测文本对应的第一异常文本描述集及所述第一异常文本描述集对应的第一异常文本描述数组,包括:
12、通过所述文本描述挖掘单元,对所述目标会话安全检测文本进行文本描述挖掘,得到所述目标会话安全检测文本对应的第一异常文本描述集;
13、通过所述文本描述投影单元,对所述第一异常文本描述集进行文本描述投影,得到所述第一异常文本描述集对应的第一异常文本描述数组。
14、在一些可选的实施例中,所述通过所述transformer网络中的描述特征解析子网,对所述第一异常文本描述集进行处理,得到所述第一异常文本描述集对应的第一文本检测变量之前,所述方法还包括:
15、根据会话安全检测文本样例和所述会话安全检测文本样例对应的异常文本描述数组样例,调校所述文本描述挖掘子网;
16、在维持调校后的文本描述挖掘子网不变的基础上,依据所述异常文本描述数组样例和所述会话安全检测文本样例所对应风险主题标签的关键文本描述数组,调校所述描述特征解析子网。
17、在一些可选的实施例中,所述根据会话安全检测文本样例和所述会话安全检测文本样例对应的异常文本描述数组样例,调校所述文本描述挖掘子网,包括:
18、获取所述会话安全检测文本样例和所述会话安全检测文本样例对应的异常文本描述数组样例;
19、通过所述文本描述挖掘子网,对所述会话安全检测文本样例进行文本描述挖掘,得到所述会话安全检测文本样例对应的异常文本解析描述集及所述异常文本解析描述集对应的异常文本解析数组;
20、依据所述异常文本解析数组和所述异常文本描述数组样例之间的比较结果,调校所述文本描述挖掘子网。
21、在一些可选的实施例中,所述文本描述挖掘子网包括文本描述挖掘单元和文本描述投影单元,所述通过所述文本描述挖掘子网,对所述会话安全检测文本样例进行文本描述挖掘,得到所述会话安全检测文本样例对应的异常文本解析描述集及所述异常文本解析描述集对应的异常文本解析数组,包括:
22、通过所述文本描述挖掘单元,对所述会话安全检测文本样例进行文本描述挖掘,得到所述会话安全检测文本样例对应的异常文本解析描述集;
23、通过所述文本描述投影单元,对所述异常文本解析描述集进行文本描述投影,得到所述异常文本解析描述集对应的异常文本解析数组。
24、在一些可选的实施例中,所述transformer网络还包括网络代价生成子网,所述网络代价生成子网包括每个风险主题标签对应的置信度描述数组,所述依据所述异常文本解析数组和所述异常文本描述数组样例之间的比较结果,调校所述文本描述挖掘子网,包括:
25、通过所述网络代价生成子网,按照所述会话安全检测文本样例所对应风险主题标签对应的置信度描述数组对所述异常文本解析数组进行强化操作,得到所述异常文本解析数组对应的异常文本描述强化数组;
26、获取所述异常文本描述强化数组和所述异常文本描述数组样例之间的第二调校代价指标,所述第二调校代价指标表示所述异常文本描述强化数组和所述异常文本描述数组样例之间的比较结果;
27、依据所述第二调校代价指标,调校所述文本描述挖掘子网和所述网络代价生成子网。
28、在一些可选的实施例中,所述在维持调校后的文本描述挖掘子网不变的基础上,依据所述异常文本描述数组样例和所述会话安全检测文本样例所对应风险主题标签的关键文本描述数组,调校所述描述特征解析子网,包括:
29、获取所述会话安全检测文本样例所对应风险主题标签的关键文本描述数组,所述关键文本描述数组表示所述风险主题标签对应的风险主题词向量;
30、通过所述描述特征解析子网,对所述异常文本解析描述集进行处理,得到所述异常文本解析描述集对应的文本检测变量解析结果,所述文本检测变量解析结果用于表征所述异常文本解析描述集反映所述会话安全检测文本样例中风险主题词向量的检测偏移指数;
31、依据所述异常文本解析数组、所述关键文本描述数组和所述文本检测变量解析结果,获取第三调校代价指标,所述第三调校代价指标表示所述异常文本解析描述集对应的文本检测变量解析结果的训练代价;
32、依据所述第三调校代价指标,调校所述描述特征解析子网。
33、在一些可选的实施例中,所述依据所述异常文本解析数组、所述关键文本描述数组和所述文本检测变量解析结果,获取第三调校代价指标,包括:
34、依据所述异常文本解析数组和所述关键文本描述数组之间的差异特征,获取目标文本检测变量;
35、依据所述目标文本检测变量和所述文本检测变量解析结果之间的比较结果,获取所述第三调校代价指标。
36、在一些可选的实施例中,所述获取所述会话安全检测文本样例所对应风险主题标签的关键文本描述数组,包括:
37、获取所述会话安全检测文本样例所对应风险主题标签的多个会话安全检测文本对应的异常文本描述数组;
38、根据获取到的多个异常文本描述数组,确定所述关键文本描述数组。
39、在一些可选的实施例中,所述获取所述会话安全检测文本样例所对应风险主题标签的关键文本描述数组,包括:
40、获取所述会话安全检测文本样例所对应风险主题标签对应的置信度描述数组;
41、将所述会话安全检测文本样例对应的置信度描述数组确定为所述关键文本描述数组。
42、第二方面是一种人工智能服务系统,包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述人工智能服务系统执行第一方面的方法。
43、第三方面是一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行第一方面的方法。
44、本发明实施例提供的技术方案,获取目标会话安全检测文本对应的第一异常文本描述集以及第一异常文本描述集对应的第一异常文本描述数组和第一文本检测变量,根据第一异常文本描述数组、第一文本检测变量以及参考会话安全检测文本的第二异常文本描述集对应的第二异常文本描述数组和第二文本检测变量,获取目标会话安全检测文本和参考会话安全检测文本之间的共性度量值,在共性度量值大于设定度量值的基础上确定目标会话安全检测文本与参考会话安全检测文本为相似文本。鉴于第一文本检测变量表示第一异常文本描述集反映目标会话安全检测文本中风险主题词向量的检测偏移指数,第二文本检测变量表示第二异常文本描述集反映参考会话安全检测文本中风险主题词向量的检测偏移指数,这样在获取目标会话安全检测文本和参考会话安全检测文本的共性度量值时,还引入了异常文本描述集的检测偏移指数对共性度量值的贡献,而不是只分析异常文本描述集对应的异常文本描述数组,从而规避由于会话安全检测文本中存在扰动造成异常文本描述数组难以精准输出风险主题的词向量的问题,以便提高风险主题判别的精度,减少文本分析时所产生的偏差。在确定出目标会话安全检测文本与参考会话安全检测文本为相似文本之后,能够以参考会话安全检测文本的相关安全分析策略为基准,对目标会话安全检测文本进行一系列的安全分析,从而提高目标会话安全检测文本的安全分析精度和效率。
45、此外,本发明实施例中,将目标会话安全检测文本的文本描述投影到文本场景向量关系网中,得到该目标会话安全检测文本对应的第一异常文本描述集。鉴于相较于传统的文本向量关系网,文本场景向量关系网更匹配风险主题的向量关系网,这样在文本场景向量关系网中对风险主题进行文本描述挖掘可以使提取到的风险主题词向量尽可能精准和完整,以保障风险主题分析的精度和可信度。
46、此外,获取会话安全检测文本样例和会话安全检测文本样例对应的异常文本描述数组样例,通过文本描述挖掘子网提取会话安全检测文本样例的异常文本解析描述集和异常文本解析数组,根据异常文本解析数组和异常文本描述数组样例之间的比较结果,调校文本描述挖掘子网。获取会话安全检测文本样例所对应风险主题标签的关键文本描述数组,通过描述特征解析子网获取异常文本解析描述集对应的文本检测变量解析结果,根据异常文本解析数组、关键文本描述数组和文本检测变量解析结果获取第三调校代价指标,根据第三调校代价指标调校描述特征解析子网。之后便能够通过包括该文本描述挖掘子网和描述特征解析子网的transformer网络进行风险主题解析,鉴于引入描述特征解析子网,这样在获取目标会话安全检测文本和参考会话安全检测文本之间的共性度量值时,还引入了描述特征解析子网生成的文本检测变量对共性度量值的贡献,也即是引入了异常文本描述集的检测偏移指数对共性度量值的贡献,而不是只分析异常文本描述集对应的异常文本描述数组,从而规避由于会话安全检测文本中存在扰动造成异常文本描述数组难以精准输出风险主题的词向量的问题,以便提高风险主题判别的精度,减少文本分析时所产生的偏差。
47、此外,根据会话安全检测文本样例和会话安全检测文本样例对应的异常文本描述数组样例,调校文本描述挖掘子网,在维持调校后的文本描述挖掘子网不变的基础上,根据异常文本描述数组样例和会话安全检测文本样例所对应风险主题标签的关键文本描述数组,调校描述特征解析子网。以此对transformer网络的调校过程可以分为文本描述挖掘子网的调校环节和描述特征解析子网的调校环节,则在文本描述挖掘子网调校好的基础上,仅需获取调校该文本描述挖掘子网的会话安全检测文本样例,对描述特征解析子网进行调校便可,不用再次调校新的文本描述挖掘子网,也不用再次获取会话安全检测文本样例。