安全威胁事件处理方法、装置及计算机存储介质与流程

文档序号：25991843发布日期：2021-07-23 21:03阅读：40来源：国知局

本申请涉及互联网安全
技术领域：
，特别涉及一种安全威胁事件处理方法、装置及计算机存储介质。
背景技术：
：随着互联网安全技术的发展，当检测到影响网络安全的安全威胁事件时，需要对该安全威胁事件进行处理，以避免该安全威胁事件对网络造成不可恢复的破坏。相关技术中，安全编排、自动化和响应(securityorchestration、automation、andresponse，soar)系统被越来越广泛地应用于处理安全威胁事件。对于不同的安全威胁事件的事件类型，通过人工方式编排针对每个事件类型的剧本(playbook)，得到事件类型与剧本的对应关系，然后将该对应关系存储在soar系统中。每个剧本包括一系列阻断策略。当将安全威胁事件输入至soar系统之后，soar系统确定该安全威胁事件的类型，然后根据该对应关系，选择与该安全威胁事件的类型对应的剧本，控制与soar系统连接的多个网络安全设备执行选择的剧本包括的一系列阻断策略，以实现对该安全威胁事件的处理。上述方法中，需要预先针对事件类型编排剧本，如果安全威胁事件的种类较多，将导致编排剧本的过程需要耗费大量的人力资源。此外，如果接收到安全威胁事件的类型没有对应的剧本，该安全威胁事件仍然需要通过人工方式来编排剧本，从而导致处理安全威胁事件的效率太低。技术实现要素：本申请提供了一种安全威胁事件处理方法、装置及计算机存储介质，可以提高处理安全威胁事件的效率。该技术方案如下：第一方面，提供了一种安全威胁事件处理方法，在该方法中：确定待处理的安全威胁事件的状态数据，该状态数据包括该安全威胁事件的状态；根据该状态数据和估值模型从多个动作中确定第一动作，第一动作为这多个动作中估值最大的动作，每个动作的估值用于表征在该状态数据指示的状态下执行相应动作的质量，每个动作关联一个网络设备；控制与第一动作关联的网络设备执行第一动作。本申请提供的安全威胁事件处理方法至少可以实现以下几个效果：(1)在本申请中，根据安全威胁事件的状态数据和估值模型，便可直接确定用于阻断该安全威胁事件所需的动作。无需预先编排针对各个事件类型的剧本，从而节省了编排剧本所需的人力资源。(2)对于新的类型的安全威胁事件，只需确定出该安全威胁事件的状态数据，同样可以基于估值模型确定用于阻断该安全威胁事件所需的动作，提高了针对这类安全威胁事件的处理速度。根据第一方面，在本申请的一种可能的实现方式中，控制与第一动作关联的网络设备执行第一动作之后，如果该安全威胁事件所处的网络的当前安全状态没有达到参考安全状态，则返回执行确定待处理的安全威胁事件的状态数据的操作。对于任一安全威胁事件，可能通过一个第一动作就能实现闭环，但是对于复杂的安全威胁事件，通过一个第一动作可能无法成功实现闭环。此时，可以循环执行上述过程，直至该安全威胁事件成功闭环。根据第一方面，在本申请的一种可能的实现方式中，上述参考安全状态是指网络中不存在安全威胁的状态。通过参考安全状态的这种配置方式，以实现对该安全威胁事件的成功闭环。根据第一方面，在本申请的一种可能的实现方式中，该安全威胁事件的状态包括该安全威胁事件在多个属性中每个属性上的特征值。在本申请中，可以通过安全威胁事件在多个属性中每个属性上的特征值来构建该安全威胁事件自身的状态，这些属性可以是从网络安全智能系统系统中的事件模型提取多维属性，从而提高确定安全威胁事件的状态的便利性。根据第一方面，在本申请的一种可能的实现方式中，上述状态数据还可以包括多个动作中每个动作的已执行次数，和/或，该安全威胁事件所处的网络的当前安全状态。在本申请中，可以从以上两个维度来构建安全威胁事件的状态数据，这两个维度可以为安全威胁事件的状态和网络的当前安全状态，或者，可以为安全威胁事件的状态和多个动作中每个动作的已执行次数，以使构建的状态数据能够准确表征该安全威胁事件所处的网络的状态和该安全威胁事件自身的状态，从而提高后续确定的待执行动作的有效性。进一步，还可以从三个维度来构建安全威胁事件的状态数据，这三个维度分别为安全威胁事件的状态、网络的当前安全状态以及多个动作中每个动作的已执行次数。此时，相当于从三个维度来构建安全威胁事件的状态数据，以进一步提高根据状态数据确定的动作阻断该安全威胁事件的有效性。根据第一方面，在本申请的一种可能的实现方式中，根据该状态数据和估值模型从多个动作中确定第一动作的实现过程可以为：根据该状态数据确定多个动作中每个动作的相关度值，每个动作的相关度值用于在该状态数据指示的状态下相应动作与该安全威胁事件之间的相关度；从多个动作中筛选出相关度值大于相关度阈值的一个或多个动作；根据该状态数据和估值模型确定一个或多个动作中每个动作的估值；根据一个或多个动作中每个动作的估值，从一个或多个动作中确定第一动作。在本申请中，先基于动作和该安全威胁事件之间的相关度确定一个动作范围，然后在该动作范围中确定一个估值最大的动作作为第一动作，从而提高确定第一动作处理速度，进而提高处理安全威胁事件的效率。根据第一方面，在本申请的一种可能的实现方式中，如果网络的当前安全状态没有达到参考安全状态，则返回执行确定待处理的安全威胁事件的状态数据的操作的实现过程可以为：获取已控制与第一动作关联的网络设备执行第一动作的次数；如果该次数没有达到次数阈值，且该网络的当前安全状态没有达到参考安全状态，则返回执行确定该安全威胁事件的状态数据的操作。根据第一方面，在本申请的另一种可能的实现方式中，获取已控制与第一动作关联的网络设备执行第一动作的次数之后，如果该次数达到次数阈值，且网络的当前安全状态没有达到参考安全状态，则生成人工参与提示信息，该人工参与提示信息用于提示从多个动作中选择一个动作，并触发与选择的动作关联的网络设备执行选择的动作；确定网络的当前安全状态，如果网络的当前安全状态没有达到参考安全状态，则返回执行生成人工参与提示信息的操作。在通过上述循环执行了多次动作之后，如果该安全威胁事件仍然没有成功闭环，此时为了避免上述循环过程陷入死循环而导致计算机计算资源的浪费，可以通过人工方式来闭环该安全威胁事件。也即是，在次数阈值允许的循环次数范围内，如果该安全威胁事件成功闭环，则无需人工参与。如果超出次数阈值允许的循环次数范围，且该安全威胁事件仍然没有成功闭环，此时则需人工参与。根据第一方面，在本申请的另一种可能的实现方式中，在该方法中，还可以获取多个四元组，每个四元组包括第一状态数据、历史动作、第二状态数据和历史回报值，第一状态数据和第二状态数据对应同一个历史安全威胁事件，该历史动作用于指示在第一状态数据指示的状态下对该历史安全威胁事件执行的动作，第二状态数据用于指示执行历史动作之后的状态，历史回报值用于指示与该历史动作关联的网络设备执行该历史动作后的响应对网络的安全提升度；根据多个四元组对第一深度学习网络模型进行训练，得到估值模型。通过上述训练得到的估值模型，可以学习到各个状态数据所指示的状态下的各个动作的估值，以便于后续根据当前的状态数据来确定各个动作的估值。根据第一方面，在本申请的一种可能的实现方式中，获取多个四元组的实现过程可以为：获取多个第一历史安全威胁事件中每个第一历史安全威胁事件对应的剧本；根据每个第一历史安全威胁事件对应的剧本，确定每个第一历史安全威胁事件对应的一个或多个四元组。由于传统的剧本包括阻断安全威胁事件所需的一系列策略，因此，用于训练估值模型所需的训练集可以从soar系统中已有的剧本中抽取得到，从而提高了训练策略模型的便利性，有利于本申请提供的安全威胁事件处理方法的推广。根据第一方面，在本申请的另一种可能的实现方式中，根据该状态数据确定多个动作中每个动作的相关度值的实现过程可以为：通过策略模型对该状态数据和多个动作进行处理，得到多个动作中每个动作的相关度值。在本申请中，可以通过一个策略模型来确定和该安全威胁事件相关的动作，从而便于后续确定第一动作，提高了确定第一动作的效率。根据第一方面，在本申请的一种可能的实现方式中，在该方法中，还可以获取多个第二历史安全威胁事件，以及与多个第二历史安全威胁事件一一对应的多个动作序列，每个第二历史安全威胁事件对应的动作序列包括在处理相应第二历史安全威胁事件过程中执行的一个或多个动作；根据多个第二历史安全威胁事件，以及与第二历史安全威胁事件一一对应的多个动作序列，对第二深度学习网络模型进行训练，得到策略模型。通过上述训练得到的策略模型，可以学习到动作和当前安全威胁事件之间的相关性，从而便于后续对预先编排的多个动作进行筛选。如此估值模型便可从筛选后的动作中确定估值，以提高估值模型的处理速度。根据第一方面，在本申请的一种可能的实现方式中，在该方法中，还可以根据在处理该安全威胁事件过程中执行的动作，生成与该安全威胁事件对应的剧本。在通过本申请提供的方法阻断安全威胁事件时，还可以根据在处理安全威胁事件过程中执行的动作，生成与安全威胁事件对应的剧本。该剧本可以作为传统的soar系统的剧本，以为soar系统提供更多的剧本数据。第二方面，提供了一种安全威胁事件处理装置，所述安全威胁事件处理装置具有实现上述第一方面中安全威胁事件处理方法行为的功能。所述安全威胁事件处理装置包括至少一个模块，该至少一个模块用于实现上述第一方面所提供的安全威胁事件处理方法。第三方面，提供了一种安全威胁事件处理装置，所述安全威胁事件处理装置的结构中包括处理器和存储器，所述存储器用于存储支持安全威胁事件处理装置执行上述第一方面所提供的安全威胁事件处理方法的程序，以及存储用于实现上述第一方面所提供的安全威胁事件处理方法所涉及的数据。所述处理器被配置为用于执行所述存储器中存储的程序。所述存储设备的操作装置还可以包括通信总线，该通信总线用于该处理器与存储器之间建立连接。第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的安全威胁事件处理方法。第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的安全威胁事件处理方法。上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。附图说明图1是本申请实施例提供的一种剧本中指示的处理安全威胁事件的流程示意图；图2是本申请实施例提供的一种安全威胁事件处理系统的架构示意图；图3是本申请实施例提供的一种第二深度学习网络模型的结构示意图；图4是本申请实施例提供的一种安全威胁事件处理方法流程图；图5是本申请实施例提供的另一种安全威胁事件处理方法流程图；图6是本申请实施例提供的一种安全威胁事件处理装置框图；图7是本申请实施例提供的一种计算机设备的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。在本申请实施例进行解释说明之前，先对本申请实施例的应用场景进行解释说明。目前，对网络安全产生威胁的安全威胁事件种类繁多，安全威胁事件的闭环需要人工参与处理。闭环是指阻断安全威胁事件。在现网中大部分客户担心误报安全威胁事件导致下发错误的阻断策略而影响业务，所以一般先由运维人员分析主机上的日志、进程等文件，确认安全威胁事件存在威胁，然后在终端上清除文件，并在网络安全设备上增加阻断策略。运维人员还可以监控设备日志确认威胁已经被正确处理。显然，人工方式处理安全威胁事件的效率非常低。为了解决上述通过人工方式处理安全威胁事件效率低的问题，soar系统应运而生。安全数据源、安全检测源、web(网页)检测等网络监测端或者用户提供的安全威胁事件输入至soar系统，soar系统查找与该安全威胁事件的类型绑定的剧本，然后soar系统根据剧本中各个阻断策略对应的动作(action)会调用相关的设备闭环处理安全威胁事件。图1是本申请实施例提供的一种剧本中指示的处理安全威胁事件的流程示意图。如图1所示，按照剧本中指示的处理安全威胁事件的流程，需要先调查取证，调查取证的过程包括：查询网络协议(internetprotocol，ip)地址是否为恶意ip地址，如果不是(图1中标记为n)，则控制终端检测与响应平台获取恶意命令与控制(commandandcontrol，c&c)攻击中的文件的摘要，该摘要是通过消息摘要算法第五版(message-digestalgorithm5，md5)确定的，在图1中将该摘要标记为md5摘要。根据文件的md5摘要查询该文件是否为恶意文件，如果不是，则控制终端检测与响应平台提交该文件给沙箱，然后查询沙箱的文件检测结果，并判断文件检测结果是否为恶意文件等一系列操作。在每个调整取证过程中，如果任何一个判断结果为是(图1中标记为y)，则执行下一步阻断策略，下一步的阻断策略包括邮件通知、短信通知、防火墙设置ip地址黑名单、隔离终端以限制访问其他主机、终端检测与响应平台关闭进程以及终端检测与响应平台删除文件等。如图1所示，剧本中指示了处理安全威胁事件的每一步流程直至最终安全威胁事件的闭环。基于图1所示的流程可知，剧本中指示的处理流程通常是一系列复杂的流程，这样在预先编排剧本时就需要耗费大量的人力资源。并且，随着互联网技术的发展，安全威胁事件的种类将越来越多，这时通过预先编排剧本的方式势必耗费更多的人力资源。本申请实施例提供的安全威胁事件处理方法可以无需剧本就能实现对安全威胁事件的阻断，以克服传统的soar系统在处理安全威胁事件上的问题。图2是本申请实施例提供的一种安全威胁事件处理系统的架构示意图。如图2所示，该系统200包括事件源系统201、事件状态提取系统202、安全响应闭环系统203和多个网络设备204。事件源系统201和事件状态提取系统202之间通过无线或有线方式连接以进行通信，事件状态提取系统202和安全响应闭环系统203之间通过无线或有线方式连接以进行通信，安全响应闭环系统203和每个网络设备204之间通过无线或有线方式连接以进行通信。事件源系统201用于提供安全威胁事件，该事件源系统201可以为网络安全智能系统，或者，第三方安全事件源系统等系统。事件状态提取系统202用于提取能够指示安全威胁事件相应的状态的状态数据。为了后续便于说明，在本申请实施例中，将安全威胁事件相应的状态称为事件状态，如此本申请实施例中的状态数据用于指示安全威胁事件的事件状态，该事件状态可以包括安全威胁事件自身的状态，还可以包括安全威胁事件所处的网络的当前安全状态，和/或，网络中的各个网络设备在阻断安全威胁时间过程中已经执行的动作的次数。也即是，在本申请实施例中通过安全威胁事件自身来构建一个事件状态，也可以根据安全威胁事件自身和安全威胁事件所处的环境来构建一个事件状态，以便后续根据该事件状态对安全威胁事件进行精准阻断，从而提高阻断安全威胁事件的效率。在本申请实施例中，对于各类安全威胁事件，网络中的同一网络设备在阻断各类安全威胁事件时所执行的操作基本都相同，只不过阻断各类安全威胁事件所调用的网络设备不同而已。比如，对于安全威胁事件1和安全威胁事件2，假设阻断安全威胁事件1和安全威胁事件2的过程中，均需调用防火墙，而防火墙执行的操作均为安全阻断操作。因此，为了能够实现无需通过剧本就可以阻断安全威胁事件，对于网络中的各个网络设备，预先确定各个网络设备中每个网络设备关联的动作，得到多个动作。每个网络设备关联的动作用于指示该网络设备在阻断各类安全威胁事件中操作。每个网络设备可能关联有一个或多个动作，但是每个动作是仅关联一个网络设备的。如此，后续可以通过本申请实施例提供的方法直接从预先确定的多个动作中确定出当前待执行的动作，从而无需通过剧本便可对安全威胁事件进行阻断。在阻断安全威胁事件的过程中，各个网络设备关联的动作的已执行次数在一定程度上代表网络当前的一些信息。因此，在一种可能的实现方式中，可以从以下三个维度来构建安全威胁事件的事件状态：安全威胁事件自身的状态，网络的当前安全状态，以及网络中各个网络设备当前已经执行的动作的次数。因此，在一种可能的实现方式中，对于任一安全威胁事件，该事件状态提取系统202提供的状态数据可以包括该安全威胁事件在多个属性中每个属性上的特征值、网络的当前安全状态、多个动作中每个动作的已执行次数。上述网络的当前安全状态可以是网络的当前安全等级，比如可以为良好、健康、受威胁、故障、瘫痪中的一者。网络的当前安全状态也可以是用于指示网络安全状态的分数，也可以是用于表征网络安全状态的特征向量。本申请实施例并不限定网络的安全状态的表示方式。需要说明的是，上述从三个维度来构建安全威胁事件的事件状态仅仅是用于构建事件状态的一种可能的实现方式，本申请实施例并不限定构建事件状态的具体方式，只需构建出的事件状态可以包括安全威胁事件自身的状态即可。对于任一安全威胁事件，当事件状态提取系统202确定出该安全威胁事件的状态数据之后，将该状态数据输入至安全响应闭环系统203。安全响应闭环系统203便可通过本申请提供的方法直接确定待执行的动作，从而控制该动作关联的网络设备204执行该动作，以实现对该安全威胁事件的阻断。在一种可能的实现方式中，对于任一网络设备，在确定出该网络设备关联的一个或多个动作之后，针对这一个或多个动作中每个动作，在该网络设备上配置与该动作对应的接口，安全响应闭环系统203通过该接口控制该网络设备执行动作。比如，对于网络设备1，假设该网络设备1关联的动作包括动作1和动作2，则网络设备1上配置有接口1和接口2，安全响应闭环系统203通过接口1和接口2与该网络设备1连接。当该网络设备1通过接口1接收到安全响应闭环系统203发送的控制指令时，便可确定当前需要执行动作1。当该网络设备1通过接口2接收到安全响应闭环系统203发送的控制指令时，便可确定当前需要执行动作2。上述接口可以为能够与第三方对接的restful(一种基于表象性状态转变(representationalstatetransfer，rest)应用程序)接口。由于网络设备执行的动作基本固定，因此，restful接口有固定的输入、输出参数，通过restful接口对外提供输入接口不会对网络设备自身有较大或者较频繁的变动。也即是，不管何种类型的安全威胁事件，只要安全响应闭环系统203确定出动作，便可直接通过动作对应的接口调用网络设备即可，无需向网络设备发送复杂的交互信息，从而提高了阻断安全威胁事件的效率。另外，为了能够实现上述安全响应闭环系统203直接根据状态数据确定待执行的动作，在安全响应闭环系统203中部署有估值模型。估值模型是指用于确定到达目标的最优路径的一种深度学习网络模型，因此，对于任一安全威胁事件，该估值模型可以根据该安全威胁事件的状态数据，确定前述多个动作中每个动作的估值。在估值模型输出各个动作的估值之后，安全响应闭环系统203便可从前述多个动作中确定出一个估值最大的动作。其中，动作的估值用于表征在该状态数据指示的状态下执行相应动作的质量。如果该动作之后还有其他待执行的动作，则该动作的质量可以用于指示在该状态数据指示的状态下执行相应动作以及后续动作后网络的安全提升程度。如果该动作之后没有其他待执行的动作，则该动作的质量可以用于指示在该状态数据指示的状态下执行相应动作后网络的安全提升程度。在使用本申请实施例提供的方法之前，需要预先训练出上述估值模型。在一种可能的实现方式中，训练估值模型的实现方式可以为：获取多个四元组，每个四元组包括第一状态数据、历史动作、第二状态数据和历史回报值。其中，第一状态数据和第二状态数据对应同一个历史安全威胁事件，历史动作用于指示在第一状态数据指示的状态下对历史安全威胁事件执行的动作，第二状态数据用于指示执行历史动作之后的状态，历史回报值用于指示与历史动作关联的网络设备执行历史动作后的响应对网络的安全提升度；根据多个四元组对第一深度学习网络模型进行训练，得到估值模型。上述多个四元组可以称为估值模型的训练集。该训练集可以通过人工方式采集得到。比如，在通过人工方式阻断安全威胁事件的过程中，对于每次确定出的待执行的动作，获取执行该动作前后的状态数据，得到四元组中的第一状态数据和第二状态数据。并获取网络设备在执行该动作后的响应，然后根据响应和回报值(reward)之间的映射关系，确定当前响应对应的回报值，得到四元组中的历史回报值。对于任一网络设备关联的一个动作，可以通过人工方式预先编排针对该动作的响应与回报值之间的映射关系。下述表1是针对防火墙关联的动作“安全阻断”编排的一个映射关系。如表1所示，该映射关系中包括三个响应，分别为成功且获得所需数据、成功但未获得所需数据、以及失败。响应“成功且获得所需数据”对应的回报值为第一回报值，响应“成功但未获得所需数据”对应的回报值为第二回报值，响应“失败”对应的回报值为第三回报值。其中，第一回报值大于第二回报值，第二回报值大于第三回报值。表1响应回报值成功且获得所需数据第一回报值成功但未获得所需数据第二回报值失败第三回报值另外，由于传统的剧本包括阻断安全威胁事件所需的一系列策略，因此，上述训练集还可以从soar系统中已有的剧本中抽取得到。因此，在一种可能的实现方式中，上述获取训练集的实现过程可以为：获取多个第一历史安全威胁事件中每个第一历史安全威胁事件对应的剧本；根据每个第一历史安全威胁事件对应的剧本，确定每个第一历史安全威胁事件对应的一个或多个四元组。将各个第一历史安全威胁事件对应的四元组作为训练集中的四元组即可。上述通过剧本确定四元组的过程可以称为剧本重放过程，上述四元组还可以称为回放记忆单元。其中，对于任一历史安全威胁事件对应的剧本，确定该剧本对应的一个或多个四元组的实现方式可以为：确定该剧本中包括的一个或多个动作，对于任一动作，从soar系统中获取该历史安全威胁事件在执行该动作前后的状态数据，并获取关联的网络设备在执行该动作后的响应，根据该历史安全威胁事件在执行该动作前后的状态数据、以及关联的网络设备在执行该动作后的响应，便可得到与该动作对应的一个四元组。需要说明的是，由于soar系统在阻断安全威胁事件的过程中，通常会记载各类信息，包括网络的安全状态，网络设备的响应等，因此，可以从soar系统中获取到该历史安全威胁事件在执行该动作前后的状态数据、以及关联的网络设备在执行该动作后的响应。在获取到训练集之后，便可通过训练集对第一深度学习网络模型进行训练，得到前述估值模型。在本申请实施例中，采用深度学习网络(deepq-learningnetwork，dqn)模型进行训练的原因为：在大数据的场景下，深度学习网络模型可以更好地处理各种安全威胁事件场景，因此选择深度强化学习算法。当然，在本申请实施例中，也可以考虑多粒度级联森林(multi-grainedcascadeforest，gcforest)算法替换dqn网络模型，在此就不再一一详细说明。在上述对第一深度学习网络模型训练时采用的损失函数可以为：l(θ)＝e[(targetq-q(state,action,θ))2]targetq＝reward+γmaxq(newstate,action,θ)其中，q(state,action,θ)用于指示将某个状态数据和一个动作输入估值模型后，估值模型当前输出的估值。γ表示超参数因子，可以人为设置。targetq用于指示将前述某个状态数据和一个动作输入估值模型后，估值模型当前输出的估值的目标估值，训练的过程就是为了让估值模型当前输出的估值和目标估值之间的差值越来越来小，也即是，上述损失函数最小时，便可终止对第一深度学习网络模型的训练。上述maxq(newstate,action,θ)用于指示将执行前述动作后新的状态数据(也即是上述第二状态数据)和该新的状态数据所指示的状态下执行的各个动作输入估值模型后，估值模型输出的估值中的最大估值。上述对第一深度学习网络模型进行训练的过程实质上是：不断地对第一深度学习网络模型中的各个参数进行调整，直至损失函数的输出值满足指定条件。其中，对第一深度学习网络模型中的各个参数进行调整具体方式可以参考反向传播(backpropagation，bp)优化技术，也可以参考多层感知机(multilayerperceptron，mlp)优化技术。在此不再详细说明。在本申请实施例中，可以只在安全响应闭环系统203中部署有上述估值模型，此时，当安全响应闭环系统接收到任一状态数据时，便可调用该估值模型基于该状态数据确定出预先编排的多个动作中各个动作的估值，以便于后续对该安全威胁事件进行阻断。可选地，由于预先编排的动作数量可能较多，此时，如果直接从调用该估值模型基于该状态数据确定出预先编排的多个动作中各个动作的估值，将导致该估值模型的计算量较大，从而影响对安全威胁事件的闭环速度。所以，还可以在安全响应闭环系统203中部署一个策略模型，还策略模型用于先对预先编排的多个动作进行筛选，这样估值模型便可从筛选后的动作中确定估值，以提高估值模型的处理速度。在一种可能的实现方式中，可以根据动作与安全威胁事件之间的相关性对动作进行筛选。如此，便需预先训练一种能够识别动作与与安全威胁事件之间的相关性的策略模型。在本申请实施例中，训练该策略模型的实现方式可以为：获取多个第二历史安全威胁事件，以及与多个第二历史安全威胁事件一一对应的多个动作序列，每个第二历史安全威胁事件对应的动作序列包括在处理相应第二历史安全威胁事件过程中执行的一个或多个动作；根据多个第二历史安全威胁事件，以及与第二历史安全威胁事件一一对应的多个动作序列，对第二深度学习网络模型进行训练，得到策略模型上述多个第二历史安全威胁事件，以及与多个第二历史安全威胁事件一一对应的多个动作序列同样可以从传统的soar系统的剧本，或者，从人工处理安全威胁事件的流程中获取到，具体实现方式可以参考上述确定训练第一深度学习网络模型的训练集的过程，在此不再详细说明。上述根据多个第二历史安全威胁事件，以及与第二历史安全威胁事件一一对应的多个动作序列，对第二深度学习网络模型进行训练，实质上根据各个第二历史安全威胁事件在多个属性上的特征值和与第二历史安全威胁事件一一对应的多个动作序列对第二深度学习网络型进行训练的。由于安全威胁事件的各个属性之间没有很强的相关性，并且各个属性在时间维度也没有较强的相关性，因此可以设计一个多层的全连接层神经网络模型来作为第二深度学习网络模型。比如，该第二深度学习网络模型可以为多层感知机(multi-layerperceptron，mlp)网络模型。图3是本申请实施例提供的一种第二深度学习网络模型的结构示意图。如图3所示，该第二深度学习网络模型包括输入层、三个隐藏层和一个输出层。输入层用于输入安全威胁事件在多个属性上的特征值，输出层用于输出各个动作上的相关度值。每个隐藏层包括多个神经元。每个隐藏层用于表征一个函数关系，该函数关系可以表示为f(x，w)＝w1·x1+w2·x2+w3·x3+w4·x4。其中，x1、x2、x3、x4用于指示各个属性上的特征值，w1、w2、w3、w4用于指示各个神经元权值系数(图3中仅仅是以4个神经元为例进行说明)。当向图3所示的第二深度学习网络模型中输入一个安全威胁事件在多个属性上的特征值时，该第二深度学习网络模型便可通过各个隐藏层中指示的函数关系对该安全威胁事件在多个属性上的特征值进行处理，最终输出各个动作的相关度值。上述对第二深度学习网络模型进行训练时采用的损失函数可以为：其中，j表示第j个动作，t向量表示针对第j个动作设置的目标标签。该目标标签也即是每个安全威胁事件对应的动作的目标相关度值。对于训练集中的任一安全威胁事件，如果该动作在该安全威胁事件对应的动作序列之内，则将该目标标签设置为1(表明两者相关)，如果该动作不在该安全威胁事件对应的动作序列之内，则将该目标标签设置为0(表明两者不相关)。y向量用于指示第二深度学习网络模型输出的相关度值。该相关度值可以在0-1之间，这种情况下，第二深度学习网络模型输出的相关度值也可以称为概率值。该y向量可以通过归一化指数函数进行归一化处理得到，具体实现本申请并不限定。上述对第二神经网络的训练过程同样可以参考bp优化技术，在此不再详细说明。此外，图2中的多个网络设备204可以为沙箱、防火墙、安全控制器、网络控制器、终端检测响应平台、云端智能中心、网络安全智能系统等网络中任一设备。另外，图2中的事件状态提取系统202和安全响应闭环系统203可以集中部署在同一服务器上，可以分别独立地部署在两个服务器上，集中部署可以适用于公有云场景，能够快速对接企业/个人用户，提供智能响应服务。分离部署可以将事件状态提取系统202部署在企业/个人用户侧，直接将抽取的状态数据传递给安全响应闭环系统203，降低安全威胁事件上报的网络性能消耗，从而提升智能运维的效率。下面对本申请实施例提供的安全威胁事件处理方法进行详细解释说明。图4是本申请实施例提供的一种安全威胁事件处理方法流程图，应用于图2所示的系统中。如图4所示，该方法包括如下步骤：步骤401：确定待处理的安全威胁事件的状态数据，该状态数据包括该安全威胁事件的状态。在一种可能的实现方式中，该安全威胁事件的状态可以包括安全威胁事件在多个属性中每个属性上的特征值。此时，可以只根据安全威胁事件自身的属性来构建该安全威胁事件的事件状态。在另一种可能的实现方式中，该安全威胁事件的状态可以包括安全威胁事件在多个属性中每个属性上的特征值、该安全威胁事件所处的网络的当前安全状态。此时，相当于从两个维度来构建该安全威胁事件的事件状态，分别为：安全威胁事件自身的状态和网络的安全状态。在另一种可能的实现方式中，该安全威胁事件的状态可以包括安全威胁事件在多个属性中每个属性上的特征值、预先编排的多个动作中每个动作的已执行次数。此时，相当于从两个维度来构建该安全威胁事件的事件状态，分别为：安全威胁事件自身的状态和网络中用于处理安全威胁事件的各个网络设备的状态。在另一种可能的实现方式中，为了提高后续确定的动作对阻断安全威胁事件的有效性，该状态数据还可以同时包括安全威胁事件在多个属性中每个属性上的特征值、该安全威胁事件所处的网络的当前安全状态、以及预先编排的多个动作中每个动作的已执行次数。此时，相当于从三个维度来构建该安全威胁事件的事件状态。分别为：安全威胁事件自身的状态、网络的安全状态、网络中用于处理安全威胁事件的各个网络设备的状态。需要说明的是，上述构建安全威胁事件的状态数据仅仅是用于构建状态数据的一些可能的实现方式，本申请实施例并不限定构建状态数据的具体方式。此外，上述该安全威胁事件在多个属性中每个属性上的特征值可以从网络安全智能系统系统中的事件模型提取的217维特征中得到。表2是本申请实施例提供的一种属性列表。如表2所示，这多个属性包括事件类型、威胁等级、源ip、目的ip、文件摘要(该摘要是通过消息摘要算法第五版(message-digestalgorithm5，md5)技术确定的，简称为文件md5)、统一资源定位符(uniformresourcelocator，url)-md5等。比如，对于待处理的安全威胁事件，该安全威胁事件的事件类型为7001，该安全威胁事件的威胁等级为2，该安全威胁事件的源ip为172.16.2.37，该安全威胁事件的目的ip为192.168.10.59等。事件类型7001是网络安全智能系统系统中已经定义的一种事件类型，在此不再详细说明。表2事件类型威胁等级源ip目的ip文件md5urlmd5…70012172.16.2.37192.168.10.59xxxxxxxxx…网络的当前安全状态可以来自网络安全智能系统系统对网络状态的打分。基于图2所示的系统可知，在一种可能的实现方式中，安全状态可以分为五个等级：良好、健康、受威胁、故障、瘫痪，此时，网络的当前安全状态为这五个等级中的一个。上述多个动作中各个动作的已执行次数可以通过下述表3来表示，表3中各个动作仅仅用于举例说明，并不构成对本申请实施例提供的多个动作的限定。此外，在一开始检测到安全威胁事件时，由于此时还没对安全威胁事件进行任何阻断策略，因此获取的各个动作的已执行次数均为0。表3在步骤401中，假设从三个维度来构建该安全威胁事件的事件状态，此时基于上述三个维度的信息，可以确定出该安全威胁事件的状态数据，为了后续便于说明，将该状态数据标记为s0。比如，获取的s0＝{eventid＝'78a78edc-4946-420e-bf61-6b5cc29811bc',eventlevel＝'4',eventclass＝'1504001',eventtype＝'7000',destport＝'53',srcport＝'34906',eventsubtype＝'7001',eventname＝'suspiciouscctraffic',eventcredibility＝'94',attackphase＝'4',srchostid＝'222.29.46.177',srchostip＝'222.29.46.177',datatype＝'6',networkprotocol＝'udp',threatip＝'222.29.46.177',threathost＝'222.29.46.177',domainname＝'bos.pgzs.com',applicationprotocol＝'dns',eventcategory＝'1504001',virustype＝'cnc',attackhostid＝”,attackhostip＝”,desthostid＝”,desthostip＝”,uri＝”,attackstatus＝'null',eventabstract＝”,virusfamily＝”,filetype＝”,filesize＝”,filename＝”,emailserverip＝”,emailserverdns＝”,emailsender＝”,emailreciver＝”,emailtitle＝”,pid＝”,proc_name＝”,proc_path＝”,proc_md5＝”,interdictionforsecom＝0,querymd5byip＝0,querymd5bydns＝0,queryforhips＝0,firewallblacklist＝0,submitsandbox＝0,killprocess＝0,deletefile＝0,deleteblockforsecom＝0,networkstate＝3}上述s0中斜体的字段对应安全威胁事件在多个属性上的特征值，非斜体字段中的前九个字段对应各个动作的已执行次数，非斜体字段中的最后一个字段对应网络的当前安全状态。上述各个字段的解释如下表4所示，在此就不再一一详细解释说明。其中，表4中的事件级别(eventlevel)可以用于表征表2中的该安全威胁事件的威胁等级。表4需要说明的是，上述s0是以从三个维度来构建该安全威胁事件的状态数据为例进行说明的，并不构成对本申请实施例提供的状态数据的限定。在应用本申请实施例提供的安全威胁事件处理方法时，可以根据预先设置的构建安全威胁事件的事件状态的方式，相应地确定状态数据。比如，通过安全威胁事件自身的状态和网络的当前安全状态这两个维度来构建事件状态，此时，状态数据s0就不包括上述各个动作的已执行次数，关于这种场景下的s0在此就不再详细说明了。步骤402：根据该状态数据和估值模型从多个动作中确定第一动作，第一动作为多个动作中估值最大的动作，每个动作的估值用于表征在状态数据指示的状态下执行相应动作的质量，每个动作关联一个网络设备。也即是，在本申请实施例中，相当于通过估值模型来确定各个动作的估值，进而确定出第一动作。基于图2中对估值模型的解释说明可知，当将状态数据和多个动作输入至估值模型时，估值模型便可根据预先训练的算法对状态数据和这多个动作进行处理，得到这多个动作中每个动作的估值。此时，便可从估值模型的输出结果中确定出上述第一动作。上述是以估值模型来确定各个动作的估值为例进行说明，本申请实施例并不限定确定各个动作的估值的实现方式，只需确定的动作估值能够指示在相应状态数据指示的状态下执行相应动作的质量即可。比如，还可以通过非深度学习得到的函数关系来确定各个动作的估值，在此就不再详细说明。此外，为了提高确定第一动作的效率，也可以先基于各个动作和该安全威胁事件的相关度从多个动作中筛选出一批动作，然后出筛选出的动作中选择估值最大的动作。因此，在一一种可能的实现方式中，步骤402中根据该状态数据从多个动作中确定第一动作的实现方式可以为：根据该状态数据确定多个动作中每个动作的相关度值，每个动作的相关度值用于指示在该状态数据指示的状态下相应动作与该安全威胁事件之间的相关度；从多个动作中筛选出相关度值大于相关度阈值的一个或多个动作；根据该状态数据和估值模型确定一个或多个动作中每个动作的估值；根据一个或多个动作中每个动作的估值，从一个或多个动作中确定第一动作。基于图2所示的安全响应闭环系统可知，安全响应闭环系统除了部署估值模型，还可以部署策略模型。此时，上述根据该状态数据确定多个动作中每个动作的相关度值的实现方式可以为：通过策略模型对该状态数据和该多个动作进行处理，得到多个动作中每个动作的相关度值。此外，上述根据该状态数据确定一个或多个动作中每个动作的估值仍然可以通过估值模型来确定。也即是，通过估值模型对该状态数据和这一个或多个动作进行处理，得到这一个或多个动作中每个动作的估值。也即是，在本申请实施例中，可以先通过策略模型确定一个动作范围，然后通过估值模型在该动作范围中确定一个估值最大的动作作为第一动作。上述相关度阈值可以为人工设置的，比如该相关度阈值可以为0.5、0.6等等。需要说明的是，上述实现方式是以先通过策略模型再通过估值模型进行处理为例进行说明。可选地，也可以先通过估值模型确定出这多个动作中每个动作的估值，然后通过策略模型确定出一个动作范围，最后再拿这个动作范围去各个动作中筛选，进而筛选出上述第一动作。比如，对于步骤401中的s0，假设确定出的第一动作为“根据ip查询进程md5值”。则可以通过下述步骤403执行该第一动作。此外，上述确定动作的相关度值除了可以通过策略模型来确定，也可以通过非深度学习得到的函数关系来确定。也即是，本申请实施例并不限定确定各个动作的相关度值的实现方式，只需确定的动作的相关度值能够指示该动作与该安全威胁事件的相关度即可。步骤403：控制与第一动作关联的网络设备执行第一动作。基于图2所示的系统可知，各个网络设备上配置有和关联的动作对应的接口。因此，在确定出第一动作之后，便可查找与该第一动作对应的第一接口，然后向该第一接口发送控制指令即可。当与第一动作关联的网络设通过第一接口接收到该控制指令时，由于第一接口与第一动作对应，因此，该网络设备可以直接执行第一动作。通过上述步骤401至步骤403便可实现对安全威胁事件的处理，无需预先编排剧本，从而节省了由于编排剧本所需的人力资源。其中，在本申请实施例中，对安全威胁事件的处理包括对安全威胁事件的取证、阻断以及消除等操作。需要说明的是，对于任一安全威胁事件，可能通过一个第一动作就能实现闭环，但是对于复杂的安全威胁事件，通过上述步骤401至步骤403可能无法成功实现闭环。此时，可以通过下述步骤404重复执行上述过程，直至该安全威胁事件成功闭环。步骤404：如果网络的当前安全状态没有达到参考安全状态，则返回执行确定待处理的安全威胁事件的状态数据的操作。在通过步骤403控制与第一动作关联的网络设备执行第一动作之后，需要查看处理该安全威胁事件之后网络是否达到参考安全状态。该参考安全状态可以是预先配置的状态，该参考安全状态是指一种用于判断是否需要继续对该安全威胁事件进行阻断的状态。上述关于网络的当前安全状态的说明已经在图2中构建状态数据的相关内容中进行了详细说明，在此不再赘述。此外，上述参考安全状态可以是指网络中不存在安全威胁的状态。此时，如果网络的当前安全状态达到参考安全状态，表明该安全威胁事件已经闭环。如果网络的当前安全状态没有达到参考安全状态，则表明该安全威胁事件没有闭环。可选地，参考安全状态也可以设置为其他状态，本申请实施例并不限定参考安全状态的具体状态。比如，还可以将参考安全状态设置为在该安全威胁事件发生之前网络的安全状态。如果网络的当前安全状态没有达到参考安全状态，则表明该安全威胁事件没有闭环或没有达到指定状态。此时则需返回执行上述步骤401至步骤403。需要说明的是，在上述循环执行步骤401至步骤403的过程中，可以为该循环过程设置循环终止条件。该循环终止条件可以为网络的当前安全状态达到上述参考安全状态。此时，在步骤404中，如果网络的当前安全状态没有达到参考安全状态，则返回执行确定待处理的安全威胁事件的状态数据的操作，直至网络的当前安全状态达到参考安全状态。可选地，该循环终止条件还可以为多个动作中各个动作的已执行次数均已达到一个阈值。此时，表明预先编排的多个动作均已执行，这种情况下，同样可以终止上述循环过程。可选地，该循环终止条件还可以为上述循环操作的次数，如果该循环操作的次数达到一个阈值，这种情况下，同样可以终止上述循环过程。可选地，在通过上述步骤401至步骤404循环执行了多次动作之后，如果该安全威胁事件仍然没有成功闭环，此时为了避免上述步骤401至步骤404陷入死循环从而导致计算机计算资源的浪费，可以通过人工方式来闭环该安全威胁事件。因此，预先配置一个次数阈值，此时，上述如果网络的当前安全状态没有达到参考安全状态，则返回执行确定待处理的安全威胁事件的状态数据的操作的实现方式可以为：获取已控制与第一动作关联的网络设备执行第一动作的次数；如果该次数没有达到次数阈值，且网络的当前安全状态没有达到参考安全状态，则返回执行确定安全威胁事件的状态数据的操作。相应地，如果该次数达到次数阈值，且网络的当前安全状态没有达到参考安全状态，则生成人工参与提示信息，人工参与提示信息用于提示从多个动作中选择一个动作，并触发与选择的动作关联的网络设备执行选择的动作；确定网络的当前安全状态，如果网络的当前安全状态没有达到参考安全状态，则返回执行生成人工参与提示信息的操作。也即是，在次数阈值允许的循环次数范围内，如果该安全威胁事件成功闭环，则无需人工参与。如果超出次数阈值允许的循环次数范围，且该安全威胁事件仍然没有成功闭环，此时则需人工参与。此外，在人工参与的过程中，如果需要循环通过人工参与的方式选择待执行的动作，此时同样可以设置循环终止条件。该循环终止条件可以为网络的当前安全状态达到参考安全状态，也可以为多个动作中各个动作的已执行次数均已达到一个阈值。在此不再详细说明。上述获取已控制与第一动作关联的网络设备执行第一动作的次数具体是指当前时间之前执行“控制与第一动作关联的网络设备执行第一动作”操作的次数。在一种可能的实现方式中，在每次执行一次“控制与第一动作关联的网络设备执行第一动作”的操作时，就更新一次该次数的值，比如，将该次数加1。如此，后续便可直接获取该次数的具体数值。需要说明的是，上述已控制与第一动作关联的网络设备执行第一动作的次数也可以称为处理安全威胁事件的循环次数。此外，上述次数阈值可以根据多个动作的数量来确定。在一种可能的实现方式中，该次数阈值可以设置为多个动作的数量的0.8倍。通过上述步骤401至步骤404，无需预先编排剧本，便可成功实现安全威胁事件的闭环。此外，为了能够及时对估值模型进行更新，在每次通过上述步骤401至步骤404处理安全事件时，可以根据每次执行的第一动作前后的状态数据对应生成一个四元组，并将该四元组添加到训练集中，以用于优化该估值模型。比如，对于步骤401中基于三个维度的信息确定的状态数据s0，假设通过步骤402确定出的第一动作为“根据ip查询进程md5值”。在通过步骤403执行该第一动作之后，便可更新该状态数据，得到状态数据s1，该状态数据s1表示如下：s1＝{eventid＝'78a78edc-4946-420e-bf61-6b5cc29811bc',eventlevel＝'4',eventclass＝'1504001',eventtype＝'7000',destport＝'53',srcport＝'34906',eventsubtype＝'7001',eventname＝'suspiciouscctraffic',eventcredibility＝'94',attackphase＝'4',srchostid＝'222.29.46.177',srchostip＝'222.29.46.177',datatype＝'6',networkprotocol＝'udp',threatip＝'222.29.46.177',threathost＝'222.29.46.177',domainname＝'bos.pgzs.com',applicationprotocol＝'dns',eventcategory＝'1504001',virustype＝'cnc',attackhostid＝”,attackhostip＝”,desthostid＝”,desthostip＝”,uri＝”,attackstatus＝'null',eventabstract＝”,virusfamily＝”,filetype＝”,filesize＝”,filename＝”,emailserverip＝”,emailserverdns＝”,emailsender＝”,emailreciver＝”,emailtitle＝”,pid＝’9231’,proc_name＝’xxx_service’,proc_path＝’/opt/xxx_service/start.sh’,proc_md5＝’xxx’,interdictionforsecom＝0,querymd5byip＝1,querymd5bydns＝0,queryforhips＝0,firewallblacklist＝0,submitsandbox＝0,killprocess＝0,deletefile＝0,deleteblockforsecom＝0,networkstate＝1}和步骤401中的状态数据s0对比，显然第一动作“querymd5byip”对应的已执行次数由0更新为1，网络的当前安全状态由3变为1。其中，网络的安全状态对应数值预先已经定义有具体的网络状态，本申请实施例对此不做具体限定。在通过步骤404控制与第一动作关联的网络设备执行第一动作之后，便可获取该网络设备的响应，根据响应便可确定出对应回报值，进而得到与第一动作对应的四元组。此外，在通过本申请实施例提供的方法阻断安全威胁事件时，还可以根据在处理安全威胁事件过程中执行的动作，生成与安全威胁事件对应的剧本。该剧本可以作为传统的soar系统的剧本，以为soar系统提供更多的剧本数据。上述图4所示的实施例中的各种实现方式还可以参考在图5所示的流程示意图。如图5所示，对于任一安全威胁事件，该安全威胁事件的处理过程可以通过以下几个过程来实现：1、网络安全智能系统或第三方事件源上报安全威胁事件。2、构建该安全威胁事件的事件状态。3、将构建的事件状态的状态数据输入至策略模型。4、策略模型输出该安全威胁事件所需的动作范围，也即是，相关度值较大的动作。5、将策略模型输出的动作范围和构建的事件状态的状态数据输入至估值模型，估值模型输出动作范围内各个动作的估值，然后再基于各个动作的估值确定出估值最大的动作，也即是第一动作，控制与第一动作关联的挖网络设备执行第一动作。6和7、根据动作的执行结果重新更新事件状态，基于事件状态中的网络安全状态循环上述3至6这几个步骤，直至该安全威胁事件自动闭环或通过人工方式闭环。8、在该安全威胁事件成功闭环后，可以生成剧本，并将该剧本输入至soar系统中。另外，如图5所示，策略模型和估值模型的训练集可以通过传统的soar系统来获取，也可以是通过本申请实施例提供的方法阻断安全威胁事件过程中生成的四元组，对此不做具体限定。在本申请实施例中，根据安全威胁事件的状态数据和估值模型，便可直接确定用于阻断该安全威胁事件所需的动作。无需预先编排针对各个事件类型的剧本，从而节省了编排剧本所需的人力资源。对于新的类型的安全威胁事件，只需确定出该安全威胁事件的状态数据，同样可以基于估值模型直接确定用于阻断该安全威胁事件所需的动作，提高了针对这类安全威胁事件的处理速度。图6是本申请实施例提供的一种安全威胁事件处理装置，如图6所示，该装置600包括：第一确定模块601，用于确定待处理的安全威胁事件的状态数据，该状态数据包括安全威胁事件的状态。具体实现方式可以参考图4实施例中的步骤401。第二确定模块602，用于根据状态数据和估值模型从多个动作中确定第一动作，第一动作为多个动作中估值最大的动作，每个动作的估值用于表征在状态数据指示的状态下执行相应动作的质量，每个动作关联一个网络设备。具体实现方式可以参考图4实施例中的步骤402。控制模块603，用于控制与第一动作关联的网络设备执行第一动作。具体实现方式可以参考图4实施例中的步骤403。可选地，第一确定模块601，还用于如果网络的当前安全状态没有达到参考安全状态，则返回执行确定待处理的安全威胁事件的状态数据的操作。具体实现方式可以参考图4实施例中的步骤404。可选地，上述参考安全状态是指网络中不存在安全威胁的状态。可选地，该安全威胁事件的状态包括安全威胁事件在多个属性中每个属性上的特征值.可选地，该状态数据还可以包括多个动作中每个动作的已执行次数，和/或，该安全威胁事件所处的网络的当前安全状态。可选地，第二确定模块，用于：根据该状态数据确定多个动作中每个动作的相关度值，每个动作的相关度值是指在状态数据指示的状态下相应动作与该安全威胁事件之间的相关度；从多个动作中筛选出相关度值大于相关度阈值的一个或多个动作；根据该状态数据和估值模型确定一个或多个动作中每个动作的估值；根据一个或多个动作中每个动作的估值，从一个或多个动作中确定第一动作。可选地，第一确定模块，还用于：获取已控制与第一动作关联的网络设备执行第一动作的次数；如果该次数没有达到次数阈值，且网络的当前安全状态没有达到参考安全状态，则返回执行确定安全威胁事件的状态数据的操作。可选地，该装置还包括：第一生成模块，用于如果该次数达到次数阈值，且网络的当前安全状态没有达到参考安全状态，则生成人工参与提示信息，该人工参与提示信息用于提示从多个动作中选择一个动作，并触发与选择的动作关联的网络设备执行选择的动作；第一生成模块，还用于确定网络的当前安全状态，如果网络的当前安全状态没有达到参考安全状态，则返回执行生成人工参与提示信息的操作。可选地，该装置还包括：第一获取模块，用于获取多个四元组，每个四元组包括第一状态数据、历史动作、第二状态数据和历史回报值，第一状态数据和第二状态数据对应同一个历史安全威胁事件，历史动作用于指示在第一状态数据指示的状态下对历史安全威胁事件执行的动作，第二状态数据用于指示执行历史动作之后的状态，历史回报值用于指示与历史动作关联的网络设备执行历史动作后的响应对网络的安全提升度；第一训练模块，用于根据多个四元组对第一深度学习网络模型进行训练，得到估值模型。可选地，第一获取模块用于：获取多个第一历史安全威胁事件中每个第一历史安全威胁事件对应的剧本；根据每个第一历史安全威胁事件对应的剧本，确定每个第一历史安全威胁事件对应的一个或多个四元组。可选地，上述第二确定模块用于：通过策略模型对该状态数据和多个动作进行处理，得到这多个动作中每个动作的相关度值。可选地，该装置还包括：第二获取模块，用于获取多个第二历史安全威胁事件，以及与多个第二历史安全威胁事件一一对应的多个动作序列，每个第二历史安全威胁事件对应的动作序列包括在处理相应第二历史安全威胁事件过程中执行的一个或多个动作；第二训练模块，用于根据多个第二历史安全威胁事件，以及与第二历史安全威胁事件一一对应的多个动作序列，对第二深度学习网络模型进行训练，得到策略模型。可选地，该装置还包括：第二生成模块，用于根据在处理安全威胁事件过程中执行的动作，生成与安全威胁事件对应的剧本。在本申请实施例中，根据安全威胁事件的状态数据和估值模型，便可直接确定用于阻断该安全威胁事件所需的动作。无需预先编排针对各个事件类型的剧本，从而节省了编排剧本所需的人力资源。对于新的类型的安全威胁事件，只需确定出该安全威胁事件的状态数据，同样可以基于估值模型直接确定用于阻断该安全威胁事件所需的动作，提高了针对这类安全威胁事件的处理速度。需要说明的是：上述实施例提供的安全威胁事件处理装置在处理安全威胁事件时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的安全威胁事件处理装置与安全威胁事件处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。图7是本发明实施例提供的一种计算机设备的结构示意图。图2中的任一系统可以通过图7所示的计算机设备来实现。参见图7，该计算机设备包括至少一个处理器701，通信总线702、存储器703以及至少一个通信接口704。处理器701可以是一个通用中央处理器(centralprocessingunit，cpu)、特定应用集成电路(application-specificintegratedcircuit，asic)或一个或多个用于控制本申请方案程序执行的集成电路。通信总线702可包括一通路，在上述组件之间传送信息。存储器703可以是只读存储器(read-onlymemory，rom)或可存储静态信息和指令的其它类型的静态存储设备，随机存取存储器(randomaccessmemory，ram)或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasableprogrammableread-onlymemory，eeprom)、只读光盘(compactdiscread-onlymemory，cd-rom)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器703可以是独立存在，通过通信总线702与处理器701相连接。存储器703也可以和处理器701集成在一起。其中，存储器703用于存储执行本申请方案的程序代码，并由处理器701来控制执行。处理器701用于执行存储器703中存储的程序代码。程序代码中可以包括一个或多个软件模块。图2所示的安全威胁事件处理系统中的任一系统或设备均可以通过处理器701以及存储器703中的程序代码中的一个或多个软件模块，来确定用于开发应用的数据。通信接口704，使用任何收发器一类的装置，用于与其它设备或通信网络通信，如以太网，无线接入网(radioaccessnetwork，ran)，无线局域网(wirelesslocalareanetworks，wlan)等。在具体实现中，作为一种实施例，计算机设备可以包括多个处理器，例如图7中所示的处理器701和处理器705。这些处理器中的每一个可以是一个单核(single-cpu)处理器，也可以是一个多核(multi-cpu)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。上述的计算机设备可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中，计算机设备可以是台式机、便携式电脑、网络服务器、掌上电脑(personaldigitalassistant，pda)、移动手机、平板电脑、无线终端设备、通信设备或者嵌入式设备。本申请实施例不限定计算机设备的类型。在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如：同轴电缆、光纤、数据用户线(digitalsubscriberline，dsl))或无线(例如：红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如：软盘、硬盘、磁带)、光介质(例如：数字通用光盘(digitalversatiledisc，dvd))、或者半导体介质(例如：固态硬盘(solidstatedisk，ssd))等。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邢超;王国路
技术所有人：华为技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。