一种风险识别方法和装置与流程

文档序号：16855853发布日期：2019-02-12 23:17阅读：134来源：国知局

本发明涉及计算机
技术领域：
，特别涉及一种风险识别方法和装置。
背景技术：
：随着业务的快速发展，应用系统的复杂性逐渐提升。与此同时，应用系统面临的资损、舆情等风险逐渐增强。如何识别这些风险，进而降低这些风险的影响，受到越来越多的关注。目前，可以通过对采集的应用系统的参数的值进行建模，进而识别应用系统存在的风险。但是，在实际应用场景中，采集的参数可能根据业务的需要发生变更。而如何降低参数的变更对风险识别结果的准确性的影响，成为当前亟待解决的问题。技术实现要素：鉴于此，本发明实施例提供了一种风险识别方法和装置，能够保证风险识别结果的准确性。第一方面，本发明实施例提供了一种风险识别方法，包括：根据采集样本训练预设的自编码器，得到自编码器模型；根据待识别样本和所述采集样本，确定共有参数；其中，所述共有参数分别存在于所述待识别样本和所述采集样本中；根据所述共有参数和所述自编码器模型，确定解码输出样本；根据所述待识别样本和所述解码输出样本，确定所述待识别样本是否存在风险。优选地，所述自编码器模型中包括：编码器和解码器；所述根据所述共有参数和所述自编码器模型，确定解码输出样本，包括：根据所述共有参数，确定编码输入样本；根据所述编码输入样本和所述编码器，确定隐空间样本；根据所述隐空间样本和所述解码器，确定所述解码输出样本。优选地，所述根据所述共有参数，确定编码输入样本，包括：根据所述共有参数和所述采集样本，确定差异参数；其中，所述采集样本中包括：所述共有参数和所述差异参数；根据所述共有参数和所述差异参数，确定所述编码输入样本；其中，所述编码输入样本中共有参数的值为所述待识别样本中共有参数的值，所述编码输入样本中差异参数的值为零。优选地，所述根据所述待识别样本和所述解码输出样本，确定所述待识别样本是否存在风险，包括：确定所述待识别样本与所述解码输出样本的相似度；根据所述待识别样本与所述解码输出样本的相似度，确定所述待识别样本是否存在风险。优选地，所述确定所述待识别样本与所述解码输出样本的相似度，包括：根据下述相似度公式，计算所述待识别样本与所述解码输出样本的相似度；所述相似度公式，包括：其中，d用于表征所述待识别样本与所述解码输出样本的相似度，xi用于表征所述待识别样本中第i个参数的值，x′i用于表征所述解码输出样本中第i个参数的值，n用于表征所述待识别样本中参数的个数。第二方面，本发明实施例提供了一种风险识别装置，包括：训练单元，用于根据采集样本训练预设的自编码器，得到自编码器模型；第一确定单元，用于根据待识别样本和所述采集样本，确定共有参数；其中，所述共有参数分别存在于所述待识别样本和所述采集样本中；第二确定单元，用于根据所述共有参数和所述自编码器模型，确定解码输出样本；识别单元，用于根据所述待识别样本和所述解码输出样本，确定所述待识别样本是否存在风险。优选地，所述自编码器模型中包括：编码器和解码器；所述第二确定单元，用于根据所述共有参数，确定编码输入样本；根据所述编码输入样本和所述编码器，确定隐空间样本；根据所述隐空间样本和所述解码器，确定所述解码输出样本。优选地，所述第二确定单元，用于根据所述共有参数和所述采集样本，确定差异参数；其中，所述采集样本中包括：所述共有参数和所述差异参数；根据所述共有参数和所述差异参数，确定所述编码输入样本；其中，所述编码输入样本中共有参数的值为所述待识别样本中共有参数的值，所述编码输入样本中差异参数的值为零。优选地，所述识别单元，用于确定所述待识别样本与所述解码输出样本的相似度；根据所述待识别样本与所述解码输出样本的相似度，确定所述待识别样本是否存在风险。优选地，所述识别单元，用于根据下述相似度公式，计算所述待识别样本与所述解码输出样本的相似度；所述相似度公式，包括：其中，d用于表征所述待识别样本与所述解码输出样本的相似度，xi用于表征所述待识别样本中第i个参数的值，x′i用于表征所述解码输出样本中第i个参数的值，n用于表征所述待识别样本中参数的个数。本发明实施例采用的上述至少一个技术方案能够达到以下有益效果：该方法能够保证参数发生变更后风险识别结果的准确性和可靠性。同时，当参数发生变更时，该方法无需重新训练模型，能够提高风险识别的效率。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1是本发明一个实施例提供的一种风险识别方法的流程图；图2是本发明一个实施例提供的一种自编码器模型的结构示意图；图3是本发明另一个实施例提供的一种风险识别方法的流程图；图4是本发明一个实施例提供的一种风险识别方法装置的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。在实际应用场景中，监控系统可以按需采集应用系统中指定参数的值，从而构建异常检测的模型对应用系统的状态进行监控，对异常状态进行报警。但是，指定参数可能根据业务需求的变化发生变更，例如，增加参数、删除参数和修改参数等。此时，一种应对方法是直接忽略变更的参数，仍然使用变更前的参数进行建模，在此情况下，利用该模型进行风险识别的准确性降低(通常平均准确率影响在5～10％左右)。另一种应对方法是根据变更后的参数重新累计数据进行建模，但是该方法需要花费较长的时间，导致风险识别的效率较低。鉴于此，本发明实施例提供了一种风险识别方法，如图1所示，该方法可以包括以下步骤：步骤101：根据采集样本训练预设的自编码器，得到自编码器模型。其中，预设的自编码器可以为现有的自编码器中的任意一种。如图2所示，是一种自编码器模型，由5层神经网络构成，其包括编码器(encoder)和解码器(decoder)两部分。encoder负责把采集样本x投影到隐空间，得到隐空间样本z，decoder负责把隐空间样本z解码为解码输出样本x′。自编码器模型将x和x′同时设置为一个相同的向量，那么学习得到的z就是x在隐空间中的表达。x和x′可以包括如表1所示的参数及参数值。自编码器模型的目的就是要通过input和output设置为相同，确定隐空间样本z。表1参数名称abcdefg参数值0.10.20.30.40.50.60.7当然，自编码器模型可以由其他层数的神经网络构成，例如，3层、7层神经网络等。步骤102：根据待识别样本和采集样本，确定共有参数；其中，共有参数分别存在于待识别样本和采集样本中。共有参数指的是同时存在于待识别样本和采集样本中的参数，例如，待识别样本中的参数包括：a、b、c、d，采集样本中的参数包括：a、b、e、f、g，则共有参数为a和b。步骤103：根据共有参数和自编码器模型，确定解码输出样本。自编码器模型中包括：编码器和解码器；步骤103具体包括：a1：根据共有参数，确定编码输入样本。a1具体包括：a11：根据共有参数和采集样本，确定差异参数；其中，采集样本中包括：共有参数和差异参数。差异参数指的是采集样本中除共有参数外的参数。例如，采集样本中包括参数a、b、c，共有参数为a、b，则差异参数为c。a12：根据共有参数和差异参数，确定编码输入样本；其中，编码输入样本中共有参数的值为待识别样本中共有参数的值，编码输入样本中差异参数的值为零。例如，采集样本中的参数及其取值如表2所示，待识别样本中的参数如表3所示。根据表2和表3可以确定，共有参数为a和b，差异参数为c，则编码输入样本为(a，b，0)。表2参数名称abc参数值abc表3参数名称abde参数值abde需要说明的是，在实际应用场景中，还可以采用其他的方法确定编码输入样本，例如，利用共有参数和待识别样本，确定编码输入样本。本发明实施例仅提供一种较佳的实施例。a2：根据编码输入样本和编码器，确定隐空间样本。将编码输入样本输入训练得到的编码器，得到编码输入样本在隐空间中的表达，即隐空间样本。a3：根据隐空间样本和解码器，确定解码输出样本。将隐空间样本输入训练得到的解码器，得到解码输出样本。步骤104：根据待识别样本和解码输出样本，确定待识别样本是否存在风险。在实际应用场景中，可以通过待识别样本和解码输出样本之间的相似度确定待识别样本是否存在风险。步骤104具体包括：b1：确定待识别样本与解码输出样本的相似度。b1具体包括：根据下述相似度公式，计算待识别样本与解码输出样本的相似度；相似度公式，包括：其中，d用于表征待识别样本与解码输出样本的相似度，xi用于表征待识别样本中第i个参数的值，x′i用于表征解码输出样本中第i个参数的值，n用于表征待识别样本中参数的个数。需要说明的是，还可以采用其他的方法计算待识别样本与解码输出样本的相似度，例如，曼哈顿距离、切比雪夫距离等。b2：根据待识别样本与解码输出样本的相似度，确定待识别样本是否存在风险。在实际应用场景中，可以根据待识别样本与解码输出样本的相似度与预设的风险范围之间的关系，确定待识别样本是否存在风险。该方法能够保证参数发生变更后风险识别结果的准确性和可靠性。同时，当参数发生变更时，该方法无需重新训练模型，能够提高风险识别的效率。如图3所示，本发明实施例提供了一种风险识别方法，具体包括以下步骤：步骤301：根据采集样本训练预设的自编码器，得到自编码器模型，其中，自编码器模型中包括：编码器和解码器。步骤302：根据待识别样本和采集样本，确定共有参数；其中，共有参数分别存在于待识别样本和采集样本中。步骤303：根据共有参数和采集样本，确定差异参数；其中，采集样本中包括：共有参数和差异参数。步骤304：根据共有参数和差异参数，确定编码输入样本；其中，编码输入样本中共有参数的值为待识别样本中共有参数的值，编码输入样本中差异参数的值为零。步骤305：根据编码输入样本和编码器，确定隐空间样本。步骤306：根据隐空间样本和解码器，确定解码输出样本。步骤307：根据相似度公式，计算待识别样本与解码输出样本的相似度。其中，相似度公式，包括：其中，d用于表征待识别样本与解码输出样本的相似度，xi用于表征待识别样本中第i个参数的值，x′i用于表征解码输出样本中第i个参数的值，n用于表征待识别样本中参数的个数。步骤308：根据待识别样本与解码输出样本的相似度，确定待识别样本是否存在风险。该方法通过自编码器模型，将样本映射到一个隐空间中，降低参数的变更对模型的性能产生的影响。该方法可以在参数发生变更的时候，将原来7天的模型稳定时效性提升至1天，同时保证参数变更对风险识别准确率影响不超过5％。如图4所示，本发明实施例提供了一种风险识别装置，包括：训练单元401，用于根据采集样本训练预设的自编码器，得到自编码器模型；第一确定单元402，用于根据待识别样本和采集样本，确定共有参数；其中，共有参数分别存在于待识别样本和采集样本中；第二确定单元403，用于根据共有参数和自编码器模型，确定解码输出样本；识别单元404，用于根据待识别样本和解码输出样本，确定待识别样本是否存在风险。在本发明的一个实施例中，自编码器模型中包括：编码器和解码器；第二确定单元403，用于根据共有参数，确定编码输入样本；根据编码输入样本和编码器，确定隐空间样本；根据隐空间样本和解码器，确定解码输出样本。在本发明的一个实施例中，第二确定单元403，用于根据共有参数和采集样本，确定差异参数；其中，采集样本中包括：共有参数和差异参数；根据共有参数和差异参数，确定编码输入样本；其中，编码输入样本中共有参数的值为待识别样本中共有参数的值，编码输入样本中差异参数的值为零。在本发明的一个实施例中，识别单元404，用于确定待识别样本与解码输出样本的相似度；根据待识别样本与解码输出样本的相似度，确定待识别样本是否存在风险。在本发明的一个实施例中，识别单元404，用于根据下述相似度公式，计算待识别样本与解码输出样本的相似度；相似度公式，包括：其中，d用于表征待识别样本与解码输出样本的相似度，xi用于表征待识别样本中第i个参数的值，x′i用于表征解码输出样本中第i个参数的值，n用于表征待识别样本中参数的个数。本发明实施例提供了一种视频风险识别设备，包括：处理器和存储器；存储器用于存储执行指令，处理器用于执行存储器存储的执行指令以实现上述任一实施例的方法。在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(programmablelogicdevice，pld)(例如现场可编程门阵列(fieldprogrammablegatearray，fpga))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(hardwaredescriptionlanguage，hdl)，而hdl也并非仅有一种，而是有许多种，如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等，目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)与verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit，asic)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周扬
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：一种表面仿木纹铝合金建材的生产工艺的制作方法
上一篇：人源化皮肤及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。