一种用于生成审计结果的方法、设备、介质及程序产品与流程

文档序号：33506683发布日期：2023-03-18 02:13阅读：111来源：国知局

一种用于生成审计结果的方法、设备、介质及程序产品
1.本案要求cn 2022112960285(申请日2022-10-21)的优先权
技术领域
2.本技术涉及通信领域，尤其涉及一种用于生成审计结果的技术。

背景技术：

3.在现有技术中，业界的方案是通过流量镜像的方式进行风险行为挖掘审计，但是存在可拓展难、面对大流量场景解析性能瓶颈、较难获取东西向流量的问题，造成丢包率高、成本高、数据不全的特点。

技术实现要素：

4.本技术的一个目的是提供一种用于生成审计结果的方法、设备、介质及程序产品。
5.根据本技术的一个方面，提供了一种用于生成审计结果的方法，该方法包括：
6.通过部署在数据库上的插件采集所述数据库的日志数据，根据结构化解析规则，对所述日志数据进行解析得到可识别数据；
7.根据识别规则，识别所述可识别数据是否为特定数据类型，若是，将所述可识别数据推送至审计模块，以使所述审计模块根据所述可识别数据生成对应的审计结果。
8.根据本技术的一个方面，提供了一种用于生成审计结果的计算机设备，该设备包括：
9.一一模块，用于通过部署在数据库上的插件采集所述数据库的日志数据，根据结构化解析规则，对所述日志数据进行解析得到可识别数据；
10.一二模块，用于根据识别规则，识别所述可识别数据是否为特定数据类型，若是，将所述可识别数据推送至审计模块，以使所述审计模块根据所述可识别数据生成对应的审计结果。
11.根据本技术的一个方面，提供了一种用于生成审计结果的计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，其中，所述
12.处理器执行所述计算机程序以实现如上所述任一方法的操作。
13.根据本技术的一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如上所述任一方法的操作。
14.根据本技术的一个方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述任一方法的步骤。
15.与现有技术相比，本技术通过部署在数据库上的插件采集所述数据库的日志数据，根据结构化解析规则，对所述日志数据进行解析得到可识别数据，根据识别规则，识别所述可识别数据是否为特定数据类型，若是，将所述可识别数据推送至审计模块，以使所述审计模块根据所述可识别数据生成对应的审计结果，从而通过在数据库上部署的插件以半侵入式方式获取数据库的日志数据，达到高效解析，横向拓展能力强及数据维度全的特点。
附图说明
16.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本技术的其它特征、目的和优点将会变得更明显：
17.图1示出根据本技术一个实施例的一种用于生成审计结果的方法流程图；
18.图2示出根据本技术一个实施例的一种用于生成审计结果的方法流程图；
19.图3示出根据本技术一个实施例的一种用于生成审计结果的计算机设备结构图；
20.图4示出可被用于实施本技术中所述的各个实施例的示例性系统。
21.附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
22.下面结合附图对本技术作进一步详细描述。
23.在本技术一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如，中央处理器(central processing unit，cpu))、输入/输出接口、网络接口和内存。
24.内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(random access memory，ram)和/或非易失性内存等形式，如只读存储器(read only memory，rom)或闪存(flash memory)。内存是计算机可读介质的示例。
25.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(phase-change memory，pcm)、可编程随机存取存储器(programmable random access memory，pram)、静态随机存取存储器(static random-access memory，sram)、动态随机存取存储器(dynamic random access memory，dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(electrically-erasable programmable read-only memory，eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(compact disc read-only memory，cd-rom)、数字多功能光盘(digital versatile disc,dvd)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
26.本技术所指设备包括但不限于终端、网络设备、或终端与网络设备通过网络相集成所构成的设备。所述终端包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品，例如智能手机、平板电脑等，所述移动电子产品可以采用任意操作系统，如android操作系统、ios操作系统等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit，asic)、可编程逻辑器件(programmable logic device，pld)、现场可编程门阵列(field programmable gate array，fpga)、数字信号处理器(digital signal processor，dsp)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(cloud computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、vpn网络、无线自组织网络
(ad hoc网络)等。优选地，所述设备还可以是运行于所述终端、网络设备、或终端与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。
27.当然，本领域技术人员应能理解上述设备仅为举例，其他现有的或今后可能出现的设备如可适用于本技术，也应包含在本技术保护范围以内，并在此以引用方式包含于此。
28.在本技术的描述中，“多个”的含义是两个或者更多，除非另有明确具体的限定。
29.图1示出根据本技术一个实施例的一种用于生成审计结果的方法流程图，该方法包括步骤s11和步骤s12。在步骤s11中，计算机设备通过部署在数据库上的插件采集所述数据库的日志数据，根据结构化解析规则，对所述日志数据进行解析得到可识别数据；在步骤s12中，计算机设备根据识别规则，识别所述可识别数据是否为特定数据类型，若是，将所述可识别数据推送至审计模块，以使所述审计模块根据所述可识别数据生成对应的审计结果。
30.在步骤s11中，计算机设备通过部署在数据库上的插件采集所述数据库的日志数据，根据结构化解析规则，对所述日志数据进行解析得到可识别数据。在一些实施例中，可以通过在数据库上部署(或者安装)插件来对数据库的日志数据进行自动采集，该插件属于半侵入式的软件应用，该插件与网络安全行业基于流量解析形式，抓网卡流量包的形式不同，随着用户网络规模和流量增加，用户需要不断提升硬件部署，已达到解析大流量的要求，造成用户成本上升，而本技术中通过该插件直接进行数据库日志数据的获取，成本低，便捷性好，同时可扩展性强，，具备更精准的效果。在一些实施例中，日志数据(审计日志)是指数据库的操作行为日志数据，日志数据中包括但不限于针对数据库的某个操作行为的行为时间、行为内容(例如，在数据库中读取、插入、修改、删除的存储数据)、行为结果(例如，是否成功)、行为对象(即数据库中的至少一个存储数据)等。在一些实施例中，结构化解析规则，用于定义如何对原始日志数据进行解析，以及如何根据解析结果生成结构化的可用于识别的数据类型(可识别数据)，结构化解析规则包括但不限于json解析规则、正则解析规则、url解析规则、xml解析规则、提取关键字解析规则、syslog_pri解析规则、keyvalue解析规则、数值转换解析规则、geo解析规则、时间戳解析规则、agent解析规则等。在一些实施例中，结构化的可识别数据所采用的结构可以是json结构即key-value键值对结构。在一些实施例中，用户可以在多种默认结构化解析规则中选择其中一种作为该数据库对应的结构化解析规则，或者，也可以先判断原始日志数据的结构类型，然后自动将多种默认结构化解析规则中适合该结构类型的默认结构化解析规则作为该数据库对应的结构化解析规则。
31.在步骤s12中，计算机设备根据识别规则，识别所述可识别数据是否为特定数据类型，若是，将所述可识别数据推送至审计模块，以使所述审计模块根据所述可识别数据生成对应的审计结果。在一些实施例中，识别规则用于定义如何识别结构化数据是否为预定的特定数据类型(数据库操作行为的操作类型)，若是，则说明该结构化数据可能存在安全隐患，需要将其推送至审计模块进行风险分析计算，否则，则说明该结构化数据不存在安全隐患，不需要将其推送至审计模块进行风险分析计算，可以丢弃该可识别数据。在一些实施例中，该预定的特定数据类型包括但不限于create类型、drop类型、truncate类型、insert类型、select类型、update类型、delete类型、grant类型。在一些实施例中，用户可以手动配置该数据库对应的识别规则，或者，还可以在多种默认识别规则中选择其中一种作为该数据库对应的识别规则。在一些实施例中，审计模块可以是位于该插件内部的一个内置模块，或
者，审计模块还可以位于该插件外部的一个独立模块，其中，该审计模块可以与该插件位于同一个设备上，或者，还可以位于两个不同的设备上。在一些实施例中，审计模块对接收到的可识别数据进行存储、风险分析、风险计算，将可识别数据变为一条条审计结果，支持审计结果以syslog、邮箱mail、短信等形式外发，并支持审计结果以excel、word、pdf等形式导出。本技术通过在数据库上部署的插件以半侵入式方式获取数据库的日志数据，达到高效解析，横向拓展能力强及数据维度全的特点。
32.在一些实施例中，所述方法还包括：计算机设备根据所述数据库的环境信息，在所述数据库上自动部署所述插件。在一些实施例中，数据库的环境信息包括但不限于数据库的网络环境、数据库的自身情况(例如，数据库类型、版本等)。在一些实施例中，可以通过脚本自动获取数据库的环境信息，并在该脚本中实现该插件的部署逻辑，然后在本地终端上执行该脚本来实现在数据库上自动部署该插件。
33.在一些实施例中，所述方法还包括：若所述数据库中的存储数据满足预定的敏感条件，使得所述插件自动开始采集所述日志数据。在一些实施例中，用户可以手动使得该插件开始采集该数据库的日志数据，或者，该插件还可以自动开始采集该数据库的日志数据，或者，需要在该数据库中的存储数据满足预定敏感条件的情况下，该插件才会自动开始采集该数据库的日志数据，该预定敏感条件可以是该数据库中的存储数据的数量大于或等于预定的数量阈值，或者，还可以是该数据库中包括至少一个预定类型的存储数据，或者，还可以是该数据库中包括至少一个包含预定关键词的存储数据。
34.在一些实施例中，所述若所述数据库中的存储数据满足预定的敏感条件，使得所述插件自动开始采集所述日志数据，包括：获取所述数据库中的存储数据对应的敏感级别信息；若根据所述敏感级别信息确定所述存储数据满足预定的敏感条件，使得所述插件自动开始采集所述日志数据。在一些实施例中，可以是先确定数据库中的一个或多个存储数据对应的敏感级别，或者，还可以是先按照预定的采样率或采样间隔对数据库中的存储数据进行抽样采集，获得至少一个抽样数据，再确定该至少一个抽样数据对应的敏感级别，若该一个或多个存储数据对应的敏感级别或者该至少一个抽样数据对应的敏感级别中的平均敏感级别或者最高敏感级别大于或等于预定的级别阈值，则该插件会自动开始采集该数据库的日志数据。在一些实施例中，可以是根据预定的分类分级规则来对该存储数据或抽样数据进行识别，确定其对应的敏感级别，分类分级规则中包括多个预设的敏感分类(例如，个人身份信息类、个人财产信息类)，分类分级规则用于先识别存储数据或抽样数据中是否包括某个或某几个敏感分类，具体的识别方式包括但不限于正则表达式识别、关键词识别、模型特征识别等，再确定该存储数据或抽样数据在该敏感分类下对应的敏感级别，敏感级别可以是用数值形式来表征，例如，数值越大，则说明对应的存储数据或抽样数据越敏感或越不安全，或者，敏感级别还可以用文本形式来表征，例如，“轻度敏感”、“中度敏感”、“重度敏感”等，若根据分类分级规则识别到存储数据或抽样数据中包括某个或某几个敏感分类，则将其作为该存储数据或抽样数据对应的敏感分类，然后继续根据分类分级规则确定该存储数据或抽样数据在该敏感分类下对应的敏感级别。在一些实施例中，可以是一个敏感分类仅对应一个敏感级别，若识别到数据中包括某个敏感分类，则直接将该敏感分类对应的敏感级别作为该数据在该敏感分类下对应的敏感级别，或者，还可以是一个敏感分类对应多个不同的敏感级别，则此时需要具体确定该数据在该敏感分类下对应的敏感级
别，具体的确定方式包括但不限于语义分析方式、关键词提取方式，模型特征方式等，例如，通过语义分析的方式来确定该数据在该敏感分类下对应的敏感级别，或者，该敏感分类预定设定了若干个关键词与敏感级别之间的映射关系，根据该数据中所包括的关键词所映射的敏感级别，确定该数据在该敏感分类下对应的敏感级别，或者，将该数据输入已训练的该敏感分类对应的敏感级别模型，得到该敏感级别模型输出的该数据在该敏感分类下对应的敏感级别。例如，分类分级规则可以是按照个人信息保护进行分类的规则，其包括个人身份信息、个人财产信息等多个敏感分类，又例如，分类分级规则还可以是按照电信运营商行业进行分类的规则，其包括用户基本资料、位置数据、消费信息等多个敏感分类。
35.在一些实施例中，所述方法还包括：计算机设备对所述日志数据进行格式分析，确定所述日志数据对应的结构化解析规则。在一些实施例中，可以是先对日志数据进行格式分析，得到该日志数据的格式特征，然后再在多种结构化解析规则中自动确定符合该格式特征的结构化解析规则。在一些实施例中，还可以是先对日志数据进行格式分析，得到该日志数据的格式关键词信息，然后再在多种结构化解析规则中自动确定与该格式关键词信息相匹配的结构化解析规则。
36.在一些实施例中，所述对所述日志数据进行格式分析，确定所述日志数据对应的结构化解析规则，包括：将所述日志数据与一个或多个结构化解析规则对应的格式模板信息进行格式匹配；根据匹配结果，在所述一个或多个结构化解析规则中确定所述日志数据对应的结构化解析规则。在一些实施例中，每个结构化解析规则存在对应的格式模板信息，格式模板信息用于表征该结构化解析规则对于其所支持解析的原始数据的格式要求，可以将该日志数据分别与每个结构化解析规则的格式模板信息进行格式匹配，将匹配度大于或等于预定的匹配度阈值且匹配度最高的格式模板信息所对应的结构化解析规则作为该日志数据对应的结构化解析规则。
37.在一些实施例中，所述识别规则包括一个或多个预定字段名称；其中，所述根据识别规则，识别所述可识别数据是否为特定数据类型，包括：若所述可识别数据中包括至少一个预定字段名称，确定所述可识别数据为特定数据类型。在一些实施例中，若结构化的可识别数据所采用的结构可以是json结构即key-value键值对结构，则识别规则中可以包括一个或多个预定字段名称(例如，该预定字段名称可以是“query”)，若该可识别数据中包括至少一个预定字段名称对应的key键值，且该key键值对应的value值不为空，则可以确定该可识别数据为预定的特定数据类型。
38.在一些实施例中，所述识别规则还包括每个预定字段对应的预定内容条件；其中，所述若所述可识别数据中包括至少一个预定字段名称，确定所述可识别数据为特定数据类型，包括：若所述可识别数据中包括至少一个预定字段名称，且所述预定字段名称对应的字段内容满足所述预定字段名称对应的预定内容条件，确定所述可识别数据为特定数据类型。在一些实施例中，识别规则中还可以包括每个预定字段名称对应的预定内容条件，例如，该预定内容条件可以是一个文本信息，则若该可识别数据中包括至少一个预定字段名称对应的key键值，且该key键值对应的value值为该文本信息，或者，该key键值对应的value值与该文本信息之间的相似度(例如，语义相似度)大于或等于预定的相似度阈值，则可以确定该可识别数据为预定的特定数据类型。
39.在一些实施例中，所述预定内容条件包括一个或多个关键词信息；其中，所述若所
述可识别数据中包括至少一个预定字段名称，且所述预定字段名称对应的字段内容满足所述预定字段名称对应的预定内容条件，确定所述可识别数据为特定数据类型，包括：若所述可识别数据中包括至少一个预定字段名称，且所述预定字段名称对应的字段内容中包括至少一个关键词信息，确定所述可识别数据为特定数据类型。在一些实施例中，该预定内容条件可以是一个或多个关键词信息，则若该可识别数据中包括至少一个预定字段名称对应的key键值，且该key键值对应的value值中包括至少一个关键词信息，则可以确定该可识别数据为预定的特定数据类型。
40.在一些实施例中，所述预定内容条件包括正则表达式信息；其中，所述若所述可识别数据中包括至少一个预定字段名称，且所述预定字段名称对应的字段内容满足所述预定字段名称对应的预定内容条件，确定所述可识别数据为特定数据类型，包括：若所述可识别数据中包括至少一个预定字段名称，且所述预定字段名称对应的字段内容与所述正则表达式信息相匹配，确定所述可识别数据为特定数据类型。在一些实施例中，该预定内容条件可以是正则表达式，则若该可识别数据中包括至少一个预定字段名称对应的key键值，且该key键值对应的value值与该正则表达式相匹配，则可以确定该可识别数据为预定的特定数据类型。
41.在一些实施例中，所述预定内容条件包括格式模板信息；其中，所述若所述可识别数据中包括至少一个预定字段名称，且所述预定字段名称对应的字段内容满足所述预定字段名称对应的预定内容条件，确定所述可识别数据为特定数据类型，包括：若所述可识别数据中包括至少一个预定字段名称，且所述预定字段名称对应的字段内容符合所述格式模板信息，确定所述可识别数据为特定数据类型。在一些实施例中，该预定内容条件可以是格式模板，例如，该语句模板是“grant*on*to*by*with”，则若该可识别数据中包括至少一个预定字段名称对应的key键值，且该key键值对应的value值能够适配该格式模板，即该value值的格式与该格式模板相一致，则可以确定该可识别数据为预定的特定数据类型。
42.在一些实施例中，所述方法还包括：计算机设备获取所述数据库中的存储数据对应的敏感分类信息；根据所述敏感分类信息，确定所述数据库对应的识别规则。在一些实施例中，可以是先确定数据库中的一个或多个存储数据对应的敏感分类，或者，还可以是先按照预定的采样率或采样间隔对数据库中的存储数据进行抽样采集，获得至少一个抽样数据，再确定该至少一个抽样数据对应的敏感分类，其中，确定敏感分类的方式已在前文予以详述，在此不再赘述。在一些实施例中，可以根据该一个或多个存储数据分别对应的敏感分类，或者，根据该至少一个抽样数据分别对应的敏感分类，得到其中出现次数最多或出现频率最高的目标敏感分类，然后根据该目标敏感分类，将适合该目标敏感分类的识别规则作为该数据库对应的识别规则，例如，在预设的一个或多个默认识别规则中将与该目标敏感分类的语义之间的匹配度最高的默认识别规则作为该数据库对应的识别规则，或者，还可以在搜索引擎中对该目标敏感分类进行大数据搜索，根据搜索结果中的与该目标敏感分类相关的敏感方向信息或敏感维度信息，自动生成该目标敏感分类对应的识别规则。
43.在一些实施例中，所述方法还包括：计算机设备根据所述审计模块返回的所述审计结果，更新所述数据库对应的识别规则。在一些实施例中，可以根据审计模块返回的一条条审计结果，自动更新该数据库对应的识别规则，其中，更新方式包括但不限于增加预定字段名称、修改预定字段名称、删除预定字段名称、修改预定字段名称对应的预定内容条件
(例如，修改关键词信息、修改正则表达式信息、修改格式模板信息等)。
44.在一些实施例中，所述将所述可识别数据推送至审计模块，包括：暂时缓存所述可识别数据，继续采集所述数据库的日志数据，直至当前新解析得到的可识别数据与当前已缓存的至少一个可识别数据之间的关联度小于或等于预定阈值，将所述至少一个可识别数据推送至审计模块，并取消缓存所述至少一个可识别数据。在一些实施例中，在根据识别规则识别到某个可识别数据为特定数据类型之后，先不将该可识别数据推送至审计模块，而是先暂时缓存该可识别数据，然后继续采集该数据库的日志数据，若针对当前新采集到的新日志数据解析得到的新可识别数据仍为特定数据类型，且该新可识别数据与当前已缓存的可识别数据之间的关联度大于预定阈值，则缓存该新可识别数据，并继续采集该数据库的日志数据，若关联度小于或等于预定阈值，则会将当前已缓存的所有可识别数据一起推送至审计模块，以使审核模块可以通过对存在关联关系的多个可识别数据进行整体风险分析、整体风险计算，从而提高审计结果的准确程度和生成效率，并取消缓存当前已缓存的所有可识别数据，然后缓存该新可识别数据，并继续采集该数据库的日志数据，以此往复，不再赘述。
45.在一些实施例中，所述直至当前新解析得到的可识别数据与当前已缓存的至少一个可识别数据之间的关联度小于或等于预定阈值，包括：直至当前新解析得到的可识别数据所涉及的数据库存储数据与当前已缓存的至少一个可识别数据所涉及的数据库存储数据之间的数据关联度小于或等于预定阈值。在一些实施例中，针对当前新采集到的新日志数据解析得到的新可识别数据与当前已缓存的可识别数据之间的关联度可以是指将两者分别针对同一个key键值的两个value值进行相似度比较，根据比较结果来确定两者之间的关联度，其中，该相似度比较可以是指对两者的语义进行相似度比较，或者，还可以是指对两者的文本内容进行相似度比较。在一些实施例中，针对当前新采集到的新日志数据解析得到的新可识别数据与当前已缓存的可识别数据之间的关联度还可以是指两者分别对应的数据库操作行为所涉及的行为对象及该数据库中的存储数据之间的数据关联度，该数据关联度包括但不限于文本内容关联度、语义关联度、所涉及业务之间的关联度、数据存储位置之间的关联度。
46.在一些实施例中，所述方法还包括：若当前已缓存的第一个可识别数据的缓存时间距离当前时间的时间间隔大于或等于预定的时长阈值，将当前已缓存的一个或多个可识别数据推送至审计模块，并取消缓存所述一个或多个可识别数据。在一些实施例中，若前已缓存的第一个可识别数据的缓存时间距离当前时间的时间间隔大于或等于预定的时长阈值，则会将当前已缓存的所有可识别数据一起推送至审计模块，并取消缓存当前已缓存的所有可识别数据，并继续采集该数据库的日志数据。
47.图2示出根据本技术一个实施例的一种用于生成审计结果的方法流程图。
48.如图2所示，采集模块先查找对应的需要采集数据的数据库，识别该数据库对应版本及网络环境，根据数据库版本情况及网络环境情况，进行插件部署，并在数据库启动后，该插件进行自启动后开始进行数据采集，并将采集结果推送至审计模块，审计模块中的存储模块用于存储该采集结果，审计模块中的检索分析模块用于对采集结果进行风险检索及风险分析，审计模块中的风险计算模块用于计算得到采集结果对应的审计结果，审计模块中的风险外发模块支持将审计结果以syslog、邮箱mail、短信等形式外发，审计模块中的风
险导出模块支持将审计结果以excel、word、pdf等形式导出。
49.图3示出根据本技术一个实施例的一种用于生成审计结果的计算机设备结构图，该设备包括一一模块11和一二模块12。一一模块11，用于通过部署在数据库上的插件采集所述数据库的日志数据，根据结构化解析规则，对所述日志数据进行解析得到可识别数据；一二模块12，用于根据识别规则，识别所述可识别数据是否为特定数据类型，若是，将所述可识别数据推送至审计模块，以使所述审计模块根据所述可识别数据生成对应的审计结果。
50.一一模块11，用于通过部署在数据库上的插件采集所述数据库的日志数据，根据结构化解析规则，对所述日志数据进行解析得到可识别数据。在一些实施例中，可以通过在数据库上部署(或者安装)插件来对数据库的日志数据进行自动采集，该插件属于半侵入式的软件应用，该插件与网络安全行业基于流量解析形式，抓网卡流量包的形式不同，随着用户网络规模和流量增加，用户需要不断提升硬件部署，已达到解析大流量的要求，造成用户成本上升，而本技术中通过该插件直接进行数据库日志数据的获取，成本低，便捷性好，同时可扩展性强，，具备更精准的效果。在一些实施例中，日志数据(审计日志)是指数据库的操作行为日志数据，日志数据中包括但不限于针对数据库的某个操作行为的行为时间、行为内容(例如，在数据库中读取、插入、修改、删除的存储数据)、行为结果(例如，是否成功)、行为对象(即数据库中的至少一个存储数据)等。在一些实施例中，结构化解析规则，用于定义如何对原始日志数据进行解析，以及如何根据解析结果生成结构化的可用于识别的数据类型(可识别数据)，结构化解析规则包括但不限于json解析规则、正则解析规则、url解析规则、xml解析规则、提取关键字解析规则、syslog_pri解析规则、keyvalue解析规则、数值转换解析规则、geo解析规则、时间戳解析规则、agent解析规则等。在一些实施例中，结构化的可识别数据所采用的结构可以是json结构即key-value键值对结构。在一些实施例中，用户可以在多种默认结构化解析规则中选择其中一种作为该数据库对应的结构化解析规则，或者，也可以先判断原始日志数据的结构类型，然后自动将多种默认结构化解析规则中适合该结构类型的默认结构化解析规则作为该数据库对应的结构化解析规则。
51.一二模块12，用于根据识别规则，识别所述可识别数据是否为特定数据类型，若是，将所述可识别数据推送至审计模块，以使所述审计模块根据所述可识别数据生成对应的审计结果。在一些实施例中，识别规则用于定义如何识别结构化数据是否为预定的特定数据类型(数据库操作行为的操作类型)，若是，则说明该结构化数据可能存在安全隐患，需要将其推送至审计模块进行风险分析计算，否则，则说明该结构化数据不存在安全隐患，不需要将其推送至审计模块进行风险分析计算，可以丢弃该可识别数据。在一些实施例中，该预定的特定数据类型包括但不限于create类型、drop类型、truncate类型、insert类型、select类型、update类型、delete类型、grant类型。在一些实施例中，用户可以手动配置该数据库对应的识别规则，或者，还可以在多种默认识别规则中选择其中一种作为该数据库对应的识别规则。在一些实施例中，审计模块可以是位于该插件内部的一个内置模块，或者，审计模块还可以位于该插件外部的一个独立模块，其中，该审计模块可以与该插件位于同一个设备上，或者，还可以位于两个不同的设备上。在一些实施例中，审计模块对接收到的可识别数据进行存储、风险分析、风险计算，将可识别数据变为一条条审计结果，支持审计结果以syslog、邮箱mail、短信等形式外发，并支持审计结果以excel、word、pdf等形式导
出。本技术通过在数据库上部署的插件以半侵入式方式获取数据库的日志数据，达到高效解析，横向拓展能力强及数据维度全的特点。
52.在一些实施例中，所述设备还用于：根据所述数据库的环境信息，在所述数据库上自动部署所述插件。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
53.在一些实施例中，所述设备还用于：若所述数据库中的存储数据满足预定的敏感条件，使得所述插件自动开始采集所述日志数据。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
54.在一些实施例中，所述若所述数据库中的存储数据满足预定的敏感条件，使得所述插件自动开始采集所述日志数据，包括：获取所述数据库中的存储数据对应的敏感级别信息；若根据所述敏感级别信息确定所述存储数据满足预定的敏感条件，使得所述插件自动开始采集所述日志数据。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
55.在一些实施例中，所述设备还用于：对所述日志数据进行格式分析，确定所述日志数据对应的结构化解析规则。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
56.在一些实施例中，所述对所述日志数据进行格式分析，确定所述日志数据对应的结构化解析规则，包括：将所述日志数据与一个或多个结构化解析规则对应的格式模板信息进行格式匹配；根据匹配结果，在所述一个或多个结构化解析规则中确定所述日志数据对应的结构化解析规则。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
57.在一些实施例中，所述识别规则包括一个或多个预定字段名称；其中，所述根据识别规则，识别所述可识别数据是否为特定数据类型，包括：若所述可识别数据中包括至少一个预定字段名称，确定所述可识别数据为特定数据类型。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
58.在一些实施例中，所述识别规则还包括每个预定字段对应的预定内容条件；其中，所述若所述可识别数据中包括至少一个预定字段名称，确定所述可识别数据为特定数据类型，包括：若所述可识别数据中包括至少一个预定字段名称，且所述预定字段名称对应的字段内容满足所述预定字段名称对应的预定内容条件，确定所述可识别数据为特定数据类型。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
59.在一些实施例中，所述预定内容条件包括一个或多个关键词信息；其中，所述若所述可识别数据中包括至少一个预定字段名称，且所述预定字段名称对应的字段内容满足所述预定字段名称对应的预定内容条件，确定所述可识别数据为特定数据类型，包括：若所述可识别数据中包括至少一个预定字段名称，且所述预定字段名称对应的字段内容中包括至少一个关键词信息，确定所述可识别数据为特定数据类型。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
60.在一些实施例中，所述预定内容条件包括正则表达式信息；其中，所述若所述可识别数据中包括至少一个预定字段名称，且所述预定字段名称对应的字段内容满足所述预定字段名称对应的预定内容条件，确定所述可识别数据为特定数据类型，包括：若所述可识别
数据中包括至少一个预定字段名称，且所述预定字段名称对应的字段内容与所述正则表达式信息相匹配，确定所述可识别数据为特定数据类型。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
61.在一些实施例中，所述预定内容条件包括格式模板信息；其中，所述若所述可识别数据中包括至少一个预定字段名称，且所述预定字段名称对应的字段内容满足所述预定字段名称对应的预定内容条件，确定所述可识别数据为特定数据类型，包括：若所述可识别数据中包括至少一个预定字段名称，且所述预定字段名称对应的字段内容符合所述格式模板信息，确定所述可识别数据为特定数据类型。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
62.在一些实施例中，所述设备还用于：获取所述数据库中的存储数据对应的敏感分类信息；根据所述敏感分类信息，确定所述数据库对应的识别规则。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
63.在一些实施例中，所述设备还用于：根据所述审计模块返回的所述审计结果，更新所述数据库对应的识别规则。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
64.在一些实施例中，所述将所述可识别数据推送至审计模块，包括：暂时缓存所述可识别数据，继续采集所述数据库的日志数据，直至当前新解析得到的可识别数据与当前已缓存的至少一个可识别数据之间的关联度小于或等于预定阈值，将所述至少一个可识别数据推送至审计模块，并取消缓存所述至少一个可识别数据。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
65.在一些实施例中，所述直至当前新解析得到的可识别数据与当前已缓存的至少一个可识别数据之间的关联度小于或等于预定阈值，包括：直至当前新解析得到的可识别数据所涉及的数据库存储数据与当前已缓存的至少一个可识别数据所涉及的数据库存储数据之间的数据关联度小于或等于预定阈值。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
66.在一些实施例中，所述设备还用于：若当前已缓存的第一个可识别数据的缓存时间距离当前时间的时间间隔大于或等于预定的时长阈值，将当前已缓存的一个或多个可识别数据推送至审计模块，并取消缓存所述一个或多个可识别数据。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
67.除上述各实施例介绍的方法和设备外，本技术还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如前任一项所述的方法被执行。
68.本技术还提供了一种计算机程序产品，当所述计算机程序产品被计算机设备执行时，如前任一项所述的方法被执行。
69.本技术还提供了一种计算机设备，所述计算机设备包括：
70.一个或多个处理器；
71.存储器，用于存储一个或多个计算机程序；
72.当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前任一项所述的方法。
73.图4示出了可被用于实施本技术中所述的各个实施例的示例性系统；
74.如图4所示在一些实施例中，系统300能够作为各所述实施例中的任意一个设备。在一些实施例中，系统300可包括具有指令的一个或多个计算机可读介质(例如，系统存储器或nvm/存储设备320)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本技术中所述的动作的一个或多个处理器(例如，(一个或多个)处理器305)。
75.对于一个实施例，系统控制模块310可包括任意适当的接口控制器，以向(一个或多个)处理器305中的至少一个和/或与系统控制模块310通信的任意适当的设备或组件提供任意适当的接口。
76.系统控制模块310可包括存储器控制器模块330，以向系统存储器315提供接口。存储器控制器模块330可以是硬件模块、软件模块和/或固件模块。
77.系统存储器315可被用于例如为系统300加载和存储数据和/或指令。对于一个实施例，系统存储器315可包括任意适当的易失性存储器，例如，适当的dram。在一些实施例中，系统存储器315可包括双倍数据速率类型四同步动态随机存取存储器(ddr4sdram)。
78.对于一个实施例，系统控制模块310可包括一个或多个输入/输出(i/o)控制器，以向nvm/存储设备320及(一个或多个)通信接口325提供接口。
79.例如，nvm/存储设备320可被用于存储数据和/或指令。nvm/存储设备320可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(hdd)、一个或多个光盘(cd)驱动器和/或一个或多个数字通用光盘(dvd)驱动器)。
80.nvm/存储设备320可包括在物理上作为系统300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，nvm/存储设备320可通过网络经由(一个或多个)通信接口325进行访问。
81.(一个或多个)通信接口325可为系统300提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
82.对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器(例如，存储器控制器模块330)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑封装在一起以形成系统级封装(sip)。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(soc)。
83.在各个实施例中，系统300可以但不限于是：服务器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，系统300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，系统300包括一个或多个摄像机、键盘、液晶显示器(lcd)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(asic)和扬声器。
84.需要注意的是，本技术可在软件和/或软件与硬件的组合体中被实施，例如，可采
用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本技术的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本技术的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，ram存储器，磁或光驱动器或软磁盘及类似设备。另外，本技术的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。
85.另外，本技术的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本技术的方法和/或技术方案。本领域技术人员应能理解，计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等，相应地，计算机程序指令被计算机执行的方式包括但不限于：该计算机直接执行该指令，或者该计算机编译该指令后再执行对应的编译后程序，或者该计算机读取并执行该指令，或者该计算机读取并安装该指令后再执行对应的安装后程序。在此，计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
86.通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如，光纤、同轴等))和能传播能量波的无线(未有导的传输)介质，诸如声音、电磁、rf、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。
87.作为示例而非限制，计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如，计算机可读存储介质包括，但不限于，易失性存储器，诸如随机存储器(ram,dram,sram)；以及非易失性存储器，诸如闪存、各种只读存储器(rom,prom,eprom,eeprom)、磁性和铁磁/铁电存储器(mram,feram)；以及磁性和光学存储设备(硬盘、磁带、cd、dvd)；或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。
88.在此，根据本技术的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本技术的多个实施例的方法和/或技术方案。
89.对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其他的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘金利伍贤锋周平陈缘
技术所有人：上海安全至尚科技有限公司
我是此专利的发明人

上一篇：语音中关键词的检测方法和存储介质与流程
上一篇：一种导电液及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。