日志内容审核优化方法及装置的制造方法

文档序号：9687420阅读：551来源：国知局

日志内容审核优化方法及装置的制造方法
【技术领域】
[0001 ] 本发明涉及一种日志内容审核优化方法及装置，尤其涉及一种应用于监控平台的日志内容审核优化方法及装置。
【背景技术】
[0002]在监控平台、用户行为分析等众多领域中都会大量使用日志分析技术，然而日志并不是一种严谨可靠的数据源，它只是松散易变的文本字符串。这种字符串拼接的代码没有任何约束而言，在这种松散的场景里，可能导致日志解析不符合预期的原因非常多，例如:对所述约定格式做了修改；在所述日志中输入了错误的分隔符号；其中一个代码被其他的代码逻辑共享，混杂输出了其他种类的日志；代码到日志的某个环节编码配置异常，导致中文乱码等，然而，现有地，对于松散随意的字符串拼接，很难找到强硬的约束。相应的，这些隐患却给日志分析带来了巨大的灾难。在我们实际的平台化进程中，分析过程中会不可避免产生大量非法无效数据，完全交给用户自助配置的分析规则产出的垃圾非法数据占到了总量的40%以上。
[0003]为了解决上述问题，传统的解决方案中，一般采用人工审核的方法对日志内容进行审核:用人力来每天定点审核所有新产生的日志维度内容，遇到非法的还可以及时联系用户进行调整，从源头解决问题。然而，在监控系统中，日志模型达到几千个，每个模型平均5个维度，每个维度下面少则几十个值，多则成千上万个值。不难看出，对这样规模的维度值，人工审核的方法，需要花费高昂的人力资源和成本，而且并不能保障其审核效果，同时，大量的非法数据会浪费了大量的计算和存储资源，同时也严重影响用户体验和数据可靠性。

【发明内容】

[0004]本发明的目的之一在于提供一种日志内容审核优化方法及装置。
[0005]为实现上述发明目的之一，本发明一实施方式提供了一种日志内容审核优化方法，其包括:
[0006]将日志中多个维度下的内容抽象出与其分别对应的多组输入向量；
[0007]根据所述多组输入向量和每一组输入向量对应维度所匹配的预设矩阵，计算得到与所述多组输入向量对应的多个输出向量；
[0008]输入预期输出向量，并通过神经网络训练，根据输出向量和与其对应的预期输出向量的异同，修正与该输出向量相应维度所匹配的预设矩阵。
[0009]作为本发明一实施方式的进一步改进，所述内容包括多个词，每一个词对应一组输入向量；每一组输入向量对应一个输出向量。
[0010]作为本发明一实施方式的进一步改进，一组输入向量包括以下因子:
[0011]总长度、大写字母个数、小写字母个数、数字个数、常规符号个数、中文个数、转换次数、未知个数、最大连续数字个数、最大连续中文个数、最大连续字母个数、最大连续符号个数、是否包含非常用中文。
[0012]作为本发明一实施方式的进一步改进，所述预设矩阵通过JAVA实现。
[0013]作为本发明一实施方式的进一步改进，所述“输入预期输出向量”步骤具体为:
[0014]通过人工判断所述输出向量的准确性；
[0015]根据判断结果得到预期输出向量。
[0016]为实现上述发明目的之一，本发明一实施方式提供了一种日志内容审核优化装置，其包括:获取模块，用于将日志中多个维度下的内容抽象出与其分别对应的多组输入向量;
[0017]比对计算模块，用于根据所述多组输入向量和每一组输入向量对应维度所匹配的预设矩阵，计算得到与所述多组输入向量对应的多个输出向量；
[0018]修订模块，用于输入预期输出向量，并通过神经网络训练，根据输出向量和与其对应的预期输出向量的异同，修正与该输出向量相应维度所匹配的预设矩阵。
[0019]作为本发明一实施方式的进一步改进，所述内容包括多个词，每一个词对应一组输入向量；每一组输入向量对应一个输出向量。
[0020]作为本发明一实施方式的进一步改进，一组输入向量包括以下因子:
[0021]总长度、大写字母个数、小写字母个数、数字个数、常规符号个数、中文个数、转换次数、未知个数、最大连续数字个数、最大连续中文个数、最大连续字母个数、最大连续符号个数、是否包含非常用中文。
[0022]作为本发明一实施方式的进一步改进，所述预设矩阵通过JAVA实现。
[0023]作为本发明一实施方式的进一步改进，通过人工判断所述输出向量的准确性；
[0024]所述修订模块还用于，根据判断结果得到预期输出向量。
[0025]与现有技术相比，本发明的有益效果是:利用神经网络技术，实现了一套审核训练机制，达到了审核越来越准确、人力成本越来越低的目标；如此，不仅大大降低了审核人员的工作量，而且显著提高了审核效率和准确度，节约审核成本以及存储成本。
【附图说明】
[0026]图1A、1B是本发明一实施方式中监控场景中日志内容采样结果的实例图。
[0027]图2是本发明一实施方式的日志内容审核优化方法的流程图。
[0028]图3A、图3B是本发明一实施方式中通过神经网络训练修正预设矩阵的实例图。
[0029]图4是本发明一实施方式的日志内容审核优化装置的模块图。
【具体实施方式】
[0030]以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所轻易做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
[0031]如图1A、1B所示，在本发明一示例中，监控场景中日志内容采样结果包括多个维度，本实施方式中的图1A为“平台”维度，图1B为“版本”维度。
[0032]相应的，“平台”维度中方框内的词为合法数值，“版本”维度中方框内的词为非法数值。通过人的经验可以很容易判断相应维度中哪些输入向量为合法或非法，然而，现有的监控平台却不能自动判断相应维度中哪些输入向量为合法或非法。
[0033]结合图2所示，在本发明一实施方式中，日志内容审核优化方法包括以下步骤:
[0034]S1、将日志中多个维度下的内容抽象出与其分别对应的多组输入向量；
[0035]日志的单个维度下所示内容中包括若干行字符串，定义一行字符串为一个词，相应的，每一个词对应一组输入向量；每一组输入向量对应一个输出向量。
[0036]例如，图1A所示的“平台”维度下，定义一行字符串为一个词。
[0037]具体的，抽象出与每个词对应的各个因子。
[0038]一组输入向量包括下述因子:所述词的总长度、大写字母个数、小写字母个数、数字个数、常规符号个数、中文个数、转换次数、未知个数、最大连续数字个数、最大连续中文个数、最大连续字母个数、最大连续符号个数、是否包含非常用中文、是否先出现字母后出现数字、是否先出现数字后出现字母、字母和数字是否均为连续出现、字母和数字是否出现交叉等。
[0039]当然，所述因子的数量还可以增加或减少。然而，可以理解的是，因子数量越多，其最终获取的结果更加精准，在此不做详细赘述。
[0040]下述内容以日志的某一维度中包含的一个词“abcl234”为例做具体说明。
[0041]抽象出与词“abc 1234”对应的各个因子。词“abc 1234”对应的因子为，总长度为7个字符、大写字母个数为O个、小写字母个数为3个、数字个数为4个、常规符号个数为O个、中文个数为O个、转换次数为O次、未知个数为O个、最大连续数字个数为4个、最大连续中文个数为O个、最大连续字母个数为3个、最大连续符号个数为O个、未包含非常用中文。
[0042]S2、根据所述多组输入向量和每一组输入向量对应维度所匹配的预设矩阵，计算得到与所述多组输入向量对应的多个输出向量。
[0043]具体的，所述预设矩阵通过Java实现；如此，可独立的进行编辑和管理，并且能够跨网络与线上生产系统整合。
[0044]相应的，所述预设矩阵存储于预设矩阵库中，因为各个日志中的每个维度都可能有自己独特的风格，比如银行渠道维度偏爱字母+数字，交易订单日志里的来源维度偏爱纯中文等，该预设矩阵对应不同维度的输入向量可以有所不同，以满足不同维度的输入向量根据其匹配的预设矩阵计算得到输出向量。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：储晓颖;
技术所有人：阿里巴巴集团控股有限公司;
我是此专利的发明人

上一篇：语音翻译装置、方法及程序的制作方法
上一篇：词对齐方法和词对齐设备的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。