日志结构化信息提取方法及装置的制造方法_4

文档序号:9687560阅读:来源:国知局
[0164] 〈field〉
[01 巧]<name〉ACCOUNT_BALANCE</name>
[0166] <type>FL0AT(2)</type>
[0167] <desc>Account balance</desc>
[016引〈/field〉
[0169] </field_list>
[0170] 〈/file〉
[0171] </transmit-content)
[0172] 可见,字段类型说明文件根据日志孤L文件中的解析结果字段生成。
[0173] 需要说明的是,字段类型说明文件中的字段定义的顺序,与日志DDL文件中index 标签的取值是对应一致的。
[0174] 运样,根据DDL中的字段定义,可W方便地自动生成目标数据库的建表脚本并提交 给目标数据库创建目标数据库表,然后利用相应的数据库加载工具进行加载。
[0175] 上面介绍了提取方法,本文后续将介绍日志结构化信息提取装置,也即日志处理 引擎。
[0176] 请参见图5,上述日志处理引擎500可包括:
[0Π 7]获取单元1,用于获取日志文件和与之相应的日志DDL文件。
[0178]其中,日志DDL文件中包含上述日志文件中结构化信息的字段解析规则和字段定 义。
[0179] 任务单元2,用于根据字段解析规则从日志文件中提取出字段并存储至输出文件;
[0180] 第一生成单元3,用于生成与上述输出文件对应的字段类型说明文件。
[0181 ] 在本发明其他实施例中,上述日志处理引擎500还可包括:
[0182]第二生成单元4,用于根据上述字段类型说明文件生成建表脚本并提交给目标数 据库。其中,上述建表脚本用于上述目标数据库创建空白数据库表,并加载上述输出文件中 的字段至上述空白数据库表。
[018引在本发明其他实施例中,上述日志抓L文件包括:字段解析规则列表;上述字段解 析规则列表中包括N个字段解析规则;上述N不小于1。
[0184] 每一字段解析规则包括前置处理规则、提取方式、提取方法参数和解析结果字段 列表;其中:
[0185] 上述前置处理规则可为空;
[0186] 上述解析结果字段列表包括至少一个解析结果字段;
[0187] 上述至少一个解析结果字段的排列顺序与上述字段解析规则提取的字段排列顺 序一致;
[0188] 每一上述解析结果字段包含字段名称、字段类型和属性;上述字段名称、字段类型 和属性用于表征上述字段定义。
[0189 ]具体内容请参见本文前述记载,在此不作寶述。
[0190] 进一步的,上述N个字段解析规则与N个输出文件一一对应。
[0191] 而在根据上述字段解析规则从上述日志文件中提取出字段的方面,任务单元2具 体用于:
[0192] 针对上述日志文件中需要处理的第i行日志,依次使用上述N个字段解析规则对其 进行解析,直至解析成功;i不小于0,不大于M-1;M为上述日志文件中所包含的日志总行数。
[0193] 在存储至输出文件的方面,任务单元2则具体用于:
[0194] 将成功解析出的字段输出到目标文件;
[0195] 上述目标文件为,与解析成功的字段解析规则相对应的输出文件。
[0196 ]具体内容请参见本文前述记载,在此不作寶述。
[0197] 在本发明其他实施例中,若字段解析规则的前置处理规则不为空,则在使用该字 段解析规则对上述第i行日志进行解析前,上述所有实施例中的任务单元2还具体用于:使 用上述前置处理规则对上述第i行日志进行前置处理。
[0198] 在本发明其他实施例中,若上述解析成功的字段解析规则中、解析结果字段的属 性里包括针对指定字段的嵌套解析规则,在根据上述字段解析规则从上述日志文件中提取 出字段的方面,上述所有实施例中的任务单元2还具体用于:
[0199] 对上述指定字段使用上述嵌套解析规则进行解析。
[0200] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他 实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统 而言,由于其与实施例公开的方法相对应,所W描述的比较简单,相关之处参见方法部分说 明即可。
[0201] 本文中应用了具体个例对本发明的原理及实施方式进行了阐述,W上实施例的说 明只是用于帮助理解本发明的方法及其核屯、思想;同时,对于本领域的一般技术人员,依据 本发明的思想,在【具体实施方式】及应用范围上均会有改变之处。综上所述,本说明书内容不 应理解为对本发明的限制。
【主权项】
1. 一种日志结构化信息提取方法,其特征在于,包括: 获取日志文件和与之相应的日志DDL文件,所述日志DDL文件中包含所述日志文件中结 构化信息的字段解析规则和字段定义; 根据所述字段解析规则从所述日志文件中提取出字段并存储至输出文件; 生成与所述输出文件对应的字段类型说明文件。2. 如权利要求1所述的方法,其特征在于,还包括: 根据所述字段类型说明文件生成建表脚本并提交给目标数据库;所述建表脚本用于所 述目标数据库创建空白数据库表,并加载所述输出文件中的字段至所述空白数据库表。3. 如权利要求1所述的方法,其特征在于,所述根据所述字段解析规则从所述日志文件 中提取出字段并存储至输出文件的操作,由HadoopMapReduce计算框架的Map函数执行。4. 如权利要求1-3任一项所述的方法,其特征在于,所述日志DDL文件包括:字段解析规 则列表;所述字段解析规则列表中包括N个字段解析规则;所述N不小于1; 每一字段解析规则包括前置处理规则、提取方式、提取方法参数和解析结果字段列表; 其中: 所述前置处理规则可为空; 所述解析结果字段列表包括至少一个解析结果字段; 所述至少一个解析结果字段的排列顺序与所述字段解析规则提取的字段排列顺序一 致; 每一所述解析结果字段包含字段名称、字段类型和属性;所述字段名称、字段类型和属 性用于表征所述字段定义。5. 如权利要求4所述的方法,其特征在于, 所述N个字段解析规则与N个输出文件一一对应; 所述根据所述字段解析规则从所述日志文件中提取出字段包括: 针对所述日志文件中需要处理的第i行日志,依次使用所述N个字段解析规则对其进行 解析,直至解析成功;i不小于0,不大于M-1 ;M为所述日志文件中所包含的日志总行数; 所述存储至输出文件包括: 将成功解析出的字段输出到目标文件; 所述目标文件为,与解析成功的字段解析规则相对应的输出文件。6. 如权利要求5所述的方法,其特征在于,若字段解析规则的前置处理规则不为空,则 在使用该字段解析规则对所述第i行日志进行解析前还包括: 使用所述前置处理规则对所述第i行日志进行前置处理。7. 如权利要求5所述的方法,其特征在于,若所述解析成功的字段解析规则中、解析结 果字段的属性里包括针对指定字段的嵌套解析规则,所述根据所述字段解析规则从所述曰 志文件中提取出字段还包括: 对所述指定字段使用所述嵌套解析规则进行解析。8. -种日志结构化信息提取装置,其特征在于,包括: 获取单元,获取日志文件和与之相应的日志DDL文件,所述日志DDL文件中包含所述日 志文件中结构化信息的字段解析规则和字段定义; 任务单元,用于根据所述字段解析规则从所述日志文件中提取出字段并存储至输出文 件; 第一生成单元,用于生成与所述输出文件对应的字段类型说明文件。9.如权利要求8所述的装置,其特征在于,还包括: 第二生成单元,用于根据所述字段类型说明文件生成建表脚本并提交给目标数据库; 所述建表脚本用于所述目标数据库创建空白数据库表,并加载所述输出文件中的字段至所 述空白数据库表。
【专利摘要】本发明公开日志结构化信息提取方法及装置,以实现自适应自动提取日志结构化数据的目的。在本发明实施例中,上游系统可向下游系统提供日志和日志DDL文件(日志DDL文件中包含日志中结构化信息的字段解析规则和字段定义),这样下游系统可根据日志DDL文件自动提取日志的结构化数据,后续可加载到目标数据库供后续分析。在此过程中,下游系统无需理解晦涩难懂的日志。同时,在日志格式变化或业务逻辑变化后,上游系统只需要提供新的日志DDL文件,下游系统就可以依据新的日志DDL文件对日志进行解析。因此,本发明实施例所提供技术方案能够自适应由日志格式变化或业务逻辑变化引起的字段解析规则变化。
【IPC分类】G06F17/30
【公开号】CN105447099
【申请号】CN201510766904
【发明人】沈丽忠, 朱志, 魏和, 唐景峰, 吴勇, 洪毅清
【申请人】中国建设银行股份有限公司
【公开日】2016年3月30日
【申请日】2015年11月11日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1