一种面向协议数据流的数据抽取方法

文档序号:8457357阅读:575来源:国知局
一种面向协议数据流的数据抽取方法
【技术领域】
[0001] 本发明属于数据仓库技术领域,更具体地,涉及一种面向协议数据流的数据抽取 方法。
【背景技术】
[0002] 近年来,随着物联网、云计算、大数据等技术的快速发展,相关的工业设备向着智 能化的方向迈进,使得工业信息化的发展进程不断地加快。通过将全球的工业系统与先进 计算、数据分析工具、低成本的传感设备和更高联网水平的高度融合,将重构全球工业,提 高生产效率,工业的创新和变革正在展开。互联网技术和工业技术的深度融合将深刻地改 变人们的生活方式,让世界更快速、更安全、更清洁并且更经济,必将由此引发全球范围内 的再一次的技术革命,美国著名公司GE将此次技术革命称之为"工业互联网革命",即是由 工业互联网技术而引发的生产力革命。而工业互联网技术能广泛应用的基础即要解决能将 海量分布的智能工业设备中的实时数据快速高效地集成到数据仓库中。
[0003] 智能工业设备的智能性即在于设备的行为能够通过软件程序快速灵活地定制设 计,例如改变交互过程,协议数据参数或者是应用层的数据通信协议,并且要求数据采集系 统要能够同样快速及时地响应这种变化。传统的数据采集技术通过二次开发的方式,也能 适应这种变化,但是往往开发周期很长,无法从根本上满足及时快速响应的要求。具体来 讲,在对于工业互联网系统更加智能化和信息化的系统而言,传统的数据采集技术在通用 性、扩展性以及灵活性方面存在着明显的不足。
[0004] 智能设备对数据采集系统的挑战最根本地在于智能设备能够更灵活地选择各种 应用层的数据通信协议,构建全球工业系统统一标准的数据通信协议在短期内是不可能实 现的,长远来看也会面临很多困难,而传统的数据采集技术无法从根本上解决上述技术问 题。

【发明内容】

[0005] 针对现有技术的以上缺陷或改进需求,本发明提供一种面向协议数据流的数据抽 取方法,既满足当前对协议数据流的数据抽取要求,又保证了数据抽取的通用性、灵活性以 及可扩展性。
[0006] 本发明提供一种面向协议数据流的数据抽取方法,包括以下步骤:
[0007] 步骤1建立针对工业通信协议的数据抽取规则,所述数据抽取规则包括参数解析 规则和模式信息规则,分别保存于参数解析规则文件和模式信息规则文件,其中,所述参数 解析规则文件用于描述数据帧的类型与结构,所述模式信息规则文件用于描述数据转换与 处理规则;
[0008] 步骤2读取所述参数解析规则文件,将其中所描述的不同解析节点实例化成具体 的对象,生成由实例对象构成的数据解析树;读取所述模式信息规则文件,生成数据模式映 射表;
[0009] 步骤3从协议数据流中接收数据帧,并利用所述数据解析树从所述数据帧中提取 出关于数据项内容的描述性信息,以获取抽取数据项所需要的解析参数;
[0010] 步骤4利用所述解析参数以及所述数据模式映射表,确定所述数据帧中数据域的 模式信息,其中,所述模式信息包括所述数据域的结构、格式和类型;
[0011] 步骤5根据所述解析参数以及所述模式信息,利用有限状态机实现对所述数据帧 中数据项的抽取,并将抽取的数据项转换成结构化的数据保存。
[0012] 总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效 果:
[0013] 本方法通过对现有工业中数据帧的共同特点,定义了数据帧的公共模型及其描述 方法与参数,并允许相关领域的设计开发人员基于该模型对新的数据协议进行配置建模, 而无需重新设计开发协议软件,最终实现数据帧的解析与数据抽取的目的。面向协议数据 流的数据抽取方法可以对各种类型的协议数据帧的数据实现有效而准确地抽取,更能保证 数据抽取的扩展性、通用性以及灵活性,即在协议改变的情况下该方法也能适用,显著提高 了在工业领域中对二进制的数据帧数据抽取的普适性
【附图说明】
[0014] 图1为本发明实施例数据抽取的过程示意图;
[0015] 图2为本发明实施例树形解析节点的示意图;
[0016] 图3为本发明实施例数据解析树和数据模式映射表生成的过程示意图;
[0017] 图4为本发明实施例数据模式的结构示意图;
[0018] 图5为本发明实施例基于树形结构的参数解析的过程示意图;
[0019] 图6为本发明实施例基于有限状态机的数据项提取和结构化生成的过程示意图。
【具体实施方式】
[0020] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要 彼此之间未构成冲突就可以相互组合。
[0021] 本发明包括以下三个部分:提取描述性信息,以获取抽取数据项所需要的解析参 数,为数据域中数据的抽取做准备;利用上阶段所获取的解析参数,确定数据帧中数据域的 模式信息,数据域的模式信息主要了包括数据域的结构、格式和类型;根据解析参数和数据 域的模式信息,实现对数据项的抽取,并转换成结构化的数据保存。
[0022] 图1所示为本发明实施例中数据抽取的过程示意图,具体包括以下步骤:
[0023] 步骤1建立针对实际应用工业通信协议的数据抽取规则,包括参数解析规则和模 式信息规则,该两类规则分别保存于参数解析规则文件和模式信息规则文件。其中,参数解 析规则文件主要用于描述数据协议的数据帧的类型与结构,例如某一种类型的数据帧包含 什么数据内容,偏移地址、长度等信息;模式信息规则文件主要用于描述数据转换与处理规 贝1J,包括原子参数处理规则和组合参数处理规则,并包含了转换与处理函数名及相关参数。
[0024] 步骤2读取参数解析规则文件,将该参数解析规则文件中所描述的不同节点实例 化成具体的对象,在内存中构建由实例对象构成的数据解析树;读取模式信息规则文件,在 内存中构建数据模式映射表。
[0025] 步骤3从协议数据流中接收数据帧,并利用数据解析树从数据帧中提取出关于数 据项内容的描述性信息,获取抽取数据项所需要的解析参数,为数据域中数据内容的抽取 做准备。其中,协议数据流是指按照步骤1中提及的工业通信协议建立的数据通信通道,数 据帧为数据通信的基本单元。
[0026] 步骤4利用步骤3所获取的解析参数以及步骤2生成的数据模式映射表,确定该 数据帧中用于保存待抽取数据的数据域的模式信息,其中,数据域的模式信息主要包括数 据域的结构、格式和类型。
[0027] 步骤5根据步骤3获取的解析参数以及步骤4获取的数据域的模式信息,利用有 限状态机实现对数据帧中的数据项的抽取,并将抽取的数据项转换成结构化的数据保存。
[0028] 本发明数据抽取方法的关键在于数据抽取规则,其中数据抽取规则的参数解析规 则和模式信息规则由相应配置文件信息生成。在本发明实施例中,通过XML格式对参数解 析规则文件和模式信息规则文件进行内容管理。
[0029] 下面将分别介绍参数解析规则文件和模式信息规则文件的格式。
[0030] 在本发明实施例中,参数解析规则文件将通过如下单个解析节点的配置示例以说 明:
[0031]
【主权项】
1. 一种面向协议数据流的数据抽取方法,其特征在于,包括: 步骤1建立针对工业通信协议的数据抽取规则,所述数据抽取规则包括参数解析规则 和模式信息规则,分别保存于参数解析规则文件和模式信息规则文件,其中,所述参数解析 规则文件用于描述数据帧的类型与结构,所述模式信息规则文件用于描述数据转换与处理 规则; 步骤2读取所述参数解析规则文件,将其中所描述的不同解析节点实例化成具体的对 象,生成由实例对象构成的数据解析树;读取所述模式信息规则文件,生成数据模式映射 表; 步骤3从协议数据流中接收数据帧,并利用所述数据解析树从所述数据帧中提取出关 于数据项内容的描述性信息,以获取抽取数据项所需要的解析参数; 步骤4利用所述解析参数以及所述数据模式映射表,确定所述数据帧中数据域的模式 信息,其中,所述模式信息包括所述数据域的结构、格式和类型; 步骤5根据所述解析参数以及所述模式信息,利用有限状态机实现对所述数据帧中数 据项的抽取,并将抽取的数据项转换成结构化的数据保存。
2. 如权利要求1所述的方法,其特征在于,所述参数解析规则分为原子参数解析结构 以及组合参数解析结构,其中,所述原子参数解析结构包含六个主要属性,采用六元组来描 述:In=〈Ad,Be,L,D,Rn,DT>,其中In表示原子参数解析结构,Ad表示位置分布类型,Be 表示语义单元起始地址,L表示原子语义单元的长度,D表示与源数据实现逻辑与的操作 数,Rn表示需要右偏移位数,DT表示目标数据格式;所述组合参数解析结构包含两个主要 属性,采用二元组来描述:InS= <G,Lin>,其中InS表示组合参数解析结构,G表示组合规 贝1J,即通过G将多个原子信息单元组合成有实际意义的信息单元,Lin表示参数解析集,包 含了多个原子参数解析结构In。
3. 如权利要求1所述的方法,其特征在于,所述解析节点选择方式分为基于特征字选 择方式和基于令牌选择方式,其中: 所述基于特征字选择方式包含一个哈希映射表用于特征字的快速查询,该哈希映射表 包含了所有解析节点特征字的哈希表,可用二元组(key,value)表示,其中key对应解析节 点的特征字,value为key对应的解析节点的名称; 所述基于令牌选择方式包含一个模式信息链表,所述模式信息链表中的每个解析节点 由三部分组成:逻辑算子,通过所述逻辑算子
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1