一种基于运营商系统数据补全规则应用流程的方法及系统与流程

文档序号:11831901阅读:610来源:国知局
一种基于运营商系统数据补全规则应用流程的方法及系统与流程

本发明涉及大数据处理技术领域,尤其涉及一种基于运营商系统数据补全规则应用流程的方法及系统。



背景技术:

近年来人们对于大数据的概念提及越来越多,大数据(big data),或称巨量资料、海量资料,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据处理技术,涵盖了数据分析挖掘,可视化呈现和应用,数据的分析预测等等。

而运营商数据处理,既具有海量数据的特点同时又具有自己的数据结构和数据特点。运营商数据,指的是运营商设备产生的有关设备本身的信息以及设备与设备之间的访问信息的数据。运营商初始采集的数据格式和信息格式都具有自己的特殊性质。在数据采集与数据协议还原阶段,运营商系统数据大多采用syslog和SNMP协议进行采集与数据协议还原,但是,采集和协议还原到的运营商数据与传统的数据具有显著的不同之处。譬如,传统的syslog数据在标题部分包括TIMESTAMP和HOSTNAME两个域,而HOSTNAME域中只能包含一个主机地址或者一个IP,运营商数据不仅仅包含了主机地址,同时还会包含多个IP地址,运营商数据主要体现在设备、资产、权限、帐号等方面的信息上。

现有的技术方案,一般是通过数据采集和协议还原(TCP或者UDP)之后,数据存贮模块对采集到的数据进行分表关联存贮,或者进行数据目录存储。存储完毕之后,数据模型处理模块根据不同的表结构和表关联在相应的数据模型上进行相应的处理。在海量数据的背景下,存储完毕之后再对数据进行操作的弊端很大,耗时极长效率极低。

其次,在存储阶段,现有技术中采用的是多表存储,针对运行商数据的存储方案,主要指的是运营商数据中各类信息分开存储,譬如运营商数据的资产信息、主从账号、用户信息、安全事件等信息分开存贮,目的是为了尽量降低占用的存储空间,更好的实现数据对应的业务逻辑。然而,运营商数据的主要作用是根据制定的策略和规则对数据进行分析处理并最终得出需要的结果,少量数据的解析过程需要的时间可以忽略不计,但是运营商数据的一个重要特点就是数据量巨大,多表存储需要消耗巨量的时间去进行关联查询,配置解析的规则和策略也因为多表的存在使其配置的难度和操作繁琐度提升了数个数量级,其缓慢的效率和臃肿不堪的解析的弊端就会愈发严重。根据分表进行的数据处理模型制定需要考虑到多表的数据关系和数据源的关联,限制条件和关联锁定使制定的规则的数量变得巨大,规则的内容也会变得冗长,整个数据处理流程的效率性和灵活性被大大降低。

另外,在这个信息安全日益重要的时代,运营商数据对安全方面的要求也越来越高,数据的安全性和可靠性必须要得到必要的保证,而现有的技术在运营商数据处理流程中对数据的安全性和可靠性缺乏必要的保障。

本发明的目的就是对上述运营商数据处理的流程进行优化,以提高运营商数据处理的灵活性、自由性、安全性和可靠性。



技术实现要素:

本发明的目的是通过以下技术方案实现的。

根据本发明的实施方式,提出一种基于运营商系统数据补全规则应用流程的方法,所述方法包括如下步骤:

S1、进行运营商数据解析策略的制定;

S2、通过数据源端口实时获取运营商数据;

S3、对处于接收过程中的所述运营商数据进行实时的前置计算;

S4、对执行了实时前置计算的运营商数据进行多方案的混合存储;

S5、基于多方案的混合存储进行数据分析策略的制定;

S6、对存储的运营商数据进行统计分析,生成预测模型和可视化结果,并返回给运营商用户使用。

根据本发明的优选实施方式,所述步骤S3的对处于接收过程中的运营商数据进行实时的前置计算包括:

S3-1、在所述获取的运营商数据接入时即开始执行标准化处理;

S3-2、对标准化处理后的运营商数据执行补全处理;

S3-3、对补全处理后的运营商数据执行归并、过滤、筛选处理。

根据本发明的实施方式,当数据进行步骤S3-2所述的补全处理后,对数据执行:S3a、可信度匹配计算,包括:

S3a-1、抽取数据中的敏感数据信息;

S3a-2、同时提取出在预置的运营商设备对象知识库中包含的与所述敏感数据信息对应的数据的标准信息;

S3a-3、将在数据中抽取的这些主要数据信息与知识库中的所述对应信息一一进行比对。

根据本发明的实施方式,在执行步骤S3的前置计算时,执行:S3b、路径打标处理。

根据本发明的实施方式,步骤S4的对执行了实时前置计算的运营商数据进行多方案的混合存储具体包括:

S4-1、在数据解析策略制定阶段所制定的标准化策略、补全策略和归并筛选过滤策略进行关系型数据库的单表存储;

S4-2、经过前置计算处理后的正式数据进行分布式存储和本地存储,后续的统计分析的过程中数据采用的原则是就近原则和本地优先原则。

根据本发明的实施方式,所述步骤S6的对存储的运营商数据进行统计分析,生成预测模型和可视化结果,并返回给运营商用户使用具体包括:接收步骤S3a的可信度的分析结果以及根据步骤S3b的进行路径打标的抽取操作,根据路径打标进行路径分析,向用户进行展示。

根据本发明的实施方式,还提出执行上述基于运营商系统数据补全规则应用流程的方法的系统,所述系统包括:解析策略制定单元、数据接入单元、前置计算单元、混合存储单元、分析策略制定单元以及统计分析单元,其中,

所述解析策略制定单元,制定运营商数据标准化、补全以及归并过滤筛选的策略;

所述数据接入单元,通过数据源端口实时获取运营商数据;

所述前置计算单元对处于接收过程中的运营商数据进行实时的前置计算;

所述混合存储单元对执行了实时前置计算的运营商数据进行多方案的混合存储;

所述分析策略制定单元基于多方案的混合存储进行数据分析策略的制定;

所述统计分析单元对运营商数据进行统计分析,生成预测模型和可视化结果,并返回给运营商用户使用。

根据本发明的实施方式,所述前置计算单元包括:

标准化处理单元,在运营商数据接入时即开始执行标准化处理;

补全处理单元,对标准化处理后的运营商数据执行补全处理;以及

归并筛选单元,对补全处理后的运营商数据执行归并、过滤、筛选处理。

根据本发明的实施方式,所述系统还包括可信度匹配计算单元,对补全处理后的数据执行可信度匹配计算。

根据本发明的实施方式,所述系统还包括路径打标处理单元,分别对标准化处理、补全处理以及归并筛选处理后的数据执行路径打标处理。

本发明的优点在于:针对运营商系统数据的复杂性和特殊性,对整个运营商数据的处理应用流程进行针对性的改进和优化,采用了前置计算的策略,同时独创性的采用了可信度计算和路径分析技术嵌入整个流程,单表存储+分布式存储+本地存储的存储方案以及基于单表存储的数据分析,不仅提高了整个流程的计算性能,节省了大量的时间成本,减少了策略制定的条件限制;同时也大大提高了运营商数据的安全性和可靠性。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明实施方式的基于运营商系统数据补全规则应用流程的方法的流程图;

图2示出了根据本发明实施方式的基于运营商系统数据补全规则应用流程的系统的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本发明的实施方式,提出一种基于运营商系统数据补全规则应用流程的方法,如图1所示,所述方法包括如下步骤:

S1、进行运营商数据解析策略的制定;具体包括:

S1-1、制定数据的标准化策略,比如说数据某一字段开始到某一字段结束这一段的内容为源IP,从某一段数据开始是事件的内容说明,定义各个字段的过程等;

S1-2、制定补全策略,例如判断数据中某一字段的内容是否为空,如果为空的话则根据运营商数据的需求和知识库进行字段内容的补全。除了对一些必要信息的补全,也可以自定义的增加一些个性化的补全需求;

S1-3、制定归并过滤筛选策略,通过设置各种判断规则和策略条件,对数据流中的符合的数据进行解析,对数据进行合乎规则的合并筛选过滤。

根据这个解析策略可以高自由度的、自定义的对日志进行标准化、补全、归并、过滤操作。

S2、通过数据源端口实时获取运营商数据。

S3、对处于接收过程中的运营商数据进行实时的前置计算。包括:

S3-1、在运营商数据接入时即开始执行标准化处理,具体包括:根据设置的标准化策略,对输入的数据进行解析,把无意义的数据拆分、标注成意义明确的字段,比如解析出数据的源IP、目标IP、转发IP、事件发生的时间、事件内容等等。

S3-2、执行对运营商数据的补全处理;在进行标准化处理后,根据已经制定好的补全策略继续执行对数据进行补全操作,对比已经解析出来的字段是否缺少一些必要的字段并且根据运营商已有知识库进行这些字段的补全,包括资产、业务系统、资源组、安全域、厂商、帐号、权限、授权等等运营商必须字段。

S3-3、执行对运营商数据的归并、过滤、筛选处理;在补全的同时,根据已有的过滤归并筛选策略对数据进一步的处理,根据设置好的策略条件,在确定的时间窗口之内,对已经解析并补全的字段进行合并、过滤、筛选。经过这一步骤之后,运营商数据即已经正式成型。

步骤S3的处理过程都是在数据接入过程中进行操作,即是在存储之前已经就已经完成了对运营商数据的处理,采用这种操作方式,一次写入数据库就不需要后续的写入操作,以后对数据只有读操作,极大的降低了对数据库的操作次数,提高对数据处理的效率。

根据本发明的实施方式,为了提高数据的安全性和稳定性,当数据进行步骤S3-2所述的补全处理后,可辨识性基本已经达到标准级别,对数据执行:

S3a、可信度匹配计算;具体的实现方法包括:

S3a-1、抽取数据中的主要敏感数据信息,比如设备的设备对象的名称、设备自身的IP、所属安全域的IP、所属资源组IP;

S3a-2、同时提取出在预置的运营商设备对象知识库中包含的与所述敏感数据信息对应的数据的标准信息;

S3a-3、将在数据中抽取的这些主要数据信息与知识库中的所述对应信息一一进行比对,总体匹配信息为α,匹配成功条数为β,则可信度级别γ为:

当γ值在7以上时,为高可信度,在4到6之间为一般可信,在4以下则为不可信,建议抛弃。可信度的分析结果将在步骤S6中进行对用户的分析与展现。

以及,根据本发明的实施方式,在执行步骤S3的前置计算时,执行:

S3b、路径打标处理;由于数据在流程中处理的整个过程,对于用户来说是一个黑匣子模式,根据本方案的路径分析,用户可以通过最终的数据内容展示观察到此数据经过了哪些处理步骤,使整个数据流程透明化,让用户对数据有一个非常直观的认知,大大提高了数据的可靠性和透明性,也进一步的增加了数据的安全性,具体的实现方法如下:

S3b-1、进行步骤S3-1的数据初始标准化时,对数据进行第一次路径打标,新建一个专门用来作为路径标识的字段,补入已标识的值;

S3b-2、在步骤S3-2的补全的过程中对补全的字段进行第二次打标;

S3b-3、步骤S3-3的过滤和归并阶段,如果某一条数据进行了过滤和归并的操作,对此条数据进行第三次路径打标。

最终在步骤S6,进行路径打标的抽取操作,根据路径打标进行路径分析,向用户进行展示。

由于在整个流程中加入了可信度匹配计算和路径打标处理,对每一条运营商数据进行全程追踪标记并在分析过程中进行安全对比匹配,经过计算得出可信度等级,通过路径打标获取对数据路径的还原,以供用户对数据进行甄选,极大的提高了数据的安全性和稳定性。

S4、对执行了实时前置计算的运营商数据进行多方案的混合存储。具体包括:

S4-1、在数据解析策略制定阶段所制定的标准化策略、补全策略、归并筛选过滤策略这些数据进行关系型数据库的单表存储。针对运营商数据的制定的策略虽然类型不同,但是策略对应的字段相似度很高,单表存储完全可以满足所需要的各种策略。

S4-2、经过前置计算处理后的正式数据进行分布式存储+本地存储,数据一旦被处理完毕,就会被复制分发到不同的存储点之中,存贮的规则是按照日期、数据类型、源IP、目的IP等等具体的类似索引的分类把数据分布在多台磁盘中。在后续的统计分析的过程中数据采用的原则是就近原则和本地优先原则,从而在分布式存储的同时达到了本地存储的目的。

从存储空间占用方面考虑,单表存储所占用的空间是比多表存储占用的空间要大,现有技术主要用结构化数据库来存储,数据来源各异,所以通过单独的处理,可以对数据做存储,并通过关联可降低存储的成本,但在运营商大数据量的背景下,按照原有的存储方式,则在计算复杂的规则策略模型时,多表关联的计算资源的消耗会大到无法承担计算的成本。采用单表存储,节省的时间成本和计算资源成本要远远大于增加的存储成本,所以用这种方式是通过牺牲少量的存储成本来换取大量的计算的成本,将计算资源节省到最低。

同时,采用分布式存贮和本地存储,分布式存储可以极大的提高存储的扩容能力,存储管理数据的能力可以达到TB级甚至PB级,分布式存储时采用的分区原则类似索引,同时数据分发的特性和并行处理数据的能力使处理数据的效率进一步得到提高,当一台设备损坏或者处于瘫痪情况下也不会影响整个数据处理流程的正常进行,也提高了数据的安全性。

S5、基于多方案的混合存储进行数据分析策略的制定。

根据数据分析策略,可以对之前处理过的已经存储完毕运营商数据进行统计分析,生成预测模型和可视化结果。

在前置计算阶段,已经进行了解析策略,即过滤筛选归并策略的执行,这一步只需执行查询分析类策略;在进行多方案的混合存储阶段,根据分布式存储类索引原则和就近原则和本地优先原则,数据查询的速度极快,同时单表模式下的规则和策略不需要考虑多表关系和数据源的关联,一条规则仅需一次数据库查询即可实现,策略模型训练时间缩短(训练方法可以采用现有技术中成熟的学习训练算法),单条规则和策略可以对应数个甚至数十个数百个数据源任务,适应性极强。同时本地存储的可以灵活实现分词与不分词的查询,可以达到在任意维度切割查询获得结果,以此可以非常灵活快速的制定规则和策略的模型,使计算性能得到极大的提高。而且规则和策略的制定上可以更加便捷和灵活,也避免了繁琐的配置,从而消除了现有技术时间成本高昂,灵活性很差的缺点;通过优化的规则模型和策略模型,进行统计分析的效率相应也会得到提高。

S6、对存储的运营商数据进行统计分析,生成预测模型和可视化结果,并返回给运营商用户使用。

所述统计分析包括接收步骤S3a的可信度的分析结果以及根据步骤S3b的进行路径打标的抽取操作,根据路径打标进行路径分析,向用户进行展示。

根据本发明的另一实施方式,还提出执行上述基于运营商系统数据补全规则应用流程的方法的系统,如图2所示,所述系统包括:解析策略制定单元、数据接入单元、前置计算单元、混合存储单元、分析策略制定单元以及统计分析单元,其中,

所述解析策略制定单元,制定运营商数据标准化、补全以及归并过滤筛选的策略;

所述数据接入单元,通过数据源端口实时获取运营商数据;

所述前置计算单元对处于接收过程中的运营商数据进行实时的前置计算;所述前置计算单元包括:

标准化处理单元,在运营商数据接入时即开始执行标准化处理,具体包括:根据设置的标准化策略,对输入的数据进行解析,把无意义的数据拆分、标注成意义明确的字段,比如解析出数据的源IP、目标IP、转发IP、事件发生的时间、事件内容等等。

补全处理单元,执行对运营商数据的补全处理;在进行标准化处理后,根据已经制定好的补全策略继续执行对数据进行补全操作,对比已经解析出来的字段是否缺少一些必要的字段并且根据运营商已有知识库进行这些字段的补全,包括资产、业务系统、资源组、安全域、厂商、帐号、权限、授权等等运营商必须字段。

归并筛选单元,执行对运营商数据的归并、过滤、筛选处理;在补全的同时,根据已有的过滤归并筛选策略对数据进一步的处理,根据设置好的策略条件,在确定的时间窗口之内,对已经解析并补全的字段进行合并、过滤、筛选。

所述混合存储单元对执行了实时前置计算的运营商数据进行多方案的混合存储,具体包括:

在数据解析策略制定阶段所制定的标准化策略、补全策略、归并筛选过滤策略这些数据进行关系型数据库的单表存储。

经过前置计算处理后的正式数据进行分布式存储+本地存储。

所述分析策略制定单元基于多方案的混合存储进行数据分析策略的制定。

所述统计分析单元对运营商数据进行统计分析,生成预测模型和可视化结果,并返回给运营商用户使用。

根据本发明的实施方式,为了提高数据的安全性和稳定性,所述系统还包括可信度匹配计算单元,所述可信度匹配计算单元用于当数据进行补全处理后,可辨识性基本已经达到标准级别,对数据执行可信度匹配计算;所述可信度匹配计算单元具体包括:

敏感数据抽取单元,抽取数据中的主要敏感数据信息,比如设备的设备对象的名称、设备自身的IP、所属安全域的IP、所属资源组IP;

对应标准信息提取单元,提取出在预置的运营商设备对象知识库中包含的与所述敏感数据信息对应的数据的标准信息;

比对单元,将在数据中抽取的这些主要数据信息与知识库中的所述对应信息一一进行比对,总体匹配信息为α,匹配成功条数为β,则可信度级别γ为:

当γ值在7以上时,为高可信度,在4到6之间为一般可信,在4以下则为不可信,建议抛弃。

根据本发明的实施方式,所述系统还包括路径打标处理单元,用于执行路径打标处理;所述路径打标处理单元具体包括:

第一打标单元,进行数据初始标准化时,对数据进行第一次路径打标,新建一个专门用来作为路径标识的字段,补入已标识的值;

第二打标单元,在补全处理的过程中对补全的字段进行第二次打标;

第三打标单元,在过滤和归并阶段,如果某一条数据进行了过滤和归并的操作,对此条数据进行第三次路径打标。

所述统计分析单元接收可信度匹配计算单元的可信度的分析结果以及从路径打标处理单元进行路径打标的抽取操作,根据路径打标进行路径分析,向用户进行展示。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1