面向计费业务的数据实时抽取和关键性指标实时分析方法

文档序号:7852855阅读:282来源:国知局
专利名称:面向计费业务的数据实时抽取和关键性指标实时分析方法
技术领域
本发明涉及面向计费业务的实时数据挖掘分析方法,通过对计费原始话单的实时处理,能够对相关关键性指标进行实时的反馈和跟踪,大大提高了计费领域的数据分析效率。即运行,即分析,借助于基于内存的数据存储和处理方式,在节省磁盘开销的同时,又保证了数据分析的实时性,相比于传统的先存储,再抽取,再分析的模式有着明显的优势。
背景技术
对于计费业务来说,特点是数据量巨大,数据吞吐量高,面对巨大的数据量,如何能够通过数据分析的手段掌握关键性的数据指标,就更显得尤为重要。
传统的方式一般会采用先把话单数据进行存储到数据库,然后在定期的从数据库中抽取数据到数据仓库,最后再进行数据分析。整个分析过程属于后处理的方式,在计费业务不断增长的趋势下,这种传统的数据分析方式的不足之处已经日益凸显1,不具备实时性,分析滞后,关键性指标的分析结果不能体现当前的状态。2,由于采用先存储,再分析的模式,在数据量巨大的情况下,数据准确性也会降低,而且无法对相关数据进行溯源比对。3,由于采用磁盘存储的方式,大大增加了磁盘I/O的开销,对于细粒度的分析,完全依赖于数据库,直接的增加了数据库的负担,对于大数据量的即席查询,效率也非常低。4,需要借助于第三方的数据仓库和挖掘工具,数据日常维护专业性要求高,成本 闻昂。显而易见,在面对计费业务呈几何增长的形式下,对于运营商来说,对经营数据的实时性分析的需求就显得尤为迫切。

发明内容
本发明的目的是针对于传统计费的数据分析中所存在的分析滞后,效率低下等问题提出的一种面向计费数据的实时抽取和关键性指标分析方法,面对电信、金融等行业计费数据的日以快速增长,能够实现对计费数据的实时抽取和分析,彻底解决传统的先存储再分析的滞后的数据分析方式。借助于基于内存的数据存储和处理方式,直接对计费原始话单进行实时处理,即运行,即分析,能够对相关关键性指标进行实时的反馈和跟踪,大大提高了计费领域的数据分析效率。在节省磁盘开销的同时,又保证了数据分析的实时性,相 比于传统的先存储,再抽取,再分析的模式有着明显的优势。本发明的技术方案是一种面向计费数据的实时抽取和关键性指标分析方法,该方法的实现包括以下步骤A、首先,建立面向计费话单文件的实时数据抽取进程和实时分析进程,设定待分析计费话单文件的关键性指标,将计费话单文件中的实时数据抽取到内存中;B、将已抽取到内存中的实时话单数据进行并行的分流处理,然后将各路分流数据进行汇总合并。C、通过实时分析进程,系统根据预先设定好的关键性指标,对合并的抽取数据进行实时分析,实时展现分析结果。本发明的步骤B中,在内存中对抽取的实时话单数据进行并行的分流处理的速度不小于1000条话单数据/每秒。本发明的步骤C中,直接对内存中的汇总数据进行实时的分析处理,通过web端的异步通讯技术进行数据指标的实时展现。本发明的方法具体包括以下步骤A、在内存中建立基于多线程机制的内存存储 进程和查询进程;所述的内存存储进程包含以下步骤;>内存参数定义步骤>存储主实例定义步骤>数据存储步骤所述的查询进程包含;>数据查询步骤>内存回收步骤>并发内存统一管理步骤,包括并发访问下内存的查询、更新和存储;B、建立面向原始计费话单文件的实时数据抽取进程,其中包括对计费文件的智能容错规则库,具体包括以下内容>建立基于XML格式的容错规则库,规则支持标准正则表达式,能够兼容主流交换机设备的话单格式;>建立基于缓存的数据读取进程;C、建立实时计费话单数据的多线程并行预处理进程,将抽取的话单数据,进行并行的分流处理,然后将数据进行汇总合并。具体包括>并行任务配置步骤>存储使用配置步骤>数据分流处理步骤>数据合并步骤D、建立面向内存处理的实时分析进程,系统根据预先设定好的关键性指标,对合并的抽取数据进行实时分析,实时展现分析结果,具体包括>基于内存的分组查询步骤>特征分组查询即根据关键性指标,对应于各指标进行相应特征的分组查询的步骤>汇总查询即根据指标的特征对指标进行分组查询和汇总>定时查询任务步骤>数据实时转换步骤>数据实时刷新步骤。本发明中,在内存中采用多线程技术同时开辟多个内存块,进行并行的数据整理。
本发明中,建立面向原始计费话单文件的实时数据抽取进程,其中包括对计费文件的智能容错规则库,是在兼容主流设备厂商话单格式的前提下,对不规则话单、异常话单进行自适应的容错处理。本发明的有益效果—、能够实现对计费数据的实时抽取和分析,彻底解决传统的先存储再分析的滞后的数据分析方式。二、直接对计费原始话单进行实时处理,即运行,即分析,能够对相关关键性指标进行实时的反馈和跟踪,大大提高了计费领域的数据分析效率。三、数据抽取和分析过程全程在内存中运行,大大节省磁盘空间和I/O开销。 四、彻底解决数据量高速增长所带来的性能问题,即运行,即抽取,即分析,数据不断增长,不会影响当前的分析程序的效率,达到较高的实时性。


图I是本发明的总体构架示意图。图2是本发明的数据实时读取与分析流程图。
具体实施例方式下面结合附图和实施例对本发明作进一步的说明。如图I所示,一种面向计费数据的实时抽取和关键性指标分析方法,该方法的实现包括以下步骤A、建立基于多线程机制的内存存储和查询系统通过C++语言编写专用的内存存储和查询程序,程序包含以下模块功能>内存参数定义>存储主实例定义>数据存储功能>数据查询功能>内存回收功能>并发内存统一管理模块B、建立面向计费原始话单文件的实时数据抽取程序,其中包括话单的智能容错规则库。具体包括以下内容>建立基于XML格式的容错规则库,规则支持标准正则表达式,能够兼容主流交换机设备的话单格式>采用C++语言开发基于缓存的快速读取模块,保证实时性和高效性C、建立话单数据的多线程并行预处理程序,将抽取的话单数据,实现并行的高速分流处理,然后将数据进行汇总合并。具体包括>并行任务配置功能>存储使用配置功能>数据分流处理功能
>数据合并功能D、建立面向内存处理的实时分析程序,系统根据预先设定好的关键性指标,对合并的抽取数据进行实时分析,实时展现分析结果。具体包括>基于内存的分组查询,>特征分组查询,>汇总查询,>定时查询任务 >数据实时转换,>数据实时刷新等特征。本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
权利要求
1.一种面向计费数据的实时抽取和关键性指标分析方法,其特征在于,该方法的实现包括以下步骤 A、首先,建立面向计费话单文件的实时数据抽取进程和实时分析进程,设定待分析计费话单文件的关键性指标,将计费话单文件中的实时数据抽取到内存中; B、将已抽取到内存中的实时话单数据进行并行的分流处理,然后将各路分流数据进行汇总合并; C、通过实时分析进程,系统根据预先设定好的关键性指标,对合并的抽取数据进行实时分析,实时展现分析结果。
2.根据权利要求I所述的面向计费数据的实时抽取和关键性指标分析方法,其特征在于步骤B中,在内存中对抽取的实时话单数据进行并行的分流处理的速度不小于1000条话单数据/每秒。
3.根据权利要求I所述的面向计费数据的实时抽取和关键性指标分析方法,其特征在于步骤C中,直接对内存中的汇总数据进行实时的分析处理,通过web端的异步通讯技术进行数据指标的实时展现。
4.根据权利要求I所述的面向计费数据的实时抽取和关键性指标分析方法,其特征在于,该方法具体包括以下步骤 A、在内存中建立基于多线程机制的内存存储进程和查询进程; 所述的内存存储进程包含以下步骤; >内存参数定义步骤 >存储主实例定义步骤 >数据存储步骤 所述的查询进程包含; >数据查询步骤 >内存回收步骤 >并发内存统一管理步骤,包括并发访问下内存的查询、更新和存储; B、建立面向原始计费话单文件的实时数据抽取进程,其中包括对计费文件的智能容错规则库,具体包括以下内容 >建立基于XML格式的容错规则库,规则支持标准正则表达式,能够兼容主流交换机设备的话单格式; >建立基于缓存的数据读取进程; C、建立实时计费话单数据的多线程并行预处理进程,将抽取的话单数据,进行并行的分流处理,然后将数据进行汇总合并; 具体包括 >并行任务配置步骤 >存储使用配置步骤 >数据分流处理步骤 >数据合并步骤 D、建立面向内存处理的实时分析进程,系统根据预先设定好的关键性指标,对合并的抽取数据进行实时分析,实时展现分析结果,具体包括>基于内存的分组查询步骤 >特征分组查询即根据关键性指标,对应于各指标进行相应特征的分组查询的步骤 >汇总查询即根据指标的特征对指标进行分组查询和汇总 >定时查询任务步骤 >数据实时转换步骤 >数据实时刷新步骤。
5.根据权利要求I所述的面向计费数据的实时抽取和关键性指标分析方法,其特征在于在内存中采用多线程技术同时开辟多个内存块,进行并行的数据整理。
6.根据权利要求I所述的面向计费数据的实时抽取和关键性指标分析方法,其特征在于建立面向原始计费话单文件的实时数据抽取进程,其中包括对计费文件的智能容错规则库,是在兼容主流设备厂商话单格式的前提下,对不规则话单、异常话单进行自适应的容错处理。
全文摘要
一种面向计费业务的数据实时抽取和关键性指标实时分析方法,本发明面对电信、金融等行业计费数据的日以快速增长,能够实现对计费数据的实时抽取和分析,彻底解决传统的先存储再分析的滞后的数据分析方式。借助于基于内存的数据存储和处理方式,直接对计费原始话单进行实时处理,即运行,即分析,能够对相关关键性指标进行实时的反馈和跟踪,大大提高了计费领域的数据分析效率。在节省磁盘开销的同时,又保证了数据分析的实时性,相比于传统的先存储,再抽取,再分析的模式有着明显的优势。
文档编号H04L12/14GK102722354SQ20121018171
公开日2012年10月10日 申请日期2012年6月4日 优先权日2012年6月4日
发明者王渊 申请人:南京中兴软创科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1