一种多源异构行业领域大数据处理全链路解决方案的制作方法

文档序号:11286605阅读:550来源:国知局
一种多源异构行业领域大数据处理全链路解决方案的制造方法与工艺

本发明属于大数据处理技术领域。具体涉及一种多源异构行业领域大数据处理全链路解决方案。



背景技术:

随着信息技术在各行业领域深入应用,行业领域大数据极速产生和积累,例如金融领域的交易数据、电信领域的网络数据、交通运输的交通流量数据、教育领域的学生行为数据等。行业领域大数据具有明显的大数据特征,即所谓的4v特征属性:海量性(volume)、多样性(variety)、高速性(velocity)、价值性(value)。

这些数据规模庞大、种类繁多,但蕴含价值丰富,如果能从海量复杂数据中获得知识,将能够为各行业领域的活动提供智力支持,对人类的决策模式和社会经济的运行模式产生深远的影响。目前,在大数据的驱动下,各行各业都意识到迫切需要研究强大的大数据管理与处理平台、有效的数据处理技术和智能的数据分析算法,用于支撑实时数据统计、数据分析、复杂数据挖掘等应用。但大数据由采集、集成、存储、分析到产生价值,是一个复杂的过程。行业领域大数据的特征,为行业领域大数据管理与处理过程提出了诸多的挑战与困难:

1)面对跨系统分布、数据形式多样、结构各异的行业领域大数据,如何实现提出具有通用性的行业领域大数据处理流程?

2)面对数据量庞大、类型复杂,如何设计高效的数据存储架构,以满足实时快速的业务分析需求?

3)面对行业领域决策需求,如何构建多角度的数据分析模型,真正挖掘出大数据中蕴含的价值?

4)如何搭建全链路多源异构行业领域大数据处理平台,将行业领域大数据处理流程、高效存储架构、数据分析模型进行实践?

综上所述,信息爆炸时代的到来,大数据的研究价值非常巨大。随着数据管理、数据挖掘、云计算等研究技术的快速发展,许多有效的数据集成、数据融合、数据存储、分布式计算、数据分析技术纷纷涌现,为多源异构行业领域大数据处理的研究提供了理论基础和技术支持。在此背景下,针对行业领域大数据特征,研究多源异构数据集成,研究多层级存储架构,研究面向管理决策的多层次多维度数据分析,搭建全链路多源异构行业领域大数据处理平台,具有重要的研究意义和应用价值。



技术实现要素:

本发明的目的是解决如何管理规模庞大、种类繁多的行业领域大数据以及如何从其中获取知识的问题,在理解行业领域大数据海量性、多样性、快速性、价值性特点的基础上,根据行业领域管理决策的应用需求,对多源异构领域大数据处理关键技术进行深入研究,包括数据清洗融合、数据存储、深度分析等问题,设计并实现了多源异构行业领域大数据处理全链路解决方案。

本发明提供的多源异构行业领域大数据处理全链路解决方案详细步骤包括:

第1、归纳行业领域大数据处理流程

总结现有的大数据处理平台,在传统大数据处理基本流程基础上,结合行业领域大数据的可视性和真实性特点和领域应用需求,探索出面向行业领域大数据处理的最基本流程;

整个行业领域大数据的处理流程定义为,在不同的采集设备、工具和系统辅助下,对多个异构行业领域数据源进行抽取与集成,再根据数据的特点进行统一存储,结合行业应用多角度需求,利用数据分析技术对存储的数据进行分析和挖掘,获取管理决策知识,并利用可视化分析方法将结果展示给用户;行业领域大数据的处理流程可以划分为数据抽取与集成模块、数据存储模块、数据分析模块和可视分析模块。

(1)数据抽取与集成模块

行业领域大数据的数据源多种多样,例如通过设备实时采集的数据、不同用途的运营式系统产生的数据,要想处理大数据,首先要从不同数据源抽取所需的数据。由于数据来源广泛、结构各异且数据间可能存在不一致,数据抽取后必须对异质多源数据进行数据集成,包括清洗脏数据、数据类型转换等传统数据清洗数据转换方法,并针对领域大数据独有的真实性特点,提供数据融合功能以解决数据冲突,从而保证数据的完整性、一致性和正确性,提高数据的质量。

(2)数据存储模块

大数据处理过程中,需要按照一定的标准对各类数据进行统一存储管理。在行业领域大数据处理流程中,存在原始数据、数据清洗、融合、转换生成的中间数据、数据分析及用于可视化展示的结果数据,它们的数据类型、数据规模、数据用途不尽相同。本发明考虑构建三层级行业领域数据统一存储框架,以满足不同层级不同规模不同用途数据存储的需求。

(3)数据分析模块

数据分析是整个行业领域大数据处理流程的核心,是大数据价值特性的体现。大数据中知识价值密度低,知识覆盖方面广泛,需要按照一定的方式对数据进行全方面的分析。在大数据背景下传统数据统计和数据挖掘算法无法及时处理海量数据,分布式计算框架在二十世纪的前十年发挥关键作用,但随着时间的推移也出现了性能瓶颈。本发明考虑基于新一代分布式计算框架spark构建多层次多维度数据分析模型,以满足大数据背景下的数据分析。

(4)可视分析模块

行业领域大数据处理不仅要完成数据分析任务,还需要将数据分析结果进行直观体现。可视分析针对行业领域大数据的可视性特点,通过可视分析技术,将文字数据转换为直观易操作的图表,为决策提供更清晰的印象。本发明考虑基于html5和echarts.js结合的可视分析技术,构建提供数据选择、数据列选择、代码自动生成、代码可编辑的可视分析模块,以满足行业领域大数据背景下可视分析的需要。

第2、设计三层数据存储模型

获取行业领域原始数据之后,还应对其进行清洗、融合以及挖掘,故行业领域大数据分析需要多级存储,以满足包括指标数据、部门决策数据、数据分析基础数据和原始数据的存储、管理和计算。

定义1:用于选取数据存储模型时需要考虑的几项指标具体定义如下:

①.查询代价:查询代价是指在数据存储模型中对单位数据进行查询所耗费的时间;

②.插入代价:插入代价是指在数据存储模型中对单位数据进行插入操作所耗费的时间;

③.删除代价:删除代价是指在数据存储模型中删除单位数据所耗费的时间;

④.压缩效率:压缩效率是指数据压缩后的大小和压缩前的大小之比;

在选取每层数据存储模型时,每个指标对每层数据存储模型的影响程度是不一样的,通过分析这些指标对每层数据存储模型的影响大小来选取合适的数据存储工具以构建三层数据存储模型。

第2.1、设计第一层数据源层存储模型

为更完善的保存领域数据,本发明提出数据源层存储模型,用于存储从行业领域内众多外部数据源获取的源数据。数据源层存储模型中的数据量很大,这些数据中主要为结构化数据,例如普通的流水数据,这类数据往往存储于数据库中,比如sqlserver、mysql,其作为数据库中的表,具有查询容易,结构清晰的特点。行业领域大数据背景下的数据也包括了非结构化数据和半结构化数据,比如网站系统产生的日志文件,或者管理系统中的图片文件。这些数据往往以文本文件或者xml文件格式存储,其特点为结构化程度低,挖掘难度大。

数据源层数据,更多作为历史数据进行保存,并不作为日常数据分析访问使用,由于数据源层是整个存储模型的初始节点,一点数据修改或丢失将造成不可逆后果。因此,其存在生命周期长,访问频率低,数据价值密度低,数据丢失不可复现等特点。

第2.2、设计第二层中间数据层存储模型

中间数据层存储模型用于存储从数据源层存储模型经过一次或多次数据集成产生的用于分析的报表,这些报表经过了一次数据清洗和数据融合,一次或多次数据etl,数据知识密度更大,数据格式更加统一,这样的数据对日常的数据分析与数据挖掘提供了强有力的支撑。中间数据层存储模型将由数据源层存储模型经过数据集成产生的报表归入基础数据层表,将由基础数据层表经过etl产生的下游报表成为数据集市层表。基础数据层表是数据源层存储模型经过数据集成产生的临时表,用于支持日常数据分析;数据集市层表是基础数据层表经过etl产生的深入领域某一具体子域,用于支持某一具体方向的分析。

通过基础数据层表和数据集市层表的互动,使得中间数据层存储模型减少了对数据源层存储模型的依赖,一次抽取,多次使用,使得日常数据分析集中于中间数据层存储模型。中间数据层存储模型的数据可根据需求,每天或每小时从数据源层存储模型抽取最新的数据,并完成从基础数据层表上游根节点到数据集市层表下游叶子节点的依次产出,进而循环获取最新数据,更新数据挖掘分析的数据,获取更加即时的结果。

中间数据层存储模型的数据具有数据可以复现、访问频率高、上下游关系复杂、具有一定的生命周期的特点。由于中间数据层存储模型的数据源自数据源层,一旦出现数据丢失,可以重新执行数据集成过程以恢复数据,其数据丢失可以复现。中间数据层存储模型的数据往往访问频率很高,因为不仅当前表的所有下游表需要访问当前表的数据,可能数据挖掘分析中也需要访问当前表的数据。中间数据层存储模型的表往往存在较为复杂的上下游关系,在每天的新表生成阶段,下游表需要等待上游表产出才能运行。中间数据层存储模型的数据具有一定的生命周期,其生命周期往往有数据分析的需求决定,如果数据分析每天需要访问之前7天的数据,那么该表的生命周期就可以定为7-8天,当生命周期结束时应当对数据予以删除。这样既能满足数据分析的需要,也能减少存储产生的消耗。

第2.3、设计第三层结果表示层存储模型

中间层的数据依然是大数据,往往在gb、tb级别。常用的数据挖掘和数据分析结果往往具有高度的知识汇聚特性,其内容更多是具有高阶统计结果意义或者针对类簇进行汇总的数据。这些数据的大小往往很小,在kb、mb级别。

结果表示层存储模型用于存储上述(中间数据层存储模型)经过数据统计分析和数据挖掘分析产生的结果表,这些结果粒度大,知识密度高,用于支撑领域内日常分析和决策。

结果表示层存储模型的数据具有访问频率高、数据量小的特点。结果表示层存储模型数据往往在很多地方会得到引用,比如生成结果展示报表、比如产生折线图等实时、伪实时图表。每次作图和显示图表都会构成一次数据访问,其数据量级和数据访问频率量级和报表分析层均产生了非常显著的差别。

第3、提出面向管理决策的多层次多维度数据分析与知识发现方案

本发明介绍了一种多层次多维度的分析模型并给出其形式化定义,除此之外还设计了分布式决策知识发现方法。

第3.1、构建多层次多维度分析模型;

定义2,多层次多维度分析模型可以被定义成一个四元组的形式,dimension=(subject,time,attributes,rules),四元组分别是:

①.主体元(subject),为个体、群体或全体;其中个体指的是某一具体事物,大部分情况下指的是某一特定用户;群体指的是一群事物,这些事物往往具有某些共同特征,全体指的是所有事物的全集;

②.时间元(time),为年、月、日、小时或分钟的不同粒度,能够按照不同时间粒度进行统计分析;

③.属性元(attributes),存在单属性行为分析和多属性行为分析;单属性分析的意义在于分析某一属性的价值,而多属性分析则侧重于分析多个属性之间的联系和在多属性共同作用下对事物的影响;

④.规则元(rules),表示对属性元、时间元组施加的规则,这些规则可以是统计分析规则,也可以是数据挖掘算法;

在实际应用中,根据主题元和行为元的不同粒度,分为六个层次,分别为个体单属性分析、个体多属性分析、群体单属性分析、群体多属性分析、全体单属性分析、全体多属性分析。四组变量的变化方式是相似的,均具有上钻和下取的功能,上钻表示将粒度变大,考察更凝练的信息,下取则表示将粒度变小,聚焦更为具体的知识。如主体维度可以有个体上升为不同的群体,最终变为全体,而属性则可以有单属性变为多属性,规则可以根据不同的属性组合选取更合适的规则。

第3.2、设计基于spark的分布式决策知识发现方法。设计分布式数据挖掘算法,使之能够和分布式计算平台spark进行交互;

spark是ucberkeleyamp实验室开源的通用并行框架,是针对hadoop的不足提出的新型分布式计算框架。spark更好地利用内存,不再将map结果全部写回硬盘,而是通过内存进行操作,这一方式减少了大量的io代价,使得在大部分情况下,spark比hadoop都要快很多。spark通过弹性分布式数据存储(rdd)保存文件,rdd是spark对分布式文件的抽象,是带分区的记录集合。rdd通过简单的api支持大量操作,如map、sort、count等,能够满足数据处理需求。spark通过sparkstreaming支持流式数据处理。

本发明设计了包括协同过滤、关联规则、降维、分类与回归和聚类分析五个算法领域功能十四种分布式数据挖掘算法。同时支持用户自定义算法,用户可以上传以jar包格式封装好的代码,并通过算法调用页面将参数传入后台。

第4、构建行业领域大数据处理分析平台

本平台集成了典型的数据etl、清洗与融合技术,支持本发明提出的三级数据存储和多层次多维度数据分析,并提出了数据可视分析方法以及任务流管理方案。

第4.1、数据集成实现

数据集成模块主要完成从数据源导入数据源层、将数据从数据源层通过etl和清洗融合导入中间数据层存储模型中的基础数据层表、将数据从中间数据层存储模型的基础数据层表通过etl导入中间数据层存储模型的数据集市层表的功能。

第4.2、数据存储模型具体实现;根据第2步设计得到的三层数据存储模型,选取数据存储工具构建三层级的数据存储架构;

考虑hbase的数据压缩效果,本发明选取hbase作为数据源层存储模型数据存储;考虑mongodb在大数据量数据访问时突出的性能,选取mongodb作为中间数据层存储模型数据存储;考虑mysql在小数据量频繁访问上的优势,选取mysql作为结果表示层存储模型数据存储。

第4.3、数据分析实现;使用基于spark的分布式计算框架搭建数据分析模块;

spark作为新兴的分布式计算框架,其基于内存的运算方式使其较传统分布式计算框架hadoop有着显著性能提升。数据分析模块分为两个部分,数据统计分析和数据挖掘分析。

其中,数据统计分析基于sparksql,通过java语言与三级存储架构中的中间数据层存储模型建立连接,将用户需求由图形化语言转换为sparksql语言,完成对数据的求和、求平均值、求方差以及计算数据条目等基本的数据统计需求。

数据挖掘分析则集成包括前文列举的gbdt决策树算法和fism关联规则算法在内的共14种分布式数据挖掘算法,涉及协同过滤、关联规则、降维、分类与回归和聚类分析五个算法领域。同时数据挖掘分析支持用户自定义算法,用户可以上传以jar包格式封装好的代码,并通过算法调用页面将参数传入后台。

算法结构图如图2所示。

第4.4、数据可视分析;采用html5,echarts技术进行数据可视分析;

可视分析模块基于echarts实现,echarts是百度提供的javascript图表库,可以流畅的运行在pc和移动设备上,兼容当前绝大部分浏览器,底层依赖轻量级的canvas类库zrender。本可视分析模块在集成了echarts这些功能的基础上提供了数据输入接口,自动将用户选择数据同步到echarts图表中,降低了可视分析功能使用门槛,同时保留了用户编码模块,给用户更多的自由发挥的空间。主要工作流程如图3所示。

第4.5、任务流管理;使用上下游机制和基于任务队列的生产者消费者模型并行任务流调度;

本行业领域大数据分析平台支持任务流管理,图4给出了本平台任务流管理流程图,根据任务流管理流程,用户可以对已有任务进行管理,包括立即开始任务、预约开始任务以及删除任务。同时,用户可以创建新任务;用户可以自定义新任务的执行时间;可以指定前置任务:新任务必须在该前置任务完成之后执行,一般前置任务为上游任务,这样可以根据上游任务的完成情况执行下游任务;并且设置任务类型:任务类型包括数据抽取、数据清洗和融合以及数据统计和挖掘,对于不同类型的任务,用户可以自定义任务的步骤,并需要配置相应的参数;最后,保存任务,任务即在用户设定的时间内执行。

本平台支持基于任务队列的生产者消费者并行任务流调度,如图5所示。其中任务队列是维护任务流的类,任务队列会根据任务执行时间和上游任务是否执行完成判断当前任务是否可以被消费者消费。生产者(producer)负责将用户添加的任务以多线程方式插入任务队列中。消费者则以多线程方式从任务队列获取允许执行的任务,并交给下游执行节点执行任务

本发明的优点和积极效果

本发明提出了面向行业领域大数据的多层级存储架构方案,满足了行业领域大数据管理决策时对原始数据、基础数据、部门决策数据和最终指标数据的需求;本发明还设计了<主体,时间,属性,规则>四元组形式的多层次多维度分析模型,为自底向上的全面数据分析提供了理论支撑。

本发明所构建的多源异构行业领域大数据处理全链路解决方案能够从模式复杂的海量异构数据中发觉知识,为社会、政治、经济、文化等领域的管理决策提供强大的数据支持,改变领域内部运转方式,提高领域内部运转效率。

附图说明

图1是多源异构行业领域大数据处理全链路解决方案运作图;

图2是大数据平台数据分析部分算法架构图;

图3是可视化分析的主要工作流程;

图4是任务流管理流程图;

图5是基于生产者和消费者模型的任务流调度;

图6是mongodb与hbase之间批量插入的性能对比;

图7是多层次多维度分析模型;

图8是多层次多维度分析模型演变实例;

图9是学生上网流量模型;

图10是个人上网流量24小时趋势;

图11是学生上网兴趣爱好分布;

图12是上海交大人员在11时的分布图;

图13是数据存储架构图;

图14是可视分析数据选择示意图;

图15是idp2平台可视分析示意图;

图16是idp2平台任务流示意图。

具体实施方式

本发明的具体实施过程分为了四个实施阶段,以下是四个实施阶段的详细实施过程。

第1步、归纳行业领域大数据处理流程

大数据类型多种多样、来源广泛,如物联网大数据、社交网络大数据、互联网大数据、行业领域大数据、多媒体大数据等,它们的应用需求和数据类型不尽相同,但最基本的大数据处理流程较为一致。本发明在传统大数据处理基本流程基础上,结合行业领域大数据的可视性和真实性特点和领域应用需求,探索出面向行业领域大数据处理的最基本流程,如图1所示。

整个行业领域大数据的处理流程可以定义为,在不同的采集设备、工具、系统辅助下,对多个异构行业领域数据源进行抽取与集成,再根据数据的特点进行统一存储,结合行业应用多角度需求,利用数据分析技术对存储的数据进行分析和挖掘,获取管理决策知识,并利用可视化分析方法将结果展示给用户。上述处理流程可划分为数据抽取与集成、数据存储、数据分析、可视分析。

①数据抽取与集成

数据抽取与集成分为数据etl、数据清洗和数据融合问题。

1)数据etl

数据etl(extraction,transormationandloading)指的是,数据抽取、转化和装载。数据etl的核心是数据转化,也就是将既有数据转化为目标数据,继而将目标数据应用于数据挖掘和数据分析中。数据抽取是从数据源获取既有数据的过程,数据装载是转存目标数据的过程。因此,数据etl,是通过数据抽取、转化和装载,完成将数据源的既有数据经过加工,转化为目标数据并保存的数据处理过程。

2)数据清洗

多源异构数据以不同的格式存储在不同的数据源中,分离的数据存储带来信息的片段性,即单个或几个数据中所体现的信息是不完整的、片面的,会在分析时导致决断失误、线索中断等问题。数据清洗的目的是找出数据中存在的错误、缺失、冗余或异常,改正它们,以提高数据的质量。

在多源异构数据时代,衡量数据的指标包括一致性、正确性和完整性。而在实际操作中,数据可能因为在不同时间的录入导致数据不一致,也可能因为难以获取、录入错误、转移数据失误而导致数据缺失,影响数据的正确性,也会因为各种直接或者间接的原因导致数据错误。为了提升数据源的质量,以保证后续数据分析和数据挖掘过程有意义,进行多源异构数据清洗至关重要。

3)数据融合

数据融合是多源异构数据处理背景下的新兴课题。数据融合主要解决多数据源中数据值的准确性的问题,通过数据挖掘方法,从存在数据冲突的多个数据源中选取更真实可信的数值填充到融合结果中,又称冲突解决、真值发现。数据融合的前身是目标值填充,数据融合通过更加深入的研究,提供更准确快速地目标值填充方案。数据融合的目标则是知识融合,希望通过将多个数据源的数据更好地评估,获得最准确的最真实的数据,将数据集中的不仅是数据,还包括知识,融合在一起。

②数据存储

在行业领域大数据处理流程中,存在原始数据、数据清洗、融合、转换生成的中间数据、数据分析及用于可视化展示的结果数据,它们的数据类型、数据规模、数据用途不尽相同。故应该设计一个多层级数据存储模型来存放行业领域大数据处理流程中的各类数据。

③数据分析

数据分析是整个行业领域大数据处理流程的核心,是大数据价值特性的体现。大数据中知识价值密度低,知识覆盖方面广泛,需要按照一定的方式对数据进行全方面的分析。在大数据背景下传统数据统计和数据挖掘算法无法及时处理海量数据,分布式计算框架在二十世纪的前十年发挥关键作用,但随着时间的推移也出现了性能瓶颈。本发明考虑基于新一代分布式计算框架spark构建多层次多维度数据分析模型,以满足大数据背景下的数据分析。

④可视分析

行业领域大数据处理不仅要完成数据分析任务,还需要将数据分析结果进行直观体现。可视分析针对行业领域大数据的可视性特点,通过可视分析技术,将文字数据转换为直观易操作的图表,为决策提供更清晰的印象。本发明考虑基于html5和echarts.js结合的可视分析技术,构建提供数据选择、数据列选择、代码自动生成、代码可编辑的可视分析模块,以满足行业领域大数据背景下可视分析的需要。

第2步、设计三层数据存储模型

根据三层数据存储模型中各个存储层级的选取标准,本发明选取了新兴分布式nosql数据库的文档型数据库代表mongodb和列存数据库代表hbase作为候选,通过测试这些数据库对数据源层和中间数据层数据特点的契合度,选择对数据源层和中间数据层数据支持最好的数据库存储引擎作为各自的存储方案。在具体选取数据存储模型时需要分别考虑查询代价、插入代价、删除代价和/或压缩效率等几项指标,具体定义见发明内容部分定义1。

实验采用真实数据和随机数据结合的方式对两者性能进行对比实验。真实数据来源于上海交大emc数据集中的trade数据表、net_traffic数据表和weather数据表,数据量分别为7,915,289条、12,736,407条和79,980条。其数据结构如表(1)、表(2)和表(3)所示:

表(1)trade表

表(2)net_traffic表

表(3)weather表

实验针对系统实际使用情况设计了如下几个测试实例:

1)存储代价测试,插入weather表和net_traffic表数据,统计占用存储空间大小;

2)批量插入测试,每插入1万条做一次耗时记录;

3)索引单点查询,根据单属性索引进行单点查询;

在存储代价测试中,源文件分别为5mb大小的weather表和2.7gb大小的net_traffic。实验结果见表(4),可以看出,5mb大小的weather在mongodb和hbase下分别占用了28mb和48mb,2.7gb的net_traffic表则分别占用4.7gb和7.2gb。但hbase作为列存数据库有着强大的数据压缩算法,在对列簇进行snappy压缩后,hbase下weather表和net_traffic表分别仅占用9.1mb和2.4gb,数据压缩效果分别达到了18.8%和30.2%。

表(4)存储代价测试结果

图6展示了mongodb和hbase之间批量插入的性能对比结果。横坐标为插入记录数(万条),纵坐标为插入最新1万条数据所花的时间(毫秒)。图中时间花费高的表示mongodb,时间花费低的表示hbase。从总体上来说,可以看出hbase在批量插入时在平均插入时间上明显优于mongodb,并且mongodb在插入过程中每插入一定量的数据就会出现一次耗时代价峰值,这和mongodb分片机制中存储策略有关。

上述实验结果表明,hbase和mongodb在压缩前,数据占用比文本文件更大的存储量,并且hbase的数据压缩效果更好。mongodb是读效率更高的数据库引擎,而hbase是写效率更高的数据库引擎。

基于以上分析,可以得出,mongodb是增删查较为均衡的引擎,其提供二级索引,更适合访问读多于写入模式下的数据模式。本发明最终选择mongodb作为中间数据层的存储引擎。hbase优秀的写入特性和数据压缩比证明了其在分布式存储上的优势,其更适合大数据量的存储。本发明最终选择hbase作为数据源层的存储引擎。而结果表示层由于数据量很小,故选取了关系型数据库mysql。

第3步、提出面向管理决策的多层次多维度数据分析与知识发现方案

第3.1、多层次多维度分析模型

在领域大数据时代,数据中蕴含着大量的知识。如何去发现并分析大数据中存在的知识,使其更好地服务于数据拥有者,成为了重要的课题。本发明提出了多层次多维度分析模型,帮助用户更清晰、更全面的分析数据中蕴含的知识。

本发明将多层次多维度分析模型定义成一个四元组的形式,dimension=(subject,time,attributes,rules)。其详细定义见定义2。

根据本模型提出的四元组,本发明的模型可以用在实际应用中,根据主体元和行为元的不同粒度,分为六个层次,分别为个体单属性分析、个体多属性分析、群体单属性分析、群体多属性分析、全体单属性分析、全体多属性分析。

本模型共包含四组变量,分别是主体、时间、属性和规则。四组变量的变化方式是相似的,均具有上钻和下取的功能,上钻表示将粒度变大,考察更凝练的信息,下取则表示将粒度变小,聚焦更为具体的知识。如主体维度可以由个体上升为不同的群体,最终变为全体,而属性则可以由单属性变为多属性,规则可以根据不同的属性组合选取更合适的规则。在图7中的例子里,选取了消费数据集,数据集共五列,分别为消费者,消费时间,消费去向,消费金额和去向代码。在主体选取为个体,时间规定为小时,规则暂时不选取的情况下,图中展示了由个体单属性到个体多属性的变化趋势,对应的分析则可以是个体每天的消费去向分析,规则可以选取为统计求平均,就可以得到日均消费去向。同理,可以得到日均消费金额和日均消费去向类别。在完成个体单属性分析后,进而进行个体双属性组合分析,如图中可知进行了消费去向个人日均消费金额分析、去向对应类别及其个人消费习惯解析和去向类别个人消费金额习惯分析。最终可以进行个人消费习惯的全面建模。

在完成个人消费习惯建模后,可以选择不仅分析个人,进而分析群体,如毕业生的消费习惯与常人的异同。如图8所示,由个体单属性出发,可以进行群体单属性分析,例中为毕业生人数随时间变化分析,毕业生人均消费金额分析,毕业生消费去向类别分析。进而分析毕业生群体的消费习惯等。具体分析类型由规则决定,以上分析选取了相应的统计分析模型,而本模型支持数据挖掘算法的选择,如可以分析全体学生不同消费去向间的关联规则,得出哪几种消费更倾向于前后出现,更精确的定位学生的需求,为学生的生活更好地服务。

以下将通过一组多层次多维度分析实例,例证该模型的有效性。

实例采用真实数据例证模型有效性。真实数据来源于上海交大emc数据集中的消费信息表数据表、用户特征表和网络数据表。数据量分别为7,915,289条、8,000条、和12,736,407条。其数据结构表(1)、表(5)和表(2)所示:

表(5)用户特征表

依据多层次多维度分析模型,本发明从个人单属性出发,分析学生个人的流量习惯,通过对比个人习惯与普通人的差别,确认其为离群点。在实际分析中以流量中位数作为参考,分析个人上网流量24小时趋势,模型如图9。结果显示如图10所示,某博士和某硕士与普通人有显著差别,进而发现该硕士上网时间和流量均较多,需引起重视的结论。

从个人单属性出发,依次进行了个人多属性分析和群体单属性分析。基于个人多属性层,对每个用户进行用户画像,发掘用户性别、年龄、入学年份对上网行为、消费行为的影响。基于群体单属性层,本发明进行了兴趣爱好分析,得出男女生的上网兴趣爱好,如图11.a和图11.b所示,发现了男生的技术宅倾向和女生的消费倾向存在显著差异。

多层次多维度分析模型的提出,对领域大数据分析提供了指导。由上节举例可知,数据分析从个体单属性出发,解析单属性中存在的知识,以及其与个体、时间之间的关系。在完成一个或多个个体单属性分析后,可以由点及面,分析更多属性和更多主体给数据分析带来的变化,本着控制变量的原则,优先进行个体多属性分析和群体单属性分析。个体多属性分析负责完成用户画像,而群体单属性分析则意在判断各个属性对当前群体的影响力。同理,当完成个体和群体分析后,将主体上钻为粒度更大的全体,或者将单属性上钻为粒度更大的多属性,可以进一步揭示更多宏观的知识。

当确定主体元和属性元后,可以对时间进行上钻和下取,通过调整粒度进行时序分析。在时间元确定后,规则元的选择显得至关重要。主体、时间、属性确定了分析哪种事务,而规则的选取则确定了如何分析。规则包括数据统计方法,如求和、求平均值等,也包括了数据挖掘方法,如关联规则,聚类分析。规则对数据格式,尤其是数据是否连续有着严格的要求,根据已选中的主体、时间和属性的数据格式,可以轻松排除大部分规则,而剩余的较少的规则降低了数据分析的难度。

多层次多维度分析模型是一种带有明确方向的分析,从点出发,由点及面,步步深入,是一种自底向上的分析模式。多层次多维度分析模型是一种有明确方向和剪枝方式的穷举,一个有明确方向的穷举可以避免数据分析师在海量的数据和繁复的属性之间的迷失。完备的分析模型,可以得出更为全面的分析,避免因为疏忽而漏掉较为重要的分析角度。

第3.2、分布式决策知识发现方法

本发明设计了包括协同过滤、关联规则、降维、分类与回归和聚类分析五个算法领域功能十四种分布式数据挖掘算法。同时支持用户自定义算法,用户可以上传以jar包格式封装好的代码,并通过算法调用页面将参数传入后台。

第4步、构建行业领域大数据处理分析平台

本发明在研究数据集成方法的基础上提出数据存储模型和数据分析模型,并构建行业领域大数据处理平台(industrydataprocessingplatform,简称idp2)。idp2平台基于spark计算框架,集成了典型的数据etl、清洗与融合技术,支持本发明提出的三级数据存储和多层次多维度数据分析,并提出了数据可视分析方法以及任务流管理方案。

第4.1、数据集成实现

数据集成模块主要完成数据抽取、数据清洗、数据融合、数据转化和数据装载。考虑三级存储架构,即数据源层、中间数据层和结果表示层,数据集成模块主要完成从数据源导入数据源层、将数据从数据源层通过etl和清洗融合导入中间数据层中的基础数据层、将数据从中间数据层的基础数据层通过etl导入中间数据层的数据集市层的功能。

数据etl领域相关工具已经较为成熟,idp2平台通过良好的基于web的用户操作界面捕获用户需求,将用户的数据抽取、转换和装载需求以xml配置文件形式存入数据库的数据流中,再通过调用开源etl工具kettle的api,将配置文件内容传入kettle中。kettle中集成了众多基于jdbc的数据库连接模式,其根据配置文件参数生成相应的数据库操作语句,完成数据的抽取、转换和装载。具体调用命令如下:

"c:\programfiles\java\jdk1.7.0_51\bin\java.exe"″-xmx512m"″-xx:maxpermsize=256m"″-djava.library.path=libswt\win64"″-dkettle_home="″-dkettle_repository="″-dkettle_user="″-dkettle_password="″-dkettle_plugin_packages="″-dkettle_log_size_limit="″-dkettle_jndi_root="-jarlauncher\pentaho-application-launcher-5.3.0.0-213.jar-lib..\libswt\win64-mainorg.pentaho.di.pan.pan/filec:\\kettle\\orderf2c299c6-908f-47a0-8da5-86369a5c92d4.xml

kettle集成了大部分数据集成功能,常用的如下所示:

数据抽取:包括表输入、文件输入等输入格式,具体输入格式包括mysql、mssql、oracle等传统关系型数据库,mongodb、hbase等新兴nosql数据库,xml等半结构化数据和文本文档等非结构化数据。

数据转换:包括表连接、字段选择、记录集合并等诸多数据转换方式,完成大部分数据转换需求。从外部数据源抽取的数据不允许进行数据转换。

数据装载:将数据抽取转换后的数据存储三级存储中。三级存储对用户透明,数据装载将根据数据源的不同将数据自动归类。从外部数据源抽取的数据将归入数据源层,而从数据源层和中间数据层的基础数据层数据将进入中间数据层的数据集市层表。数据装载不会将数据装载到结果表示层。

数据清洗:包括缺失值填充、噪声光华、无用属性删除、逻辑错误检查、数据标准化、数据规范化和数据离散化等常规数据清洗方法。

idp2平台的数据集成模块的功能需求主要完成数据从数据源装载入源数据层,以及将数据源层的数据经过数据etl和数据清洗融合装载入中间数据层的基础数据层,和将中间数据层的基础数据层数据经过etl和清洗融合进行转化并装载入中间数据层的数据集市层中。

kettle作为开源etl工具,并未集成多源异构数据处理中必须的数据融合算法。因此idp2平台对kettle工具进行了封装,并增加了基于聚类的数据融合相关算法。平台集成了crm算法,该算法通过数据真值与估计值的残差加权求和,逐步调整数据权重,该算法证明了数据权重计算是可收敛的,并以最后数据权重加权后的真值作为最终返回值。数据融合算法的加入,对多数据源的数据有效性进行了有效评估,通过数据融合算法对源数据进行处理,选取更接近真值的数值作为最终评价标准,保证了数据源的正确性。

第4.2、数据存储实现

本发明提出基于数据源层、中间数据层和结果表示层的三层数据存储模型。为实现底层存储模型对上层应用的透明,本发明引入了数据通道概念。

数据通道是系统中数据传输的唯一途径。idp2系统中的通道datachannel类维护数据传输工作,通过datachannel维护所有数据存取的api。datachannel的提出约束了数据传输的渠道,通过维护、优化datachannel可以更好地规范化数据传输、提升数据传输效率、降低数据传输延迟,保证了多源异构数据存取的高效稳定。

数据通道实现底层存储对用户请求的透明。数据通道将用户对数据的请求根据用户的操作映射到不同的数据存储管理服务,数据源层数据管理、中间数据层数据管理和结果表示层数据管理则根据这些请求将用户的请求读取或写入的数据映射到数据服务器中。数据通道的提出使得用户无需知晓数据处于数据源层、中间数据层或者结果表示层,用户通过提供数据库名和数据表名,系统会自动匹配其存储层次,通过相应api获取相应层次的数据。数据存储架构图如图13所示。

在数据通道的基础上,根据实验结果,考虑hbase的数据压缩效果,本发明选取hbase作为数据源层数据存储;考虑mongodb在大数据量数据访问时突出的性能,选取mongodb作为中间数据层数据存储;考虑mysql在小数据量频繁访问上的优势,选取mysql作为结果表示层数据存储。

第4.3、数据分析实现

spark作为新兴的分布式计算框架,其基于内存的运算方式使其较传统分布式计算框架hadoop有着显著性能提升。idp2基于spark框架搭建了数据分析模块,表(6)展示了idp2基于1个master节点和3个worker节点的spark集群配置。

表(6)spark集群的配置

数据分析模块分为两个部分,数据统计分析和数据挖掘分析。

其中,数据统计分析基于sparksql,通过java语言与三级存储架构中的中间数据层建立连接,将用户需求由图形化语言转换为sparksql语言,完成对数据的求和、求平均值、求方差以及计算数据条目等基本的数据统计需求。

数据挖掘分析则集成包括gbdt决策树算法和fism关联规则算法在内的共14种分布式数据挖掘算法,涉及协同过滤、关联规则、降维、分类与回归和聚类分析五个算法领域。同时数据挖掘分析支持用户自定义算法,用户可以上传以jar包格式封装好的代码,并通过算法调用页面将参数传入后台。idp2平台数据分析部分功能架构图如图2所示。

数据分析提供输入数据的格式转换功能,支持数值型数据和离散型数据的转换。但数据分析不鼓励这种行为,数据转换工作应在etl中完成。

数据分析提供良好的结果转换功能,为上述所有算法提供契合可视分析格式的转换功能,将数据分析的结果存入结果表示层,为后续可视分析提供良好的支持。

第4.4、数据可视分析

作为领域大数据集成存储分析平台,idp2不仅支持数据集成功能和分布式数据分析功能,还进一步提供了基于html5的网页端可视分析模块。本数据可视分析模块无需用户编码,用户仅需要进行简单的数据源选择,图表选择,数据列选择就可以生成直观、生动、可交互、可高度个性化定制的报表。

可视分析模块流程如下。首先,用户根据需要选择数据源:可选数据源为数据文件或者上层的数据分析挖掘任务的执行结果。然后,用户选择具体的数据内容作为生成图表的数据源,选择要生成的图表类型,即可产生对选取的数据源的可视化分析结果。用户可以根据自己的需要,保存生成的可视化结果。

可视分析模块基于echarts实现,echarts是百度提供的javascript图表库,可以流畅的运行在pc和移动设备上,兼容当前绝大部分浏览器,底层依赖轻量级的canvas类库zrender。本可视分析模块在集成了echarts这些功能的基础上提供了数据输入接口,自动将用户选择数据同步到echarts图表中,降低了可视分析功能使用门槛,同时保留了用户编码模块,给用户更多的自由发挥的空间。可视化分析的主要工作流程如图3所示。

为提升用户体验,idp2平台可视分析模块做了如下优化:

直观性优化:在用户选取数据源和数据列时,可视分析模块提供数据预览功能,在选取数据表类型后,用户可以直观的看到数据预览,并可直接选中需要的列,后台将根据用户选择的数据列自动生成图表。模块对数据显示进行了优化,不会因为数据列过多或者行过多而造成溢出。如图14所示,点击第一列和第三列,代表选中了这两列的数据。

代码编辑功能:可视分析模块支持自动生成图表,并支持用户自定义代码功能。用户编辑代码功能更大限度的给予了用户自由度,用户可以查看自动生成的代码,并按照语法进行编辑,最后通过“运行”按钮执行代码,实际效果如图15所示。

第4.5、任务流关键技术

第4.5.1任务流管理模块

idp2平台支持任务流管理,图4给出了idp2平台任务流管理流程图,根据idp2任务流管理流程,用户可以对已有任务进行管理,包括立即开始任务、预约开始任务以及删除任务。同时,用户可以创建新任务;用户可以自定义新任务的执行时间;可以指定前置任务:新任务必须在该前置任务完成之后执行,一般前置任务为上游任务,这样可以根据上游任务的完成情况执行下游任务;并且设置任务类型:任务类型包括数据抽取、数据清洗和融合以及数据统计和挖掘,对于不同类型的任务,用户可以自定义任务的步骤,并需要配置相应的参数;最后,保存任务,任务即在用户设定的时间内执行。

任务流的关键就在于上下游机制,上下游机制的提出使得任务不再是孤立的任务,而是一个包含上游输入和下游访问的流式机制。任务流是有向无环图,dp2会根据任务流调度技术完成任务流中任务的执行。图16显示了包含9个任务的任务流,其中根节点为任务1,其它任务需等待任务1完成后执行。任务1包含3个子节点,当任务1完成后,三个子节点会被唤醒,如果子节点已经到达执行时间,会被任务流调度机制中的消费者带走并执行。任务8需要等待任务6和任务7完成后执行。在创建任务时平台会检验任务流是否成立,并拒绝会导致死锁的任务配置。

第4.5.2任务流调度技术

idp2平台支持基于任务队列的生产者消费者并行任务流调度,如图5所示。其中任务队列是维护任务流的类,任务队列会根据任务执行时间和上游任务是否执行完成判断当前任务是否可以被消费者消费。生产者(producer)负责将用户添加的任务以多线程方式插入任务队列中。消费者(consumer)则以多线程方式从任务队列获取允许执行的任务,并交给下游执行节点执行任务。

生产者支持多线程,当用户提交任务时,idp2平台会生成一个producer任务保存当前任务,如果当前时刻任务队列已被其它线程锁定,生产者会睡眠直到被任务队列唤醒。

任务队列会维护所有待执行的任务列表,任务会以时间倒序排序,最接近执行的任务会被放在第一位。任务队列按照一定时间间隔检查任务是否到达执行时间,如果达到执行时间则会检查任务前置任务是否完成。由于任务队列按照时间排序,对任务的遍历在遇到未到执行时间的任务则会跳出当前遍历。如果任务执行时间已到且任务前置任务已完成,则会唤醒消费节点,消费节点如果当前没有任务,会消费该任务,并调用执行节点执行该任务。

消费者支持多线程,在平台启动时会启动多个消费者线程,如果有任务应该执行,任务队列会唤醒这些消费者线程,消费者线程如果当前无任务,会消费该任务。消费者负责提取任务,并将任务交给下游执行节点执行,消费者本身并不执行任务。

通过上述基于任务队列的生产者消费者并行任务流调度,idp2保证了任务流的稳定执行。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1