一种轨道交通大数据分析方法及系统与流程

文档序号:14488842阅读:269来源:国知局
一种轨道交通大数据分析方法及系统与流程

本发明涉及大数据分析技术领域,尤其涉及一种轨道交通大数据分析方法及系统。



背景技术:

现如今,轨道交通飞速发展,对轨道交通大数据进行分析是非常重要的,例如,对城市轨道交通客流数据进行分析,做好客流预测,有利于行运管理。然而,轨道交通大数据的规模巨大,如何快速准确的对海量的轨道交通大数据进行大数据分析,找到轨道交通大数据的内部规律是一个急需解决的问题。



技术实现要素:

本发明实施例的主要目的在于提供一种轨道交通大数据分析方法及系统,解决了如何快速准确的对海量的轨道交通大数据进行大数据分析,找到轨道交通大数据的内部规律的问题。

为实现上述目的,本发明实施例第一方面提供一种轨道交通大数据分析方法,所述方法包括:

获取预存于若干轨道交通数据库中的原始数据;

对所述原始数据进行大数据分析预处理,得到待计算数据;

对所述待计算数据进行分布式计算处理,得到待分析数据;

对所述待分析数据进行大数据分析。

可选的,所述对所述原始数据进行大数据分析预处理,得到待计算数据,包括:

对所述原始数据执行数据清理操作,得到第一目标数据;

对所述第一目标数据进行数据集成及变换处理,得到第二目标数据;

对所述第二目标数据进行数据规约处理,得到所述待计算数据。

可选的,所述对所述原始数据执行数据清理操作,得到第一目标数据,包括:

利用遗漏值处理算法及预设的筛选属性值对所述原始数据进行数据筛选,得到所述得到第一目标数据;

或者,

利用噪音数据处理算法及预设的筛选属性值对所述原始数据进行数据筛选,得到所述得到第一目标数据。

可选的,所述对所述第一目标数据进行数据集成及变换处理,得到第二目标数据,包括:

对所述第一目标数据依次进行数据匹配处理、数据冗余处理及数据冲突变化处理,得到所述第二目标数据。

可选的,所述对所述第二目标数据进行数据规约处理,得到所述待计算数据,包括:

对所述第二目标数据依次进行维归约处理、数据压缩处理、数值规约处理及概念封层处理,得到所述待计算数据。

为实现上述目的,本发明实施例第二方面提供一种轨道交通大数据分析系统,所述系统包括:

获取模块,用于获取预存于若干轨道交通数据库中的原始数据;

预处理模块,用于对所述原始数据进行大数据分析预处理,得到待计算数据;

分布式计算模块,用于对所述待计算数据进行分布式计算处理,得到待分析数据;

分析模块,用于对所述待分析数据进行大数据分析。

可选的,所述预处理模块包括:

数据清理模块,用于对所述原始数据执行数据清理操作,得到第一目标数据;

数据集成及变换模块,用于对所述第一目标数据进行数据集成及变换处理,得到第二目标数据;

数据规约模块,用于对所述第二目标数据进行数据规约处理,得到所述待计算数据。

可选的,所述数据清理模块具体用于:

利用遗漏值处理算法及预设的筛选属性值对所述原始数据进行数据筛选,得到所述得到第一目标数据;

或者,

利用噪音数据处理算法及预设的筛选属性值对所述原始数据进行数据筛选,得到所述得到第一目标数据。

可选的,所述数据集成及变换模块具体用于:

对所述第一目标数据依次进行数据匹配处理、数据冗余处理及数据冲突变化处理,得到所述第二目标数据。

可选的,所述数据规约模块具体用于:

对所述第二目标数据依次进行维归约处理、数据压缩处理、数值规约处理及概念封层处理,得到所述待计算数据。

本发明与现有技术相比,有益效果在于:

本发明实施例提供一种轨道交通大数据分析方法,该方法包括:获取预存于若干轨道交通数据库中的原始数据,对原始数据进行大数据分析预处理,得到待计算数据,对待计算数据进行分布式计算处理,得到待分析数据,对待分析数据进行大数据分析。与现有技术相比,通过对轨道交通数据库中的原始数据进行大数据分析预处理得到待计算数据,可以去除重复及不需要进行分析的数据,提高数据的准确率,对待计算数据进行分布式计算处理,将待计算数据分解成许多小的部分,分配给多台服务器进行计算,得到待分析数据,可以节约整体计算时间,大大提高计算效率,再对待分析数据进行分析,从而可以快速准确的对海量的轨道交通大数据进行大数据分析,找到轨道交通大数据的内部规律。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的一种轨道交通大数据分析方法的流程示意图;

图2为图1所示实施例中的步骤102的细化步骤流程示意图;

图3为本发明第二实施例提供的一种轨道交通大数据分析系统的结构示意图;

图4为图3所示实施例中的预处理模块302的细化结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在进行轨道交通大数据分析之前,需要搭建轨道交通大数据分析平台,轨道交通大数据分析平台搭建主要分为两步,第一步是安装linux系统,多使用开源版的redhat系的社区企业操作系统(communityenterpriseoperatingsystem,centos)作为底层平台。为了提供稳定的硬件基础,在给硬盘做磁盘阵列(redundantarraysofindependentdisks,raid)和挂载数据存储节点时,需要按具体情况配置,例如,可以选择给分布式文件系统(hadoopdistributedfilesystem,hdfs)的主节点namenode做raid以提高其稳定性,将数据存储与操作系统分别配置在不同硬盘上,以确保linux系统的正常运行。第二步是安装分布式计算组件,分布式系统使用的是hadoop系列开源系统,hadoop的核心是hdfs,一个分布式的文件系统,包含多个组件,多个组件可以实现对大数据的分析。在成功搭建轨道交通大数据分析平台后,利用该平台进行轨道交通大数据分析,具体分析流程请参阅下述内容。

请参阅图1,为本发明第一实施例提供的一种轨道交通大数据分析方法的流程示意图,该方法包括:

步骤101、获取预存于若干轨道交通数据库中的原始数据;

在本发明实施例中,上述轨道交通大数据分析方法适用于轨道交通大数据分析系统,该系统预设若干轨道交通数据库,若干轨道交通数据库存储着大量的原始数据,获取预存于若干轨道交通数据库中的原始数据主要有两种,一种是可以直接从轨道交通数据库中调用上述原始数据,另一种是将上述原始数据从轨道交通数据库中导出。

步骤102、对所述原始数据进行大数据分析预处理,得到待计算数据;

在本发明实施例中,若干轨道交通数据库中获取的原始数据中,存在着需要进行分析的数据,也存在着大量不需要进行分析的数据,且上述原始数据中可能存在着错误的数据,所以需要对上述原始数据进行大数据分析预处理,得到需要的数据。

步骤103、对所述待计算数据进行分布式计算处理,得到待分析数据;

在本发明实施例中,大数据分析需要服务器具有极其强大的计算能力,因此,可以利用服务器的大量集群对待计算数据进行分布式计算处理,从而快速提升计算能力。在服务器集群中,每一台服务器都可视为计算能力的细小单位,在计算任务下达时,将待计算数据分给服务器集群中的每一台服务器进行计算处理,得到待分析数据。

步骤104、对所述待分析数据进行大数据分析。

在本发明实施例中,得到的待分析数据都是有价值的数据,利用图形化加工方法、变量计算法、趋势分析法中的任意一种方法对待分析数据进行大数据分析。其中,图形化加工方法是把数据反映在图形上,例如柱状图,对图形进行分析;变量计算法是在某一个值相同的时候比对其他属性的值;趋势分析法是通过大量的数据推算出未来发生的事件的可能性。

在本发明实施例中,获取预存于若干轨道交通数据库中的原始数据,对原始数据进行大数据分析预处理,得到待计算数据,对待计算数据进行分布式计算处理,得到待分析数据,对待分析数据进行大数据分析。与现有技术相比,通过对轨道交通数据库中的原始数据进行大数据分析预处理得到待计算数据,可以去除重复及不需要进行分析的数据,提高数据的准确率,对待计算数据进行分布式计算处理,将待计算数据分解成许多小的部分,分配给多台服务器进行计算,得到待分析数据,可以节约整体计算时间,大大提高计算效率,再对待分析数据进行分析,从而可以快速准确的对海量的轨道交通大数据进行大数据分析,找到轨道交通大数据的内部规律。

请参阅图2,为图1所示实施例中的步骤102的细化步骤流程示意图,包括:

步骤201、对所述原始数据执行数据清理操作,得到第一目标数据;

在本发明实施例中,原始数据包括购票时间、起始站、终点站、开车时间、购票人数等多种数据,上述每一种数据代表了一个属性,此外,在系统中,也预先存储着遗漏值处理算法或噪音数据处理算法,遗漏值处理算法和噪音数据处理算法的工作原理是对属性进行筛选,筛选后留下的属性所对应的数据即为第一目标数据。例如,需要分析从a站到b站的客流量,则预先选定起始站为a站的属性及终点站为b站的属性,起始站a站与终点站b站表示上述预设的筛选属性值,利用遗漏值处理算法、预设的筛选属性值(起始站a站与终点站b站)对原始数据的属性进行筛选,得到起始站a站与终点站b站的有关数据,并作为第一目标数据;或者利用噪音数据处理算法、预设的筛选属性值(起始站a站与终点站b站)对原始数据的属性进行筛选,得到起始站a站与终点站b站的有关数据,并作为第一目标数据。

步骤202、对所述第一目标数据进行数据集成及变换处理,得到第二目标数据;

在本发明实施例中,对上述第一目标数据依次进行数据匹配处理、数据冗余处理及数据冲突变化处理,得到第二目标数据。

其中,数据匹配处理是因为来自于不同轨道交通数据库中的原始数据,有的数据的属性因为数据库不同,属性的命名可能会存在差异,但本质上是同一属性,所以需要对第一目标数据进行数据匹配处理,将命名存在差异但本质上是同一属性的数据合并在一起。

数据冗余处理是用皮尔逊积矩计算不同的属性的数据之间的绝对值,绝对值越大表明两个属性相关性越强,利用绝对值的大小将相关性弱的属性的数据进行剔除。

数据冲突变化处理主要表现为,来自于不同轨道交通数据库中的同一属性的数据,有的数据过大或过小,与同一属性的其他数据存在着明显的差异,则需要对存在着明显的差异的数据进行替换,其主要过程为平滑、聚散、数据泛化及数据规范化。

步骤203、对所述第二目标数据进行数据规约处理,得到所述待计算数据。

在本发明实施例中,对上述第二目标数据依次进行维归约处理、数据压缩处理、数值规约处理及概念封层处理,得到待计算数据。其中,维归约处理就是从第二目标数据中删除某属性对应的数据,之后,对数据进行压缩处理,可以缩小数据容量、提高计算速度,再之后进行数值规约处理,删除某一行或某一列的数据,最后进行概念封层处理,概念封层处理就是按照属性的重要性进行排序。

在本发明实施例中,对原始数据执行数据清理操作,得到第一目标数据,之后对上述第一目标数据进行数据集成及变换处理,得到第二目标数据,再对上述第二目标数据进行数据规约处理,得到待计算数据,通过上述方式可以去除重复及不需要进行分析的数据,提高数据的准确率,对准确率提高的待计算数据进行计算得到待分析数据,并对待分析数据进行分析,提高分析的准确率,并可以准确的找到轨道交通大数据的内部规律。

请参阅图3,为本发明第二实施例提供的一种轨道交通大数据分析系统的结构示意图,包括:

获取模块301,用于获取预存于若干轨道交通数据库中的原始数据;

在本发明实施例中,上述轨道交通大数据分析方法适用于轨道交通大数据分析系统,该系统预设若干轨道交通数据库,若干轨道交通数据库存储着大量的原始数据,获取模块301获取预存于若干轨道交通数据库中的原始数据主要有两种,一种是可以直接从轨道交通数据库中调用上述原始数据,另一种是将上述原始数据从轨道交通数据库中导出。

预处理模块302,用于对所述原始数据进行大数据分析预处理,得到待计算数据;

在本发明实施例中,若干轨道交通数据库中获取的原始数据中,存在着需要进行分析的数据,也存在着大量不需要进行分析的数据,且上述原始数据中可能存在着错误的数据,所以需要利用预处理模块302对上述原始数据进行大数据分析预处理,得到需要的数据。

分布式计算模块303,用于对所述待计算数据进行分布式计算处理,得到待分析数据;

在本发明实施例中,大数据分析需要服务器具有极其强大的计算能力,因此,可以利用服务器的大量集群对待计算数据进行分布式计算处理,从而快速提升计算能力。在服务器集群中,每一台服务器都可视为计算能力的细小单位,在计算任务下达时,将待计算数据分给服务器集群中的每一台服务器进行计算处理,得到待分析数据。

分析模块304,用于对所述待分析数据进行大数据分析。

在本发明实施例中,得到的待分析数据都是有价值的数据,利用图形化加工方法、变量计算法、趋势分析法中的任意一种方法对待分析数据进行大数据分析。其中,图形化加工方法是把数据反映在图形上,例如柱状图,对图形进行分析;变量计算法是在某一个值相同的时候比对其他属性的值;趋势分析法是通过大量的数据推算出未来发生的事件的可能性。

在本发明实施例中,获取模块301获取预存于若干轨道交通数据库中的原始数据,预处理模块302对原始数据进行大数据分析预处理,得到待计算数据,分布式计算模块303对待计算数据进行分布式计算处理,得到待分析数据,分析模块304对待分析数据进行大数据分析。与现有技术相比,通过对轨道交通数据库中的原始数据进行大数据分析预处理得到待计算数据,可以去除重复及不需要进行分析的数据,提高数据的准确率,对待计算数据进行分布式计算处理,将待计算数据分解成许多小的部分,分配给多台服务器进行计算,得到待分析数据,可以节约整体计算时间,大大提高计算效率,再对待分析数据进行分析,从而可以快速准确的对海量的轨道交通大数据进行大数据分析,找到轨道交通大数据的内部规律。

请参阅图4,为图3所示实施例中的预处理模块302的细化结构示意图,包括:

数据清理模块401,用于对所述原始数据执行数据清理操作,得到第一目标数据;

其中,数据清理模块具体用于:

利用遗漏值处理算法及预设的筛选属性值对原始数据进行数据筛选,得到得到第一目标数据;

或者,

利用噪音数据处理算法及预设的筛选属性值对原始数据进行数据筛选,得到得到第一目标数据。

在本发明实施例中,原始数据包括购票时间、起始站、终点站、开车时间、购票人数等多种数据,上述每一种数据代表了一个属性,此外,在系统中,也预先存储着遗漏值处理算法或噪音数据处理算法,遗漏值处理算法和噪音数据处理算法的工作原理是对属性进行筛选,筛选后留下的属性所对应的数据即为第一目标数据。例如,需要分析从a站到b站的客流量,则预先选定起始站为a站的属性及终点站为b站的属性,起始站a站与终点站b站表示上述预设的筛选属性值,数据清理模块401利用遗漏值处理算法、预设的筛选属性值(起始站a站与终点站b站)对原始数据的属性进行筛选,得到起始站a站与终点站b站的有关数据,并作为第一目标数据;或者数据清理模块401利用噪音数据处理算法、预设的筛选属性值(起始站a站与终点站b站)对原始数据的属性进行筛选,得到起始站a站与终点站b站的有关数据,并作为第一目标数据。

数据集成及变换模块402,用于对所述第一目标数据进行数据集成及变换处理,得到第二目标数据;

其中,数据集成及变换模块具体用于:

对第一目标数据依次进行数据匹配处理、数据冗余处理及数据冲突变化处理,得到第二目标数据。

在本发明实施例中,数据集成及变换模块402对上述第一目标数据依次进行数据匹配处理、数据冗余处理及数据冲突变化处理,得到第二目标数据。

其中,数据匹配处理是因为来自于不同轨道交通数据库中的原始数据,有的数据的属性因为数据库不同,属性的命名可能会存在差异,但本质上是同一属性,所以需要对第一目标数据进行数据匹配处理,将命名存在差异但本质上是同一属性的数据合并在一起。

数据冗余处理是用皮尔逊积矩计算不同的属性的数据之间的绝对值,绝对值越大表明两个属性相关性越强,利用绝对值的大小将相关性弱的属性的数据进行剔除。

数据冲突变化处理主要表现为,来自于不同轨道交通数据库中的同一属性的数据,有的数据过大或过小,与同一属性的其他数据存在着明显的差异,则需要对存在着明显的差异的数据进行替换,其主要过程为平滑、聚散、数据泛化及数据规范化。

数据规约模块403,用于对所述第二目标数据进行数据规约处理,得到所述待计算数据。

其中,数据规约模块具体用于:

对第二目标数据依次进行维归约处理、数据压缩处理、数值规约处理及概念封层处理,得到待计算数据。

在本发明实施例中,数据规约模块403对上述第二目标数据依次进行维归约处理、数据压缩处理、数值规约处理及概念封层处理,得到待计算数据。其中,维归约处理就是从第二目标数据中删除某属性对应的数据,之后,对数据进行压缩处理,可以缩小数据容量、提高计算速度,再之后进行数值规约处理,删除某一行或某一列的数据,最后进行概念封层处理,概念封层处理就是按照属性的重要性进行排序。

在本发明实施例中,数据清理模块401对原始数据执行数据清理操作,得到第一目标数据,之后数据集成及变换模块402对上述第一目标数据进行数据集成及变换处理,得到第二目标数据,数据规约模块403再对上述第二目标数据进行数据规约处理,得到待计算数据,通过上述方式可以去除重复及不需要进行分析的数据,提高数据的准确率,对准确率提高的待计算数据进行计算得到待分析数据,并对待分析数据进行分析,提高分析的准确率,并可以准确的找到轨道交通大数据的内部规律。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上为对本发明所提供的一种轨道交通大数据分析方法及系统的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1