一种基于大数据的轨道交通数据分析方法与流程

文档序号:33896764发布日期:2023-04-21 05:27阅读:来源:国知局

技术特征:

1.一种基于大数据的轨道交通数据分析方法,其特征在于,所述轨道交通数据分析方法包括以下步骤:

2.根据权利要求1所述的一种基于大数据的轨道交通数据分析方法,其特征在于,所述步骤s1中数据采集包括对轨道设备维修数据的采集,维修数据包括结构化数据、半结构化数据和非结构化数据。

3.根据权利要求1所述的一种基于大数据的轨道交通数据分析方法,其特征在于,所述步骤s2中清洗数据包括以下步骤:

4.根据权利要求3所述的一种基于大数据的轨道交通数据分析方法,其特征在于,所述步骤s11中计算缺失值比例按照以下规则进行:重要性和缺失比率处理规则,重要性高且缺失率高的字段,需要进行填充缺失内容,重要性高且缺失率低的字段,需要进行填充缺失内容,重要性低且缺失率高的字段,可直接去除该字段,重要性低且缺失率低的字段,可不做处理或者简单操作补充。

5.根据权利要求4所述的一种基于大数据的轨道交通数据分析方法,其特征在于,对于需要进行填充缺失内容的字段,数据填充一般可通过以下方式:方式一、人工参与的方式填充缺失值,例如经验累计,专业知识等;方式二、通过同一字段的数据进行简单计算,例如平均数、众数等;方式三、以多个字段的组合通过一定规则计算结果填充缺失值;方式四、如果某些指标非常重要又缺失率高,可进行的操作包括重新进行数据采集工作,或者通过其他渠道获取相关的数据集。

6.根据权利要求1所述的一种基于大数据的轨道交通数据分析方法,其特征在于,所述步骤s3中构建数据词典包括以下步骤:

7.根据权利要求6所述的一种基于大数据的轨道交通数据分析方法,其特征在于,所述步骤s22中当对一个字符串进行处理的时候,从首字hash表进行查找,如果不存在该单字,在hash表中创建该单字,创建链表,同时将hash表指针指向链表;如果存在该单字,则进行链表的指针指向处理,最后对出现的单字进行次数更新。

8.根据权利要求1所述的一种基于大数据的轨道交通数据分析方法,其特征在于,所述步骤s4对数据词典进行分词过程中,采用正向最大匹配算法,在该算法中,首先,找到词典的最长词长l,对于待切分的字符串,从最左边开始取出l个字符进行匹配,如果取出的字符串能够在词典中匹配到,则将待切分字符串切分为二,前部为一个语句,后部为下一待切分字符串;如果取出的字符串不能够在词典中匹配,则l减一进行下一个循环。

9.根据权利要求1所述的一种基于大数据的轨道交通数据分析方法,其特征在于,所述步骤s5数据索引包括全局性查询和局部性查询,且全局性查询与局部性查询都对数据进行切分处理,并将处理后的数据写入到elasticsearch集群中,其中数据写入过程包括数据库操作和elasticsearch集群操作,所述数据库的操作在确认客户端连接数据库成功后,获取数据集,同时获取站点信息表,数据处理的过程中,对数据集中的字段进行分析,确定可提供站点信息的字段,获取站点信息表中的站点及其坐标值,如果数据集中的一-条记录包含站点信息,则将对应站点信息进行映射,对于无法提取站点信息的记录,则将对应的站点信息设置为空进行映射,最后,将处理结束的数据集发送给elasticsearch集群。

10.根据权利要求9所述的一种基于大数据的轨道交通数据分析方法,其特征在于,所述elasticsearch集群操作首先需要确认成功连接elasticsearch集群,在确认之后,判断需要写入的数据集是否有对应的索引,不存在则创建对应的索引,然后在时空切分中,使用站点的横坐标和纵坐标结合作为类型,接下来提取数据项中的时间信息,用于数据的路由设置,然后对于判定可以写入的数据,需要转换elasticsearch集群支持的json格式,最后当数据库提交的数据集中的每一项记录写入之后,数据处理结束。


技术总结
本发明涉及大数据分析技术领域,具体为一种基于大数据的轨道交通数据分析方法,所述轨道交通数据分析方法包括以下步骤:S1、采集数据;S2、清洗数据;S3、构建数据词典;S4、对数据词典进行分词;S5、数据索引,通过采集数据、清洗数据、构建数据词典、对数据词典进行分词以及数据索引步骤的配合操作,有利于对现有的轨道交通数据进行分析处理,使得轨道交通数据的利用率高,能够充分的对数据进行有效检索,同时检索效率高。

技术研发人员:黄相辉,赵方捷,金斌斌,徐军,林静,陈帆,邹海双,吴磊
受保护的技术使用者:中兴(温州)轨道通讯技术有限公司
技术研发日:
技术公布日:2024/1/11
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1