一种基于大数据的轨道交通数据分析方法与流程

文档序号:33896764发布日期:2023-04-21 05:27阅读:53来源:国知局
一种基于大数据的轨道交通数据分析方法与流程

本发明涉及大数据分析,具体为一种基于大数据的轨道交通数据分析方法。


背景技术:

1、轨道交通是指运营车辆需要在特定轨道上行驶的一类交通工具或运输系统,最典型的轨道交通就是由传统火车和标准铁路所组成的铁路系统,随着火车和铁路技术的多元化发展,轨道交通呈现出越来越多的类型,不仅遍布于长距离的陆地运输,也广泛运用于中短距离的城市公共交通中,在此过程中,对轨道交通大数据进行分析至关重要。

2、对此中国专利公开号:cn111831658a,公开了一种轨道交通大数据分析方法及系统,方法包括:对轨道交通原始数据进行采集汇总;将采集后的轨道交通原始数据进行存储;对轨道交通原始数据进行预处理,对异常的数据进行修正,无法修正的数据则进行剔除;将预处理后的轨道交通数据上传至云平台,云平台对数据进行存储以及调用;用户将所需的分析需求通过客户端发送至云平台,云平台通过数据分析后将分析结果发送至用户客户端;上述发明能够有效剔除所采集数据中的错误信息,提高了数据分析的准确性,能够对未来一段时间内的数据进行预测分析,能够给用户提供直观的数据分析,再次接收到相同分析请求后能够快速调用,减少了等待时间。

3、然而在使用上述发明时,还存在一个问题,目前国内地铁设备中包含了大量的非结构化数据,但是各个轨道公司之间并没有一致的故障标准库,故障数据缺乏精确的理论基础,故障现象采用非结构化的自然语言描述,不利于进行数据分析和检索,这导致了轨道交通数据的利用率并不高,即现有的轨道交通数据在进行分析处理时,难以进行有效检索,且检索效率低。

4、因此亟需设计一种基于大数据的轨道交通数据分析方法来解决上述问题。


技术实现思路

1、本发明的目的在于提供一种基于大数据的轨道交通数据分析方法,以解决上述背景技术中提出的现有的轨道交通数据在进行分析处理时,难以进行有效检索,且检索效率低的问题。

2、为实现上述目的,本发明提供如下技术方案:一种基于大数据的轨道交通数据分析方法,所述轨道交通数据分析方法包括以下步骤:

3、s1、采集数据;

4、s2、清洗数据;

5、s3、构建数据词典;

6、s4、对数据词典进行分词;

7、s5、数据索引。

8、优选地,所述步骤s1中数据采集包括对轨道设备维修数据的采集,维修数据包括结构化数据、半结构化数据和非结构化数据。

9、优选地,所述步骤s2中清洗数据包括以下步骤:

10、s11、处理缺失值,首先对需要进行缺失值的字段进行重要性分析,计算缺失值比例;

11、s12、处理格式内容,如果是由用户填写等受人为因素影响较大而得来的数据,格式内容问题有以下几类:格式问题,由于输入端格式不同造成的,例如日期格式,处理过程中一般选择其中某一格式为标准,将不同的格式进行转换;内容问题,比如内容中存在不符合的字符,可先识别问题类型然后再进行处理,一般选择对数据进行过滤,去除不符的内容。

12、s13、逻辑错误清洗,首先进行去重、然后进行去除不合理值、最后修正矛盾内容;

13、s14、非需求数据清洗,如果数据量没有大到不删除字段就没办法处理的程度,一般不对数据进行删除操作。

14、s15、关联性验证,如果数据有多个涟源,则需要进行关联性验证。

15、优选地,所述步骤s11中计算缺失值比例按照以下规则进行:重要性和缺失比率处理规则,重要性高且缺失率高的字段,需要进行填充缺失内容,重要性高且缺失率低的字段,需要进行填充缺失内容,重要性低且缺失率高的字段,可直接去除该字段,重要性低且缺失率低的字段,可不做处理或者简单操作补充。

16、优选地,对于需要进行填充缺失内容的字段,数据填充一般可通过以下方式:方式一、人工参与的方式填充缺失值,例如经验累计,专业知识等;方式二、通过同一字段的数据进行简单计算,例如平均数、众数等;方式三、以多个字段的组合通过一定规则计算结果填充缺失值;方式四、如果某些指标非常重要又缺失率高,可进行的操作包括重新进行数据采集工作,或者通过其他渠道获取相关的数据集。

17、优选地,所述步骤s3中构建数据词典包括以下步骤:

18、s21、数据全切分,在该步骤中,将一个非结构化维修数据字符进行全切分为单词;

19、s22、构建单词的关系图,在构建过程中,对切分成单字的单词进行hash计算,得到首字hash表,同时,生成一个该字的一个链表,在链表中,包含了一个或者多个指向下个单字单词的指针,同时,链表保存了当前单字出现的次数;

20、s23、词语的提取,提取过程中,首先,设置一个阈值对单字的次数进行过滤,然后,从最低的次数进行,当次数相同时,构成语句,同时,与更高层次的相同次数构成更长语句,此后,删除最低次数,然后再次从次低次数进行,直到关系图不再构成语句。

21、优选地,所述步骤s22中当对一个字符串进行处理的时候,从首字hash表进行查找,如果不存在该单字,在hash表中创建该单字,创建链表,同时将hash表指针指向链表;如果存在该单字,则进行链表的指针指向处理,最后对出现的单字进行次数更新。

22、优选地,所述步骤s4对数据词典进行分词过程中,采用正向最大匹配算法,在该算法中,首先,找到词典的最长词长l,对于待切分的字符串,从最左边开始取出l个字符进行匹配,如果取出的字符串能够在词典中匹配到,则将待切分字符串切分为二,前部为一个语句,后部为下一待切分字符串;如果取出的字符串不能够在词典中匹配,则l减一进行下一个循环。

23、优选地,所述步骤s5数据索引包括全局性查询和局部性查询,且全局性查询与局部性查询都对数据进行切分处理,并将处理后的数据写入到elasticsearch集群中,其中数据写入过程包括数据库操作和elasticsearch集群操作,所述数据库的操作在确认客户端连接数据库成功后,获取数据集,同时获取站点信息表,数据处理的过程中,对数据集中的字段进行分析,确定可提供站点信息的字段,获取站点信息表中的站点及其坐标值,如果数据集中的一-条记录包含站点信息,则将对应站点信息进行映射,对于无法提取站点信息的记录,则将对应的站点信息设置为空进行映射,最后,将处理结束的数据集发送给elasticsearch集群。

24、优选地,所述elasticsearch集群操作首先需要确认成功连接elasticsearch集群,在确认之后,判断需要写入的数据集是否有对应的索引,不存在则创建对应的索引,然后在时空切分中,使用站点的横坐标和纵坐标结合作为类型,然后对于判定可以写入的数据,需要转换elasticsearch集群支持的json格式,最后,当数据库提交的数据集中的每一项记录写入之后,数据处理结束。

25、与现有技术相比,本发明的有益效果是:通过采集数据、清洗数据、构建数据词典、对数据词典进行分词以及数据索引步骤的配合操作,有利于对现有的轨道交通数据进行分析处理,使得轨道交通数据的利用率高,能够充分的对数据进行有效检索,同时检索效率高。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1