一种基于线路匹配和词聚类的公交站点数据清洗方法与流程

文档序号:36791486发布日期:2024-01-23 12:10阅读:14来源:国知局
一种基于线路匹配和词聚类的公交站点数据清洗方法与流程

本发明涉及一种公交站点数据清洗方法,尤其涉及一种基于线路匹配和词聚类的公交站点数据清洗方法,属于公交站点冗余数据清洗。


背景技术:

1、目前公交系统已成为城市交通系统的重要组成部分,同时,为了追踪公交系统的运行、客流状态,合理地调整公交运行班次、线路配置,许多城市均在推进公交运行监控系统的建设。公交站点是组成公交系统的重要基础设施,在公交系统的运行监控过程中,公交站点的位置信息既作为公交车到站时间判断的基础数据,也作为乘客上车站点推算等后续计算的基础。在实际的公交站点位置信息采集过程中,往往由于多次基于不同公交线路采集时的gps定位偏移,导致同一实际站点被多次记录于不同位置,同时,由于道路对侧通常存在不同方向上的同名公交站点,在采集定位偏移的情况下往往不能判断其具体位于道路的哪一侧上,因此直接简单合并同名站点或是依据站点和道路中心线的相对位置的方法,均不能合理地处理得到较为准确的站点位置信息。在大型城市中,公交站点的数量庞大,人工校核的工作量也较大。在此背景下,亟需设计一种能够高效准确合并站点冗余数据的技术,使公交运行监控更为准确有效。

2、现有技术中,公开(公告)号为cn115019538a的专利文件公开了一种交通线路信息的生成方法、装置、设备及存储介质,包括:获取交通线路内采集点的信息,根据采集点的信息得到线路点位库,其中,线路点位库包括至少一个目标点位,相邻目标点位之间满足预设条件,预设条件至少包括第一距离条件,将交通线路内的至少一个站点的信息更新到线路点位库内,生成交通线路信息;通过该交通线路信息,在进行公交站点的实时预报时,更加精确地确定公交车处在交通线路的位置,从而使得预报公交车到站信息更准确;公开(公告)号为cn111210612b的专利文件公开了一种基于公交gps数据与站点信息提取公交线路轨迹的方法,包括如下步骤:获取某市所有公交线路的站点数据,对站点数据进行预处理;对站点数据进行归一化处理,对所有站点的站点经纬度进行分析,若站点的站点经纬度存在2个以上,则采用改进的kmeans聚类算法对站点经纬度进行聚类,得到新的站点经纬度。现有技术存在的问题如下:1.现有的公交线路站点数据往往基于人工手持gps采集器乘坐公交并在到站时采集站点信息或结合车辆gps司机人工标记开关门状态采集站点信息,在不同线路途径同一站点时,经由多个工作人员或多辆车采集得到的数据会形成多个坐标位置不同的站点,不符合公交系统实际情况;2.当前的公交线路站点客流等运行指标的计算方法及相应的大数据分析系统,均需要依赖基础的公交线路站点信息,当站点被多次采集并关联至不同的地理位置时,客流计算就会将一个实际站点的客流分开统计至若干站点,导致对站点客流、断面客流等指标的分析不准确,影响调度决策,当前的此类系统均没有考虑到这一因素;3.当前多数线路站点数据处理方法通常默认已有的站点数据较为准确,或简单地通过聚类合并同名站点的方法对站点进行预处理,但由于公交线路多数具有上下行两个方向,公交线网大量存在路段两侧不同方向上具有相同或相似名字的不同站点,且往往距离较近,同时由于全球定位系统的精确度有限,采集到的站点位置可能落在道路中间或道路对侧,因此简单地根据名称或地理位置的聚合不能正确识别冗余站点,脱离路网数据仅依赖聚类不能获得准确的站点位置。

3、综上所述,需要一种可以对路段两侧不同方向上具有相同或相似名字的不同站点进行识别区分归类、对多次采集同一站点关联的不同地理位置进行数据筛选的公交站点数据清洗方法。


技术实现思路

1、在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。

2、鉴于此,为解决现有技术中传统的公交站点数据清洗方法难以对站点位置偏移和站点偏差的站点数据采集情况进行精确化数据清洗的问题,本发明提供一种基于线路匹配和词聚类的公交站点数据清洗方法。

3、技术方案如下:一种基于线路匹配和词聚类的公交站点数据清洗方法,包括以下步骤:

4、s1.获取公交线路基础数据和路网基础数据;

5、具体的:整合地图服务商提供的城市路网信息,采用人工采集或提取公交车辆gps及开关门信息的方式,获取公交线路的gps轨迹和线路途径站点及采集得到的对应站点地理坐标,公交线路基础数据包括公交线路的gps轨迹和途径站点,路网基础数据为公交线路的对应站点地理坐标;

6、s2.进行公交站点路网匹配,得到最终的站点路网匹配结果;

7、s21.采用隐马尔可夫状态转移方法将公交线路途径站点匹配至路网基础数据;

8、s22.根据路段长度进行路段消除,整理路网得到基础路网;

9、s23.根据基础路网更新公交站点路网匹配,得到最终的站点路网匹配结果;s3.基于最终的站点路网匹配结果进行站点筛选及分组,得到初步的公交站点分组;

10、s4.基于词聚类优化公交站点分组,得到最终的公交站点分组及其对应的有效站点位置信息;

11、s41.采用tf-idf方法进行公交站点名称向量化,得到公交站点名称向量组;

12、s42.基于公交站点名称向量组,采用聚类方法对初步的公交站点分组进行进一步下级分组处理,得到最终的公交站点分组;

13、s43.采用dbscan算法对公交站点位置进行聚类,清洗异常数据,得到有效站点位置信息;

14、s5.基于最终的公交站点名称向量组,对公交站点位置进行合并和修正;

15、s51.进行公交站点位置合并;

16、s52.进行公交站点位置修正;

17、s6.根据合并和修正后的公交站点位置,更新公交线路途径站点,得到数据清洗后的公交站点数据。

18、进一步地,所述s21中,采用开源地图匹配工具包,基于公交线路的gps轨迹得到公交线网,采用隐马尔可夫状态转移方法将公交线网匹配至路网基础数据,获取路网中每条公交线路途径的所有路段编号,对于每条公交线路途径的每一站点,筛选所有途径路段中距离站点最近的路段,设定站点在距离站点最近的路段的垂直投影作为路网匹配节点中站点的潜在匹配点,并在潜在匹配点进行路段打断处理,更新路网匹配的节点编号和路段编号,记录各公交线路途径站点对应的拟定路网匹配节点编号,同时记录区分上下行的线路途径站点前的上游路段编号以标记车辆途径站点时的行驶方向;

19、所述s22中,设定指定长度范围,将路网中长度小于指定长度范围的路段起终点进行融合,生成新节点并更新与其相接的其他路段的起终点信息,消除路网中长度小于指定长度范围的路段,并记录路段起终点融合前后的节点映射关系,整合后得到基础路网。

20、所述s23中,根据路段起终点融合前后节点映射关系,处理更新各公交线路途径站点拟定的路网匹配节点编号和线路途径站点前的上游路段编号,得到最终的站点路网匹配结果。

21、进一步地,所述s3中,将公交站点名称中含有“场站”和“总站”的站点标记为场站类公交站点信息,并将其他公交站点标记为普通站,对于普通站点,基于更新后的各站点拟定的路网匹配节点编号和线路途径站点前的上游路段编号对公交站点进行分组;对于场站类公交站点,仅基于各站点拟定的路网匹配节点编号对公交站点进行分组,得到初步的公交站点分组。

22、进一步地,所述s41中,对于初步的站点分组后获得的每一组公交站点信息,判断公交站点名称是否完全一致,若完全一致,则维持站点分组不变,若公交站点名称不完全一致,则采用tf-idf方法根据字符出现频率对公交站点名称进行批量向量化,将其转化为tf-idf特征矩阵,获取代表每一公交站点名称的向量,整合得到公交站点名称向量组;

23、所述s42中,针对站点子分组对应的公交站点名称向量组,采用聚类方法,对组内的公交站点名称向量进行进一步分组,获取聚类后各组别的向量标签,根据向量标签对站点子分组进行下级组别分类,得到最终的公交站点分组;

24、所述s43中,采用dbscan算法对最终的公交站点分组各子分组内的站点地理位置进行聚类,留取聚类获得的规模最大的站点位置集群作为子分组对应的有效站点位置信息。

25、进一步地,所述s51中,基于最终的公交站点分组及各子分组对应的有效站点位置信息,获取子分组有效站点位置信息的中心位置作为子分组内站点合并后的新站点位置坐标,记录最终的公交站点名称向量组中旧站点与合并后新站点间位置坐标的映射关系;

26、所述s52中,对于最终的公交站点分组中的各子分组,提取所有途径子分组的公交线路站点路网匹配结果,整合为路网路段集,获取不同公交线路途径路网路段集的路段交集,在路段交集中选择距离中心位置最近的路段作中心位置的垂足,获得的垂足点即为修正后的站点位置。

27、进一步地,所述s6中,在路网中所有修正后的站点位置处对路段进行路段打断处理,记录打断处理后新生成的节点编号作为对应公交站点的节点编号,记录被打断处理前后路段编号的映射信息,并对应更新得到打断处理后路网版本的公交线路途径路段列表,基于旧站点与合并后新站点间位置坐标的映射关系,更新公交线路站点间的关联关系,将涉及合并的旧站点替换为对应的合并后的新站点,整理得到数据清洗后的公交站点数据。

28、本发明的有益效果如下:本发明基于采集得到的公交线路基础数据,结合城市路网基础数据,将公交线路基础数据与路网基础数据进行匹配,获取线路、站点与路网的关联关系,根据路网匹配结果结合词聚类识别重复采集的公交站点,合并根据分组后的公交站点名称合并公交站点位置并修正公交站点位置,数据更新后得到清洗完成的公交站点数据,其结果准确、运行高效且适用于大型城市公交系统,具有广泛的适用性,提高了公交运行监控准确性,普适性的数据处理方法能够同时适应单一线路站点数据源、多个线路站点数据源的数据整合处理;本发明具有鲁棒性,能够应对位置偏移、站点命名偏差等多种情况下的站点整合处理;本发明可同时得到整合后的线路站点与路网的映射关系,便于分析公交在路网中不同路段上的运行状态,不依赖于外部人工校核和人工采集信息,自动化程度高。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1