一种基于微博客收集的交通信息融合评价方法

文档序号:6357815阅读:113来源:国知局
专利名称:一种基于微博客收集的交通信息融合评价方法
技术领域
本发明涉及移动位置服务、移动互联网络技术,具体涉及一种基于微博客收集的交通信息融合评价方法。
背景技术
实时交通信息采集与处理技术是出行信息服务的关键技术,也是智能交通系统 (Intelligent Transportation Systems,简称ITS)的重要组成部分。实时交通信息包括道路交通流、道路畅通度和行驶速度、临时交通管制、新增交通限制、突发性交通事件、针对特定点的交通状态(如交叉口和特定位置)描述信息等。快速、及时、准确地获取实时变化的交通信息,能够缓解交通拥堵、提高交通运输效率,保障交通安全,改善环境质量,方便公众出行。目前,实时交通信息获取方法主要包括固定传感器技术(感应线圈、视频监控和微波探测),安装GPS和无线通讯设备的浮动车技术、移动通讯终端信令分析技术等。固定传感器技术采用的比较早,可以准确地采集路段实时交通流信息,但是成本高昂、安装与维护困难,难以广泛部署;浮动车是现在主流的城市实时交通信息采集技术,建设周期短,部署灵活,采集效率和精度高。但是浮动车技术很难获取突发性交通事件或针对特定点的实时交通信息,也无法获取临时交通管制等交通信息,而且难以大范围部署,容易出现盲区。移动通讯终端信令分析技术可以充分利用蜂窝移动通讯的网络资源,但是对数据处理技术要求很高,也同样难以获取突发性交通事件信息、交通管制信息、频繁变化的交通限制信息或针对特定点的实时交通状态信息。微博客技术给实时交通信息的采集提供了一种新的解决方案。微博客是信息分享、传播以及获取的平台,具有更新速度快,参与人数多、平民化、用户分布广泛的特点。微博客技术近几年兴起,已逐渐成为拥有大量用户的全新的人际交流方式及信息分享方法。 微博客中蕴含丰富的用户实时发布的交通信息,包括道路的畅通程度评价信息、各种突发性交通事件、临时交通管制、交通限制、针对特定点的实时交通信息等。这些信息时效性非常高。通过对这些信息的收集、分析、挖掘能够获取实时的、突发性的实时交通信息。而且随着微博客用户数的增长,意味着有更多来自普通大众的,志愿发布分享的实时交通信息, 这使得从微博客中在短时间内获取大量的实时交通信息成为可能,从而为实时交通信息的大众化应用提供便捷的访问方式。因此,微博客可成为获取实时交通信息的新型、有效技术手段,作为其他实时交通信息采集方式的有效补充。然而,微博客消息的定量化表达、微博客消息之间的有效融合匹配及其用户诚实度对微博客消息融合的影响是亟需解决的瓶颈问题,直接影响了微博客蕴含实时交通信息的利用。

发明内容
本发明要解决的技术问题是针对目前微博客中蕴含的大量实时交通信息难以得到充分利用的现状,提供一种基于微博客收集的交通信息融合评价方法,解决微博客消息定量化、群体微博客消息融合为表征路网运行状况的畅通度及其置信度,反映用户诚信度变化的动态反馈模型等技术难题。本发明可直接应用于个人及车载导航、移动位置服务、地图网站、出行信息服务平台、物流调度以及交通应急预案。本发明的技术解决方案为一种基于微博客收集的交通信息融合评价方法,实现如下步骤101,抓取和交通信息主题相关的微博客内容,建立交通信息主题的微博客消息数据集MB;步骤102,遍历路网中道路,选取有效时间窗内和道路名称匹配的微博客消息数据集MB中的微博客消息记录,构成微博客消息记录子集V,形式化表达微博客中包含的交通 fn息;所述微博客消息记录子集为V = IV1, V2, ...,Vi, ...,VnIn彡1},其中,η代表包含交通信息描述的微博客消息记录个数,第i条微博客消息\采用一维向量表示,即
V1=(P1)Spi, TpuuiswpLocationi ,Clienti ,Count―卵 Countforward(i), Count comment(rp Content(i))Pi为发表第i条微博客消息的用户标识;&为用户Pi的诚实度,且系统初始状态时,& =Q ;Tpublishii)为该微博客消息发表时间;Location,为该微博客消息描述的地点,可以是经纬度坐标或者自然语言描述;Clienti =
为该微博客消息发表客户端,当客户端Clienti为移动客户端取值为1,否则取值为0;Countkeepω为该微博客消息收藏次数,且Coimtkeep(i)彡0 ;Countforward(i)为该微博客消息转发次数,且Countfmranm)彡0 ;Countcomment ω为该微博客消息评论次数,且Coubtramment ω彡O ;Content⑴)为该微博客消息内容;步骤103,从微博客消息记录子集V中的记录Vi里抽取发表用户、发表时间、消息描述地点、发表客户端、收藏次数、转发次数、评论次数及微博客内容。通过将微博客内容进行自然语言分词,与地址词库、方向词库、事件词库匹配,可提取明确的道路路段、交通信息及对应的方向描述;步骤104,对微博客消息记录子集V中的交通信息进行融合评价,若交通信息为交通限制、交通管制或其他交通相关信息,如突发性交通事件以及特定点交通状态(如交叉口或特定位置)描述信息等,需将交通信息融合评价结果存入动态交通信息更新表;若交通信息为路况型的交通信息,如道路交通流、道路畅通度以及行驶速度信息等,计算路段畅通度及其置信度;步骤105,采用真实交通信息反馈验证或者群体微博客消息交叉验证方法,记录并统计每个用户发布真实反映交通状态的微博客消息数量,建立动态反馈模型,得出真实反映交通状态的微博客消息来自每个用户的概率,以此指标来调整微博客用户的诚实度,即当用户发布真实反映交通状态的消息时,提高其诚实度,反之,降低其诚实度。步骤106,循环遍历路网中所有道路,处理微博客消息记录集合MB中所涉及的整个路网的交通信息,对于交通限制或者管制类型的交通信息,得到实时的动态交通信息更新表;对于路况类型的交通信息,得到路网中所有路段的畅通度及其置信度,从而建立反映整个路网交通状态的红绿图,或者用于导航服务中的实时出行路径计算。所述步骤101中遍历路网中所有道路,选取有效时间窗内和道路名称匹配的微博客消息记录,构成微博客消息记录子集V,具体实现为(1)定义有效时间窗口 Tintoval为对欲获取实时交通信息的时间点Tteaffi。进行扩充而形成的时间段,即 Tinterval = [Ttraffic-Ata,Ttraffic+Atb],且 Ata ≥ 0,Atb ≥ 0,其中用户可以根据微博客消息滞后时间的经验值来设定八、与Atb的取值;(2)遍历路网中所有道路,选定所要处理的道路roadi ;(3)根据TOadi及时间窗口 Tintwval,在微博客消息数据集MB中选取相关微博客消息记录,构成微博客消息记录子集V。所述步骤104中对于交通限制、交通管制或其他交通相关信息,信息融合评价采用聚类算法,对微博客消息记录集合进行聚类,统计每类中微博客消息记录数量,选定最大类别作为路段的交通限制或者管制类型交通信息,并将结果存入动态交通信息更新表;对于路况类型的交通信息,畅通度的计算采用聚类算法,对微博客消息记录集合进行聚类,统计每类中微博客消息记录数量,选定最大类别聚类中心作为路段的畅通度。所述步骤104中对于置信度的计算采用权重求和算法,计算微博客消息数量指标、微博客用户交通信息评价差异度指标以及表征畅通度的最大类别中微博信息记录数量三个指标之间的权重求和,并将其作为路段畅通度的置信度。所述步骤105中的动态反馈模型的建立采用概率统计模型来进行计算,先统计用户发布微博信息的总数量、真实反映交通状态的微博信息数量,进而计算表示用户发布微博客内容中真实反映交通状态信息的比例;然后计算真实反映交通状态的微博客消息来自每个用户的概率,以此指标来调整用户的诚实度。本发明与现有技术相比的优点在于本发明充分挖掘了微博客中蕴含的交通信息,采用定量化的方式形式化表达微博客中蕴含的实时交通信息;突破群体微博客消息之间融合匹配问题,利用定量化描述的路段畅通度及其置信度来描述路段交通状态;通过采用真实交通信息反馈验证或者群体微博客消息交叉验证方法,统计用户发表微博客消息的数量,以及准确反映交通状态的信息数量,建立动态反馈模型,动态调整用户的诚信度指标,把用户诚实度的影响反映到群体微博客消息的融合匹配算法中。通过以上方法可以快速有效地提取实时交通状态信息,尤其是突发性交通事件或者针对特定点的交通信息,为实时交通信息获取提供一种新的技术手段,并成为其他实时交通信息采集方式的有效补充。既充分利用微博客上普通大众志愿提供实时交通信息的现有广泛数据渠道,也为实时交通信息的大众化应用提供一个便捷的访问方式。本发明可直接应用于个人及车载导航、移动位置服务、地图网站、专业的出行信息服务平台、物流调度以及交通应急预案。


图1为本发明实施例基于微博客收集的交通信息融合评价方法流程图;图2为本发明实施例案例实施方式流程图。
具体实施例方式为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。如图1所示,是本发明实施例一种基于微博客收集的交通信息融合评价方法流程图,包括以下步骤步骤101,采用网络爬虫技术或者微博客服务商提供的API接口技术,抓取微博客消息,将收集到的微博客消息进行处理,删除与交通信息无关的内容,删除不完整信息及冗余信息,处理拼写错误,消除微博客消息中的无效数据或者明显错误;将格式化后的与实时交通主题相关的微博客消息构建成微博客消息数据集MB。步骤102,遍历路网中所有道路,在MB中选取有效时间窗内和道路名称匹配的微博客消息记录,构成微博客消息记录子集V。(1)定义有效时间窗口为Tintoval为对欲获取实时交通信息的时间点Tteaffi。进行扩充而形成的时间段,即 Tintervat = [Ttraffi。-Ata,Ttraffi。+Atb],且 Ata 彡 0,Atb 彡 0,其中用户可以根据微博客消息滞后时间的经验值来设定Ata与Atb的取值。(2)遍历路网中所有道路,选定所要处理的道路road”(3)根据TOadi及时间窗口 Tinterval,在实时交通信息微博客消息记录数据集MB中选定针对道路roadi的微博客消息记录子集V。步骤103,从微博客消息记录子集V中的记录Vi里抽取发表用户、发表时间、消息描述地点、发表客户端、收藏次数、转发次数、评论次数及微博客内容。通过将微博客内容进行自然语言分词,与地址词库、方向词库、事件词库匹配,可提取明确的道路路段、 交通信息及对应的方向描述;步骤104,对微博客消息记录子集V中的交通信息进行融合评价,若交通信息为交通限制、交通管制或其他交通相关信息,如突发性交通事件以及特定点交通状态(如交叉口或特定位置)描述信息等,需将交通信息融合评价结果存入动态交通信息更新表;若交通信息为路况型的交通信息,如道路交通流、道路畅通度以及行驶速度信息等,计算路段畅通度ClearDegree及其置信度Support ;交通限制或者管制类型的交通信息融合评价计算过程与路况类型的交通信息融合评价计算过程相同,下面具体介绍该计算过程(1)畅通度反映了路段上车辆行驶的通畅程度,为Wl]连续区间的浮点值。畅通度越高,代表路段越畅通。0代表完全拥堵,1代表完全畅通。路段畅通度的计算方法如下先利用模糊C均值聚类的方法,对数据进行聚类,为提高聚类精度,选取距离聚类中心最近的数据组成新的样本数据,利用新形成的样本数据训练径向基函数(RBF)神经网络, 利用训练好的神经网络去预测数据所属的类别,根据预测结果对数据进行重新分类,重新选择离中心近的数据作为样本数据,进行反复的迭代聚类。具体介绍算法的计算过程如下①对微博客消息记录子集V执行模糊聚类算法,设定初始类别数目,模糊权重系数,初始化聚类中心,最终得到微博客消息\的模糊隶属度矩阵及所属的类别。②选取距离每个类别中心最近的ρ个记录,构建新的微博客消息样本数据记录集
Vsample °③利用样本数据记录集Vsample训练RBF神经网络模型,得到训练好的神经网络。④利用训练好的神经网络对微博客消息记录子集V中的所有微博客消息Vi进行聚类,形成k个交通状态类型聚类结果。⑤统计各聚类类别对应的微博客消息数目ClassNun1 (1 = 1,2,... k),选取微博客消息数最大的类的聚类中心作为路段的畅通度。(2)置信度Support表示为上一步计算出的路段畅通度ClearDegree的准确程度, 具体介绍置信度的计算过程置信度与微博客消息记录子集V = IV1, V2, ...,V1Jn彡1}中微博客消息数量η、 微博用户对确定的道路路段实时交通信息Roadteaffi。评价的差异度以及畅通度计算过程中各聚类类别对应的微博客消息数目ClassNum1有关,置信度采用下面的公式来进行计算, 其中 ^ζ^;代表记录集中交通状态描述的众数,α,β,λ为权重系数,且α ^ 1, 0 < β < 1,0 < λ < 1。
权利要求
1.一种基于微博客收集的交通信息融合评价方法,其特征在于实现步骤如下步骤101,抓取和交通信息主题相关的微博客内容,建立交通信息主题的微博客消息数据集MB ;步骤102,遍历路网中道路,针对每条道路,选取有效时间窗内和道路名称匹配的微博客消息数据集MB中的微博客消息记录,构成针对该道路的微博客消息记录子集 V,形式化表达微博客中包含的交通信息;描述针对某道路的微博客消息记录子集为V = IV1, V2, ...,Vi, ...,V1Jn彡1},其中, η代表包含交通信息描述的微博客消息记录个数,第i条微博客消息Vi采用一维向量表示, 即V1=(P1)Spi, TpuuiswpLocationi ,Clienti ,Count―卵 Countforward(i), Count comment(rp Content(i)) Pi为发表第i条微博客消息的用户标识; &为用户Pi的诚实度,且系统初始状态时,& =Q; Tpublishw为该微博客消息发表时间;Location,为该微博客消息描述的地点,可以是经纬度坐标或者自然语言描述; Clienti =
为该微博客消息发表客户端,当客户端Clienti为移动客户端取值为 1,否则取值为0 ;Countkeepω为该微博客消息收藏次数,且Coimtkeep(i)彡0 ; Countforward(i)为该微博客消息转发次数,且Countf。 ard(i)彡0 ; CountCOfflfflent(i)为该微博客消息评论次数,且C0unt。。_ent(i)彡0 ; Content(i))为该微博客消息内容;步骤103,从微博客消息记录子集V中的记录Vi里抽取发表用户、发表时间、消息描述地点、发表客户端、收藏次数、转发次数、评论次数及微博客内容;通过将微博客内容进行自然语言分词,与地址词库、方向词库、事件词库匹配,可提取明确的道路路段、交通信息及对应的方向描述;步骤104,对微博客消息记录子集V中的交通信息进行融合评价,若交通信息为交通限制、交通管制或其他交通相关信息描述信息,所述其他交通相关信息包括突发性交通事件以及特定点交通状态,所述特定点交通状态包括交叉口或特定位置,需将交通信息融合评价结果存入动态交通信息更新表;若交通信息为路况型的交通信息,所述路况型的交通信息包括道路交通流、道路畅通度以及行驶速度信息,则计算路段畅通度及其置信度;步骤105,采用真实交通信息反馈验证或者群体微博客消息交叉验证方法,记录并统计每个用户发布包含真实交通信息的微博客消息数量,建立动态反馈模型,得出包含真实交通信息的微博客消息来自每个用户的概率,以此指标来提高发布真实交通信息的微博客用户的诚实度,降低发布虚假交通信息的微博客用户的诚实度;步骤106,循环遍历所有路网道路,处理微博客消息记录集MB中所涉及的整个路网的交通信息,对于交通限制或者管制类型的交通信息,得到实时的动态交通信息更新表;对于路况类型的交通信息,得到路网中所有路段的畅通度及其置信度,以此指标可以建立表征整个路网畅通状况的红绿图,或者用于实时导航服务中的路径计算。
2.根据权利要求1所述的基于微博客收集的交通信息融合评价方法,其特征在于所述步骤101遍历路网中道路,在包含交通信息的微博客消息记录集MB中选取有效时间窗内和道路名称匹配的微博客消息记录,组成微博客消息记录子集V,具体实现为(1)定义有效时间窗口Tinteval为对实时交通信息对应时间点Tteaffi。进行扩充而形成的时间段,即 Tinterval = [Ttraffic-Δ ta,Ttraffic+Atb],且 Ata ≥0,Atb ≥ 0,其中用户可以根据微博客消息滞后时间的经验值来设定Ata与Atb的取值;(2)遍历路网中所有道路,选定所要处理的道路roadi;(3)根据roadi及时间窗口Tintoval,在包含交通信息的微博客消息记录集MB中选取相关微博客消息记录,构成微博客消息记录子集V。
3.根据权利要求1所述的基于微博客收集的交通信息融合评价方法,其特征在于所述步骤104中对于交通限制、交通管制或其他交通相关信息,信息融合评价采用聚类算法, 对微博客消息记录集合进行聚类,统计每类中微博客消息记录数量,选定最大类别作为路段的交通限制或者管制类型交通信息,并将结果存入动态交通信息更新表;对于路况类型的交通信息,畅通度的计算采用聚类算法,对微博客消息记录集合进行聚类,统计每类中微博客消息记录数量,选定最大类别聚类中心作为路段的畅通度。
4.根据权利要求1所述的基于微博客收集的交通信息融合评价方法,其特征在于所述步骤104中对于置信度的计算采用权重求和算法,计算微博客消息数量指标、微博客用户交通信息评价差异度指标以及表征畅通度的最大类别中微博客消息记录数量三个指标之间的权重求和作为路段畅通度的置信度。
5.根据权利要求1所述的基于微博客收集的交通信息融合评价方法,其特征在于所述步骤105中的动态反馈模型的建立采用概率统计模型来实现,统计用户发布微博客消息的总数量以及发布真实交通信息的微博客消息数量,计算表示用户发布微博客内容中真实反映交通信息的比例;计算表示用户发布微博客消息占所有微博客消息记录子集V的比例;最后得出真实反映交通状态的微博客消息来自每个用户的概率,以此指标来调整用户的诚实度。
全文摘要
一种基于微博客收集的交通信息融合评价方法包括构建交通信息主题的微博客消息数据集;遍历路网中路段,选取有效时间窗内和路网路段相关的微博客消息记录,构成微博客消息记录集;从微博客消息记录抽取交通信息描述指标,形式化表达微博客中蕴含的交通信息;对微博客消息记录集中的交通信息进行融合评价,对于交通限制或者管制类型的交通信息,得到实时的动态交通信息更新表;对于路况类型的交通信息,计算对应时段的路段畅通度及其置信度;建立动态反馈模型,调整微博客用户诚实度;循环遍历所有路网道路,处理微博客消息数据集中所涉及的整个路网的交通信息。利用本发明可以实现微博客中所蕴含的交通信息的快速融合评价,为城市交通信息的采集提供一种重要数据源,可应用于实时导航与位置服务系统、地图网站、交通规划管理与应急预案等。
文档编号G06F17/30GK102163225SQ20111008946
公开日2011年8月24日 申请日期2011年4月11日 优先权日2011年4月11日
发明者张恒才, 陆锋 申请人:中国科学院地理科学与资源研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1