通过微博采集交通信息的系统及方法

文档序号:6706837阅读:278来源:国知局
专利名称:通过微博采集交通信息的系统及方法
技术领域
本发明涉及一种城市道路交通路况信息的采集处理技术领域,具体地说,是涉及一种通过微博采集交通信息的方法和系统。
背景技术
微博,即微博客的简称,是一个基于用户关系的信息分享、传播以及获取的平台, 用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。近几年,微博如雨后春笋般崛起,已逐渐成为拥有大量用户的全新的人际交流方式及信息分享方法。微博中蕴含丰富的用户实时发布的交通信息,包括实时路况、动态停车场信息、旅行时间、路口简易图、道路交通管制、道路施工信息、道路交通事件、交通枢纽信息、重大交通公告、安全宣传知识、交通办事指南等。这些信息时效性很高,通过对它们的收集、分析、挖掘能够获取实时的、突发性的交通信息。而且随着微博用户数的快速增长,意味着更多用户自愿实时分享自己身边的交通信息,这将形成庞大的实时交通信息源。
传统的实时交通信息获取方法主要包括磁频采集、波频采集、视频采集、汽车牌照自动识别采集、浮动车采集。固定传感器技术采用的比较早,可以准确地采集路段实时交通流信息,但是成本高昂、安装与维护困难,难以广泛部署。浮动车是现在主流的城市实时交通信息采集技术,建设周期短,部署灵活,采集效率和精度高。但是浮动车技术很难获取突发性交通事件或针对特定点的实时交通信息,也无法获取临时交通管制等交通信息,而且难以大范围部署,容易出现盲区。移动通讯终端信令分析技术可以充分利用蜂窝移动通讯的网络资源,但是对数据处理技术要求很高,也同样难以获取突发性的交通状态信息。利用微博采集实时交通信息则解弥补了交通信息传统采集方式的缺陷和不足,并且让庞大的微博交通信息得以充分利用。专利号为201110089462. 1,专利名称为一种基于微博客收集的交通信息融合评价方法的发明专利,该方法包括构建交通信息主题的微博客消息数据集;从微博客消息记录抽取交通信息描述指标,形式化表达微博客中蕴含的交通信息;对微博客消息记录集中的交通信息进行融合评价,处理微博客消息数据集中所涉及的整个路网的交通信息。由于微博信息量非常巨大,该专利提取交通信息时效率较低,缺乏安全性等问题。抓取方式和信息处理能力都存在一定的性能瓶颈;仅对信息进行了抓取,没有考虑抓取周期、存储速度、延时控制。在采集交通信息过程中指出抓取和交通信息主体相关微博客内容,没有给出可行的匹配方案,无法断定微博信息是否属于交通信息,导致交通数据采集不真实。专利号为201210011178. 7,专利名称为微博客数据采集方法及系统的专利提出了一种基于用户分类的微博客数据采集方法。首先初始化用户数据;对获得的用户特征进行提取,取得可用于进行用户确定的特征数据;对提取出的数据进行过滤,过滤后的数据根据特征进行用户类型确定;对不同类别的用户采用不同的策略进行数据采集。该专利数据采集之前必须先基于对用户的分类,不能满足交通领域庞大信息量的快速采集。

发明内容
本发明提供了一种通过微博采集交通信息的系统,解决了现有微博采集交通信息时采集周期长和采集不精确的技术问题。为了解决上述技术问题,本发明采用以下技术方案予以实现
一种通过微博采集交通信息的系统,所述系统包括
采集策略定制模块,用于提供用户操作界面,用户通过操作界面进行定制操作并保存定制结果;
微博信息采集模块,用于读取采集策略定制模块保存的定制结果,启动抓取任务,获取互联网上的实时交通信息,并将采集的信息传送给信息预处理模块;
信息预处理模块,用于处理采集到的交通信息,处理过程结合语义分析模块综合分
析;
语义分析模块,用于提供微博元素分析归类功能,结合语义库数据判断分析出微博信息中包含的信息;
交通信息中心,用于分类存储采集到的交通信息;
交通信息发布终端,用于发布采集的交通信息。进一步的,所述交通信息中心连接有磁频采集数据模块、波频采集数据模块、视频采集数据模块、汽车牌照自动识别采集数据模块、浮动车采集数据模块。更进一步的,所述交通信息发布终端包括服务于地图网站系统、出行信息平台、移动位置服务、交通管制平台。基于上述微博采集交通信息的系统,本发明还提出了一种通过微博采集交通信息的方法,所述方法包括下列操作步骤
步骤201,用户通过采集策略定制模块生成与交通相关的微博信息抓取策略;当系统接收到用户输入的抓取策略后,通过语义分析模块生成正则表达式及相应的代码;
步骤202,微博信息采集模块抓取符合策略的微博信息;
步骤203,信息预处理模块结合语义分析模块进行语义分析,将微博信息拆分为事件、时间、地点、图片;
步骤204,遍历交通信息中心的路网库,匹配微博交通信息的道路归属;
步骤205,将微博信息分类存储至交通信息中心。其中,在步骤202中,创建微博URL队列,并启动抓取线程进行网络资源的抓取。进一步的,在步骤202中,抓取符合策略的微博信息的过程为首批抓取信息的连接存入队列I中,从队列I获取一个连接;从所述连接进行资源下载,存入内存中;下载失败则结束本连接,从队列I中遍历循环下一个连接;下载成功则判断下载资源中是否包含新的资源连接;若有则把新的资源连接保存到队列2中;资源寻求完毕,判断是否需要保存,有用信息则保存至本地,抓取结束。其中,在步骤204中,根据语义分析出来的时间进行时间有效性校验,具体步骤为初始化得到的微博信息;判断微博时间信息是否存在;若存在,验证时间的完整性,不完整则丢弃;判断时间是否是否为当天,不是当天则丢弃;然后判断时间是否大于当前时亥IJ,超于当前时刻则丢弃;最终筛选得到的微博信息满足时间有效性。进一步的,时间有效性验证后进行微博信息的真实性验证,采用真实交通信息集、微博信息交叉验证方式判定信息的准确性。其中,真实交通信息集包括通过磁频采集数据模块、波频采集数据模块、视频采集数据模块、汽车牌照自动识别采集数据模块、浮动车采集数据模块采集到的数据。微博信息交叉验证方式为对同一地点信息综合对比,得到最可靠的一组信息。与现有技术相比,本发明的优点和积极效果是本发明通过策略定制模块采集微博的交通信息,提高微博采集交通信息的效率,保证采集数据的完整性、精确性;对采集的交通信息进行语义分析,快速准确匹配交通信息地理位置、事件时间。本发明采用分布式并发处理的架构,数据处理能力强,能够支持超大规模的微博数据和其它类型交通信息数据的处理,同时分布式的特点也使得系统的应用部署实施更加灵活,可扩展性好。本发明除了通过微博采集交通信息技术外,还可以融合其它类型的交通信息,如磁感线圈数据、交通事件信息等,从多维角度计算道路交通路况信息,实现多种类型数据的优势互补,使得对交通路况信息的描述具有多样性,同时也提高大大提高信息的覆盖率和准确性。本发明提供了支持多种发布方式的平台,除了可以支持传统的网站交通路况显示夕卜,还可以通过WAP、短信、邮件等方式提供路况查询业务,为大众提供全面准确多样实用的实时动态交通信息服务,充分满足公众对交通信息的迫切需求。并且,本发明在支持向公众的提供实时交通路况服务的同时,也可以实现车辆监控、道路路况监控和交通突发事件的监控,并将信息汇总在历史数据库,为道路交通管理部门的日常管理和长期规划提供有效的决策和支持。结合附图阅读本发明实施方式的详细描述后,本发明的其他特点和优点将变得更 加清楚。


图I是本发明具体实施例的系统框图。图2是本发明具体实施例的流程框图。图3是本发明具体实施例采集策略配置的流程图。图4是本发明具体实施例抓取信息处理流程图。图5是本发明具体实施例语义分析的流程图。图6是本发明具体实施例时间有效性校验的流程图。
具体实施例方式下面结合附图对本发明的具体实施方式
作进一步详细地说明
参见图I所示,本实施例提出了一种通过微博采集交通信息的系统,该系统基于网络爬虫技术和微博开放平台接口 API (Application Programming Interface)获取实时交通信息,再对采集的交通信息进行语义分析和预处理,进行交通状态分析和交通事件检测分析,得到对应路段的交通状态信息与交通事件信息。该系统具体包括如下六个模块
采集策略定制模块110,用于提供用户操作界面,用户通过操作界面进行定制操作并保存定制结果;对微博采集模块的抓取策略、模式设置以及微博信息特征进行配置管理。选定采集周期,配置采集匹配条件,以便快速筛选实时有效的交通信息,采集匹配条件包括采集区域、事件类型、微博发表时间、主题关键字、事件时间、事件地点;或自定义匹配表达式。用于明确采集范围,缩小采集时间。微博信息采集模块120,用于读取用户定制管理单元产生的定制结果,启动抓取任务,获取互联网上的实时交通信息,并将采集的信息传送给信息预处理模块140。信息预处理模块140,用于处理采集到的交通信息,处理过程需结合语义分析模块130综合分析。语义分析模块130,提供多元化的微博元素分析归类功能,结合语义库数据判断分析出微博信息中包含的信息摘要、地点、图片、事件。交通信息中心150,用于分类存储采集到的交通信息。交通信息中心150的数据可来源于微博采集,但同时可扩展融合磁频采集数据、波频采集数据、视频采集数据、汽车牌 照自动识别采集数据、浮动车采集数据。交通信息中心150作为系统的数据中心,包含与系统关联的所有数据。交通信息发布终端160,用于发布采集的交通信息,终端包括服务于地图网站系统、出行信息平台、移动位置服务、交通管制平台。参见图2所示,本实施例还提出了一种通过微博采集交通信息的方法,根据用户定制生成相应的抓取策略,然后,用网络爬虫技术或微博开放平台接口 API或两者组合的形式,获取互联网上与交通相关的微博信息。方法包括下列操作步骤
步骤201,用户通过该系统的抓取策略定制单元生成与交通相关的微博信息抓取规则,包括抓取周期、采集区域、事件类型、微博发表时间、主题关键字、事件时间、事件地点等过滤条件。当系统接收到用户输入的抓取策略指令后,直接通过系统语义分析模块生成正则表达式及相应的代码。抓取周期,即通过微博采集交通信息的频率。在对目标微博资源进行周期性抓取的过程中,收集目标微博资源的相关信息;根据目标微博资源的相关信息,动态调整目标微博资源的抓取时间间隔;根据动态调整的抓取时间间隔对目标微博资源进行周期性抓取。如图3所示,采集策略的配置流程具体如下
根据即将采集的交通信息进行需求分析,例如现在需要采集山东青岛的所有实时交通信息,那么首先就得制定青岛为采集区域,实时交通信息包括道路的拥挤度、交通事件信息、交通管制信息、道路施工信息、交通气象信息等与交通相关的信息,就需要在策略中添加以上几类信息关键字;抓取周期则根据信息需求和已有信息库动态调整;然后保存制定好的抓取策略。对常用的抓取策略,可加入用户收藏夹便于用户重复利用,且节省策略配置的时间,提闻效率。步骤202,用于对指定的抓取策略实施抓取行为。具体为创建相关微博URL队列,并启动抓取线程进行网络资源的抓取。在抓取过程中,可预先设置一个列表,用于保存本次任务即当前抓取过程中得到的所有URL及抓取状态等信息,其目的是避免微博URL被重复处理,这个列表使用内存或者内存数据库实现。抓取方法包括网络爬虫技术和微博开放平台API接口,根抓取策略预先制定初始抓取种子样本或者制定调用API接口执行抓取指令。
抓取的信息先存入临时队列I中,队列I信息经处理若发现包含新的资源则存入临时队列2中,具体流程如下,参见图4
首批抓取信息的连接存入队列I中,从队列I获取一个连接。从指定的连接进行资源下载,存入内存中。下载失败则结束本连接,从队列I中遍历循环下一个连接。下载成功则判断下载资源中是否包含新的资源连接,如微博转发的消息源。若有则把新资源保存到队列2中。资源寻求完毕,判断是否需要保存,有用信息则保存至本地,抓取结束。步骤203,语义分析,基于中文分词与N-gram (N个连续符号的序列)模型的关键字提取,从微博信息中提取出事件、时间、地点、图片。利用中文分词工具对抓取到的微博信息数据进行分词处理,以分词得到的短语为最小粒度单元,并结合N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字,根据候选关键字的类型(事件、时间、地点、图片),抽取出对应的信息。实现流程如 下,参见图5:
时间提取,利用中文分词工具和N-gram模型解析微博信息中包含的时间信息。时间分为相对时间和绝对时间,若为绝对时间则转换为标准格式即可;若为相对时间则需要根据微博的发表时间来计算出绝对时间,再把绝对时间转换为标准格式。tl (绝对时间)=t2 (发表时间)± Λ t (相对时间)
其中,相对时间包括“今天、现在、几分钟前、稍后”等词语;绝对时间则为标准时间表达,如 2012 年 10 月 17 日 10:54,2012-10-17 10:54。图片提取,通过匹配图片的文件扩展名分解出图片信息。常见的图片存储的格式bmp, jpg, tiff, gif, pcx, tga, exif, fpx, svg, psd, cdr, pcd, dxf, ufo, eps, ai, raw 等。地点关键字提取,利用中文分词工具和N-gram结合路网库和常用地理位置,取出表不地点的关键字。该信息中含有下列之一的关键词路,方向,桥,东,南,西,北,附近等表示交通地理标志或方向、距离描述的词语;获取关键字前后的词语经过语义处理作为地点信息。时间、地点、图片提取结束后,根据动词语义库分析整理出信息摘要。步骤204,遍历路网库,匹配微博交通信息的道路归属。同时根据语义分析出来的时间格式,展开时间有效性校验。流程如下,参见图6
初始化得到微博信息;判断经提炼的微博时间信息是否存在;若存在获取时间,验证时间的完整性,不完整则丢弃,时间需要精确到天;再判断是否为当天,以此来检验信息的实时性;接着判断时间是否大于当前时刻,超于当前时刻则丢弃;最终筛选得到的微博信息满足时间的有效性。有效性验证后可对微博信息的真实性验证,采用真实交通信息集和微博信息交叉验证方式判定信息的准确性。真实交通信息集包括通过磁频采集、波频采集、视频采集、汽车牌照自动识别采集、浮动车采集到的数据。微博信息交叉验证,指同一地点信息综合对t匕,分析推理计算出最可靠的一组信息。把道路分类,优先级最高的多个道路为A组,优先级次高的为B组,依次类推,把道路分成若干等级,按先后顺序遍历;把匹配到的微博信息添加所属道路标志位。地点信息匹配不能精确到详细地点的,解析出地点区域归属,在匹配到的区域内标注交通信息。后续可由人工辅助更新信息的精确位置。以上真实性和有效性都符合条件的则执行步骤205。消息真实但已过有效时间的则存入交通信息历史库;非真实的消息则直接结束,删除此信息。步骤205,动态地将数据信息分类存储到相应的数据库。其中信息分类又包括实时路况信息、停车场信息、道路交通管制信息、道路施工信息、交通事件信息、交通舆情信息、路径规划信息。交通信息等与交通相关的信息。用于交通信息发布和交通管制以及为道路交通管理部门的日常管理和长期规划提供有效的决策和支持。当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发 明的保护范围。
权利要求
1.一种通过微博采集交通信息的系统,其特征在于所述系统包括 采集策略定制模块,用于提供用户操作界面,用户通过操作界面进行定制操作并保存定制结果; 微博信息采集模块,用于读取采集策略定制模块保存的定制结果,启动抓取任务,获取互联网上的实时交通信息,并将采集的信息传送给信息预处理模块; 信息预处理模块,用于处理采集到的交通信息,处理过程结合语义分析模块综合分析; 语义分析模块,用于提供微博元素分析归类功能,结合语义库数据判断分析出微博信息中包含的信息; 交通信息中心,用于分类存储采集到的交通信息; 交通信息发布终端,用于发布采集的交通信息。
2.根据权利要求I所述的通过微博采集交通信息的系统,其特征在于所述交通信息中心连接有磁频采集数据模块、波频采集数据模块、视频采集数据模块、汽车牌照自动识别采集数据模块、浮动车采集数据模块。
3.根据权利要求I或2所述的通过微博采集交通信息的系统,其特征在于所述交通信息发布终端包括服务于地图网站系统、出行信息平台、移动位置服务、交通管制平台。
4.一种通过微博采集交通信息的方法,其特征在于所述方法包括下列操作步骤 步骤201,用户通过采集策略定制模块生成与交通相关的微博信息抓取策略;当系统接收到用户输入的抓取策略后,通过语义分析模块生成正则表达式及相应的代码; 步骤202,微博信息采集模块抓取符合策略的微博信息; 步骤203,信息预处理模块结合语义分析模块进行语义分析,将微博信息拆分为事件、时间、地点、图片; 步骤204,遍历交通信息中心的路网库,匹配微博交通信息的道路归属; 步骤205,将微博信息分类存储至交通信息中心。
5.根据权利要求4所述的通过微博采集交通信息的方法,其特征在于所述步骤202中,创建微博URL队列,并启动抓取线程进行网络资源的抓取。
6.根据权利要求5所述的通过微博采集交通信息的方法,其特征在于所述步骤202中,抓取符合策略的微博信息的过程为首批抓取信息的连接存入队列I中,从队列I获取一个连接;从所述连接进行资源下载,存入内存中;下载失败则结束本连接,从队列I中遍历循环下一个连接;下载成功则判断下载资源中是否包含新的资源连接;若有则把新的资源连接保存到队列2中;资源寻求完毕,判断是否需要保存,有用信息则保存至本地,抓取结束。
7.根据权利要求4所述的通过微博采集交通信息的方法,其特征在于所述步骤204中,根据语义分析出来的时间进行时间有效性校验,具体步骤为初始化得到的微博信息;判断微博时间信息是否存在;若存在,验证时间的完整性,不完整则丢弃;判断时间是否是否为当天,不是当天则丢弃;然后判断时间是否大于当前时刻,超于当前时刻则丢弃;最终筛选得到的微博信息满足时间有效性。
8.根据权利要求7所述的通过微博采集交通信息的方法,其特征在于所述时间有效性验证后进行微博信息的真实性验证,采用真实交通信息集、微博信息交叉验证方式判定信息的准确性。
9.根据权利要求8所述的通过微博采集交通信息的方法,其特征在于所述真实交通信息集包括通过磁频采集数据模块、波频采集数据模块、视频采集数据模块、汽车牌照自动识别采集数据模块、浮动车采集数据模块采集到的数据。
10.根据权利要求8所述的通过微博采集交通信息的方法,其特征在于所述微博信息交叉验证方式为对同一地点信息综合对比,得到最可靠的一组信息。
全文摘要
本发明公开了一种通过微博采集交通信息的系统及方法,系统包括采集策略定制模块,微博信息采集模块,信息预处理模块,语义分析模块,交通信息中心以及交通信息发布终端。本发明通过策略定制模块采集微博的交通信息,提高微博采集交通信息的效率,保证采集数据的完整性、精确性;对采集的交通信息进行语义分析,快速准确匹配交通信息地理位置、事件时间。本发明采用分布式并发处理的架构,数据处理能力强,能够支持超大规模的微博数据和其它类型交通信息数据的处理,同时分布式的特点也使得系统的应用部署实施更加灵活,可扩展性好。
文档编号G08G1/00GK102968494SQ20121049417
公开日2013年3月13日 申请日期2012年11月28日 优先权日2012年11月28日
发明者尹纪军, 夏俊娇, 刘新, 刘文广 申请人:青岛海信网络科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1