一种基于微博话题热度的台风灾害灾情分析方法与流程

文档序号:15737124发布日期:2018-10-23 21:40阅读:231来源:国知局

本发明涉及一种台风灾害灾情分析方法,具体地涉及一种基于微博话题热度的台风灾害灾情分析方法。



背景技术:

台风灾害是历年来造成经济损失最严重、对人类构成极大威胁的灾害之一。在过去10年中,全球范围内因台风灾害导致的年均直接经济损失高达500亿美元,中国方面约占总损失的15%。随着人口与社会财富的不断增长,中国东南沿海地区也面临着日趋严重的台风威胁。在台害救援中,目前面临最大的挑战之一即是难以获取受灾区地区实时的灾情信息。

推特、脸书、微博等一系列社交媒体的出现改变了人们的交流方式。其中,微博作为中国最大的社交媒体平台之一,能够为有关部门提供公众发布的实时信息。截至2012年底,微博日均活跃用户高达0.462亿人,发布微博信息1亿条以上,并随着时间推移微博用户仍在不断增长。与此同时,当微博用户使用手机发布消息时,可分享其位置信息,而带有位置信息的微博数据可以更好地用于灾害救援的相关工作与研究。

基于社交媒体数据的优势,越来越多的灾害研究利用其探究受灾地区的灾情等级。其中,中国学者主要探究了实际灾情与微博灾害相关信息活跃度间的关系。例如,有研究将奥运会与台风灾害相关话题的微博信息进行对比,发现台风灾害的微博消息发布位置大多分布于受灾地区及周边,而奥运会的微博消息发布位置则分布散乱,未呈现出明显规律。而国外学者主要利用推特数据开展了更为广泛的研究工作。一些学者探究了推特在区域灾情感知中的有效性,一些则探究推特灾害信息的实际提取工作和监测效果。其中,Kryvasheyeu等人基于推特与热带气旋相关数据,发现推特相关信息活跃度与热带气旋路径呈现极强的相关性(Kryvasheyeu,Chen,Obradovich,et al.Rapid assessment of disaster damage using social media activity.Science Advances,2016,2(3),e1500779.)。与此同时,Yago等人的研究也证实了推特相关信息活跃度的峰值正出现于台风来袭阶段,并随着台风的消灾活跃度逐渐降低(Martín,Li,Cutter.Leveraging Twitter to gauge evacuation compliance:Spatiotemporal analysis of Hurricane Matthew.PLOS ONE,2017,12(7):e0181701.)。但是,目前大多数研究主要基于社交媒体与台风灾害数据,探究其定性关系。



技术实现要素:

针对背景技术中提出的技术问题,本发明提供的基于微博话题热度的台风灾害灾情分析方法包括以下步骤:

(1)获取热带气旋数据,所述热带气旋数据包括气旋编号、路径、时间、风力强度的信息;

(2)进行台风的灾情评估,其包括

(2-1)基于全国范围内台风各个单项灾害指标的等级,对单项灾害指标建立无量纲转换函数;

(2-2)基于灰色关联度理论,计算单项灾害指标的关联度(α),并以关联度(α)代表灾情等级;

(3)进行微博数据的获取和清洗,其包括:

(3-1)获取微博数据,所述微博数据包括发布内容、发布位置以及发布消息的用户ID、用户粉丝数等属性信息;所述微博数据均含有位置信息;

(3-2)基于微博数据的发布位置信息,筛选出每场台风所影响地区的微博数据;

(3-3)基于微博数据的发布时间信息,筛选出每场台风从出现至消散时段内的微博数据;

(3-4)基于微博发布内容进行数据清洗,清洗掉了微博内容中与台风灾害主题无关的微博数据;

(4)进行微博话题热度H评估,所述微博话题热度H的计算公式如下:

其中,U代表发布灾害相关信息的用户总数,M为灾害相关的微博总数,F为每条微博发布用户的粉丝数,P为微博发布位置所属街道的人口数,V代表是否为认证用户,若为认证用户则V=1.5;若非认证用户,则V=1;

(5)进行微博话题热度H与代表灾情等级的关联度(α)的定量分析,拟合H与关联度(α)的曲线公式如下:

H=2.0769ln(α)+15.383

优选地,步骤(1)中获取热带气旋数据是从CMA热带气旋最佳路径数据集(tcdata.typhoon.org.cn)提取的热带气旋数据。

优选地,提取的热带气旋数据的名称包括贝碧嘉、温比亚、苏力、西马仑、飞燕、尤特、潭美、天兔、菲特、海燕。

优选地,步骤(2-1)中的所述单项灾害指标包括农作物受灾面积、死亡人数、房屋倒塌数、直接经济损失四个常用灾害指标。

优选地,步骤(3-3)中的微博数据的获取时间段为从台风形成至台风停后三天。

本发明首次创造性地探究了微博话题热度与台风灾情等级间的定量关系。在中国省级尺度下,本发明利用带有位置信息的微博数据与区县级人口数据分析微博话题热度与多种影响因子间关系。再基于话题热度计算结果与关联度这一描述灾情等级状况的数据,探究微博话题与灾情等级间定量关系。

附图说明

下面结合附图,对本发明的基于微博话题热度的台风灾害灾情分析方法的原理及具体实施方式进行详细说明。

图1是2013年10场热带气旋路径图。

图2是2014-2015年9场热带气旋路径图。

图3是2013年“台风灾害”主题微博发布热力图

图4是灾情关联度(α)与微博发布位置街道级人口数量P间关系。

图5是微博话题热度H与关联度(α)数据拟合结果的曲线图。

具体实施方式

1 台风灾害数据的采集与预处理

1.1 台风数据的获取

本发明从CMA热带气旋最佳路径数据集(tcdata.typhoon.org.cn)提取了2013年登陆中国的10次热带气旋数据,其名称分别为贝碧嘉、温比亚、苏力、西马仑、飞燕、尤特、潭美、天兔、菲特、海燕(如图1)。所获取的热带气旋数据中,主要包含气旋编号、路径、时间、风力强度等信息。

为验证本发明所得出的最终结果,文章基于CMA热带气旋最佳路径数据集(tcdata.typhoon.org.cn)再次提取了2014-2015年登陆中国的9次热带气旋数据(如图2)。其中,2014年登陆中国的“威马逊”与“麦德姆”热带气旋,由于其影响省份与持续时间有所重合而未被选入研究对象之中。

1.2 台风的灾情评估

台风灾情等级目前尚未形成统一的评估体系,大多基于不同承载体的受灾状况进行评价。而本发明欲以一综合因子评估灾情总体的等级状况,因此选用了王秀荣等学者提出的台风灾情综合评估模型(王秀荣,王维国,马清云.台风灾害综合等级评估模型及应用.气象,2010,36(1):66-71.),以农作物受灾面积、死亡人数、房屋倒塌数、直接经济损失四个常用灾害指标数据为基础,对台风灾害综合等级进行评价。

本发明台风灾害评估所用的4个指标基础数据来源于中国气象灾害年鉴,该年鉴具体介绍了历年登陆中国的台风状况,及每一场台风所影响的省级行政区和承灾体的受灾状况。

在应用王秀荣等学者提出的台风灾情综合评估模型进行灾害等级评估时,主要分为两步。首先,基于全国范围内台风各个单项灾害指标的等级(如表1),对4个单项灾害指标建立无量纲转换函数。

表1.中国单项灾害指标的等级划分

然后基于灰色关联度理论(杨仕升.自然灾害等级划分及灾情比较模型探讨.自然灾害学报,1997,36(1):66-71;傅立.灰色系统理论及其应用.北京:科学技术出版社,1992,191-199.),计算4项指标关联度,并以关联度代表灾情等级。但在实际计算中,本发明未引入关联系数λ,而是直接采用4项指标的转换函数结果求解关联度(α)。灾情等级与关联度间的关系如表2所示。

表2.灾害等级与关联度的对应关系

2013-2015年本发明所研究台风的4项灾害指标、关联度与灾害等级评估结果如表3、表4所示,其中灾害等级结果不包含“特大灾”这一等级。

表3.2013年台风灾害单项指标与等级评定结果

表4.2014-2015年台风灾害单项指标与等级评定结果

2.微博数据的预处理与微博话题热度评估

2.1 微博数据的获取与清洗

本发明所使用的2013-2015年全国微博数据集来源于极海纵横有限责任公司。在实际使用中,本研究对于微博数据进行了一定程度的筛选与清洗。

在研究过程中,本发明所使用的微博数据主要包含发布内容、发布位置以及发布消息的用户ID、用户粉丝数等等重要属性信息。由于微博转发内容及部分原创内容不带有位置信息,因此本研究仅获取了原创且带有位置信息的微博数据。

其次,基于微博数据的发布位置信息,本发明筛选出每场台风所影响省份的微博数据。相关学者研究已经证明,社交媒体灾害相关信息的活跃度与到达台风路径的距离呈现较好的反向关系,即地图中距离台风路径越近的位置,其社交媒体灾害相关信息的活跃度也越高。这种现象出现的主要原因在于距离台风路径越近的位置,越容易受到台风来袭的影响,或越接近受灾地区,因此这些位置会有更多的社交媒体用户发布灾害相关的消息。综上,本发明采用受灾省份的微博数据能够更好地用于灾情评估。

接着,基于微博数据的发布时间信息,本研究筛选出每场台风从出现至消散时段内的微博数据。考虑到台风来袭前后,相关部门会开展预警及疏散救援等工作,因此微博数据的获取时段扩展为从台风形成至台风停后三天。

最后是基于微博发布内容的数据清洗。为得到台风灾害相关主题的微博数据,本研究清洗掉了微博内容中与台风灾害主题无关的微博数据。本发明数据清洗所使用的台风灾害主题词库(如表5)采集于台风相关的新闻、评论等语料。

最终,本研究共计得到2013年来自32586位微博用户的35991条微博数据。

表5.台风相关的特征词汇

2.2 微博话题热度评估

本发明提出的微博话题热度(H),是一项用于描述微博相关话题活跃度的综合指标。

这项指标的计算主要涉及活跃用户总数、微博发布总数、用户粉丝数、是否为认证用户等基础数据。通常情况下,发布微博的用户粉丝数越多,该微博在人群中越容易造成较大影响。与此同时,来源于认证用户发布的微博信息,更具有权威性且更容易被人们所关注。

基于清洗后微博数据的位置信息,本发明绘制了微博灾害相关信息的热力图(如图3),非常直观地展现了台风路径、地势起伏状况及微博发布密度等信息。由图可知,在省级行政区范围内,微博发布密度并不随到达台风路径距离的减小而升高,而是在地面平坦、具有大城市、多人口的地区出现明显升高。由此,可以推测出微博发布密度较高的地区,因其具有较多的人口与社会财富积累,在台风来袭时往往遭受更多的损失,带来更大范围的影响;与此同时,这些地区由于经济相对发达,人口集中,会拥有更多数量的微博用户发布灾害的相关信息。基于此,本发明猜测人口数量因子能够较好地矫正微博话题热度的计算结果,并与灾害等级间存在较强的相关关系。

基于上述内容,本发明在进行微博话题热度计算时主要考虑两方面因素。一是微博数据特征,如用户总数、微博发布总数等;二是社会性因子,即人口数量。使用社会性因子计算得到的微博话题热度结果,将能够更好地反映出受灾地区的灾情状况。

考虑到微博话题热度的多种影响因子,本发明提出了微博话题热度(H)的计算公式:

其中,U代表发布灾害相关信息的用户总数,M为灾害相关的微博总数,F为每条微博发布用户的粉丝数,P为微博发布位置所属街道的人口数,V代表是否为认证用户,若为认证用户则V=1.5;若非认证用户,则V=1。

目前,大多数学者探究灾情与微博活跃度关系时,仅考虑了用户总数、微博发布总数等微博数据自身的特点。而本发明创造性地将人口这样的社会因子纳入公式(1)的考虑范围,为灾情快速评估的准确性提升开拓了新的思路。

3 人口因子与灾情等级间关系分析

为进一步验证人口因子对于微博话题热度结果的矫正作用,本发明基于台风灾害关联度与微博发布位置的街道级人口数据P,对人口因子与灾情等级间关系展开分析。

分析结果图4直观地展现了两者间的相关关系。图中,每个圆圈代表在一次台风事件的关联度数值下,微博发布位置的街道级人口数量;圆圈的宽度代表发布位置街道级人口数量相同的微博总数。整体上看,人口因子与灾情等级间存在较好的相关关系。

由图4可以发现,当关联度(α)小于0.24时,微博发布位置的街道级人口数量不超过3*105。当关联度(α)大于0.24且小于0.53时,有较多的圆圈出现在3*105~7*105之间。当关联度(α)大于0.53时,出现于人口数量3*105~7*105之间的圆圈宽度呈现出明显增大;与此同时,人口数量小于3*105的圆圈也明显增多,宽度也有所增加。

这一现象的出现是易于理解的。中国东南沿海的大、中型城市地区,随着人口的聚集与社会财富的不断积累,台风来袭时会遭受较大的损失,灾情也会更为严重。相应地,由于人口密集,微博用户也相对较多,在台风来袭时,相关主题的微博发布密度也就越大。因此人口因子能够一定程度上反应受灾地区的灾情严重情况及微博相关话题热度。

4 微博话题热度与灾情等级间定量分析

本发明基于公式(4-1),计算了每场台风事件所影响省份的和综合的微博话题热度(H),并结合表3、表4的关联度(α)数据结果,分析了H与α间的定量关系。分析结果如图5所示。

由图5中H-α数据散点可以发现,H与α间存在较强的正相关关系,即随着微博话题热度的升高,灾情等级也随之增大。

基于H-α数据散点,可以绘制出H-α的拟合曲线。考虑到现实生活中,受灾地区的微博用户总数为常数,每人日均微博发布量通常小于20条,因此微博话题热度并不能无限制增长。基于实际考量,本发明采用对数函数对数据散点进行拟合,其拟合结果如图5所示。

拟合曲线公式如下:

H=2.0769ln(α)+15.383 (2)

该回归方程显著性为0.000(如表6),R2为0.363(如图5),拟合优度较高。

表6.方差分析结果

a自变量为关联度

基于公式(2)与2014-2015年微博话题热度、关联度数据,比较灾情预测与实际值,其均方根误差与真实平均值的比值小于12%,再次佐证了拟合曲线公式的有效性。

这一研究发现证明了微博话题热度随着台风灾害等级的增大而上升。

结论

本发明探究了微博话题热度与台风灾害等级间的定量关系,从而为灾情的快速评估提供一种更为高效的新方法。在省级尺度上,本发明首先基于微博发布总数、微博活跃用户总数等微博特征数据与人口这一社会因子提出微博话题热度的计算公式;后基于微博话题热度与灾情关联度计算结果,分析其定量关系。通过对数据散点进行曲线拟合,本发明最终得到了程显著性、拟合优度均较好的H-α曲线方程,即:H=2.0769ln(α)+15.383。2014-2015年数据对该方程的验证结果,再次证实了该方程在灾情快速评估中的有效性。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1