一种基于微博轨迹数据的城市联结强度计算方法与流程

文档序号:18884946发布日期:2019-10-15 20:45阅读:406来源:国知局
一种基于微博轨迹数据的城市联结强度计算方法与流程

本发明涉及社交媒体数据在城市发展研究领域,尤其涉及一种基于微博轨迹数据的城市联结强度计算方法。



背景技术:

城市信息是进行城市规划的基础。如何准确界定城市范围,如何空间化城市扩张状态,如何评估城市化发展进程等等,对于城市规划而言都是需要思考的问题。自从上世纪70年代改革开放以来,随着中国经济的持续快速增长和城市化进程的不断加快,不仅涌现出一批超大城市,城市之间的联结也日益紧密。因此,如何对城市之间的空间联结强度进行测度,逐渐成为城市发展研究中一个十分重要的课题。目前,国内外学术界在分析城市间空间联结时,所采用的大多是贸易流、运输流、城市间通勤数据等基础数据,研究方法也有引力模型、威尔逊模型、空间关联模型、知识溢出模型等。随着互联网技术的高速发展、社交网络的不断普及,以“微博签到数据”为代表的位置共享信息的应用更加广泛,为研究基于社会关系的城市网络空间联结提供了新的视角。

“微博”是“微型博客”的简称,是一种基于用户关注机制分享、传播以及获取简短实时信息的广播式的社交网络平台。用户可以组建个人社区,通过文字、图片、视频更新信息并实现即时分享。而微博提供的基于lbs(locationbasedservice)地理定位的签到功能,可以反映用户的时空行为,一定程度上映射出城市在现实中的空间网络联结关系。



技术实现要素:

本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于微博轨迹数据的城市联结强度计算方法。

本发明解决其技术问题所采用的技术方案是:一种基于微博轨迹数据的城市联结强度计算方法,包括以下步骤:

1)收集带有地理定位的微博数据,每条微博数据包括以下属性:用户id、用户昵称、微博id号、微博内容、微博发布时间、微博发布地理位置、用户关注数、用户粉丝数、用户双向关注数、用户微博发布总数、用户注册时间;

以微博发布地理位置为基础,结合全国所有地市级行政区划数据,为数据库中每一条微博信息添加微博发布城市的标签;

2)根据步骤1)中采集的微博数据及涉及的用户的微博信息,整理用户信息表;

信息表内容具体包括:

用户id(userid);注册时间(usercreated_at):指用户创建微博账户的时间;最后发博时间(user_last_at):指用户在研究时期范围内,最后一次发布微博的时间;注册天数(numofdays):指用户注册至最后发博时间的总天数;微博总数(userstatuses_count):指用户个人发布的微博总数;双向关注数(userbi_followers_count):指与用户互相关注的账户数;数据库内微博总数(msgcount):指研究时期范围内,用户被收集的带有地理定位的微博数之和;微博发布天数(datecount):指用户发布了微博的天数之和;微博发布城市数(citycount):指用户发布了微博的城市数之和;微博发布频率(frequency):微博发布频率等于微博总数与注册天数的商,计算公式如下

主要发布城市(mcity):指用户发布微博数最多的城市,认为该用户是此城市的“本地用户”;

3)微博数据过滤,对不满足以下条件的微博用户及其发布的微博数据进行过滤;

3.1)日均微博发布数不少于0.5条,即frequency≥0.5;

3.2)双向关注数不多于150人,即userbi_followers_count≤150,用于保证选取用户为普通用户,避免名人效应产生大量粉丝集聚而导致的结果失真;

3.3)活跃天数大于1天,即numofdays>0;

3.4)微博发布城市数大于1个,即citycount>1;

3.5)非机器用户,将疑似机器操作的账户一律排除;所述机器操作的账户为微博内容中包括实时路况播报、天气预报和代购推销微博发布频率超过预设值的账户;

4)对于每个用户,按照微博发布的时间顺序对其进行追踪,并记录轨迹数据;

5)根据轨迹数据记录城市间联结数;按照步骤4)所记录的轨迹,每发生一次城市a至城市b的移动,则记城市a和城市b之间出现了一次联结,联结不记方向性,对研究范围内所有用户均进行轨迹的追踪,并统计各地市级行政单元间的联结总数;

6)计算城市网络联结度nc和城市对外联结度ec,计算公式如下:

nc=ln(linkab+linkba)

ec=sqrt(linka/1000)

其中,linkab与linkba分别为“城市a→城市b”、“城市b→城市a”的联结总数;linka为城市a与其他所有城市间的联结总数。

本发明产生的有益效果是:

1.本发明利用微博轨迹数据来计算城市联结强度,具有方法简明、计算量小、准确性高等优点。

2.微博数据时效性强且易于获取,解决了传统技术中耗费大量精力搜集基础数据的问题,提高了统计效率,降低了成本。

3.本发明具有良好的普适性,可以为各种范围、各种尺度的联结强度计算提供技术支持。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明实施例的结构示意图。

图2是本发明实施例的由本地用户产生的联结示例图;

图3是本发明实施例的全国城市联结网络图;

图4是本发明实施例的中部及东南沿海地区城市联结网络图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,一种基于微博轨迹数据的城市联结强度计算方法,本发明的具体实施方式如下。

一、收集微博数据并添加发布地点标签

本实施例对2014年9月至2015年4月期间,在全国范围内发布的带有地理定位的微博数据进行了收集,得到约1565万个用户发布的约8036万条微博数据。收集到的每条微博数据都包括如下字段:用户id(userid)、用户昵称(userscreen_name)、微博id(msgid)、微博内容(msgtext)、微博发布时间(created_at)、微博发布地理位置(geolat、geolog)、用户关注数(userfollowers_count)、用户粉丝数(userfriends_count)、用户双向关注数(userbi_followers_count)、用户微博发布总数(userstatuses_count)、用户注册时间(usercreated_at)。

在添加地点标签时,首先从中国科学院资源环境科学数据中心(http://www.resdc.cn/)下载了2015年中国地市级行政矢量数据,并基于行政区划的变动对矢量面数据进行了适当的调整。然后基于微博数据中的地理位置(geolat、geolog)字段将每一条微博数据均视为点,结合全国所有地市级行政区划的矢量面数据,通过postgis中点和面的相交操作(st_intersects),为数据库中每一条微博信息均添加了“微博发布城市(city_id)”的字段。

二、整理用户信息表

本步骤对数据库中约1565万个用户的基本信息进行了整理,生成了用户信息表。信息表具体包括如下字段:

(1)用户id(userid);

(2)注册时间(usercreated_at):指用户创建微博账户的时间;

(3)最后发博时间(user_last_at):指用户在研究时期范围内,最后一次发布微博的时间;

(4)注册天数(numofdays):指用户注册至最后一条微博发布的总天数;

(5)微博总数(userstatuses_count):指用户个人发布的微博总数;

(6)双向关注数(userbi_followers_count):指与用户互相关注的账户数;

(7)数据库内微博总数(msgcount):指研究时期范围内,被收集的带有地理定位的微博数之和;

(8)微博发布天数(datecount):指用户发布了微博的天数之和;

(9)微博发布城市数(citycount):指用户发布了微博的城市数之和;

(10)微博发布频率(frequency):计算公式如下

frequency=userstatuses_count/numofdays#(1)

(11)主要发布城市(mcity):指用户发布微博数最多的城市,该用户可认为是此城市的“本地用户”。

三、用户筛选

本步骤按照如下条件对数据库中的微博用户和数据进行了筛选:

(1)以注册天数与微博发布总数计算出的日均微博发布数不少于0.5条,即frequency≥0.5;

(2)双向关注数不多于150人,即userbi_followers_count≤150,保证选取用户为普通用户,避免名人效应产生大量粉丝集聚而导致的结果失真;

(3)活跃天数大于1天,即numofdays>0;

(4)微博发布城市数大于1个,即citycount>1;

(5)非机器用户。通过对微博发布内容的观察,实时路况播报、天气预报、代购推销等部分微博发布频率过高,疑似机器操作的账户一律被排除。

经过以上筛选且去除重复数据后,全国范围内共有约98万个用户的1640万条微博数据被保留,用以进行下一步的研究。

四、追踪轨迹数据并记录城市间联结数

对于每个用户,按照微博发布的时间顺序对其进行追踪,并记录轨迹数据。如用户发布的两条相邻的微博数据按时间顺序分别出现在城市a和城市b,说明用户从城市a移动到了城市b。每发生一次城市a至城市b的移动,则记城市a和城市b之间出现了一次联结。联结不记方向性,即“城市a→城市b”与“城市b→城市a”的效果视为相同。

表1对用户轨迹数据的追踪示例

表1为追踪用户轨迹数据的一个示例,显示了id为“1103229445”的用户发布的微博数据的其中4条,且按照发布时间顺序排列展示。其中,第一条和第二条微博数据均发布于武汉市,第三条微博数据发布于咸宁市,说明在此期间,用户从武汉市移动到了咸宁市,记武汉市和咸宁市之间出现了一次联结。第四条微博数据再次发布于武汉市,说明用户又从咸宁市回到了武汉市,记咸宁市和武汉市出现了一次联结。由于联结不记方向性,所以“武汉市→咸宁市”与“咸宁市→武汉市”的联结视为相同。按照此方式,对研究范围内所有用户均进行轨迹的追踪,并统计各地市级行政单元间的联结总数,得到了全国范围内约98万个用户产生的联结总数约246万个。

需注意的是,在最终统计城市间联结数、计算城市联结强度时,仅考虑两个相关城市的“本地用户”的影响。即引起城市间联结的用户,必须是两个城市其中之一的“本地用户”。对于该用户而言,此次联结或是从其主要发布城市(mcity)离开,前往其他城市;或是从其他城市返回其主要发布城市(mcity)。因此,非本地用户产生的联结应从结果中排除。具体示例可参照表2和图2.

表2由用户轨迹数据产生的联结示例

表2为根据用户移动的轨迹数据产生的8个城市间联结示例。但是,产生第2个联结,即轨迹移动为“北京市→天津市”的用户,其微博主要发布城市为石家庄市;产生第5个联结,即轨迹移动为“唐山市→天津市”的用户,其微博主要发布城市为秦皇岛市。即,这两个联结均非两个相关城市的“本地用户”所产生,故未被纳入后续分析范围。剩余6个城市间联结所形成的示例图如图2所示。综合表2和图2可以看出,北京-天津两市之间具有最高的联结数,北京-唐山次之,而天津-唐山之间的联结数最少。对于单个城市而言,北京市与其他两市之间共有5个联结,为所有城市中的最高值;天津市次之,具有4个对外联结;而唐山市具有3个对外联结,为所有城市中的最低值。

依照此原则,对所有“本地用户”所产生的城市间联结数进行统计,最终得到全国范围内约98万个用户产生的城市间联结总数约201万个。

五、计算城市网络联结度和城市对外联结度

通过上一步骤得到全国范围内所有用户产生的城市之间联结总数,并计算得出单个城市的对外联结总数后,即可计算城市网络联结度(networkconnectivity,nc)与城市对外联结度(externalconnectivity,ec)。城市网络联结度与城市对外联结度的计算公式分别如(2)、(3)式所示:

nc=ln(linkab+linkba)#(2)

ec=sqrt(linka/1000)#(3)

其中,linkab与linkba的和为城市之间的联结总数,即“城市a→城市b”、“城市b→城市a”的联结总数;linka为单个城市的对外联结总数,即城市a与其他所有城市间的联结总数。

对全国范围内所有地市级行政单元均进行nc和ec的计算。根据计算结果,nc值排名前20位的城市点对与ec值排名前20位的城市分别如表3、表4所示。

表3城市网络联结度(nc)值排名前20位的城市点对

表4城市对外联结度(ec)值排名前20位的城市

从表3中可以看出,在全国范围内地市级行政单元所构成的全部城市点对中,“广州-佛山”具有最高的nc值,为9.9926;“深圳-香港”其次,nc值为9.8867;之后分别为“北京-廊坊”、“上海-杭州”、“北京-上海”,nc值分别为9.8499、9.7966、9.7524。nc值排名前20位的城市点对中大部分位于京津冀、长三角、珠三角三大城市群,而北京、上海、广州三个城市又在其中起到了绝对的核心作用。这一点在表4中同样可以得到证实。ec值排名前3位的城市依次为北京市、上海市、广州市,其ec值分别为15.3453、13.8353、12.124;之后为深圳市、杭州市,其ec值分别为11.2223、9.957。值得注意的是,排名前20位的城市点对中,大部分为核心城市与其周边地市的联结,地理距离相对较近。而北京、上海之间地理距离相对较远,其联结程度却能在全国所有城市点对中排名第5位,足以证明随着经济的不断发展,北京、上海两个核心城市之间的往来愈加频繁,其相互联系也日趋紧密。

对nc和ec的计算结果进行可视化,得全国所有城市的网络联结图如图3所示。

图3中,各城市处的红色圆圈代表其ec值,ec值越高,圆圈越大。城市与城市之间的联结线代表其nc值,nc值越高,联结线越粗、颜色越深。同时,为了联结图的整体效果,nc值小于6的联结线未显示。

从图3中可以看出,全国绝大多数nc高值联结都集中在中国东部地区,西部地区相对较少。在西北地区,兰州市、乌鲁木齐市作为省会城市,与其周边地市之间联系较为紧密。此外,乌鲁木齐市与北京市虽然地理位置相隔较远,却依然存在着较强的联结。在东北地区,哈尔滨市、长春市、沈阳市三个省会城市的ec值明显高于其他城市,带头作用明显。三市不仅各自与其他地市形成了放射网状,且均与北京市之间存在较强的联结线,说明了东北三个省会城市与北京市之间紧密的联结性。中国中部地区及东南沿海地区的局部放大图如图4所示。

从图中可以看出,“长三角”、“珠三角”、“京津冀”、“长江中游”、“成渝”五大城市群的格局十分明显,大部分的联结线都集中在这五大城市群的范围内。其中,珠三角、长三角两个城市群中,红色圆圈的分布最为密集,说明具有高对外联结度的活跃城市扎堆出现;各城市之间的联结线也形成了互相交错的网状,说明珠三角、长三角两个城市群中人员流动非常频繁,各城市之间的联系十分密切。相较之下,京津冀城市群虽然拥有具有全国最高对外联结度的城市——北京市,其他城市却稍显乏力,ec值与北京市相比明显较低,联结线也以北京市为中心向外呈现出密集的放射状。武汉市居于中部中央,与其他城市间的联结线恰好形成一个“十”字形,说明其作为长江中游城市群的核心城市,地处长江水道与京广铁路大动脉的十字交汇点,在中部地区起到了横贯东西、连通南北的枢纽作用。而成都市、重庆市作为成渝城市群的核心城市,在西南地区的联结中处于重要的位置。此外,郑州市、长沙市、西安市、太原市等省会城市在当地的城市联结中均起到了关键性的作用。

应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1