一种利用社交媒体挖掘人类活动时空模式的方法与流程

文档序号:14175350阅读:429来源:国知局

本发明涉及人类移动规律挖掘技术领域,尤其涉及一种利用社交媒体挖掘人类活动时空模式的方法。



背景技术:

时间地理学是一种研究在各种制约条件下人的行为的时空特征的研究方法,以时空地理框架的方式展示出来,该框架整合了时间(t)和空间(x,y)三个维度。空间维度展示了人类移动在位置上的变化,时间维度展示了人类移动在时间上的序列性。

包含于时间地理框架中的时空路径概念是将人类的活动序列点以线段的方式连接起来,生成一条在三维空间中的路径。每个活动点代表了一个活动,活动的位置信息由时间地理框架中的空间维度标识,活动发生的时间信息由时间维度标识。时空路径清晰的展示了用户活动随时间的变化规律,包括相邻活动的时间间隔,活动发生变化的时间点,进行同一活动的频率等信息。人类短时间的活动点连接表示人的活动在短时间内的变化规律,当活动点是人的习惯性活动时,由活动点连接起来的时空路径代表了人大致的活动模式。可以根据人的活动频率提取人类每个时段的习惯性活动,生成时空路径,获取人类的活动主要的时空模式。

社交媒体是人们用来创作、分享、交流的虚拟化社区和网络平台。随着手机的普及和定位技术的发展,手机对地理位置的识别和记录越来越细致、准确,地理位置慢慢成为社交媒体用户比较流行的分享内容。虽然人们每天登录社交媒体的时间以及频率很不固定,但是社交媒体对人们的生活记录是长期的,这种长期的记录形成了面向个人的庞大的数据源,可以从这些庞大的数据源中提取用户的时空路径,获取人类长期的活动模式。

从时空路径日间稳定点、晚间稳定点可以获得用户单位和家的位置。时空路径的形状取决于日间稳定点出现与持续的时间,日间位置波动的情况,以及日间、晚间稳定点之间的距离(通勤距离)。可以考察利用这些特征对用户时空路径进行分类。

而如何将经纬度坐标不同、形状各异的时空路径从三维空间(x,y,t)映射到二维平面空间(通勤距离,t),并进行类别的划分是当前本领域的一大挑战。



技术实现要素:

针对现有技术缺陷,本发明提出一种利用社交媒体挖掘人类活动时空模式的方法。

本发明技术方案提供一种利用社交媒体挖掘人类活动时空模式的方法,包括以下步骤:

步骤1,面向用户个体提取时空路径,并确定主要时空路径,包括以下子步骤,

步骤1.1,面向用户个体进行社交媒体数据提取;

步骤1.2,以每条社交媒体数据作为一个活动,以社交媒体数据的位置信息作为活动位置;

步骤1.3,根据社交媒体数据的时间信息将活动划分为不同的时间段,设有n个时间段;

步骤1.4,对每个时间段的活动分别进行聚类;

步骤1.5,根据聚类包含的活动位置点数量,计算每个时段中各个聚类的比重值;

步骤1.6,根据各个聚类的比重值,提取每个时段的代表性聚类;

步骤1.7,基于代表性聚类生成多条时空路径,生成方式为,在每个时段从代表性聚类中选择一个聚类,将所有时段的选择结果连接生成一条时空路径;

步骤1.8,计算步骤1.7所得每条时空路径的出现概率,确认主要时空路径;

步骤1.9,根据主要时空路径提取用户的日间稳定点和晚间稳定点;

步骤2,根据主要时空路径将用户划分为不同类别,包括以下子步骤,

步骤2.1,将各用户的主要时空路径从三维空间映射到二维空间,对任一条时空路径的映射实现如下,

以时空路径包含的每个聚类的中心作为聚类位置,聚类中心使用每个聚类的外接圆圆心;

把在预定时间段内的聚类位置的经纬度坐标取平均值,作为原点位置;

计算时空路径包含的各时段的聚类位置与原点位置的通勤距离;

以横轴为时间,纵轴为通勤距离将时空路径绘制到二维平面;

步骤2.2,将参与聚类的每条时空路径作为一个拥有n个维度的对象,每个维度为相应时段的通勤距离,对时空路径进行分类;

步骤2.3,通过不同类别用户的通勤距离获取各类别的时间模式特征和空间模式特征。

而且,步骤1.4中,

使用基于密度的dbscan聚类方法对每个时间段的活动分别进行聚类。

而且,步骤1.3中,设每个时间段的长度为1小时,n=24。

而且,步骤1.5中,计算每个时段中各个聚类的比重值,包括用聚类包含的活动位置点数量计算各聚类所占比重,计算公式如下,

其中,p(j)t指第t个时间段第j个聚类所占比重,nj指第t个时段第j个类所包含的活动位置点数,n指该时段所有的活动位置点数。

而且,步骤1.8中,计算每条路径出现概率,公式如下,

其中,代表该用户个体第k条时空路径的出现概率,p(j)t代表第t个时间窗口内的第j个聚类所占的比重。

而且,步骤2.1中,预定时间段为1:00-6:00。

而且,步骤2.2中,在n维空间中使用k-means方法对时空路径进行分类。

而且,所述社交媒体数据的位置信息为签到点数据,签到点数据包括gps信息。

本发明利用社交媒体记录了人类长期活动时空信息的优势,从用户长期的签到点数据中提取一天的主要生活模式。根据预设的时间窗口,将人类的一天划分为多个时段,以聚类的方式获取每个时段用户最稳定的出现位置,并计算其出现概率。获取用户多条时空路径,并根据主要时空路径将用户划分为具有不同的时空特征的类别。本发明对于了解人类的活动模式具有一定的应用价值。人类的活动模式影响城市的运维管理、商业规划、基础设施建设等方方面面。可以将人类出行的时间和空间规律相结合,获取在不同时间、空间的城市人口聚集情况、流动规律,支持对称式地进行能动性管理。

附图说明

图1为本发明实施例的流程图。

具体实施方式

以下结合附图和实施例详细说明本发明的具体实施方式。

本发明利用社交媒体数据,基于时空-地理框架中的时空路径理论,提出计算人类时空路径的方法以及利用聚类方法进行时空路径类别划分的方案。以北京市新浪微博用户为例,获取用户多条时空路径,并根据主要时空路径将用户划分为不同类别,这些类别具有不同的时空特征。

本发明关键的改进点是在于提出:

(1)以时空路径包含的聚类的中心经纬度坐标作为该聚类的经纬度坐标,聚类中心使用每个聚类的外接圆圆心。

(2)把在1:00-6:00时间段内的聚类位置的经纬度坐标取平均值,作为原点位置。

(3)计算时空路径包含的24个时段的聚类位置与原点位置的距离。

(4)以横轴为时间,纵轴为距离将时空路径绘制到二维平面。

并根据k-means聚类算法以时空路径包含的24个时间维度为参数对路径进行类别的划分。

参见图1,本发明实施例以新浪微博为数据来源,进行以下处理:

步骤1,面向用户个体提取时空路径,并确定主要时空路径,包括以下子步骤:

(1.1)面向用户个体进行社交媒体数据提取,获取所有用户在微博平台上的id,提取每个id发布的所有新浪微博数据。

(1.2)以每条微博数据作为一个活动,以微博数据的签到点数据(gps信息)作为活动位置。

(1.3)根据预设的时间窗口,将微博根据时间信息划分到不同的时间段中,设有n个时间段:实施例以1h(小时)为时间窗口,根据微博数据的时间信息将活动划分为不同的时间段,则n=24。

(1.4)对每个时间段的活动使用基于密度的dbscan聚类方法进行聚类;基于密度的dbscan聚类方法为现有技术,可参见相关文献:huangq,wongdws.2015.modelingandvisualizingregularhumanmobilitypatternswithuncertainty:anexampleusingtwitterdata[j].annalsoftheassociationofamericangeographers,105(6):1-19。

(1.5)从一个用户微博点的空间分布,可以看出该用户存在多个活动热点,则可能存在多个活动聚类。计算每个时段多个聚类比重值,包括用聚类包含的活动位置点数量计算各聚类所占比重,计算公式如式下:

其中,p(j)t指第t个时间段第j个聚类所占比重,nj指第t个时段第j个类所包含的活动位置点数,n指该时间段所有的活动位置点数,t=1,2,…24。

(1.6)设置参数控制,以根据各个聚类的比重值,提取每个时段的代表性聚类:

实施例中提出设置多个限制参数,以获取每个时段的代表性聚类。在1.5部分中,已经获取同一时段多个聚类所占的比重值,为了提取用户的主要移动规律,本实施例设置了三个参数从中提取主要聚类(代表性聚类),三个参数分别为:dbscan参数、聚类累计阈值、次要聚类占主要聚类比重,实现参数控制。dbscan用来调节聚类的大小、产生聚类的个数,聚类累积阈值用于使用累计聚类比重的方式获得主要的及个聚类,次要聚类占主要聚类比重用来防止为了达到聚类累计阈值而强行将较小聚类保留。

(1.7)根据选取的代表性聚类获取多条时空路径,生成时空路径的方法为:在三维空间(x,y,t)中,从每个时段任意选择一个聚类,从而获得24个聚类,将24个聚类使用线段连接,则生成一条时空路径。因为有些时段的代表性聚类多于一个,因此遍历每种组合,可获得多条时空路径。.

(1.8)计算步骤1.7所得每条时空路径的出现概率,确认主要时空路径。本发明进一步设计每条时空路径出现概率计算方法,根据每条时空路径出现的概率值,确认主要时空路径,一般选取前2-4条时空路径为用户的主要时空路径。公式如下:

其中,代表该用户个体第k条时空路径的出现概率,p(j)t代表第t个时间窗口内的第j个聚类所占的比重。n为时间窗口个数,本实施例中n为24,t的取值为1,2,…n。

(1.9)根据主要时空路径提取用户的日间稳定点(单位)和晚间稳定点(家)。日间稳定

点和晚间稳定点分别为用户在一天的工作时段(10:00-17:00)和休息时段(1:00-6:00)稳

定出现的位置,分别使用用户在研究期间出现在该时段的所有位置的平均值获得。在提取

用户空间活动模式时使用到家和单位的位置,除此之外在进行路径分类时使用家的位置作

为绘制时空路径的原点位置。

步骤2,根据主要时空路径将用户划分为不同类别,包括以下子步骤:

(2.1)在聚类准备阶段,设计将时空路径从三维空间(x,y,t)映射到二维空间(通勤距离,t)的方法,主要包括以下步骤;

a)以时空路径包含的每个聚类的中心作为聚类位置,可以时空路径包含的聚类的中心经纬度坐标作为该聚类的经纬度坐标,聚类中心使用每个聚类的外接圆圆心。

b)把在1:00-6:00时间段内的聚类位置的经纬度坐标取平均值,获取晚间稳定点(家),并将晚间稳定点作为原点位置。

c)计算时空路径包含的24个时段的聚类位置与原点位置的距离,作为通勤距离。

d)以横轴为时间,纵轴为通勤距离将时空路径绘制到二维平面。

(2.2)设计基于k-means方法的时空路径聚类流程,主要包含以下步骤:

a)根据步骤(8)中获得的每个用户的多条时空路径的比重,选取用户比重最大的时空路径参与聚类。该时空路径亦是代表性时空路径中比重值最大的一条。

b)将参与聚类的每条时空路径作为一个拥有24个维度的对象,每个维度为相应通勤距离,即分类准备阶段计算出的聚类位置与原点的距离。

c)在24维空间中使用k-means方法对时空路径进行分类。

具体实施时,可尝试不同的分类数,分类数不宜太多或者太少,以4-6类为宜,分类效果应做到累间差异明显,即在时空特征上体现明显区别。根据聚类效果,选择合适的分类数目,即k值。

(2.3)通过不同类别用户的通勤距离获取类别的时间模式特征和空间模式特征:

通过不同类别用户的通勤距离获取类别的时间模式特征。类别的时间模式指属于同一类别的用户由于生活习惯类似,在一天中的一些特定时间段体现类似活跃程度,并通过发布微博数量表现在社交媒体中。如有些用户习惯于在早上6:00-9:00发布大量微博,可能由于这类用户工作单位离家较远,在交通工具上浪费大量时间所致。可展示1,2,3类(占有84%用户)用户发布微博的时间模式,横轴为24小时的时间划分,纵轴为每个时间段每个类别发布微博总量的标准化结果。可以看出随着通勤距离的变化三类用户发布微博的高峰也随之改变;

通过不同类别用户的通勤距离获取类别的空间模式特征。类别的空间模式特征指同类用户的日间稳定点(工作单位)和晚间稳定点(家)的分布特征以及之间的距离。如通勤距离较远的用户,家多分布在远程区,而工作单位多分布在市区,这可能由于北京市高额的房价所致。可展示第6类和第2类用户家和单位的空间分布,其中绿点为家的分布,红点为单位的分布。可以看出通勤距离在5公里左右的用户家和单位随机分布,通勤距离在25公里左右的用户家多分布在北京市周边而单位相对集中分布于市区。这反映了北京市的高房价以及北漂现象。

具体实施时,本发明流程可采用软件技术实现自动运行。

上述均为本发明的较佳实施例,并不限于本实施例,凡在本实施例的精神和原则之内所做的修改、替换、改进等,均应包含在本专利的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1