一种社交媒体用户行为轨迹建模与分析方法

文档序号:33190967发布日期:2023-02-04 08:26阅读:92来源:国知局
一种社交媒体用户行为轨迹建模与分析方法

1.本发明涉及空轨迹建模技技术领域,具体为一种社交媒体用户行为轨迹建模与分析方法。


背景技术:

2.社交媒体用户行为是指用户通过分享自己的行动、想法、观点、感受、情绪等来表达对某个话题或事件的反应,不仅指实际的行动,还包括认知和感知的因素。传统公众行为的获取主要基于问卷调查、走访等方式,社交媒体平台上丰富的用户内容数据是挖掘民众行为的重要数据来源,并且社交媒体蕴含的时空属性信息为分析民众群体行为模式提供了可能。现有研究主要是将用户的参与度、话题观点、情绪指数等的变化作为公众行为的涌现标志,借助自然语言处理、机器学习、gis空间分析等方法,从社交媒体文本数据中进行公众发文频率统计、观点话题抽取、情绪指数的计算等,并进行时空语义可视化分析。
3.时空信息可视化是综合运用计算机图形学、统计学和数据挖掘等技术,将采集到的数据直接映射为图形、图像、二维地图等。现阶段社交媒体公众行为的可视化分析主要是结合数据本身的地理位置,在地图中以坐标形式进行标记,从中获取社交媒体用户的发文数量、话题观点、情感等行为信息并与地图进行深度结合。主要采用聚类分析、核密度分析、时间序列分析、空间自相关等空间统计方法分析各类信息的时空分布特征,以直观地理解社会舆情与民众行为的地域特征。
4.时间地理学是研究个体行为的时-空-间特征,其主要思想将个体行为的时空属性信息集成在一个框架内,通过行为的可视化表达与对个体行为分析进行特征刻画、规律总结、未来行为趋势等。该框架核心方法是将个体行为放在时空轴上进行动态描述,将时间t作为第三维与二维空间坐标系xy集成为一个三维正交的时空坐标系(x-y-t)来描述分析个体行为活动。时空路径、时空棱柱等是时间地理学框架核心的概念和工具。近年来,时间地理学在时空可达性、居民交通出行行为、路径规划、个体行为等方面取得了广泛的进展。
5.社交媒体数据兼具时间、空间、语义、网络等多维度特征,各个维度之间存在复杂多样的关系。现有的研究大多是先分析社交媒体数据某一个维度的特征,如将时间维度描述为折线图等时间序列图、空间维度表示为核密度图等空间分布图、语义维度量化为话题数量饼图等统计图表;然后将每个维度两两组合,例如社交媒体数据的时空分布(时间-空间维度)、话题的空间分布(语义-空间)、话题数量随时间的变化趋势(时间-语义)等。但是将时间-空间-语义等维度进行融合同步分析的研究较少。由于各个维度异质性的限制,其属性在量纲形式等方面各不相同,时间-空间-语义等多维度的融合分析仍具有挑战性。本发明针对社交媒体数据的多维度特征,提出一种社交媒体用户行为轨迹立方体模型,将社交媒体数据的语义信息与时空信息相结合,实现用户行为时间-空间-语义的一体化表达分析。


技术实现要素:

6.本发明的目的在于提供一种社交媒体用户行为轨迹建模与分析方法,以解决上述背景技术中提出的现有的研究大多是先分析社交媒体数据某一个维度的特征,如将时间维度描述为折线图等时间序列图、空间维度表示为核密度图等空间分布图、语义维度量化为话题数量饼图等统计图表;然后将每个维度两两组合,将时间-空间-语义等维度进行融合同步分析的研究较少的问题。
7.为实现上述目的,本发明提供如下技术方案:一种社交媒体用户行为轨迹建模与分析方法,该社交媒体用户行为轨迹建模与分析方法的具体步骤流程如下:
8.s1:社交媒体用户行为数据分析:对用户行为、用户行为变化等进行系统定义;
9.s2:轨迹立方体数据计算:将时空数据离散格网化,实现经纬度坐标到空间网格的转变,与话题代码、时间信息结合得到轨迹立方体的时-空-语义三元组数据;
10.s3:tgsc模型构建:以x为语义维、y轴为空间维,z轴为时间维,一个三维点代表一个用户行为,点之间在z轴方向上的连线则代表用户行为的变化;
11.s4:时空语义关系分析:基于投影切片的方法直观展示行为轨迹在三个维度上的关系和分布特征,即将某一个维度固定,探索其余两个维度的变化特征,包括基于语义维的时空分布(t
×
g)、基于时间维的语义空间分布(s
×
g)和基于空间维的语义时间分布(s
×
t)。
12.与现有技术相比,本发明的有益效果是:
13.本发明首先系统定义了社交媒体用户行为的时空语义多维度关系,包括用户行为、行为变化等,之后将时空属性格网化并与语义信息融合生成用户行为轨迹三元组数据,实现用户行为向时间、空间、语义构成的三维空间的映射,基于轨迹三元组数据构建用户行为轨迹立方体,对立方体进行投影切片将用户行为分解到不同粒度的时空语义结构中,直观地展示其在“时间-空间-语义”多维度上的分布特征,该模型将用户行为复杂多变的时空语义演变过程映射到三维立体空间中,为社交媒体数据多维度异构特征的融合分析提供了新的表达方法。
附图说明
14.图1为本发明总体构建流程图。
具体实施方式
15.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
16.在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
17.实施例:
18.请参阅图1,本发明提供一种技术方案:一种社交媒体用户行为轨迹建模与分析方法,该社交媒体用户行为轨迹建模与分析方法的具体步骤流程如下:
19.s1:社交媒体用户行为数据分析:对用户行为、用户行为变化等进行系统定义;
20.s2:轨迹立方体数据计算:将时空数据离散格网化,实现经纬度坐标到空间网格的转变,与话题代码、时间信息结合得到轨迹立方体的时-空-语义三元组数据;
21.s3:tgsc模型构建:以x为语义维、y轴为空间维,z轴为时间维,一个三维点代表一个用户行为,点之间在z轴方向上的连线则代表用户行为的变化;
22.s4:时空语义关系分析:基于投影切片的方法直观展示行为轨迹在三个维度上的关系和分布特征,即将某一个维度固定,探索其余两个维度的变化特征,包括基于语义维的时空分布(t
×
g)、基于时间维的语义空间分布(s
×
g)和基于空间维的语义时间分布(s
×
t)。
23.实施例:
24.s1:社交媒体用户行为数据分析:对社交媒体用户行为数据的多维度复杂关系进行解析,社交媒体用户行为、行为变化等进行了详细定义:
25.本实施例中,s1包括如下步骤:
26.s11:社交媒体数据包括用户名、发布文本、地理位置、发布时间等属性,经过数据预处理和话题抽取,将原始数据转换为用户id、文本id、话题、经纬度、时间等要素进行存储,把每条数据都看作产生了一个用户行为点,其数据结构为《话题,经度,纬度,时间》,相关定义如下:
27.定义1(用户行为):用户u发布了一条社交媒体文本,则认为该用户产生了一个行为点,一个行为点可表示为四元组ri=(si,xi,yi,ti),即用户u于时间点 ti在位置(xi,yi)发布了一条话题为si的文本;
28.s12:在某段时间内,一个用户可能会发布多条数据,遍历用户发布的所有数据,当文本的话题发生变化时,则认为该用户的行为发生了变化,汇集用户时间线内的所有行为变化可得到该用户的行为轨迹,每条用户轨迹由若干行为点构成,数据结构可表示为{《话题,位置,时间》

《话题,位置,时间》},相关定义如下:
29.定义2(行为变化事件):在用户u的时间线中,当用户u发布的文本话题发生变化时,即其发文主题从a变为b,则认为该用户产生了一个行为变化事件,用户u的一个行为变化事件表示为r
ij
=《(si,xi,yi,ti),(sj,xj,yj,tj)》,其中ti<tj,si≠sj;
30.s2:空间数据格网化:基于s1中的案例数据定义,每个用户的行为由一组有序的四元组数据构成,数据结构为(si,xi,yi,ti),ti为时间点,(xi,yi)为经纬度坐标,si为话题代码,在建模过程中,需要将四元组数据转换成时-空-语义三元组,才能将用户行为轨迹投射到三维立方体中;
31.本实施例中,s2包括如下步骤:
32.s21:首先进行空间数据的格网化操作,基于以正方形为基本单元的地理格网模型,将用户行为数据的二维经纬度数据转换为一维空间索引,主要思想是将经纬度范围划分成规则格网单元(cell),将不同的轨迹点分别放入不同的格网单元中,每个格网单元对应唯一的空间索引值,将轨迹数据经纬度范围定义为(x
max
,x
min
,y
max
,y
min
),网格单元宽度定义为d,则生成规则格网的行数和列数如公式1和2所示:
[0033][0034][0035]
假设任意的一个用户行为点i的经纬度为(xi,yi),该点对应格网单元的行列号如公式3和4所示:
[0036][0037][0038]
则用户行为点i的空间索引值如公式5所示为:
[0039]gi
=rowi*col+coliꢀꢀꢀꢀꢀꢀ
(5)
[0040]
s22:轨迹三元组数据定义,基于空间数据格网化的计算结果,结合话题代码、时间信息得到用户轨迹三元组数据,将用户行为轨迹具体定义如下:
[0041]
定义3(用户行为轨迹):在给定时间间隔t内,用户u的行为轨迹可表示为ru={uid,(s1,g1,t1),(s2,g2,t2),...,(sn,gn,tn)},其中uid是用户u的唯一id,也是该条轨迹的标识,(si,gi,ti)(1<i<n)为用户行为点三元组,若1<i<j<n,则ti<tj,, si≠sj,亦可表示为ri,{(s1,g1,t1),(s2,g2,t2),...,(sn,gn,tn)}是该条轨迹中的行为点序列,也可表示为{r1,r2,...,rn},n为用户行为轨迹的长度,即轨迹中不同话题的个数;
[0042]
定义4(用户行为轨迹立方体):在给定时间间隔t内,若用su={s1,s2,...,sn} 表示用户u轨迹中所有话题的集合,gu={g1,g2,...,gn}表示所有地理位置的集合,tu={t1,t2,...,tn}表示所有时间点的集合,|su|=|gu|=|tu|=n,该用户对应的轨迹立方体可表示为tgscu=max(tu)
×
max(gu)
×
max(su);
[0043]
s3:tgsc模型构建:以x为语义维、y轴为空间维,z轴为时间维,一个三维点代表一个用户行为,点之间在z轴方向上的连线则代表用户行为的变化,使用python中的新一代数据可视化开发库plotly[]实现用户行为轨迹立方体的可视化,plotly拥有非常完备的交互能力和敏捷的绘制编辑选项,将数据可视化分析变的方便快捷易上手,为用户提供了多种稳定的api,可以与现有应用快速融合,并且支持在线和离线两种模式,用户可以选择将生成的数据图表在网页端进行展示,也可以选择将图表下载存储到本地;
[0044]
s4:投影切片分析:轨迹立方体可以直观的反映出该用户的行为如何在时间、空间、语义维度上变化。基于多维数据分析中的切片操作,将轨迹分别投影到时空(t
×
g)、语义空间(s
×
g)和语义时间(s
×
t)等平面上进行分析;
[0045]
本实施例中,s4包括如下步骤:
[0046]
s41:空间维切片分析是以空间轴为固定轴,将用户行为轨迹立方体在“时间-语义”平面上的投影,表示用户话题随时间的变化过程,常规的折线图表示法并不直观,且不同用户之间存在话题重复,无法直观的反映和量化用户的语义变化,基于复杂网络的理论,构建话题变化网络,把用户的话题变化转换为对应网络结构的变化,网络中的节点表示用户语义主题,有向边表示用户发文主题的连续变化,节点的大小代表有多少用户主题变成了该话题,边权重代表有多少用户有这种主题变化;
[0047]
语义变化网络的构建过程如下:1)按照数据发布时间点,由近及远对数据进行排序并抽取文本语义主题,产生用户语义行为数据集r;2)针对每个用户,获取其时间线中相继使用的主题序列,并两两成组构造主题对(主题对的两个主题各不相同)作为语义变化网络的节点对,边的方向由较早使用的主题指向较近期使用的主题,生成用户语义变化事件数据集e;3)为了更好的显示长时间序列中语义的动态变化,本研究使用滚动时间窗口n构建每一个语义变化网络,在时刻t的语义变化网络,对应用户在[t-n,t]时间段内的语义变化;4) 从初始时间开始,使用时间窗口n对用户语义变化事件数据集e进行分割,汇集每个时间窗口内所有用户产生的所有用户语义变化事件,以主题为节点、语义变化为边构建相应的语义变化网络tg;本研究使用一款开源免费的复杂网络分析软件gephi实现语义变化网络的可视化。
[0048]
s42:语义维切片分析是将语义维(x轴)固定,将用户行为轨迹立方体在“时间-空间”二维平面上进行投影,目的是探索社交媒体用户行为在“时间
‑ꢀ
空间”维度上的变化规律,反映了用户行为在时空上的分布,通过定义用户行为的时空轨迹,刻画用户行为在时空上的动态演变过程,并在三维环境中对演变轨迹进行可视化,分析用户行为轨迹整体的时空特征,之后基于不同语义话题进行切片分析,探索不同话题在时空维度上的演变特征;
[0049]
定义5(时空轨迹):一个用户u行为的时空轨迹可定义为 tgu={(x1,y1,t1),...,(xi,yi,ti),...,(xn,yn,tn)},(xi,yi)表示用户行为点的经纬度坐标, ti表示用户行为点的时间,根据点的时间顺序依次连线,则代表该用户行为的时空路径(tg path);采用季节性趋势分解(stl)分析用户行为数量随时间的变化特征;如等式(6)所示,季节性趋势分解将某一时刻的趋势被分解为3个不同的部分,包括趋势循环、季节性因子以及误差项,研究中利用spss软件实现用户行为数量时间序列的季节性分解;
[0050]
x
t
=t
t
+s
t
+r
t
.
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0051]
式中,x
t
代表原始数据.t
t
代表总体趋势.s
t
为季节性因子.r
t
为误差项;
[0052]
s43:时间维切片分析是将时间维(z轴)固定,将用户行为轨迹立方体在“语义-空间”二维平面上进行投影,目的是探索社交媒体用户行为在“语义
‑ꢀ
空间”维度上的变化规律,反映了用户行为语义信息在空间上的分布,定义用户行为的语义-空间序列,刻画用户行为在不同时间切片下语义话题在空间上的分布特征;
[0053]
定义6(语义-空间序列):一个用户u行为的语义-空间序列可定义为 tgu={(x1,y1,s1),...,(xi,yi,si),...,(xn,yn,sn)},(xi,yi)表示用户行为点的经纬度坐标, si表示用户行为点的语义话题;
[0054]
在空间分布特征分析和可视化方面,主要以核密度图、分尺度空间统计图等gis空间分析方法,在实践中,可以根据研究目的设置不同的搜索半径,对社交媒体用户行为点进行空间核密度分析。
[0055]
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0056]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1