一种用于社交网络社区挖掘的时空lda模型的制作方法

文档序号:9597882阅读:373来源:国知局
一种用于社交网络社区挖掘的时空lda模型的制作方法
【技术领域】
[0001] 本发明属于舆情监控领域,涉及社交网络用户推荐及社交网络服务推荐,尤其涉 及一种用于社交网络社区挖掘的时空LDA模型。
【背景技术】
[0002] 近年来,微博已经成为社会舆论、商业营销和城市功能的"传感器",对微博的研究 和应用已广泛渗透进社交拓展和舆情监控等多个领域。所谓社区,是指用户根据小世界特 性聚集形成若干群体。研究微博社区的结构特征,能更好理解信息传播模式、用户交互模式 群体演化规律,具有重大的学术和应用价值。
[0003] 当前,较多技术都是基于用户社会关系(如关注对象、好友)和微博消息转接应答 (转帖,跟帖、评论)的疏密程度来发现社区,或基于聚类等模型进行网络分割以获取社区, 忽略了社区的潜在主题特征,如"体育"、"科技"等这些反映了用户在若干方面的兴趣倾向。
[0004] 在引入潜在主题进行社区发现的技术中,利用LDA分析Twitter中的用户同质性, 挖掘活跃的微博用户群组;或者基于用户间的互访类型和微博主题相似性进行社区发现, 计算出用户隶属于某个社区的概率。这些基于微博主题的社区发现方法仅依据某个时段下 的主题集中程度发现社区,这时发现的社区结构是静态的,不能体现社区的演变特征。为表 达用户的兴趣会随时间推移而变化,也有通过伯努利分布表达用户主题是否受上一个时间 戳的用户-社区分布影响,然而伯努利分布的参数是人为设定,无法自适应反映出主题随 时间的演变状况。
[0005] 除了潜在主题之外,地理区域所具有的特定经济文化环境对微博主题具有强烈影 响。且由于社会作息模式的影响,不同时间段内用户关注的对象是不同的,从而造成微博主 题在不同时间下具有特定的主题分布趋势。在这方面,将用户看做"文本",将用户的位置签 到次数作为文本中的"词汇",基于主题模型进行用户相似性计算和位置推荐;或者基于用 户的时空语义轨迹重叠性进行用户相似性计算。然而,他们都没有考虑微博内容所反映的 用户兴趣偏好,仅从时空位置角度衡量用户相似性。
[0006] 在地理相关的主题模型研究中,研究者大都是采用潜在地理区域的形式表达具有 主题相似性的微博聚集区,其区域空间划分方式主要有四种方式:规则格网、辖区(如省 界、区界等)、不规则格网和基于概率分布自适应区域划分。由于前述三种方式预先设定 好了基本地理单元的边界,难以准确描述跨越多个基本地理单元或同一地理单元内的多个 相似主题的微博集聚区域,然而,已有自适应区域划分方法在距离量度上忽略了对潜在地 理区域边界的距离限制,容易造成某些潜在地理区域覆盖的空间范围过大,例如采用二维 高斯模型表达相似博客主题的潜在地理区域,然而一些潜在地理区域跨越大半个美国,部 分潜在地理区域间还相互重叠,不仅造成潜在地理区域内的微博主题分布趋于背景主题分 布,无法突出区域"特色"主题分布,抑制了在主题模型中引入空间因素意义,同时,位于多 个潜在地理区域重叠范围内的微博主题混淆,不利于微博主题的正确识别;此外,已有方法 还需预先设定潜在地理区域数量,无法利用数据自身的特征自适应调整潜在地理区域范围 和数量,也没有顾及用户对地理区域的选择偏好。

【发明内容】

[0007] 本发明的发明目的在于针对现有技术中存在的社交网络社团识别率不高,没有 顾及用户对地理区域的选择偏好等问题,提供一种用于社交网络社区挖掘的时空LDA模 型。
[0008] 为了实现上述目的,本发明采用的技术方案如下:
[0009] -种用于社交网络社区挖掘的时空LDA模型,包括以下步骤:
[0010] (1)建立微博要素的表达式:用于对微博进行概念模型的建模,其中表达式为:山 =(W,t,1,r,u,C),其中W表示该微博词袋,包含于词汇总表V = {wp w2,…,W|V|},Wp w2,…,w|v|分别表示每个不同的词汇,t表示微博发布时间,1表示微博发布的地理位置,r 表示微博所在潜在地理区域,u表示微博用户,c代表用户所在社区;
[0011] ⑵对微博词汇制约的数学建模:用于描述不同空间、社区对微博词汇的影响力 大小,包括空间和社区对微博词汇制约的数学建模,所述模型表达式为:
[0013] 其中,科表示存在背景主题-词汇分布,巧表示各潜在地理区域的主题-词汇分 布,C :表示各社区的主题-词汇分布;
[0014] (3)微博时空主题模型建模:用于描述时间、区域及社区要素对微博的生成过程, 所述微博主题的表达式为:
[0015] P (z | c, r) = P (z I θ 〇, Θ r, Θ c) = Multi (z | θ 〇+ Θ r+ Θ c)
[0016] 其中,z表示已知主题,Θ。表示背景主题分布,θ i^表示区域r的主题分布均值, Θ。表示社区c的主题分布;
[0017] (4)微博时空主题模型参数计算:用于得到模型参数,从而确定用户属于社区的 概率,基于最大期望算法方法和吉布斯采样估计时空主题模型的参数。
[0018] 进一步地,所述最大期望算法方法包括对微博属于各潜在因子的概率进行采样的 E步骤和通过梯度下降方法得到模型中各潜在因子梯度值的Μ步骤。
[0019] 进一步地,所述Ε步骤中分别采用rd、(^和z d表示各潜在因子中潜在地理区域r、 社区c和主题z的概率,其中rd、~和z d分别表示为:
[0023] 其中,ru为用户对区域选择的背景偏好参数,n u为用户u对区域的选择偏好,1 d为微博地理坐标,μ 区域r的二维高斯分布的均值,γ u为用户u隶属于各社区的概率, Σ ^为区域r的二维高斯分布的方差,P(1 d| μρ Σ J为微博处于区域r及位置^的概率, P〇H n。,nu)为在用户u和背景区域选择参数nu、η。下区域r出现的概率,p(c| γ u)为u 属于社区C的概率,ξζ为主题Z对应的时间多项式分布参数,Ρ(Ζ| Θ。,θρ Θ。)为社区主 题分布Θ。、区域主题分布θρ背景主题分布Θ。时的主题z出现的概率,P(vI外,:,死 为在已知主题Z的分布情况下,词汇w的生成概率。
[0024] 更进一步地,所述Μ步骤中分别采用叫和表示潜在因子中潜在地理 区域r、社区c和主题ζ分布参数的梯度值,其中和分别表示为:
[0028] 其中,d"z为用户u在潜在地理区域r发表的主题为ζ的微博数量,d"z为用户 u在社区c发表主题为z的微博数量,dUiZ为用户发表主题为z的微博数量,d v表示用户u 在潜在地理区域r中所发微博数量,为用户u隶属社区c时中所发微博数量。
[0029] 综上所述,本方案在LDA模型中引入空间、时间、社区和用户等要素,描述微博主 题和词汇在不同时空和社区中的分布,同时基于用户偏好对区域和社区进行建模,以发现 用户隶属不同社区的概率。本发明相对现有技术的有益效果是:
[0030] 1.利用时间、空间、微博主题及用户间的交互共同进行社交网网络社区的发现,提 高了社区挖掘的有效性和准确性。
[0031] 2.将时间、空间、微博主题及用户间的交互引入进主题模型,是对主题模型的一种 思路创新、理论创新和技术创新。
[0032] 3.利用最大期望算法方法和吉布斯采样估计时空主题模型的参数,该步骤从区域 主题分布、社区主题分布、微博地理位置和潜在地理区域空间范围等多个方面控制了微博 与潜在地理区域的关系,较以往方法相比,其不仅减少了空间上相互重叠或包含的潜在地 理区域的产生,限制了潜在地理区域空间范围的无限增大,还进一步提高了各潜在地理区 域主题分布的差异性,提高了微博主题判别的准确性。
【附图说明】
[0033] 图1为社区时空主题模型图。
【具体实施方式】
[0034] 以下将结合附图和具体实施例,对本发明提供的技术方案进行说明。
[0035] 实施例1
[0036] 步骤1 :建立微博要素的表达式
[0037] 每条微博形式上表示为6个要素:山=(W,t,1,r,u,c),其中W表示该微博"词 袋",包含于词汇总表V= {wpw2,…,w|v|},t表示微博发布时间,1表示微博发布的地理位 置,r表示微博所在潜在地理区域,u表示微博用户,c代表用户所在社区。
[0038] 步骤2 :对微博词汇制约的数学建模
[0039] 微博词汇受背景环境、潜在地理区域和社区影响,即存在背景主题-词汇 多项式分布%、各潜在地理区域的主题-词汇多项式分布穴和各社区的主题-词 汇多项式分布死,这些多项式分布同时对某个主题下的词汇生成概率产生影响。由 此,基于稀疏增量式生成模型,在已知主题Z的分布情况下,词汇W的生成概率为:
[0040] 步骤3 :微博时空主题模型建模
[0041] (1)空间和用户对微博主题制约的数学建模
[0042] 用Θ。表示背景主题多项式分布参数,将代表不同主题潜在地理区域的生成概 率看做是Dirichlet先验分布下的多项式分布采样结果,从而基于Dirichlet Process Mixture Model (DPMM),描述了用户对潜在地理区域的选择偏好、及微博地理位置的生成 过程:首先,从均勾分布获取基分布G。,设定聚集参数α p再通过DirichletProcess- DPUpG。)获得区域多项式分布G,基于用户u对区域的选择偏好τι u和区域r的主题分布 均值Θ J人多项式分布G获取区域r,最后基于二维高斯分布生成微博所在区域及其位置 込:
[0047] 其中,μ ρ Σι^为表达区域r的二维高斯分布的均值和方差。这里的DPMM中,每个 位置仅从单个区域中获得,此外,G依据每次DP(c^ G。)采样,其参数个数有可能不同,从而 使G表达了可动态变化的潜在地理区域数量。本文中,G。的取值不宜过大和过小,以防止潜 在地理区域的数量过多或过小,一般设置为[0. 003,0. 008]。
[0048] (2)社区和时间对微博主题制约的数学建模
[0049] 用户基于其身份和兴趣偏好会属于不同社区,我们采用选择由多项式分布丫。表 达用户隶属于各社区的概率。此外,与潜在地理区域类似,每个社区同样会产生特定的主题 分布Θ。,影响该社区内用户所发微博的主题,即:
[0051] -旦社区和潜在地理区域确定后,基于稀疏增量式生成模型,微博的主题即可由 它们的多项式分布获取,即:
[0053] 将一天平均划分为24个时间槽,每个主题对应一个多项式分布ξ z,以表达每个主 题下每个时间槽的出现概率,BP :
[0055] 微博文档生成形式化过程为:
[0056] (
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1