基于统计数据的用户画像计算方法_2

文档序号:9866472阅读:来源:国知局
述如下:
[0037] 1、随机选择一个主题分布目S。
[0038] 2、判断是否是转发内容或者是会话内容。如果是转发内容或会话内容,则将参数π 标记为1,随机选择一个文档分布9c,然后,把0C的值赋给0S。如果不是转发内容或会话内容, 则随机选择一个文档分布9s;
[0039 ] 3、在参数为0S的多项分布基础上,选择特定的词语W。
[0040] 通过对用户发表的社交内容进行内容主题模型建模,本发明可W用一个主题分布 来作为用户社交语言特征的表示。使用内容主题模型对用户的社交内容进行建模,训练得 出用户社交内容的主题分布,然后将此分布作为用户社交内容语言特征。
[0041] 社交网络中,人们的交互有明显的社区性,相同社区内的用户多具有相同兴趣或 关注点并交流密切,不同社区通过关联节点进行连接。为了达到对特定领域影响力用户的 行为进行研究的目的,本发明进一步将该领域内的影响力用户交互的社交网络重构出来, 并对该社交网络图进行社区划分。
[0042] 在社交网络中,用户的连接状态W及交互的频繁程度能够区分不同的强弱连接关 系,最终形成一个有加权值的社交网络。
[0043] 有W下两种信息最能决定两者的关联强度:用户的连接状态:只有两个用户是关 注关系,两者在社交网络图上才会有连接形成。用户的交互频度:交互行为都有主动方和被 动方,因而也形成了社交网络图中连接关系的有向性。
[0044] 用G来表示影响力用户形成的有向图,关联强度定义为社交网络中一个用户m与 其所有的关联用户所形成连接的强度。己知用户在图G中对应的节点VI,则VI的邻居图包含 了 Vi和Vi的所有一跳邻居节点,W及运些节点之间的连接。用户Vi指向Vj的关联强度表示为 Vij。
[0045] 获取与用户ViW及关联用户有关的数据包括用户连接状态数据以和用户交互频度 数据Ii,则统一定义节点间关联强度的计算公式为:
[0046] wy = LijXIij
[0047] 其中表示的是用户i和j间的连接状态,构成了两个用户间连接的基础,定义如 下:
[004引当Vj是Vi的关注者时,Uj = l,当Vj是Vi的关注者时,Uj = l,
[0049] lu表示用户i和j间的交互频度,决定了两个用户间关联强度的强弱,定义如下:
[0050] = 1+ ω iAtij+ ω 2〇ονυ+ ω 3Retu+ ω 4Pru
[0051 ]其中Atij指vj在主题内容中是否提到vi、Ccmj指vj是否与Vi会话、Retij指vj是否转 发Vi的主题、P;rリ指vj是否对Vi评论,Atij,Covij,Retij,口;1^在是时取1,否时取0,ω是各种交 互行为相应的加权值。
[0052] 在得到用户之间相互影响程度之后,通过W下过程完成特定领域影响力用户社区 的划分。每个节点的标签按相似度传播给相邻节点,在节点传播的每一步,每个节点根据相 邻节点的标签来更新自己的标签。在标签传播过程中,保持已标注数据的标签不变,把标签 传向未标注数据。最终当迭代过程结束时,相似节点的概率分布也趋于相似,划分到同一个 类别中,从而完成标签传播过程。
[0053] 1、为每个节点标定一个不同的社区id。
[0054] 2、对于每一个节点,首先得到该节点的所有入节点W及运些入节点到该节点的关 联强度。
[0055] 3、得到所有入节点到该节点关联强度最高的节点的社区id,将该节点的社区id标 记为此id。对另外的节点也进行上述的处理过程。
[0化6] 4、多次迭代2,3步中的处理过程。
[0057] 结合本发明对所建模文档集的先验信息来获取分层主题结构,然后针对不同的分 层主题,分别训练主题模型。训练流程如下:
[0058] 1)结合对文档集的先验信息,得到主题层次结构树中间主题层的相关事件或用 户,具体地:在预定义信息平台抓取关键词的相关信息,并将关键词整理成多个层级,每个 层级赋予相应的加权值。在对某条数据进行判定是否属于某个主题的时候,则对该条数据 中存在的关键词相应的加权值做求和,加权值值大于某个阔值则判定为属于该中间主题; 按照中间层主题对数据集进行拆分,得到各个事件或用户相关的数据;
[0059] 2)根据每个中间层次主题的相关数据得到各个中间层次主题的细分主题;
[0060] 3)针对每个中间层主题,计算其所有细分主题的主题重要度值,把部分无意义的 细分主题过滤掉;
[0061] 4)为所有剩余的细分主题生成多种显示模式。
[0062] 5)根据细分主题的关键词,到原始数据中做反向匹配,得出每个热口细分主题相 关的数据条数。
[0063] W下分别介绍了对细分主题进行重要性估计和生成细分主题显示模式的过程。
[0064] 通过W下步骤的计算,得到主题重要性的最终估计分数。
[0065] (1)给出无效主题的评价准则C,对于每一个主题k,将评价准则C进行线性加权,并 标准化为C7 ,其中m为预设距离计算方法,从余弦距离、相对赌和相关系数Ξ种方法中选 择。基于两种不同的方式来计算每个主题的相关评分。第一种是基于计算值在所有计算值 求和的加权值得出,计算如下:
[0066]
[0067]第二种是基于计算值的最大值和最小值得出,计算如下:
[006引
[0069] 在后续的步骤中,c]r用于主题重要性评分值的计算,C2!"用于主题重要性评分 加权值的计算。
[0070] (2)在计算主题重要性之前,首先需要将通过不同距离计算公式计算得到的与无 效主题的距离整合成一个数值。对于主题k己经得出与不同计算无效主题的距离的方法即 余弦距离、相对赌和相关系数方法的评价准则C的计算分值C'、c^、cf,则最终的分值 为:
[0071]
[0072] 将步骤1中的两个标准化W后的分数Cl!"和代入上式,可W得到S巧和两 个不同的分值。
[0073] (3)将步骤2中计算的分值参数和加权值参数进行整合。对于分值参数化的整合:
[0074]
[0075] 其中,Φ。是无效主题k计算所得距离的加权值。
[0076] 对于加权值参数Ok的整合:
[0077]
[0078] (4)得出重要性分值的最终计算公式为SkxOk
[0079] 对计算得出的各个主题计算重要性分值,然后将重要性低的主题过滤掉,达到主 题筛选的目的。
[0080] 为了让模型计算出的主题能显示更加丰富的信息,需要通过多种形式来显示结 果,运样才能更加准确的反映主题的信息。在一篇文档中,如果几个词语相邻并且运几个词 被分配到了相同的主题下面,则运几个词组合在一起有很到的可能是一个更加有实际内涵 的短语。对单个的词语进行聚合处理,得到由多个组成的短语,并W此来作为主题的一种显 示模式。通过找到主题相关的原始内容作为主题的显示模式。首先对数据集中的所有社交 内容构建了索引,然后使用主题的关键词作为捜索关键词去原始内容集中捜索原始内容, 使用预定义数量的返回结果作为该主题的显示模式。
[0081] 为了能够在可控时间内完成数据计算,本发明基于化doop分布式平台给出了特定 领域用户社区主题挖掘分布式架构。使用化doop进行模型训练是通过将数据进行等量拆 分,分发到不同的节点上,不同的节点针对每一份数据单独进行计算,最终将各个节点的计 算结果进行汇
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1