基于统计数据的用户画像计算方法

文档序号:9866472阅读:3378来源:国知局
基于统计数据的用户画像计算方法
【技术领域】
[0001] 本发明设及大数据,特别设及一种基于统计数据的用户画像计算方法。
【背景技术】
[0002] 近年来,社交网络迅速发展,用户人数呈爆炸式增长。通过社交网络服务,人们除 了进行社交行为,则更多的是将社交网络当成公共的媒体平台,满足社交需求和特定兴趣 获取需求。对于用户的专业信息及特定兴趣获取需求,而当前社交网络产品则不能很好的 满足该需求,各类用户发表的信息混杂在一起,用户需要自己去甄别其中自己感兴趣的信 息。如果对社交网络特定领域中信息走向及分布特点进行准确的研究,需要对其中的影响 力用户进行深度的分析挖掘,而短文本无法蕴含丰富的语义特征,运就使得很多在处理文 本有较好性能的算法直接用于社交网络数据的处理并不能得到很好的效果。

【发明内容】

[0003] 为解决上述现有技术所存在的问题,本发明提出了一种基于统计数据的用户画像 计算方法,包括:
[0004] 基于社交网络数据的统计,计算社交网络用户之间的关联强度,并基于用户关联 强度进行社区划分。
[0005] 优选地,所述关联强度为社交网络中一个用户m与其所有的关联用户所形成连接 的强度,所述计算社交网络用户之间的关联强度,进一步包括:
[0006] 通过对用户发表的社交内容进行内容主题建模,训练得出用户社交内容的主题分 布,然后将此分布作为用户社交内容语言特征;
[0007] 用G来表示影响力用户形成的有向图,图G中用户节点Vi的邻居图包含了Vi和Vi的 所有一跳邻居节点,W及运些节点之间的连接;用户VI指向V说关联强度表示为VU;获取与 用户ViW及关联用户有关的数据包括用户连接状态数据k和用户交互频度数据Ii,得到定 义两节点间关联强度的计算公式为:
[000引 wij = LijXIij
[0009]其中表示的是用户i和j间的连接状态,定义如下:
[0010]当Vj是Vi的关注者时,Lij = l,当Vj是Vi的关注者时,Lij = l,
[OOW li康示用户巧日j间的交互频度,定义如下:
[0012] lij = 1+ ω iAtij+ ω 2CoVij+ ω 3Retij+ ω 4Prij
[OOU]其中Atij指Vj在主题内容中是否提到vi、Ccmj指Vj是否与Vi会话、Retリ指vj是否转 发¥1的主题、?1'。指¥堤否对¥讲论,41:。,(:0¥。,1?61:。,?1'。均在是时取1,否时取0,〇是各种 交互行为相应的加权值;
[0014] 所述基于用户关联强度进行社区划分,进一步包括:
[0015] 在得到用户之间相互影响程度之后,通过W下过程完成特定领域影响力用户社区 的划分:每个节点的标签按相似度传播给相邻节点,在节点传播的每一步,每个节点根据相 邻节点的标签来更新自己的标签,在标签传播过程中,保持已标注数据的标签不变,把标签 传向未标注数据;最终当迭代过程结束时,使相似节点的概率分布也趋于相似,划分到同一 个类别中,完成标签传播过程:
[0016] 1、为每个节点标定一个不同的社区id;
[0017] 2、对于每一个节点,首先得到该节点的所有入节点W及运些入节点到该节点的关 联强度;
[0018] 3、得到所有入节点到该节点关联强度最高的节点的社区id,将该节点的社区id标 记为此id,对另外的节点也进行上述的处理过程;
[0019] 4、多次迭代2,3步中的处理过程。
[0020] 本发明相比现有技术,具有W下优点:
[0021] 本发明提出了一种基于统计数据的用户画像计算方法,通过分析特定领域下用户 主题的特征,帮助用户从海量数据中高效获取信息。
【附图说明】
[0022] 图1是根据本发明实施例的基于统计数据的用户画像计算方法的流程图。
【具体实施方式】
[0023] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描 述。结合运样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利 要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节W 便提供对本发明的透彻理解。出于示例的目的而提供运些细节,并且无运些具体细节中的 一些或者所有细节也可W根据权利要求书实现本发明。
[0024] 本发明的一方面提供了一种基于统计数据的用户画像计算方法。图1是根据本发 明实施例的基于统计数据的用户画像计算方法流程图。
[0025] 针对用户在社交网络上对特定领域信息的需求,本发明利用社交网络数据,准确 识别特定领域影响力用户;在识别出的影响力用户群基础上,完成影响力用户社交网络的 构建及关联强度的估计,并基于用户关联强度进行社区划分,为接下来挖掘影响力用户群 内的主题分布做准备;本发明进一步利用特定领域用户社区主题挖掘方法,分析社交网络 数据特征及主题分布特征的基础上,高效挖掘不同领域社区中热口主题;达到帮助用户从 海量数据中高效获取信息的目的。
[0026] 为了能尽量完整的识别目标用户群体,本发明同时采用基于拓扑结构和基于用户 行为内容的算法,根据每个领域的相关先验信息,选择出部分种子用户作为拓扑向外拓展 的起点,然后根据种子用户,结合领域相关先验信息,得到一个领域关键词列表;根据关键 词列表捜索相关的用户状态,通过解析返回内容,得到发表运些状态的用户,作为候选用 户。根据候选用户获得运些用户的社交网络数据,作为识别算法的数据源,来分析特定领域 用户的特征。
[0027] 其中数据获取方式有两种:一是对指定的页面进行抓取,运种方法直接访问Web页 面,得到原始数据,然后通过页面解析等方式对信息进行提取,获取所需数据。另一种方式 是通过开放平台提供的API获取数据。
[0028] 本发明同时考虑用户的社交网络有向图结构关系和用户发表的内容信息,将判别 用户是否是该影响力用户的问题映射为一个分类的问题。W下是提取用户特征的方法W及 基于提取的用户特征构建分类器的过程。
[0029] 本发明将特征分为Ξ大类:用户属性特征、用户社交习惯特征、用户社交内容语言 特征。用户填写个人相关的一些信息过程中,系统会维持运些信息的动态更新。可W通过开 放API服务得到。影响力用户往往因其作为信息提供者身份而在被关注人数、发布主题数量 上有较高值。使用个性描述、标签两个特征来分别反映用户个性描述部分和标签部分的情 况。首先将训练集中正向样本用户的所有个性描述及标签部分进行词频统计,得到词频高 于预定阔值的的词语集合D和T。然后,通过如下的计算公式;来得到个性描述和标签的记分 值。
[0030] 个性描述记分值=I化no 1/Id
[0031] 其中,Di指当前用户i的个性描述中出现的词。
[0032] 标签记分值=|TiflT|/|T
[003引其中,Τι指当前用户i的个人标签列表。
[0034] 影响力用户发表的内容往往具有较高的价值,运样会引来别人的大量评论和转 发。因此进一步统计每个主题的平均评论数和平均转发数的值,则来分析影响力用户特征。
[0035] 本发明综合考虑了转发内容和会话内容跟原始内容在主题分布上的一致性,假定 每篇文档是有多个主题形成的,同时每个主题是通过多个词语的分布来表示的。将转发内 容和会话内容间的关系添加到贝叶斯网络中。
[0036] 将内容主题的生成过程描
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1