基于社交内容的用户分组方法

文档序号:9750977阅读:512来源:国知局
基于社交内容的用户分组方法
【技术领域】
[0001] 本发明涉及大数据,特别涉及一种基于社交内容的用户分组方法。
【背景技术】
[0002] 随着移动互联网的发展,将生活中的社交关系迀移到了互联网上,带来了信息交 换方式的变革,而且改变了传统的人际沟通方式,对社会生活的各个领域具有深远的意义。 用户之间可以广泛地沟通、互动,通过撰写、中转、收藏等手段对文本数据进行操作。在社交 网络中,总存在部分节点连接比较紧密,而这些节点同其他节点之间的联系则相对稀疏,由 此可将这部分连接紧密的节点归为同一个群体。群体作为一种重要的社交关系属性,无形 中给舆情控制以及网络监管带来了巨大的挑战。如果没有对群体关系进行充分识别识别, 则无法识别群体兴趣,推荐感兴趣内容,更无法及时发现危害信息,维护良好的网络环境。

【发明内容】

[0003] 为解决上述现有技术所存在的问题,本发明提出了一种基于社交内容的用户分组 方法,包括:
[0004] 对社交网站服务器上的用户信息和社交内容进行采集,基于所采集的内容来识别 特定用户群体。
[0005] 优选地,所述对社交网站服务器上的用户信息和社交内容进行采集,进一步包括:
[0006] 通过数据采集系统进行数据采集,其中采集的数据包括用户信息,其包括用户ID、 用户名;文本数据,其包括会话ID、会话文本,以及关系数据,包括关注列表与关注者列表; 所述数据采集系统通过主控线程进行权限认证、程序初始化、种子节点读取、过滤、数据库 操作;所述数据获取线程借助API开放接口进行数据采集,采集过程包括接口请求、j son数 据解析、指针更新,最终返回给主控线程总数据列表;采用二进制向量和一系列随机映射函 数完成去冗余计算;为抓取种子ID列表、用户ID列表、关系列表、会话ID分别添加去冗余函 数,种子列表,抓取用户列表、社交列表均以其唯一标识ID进行,而关系的格式将两个用户 的ID组合到一起,并通过前者为被关注,后者为前者的关注者的顺序区分两者的先后顺序; 提取种子ID时,多线程对数据库的操作添加互斥锁;为每个线程分配抓取任务,为每个线程 令牌资源库进行区分式排列组合;并为每个线程单独设置一个断点文件,记录抓取的位置; 将数据库连接、关闭、查询、增加、删除操作进行统一管理,抓取对象的ID首先由人工方式输 入至文件,每次开始抓取任务之前都加载一遍优先级文件;在分任务处理中在抓取对象上, 为每个线程制定特定的抓取任务,从用户信息获取、文本获取、关系获取中选取的一个或多 个处理目标;通过控制线程的数量,或调整API请求后获取的数据量两种方式之一来从调节 米集速度;
[0007] 利用数据结构对会话过程进行描述;将参与会话的用户以关系连接在一起,构建 成基于单个事件的群体;最后在社交关系拓扑中采用节点衡量指标识别强关系群体中的节 点,最后以树形的层级结构将该事件存储至文件;其中所述强关系群体具体定义为,如果已 知群体α满足:对于群体α内的每个用户节点i,均满足i与群体α内节点构成的节点数量大于 该节点与群体α外节点构成的节点数量,则群体α被称为强关系群体。
[0008] 本发明相比现有技术,具有以下优点:
[0009] 本发明提出了一种基于社交内容的用户分组方法,有效提高互联网社交组群的识 别准确率和时效性。
【附图说明】
[0010] 图1是根据本发明实施例的基于社交内容的用户分组方法的流程图。
【具体实施方式】
[0011] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描 述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利 要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以 便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的 一些或者所有细节也可以根据权利要求书实现本发明。
[0012] 本发明的一方面提供了一种基于社交内容的用户分组方法。图1是根据本发明实 施例的基于社交内容的用户分组方法流程图。
[0013] 为了完成对社交网络的群体分析,首先建立数据采集系统对社交网站服务器上的 数据进行采集,其中数据类型包括:用户信息如用户ID、用户名、文本数据如会话ID、会话文 本,以及关系数据如关注列表与关注者列表。该系统包含以下模块:用户信息获取、文本数 据获取、社交关系生成、去冗余、多线程、数据存储、优先级选择、令牌批量获取。数据采集系 统中的主控线程进行权限认证、程序初始化、种子节点读取、过滤、数据库操作;数据获取线 程借助API开放接口进行数据采集,采集过程包括接口请求、j son数据解析、指针更新,最终 返回给主控线程总数据列表。在去冗余计算的选择上,本发明采用二进制向量和一系列随 机映射函数。为抓取种子ID列表、用户ID列表、关系列表、会话ID分别添加了去冗余函数,种 子列表,抓取用户列表、社交列表均以其唯一标识ID进行,而关系的格式则将两个用户的ID 组合到一起,并区分两者的先后顺序,前者为被关注,后者为前者的关注者。系统在多个模 块添加了相应操作:提取种子ID时,多线程对数据库的操作添加互斥锁;为每个线程分配抓 取任务,如线程1只负责文本的获取;线程2获取用户个人信息;为每个线程令牌资源库进行 区分式排列组合。并为每个线程单独设置一个断点文件,记录抓取的位置。数据库模块将数 据库连接、关闭、查询、增加、删除操作进行统一管理,抓取对象的ID首先由人工方式输入至 文件,每次开始抓取任务之前都加载一遍优先级文件。在分任务处理中在抓取对象上,为每 个线程制定一套特定的抓取任务,从用户信息获取、文本获取、关系获取中选取的一个或多 个处理目标。从速度的控制上系统共提出了两种调节方式,一是控制线程的数量,二是调整 API请求后获取的数据量。
[0014] 用户个人属性可以反映出用户的特性,而这种特性恰好提供了识别群体所需的强 特征。本发明首先通过人工方式对待识别的群体进行描述,并按照这些群体特性抽象出一 组关键词列表,即群体特征词。其次,利用用户信息过滤模块对检测到的用户进行识别,发 现属于该群体的用户节点。在过滤过程中采用字符串正则匹配将用户个人属性与群体特征 词进行匹配,如果在用户个人属性或用户名称等文本数据中包含这些特征词,则将该用户 划分至待识别的群体。
[0015] 用户行为过滤模块处理由社交网络中用户的主观意愿而产生的文本数据,利用以 下过程计算用户与群体之间的相似度。
[0016] 首先建立一个基于群体特征词的N维向量空间U,具体如下表示:
[0017] U=[Ti,T2,T3,· · ·,TN]
[0018] 其中T代表在群体中某个特征词出现的频率向量,N表示特征词的下标。
[0019] 其次,利用文本分割对用户A的全部文本Pa进行处理。
[0020] Pa= [keyi,key2, · · ·,keyN]
[0021] sim(A,U) = (PA*U)/| |(Pa| I ||u||)
[0022] 这里的key值为用户会话文本中每个特征词出现的频率向量,比较用户文本数据 与群体之间的行为特征是否相近,如若相似度sim(A,U)超过预定的阈值,则将该用户节点A 划分至群体U内。当该节点加入群体后,群体特征词会随着群体内用户集合所产生的文本数 据动态变化,识别当前群体内的潜在特征词。
[0023] 在社交关系过滤模块中,本发明应用了社交网络中的关系属性识别未知节点是否 属于群体。如果已知群体α满足以下要求,则群体α被称为强关系群体:对于群体α内的每个 用户节点i,均满足i与群体α内节点构成的节点数量大于该节点与群体α外节点构成的节点 数量。
[0024] 采用以下方法进行强关系群体识别,首先对会话过程进行还原,以数据结构加以 描述;其次将参与会话的用户以真实的关系连接
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1