基于远程对话的用户特征挖掘方法

文档序号:9597980阅读:394来源:国知局
基于远程对话的用户特征挖掘方法
【技术领域】
[0001] 本发明涉及大数据,特别涉及一种基于远程对话的用户特征挖掘方法。
【背景技术】
[0002] 近年来,社交网络迅速发展,用户人数呈爆炸式增长。通过社交网络服务,人们除 了进行社交行为,则更多的是将社交网络当成公共的媒体平台,满足社交需求和特定兴趣 获取需求。对于用户的专业信息及特定兴趣获取需求,而当前社交网络产品则不能很好的 满足该需求,各类用户发表的信息混杂在一起,用户需要自己去甄别其中自己感兴趣的信 息。如果对社交网络特定领域中信息走向及分布特点进行准确的研究,需要对其中的影响 力用户进行深度的分析挖掘,而短文本无法蕴含丰富的语义特征,这就使得很多在处理文 本有较好性能的算法直接用于社交网络数据的处理并不能得到很好的效果。

【发明内容】

[0003] 为解决上述现有技术所存在的问题,本发明提出了一种基于远程对话的用户特征 挖掘方法,包括:
[0004] 构建分布式主题挖掘体系结构,利用社交网络数据进行主题监测模型训练,获取 不同领域社区中的用户主题分布。
[0005] 优选地,所述分布式主题挖掘体系结构包括数据采集模块、数据运算存储模块、算 法分析模块、任务管理模块、前端显示模块,数据采集模块通过调用开放平台API和抓取 网站网页两种方式,采集系统需要的用户相关数据,并对数据进行解析、处理,最终将数据 导入到数据存储模块;数据运算存储模块为下层的数据采集模块提供原始数据存储服务, 为上层的算法分析模块提供算法计算结果数据存储服务,同时为前端显示模块提供显示 数据存储服务,其中分布式文件系统部分负责用户相关原始数据及算法中间结果的存储, MapReduce部分负责数据的处理及算法运算,数据库用于存储算法的计算结果及前端显示 模块所需数据;算法分析模块实现并运行社交网络各领域社区发现和用户社区主题挖掘方 法,计算用户相关数据,得到数据挖掘结果;任务管理模块负责其他各模块任务的分发和调 度,前端显示模块显示算法的计算结果,将特定领域用户的社区划分结果以及对各个社区 主题挖掘的结果进行显示;所述分布式文件系统,还用于存储在社交内容采集的用户原始 数据、模型训练的中间数据以及部分算法的结果数据;存储用户信息及算法的计算结果, 为前端显示模块提供数据库功能支撑,该分布式文件系统是在Linux文件系统基础上实现 的,存储其中的数据都是以纯文本形式存储;使用tab键作为各个字段的分割符,对于模型 训练的结果在分布式文件系统中也是以文本文件方式存储,数据库中存储用户信息、用户 连接关系、社交网络各领域社区发现模型对影响力用户的社区划分结果及特定领域用户社 区主题挖掘方法对影响力用户群主题挖掘的结果,为前端显示模块提供数据库功能支撑;
[0006] 在模型训练过程中,记录模型主题分布的状态以及主题下关键词的分布状态,使 用两个矩阵来完成中间状态的记录:nw矩阵,记录每个词语在各个主题上的分布情况;nd 矩阵,记录每个文档在各个主题上的分布情况,通过不断更新上述两个矩阵的状态信息,最 终使模型达到收敛,模型训练的过程为:
[0007] 1)将主题个数记为T,则初始化阶段对原始数据中的所有词语随机分配一个主题 t,其中t e {0···τ-1},得到模型训练的原始数据;
[0008] 2)按照数据分片的大小将原始数据切分成Ν等份,并将数据分片分发到集群中不 同的节点上;
[0009] 3)针对每一个数据分片,在相应的节点上启动一个映射器任务;该映射器任务首 先本地加载一份全局的nw\nd矩阵,得到前一次迭代完成后模型的状态信息;
[0010] 4)在本地nw\nd状态矩阵的基础上计算本映射器任务数据块中所有词语新的主 题分布,并将对全局nw\nd矩阵的更新迀移到一个固定的规约任务中,然后词语及其更新 的主题分布迀移到另外的一个或多个规约任务中;
[0011] 5)启动一个专门用于接收nw\nd矩阵更新信息的规约任务,用来集中处理来自各 个映射器任务的状态更新信息,然后对全局的nw\nd进行更新;另外的规约任务则将词语 及其更新的主题分布数据写入分布式文件系统中,为下一次迭代做好准备;
[0012] 6)重复上述2-5的过程,直到收敛。
[0013] 本发明相比现有技术,具有以下优点:
[0014] 本发明提出了一种基于远程对话的用户特征挖掘方法,通过分析特定领域下用户 主题的特征,帮助用户从海量数据中高效获取信息。
【附图说明】
[0015] 图1是根据本发明实施例的基于远程对话的用户特征挖掘方法的流程图。
【具体实施方式】
[0016] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描 述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权 利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节 以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中 的一些或者所有细节也可以根据权利要求书实现本发明。
[0017] 本发明的一方面提供了一种基于远程对话的用户特征挖掘方法。图1是根据本发 明实施例的基于远程对话的用户特征挖掘方法流程图。
[0018] 针对用户在社交网络上对特定领域信息的需求,本发明利用社交网络数据,准确 识别特定领域影响力用户;在识别出的影响力用户群基础上,完成影响力用户社交网络的 构建及关联强度的估计,并基于用户关联强度进行社区划分,为接下来挖掘影响力用户群 内的主题分布做准备;本发明进一步利用特定领域用户社区主题挖掘方法,分析社交网络 数据特征及主题分布特征的基础上,高效挖掘不同领域社区中热门主题;达到帮助用户从 海量数据中高效获取信息的目的。
[0019] 为了能尽量完整的识别目标用户群体,本发明同时采用基于拓扑结构和基于用户 行为内容的算法,根据每个领域的相关先验信息,选择出部分种子用户作为拓扑向外拓展 的起点,然后根据种子用户,结合领域相关先验信息,得到一个领域关键词列表;根据关键 词列表搜索相关的用户状态,通过解析返回内容,得到发表这些状态的用户,作为候选用 户。根据候选用户获得这些用户的社交网络数据,作为识别算法的数据源,来分析特定领域 用户的特征。
[0020] 其中数据获取方式有两种:一是对指定的页面进行抓取,这种方法直接访问Web 页面,得到原始数据,然后通过页面解析等方式对信息进行提取,获取所需数据。另一种方 式是通过开放平台提供的API获取数据。
[0021] 本发明同时考虑用户的社交网络有向图结构关系和用户发表的内容信息,将判别 用户是否是该影响力用户的问题映射为一个分类的问题。以下是提取用户特征的方法以及 基于提取的用户特征构建分类器的过程。
[0022] 本发明将特征分为三大类:用户属性特征、用户社交习惯特征、用户社交内容语言 特征。用户填写个人相关的一些信息过程中,系统会维持这些信息的动态更新。可以通过 开放API服务得到。影响力用户往往因其作为信息提供者身份而在被关注人数、发布主题 数量上有较高值。使用个性描述、标签两个特征来分别反映用户个性描述部分和标签部分 的情况。首先将训练集中正向样本用户的所有个性描述及标签部分进行词频统计,得到词 频高于预定阈值的的词语集合D和T。然后,通过如下的计算公式;来得到个性描述和标签 的记分值。
[0023] 个性描述记分值=| Di n D I / ID
[0024] 其中,Di指当前用户i的个性描述中出现的词。
[0025] 标签记分值=1η T I / I T
[0026] 其中,?\指当前用户i的个人标签列表。
[0027] 影响力用户发表的内容往往具有较高的价值,这样会引来别人的大量评论和转 发。因此进一步统计每个主题的平均评论数和平均转发数的值,则来分析影响力用户特征。
[0028] 本发明综合考虑了转发内容和会话内容跟原
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1