基于统计数据的用户画像计算方法_3

文档序号：9866472阅读：来源：国知局

总，完成对总体数据的计算。在每一次迭代之初将原始数据的各个数据分片分发到集群中不同的节点上，不同节点独立的启动映射器任务对相应的数据分片进行计算，然后将模型的状态信息迁移到同一个规约任务上，对各个分片状态汇总，完成模型整体状态的更新。
[0082] 在模型参数的训练过程，记录模型主题分布的状态W及主题下关键词的分布状态。使用两个矩阵来完成中间状态的记录:nw矩阵，记录每个词语在各个主题上的分布情况;nd矩阵，记录每个文档在各个主题上的分布情况。在模型训练迭代过程中，通过不断更新上述两个矩阵的状态信息，最终使模型达到收敛。模型训练的过程为：
[0083] 1)将主题个数记为T，则初始化阶段对原始数据中的所有词语随机分配一个主题 t，其中te{0…T-1}，得到模型训练的原始数据。
[0084] 2)按照数据分片的大小将原始数据切分成N等份，并将数据分片分发到集群中不同的节点上。
[0085] 3)针对每一个数据分片，在相应的节点上启动一个映射器任务。该映射器任务首先本地加载一份全局的nw\nd矩阵，得到前一次迭代完成后模型的状态信息。
[0086] 4)在本地nw\nd状态矩阵的基础上计算本映射器任务数据块中所有词语新的主题分布，并将对全局nw\nd矩阵的更新迁移到一个固定的规约任务中，然后词语及其更新的主题分布迁移到另外的一个或多个规约任务中。
[0087] 5)启动一个专口用于接收nw\nd矩阵更新信息的规约任务，用来集中处理来自各个映射器任务的状态更新信息，然后对全局的nw\nd进行更新。另外的规约任务则将词语及其更新的主题分布数据写入分布式文件系统中，为下一次迭代做好准备。
[0088] 6)重复上述2-5的过程，直到收敛。
[0089] 社交网络各领域社区主题挖掘体系结构由数据采集模块、数据运算存储模块、算法分析模块、任务管理模块、前端显示模块组成。数据采集模块通过调用开放平台API和抓取网站网页两种方式，采集系统需要的用户相关数据，并对数据进行解析、处理，最终将数据导入到数据存储模块。数据运算存储模块为下层的数据采集模块提供原始数据存储服务，为上层的算法分析模块提供算法计算结果数据存储服务，同时为前端显示模块提供显示数据存储服务。其中分布式文件系统部分负责用户相关原始数据及算法中间结果的存储，MapReduce部分负责数据的处理及算法运算，数据库用于存储算法的计算结果及前端显示模块所需数据。算法分析模块实现并运行社交网络各领域社区发现模型和用户社区主题挖掘方法，计算用户相关数据，得到数据挖掘结果。任务管理模块负责其他各模块任务的分发和调度。前端显示模块显示算法的计算结果，将特定领域用户的社区划分结果W及对各个社区主题挖掘的结果进行显示。
[0090] 所述分布式文件系统，用于存储在社交内容采集的用户原始数据、模型训练的中间数据W及部分算法的结果数据;存储用户信息及算法的计算结果，为前端显示模块提供数据库功能支撑。分布式文件系统是在Linux文件系统基础上实现的，因此存储其中的数据都是W纯文本形式存储。使用tab键作为各个字段的分割符。对于模型训练的结果在分布式文件系统中也是W文本文件方式存储。数据库中存储用户信息、用户连接关系、社交网络各领域社区发现模型对影响力用户的社区划分结果及特定领域用户社区主题挖掘方法对影响力用户群主题挖掘的结果，为前端显示模块提供数据库功能支撑。
[0091] 综上所述，本发明提出了一种基于统计数据的用户画像计算方法，通过分析特定领域下用户主题的特征，帮助用户从海量数据中高效获取信息。
[0092] 显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可W用通用的计算系统来实现，它们可W集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可W用计算系统可执行的程序代码来实现，从而，可W将它们存储在存储系统中由计算系统来执行。运样，本发明不限制于任何特定的硬件和软件结合。
[0093] 应当理解的是，本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者运种范围和边界的等同形式内的全部变化和修改例。
【主权项】
1. 一种基于统计数据的用户画像计算方法，其特征在于，包括：基于社交网络数据的统计，计算社交网络用户之间的关联强度，并基于用户关联强度进行社区划分。2. 根据权利要求1所述的方法，其特征在于，所述关联强度为社交网络中一个用户m与其所有的关联用户所形成连接的强度，所述计算社交网络用户之间的关联强度，进一步包括：通过对用户发表的社交内容进行内容主题建模，训练得出用户社交内容的主题分布，然后将此分布作为用户社交内容语言特征；用G来表示影响力用户形成的有向图，图G中用户节点Vi的邻居图包含了Vi和Vi的所有一跳邻居节点，以及这些节点之间的连接;用户Vl指向巧的关联强度表示为获取与用户 Vl以及关联用户有关的数据包括用户连接状态数据U和用户交互频度数据，得到定义两节点间关联强度的计算公式为： wij = Lij X Iij 其中Lu表示的是用户i和j间的连接状态，定义如下：当vj是vi的关注者时，Ui = l，当vj是vi的关注者时，Lij = l， 1"表示用户i和j间的交互频度，定义如下： Iij = 1+ ω iAtij+ ω 2CoVij+ ω 3Retij+ ω 4Prij 其中Atij指Vj在主题内容中是否提到Vi、CoVij指Vj是否与Vi会话、Retij指Vj是否转发Vi 的主题、Prij指Vj是否对Vi评论，Atij，Covij，Retij，Prij均在是时取1，否时取0，ω是各种交互行为相应的加权值；所述基于用户关联强度进行社区划分，进一步包括：在得到用户之间相互影响程度之后，通过以下过程完成特定领域影响力用户社区的划分:每个节点的标签按相似度传播给相邻节点，在节点传播的每一步，每个节点根据相邻节点的标签来更新自己的标签，在标签传播过程中，保持已标注数据的标签不变，把标签传向未标注数据;最终当迭代过程结束时，使相似节点的概率分布也趋于相似，划分到同一个类别中，完成标签传播过程： 1、为每个节点标定一个不同的社区id; 2、对于每一个节点，首先得到该节点的所有入节点以及这些入节点到该节点的关联强度； 3、得到所有入节点到该节点关联强度最高的节点的社区i d，将该节点的社区i d标记为此id，对另外的节点也进行上述的处理过程； 4、多次迭代2，3步中的处理过程。
【专利摘要】本发明提供了一种基于统计数据的用户画像计算方法，该方法包括：基于社交网络数据的统计，计算社交网络用户之间的关联强度，并基于用户关联强度进行社区划分。本发明提出了一种基于统计数据的用户画像计算方法，通过分析特定领域下用户主题的特征，帮助用户从海量数据中高效获取信息。
【IPC分类】G06F17/30, G06Q50/00
【公开号】CN105631749
【申请号】CN201510992090
【发明人】董政, 吴文杰, 陈露, 李学生
【申请人】成都陌云科技有限公司
【公开日】2016年6月1日
【申请日】2015年12月24日

完整全部详细技术资料下载

当前第3页1 2 3