实现用户信息聚类的方法和装置制造方法

文档序号:6508969阅读:152来源:国知局
实现用户信息聚类的方法和装置制造方法
【专利摘要】本发明提供了一种实现用户信息聚类的方法和装置。所述方法包括:量化用户信息得到用户对应的特征,聚类所述用户对应的特征得到用户集合;获取范围设定信息,对所述范围设定信息进行统计以得到用户集合所对应的期望范围;根据所述用户集合和期望范围生成聚类结果。所述装置包括:聚类模块、范围统计模块,和结果生成模块。采用本发明不需要耗费人工成本,并且能在海量用户针对用户特性实现聚合。
【专利说明】实现用户信息聚类的方法和装置

【技术领域】
[0001] 本发明涉及信息处理技术,特别是涉及一种实现用户信息聚类的方法和装置。

【背景技术】
[0002] 随着虚拟社交网络工具以及即时通信工具等各种社交应用由兴起到爆发式的增 长和发展,并且通过语音聊天、图片分享等技术使得交友的便利性得到了大大地提高。
[0003] 通过社交应用访问社交网络已经逐渐成为用户进行网络访问的主流,例如,通过 社交应用在社交网络中发起或参加各种聚会活动,然而,在社交网络中,任一活动的发起和 参与都需要人工设置所涉及的用户,例如,发起活动的用户人工指定活动的用户,或者用户 在浏览到社交网络中发起的活动之后申请参与该活动,以在海量的用户中将若干个用户聚 合在一起,然而,这一方式由于需要用户进行人工响应,因此所耗费的人工成本非常高,也 无法实现海量用户中针对用户特性的聚合。


【发明内容】

[0004] 基于此,有必要针对社交网络中活动的发起和参与需要耗费非常高的人工成本, 也无法实现海量用户中针对用户特性的聚合的技术问题,提供一种不需要耗费人工成本, 并且能在海量用户针对用户特性实现聚合的实现用户信息聚合的方法。
[0005] 此外,还有必要提供一种不需要耗费人工成本,并且能在海量用户针对用户特性 实现聚合的实现用户信息聚合的装置。
[0006] -种实现用户信息聚类的方法,包括如下步骤:
[0007] 量化用户信息得到对应的特征,聚类所述用户对应的特征得到用户集合;
[0008] 获取范围设定信息,对所述范围设定信息进行统计以得到用户集合所对应的期望 范围;
[0009] 根据所述用户集合和期望范围生成聚类结果。
[0010] 一种实现用户信息聚类的装置,包括:
[0011] 聚类模块,用于量化用户信息得到用户对应的特征,聚类所述用户对应的特征得 到用户集合;
[0012] 范围统计模块,用于获取范围设定信息,对所述范围设定信息进行统计以得到用 户集合所对应的期望范围;
[0013] 结果生成模块,用于根据所述用户集合和期望范围生成聚类结果。
[0014] 上述实现用户信息聚类的方法和装置,根据用户信息进行量化得到用户对应的特 征,聚类用户对应的特征得到用户集合,以针对每一用户的用户信息在海量用户中实现用 户聚合,得到用户集合,该用户集合中的用户具备了相同或相近似的用户特性,并且不需要 耗费人工成本。此外,为保证聚类的准确性,还将根据范围设定信息对用户集合中的用户 进行统计以得到该用户集合所对应的期望范围,进而根据用户集合和期望范围生成聚类结 果,实现了对用户行为的预测,以使得生成的聚类结果对于用户集合中的用户而言是合理 且准确的。

【专利附图】

【附图说明】
[0015] 图1为一个实施例中实现用户信息聚类的方法流程图;
[0016] 图2为一个实施例中原始数据的曲线示意图;
[0017] 图3为图2中原始数据形成的谱空间示意图;
[0018] 图4为图一个实施例中根据用户信息构造谱空间,并进行拉普拉斯特征映射得到 用户在谱空间的顶点,通过用户在谱空间的顶点对用户进行聚类得到用户集合的方法流程 图;
[0019] 图5为图4中量化用户信息以构造相似矩阵的方法流程图;
[0020] 图6为一个实施例中获取范围设定信息,对范围设定信息进行统计以得到用户集 合所对应的期望范围的方法流程图;
[0021] 图7为另一个实施例中获取范围设定信息,对范围设定信息进行统计以得到用户 集合所对应的期望范围的方法流程图;
[0022] 图8为图7中获取地点范围设定信息的方法流程图;
[0023] 图9为图8中将地点范围设定信息中的地点范围划分为若干个地点子范围的方法 流程图;
[0024] 图10为一个实施例中实现用户信息聚类的装置的结构示意图;
[0025] 图11为图10中聚类模块的结构示意图;
[0026] 图12为图11中量化单元的结构示意图;
[0027] 图13为一个实施例中范围统计模块的结构示意图;
[0028] 图14为一个实施例中范围统计模块的结构示意图;
[0029] 图15为图14中第二信息获取单元的结构示意图;
[0030] 图16为图14中第二划分单元的结构示意图。

【具体实施方式】
[0031] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0032] 如图1所示,在一个实施例中,一种实现用户信息聚类的方法,包括如下步骤:
[0033] 步骤S10,量化用户信息得到用户对应的特征,聚类用户对应的特征得到用户集 合。
[0034] 本实施例中,用户信息包括了用户的年龄、性别、兴趣爱好等基本信息。对用户信 息进行量化和聚类处理以得到相近似的多个用户,进而由得到的多个用户形成用户集合。
[0035] 在一个实施例中,上述步骤S10的过程为:根据用户信息构造谱空间,并进行拉普 拉斯特征映射得到用户在谱空间的顶点,通过用户在谱空间的顶点对用户进行聚类得到用 户集合。
[0036] 本实施例中,谱聚类理论是建立在图论中谱图理论基础上的,其本质是将聚类问 题转化为图的最优切割问题。谱聚类算法能够对任意形状的样本空间进行划分,且收敛于 全局最优解,相应的,在谱空间中相似性高的原始数据分布比较集中,而相似性低的数据分 布则比较分散。
[0037] 如图2所示,原始数据为两根螺旋状的曲线,谱聚类理论中根据谱图的特征值和 特征向量构造合适的聚类空间,即谱空间,如图3所示,在谱空间中,不同曲线上的采样点 被分成两堆,以在此基础上进行准确聚类。
[0038] 步骤S30,获取范围设定信息,对范围设定信息进行统计以得到用户集合所对应的 期望范围。
[0039] 本实施例中,为了对用户进行准确预设和合理性评价,还将获取额外的范围设定 信息为用户集合设定合理的期望范围,以使得用户集合中的用户是相近似的,并且期望范 围也是与用户集合中的用户行为以及用户相关事件的发展相符的。
[0040] 进一步的,范围设定信息将包括了时间范围设定信息和地点范围设定信息,其中, 时间范围设定信息为用户集合中每一用户的时间范围所形成的并集;地点范围设定信息为 用户集合中每一用户的位置范围所形成的并集。
[0041] 通过范围设定信息可获知用户集合所划定的范围条件,进而在这一范围条件中统 计得到对用户集合中的用户而言,最多用户接受的子范围,即期望范围。
[0042] 步骤S50,根据用户集合和期望范围生成聚类结果。
[0043] 本实施例中,生成包含了用户集合和期望范围的聚类结果,根据该聚类结果可获 知用户集合中包含的用户以及相应的期望范围。
[0044] 例如,对于社交网络中发起活动的用户而言,可通过聚类结果获知参与活动的对 象,即用户集合中的用户,以及活动实施的时间范围和地点范围,避免了多个用户所构成的 用户群体进行活动时间和地点讨论的复杂过程以及各方意见不统一而造成的沟通缺乏效 率的情况,提高了社交网络中信息处理的速度。
[0045] 此外,也可为访问社交网络的用户动态的推荐可发起活动的聚类结果,用户通过 查看这一聚类结果即可获知当前可发起活动的用户集合以及期望范围,进而依据这一聚类 结果发起活动即可,大大提高了社交网络中线下活动的便利性。
[0046] 上述聚类结果可通过虚拟社交网络工具以及即时通信工具等社交应用中提供的 入口实现,也可以在电子地图中增设相应的入口实现,还可以设置为独立的应用,所生成的 聚类结果将推送至社交应用、电子地图或者其它的独立应用中,以供用户查看。
[0047] 如图4所示,在一个实施例中,上述根据用户信息构造谱空间,并进行拉普拉斯特 征映射得到用户在谱空间的顶点,通过用户在谱空间的顶点对用户进行聚类得到用户集合 的步骤包括如下步骤:
[0048] 步骤S110,量化用户信息以构造相似矩阵。
[0049] 本实施例中,用户信息可以是由用户的注册信息得到的,也可以是用户输入的。对 用户信息中按照维度进行量化以得到每一用户信息中每一维度所对应的量化数值。例如, 用户信息中,年龄和性别都分别对应一个维度。
[0050] 步骤S130,由相似矩阵提取拉普拉斯矩阵,对拉普拉斯矩阵进行特征分解以构造 谱空间。
[0051] 本实施例中,由相似矩阵相应计算得到拉普拉斯矩阵(Laplacian矩阵)。根据拉 普拉斯矩阵中各项点所属的连通部分,将拉普拉斯矩阵L写成分块对角形式,即:

【权利要求】
1. 一种实现用户信息聚类的方法,包括如下步骤: 量化用户信息得到用户对应的特征,聚类所述用户对应的特征得到用户集合; 获取范围设定信息,对所述范围设定信息进行统计以得到用户集合所对应的期望范 围; 根据所述用户集合和期望范围生成聚类结果。
2. 根据权利要求1所述的方法,其特征在于,所述量化用户信息得到用户对应的特征, 聚类所述用户对应的特征得到用户集合的步骤包括: 根据用户信息构造谱空间,并进行拉普拉斯特征映射得到用户在谱空间的顶点,通过 所述用户在谱空间的顶点对用户进行聚类得到用户集合。
3. 根据权利要求2所述的方法,其特征在于,所述根据用户信息构造谱空间,并进行拉 普拉斯特征映射得到用户在谱空间的顶点,通过所述用户在谱空间的顶点对用户进行聚类 得到用户集合的步骤包括: 量化用户信息以构造相似矩阵; 由所述相似矩阵提取拉普拉斯矩阵,对所述拉普拉斯矩阵进行特征分解以构造谱空 间; 将量化的用户信息映射至谱空间得到用户在谱空间的顶点; 将谱空间中距离上相互集中的顶点所对应的用户形成用户集合。
4. 根据权利要求3所述的方法,其特征在于,所述量化用户信息以构造相似矩阵的步 骤包括: 根据用户信息构建每一用户所对应的向量; 对所述向量中的元素进行归一化处理,并将归一化处理后的元素进行加权计算得到所 述用户对应的量化值; 计算所述用户对应的量化值之间的距离得到两个用户之间的相似度,并通过所述两个 用户之间的相似度形成邻接矩阵; 通过所述邻接矩阵得到相似矩阵。
5. 根据权利要求1所述的方法,其特征在于,所述范围设定信息为时间范围设定信息; 所述获取范围设定信息,对所述范围设定信息进行统计以得到用户集合所对应的期望范围 的步骤包括: 获取时间范围设定信息; 将所述时间范围设定信息中的时间范围划分为若干个时间子区间; 对所述用户集合中的用户统计每一时间子区间所对应的用户可接受次数,并将用户可 接受次数最大的时间子区间作为所述用户集合对应的时间期望范围。
6. 根据权利要求1所述的方法,其特征在于,所述范围设定信息为地点范围设定信息; 所述获取范围设定信息,对所述范围设定信息时行统计以得到用户集合所对应的期望范围 的步骤包括: 获取地点范围设定信息; 将所述地点范围设定信息中的地点范围划分为若干个地点子范围; 对所述用户集合中的用户统计每一地点子范围所对应的用户可接受次数,并将用户可 接受次数最大的地点子范围作为所述用户集合对应的地点期望范围。
7. 根据权利要求6所述的方法,其特征在于,所述获取地点范围设定信息的步骤包括: 获取用户集合中用户所对应的定位信息; 根据所述定位信息中的位置确定所述用户对应的位置范围,对所述用户对应的位置范 围取并集得到所述地点范围设定信息。
8. 根据权利要求6所述的方法,其特征在于,所述将所述地点范围设定信息中的地点 范围划分为若干个地点子范围的步骤包括: 根据所述地点范围设定信息中的地点范围布设图示; 将所述图示划分为若干个网格,所述网格即为地点子范围。
9. 一种实现用户信息聚类的装置,其特征在于,包括: 聚类模块,用于量化用户信息得到用户对应的特征,聚类所述用户对应的特征得到用 户集合; 范围统计模块,用于获取范围设定信息,对所述范围设定信息进行统计以得到用户集 合所对应的期望范围; 结果生成模块,用于根据所述用户集合和期望范围生成聚类结果。
10. 根据权利要求9所述的装置,其特征在于,所述聚类模块还用于根据用户信息构造 谱空间,并进行拉普拉斯特征映射得到用户在谱空间的顶点,通过所述用户在谱空间的顶 点对用户进行聚类得到用户集合。
11. 根据权利要求9所述的装置,其特征在于,所述聚类模块包括: 量化单元,用于量化用户信息以构造相似矩阵; 谱空间构造单元,用于由所述相似矩阵提取拉普拉斯矩阵,对所述拉普拉斯矩阵进行 特征分解以构造谱空间; 映射单元,用于将量化的用户信息映射至谱空间得到用户在谱空间的顶点; 集合形成单元,用于将谱空间中距离上相互集中的顶点所对应的用户形成用户集合。
12. 根据权利要求11所述的装置,其特征在于,所述量化单元包括: 向量构建单元,用于根据用户信息构建每一用户所对应的向量; 运算单元,用于对所述向量中的元素进行归一化处理,并将归一化处理后的元素进行 加权计算得到所述用户对应的量化值; 相似性计算单元,用于计算所述用户对应的量化值之间的距离得到两个用户之间的相 似度,并通过所述两个用户之间的相似度形成邻接矩阵; 相似矩阵获取单元,用于通过所述邻接矩阵得到相似矩阵。
13. 根据权利要求9所述的装置,其特征在于,所述范围设定信息为时间范围设定信 息;所述范围统计模块包括: 第一信息获取单元,用于获取时间范围设定信息; 第一划分单元,用于将所述时间范围设定信息中的时间范围划分为若干个时间子区 间; 第一子区间统计单元,用于对所述用户集合中的用户统计每一时间子区间所对应的用 户可接受次数,并将用户可接受次数最大的时间子区间作为所述用户集合对应的时间期望 范围。
14. 根据权利要求9所述的装置,其特征在于,所述范围设定信息为地点范围设定信 息;所述范围统计模块包括: 第二信息获取单元,用于获取地点范围设定信息; 第二划分单元,用于将所述地点范围设定信息中的地点范围划分为若干个地点子范 围; 第二子区间统计单元,用于对所述用户集合中的用户统计每一地点子范围所对应的 用户可接受次数,并将用户可接受次数最大的地点子范围作为用户集合对应的地点期望范 围。
15. 根据权利要求14所述的装置,其特征在于,所述第二信息获取单元包括: 定位信息获取单元,用于获取用户集合中用户所对应的定位信息; 位置确定单元,用于根据所述定位信息中的位置确定所述用户对应的位置范围,对所 述用户对应的位置范围取并集得到所述地点范围设定信息。
16. 根据权利要求14所述的装置,其特征在于,所述第二划分单元包括: 布设单元,用于根据所述地点范围设定信息中的地点范围布设图示; 网格划分单元,用于将所述图示划分为若干个网格,所述网格即为地点子范围。
【文档编号】G06F17/30GK104424235SQ201310376923
【公开日】2015年3月18日 申请日期:2013年8月26日 优先权日:2013年8月26日
【发明者】马腾, 吴瑕 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1