面向个性化应用的跨网络行为关联方法

文档序号:6620442阅读:180来源:国知局
面向个性化应用的跨网络行为关联方法
【专利摘要】本发明是一种面向个性化应用的跨网络行为关联方法,首先确定不同网络特有的异构信息并分别对其在各自网络进行主题建模,得到相应信息的主题分布表示;然后,聚合用户在各自网络的行为信息来分别计算得到用户在不同网络的主题分布表示,并利用跨网络关联用户在不同网络上主题分布的一一对应关系分别对不同网络学习一组网络相关的用户属性因子向量;最后,通过不同网络的用户属性因子向量使不同网络信息的主题分布可以进行互相转换,达到跨网络行为信息关联的目的。本发明通过引入主题模型和用户感知,使该关联突破语义关联的局限性,在更细的粒度下进行感知。
【专利说明】面向个性化应用的跨网络行为关联方法

【技术领域】
[0001] 本发明属于社会媒体计算【技术领域】,涉及一种面向个性化应用的跨网络行为关联 方法。

【背景技术】
[0002] 随着互联网技术的发展,各种社会媒体和网络应用应运而生。为更好进行社交和 信息获取,用户越来越频繁的使用多种社会媒体服务,这也使得用户的信息分散在不同的 网络平台上,只从单一的网络平台去分析用户的行为无法全方位的理解用户。因此,将不同 网络平台用户的行为进行整合可以更好的分析用户兴趣,从而有助于设计更加精准的个性 化应用。然而,用户在不同网络平台的行为往往是异构的,这种异构的跨网络行为经常无法 简单的进行一一加和。因此,如何将不同网络平台的异构行为进行有效的整合是一个亟待 解决的问题,而这里的关键就是找到跨网络异构行为之间的关联模式。
[0003] 目前,跨网络分析和应用研究是一个相对崭新的领域,还处在起步阶段。研究者们 目前主要从两方面研究该领域:多网络拓扑结构分析和跨网络用户建模。多网络拓扑结构 分析主要利用社会网络分析(Social Network Analysis, SNA)的方法研究多网络下总体网 络拓扑结构和属性,并分析不同网络平台属性和结构的相似性和差异性,以及信息在多网 络结构下的传播机制。跨网络用户建模专注于将不同网络平台的同质用户行为进行聚合, 比如将不同网络平台用户的标签和简介聚合起来,作为一个更加完整的用户文档来表示用 户,然后基于该聚合文档对用户进行用户建模,得到多网络聚合的用户兴趣。这两方面研究 目前还是主要分别从社会关系结构和同质行为(比如用户标签)来研究多网络场景下的相 应特性,然而多网络情形下往往伴随着多种异构行为(比如用户标签和用户好友关系),这 些异构的跨网络行为有时才能反映更加稳定的用户兴趣,因此如果能挖掘出跨网络异构行 为之间的关联模式,则可以更好的理解跨网络下的用户兴趣和不同网络的知识特性。
[0004] 迁移学习 (Transfer Learning)和子空间学习 (Subspace Learning)是学习不同 网络空间关联的两种重要技术。前者通过找一些共现数据(Co-occurrence Data)来学习 得到不同平台的潜在关联模式,并将知识从源网络迁移到目标网络来解决目标网络上的分 类、回归等问题。后者的主要思想是通过学习一个公共的子空间来同时表达不同类型的异 构数据,使得不同形式的异构数据可以在这个公共的子空间进行直接的比较。但这些技术 都没有考虑过从跨网络关联用户的角度去对不同网络的异构行为进行关联,进而以用户集 体智慧的方式发现不同网络间的关联模式。


【发明内容】

[0005] (一)要解决的技术问题
[0006] 本发明的目的是将不同网络上的异构行为信息进行用户层的关联,并基于此关联 设计个性化的应用。为此提出利用跨网络关联用户作为连接不同网络的桥梁,基于潜在用 户属性发现的跨网络行为关联方法。
[0007] (二)技术方案
[0008] 为实现上述目的,本发明提供面向个性化应用的跨网络行为关联方法包括:
[0009] S1、分别对两个具有异构知识实体和用户行为的网络进行主题建模,分别得到反 映用户行为的异构知识在不同主题空间的主题分布;
[0010] S2、将用户在所述两个网络的行为信息进行主题聚合,得到用户在所述两个网络 的主题分布;
[0011] S3、基于潜在用户属性发现对所述两个网络进行跨网络主题关联;
[0012] S4、将所述跨网络的主题关联转换为跨网络的用户行为分布关联。
[0013] (三)有益效果
[0014] 从上述技术方案可以看出,本发明面向个性化应用的跨网络行为关联方法具有以 下有益效果:
[0015] (1)利用跨网络关联用户的集体智慧,使不同网络的异构行为能在用户层上进行 跨网络关联,同时通过引入主题模型和用户感知,使该关联突破语义关联的局限性,在更细 的粒度下进行感知。
[0016] (2)该发明提出了一种用户感知的跨网络异构行为关联方法,基于该关联可以从 多种方向设计跨网络的个性化应用,有效的缓解了冷启动和数据稀疏性问题。

【专利附图】

【附图说明】
[0017] 图1是本发明面向个性化应用的跨网络行为关联方法的流程图;
[0018] 图2是本发明一个实施例中视频主题空间多模态主题建模(iCorr-LDA)的图表 示;
[0019] 图3和图4分别是本发明实施例中对步骤S1异质主题建模学到的视频主题空间 和社交网络用户兴趣空间的可视化表示。

【具体实施方式】
[0020] 本发明的目的是跨网络的行为关联。该问题存在如下挑战:首先,不同网络具有异 构的知识实体和行为,例如视频兴趣行为和社交网络社会关系行为,如何对它们进行合理 的泛化表示;另外,不同网络的知识间没有直接的显式关联,也无法直观的给出不同网络上 知识和行为的相关性指标,如何在跨平台网络间建立合理的联系。
[0021] 本发明中所称的异构的知识实体和行为是指知识实体的内容属性,以及用户对知 识实体的行为属性均不相同。上述的视频兴趣行为也可以扩展到音频兴趣或者商品兴趣行 为等,社交网络社会关系行为也可以是微博文本兴趣行为或者加入圈子行为等。
[0022] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本发明作进一步的详细说明。在下面的实施例中,主要以视频行为和社会关系行为 的异构关联为例进行说明,但本发明并不局限于此。
[0023] 该实施例中,具有异构的知识实体和用户行为的两个不同网络为社交网络推特 (Twitter)和视频分享网络优突博(YouTube)。
[0024] 图1是本发明面向个性化应用的跨网络行为关联方法的流程图。如图1所示,本发 明首先用恰当的主题模型将不同网络的异构行为进行主题层泛化,然后利用跨网络关联用 户的集体智慧将不同网络的主题进行量化关联,使不同网络的异构行为表示可以通过潜在 的用户属性因子向量相互转换,基于此可以进而从多方向设计跨网络的个性化应用。所谓 跨网络关联用户是指在不同网络均有账号的关联用户。由此,本发明提出了一种全新的用 户感知的跨网络行为关联方法,为理解多网络情景下用户的异构行为奠定了坚实基础。本 发明主要分以下几个主要步骤:S1、异质主题建模;S2、用户主题分布聚合;S3、基于潜在用 户属性发现的跨网络主题关联;S4、基于主题关联的跨网络行为分布转换。
[0025] 这里的主题是指用户的兴趣主题。
[0026] S1、分别对两个具有异构知识实体和用户行为的网络进行主题建模,分别得到反 映用户行为的异构知识在不同主题空间的主题分布。
[0027] 该步骤的目的是发现视频分享网络和社交网络空间行为的潜在泛化结构,有助于 后续的基于主题层次的分析和应用。我们设计生成式的主题模型分别对优突博视频和社 交网络用户进行主题建模,分别得到优突博视频和社交网络用户在各自主题空间的主题分 布。在具体实施例中,步骤S1包括如下步骤 :
[0028] SI. 1对所述视频分享网络上的视频提取文本描述信息以及关键帧视觉信息并建 立视频语义-视觉文档,对每个视频文档,进行多模态主题建模(iCorr-LDA),最终得到每 个视频在其语义空间上的主题分布向量。
[0029] 为了使学到的视频主题能同时涵盖视频的文本和视觉描述信息,我们设计了一种 变体的多模态主题模型(iCorr-LDA)。在我们的问题中,每个优突博视频可以表示为一个二 元组(f ;w),其中f为该视频的N个关键帧的视觉特征向量集合,w为该视频的Μ个标签单 词集合,我们对跨网络数据集中所有优突博用户的视频二元组集合进行多模态主题建模, 得到每个视频的视觉-语义主题分布。具体来说,首先从标准的潜在狄利克雷分布主题模 型(LDA)中抽样得到视频的Μ个标签单词。然后,对视频的每个关键帧,先抽样得到一个标 签单词,再从生成该标签单词的主题上抽样得到相应的关键帧视觉单词。该多模态主题模 型(iCorr-LDA)的图表示参见图2。其中α,μ,σ,β为该主题模型的超参数,可以通过 吉布斯采样方法进行近似求解;y为离散指示变量,等概率的在1到Μ间取整数值来控制选 择合适的标签单词。图3抽样了两个视频主题进行可视化呈现,其中每个主题给出了该主 题的前5个生成概率最大的标签单词以及前3个生成概率最大的视频。可以看出,这两个 主题都有很明确的领域主题(游戏和德国),同时这两个学到的主题在视觉表示和文本语 义表示上也具有很高的一致性。
[0030] S1. 2提取所述社交网络上用户的社会关系信息,然后对用户的社会关系图进行标 准的潜在狄利克雷分布主题建模(LDA),最终得到每个用户在该用户兴趣空间上的主题分 布向量。
[0031] 在社交网络中,用户会根据自己的兴趣任意的关注各种感兴趣的门户账号、领域 专家以及真实好友等,用户的好友关系作为社交网络上的一种重要的用户行为,反映了一 段时间内稳定的用户兴趣。因此,我们这里主要研究推特社交网络上的用户好友关系行为 数据,进而对用户的兴趣进行主题建模。具体地说,我们将推特用户作为标准主题模型的 "文档",该用户的所有粉丝作为相应的"文档单词",然后对该用户文档进行标准的潜在狄 利克雷分布主题建模(LDA),以得到每个推特用户在这种用户-粉丝社交图谱结构空间的 主题分布。由于主题建模本质上是利用了单词的共现关系,得到的推特社会关系用户主题 实际上捕捉到的是每个粉丝群子集共同感兴趣的一些专业用户,反映了每个粉丝群子集的 公共兴趣。同时,由于一段时间内用户的社会关系一般基本保持不变,通过用户的社会关系 学得的用户兴趣因此也将会更加稳定和准确。图4抽样了 3个学到的推特社会关系用户主 题,其中每个主题给出了该主题的前3个生成概率最大的热门用户,每个热门用户由其用 户ID,用户名,居住地,粉丝数量以及自我描述所表示。可以看出,学得的推特主题在粒度上 有着很广的覆盖性:有游戏这种一般的主题,也有专门由福布斯影响力用户构成的特有主 题,还有由来自同一个地方(德国)用户组成的地域性主题。以这种方式学得的多角度细 粒度的主题也使得后续学得的跨网络关联具有更大的随意性,便于捕捉到更精准的跨网络 主题关系。
[0032] S2、将用户在所述两个网络的行为信息进行主题聚合,得到用户在所述两个网络 的主题分布。
[0033] 由于不同网络的行为和信息都是由用户创造的,同一个用户在不同网络的行为应 该具有一定的关联性,因此我们希望通过以同一个用户在视频分享网络和社交网络上主题 分布的一一对应关系为约束,通过大量跨网络关联用户的集体智慧来求得跨网络主题间的 关系。所以,首先我们需要将用户在各自网络的行为信息分别进行主题聚合,得到用户在各 自网络的兴趣主题分布。
[0034] 在该实施例中,步骤S2聚合用户在所述视频分享网络中感兴趣的视频的主题分 布,得到用户在视频语义空间上的主题分布,使所述视频分享网络和所述社交网络上行为 的主题分布表示都上升到用户层次。
[0035] 由于在社交网络上,我们直接对用户的社会关系进行主题建模,所以我们已经得 到了用户的兴趣主题分布。因此,我们只需将用户在视频分享网络的视频行为进行主题聚 合即可。具体地说,对任意给定的优突博用户,我们把该用户上传的视频,最喜爱的视频以 及播放列表里的视频作为他感兴趣的视频集合,已知用户u感兴趣的视频集合以及第一步 异质主题建模后得到的视频主题分布P (zY| v),通过简单的推导,我们可以得到用户u的主 题分布如下:

【权利要求】
1. 一种跨网络行为关联方法,其特征在于,所述方法包括如下步骤: 51、 分别对两个具有异构知识实体和用户行为的网络进行主题建模,分别得到反映用 户行为的异构知识在不同主题空间的主题分布; 52、 将用户在所述两个网络的行为信息进行主题聚合,得到用户在所述两个网络的主 题分布; 53、 基于潜在用户属性发现对所述两个网络进行跨网络主题关联; 54、 将所述跨网络的主题关联转换为跨网络的用户行为分布关联。
2. 如权利要求1所述的跨网络行为关联方法,其特征在于,所述两个具有异构知识实 体和用户行为的网络是视频分享网络和社交网络。
3. 如权利要求2所述的跨网络行为关联方法,其特征在于,所述步骤S1包括: S1. 1、对所述视频分享网络上的视频提取文本描述信息以及关键帧视觉信息并建立视 频语义-视觉文档,对每个视频文档,进行多模态主题建模(iCorr-LDA),最终得到每个视 频在其语义空间上的主题分布向量; S1. 2、提取所述社交网络上用户的社会关系信息,然后对用户的社会关系图进行标准 的潜在狄利克雷分布主题建模(LDA),最终得到每个用户在该用户兴趣空间上的主题分布 向量。
4. 如权利要求2所述的跨网络行为关联方法,其特征在于, 所述步骤S2为:聚合用户在所述视频分享网络中感兴趣的视频的主题分布,得到用户 在视频语义空间上的主题分布,使所述视频分享网络和所述社交网络上行为的主题分布表 示都上升到用户层次。
5. 如权利要求4所述的跨网络行为关联方法,其特征在于,在步骤S2中,对任意给定的 视频分享网络用户,把该用户上传的视频,最喜爱的视频以及播放列表里的视频作为他感 兴趣的视频集合,已知用户u感兴趣的视频集合以及第一步异质主题建模后得到的视频主 题分布p (zY| v),得到用户u的主题分布如下:
6. 如权利要求2所述的跨网络行为关联方法,其特征在于,所述步骤S3为:利用跨网 络关联用户在所述视频分享网络和社交网络上主题分布的一一对应关系,分别对所述两个 网络各自学习一组网络相关的用户属性因子向量,使用户在该两个网络的主题分布投影到 相应的用户属性因子向量构成的空间后得到一致的用户表示。
7. 如权利要求6所述的跨网络行为关联方法,其特征在于,在步骤S3中,所述视频分享 网络和所述社交网络共有的跨网络用户子集为U。= uY n UT,其中UY和UT分别为视频分享 网络和社交网络所有用户总集,通过如下优化目标函数来学习和发现每种潜在用户属性在 视频分享网络和社交网络所对应的成对用户因子向量:
其中DY和DT分别为视频分享网络和社交网络上所有成对的用户因子向量的矩阵表示, 该矩阵的每一列d表示一个用户因子向量,两个矩阵上相同位置的列反映同一种用户属 性;S为跨网络用户在不同的网络上共有的潜在用户属性表示,该矩阵的每一列s表示某个 用户的主题分布投影到成对的用户因子向量空间后的属性表示。
8. 如权利要求7所述的跨网络行为关联方法,其特征在于, 所述步骤S4为:利用视频分享网络和社交网络各自学到的用户属性因子向量使对主 题分布进行转换。
9. 如权利要求8所述的跨网络行为关联方法,其特征在于, 在所述步骤S4中,当给定新用户在所述视频分享网络的主题分布uY,通过稀疏编码的 方式得到该用户投影到DY构成的用户属性空间后的潜在属性表示如下:
【文档编号】G06F17/30GK104090971SQ201410341643
【公开日】2014年10月8日 申请日期:2014年7月17日 优先权日:2014年7月17日
【发明者】徐常胜, 严明, 桑基韬 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1