一种基于社交网络的转行用户的挖掘方法及装置的制造方法

文档序号:9668037阅读:342来源:国知局
一种基于社交网络的转行用户的挖掘方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网技术,具体地涉及一种基于社交网络的转行用户的挖掘方法及 装置。
【背景技术】
[0002] 转行用户是指:在微博等社交网络中,有些账号在运营过程中由于商业利益或其 他方面的原因,近期发表的博文内容同之前相比呈现出比较大的领域或行业差异性。比如, 某一账号之前一直在发表关于星座相关的内容,近期发表的内容转向了汽车相关,则该账 号属于转行用户。
[0003] 图1为现有的转行用户挖掘方案的流程图。如图1所示,现有技术是采用基于内容 识别的方案,即主要是通过对近期发表的内容和之前发表的内容分别进行分类计算,如果 所属领域不同,则判别为转行用户。
[0004] 发明人在实现本发明的过程中发现上述技术的不足之处在于:
[0005] 1、严重依赖于内容分类的准确率,误判率较高;
[0006] 2、对于区分不明显的两个标签间的转行用户识别率低。

【发明内容】

[0007] 本发明实施例的目的是,提供一种基于社交网络的转行用户的挖掘方法及装置, 从三个维度来挖掘转行用户,以提高挖掘转行用户的准确率。
[0008] 为达上述目的,一方面,提供一种基于社交网络的转行用户的挖掘方法,包括:构 建用户能力标签映射集,所述用户能力标签映射集是指与用户能力标签相关的标签集合; 根据所述用户能力标签映射集和用户的被分组信息分析出第一维度的用户能力标签信息; 其中,所述用户能力标签信息包括用户能力标签及其对应的权重;根据所述用户能力标签 映射集和用户的自填信息分析出第二维度的用户能力标签信息;根据所述用户能力标签映 射集和用户的内容信息分析出第三维度的用户能力标签信息;根据所述第一、第二、第三维 度的用户能力标签信息中的至少其一,确定出转行用户。
[0009] 为达上述目的,另一方面,提供一种基于社交网络的转行用户的挖掘装置,包括: 构建单元,用于构建用户能力标签映射集,所述用户能力标签映射集是指与用户能力标签 相关的标签集合;第一分析单元,用于根据所述用户能力标签映射集和用户的被分组信息 分析出第一维度的用户能力标签信息;其中,所述用户能力标签信息包括用户能力标签及 其对应的权重;第二分析单元,用于根据所述用户能力标签映射集和用户的自填信息分析 出第二维度的用户能力标签信息;第三分析单元,用于根据所述用户能力标签映射集和用 户的内容信息分析出第三维度的用户能力标签信息;确定单元,用于根据所述第一、第二、 第三维度的用户能力标签信息中的至少其一,确定出转行用户。
[0010] 上述技术方案具有如下有益效果:上述技术方案通过构建用户能力标签映射集, 结合该用户能力标签映射集从被分组信息、自填信息、内容信息三个维度分析用户能力标 签信息,并基于该三个维度的用户能力标签信息中的至少其一来确定转行用户进行输出, 从而相比于现有技术中的单独采用内容来识别转行用户的技术方案,降低了误判率,有利 于提升挖掘转行用户的准确率和覆盖率。
【附图说明】
[0011] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0012] 图1为现有的转行用户挖掘方案的流程图;
[0013] 图2为本发明实施例一的转行用户挖掘方法的流程图;
[0014] 图3为本实施例三的转行用户的挖掘装置的整体功能框图;
[0015] 图4为本实施例三的转行用户的挖掘装置的具体功能框图。
【具体实施方式】
[0016] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0017] 本发明的实施例在对用户能力标签、自填信息和博文等相关数据信息进行深入分 析的基础之上,确定了从下述三个维度来挖掘转行用户:一是将近期的用户被分组信息映 射到用户能力标签,并与之前的用户能力标签进行对比;二是将用户的昵称、简介、自标签 等自填信息映射到用户能力标签,并与之前的用户能力标签进行对比;三是将用户发表的 原创博文打上标签,并同用户的能力标签进行对比;最终将上述结果进行融合,达到阈值条 件的用户将被确定为转行用户。
[0018] 实施例一
[0019] 图2为本发明实施例一的转行用户挖掘方法的流程图。如图1所示,该基于社交网 络的转行用户的挖掘方法包括如下步骤:
[0020] 步骤210:构建用户能力标签映射集;
[0021] 其中,用户能力标签是指:描述用户在社交网络中通过自填信息、发表的博文等信 息所呈现出的能力特征的标签。能力标签映射集是和选定的用户能力标签具有关联关系的 标签集合。具体地,用户能力标签映射集是指与用户的能力标签相关的标签集合。比如用户 的能力标签是互联网,则该能力标签的映射集包含互联网技术,互联网大牛,互联网1,电子 商务等。构建用户能力标签映射集的方式多种,包括但不限于如下方式:以用户的被分组信 息为语料,利用编辑距离+共现频次等算法,构建出用户能力标签的映射集。
[0022] 步骤220:根据用户能力标签映射集和用户的被分组信息分析出第一维度的用户 能力标签信息;其中,该用户能力标签信息包括用户能力标签及其对应的权重;
[0023] 其中,第一维度是指用户被分组维度或粉丝维度。用户被分组信息反映的是粉丝 对该用户近期的分组情况。具体实施时,本步骤可以将用户近期的被分组信息映射到能力 标签:例如分析用户最近三个月的被分组信息,依据上一步骤构建的用户能力标签映射表, 从粉丝维度分析出用户近期的能力标签。
[0024] 步骤230:根据用户能力标签映射集和用户的自填信息分析出第二维度的用户能 力标签信息;
[0025] 其中,第二维度是指用户自填信息维度或用户自身维度。用户的自填信息包括但 不限于用户的昵称、简介和自标签等信息。具体实施时,本步骤可分析用户的昵称、简介和 自标签,并将其映射到用户能力标签,从用户自身维度分析出用户近期的能力标签。
[0026]步骤240:根据用户能力标签映射集和用户的内容信息分析出第三维度的用户能 力标签信息;
[0027]其中,第三维度是指内容维度或用户原创博文维度。用户的内容信息反映用户发 表的原创博文的内容、类别或主题,主要包括用户发表的原创博文对应的博文标签及其次 数。具体实施时,本步骤可以分析用户近半年的原创博文,给博文打上标签,同时引入时间 衰减因子,增大用户近期的原创博文的权重,从内容维度分析出用户近期的能力标签。 [0028]步骤250:根据第一、第二、第三维度的用户能力标签信息中的至少其一,确定出转 行用户。
[0029] 其中,本步骤可结合上述3个维度中至少一个维度的特征,将达到预设条件的用户 作为转行用户对外输出。
[0030] 具体地,本步骤可采用如下方式中确定出转行用户:如果第一维度的用户能力标 签所对应的权重大于第一预设分值,则确定为转行用户;或者,如果第二维度的用户能力标 签所对应的权重大于第二预设分值,则确定为转行用户;或者,如果第三维度的用户能力标 签所对应的权重大于第三预设分值,则确定为转行用户;或者,如果第一、第二、第三维度的 用户能力标签均具有权重,则确定为转行用户;或者,如果两个维度的用户能力标签具有权 重,且该两个维度中的一个维度为第三维度,则确定为转行用户。
[0031] 本发明的实施例通过构建用户能力标签映射集,结合该用户能力标签映射集从被 分组信息、自填信息、内容信息三个维度分析用户能力标签信息,并基于该三个维度的用户 能力标签信息中的至少其一来确定转行用户进行输出,从而降低了误判率,有利于提升挖 掘转行用户的准确率。
[0032] 实
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1