构建用户实时画像的方法及装置制造方法

文档序号:6522949阅读:314来源:国知局
构建用户实时画像的方法及装置制造方法
【专利摘要】本发明公开了一种构建用户实时画像的方法及装置,属于数据处理【技术领域】。方法包括:获取用户的日志信息;对日志信息进行过滤,得到日志信息的关键字段;提取关键字段的标签标识;根据标签标识及关键字段,获取当前标签信息;根据标签标识确定当前标签信息对应的全部兴趣类目;根据当前标签信息获取与每个兴趣类目相对应的用户兴趣度。本发明在对日志信息进行过滤,得到关键字段后,提取关键字段的标签标识,并根据标签标识及关键字段获取当前标签信息;进而在确定当前标签信息对应的兴趣类目后,获取与每个兴趣类目相对应的用户兴趣度,实现了在获取用户的一个日志信息后,便重新构建用户实时画像,从而可根据用户实时画像向用户推荐数据信息。
【专利说明】构建用户实时画像的方法及装置

【技术领域】
[0001] 本发明涉及数据处理【技术领域】,特别涉及一种构建用户实时画像的方法及装置。

【背景技术】
[0002] 随着网络技术的快速发展,互联网已成为广大用户进行信息分享的平台,因此,互 联网中充斥着海量数据信息。在这种情况下,用户往往湮没在低价值的海量数据信息中。 所以如何向用户推荐用户感兴趣的数据信息,成为了一个技术难题。向用户推荐数据信息 时所采用的关键技术之一为建立用户画像,所谓的用户画像,是将用户的行为属性(例如浏 览、购买某商品的行为记录)和基础属性(例如性别、年龄等)聚合分析(例如分析用户对不 同商品类别的兴趣度),对用户进行建模,并基于用户画像为用户推荐数据信息。因此,如何 构建用户画像,成为了本领域技术人员一个亟待解决的问题。
[0003] 在构建用户画像的过程中,一般基于Hadoop的批处理系统进行计算,通常采用如 下两种方式:第一种方式,获取并存储用户的日志信息,直至存储的该用户的日志信息数量 达到阈值后,根据存储的该用户的日志信息构建用户画像;第二种方式,获取并存储用户的 日志信息,每隔预设周期根据存储的该用户的日志信息构建用户画像。
[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005] 无论针对上述哪种构建用户画像的方式来说,均需等待一定时长后,才能构建用 户画像,所以时效性较差,而且在根据构建的用户画像向用户推荐数据信息时精准度不高; 另外,由于等待一定时长后,才构建用户画像,所以在构建用户画像时需进行日志信息的批 量处理,导致处理过程耗时长、过程复杂且计算量大。


【发明内容】

[0006] 为了解决现有技术的问题,本发明实施例提供了一种构建用户实时画像的方法及 装置。所述技术方案如下:
[0007] -方面,提供了一种构建用户实时画像的方法,所述方法包括:
[0008] 获取用户的日志信息;
[0009] 对所述日志信息进行过滤,得到所述日志信息的关键字段;
[0010] 提取所述关键字段的标签标识;
[0011] 根据所述标签标识及所述关键字段,获取当前标签信息,所述标签信息至少用于 指示所述标签标识在所述日志信息的生成时间内的出现次数;
[0012] 根据所述标签标识,确定所述当前标签信息对应的全部兴趣类目;
[0013] 根据所述当前标签信息,获取与每个兴趣类目相对应的用户兴趣度;
[0014] 其中,所述关键字段至少包括用户标识、日志信息的生成时间、所述日志信息的数 据源标识及产品标识。
[0015] 进一步地,所述提取所述关键字段的标签标识,包括:
[0016] 检测所述关键字段中是否包含行为类目标识;
[0017] 如果所述关键字段中包含行为类目标识,则将所述行为类目标识作为提取到的所 述关键字段的标签标识。
[0018] 进一步地,所述检测所述关键字段中是否包含行为类目标识之后,所述方法还包 括:
[0019] 如果所述关键字段中未包含行为类目标识,则根据所述关键字段中的产品标识获 取与所述产品标识相对应的产品标题,并根据所述产品标题提取所述关键字段的标签标 识。
[0020] 进一步地,所述根据所述产品标题提取所述关键字段的标签标识,包括:
[0021] 根据预设语法规则对所述产品标题进行分词处理,得到所述产品标题的多个分词 结果;
[0022] 根据预设过滤条件对多个分词结果进行过滤分析,如果得到过滤结果,则将所述 过滤结果提取为所述关键字段的标签标识。
[0023] 进一步地,所述根据所述标签标识及所述关键字段,获取当前标签信息,包括:
[0024] 检测已存储的多个标签信息中是否存在包括所述标签标识和所述标签标识的提 取类型的标签信息;
[0025] 如果已存储的多个标签信息中包括所述标签标识和所述标签标识的提取类型,则 将所述包括所述标签标识和所述标签标识的提取类型的标签信息确定为匹配标签信息,并 确定所述标签标识对应的所述日志信息的生成时间是否与所述匹配标签信息的多个预设 时间段中的一个相对应;
[0026] 如果所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息的多个 预设时间段中的一个相对应,则对相对应的时间段中所述标签标识的出现次数进行更新。 [0027] 进一步地,所述确定所述标签标识对应的所述日志信息的生成时间是否与所述匹 配标签信息的多个预设时间段中的一个相对应之后,所述方法还包括:
[0028] 如果所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息的多个 预设时间段均不对应,则根据所述标签标识对应的所述日志信息的生成时间创建一条单 独的存储项,并统计所述标签标识在所述标签标识对应的日志信息的生成时间内的出现次 数。
[0029] 进一步地,所述检测已存储的多个标签信息中是否存在包括所述标签标识和所述 标签标识的提取类型的标签信息之后,所述方法还包括:
[0030] 如果已存储的所述用户的多个标签信息均不包括所述标签标识和所述标签标识 的提取类型,则将所述用户标识及所述日志信息的数据源标识作为键,将所述标签标识、所 述标签标识的提取类型及所述标签标识的出现次数作为值,进行键值存储,得到当前标签 信息。
[0031] 进一步地,所述方法还包括:
[0032] 对已存储的且存储时长超过预设时长的预设时间段及对应的标签标识的出现次 数进行删除。
[0033] 进一步地,所述根据所述标签信息获取与每个兴趣类目相对应的用户兴趣度,包 括:
[0034] 获取每个兴趣类目对应的多个历史标签信息;
[0035] 确定所述当前标签信息及所述多个历史标签信息分别对应的数据源的权重值、兴 趣类目的权重值、标签标识出现次数及时间衰减因子;
[0036] 根据所述当前标签信息及所述多个历史标签信息中每个标签信息对应的数据源 的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,获取与所述每个兴趣类 目对应的所述用户兴趣度。
[0037] 进一步地,所述根据所述当前标签信息及所述多个历史标签信息中每个标签信息 对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,应用下述 公式,获取与所述每个兴趣类目对应的所述用户兴趣度,包括:
[0038]

【权利要求】
1. 一种构建用户实时画像的方法,其特征在于,所述方法包括: 获取用户的日志信息; 对所述日志信息进行过滤,得到所述日志信息的关键字段; 提取所述关键字段的标签标识; 根据所述标签标识及所述关键字段,获取当前标签信息,所述标签信息至少用于指示 所述标签标识在所述日志信息的生成时间内的出现次数; 根据所述标签标识,确定所述当前标签信息对应的全部兴趣类目; 根据所述当前标签信息,获取与每个兴趣类目相对应的用户兴趣度; 其中,所述关键字段至少包括用户标识、日志信息的生成时间、所述日志信息的数据源 标识及产品标识。
2. 根据权利要求1所述的方法,其特征在于,所述提取所述关键字段的标签标识,包 括: 检测所述关键字段中是否包含行为类目标识; 如果所述关键字段中包含行为类目标识,则将所述行为类目标识作为提取到的所述关 键字段的标签标识。
3. 根据权利要求2所述的方法,其特征在于,所述检测所述关键字段中是否包含行为 类目标识之后,所述方法还包括: 如果所述关键字段中未包含行为类目标识,则根据所述关键字段中的产品标识获取与 所述产品标识相对应的产品标题,并根据所述产品标题提取所述关键字段的标签标识。
4. 根据权利要求3所述的方法,其特征在于,所述根据所述产品标题提取所述关键字 段的标签标识,包括: 根据预设语法规则对所述产品标题进行分词处理,得到所述产品标题的多个分词结 果; 根据预设过滤条件对多个分词结果进行过滤分析,如果得到过滤结果,则将所述过滤 结果提取为所述关键字段的标签标识。
5. 根据权利要求1所述的方法,其特征在于,所述根据所述标签标识及所述关键字段, 获取当前标签信息,包括: 检测已存储的多个标签信息中是否存在包括所述标签标识和所述标签标识的提取类 型的标签信息; 如果已存储的多个标签信息中包括所述标签标识和所述标签标识的提取类型,则将所 述包括所述标签标识和所述标签标识的提取类型的标签信息确定为匹配标签信息,并确定 所述标签标识对应的所述日志信息的生成时间是否与所述匹配标签信息的多个预设时间 段中的一个相对应; 如果所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息的多个预设 时间段中的一个相对应,则对相对应的时间段中所述标签标识的出现次数进行更新。
6. 根据权利要求5所述的方法,其特征在于,所述确定所述标签标识对应的所述日志 信息的生成时间是否与所述匹配标签信息的多个预设时间段中的一个相对应之后,所述方 法还包括: 如果所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息的多个预设 时间段均不对应,则根据所述标签标识对应的所述日志信息的生成时间创建一条单独的存 储项,并统计所述标签标识在所述标签标识对应的日志信息的生成时间内的出现次数。
7. 根据权利要求5所述的方法,其特征在于,所述检测已存储的多个标签信息中是否 存在包括所述标签标识和所述标签标识的提取类型的标签信息之后,所述方法还包括: 如果已存储的所述用户的多个标签信息均不包括所述标签标识和所述标签标识的提 取类型,则将所述用户标识及所述日志信息的数据源标识作为键,将所述标签标识、所述标 签标识的提取类型及所述标签标识的出现次数作为值,进行键值存储,得到当前标签信息。
8. 根据权利要求5至7中任一权利要求所述的方法,其特征在于,所述方法还包括: 对已存储的且存储时长超过预设时长的预设时间段及对应的标签标识的出现次数进 行删除。
9. 根据权利要求1所述的方法,其特征在于,所述根据所述当前标签信息,获取与每个 兴趣类目相对应的用户兴趣度,包括: 获取每个兴趣类目对应的多个历史标签信息; 确定所述当前标签信息及所述多个历史标签信息分别对应的数据源的权重值、兴趣类 目的权重值、标签标识出现次数及时间衰减因子; 根据所述当前标签信息及所述多个历史标签信息中每个标签信息对应的数据源的权 重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,获取与所述每个兴趣类目对 应的所述用户兴趣度。
10. 根据权利要求9所述的方法,其特征在于,所述根据所述当前标签信息及所述多个 历史标签信息中每个标签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现 次数及时间衰减因子,应用下述公式,获取与所述每个兴趣类目对应的所述用户兴趣度,包 括:
其中,Score指代兴趣度,λ (i)为每个标签信息对应的数据源的权重值,w(j)为每个 标签信息对应的兴趣类目的权重值,weakenFactor(t)为时间衰减因子,count(t)为每个 预设时间段内所述标签标识的出现次数,m为数据源的个数,η为不同数据源下标签信息的 总数,m、η、γ和b均为常数。
11. 一种构建用户实时画像的装置,其特征在于,所述装置包括: 日志信息获取模块,用于获取用户的日志信息; 过滤模块,用于对所述日志信息获取模块获取到的日志信息进行过滤,得到所述日志 信息的关键字段; 提取模块,用于提取所述过滤模块过滤得到的关键字段的标签标识; 当前标签信息获取模块,用于根据所述提取模块提取的标签标识及所述过滤模块过滤 得到的关键字段,获取当前标签信息,所述标签信息至少用于指示所述标签标识在所述日 志信息的生成时间内的出现次数; 确定模块,用于根据所述提取模块提取的标签标识,确定所述当前标签信息对应的全 部兴趣类目; 用户兴趣度获取模块,用于根据所述当前标签信息获取模块获取的当前标签信息,获 取与每个兴趣类目相对应的用户兴趣度; 其中,所述关键字段至少包括用户标识、日志信息的生成时间、所述日志信息的数据源 标识及产品标识。
12. 根据权利要求11所述的装置,其特征在于,所述提取模块,包括: 检测单元,用于检测所述关键字段中是否包含行为类目标识; 确定单元,用于当所述检测单元检测到关键字段中包含行为类目标识时,将所述行为 类目标识作为提取到的所述关键字段的标签标识。
13. 根据权利要求12所述的装置,其特征在于,所述提取模块,还包括: 获取单元,用于当所述检测单元检测关键字段中未包含行为类目标识时,根据所述关 键字段中的产品标识获取与所述产品标识相对应的产品标题; 提取单元,用于根据所述获取单元获取到的产品标题提取所述关键字段的标签标识。
14. 根据权利要求13所述的装置,其特征在于,所述提取单元,包括: 分词处理子单元,用于根据预设语法规则对所述获取单元获取的产品标题进行分词处 理,得到所述产品标题的多个分词结果; 过滤分析子单元,用于根据预设过滤条件对多个分词结果进行过滤分析; 提取子单元,用于当所述过滤分析子单元得到过滤结果时,将所述过滤结果提取为所 述关键字段的标签标识。
15. 根据权利要求11所述的装置,其特征在于,所述当前标签信息获取模块,包括: 检测单元,用于检测已存储的多个标签信息中是否存在包括所述标签标识和所述标签 标识的提取类型的标签信息; 确定单元,用于当已存储的多个标签信息中包括所述标签标识和所述标签标识的提取 类型时,将所述包括所述标签标识和所述标签标识的提取类型的标签信息确定为匹配标签 信息,并确定所述标签标识对应的所述日志信息的生成时间是否与所述匹配标签信息的多 个预设时间段中的一个相对应; 更新单元,用于当所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息 的多个预设时间段中的一个相对应时,对相对应的时间段中所述标签标识的出现次数进行 更新。
16. 根据权利要求15所述的装置,其特征在于,所述当前标签信息获取模块,还包括: 创建单元,用于当所述标签标识对应的所述日志信息的生成时间与所述匹配标签信息 的多个预设时间段均不对应时,根据所述标签标识对应的所述日志信息的生成时间创建一 条单独的存储项,并统计所述标签标识在所述标签标识对应的日志信息的生成时间内的出 现次数。
17. 根据权利要求15所述的装置,其特征在于,所述当前标签信息获取模块,还包括: 生成单元,用于当已存储的多个标签信息均不包括所述标签标识和所述标签标识的提 取类型时,将所述用户标识及所述日志信息的数据源标识作为键,将所述标签标识、所述标 签标识的提取类型及所述标签标识的出现次数作为值,进行键值存储,得到当前标签信息。
18. 根据权利要求15至17中任一权利要求所述的装置,其特征在于,所述装置还包 括: 删除模块,用于对已存储的且存储时长超过预设时长的预设时间段及对应的标签标识 的出现次数进行删除。
19.根据权利要求11所述的装置,其特征在于,所述用户兴趣度获取模块,包括: 历史标签信息获取单元,用于获取每个兴趣类目对应的多个历史标签信息; 确定单元,用于确定所述当前标签信息及所述多个历史标签信息分别对应的数据源的 权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子; 用户兴趣度获取单元,用于根据所述当前标签信息及所述多个历史标签信息中每个标 签信息对应的数据源的权重值、兴趣类目的权重值、标签标识出现次数及时间衰减因子,获 取与所述每个兴趣类目对应的所述用户兴趣度。
【文档编号】G06F17/30GK104090886SQ201310661820
【公开日】2014年10月8日 申请日期:2013年12月9日 优先权日:2013年12月9日
【发明者】张文郁, 洪坤乾, 宋亚娟, 杜冲 申请人:深圳市腾讯计算机系统有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1