一种数据推送方法及装置的制造方法

文档序号:10687115阅读:163来源:国知局
一种数据推送方法及装置的制造方法
【专利摘要】本发明实施例涉及一种数据推送方法和装置,其中方法包括:获取用户的用户行为信息,所述用户行为信息包括用户的具体操作行为和所述具体操作行为对应的多媒体数据;获取所述多媒体数据对应的多媒体属性标签;根据所述具体操作行为和所述多媒体属性标签,解析出所述用户的兴趣分类标签;根据所述用户的兴趣分类标签,推送多媒体数据给用户。装置包括用户行为信息获取模块、多媒体属性标签获取模块、解析模块、推送模块。本发明挖掘了视频用户的兴趣分类标签兴趣分类,从兴趣分类标签维度进行用户画像,基于个性化的用户画像实现视频数据的个性化精准推送。
【专利说明】
一种数据推送方法及装置
技术领域
[0001]本发明实施例属于互联网技术领域,尤其涉及一种数据推送方法及系统。
【背景技术】
[0002]随着移动互联网时代的到来,视频服务的访问量越来越大,电影、电视剧、体育、文化、娱乐、教育等各式各样的视频内容层出不穷,五花八门。面对海量的资源,怎样让人们找到自己需要的视频显得越来越重要。因此用户和视频内容之间的连接形式由传统的搜索方式逐步向推荐方式过渡,怎样去给使用视频服务的人推荐更好的内容,个性化显得尤为重要。在现有的技术方案中一般采用建立用户画像的方式来推荐视频,但是现有的建立用户画像的过程只是根据用户访问视频的ID历史以及人工打上的标签建立用户画像,画像层次性不清晰,而且人工标签有好有坏,重要性难以把握,同时不能覆盖所有重要的用户行为,从而建立的用户画像不能向用户实现精准的视频推荐。

【发明内容】

[0003]基于上述背景,本发明实施例提供了一种数据推送方法及系统,本发明实施例的目的是通过为用户建立个性化的用户画像,从而实现个性化的数据内容推送。
[0004]本发明实施例第一方面提供了一种数据推送方法,具体技术方案包括:
[0005]获取用户的用户行为信息,所述用户行为信息包括用户的具体操作行为和所述具体操作行为对应的多媒体数据;
[0006]获取所述多媒体数据对应的多媒体属性标签;
[0007]根据所述具体操作行为和所述多媒体属性标签,解析出所述用户的兴趣分类标签;
[0008]根据所述用户的兴趣分类标签,推送多媒体数据给用户。
[0009]本发明实施例第二方面提供一种数据推送装置,具体包括:
[0010]用户行为信息获取模块,用于获取用户的用户行为信息,获取的用户行为信息包括用户的具体操作行为和所述具体操作行为对应的多媒体数据;
[0011]多媒体属性标签获取模块,用于获取所述多媒体数据对应的多媒体属性标签;
[0012]解析模块,根据所述具体操作行为和所述多媒体属性标签,解析出所述用户的兴趣分类标签;
[0013]推送模块,用于根据所述用户的兴趣分类标签,推送多媒体数据给用户。
[0014]本发明实施例具有如下有益效果:根据用户操作行为中挖掘视频用户的兴趣分类标签,从而实现了个性化的用户画像,基于用户画像实现视频数据的个性化精准推送。
【附图说明】
[0015]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本发明实施例一提供的数据推送方法流程图;
[0017]图2为本发明实施例二提供的解析用户兴趣分类标签的流程图;
[0018]图3为本发明实施例二提供的解析用户兴趣分类标签的另一流程图;
[0019]图4为本发明实施例三提供的数据推送方法流程图;
[0020]图5为本发明实施例三提供的扩展兴趣分类标签的流程图;
[0021]图6为本发明实施例三提供的用户属性信息获取流程图;
[0022]图7为本发明实施例三提供的推送多媒体数据的处理流程图;
[0023]图8为本发明实施例四提供的数据推送装置结构框图;
[0024]图9为本发明实施例五提供的解析模块的结构示意图。
[0025]图10为本发明实施例六提供的数据推送装置结构框图;
[0026]图11为本发明实施例六提供的扩展兴趣分类标签模块的结构示意图;
[0027]图12为本发明实施例六提供的用户属性信息获取模块模块的结构示意图。
【具体实施方式】
[0028]为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,附图中给出了本发明的较佳实施例。本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0029]除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0030]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0031 ] 实施例一
[0032]参阅图1所示的流程图,图1为本发明实施例提供的一种数据推送方法流程图,具体包括:
[0033]S1、获取用户的用户行为信息,所述用户行为信息包括用户的具体操作行为和所述具体操作行为对应的多媒体数据;
[0034]具体地,获取用户在不同终端和/或不同平台上的用户行为信息。视频内容提供商向用户提供视频服务,一般的呈现形式有两种,一种是通过专门的客户端呈现,如视频播放器,采用的是C/S架构,一种是通过浏览器网页呈现,采用的是B/S架构。相应地,视频内容提供商通过视频播放器客户端和网页两个基本途径来采集用户行为信息。
[0035]在本发明实施例中,所述的终端平台是指可以连接网络的不同类型硬件终端设备,硬件终端设备包括但不限于PC(个人电脑)、智能移动终端(手机)或者是智能电视,在这些终端平台上,可通过视频内容提供商所提供的专用视频播放器或者通过网页来获取用户行为信息。
[0036]为了确保收集的用户行为信息有意义,必须确定所获得的用户行为信息是属于同一个用户,除了根据用户登录的注册账号来确认之外,还可以通过高频使用的硬件设备来确定。比如现有硬件设备A,如果某一注册账号Admin在一定时间段内多次登录硬件设备A,则视频内容提供商即可判断从此硬件设备A收集的用户使用信息属于注册账号Admin,其中一定时间段是系统预设的阈值,根据本实施例的一种方案,如果已经判断为硬件设备A收集的用户使用信息属于注册账号Admin,账号Admin在没有登陆的情况下,用户使用硬件设备A时执行的视频浏览播放操作,如果这些操作在前述的时间段阈值范围内,那么这些操作将默认为是隶属于账号Admin的用户行为信息。
[0037]实际上用户的行为信息包括两个大类,一类是与用户相关的行为信息,主要指用户的具体操作行为,包括但不限于观看、点击、收藏、关注、搜索等操作行为;另一类是基于用户操作得到的衍生行为信息,主要指用户操作的多媒体所对应的多媒体数据信息,比如视频名称、视频关键词、视频标签、视频所属分类等。
[0038]可选地,从不同平台获取用户行为信息具体是指抓取用户存储在不同互联网终端平台上的不同用户行为信息进行镜像备份。由于不同平台保存的用户行为信息会存在差异,基于不同平台的用户行为信息镜像备份,方便信息整合。
[0039]S2、获取所述多媒体数据对应的多媒体属性标签;
[0040]在本实施例中,多媒体数据指具体的视频数据,视频数据相应地包括视频的名称和人工标注的视频分类标签等信息。可选地,多媒体属性标签具体地指人工标注的视频分类标签。获得多媒体数据对应的多媒体属性标签后,可以删除所述多媒体数据对应的多媒体属性标签中不合理的标签。
[0041]S3、根据用户的具体操作行为和多媒体属性标签,解析出用户的兴趣分类标签;
[0042]在本步骤中根据用户的具体操作行为和操作对应的多媒体数据的多媒体属性标签,解析得到用户感兴趣的多媒体属性标签,即得到了用户的兴趣分类标签。可选地,用户兴趣分类标签储存在系统的缓存数据库中,或者存储在Hadoop分布式文件系统(HDFS)上。[0043 ] S4、根据所述用户兴趣分类标签,推送多媒体数据。
[0044]具体的,通过在多媒体数据库中匹配包含所述兴趣分类标签的多媒体数据,将筛选后的多媒体数据推送到用户的不同终端和/或不同平台上。视频数据的个性化推荐及推送的精准率,取决于用户的使用行为信息的积累,用户每一次的操作都会影响用户兴趣分类标签,用户行为信息数量与个性化推送精准率之间呈现非线性正相关。
[0045]通过本发明实施例,从用户的用户行为信息中挖掘了行为信息对应的多媒体数据,进而获得多媒体数据的标签,基于用户行为信息和多媒体的标签即可得到用户的兴趣分类标签,从而实现个性化的用户画像,并且基于个性化的用户画像可实现视频数据的个性化精准推送。
[0046]实施例二
[0047]基于实施例一,一并参阅图2所示的流程图,图2所示为根据所述具体操作行为和所述多媒体属性标签,解析出所述用户的兴趣分类标签的具体实现过程,具体包括如下步骤:
[0048]S31、将所述具体操作行为进行分类,对每类所述具体操作行为赋予权重值。
[0049]一方面,对用户的具体操作行为进行分类标注。用户具体操作行为属于用户行为信息的一种,对用户行为信息的标注方式可以有多种,如名称标注、操作类型标注、关键词标注等。在本实施例中,用户行为信息指用户的具体操作行为和其对应的多媒体数据,用户的具体操作行为包含不同的类型,相应地为了区分不同类型的用户具体操作行为信息,需要对各类型具体操作行为信息进行标注,例如可以标注为点击、播放、收藏、关注等。每个从硬件平台抓取的镜像备份信息都可以根据不同的角度做不同的标注。可选地,基于不同的用户行为信息,系统可以预设多个标签,具体标注时,只需将预设标签与用户行为信息关联。
[0050]另一方面,对分类标注后的用户行为信息执行权重赋值操作。具体地,不同的用户行为信息对应不同的权重,根据本实施例的一种可选方案,基于用户行为信息与个性化推荐的关联度,预设用户视频播放行为的权重高于用户点击行为的权重,用户点击行为的权重高于用户搜索行为的权重。
[0051]可选地,为预设的多个标签分配预设权重,根据预设的权重对标注后的用户行为信息执行赋值操作。比如预设前述用户视频播放行为、用户点击行为、用户搜索行为的权重比例为3:2:1。
[0052]S32、获取所述多媒体属性标签对应的所述具体操作行为的统计数据。
[0053]前文提到,用户行为信息包括基于用户操作得到的衍生行为信息,具体的,用户行为包括一系列的操作,如观看、点击、关注、收藏、搜索等,这些操作对应的操作目标即为视频数据,每个视频数据对应独立的标签。获取多媒体属性标签对应的具体操作行为的统计数据具体指统计视频数据的标签所对应的用户的各种操作行为的发生次数,比如点击次数,播放次数,收藏次数、关注次数等。
[0054]S33、根据每类所述具体操作行为的权重值和所述多媒体属性标签对应的所述具体操作行为的统计数据,获得所述多媒体属性标签的权重值;
[0055]可选地,视频数据的标签采用权重加权的方式获得各标签权重,标签权重有如下计算公式:
[0056]W=al*Bl+a2*B2+."+an*Bn (η为正整数)
[0057]W指标签权重;
[0058]an为具体操作行为的权重,Bn为标签对应的用户具体操作行为的发生次数。
[0059]S34、根据所述多媒体属性标签的权重值得到所述用户的兴趣分类标签。
[0060]对于单层级标签,若其中某个标签M的权重最高,那么判断用户喜好标签是M,可以设定一个阈值,将权重大于阈值的所有标签均判断为用户的兴趣分类标签。
[0061]通过用户的具体操作行为和操作行为对应的多媒体数据,可以快速准确地获得用户的兴趣分类标签。
[0062]作为本实施例的可选实施方式,如图3所示为根据所述具体操作行为和所述多媒体属性标签,解析出所述用户的兴趣分类标签的另一种实现过程,具体包括如下步骤:
[0063]S’31、将所述具体操作行为进行分类,对每类所述具体操作行为赋予权重值。
[0064]一方面,对用户的具体操作行为进行分类标注。
[0065]用户具体操作行为属于用户行为信息的一种,对用户行为信息的标注方式可以有多种,如名称标注、操作类型标注、关键词标注等。在本可选实施例中,用户行为信息指用户的具体操作行为和其对应的多媒体数据,用户的具体操作行为包含不同的类型,相应地为了区分不同类型的用户具体操作行为信息,需要对各类型具体操作行为信息进行标注,例如可以标注为点击、播放、收藏、关注等。每个从硬件平台抓取的镜像备份信息都可以根据不同的角度做不同的标注。可选地,基于不同的用户行为信息,系统可以预设多个标签,具体标注时,只需将预设标签与用户行为信息关联。
[0066]另一方面,对分类标注后的用户行为信息执行权重赋值操作。
[0067]具体地,不同的用户行为信息对应不同的权重,根据本实施例的一种可选方案,基于用户行为信息与个性化推荐的关联度,预设用户视频播放行为的权重高于用户点击行为的权重,用户点击行为的权重高于用户搜索行为的权重。
[0068]可选地,为预设的多个标签分配预设权重,根据预设的权重对标注后的用户行为信息执行赋值操作。比如预设前述用户视频播放行为、用户点击行为、用户搜索行为的权重比例为3:2:1。
[0069]S’32、获取多层标签中底层标签对应的具体操作行为的统计数据。
[0070]根据本实施例可选方案,具体操作行为对应的操作目标为视频数据,每个视频数据对应独立的层次化的标签,可选地所述层次化的标签具体分为三层,分别为大类、子类和实体标签,视频数据的层次化标签中,大类标签处于上层,子类标签处于中间层,实体标签位于底层。大类例如为电视剧、电影等,子类例如喜剧、古装剧等,实体标签例如刘德华、故宫等人物或者具体建筑,不同的大类,其子类的名称有可能相同,比如大类电视剧,其子类包括古装剧、都市剧,同时大类电影的子类也可以包括古装剧、都市剧,每个视频对应的大类至实体标签逐层精细化,且三层结构标签为人为预设,可选地,预设可以来自两个方面,一方面是视频数据提供商设定的标签,另一方面是用户在观看视频时留下的对该视频的描述。因此获取所述多媒体数据对应的层次化标签具体是指解析三个层次的标签具体内容,比如电影美人鱼,通过解析得到其大类便签对应为电影,子类标签对应为喜剧,实体标签可对应但不限于周星驰,进一步地,得到的“电影-喜剧-周星驰”三层标签即为与所述用户行为信息相关联的层次化的兴趣分类标签。
[0071]可选地,用户具体操作行为包括一系列的操作,如观看、点击、关注、收藏、搜索等,因此获取底层标签对应的用户具体操作行为的统计数据具体指统计视频数据的实体标签所对应的用户的各种操作行为的发生次数,比如点击次数,播放次数,收藏次数、关注次数等。
[0072]可选地,视频数据每一层不限于一个分类标签,比如电影“西游降魔篇”可以包含喜剧片、魔幻片等多个子类标签。
[0073]可选地,获得多媒体数据对应的层次化标签后,删除所述多媒体数据对应的层次化标签中不合理的标签,具体为对不合理的标签采用清洗技术进行删除,建立层次化的分类标签。在本实施例中,清洗技术是删除无意义的标签如非法字符等,使结果更加准确。
[0074]S’33、根据每类所述具体操作行为的权重值和所述底层标签对应的所述用户具体操作行为的统计数据,获得所述多层标签中各层标签的权重值;
[0075]视频数据的底层实体标签采用权重加权的方式获得实体标签权重,实体标签权重有如下公式:
[0076]W=al*Bl+a2*B2+."+an*Bn (η为正整数)
[0077]W指标签权重;
[0078]an为具体操作行为的权重,Bn为标签对应的用户具体操作行为的发生次数。
[0079]根据本方案的可选的实施方式,上文提到,用户视频播放行为、用户点击行为、用户搜索行为的权重比例为3:2:1,在本实例中,设置播放行为权重为3,点击权重为2,搜索权重为1,若用户Ul对视频Vl播放2次,点击4次,搜索I次,视频Vl的标签为“体育”、“篮球”、“科比,,,则“科比”的权重为W(科比)=3*2+2*4+1*1 = 15;
[0080]根据可选实施例,若该用户Ul的层次化标签中有“体育-篮球-科比/乔丹/奥尼尔/姚明”,那么子类“篮球”的权重为其子标签(实体标签)“科比乔丹”/“奥尼尔”/“姚明”的权重平均值。
[0081]根据可选实施例,大类“体育”的权重同样为其子标签(子类)的权重平均值。
[0082]S’34、根据所述各层标签的权重值得到用户的兴趣分类标签。
[0083]若同层级标签中某个标签Ml的权重最高,那么判断用户喜好标签是Ml。如果同层级标签中所有标签的权重持平,那么设定一个调试好的阈值threshold,将上一层标签权重乘以阈值thr esho I d与当前层级标签的权重进行比较,如果当前层级中某个标签M2的权重大于上一层标签权重乘以阈值threshold,则判断用户喜好标签是当前层级中的标签M2,如果当前层级中所有标签的权重都小于上一层标签权重乘以阈值threshold,那么判断当前层级的上一级标签为用户的喜好标签。
[0084]根据可选实施例,以层次化标签“体育-篮球-科比/乔丹/奥尼尔/姚明”为例,计算用户兴趣标签时,若同级实体标签中篮球权重最高,则判断该用户喜好标签是“篮球”;若各子标签权重分布较平均,如果W(子标签KW(篮球)*threShold,则该用户喜好为“篮球”;如果W(科比)>W(篮球)*threshold,则喜好标签为“科比”。
[0085]综上所述,本发明实施例对包含标签的多媒体数据,通过权重运算获得各标签的权重值,将指标量化,方便快速获取兴趣分类便签,特别地,对于多层便签的多媒体数据,挖掘了视频用户的层次化的兴趣分类标签,从宽泛类别到精细化类别,便于在推荐排序中进行标签特征的组合,提高推荐的准确效果。
[0086]实施例三
[0087]基于实施例一或实施例二,本发明实施例提供的数据推送方法还包括扩展兴趣分类标签和获取用户的用户属性信息,如图4所示,本实施例提供的数据推送方法具体包括如下步骤:
[0088]S’1、获取用户的用户行为信息,所述用户行为信息包括用户的具体操作行和所述具体操作行为对应的多媒体数据;
[0089]S’2、获取所述多媒体数据对应的多媒体属性标签;
[0090]S’3、根据所述具体操作行为和所述多媒体属性标签,解析出所述用户的兴趣分类标签;多媒体属性标签可以是单层也可以是多层。
[0091]S’4、扩展趣分类标签;
[0092]具体的,扩展的标签可以是单层或者多层,有这样的情况,由于没有编辑各层级标签,有些视频数据缺少标签或者层次化标签不完善,需要通过机器学习的方式(比如采用朴素贝叶斯分类算法或者LDA聚类算法)来补全这些缺少或者不完善的标签,如图5所示,具体的,扩展兴趣分类标签的过程如下:
[0093]S’41、获取包含多媒体属性标签的多媒体数据的辅助信息;
[0094]获取包含层次化标签的多媒体数据的辅助信息,其中辅助信息包括多媒体数据的名称、人工标注,这些包含层次化标签的多媒体数据是用户扩展兴趣分类标签的原始数据。
[0095]S’42、根据所述辅助信息和所述多媒体属性标签建立第一贝叶斯分类模型;
[0096]S’43、获取缺失标签的多媒体数据的辅助信息并输入第一贝叶斯分类模型,得到缺失标签;
[0097]根据可选实施例,对于包含多层标签的多媒体数据,缺失标签是指这些视频数据缺失的大类标签、子类标签和实体标签。
[0098]S’44、将得到的所述缺失标签与所述兴趣分类标签中的标签合并,获取所述合并后的兴趣分类标签中各标签的权重值,得到扩展的兴趣分类标签。
[0099]根据可选的实施例,权重值的计算与前述计算方式相同,从而得到扩展的兴趣分类标签。
[0100]S’5、获取用户的属性信息,
[0101]可选地,根据用户的兴趣分类标签推送多媒体数据给用户具体为根据用户兴趣分类标签和用户属性信息推送多媒体数据给用户,如图4所示。
[0102]用户属性包含多个维度,比如性别、年龄VIP等级、活跃度、等基础属性。然后有些用户在平台上并没有属性信息,或者属性信息不完整,则可以通过如下方式获取用户的用户属性信息,如图6所示:
[0103]S’51、获取样本用户的用户属性信息;
[0104]S’52、获取所述样本用户的兴趣分类标签;
[0105]S’53、根据所述样本用户的用户属性信息和兴趣分类标签建立第二贝叶斯分类模型;
[0106]S’54、获取所述用户的兴趣分类标签并输入所述第二贝叶斯分类模型,得到所述用户的用户属性信息。
[0107]根据本实施例的可选方案,具体获取过程如下:获取现有样本用户的属性信息,包括用户性别、年龄;获取现有样本用户对应的播放记录、兴趣分类标签;根据所述现有样本用户的人口属性数据和对应的播放记录、兴趣分类标签建立贝叶斯分类模型;获取新用户的播放记录、兴趣分类标签并输入贝叶斯分类模型,得到新用户的用户属性信息。
[0108]其中得到的新用户的用户属性信息属于根据模型推测出来的数据,为了提升模型推测数据的准确率,可通过利用新的用户的用户属性信息来训练模型。同样的用户属性信息还可以包括用户职业。
[0109]根据本实施例的可选方案,如图7所示,根据所述用户兴趣分类标签和所述用户属性,推送多媒体数据具体包括:
[0110]S’61、获取包含所述兴趣分类标签的多媒体数据,所述多媒体数据与用户属性关联;
[0111]多媒体数据与用户属性关联,具体的指用户可获取的视频资源根据不同的用户属性而存在差异,比如在视频网站中的付费资源关联至VIP会员;根据某用户的定位,相应关联与位置相关的资源等。
[0112]S’62、根据所述用户属性筛选所述多媒体数据;
[0113]可选地,以VIP为例,现有付费资源,根据用户的兴趣分类标签匹配到了该付费资源,在向用户推送该资源时,首先判断该用户是否是VIP会员,若是则推送给用户,否则将该付费资源从推荐列表中删除或者选择性地推荐给用户。如何选择性推荐给用户,以用户活跃度为例,比如当用户活跃度比较高时,在其不是VIP会员的情况下,依然向其推荐该付费资源,以引导该活跃度较高的用户开通VIP会员。
[0114]S’63、将筛选后的所述多媒体数据推送给所述用户。
[0115]本实施例中将多个的体系形成画像维度,比如用户兴趣分类标签,用户属性、人口属性等等,基于多个画像维度可建立用户画像。具体的,通过聚合用户兴趣分类标签和用户属性等维度的数据,在多媒体数据库中匹配包含所述兴趣分类标签的多媒体数据,根据所述用户属性筛选匹配的多媒体数据,将筛选后的多媒体数据推送到不同终端和/或不同平台上。聚合的用户兴趣分类标签和用户属性是一个动态的用户个性化信息数据综合。视频数据的个性化推荐及推送的精准率,取决于用户的使用行为信息的积累,用户每一次的操作都会影响用户兴趣分类标签和用户属性,用户行为信息量与个性化推送精准率之间呈现非线性正相关。
[0116]本发明实施例通过扩展兴趣分类标签,可以增加用户可获得推荐的视频资源的数量,使得兴趣分类标签这一维度的数据更加精细全面,同时再增加用户属性信息这一维度的数据来给用户画像,有利于个性化的用户画像,对不同用户实现精准的视频推荐。
[0117]实施例四
[0118]如图8所示,本发明实施例三提供一种数据推送装置,装置具体包括用户行为信息获取模块O1、多媒体属性标签获取模块02、解析模块03、推送模块04。其中:
[0119]用户行为信息获取模块01用于获取用户的用户行为信息,所述用户行为信息包括用户的具体操作行和所述具体操作行为对应的多媒体数据,具体的获取用户在不同终端和/或不同平台上的用户行为信息,用户行为信息模块01从不同终端和/或不同平台获取用户行为信息具体是指抓取用户存储在不同互联网终端平台上的不同用户行为信息进行镜像备份。其中互联网终端平台包括电脑、手机、电视等,抓取的用户行为具体包括观看、点击、收藏、关注、搜索等操作。
[0120]多媒体属性标签获取模块02用于获取每个所述用户行为信息对应的多媒体数据的属性标签,多媒体数据具体指获取用户观看、点击、收藏、关注、搜索等操作所针对的视频或者视频合集。
[0121]可选地,多媒体属性标签获取模块02包括筛选子单元,用于删除多媒体数据对应的标签中不合理的标签。具体的,筛选子单元对不合理的标签采用清洗技术进行删除。
[0122]解析模块03用于根据用户行为信息获取模块01获得的用户具体操作行为和多媒体属性标签获取模块02获得多媒体属性标签,解析出用户的兴趣分类标签。
[0123]推送模块04根据用户兴趣分类标签,推送多媒体数据给用户。具体的,推送模块04在检测到用户的相关操作时,如打开视频内容提供商提供的专用视频播放器,或者打开视频内容提供商的视频网站时,根据用户的兴趣分类标签匹配相应的视频资源,向用户的互联网终端设备推送个性化的视频数据。
[0124]通过本发明实施例,从用户的用户行为信息中挖掘了行为信息对应的多媒体数据,进而获得多媒体数据的标签,基于用户行为信息和多媒体的标签即可得到用户的兴趣分类标签,从而实现个性化的用户画像,并且基于个性化的用户画像可实现视频数据的个性化精准推送。
[0125]实施例五
[0126]基于实施例四,根据本发明实施例的一种可选方案,如图9所示,解析模块03具体包括:赋值单元031,统计单元032,标签权重获取单元033,兴趣分类标签获取单元034,其中:
[0127]赋值单元031用于将所述具体操作行为进行分类,对每类所述具体操作行为赋予权重值。具体的,对用户行为信息进行分析归类,对不同类型的用户行为信息进行多角度、多类型的标注,每一项用户行为信息对应独立的标注,以对各类型用户行为信息加以区分,然后对标注后的信息赋予权重值,具体的,赋值单元031根据预设的权重比例对不同的用户行为信息进行赋予相应的权重。
[0128]可选地,赋值单元031不对具体操作行为进行分类,在执行赋予权重值的操作前,用户的具体操作行为已经被分类。
[0129]统计单元032用于获取多媒体属性标签对应的用户行为的发生次数,具体地,统计单元032获取实体标签所对应的用户的各种行为操作的发生次数,比如点击次数,播放次数,收藏次数、关注次数等。
[0130]标签权重获取单元033用于根据分类标注后的用户行为信息的权重值和所述底层标签对应的用户行为的发生次数,获得层次化标签各层标签的权重值。
[0131 ]标签权重获取单元033具体执行如下加权公式:
[0132]W=al*Bl+a2*B2+…+an*Bn (η为正整数)
[0133]W指标签权重;
[0134]an为具体操作行为的权重,Bn为标签对应的用户具体操作行为的发生次数。
[0135]基于实施例四,根据本发明实施例的一种可选方案,如图9所示,解析模块的包含的各个单元处理的内容如下:
[0136]赋值单元031将具体操作行为进行分类,对每类具体操作行为赋予权重值。
[0137]统计单元032获取多层标签中的底层标签对应的具体操作行为的统计数据。可选地,多媒体数据包含的多层标签,多层标签具体分为三层,分别为大类标签、子类标签和实体标签。
[0138]统计单元032用于获取底层标签对应的用户行为的发生次数,具体地,统计单元032获取实体标签所对应的用户的各种行为操作的发生次数,比如点击次数,播放次数,收藏次数、关注次数等。
[0139]标签权重获取单元033用于根据分类标注后的用户行为信息的权重值和所述底层标签对应的用户行为的发生次数,获得层次化标签各层标签的权重值。
[0140]可选地,标签权重获取单元033具体执行如下加权公式:
[0141]W=al*Bl+a2*B2+."+an*Bn (η为正整数)
[0142]W指实体标签权重;
[0143]an为权重,Bn为底层标签对应的用户行为的发生次数。
[0144]可选地,标签权重获取单元033同时还通过计算子标签的权重平均值得到父标签的权重值。
[0145]兴趣分类标签获取单元034用于根据所述各层标签的权重值得到用户的兴趣分类标签。具体地,兴趣分类标签获取单元034’通过比较两种类型的权重的来判断获得用户的兴趣分类标签。
[0146]第一种是同层级标签权重比较;具体的选取同层级中权重最大的标签作为用户的兴趣分类标签;
[0147]第二种是相邻层级标签权重比较;将父标签的权重乘以预设的阈值threshold,与子标签的权重进行比较,若前者大与后者,则选取父标签作为用户的兴趣分类标签,反之则选取子标签为用户的兴趣分类标签。
[0148]本发明实施例对包含标签的多媒体数据,通过权重运算获得各标签的权重值,将指标量化,方便快速获取兴趣分类便签,特别地,对于多层便签的多媒体数据,挖掘了视频用户的层次化的兴趣分类标签,从宽泛类别到精细化类别,便于在推荐排序中进行标签特征的组合,提高推荐的准确效果。
[0149]实施例六
[0150]本发明实施例提供另一种可选实施例,基于实施例四和实施例五提供的数据推送装置的可选实施例,数据推送装置还包括扩展兴趣分类标签模块和用户属性信息获取模块,具体如图1O所示,数据推送装置包括:
[0151]用户行为信息获取模块01、多媒体属性标签获取模块02、解析模块03、推送模块
04、扩展兴趣分类标签模块05、用户属性信息获取模块06。
[0152]用户行为信息获取模块01用于获取用户的用户行为信息,所述用户行为信息包括用户的具体操作行和所述具体操作行为对应的多媒体数据。
[0153]多媒体属性标签获取模块02获取所述多媒体数据对应的多媒体属性标签。
[0154]解析模块03根据所述具体操作行为和所述多媒体属性标签,解析出所述用户的兴趣分类标签。多媒体属性标签可以是单层,也可以是多层。
[0155]扩展兴趣分类标签模块05用于扩展趣分类标签,具体的,扩展的标签可以是单层或者多层,扩展兴趣分类标签模块05的结构包含如下部分,如图11所示:
[0156]辅助信息获取单元051、第一建模单元052、缺失标签获取单元053、扩展兴趣分类标签获取单元054。
[0157]辅助信息获取单元051用于包含多媒体属性标签的多媒体数据的辅助信息
[0158]第一建模单元052用于根据辅助信息和多媒体属性标签建立第一贝叶斯分类模型;
[0159]缺失标签获取单元053用于获取缺失标签的多媒体数据的辅助信息并输入第一贝叶斯分类模型,得到缺失标签;
[0160]扩展兴趣分类标签获取单元054用于将得到的缺失标签与兴趣分类标签中的标签合并,获取合并后的兴趣分类标签中各标签的权重值,得到扩展的兴趣分类标签。
[0161]根据可选的实施例,权重值的计算与前述计算方式相同,从而得到扩展的兴趣分类标签。
[0162]用户属性信息获取模块06用于获取用户在不同平台的用户属性信息。具体的,用户属性信息获取模块06具体获取比如人口属性,以及VIP、位置、活跃度、观看历史等基础属性,可选地,存储所述用户属性,比如存储在Hadoop分布式文件系统(HDFS)和/或缓存数据库中。
[0163]用户属性信息获取模块06的结构包含如下部分,如图12所示:
[0164]样本用户属性信息获取单元061、样本用户兴趣分类标签获取单元062、第二建模单元063、用户属性信息获取单元064。
[0165]样本用户属性信息获取单元061获取样本用户的用户属性信息;
[0166]样本用户兴趣分类标签获取单元062获取所述样本用户的兴趣分类标签;
[0167]第二建模单元063根据所述样本用户的用户属性信息和兴趣分类标签建立第二贝叶斯分类模型;
[0168]用户属性信息获取单元064获取所述用户的兴趣分类标签并输入所述第二贝叶斯分类模型,得到所述用户的用户属性信息。
[0169]可选地,以挖掘人口属性为例,用于根据现有用户的人口属性数据和对应的播放记录、兴趣分类标签建立第二贝叶斯分类模型,并将新用户的播放记录、兴趣分类标签输入所述第二贝叶斯分类模型,得到新用户的人口属性数据。
[0170]可选地,推送模块04根据所述用户兴趣分类标签和所述用户属性,推送多媒体数据。具体的,推送模块04在检测到用户的相关操作时,如打开视频内容提供商提供的专用视频播放器,或者打开视频内容提供商的视频网站时,匹配用户的兴趣分类标签和用户属性,根据兴趣分类标签和用户属性定时或者不定时向用户的互联网终端设备推送个性化的视频数据。
[0171]本发明实施例提供的数据推送装置,通过扩展兴趣分类标签,可以增加用户可获得推荐的视频资源的数量,使得兴趣分类标签这一维度的数据更加精细全面,同时再增加用户属性信息这一维度的数据来给用户画像,有利于个性化的用户画像,对不同用户实现精准的视频推荐。
[0172]以上仅为本发明的优选实施例,但并不限制本发明的专利范围,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各【具体实施方式】所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。
【主权项】
1.一种数据推送方法,其特征在于,包括: 获取用户的用户行为信息,所述用户行为信息包括用户的具体操作行为和所述具体操作行为对应的多媒体数据; 获取所述多媒体数据对应的多媒体属性标签; 根据所述具体操作行为和所述多媒体属性标签,解析出所述用户的兴趣分类标签; 根据所述用户的兴趣分类标签,推送多媒体数据给用户。2.根据权利要求1所述的数据推送方法,其特征在于,所述根据所述具体操作行为和所述多媒体属性标签,解析出所述用户的兴趣分类标签具体包括: 将所述具体操作行为进行分类,对每类所述具体操作行为赋予权重值; 获取所述多媒体属性标签对应的所述具体操作行为的统计数据; 根据每类所述具体操作行为的权重值和所述多媒体属性标签对应的所述具体操作行为的统计数据,获得所述多媒体属性标签的权重值; 根据所述多媒体属性标签的权重值得到所述用户的兴趣分类标签。3.根据权利要求1所述的数据推送方法,其特征在于,所述多媒体属性标签为多层标签;所述根据所述具体操作行为和所述多媒体属性标签,解析出所述用户的兴趣分类标签具体包括: 将所述具体操作行为进行分类,对每类所述具体操作行为赋予权重值; 获取所述多层标签中底层标签对应的所述具体操作行为的统计数据; 根据每类所述具体操作行为的权重值和所述底层标签对应的所述用户具体操作行为的统计数据,获得所述多层标签中各层标签的权重值; 根据所述各层标签的权重值得到所述用户的兴趣分类标签。4.根据权利要求2或3所述的数据推送方法,其特征在于,还包括: 获取包含多媒体属性标签的多媒体数据的辅助信息; 根据所述辅助信息和所述多媒体属性标签建立第一贝叶斯分类模型; 获取缺失标签的多媒体数据的辅助信息并输入所述第一贝叶斯分类模型,得到所述缺失标签; 将得到的所述缺失标签与所述兴趣分类标签中的标签合并,获取所述合并后的兴趣分类标签中各标签的权重值,得到扩展的兴趣分类标签。5.根据权利要求1至3任意一项所述的数据推送方法,其特征在于,还包括获取用户的用户属性信息;所述根据所述用户的兴趣分类标签,推送多媒体数据给用户具体为:根据所述用户兴趣分类标签和所述用户属性信息,推送多媒体数据给用户。6.根据权利要求5所述的数据推送方法,其特征在于,获取用户的用户属性信息包括: 获取样本用户的用户属性信息; 获取所述样本用户的兴趣分类标签; 根据所述样本用户的用户属性信息和兴趣分类标签建立第二贝叶斯分类模型; 获取所述用户的兴趣分类标签并输入所述第二贝叶斯分类模型,得到所述用户的用户属性信息。7.根据权利要求5所述的数据推送方法,其特征在于,所述根据所述用户兴趣分类标签和所述用户属性信息,推送多媒体数据给用户,具体为: 获取包含所述兴趣分类标签的多媒体数据,所述多媒体数据与用户属性关联; 根据所述用户属性筛选所述多媒体数据; 将筛选后的所述多媒体数据推送给所述用户。8.一种数据推送装置,其特征在于,包括: 用户行为信息获取模块,用于获取用户的用户行为信息,获取的用户行为信息包括用户的具体操作行为和所述具体操作行为对应的多媒体数据; 多媒体属性标签获取模块,用于获取所述多媒体数据对应的多媒体属性标签; 解析模块,根据所述具体操作行为和所述多媒体属性标签,解析出所述用户的兴趣分类标签; 推送模块,用于根据根据所述用户的兴趣分类标签,推送多媒体数据给用户。9.根据权利要求8所述的数据推送装置,其特征在于,所述解析模块具体包括: 赋值单元,用于将所述具体操作行为进行分类,对每类所述具体操作行为赋予权重值; 统计单元,用于获取所述多媒体属性标签对应的所述具体操作行为的统计数据; 标签权重获取单元,用于根据每类所述具体操作行为的权重值和所述多媒体属性标签对应的所述具体操作行为的统计数据,获得所述多媒体属性标签的权重值; 兴趣分类标签获取单元,用于根据所述多媒体属性标签的权重值得到所述用户的兴趣分类标签。10.根据权利要求8所述的数据推送装置,其特征在于,所述多媒体属性标签获取模块获取的多媒体数据标签为多层标签,所述解析模块具体包括: 赋值单元,用于将所述具体操作行为进行分类,对每类所述具体操作行为赋予权重值;统计单元,用于获取所述多层标签的底层标签对应的所述具体操作行为的统计数据;标签权重获取单元,用于根据每类所述具体操作行为的权重值和所述底层标签对应的所述具体操作行为的统计数据,获得所述多层标签中各层标签的权重值; 兴趣分类标签获取单元,用于根据所述各层标签的权重值得到所述用户的兴趣分类标签。11.根据权利要求9或10所述的数据推送装置,其特征在于,还包括 辅助信息获取单元,获取包含多媒体属性标签的多媒体数据的辅助信息; 第一建模单元,用于根据所述辅助信息和所述多媒体属性标签建立第一贝叶斯分类模型; 缺失标签获取单元,用户获取缺失多媒体属性标签的多媒体数据的辅助信息并输入所述第一贝叶斯分类模型,得到所述缺失标签; 扩展单元,用于将得到的所述缺失多媒体属性标签与所述兴趣分类标签对应的多媒体属性标签合并,获取所述合并后的兴趣分类标签中各多媒体属性标签的权重值,得到扩展的兴趣分类标签。12.根据权利要求8至10任意一项所述的数据推送装置,其特征在于,还包括用户属性信息获取模块,用于获取用户的用户属性信息;推送模块根据所述用户兴趣分类标签和所述用户属性信息,推送多媒体数据给用户。13.根据权利要求12所述数据推送装置,其特征在于,所述用户属性信息获取模块具体包括: 样本信息获取单元,用于获取样本用户的用户属性信息; 样本兴趣分类标签获取单元,用于获取所述样本用户的兴趣分类标签; 第二建模单元,用于根据所述样本用户的用户属性信息和兴趣分类标签建立第二贝叶斯分类模型; 用户属性信息获取单元,用户获取所述用户的兴趣分类标签并输入所述第二贝叶斯分类模型,得到所述用户的用户属性信息。14.根据权利要求13所述的数据推送装置,其特征在于,所述推送模块具体包括: 匹配单元,用于获取包含所述兴趣分类标签的多媒体数据,所述多媒体数据与用户属性关联; 筛选单元,用于根据所述用户属性筛选所述多媒体数据; 推送单元,用于将筛选后的所述多媒体数据推送给所述用户。
【文档编号】G06F17/30GK106055617SQ201610357738
【公开日】2016年10月26日
【申请日】2016年5月26日
【发明人】李彦
【申请人】乐视控股(北京)有限公司, 乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1