一种用户信息获取方法及装置与流程

文档序号:11950895阅读:264来源:国知局
一种用户信息获取方法及装置与流程

本发明实施例涉及计算机技术领域,尤其涉及一种用户信息获取方法及装置。



背景技术:

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。通过对大数据的分析能够获取很多智能的,深入的、有价值的信息。目前,在视频领域中,各大视频网站越来越重视用户在网站中的浏览体验,如视频的内容是否丰富,用户是否能更容易地查找到所需要的视频资源等,为此,视频网站会针对不同的用户进行有针对性的视频内容推荐,以方便用户更容易的找到想看的视频内容。而要做到对用户的定向推送信息,首先要确定不同用户的特征信息,如用户的年龄、性别、职业、爱好等。

对于上述用户特征信息采集,传统的主要方式是通过用户登录网站所填写的用户注册信息,从用户的注册信息中提取相关的特征信息。或者是通过网站的活动向用户下发调查问卷,从用户反馈的问卷中提取该用户的相关特征信息。然而在实际应用的过程中,申请人发现许多网站为了增加用户使用的便利性,对于用户填写注册信息的步骤并不做强制规定,因此,多数的用户基本不进行注册信息的填写,而对于填写注册信息的用户,由于大多数的特征信息项出于用户隐私的考虑不做强制填写规定,使得这部分用户也无法获取用户的特征信息。而对于调查问卷,用户填写的反馈率本就比较低,并且所填写的内容真实性、准确性又都不高,导致无法获取正确的用户特征信息。

除了传统的采集用户上报的信息方式外,随着数据分析的广泛应用,用户的特征信息往往可以通过其具体的行为分析得出。对于视频领域来说,就可以通过分析观影用户所观看的视频预测出该用户的特征信息,其过程一般是通过建立预测模型,利用已知的训练样本对该预测模型进行预测训练,当模型的预测结果达到预定的要求后,便可以对未知用户的观影行为进行计算,得出该未知用户的相关特征信息。然而,申请人在提出本发明的过程中发现,目前所使用的预测用户特征信息的计算模型,多为一次性模型,在完成训练后就一直使用,这种模型对于训练样本和预测对象变化不大的情形比较适用,但是在视频领域,虽然单部影片的属性不会变化,但是每个时间段内的热播视频都在变化,并且每个时间段内的用户群也会不断变化。而这些变化因素都可能影响预测模型最终的计算结果,可见,现有的预测模型在计算观影用户的特征信息时存在较大的不稳定性。



技术实现要素:

针对上述存在的问题,本发明实施例提供一种用户信息获取方法及装置,主要目的在于通过定期更新预测模型的训练样本,来提高预测模型计算用户特征信息的稳定性。

为达到上述目的,本发明主要提供如下技术方案:

一方面,本发明实施例提供一种用户信息获取方法,该方法包括:

采集多媒体样本集合,其中,所述多媒体样本集合包括具有区分用户特征信息的多媒体样本;

统计所述多媒体样本集合的观看用户,筛选出训练用户样本,所述训练用户样本为具有明确用户特征信息的用户样本;

利用所述训练用户样本训练用户信息获取模型,使用所述用户信息获取模型获取目标用户的特征信息。

可选的,所述采集多媒体样本集合包括:

根据预置规则采集多媒体样本,其中,所述多媒体样本标注有用户特征信息倾向标签;

根据所述用户特征信息倾向标签筛选出多个多媒体样本,生成多媒体样本集合。

可选的,所述采集多媒体样本集合包括:

根据预置的时间间隔定期采集多媒体样本集合。

可选的,所述统计所述多媒体样本集合的观看用户,筛选出训练用户样本包括:

获取所述多媒体样本集合中每一个多媒体样本的观看用户,得到观看用户集合;

根据所述观看用户集合中每一个用户的多媒体观看记录,统计每一个用户观看所述多媒体样本集合中的多媒体数量;

根据所述多媒体数量确定所述训练用户样本。

可选的,所述根据所述多媒体数量确定所述训练用户样本包括:

获取用户观看的所述多媒体样本的用户特征信息倾向标签;

根据不同用户特征信息倾向标签的权重,计算每一个用户的用户特征信息倾向得分,所述权重用于表示用户特征信息倾向标签的倾向程度;

根据所述用户特征信息倾向得分的排序确定所述训练用户样本。

另一方面,本发明实施例提供一种用户信息获取装置,该装置包括:

采集单元,用于采集多媒体样本集合,其中,所述多媒体样本集合包括具有区分用户特征信息的多媒体样本;

选择单元,用于统计所述采集单元得到的多媒体样本集合的观看用户,筛选出训练用户样本,所述训练用户样本为具有明确用户特征信息的用户样本;

获取单元,用于利用所述选择单元选择的训练用户样本训练用户信息获取模型,使用所述用户信息获取模型获取目标用户的特征信息。

可选的,所述采集单元包括:

采集模块,用于根据预置规则采集多媒体样本,其中,所述多媒体样本标注有用户特征信息倾向标签;

生成模块,用于根据所述用户特征信息倾向标签在所述采集模块采集的多媒体样本集合中筛选出多个多媒体样本,生成多媒体样本集合。

可选的,所述采集单元包括:

定时模块,用于根据预置的时间间隔定期采集多媒体样本集合。

可选的,所述选择单元包括:

获取模块,用于获取所述多媒体样本集合中每一个多媒体样本的观看用户,得到观看用户集合;

统计模块,用于根据所述获取模块获取的观看用户集合中每一个用户的多媒体观看记录,统计每一个用户观看所述多媒体样本集合中的多媒体数量;

确定模块,用于根据所述统计模块统计的多媒体数量确定所述训练用户样本。

可选的,所述确定模块包括:

获取子模块,用于获取用户观看的所述多媒体样本的用户特征信息倾向标签;

计算子模块,用于根据不同用户特征信息倾向标签的权重,计算每一个用户的用户特征信息倾向得分,所述权重用于表示用户特征信息倾向标签的倾向程度;

确定子模块,用于根据所述计算子模块计算的用户特征信息倾向得分的排序确定所述训练用户样本。

通过上述的一种用户信息获取方法及装置可以看出,本发明实施例是通过构建一个可以定期训练的用户信息获取模型对目标用户进行用户特征信息获取的。而这种定期训练又是基于定期更新的训练样本,因此,该用户特征信息获取的方法尤其适用于更新内容多、速度快的多媒体领域。通过定期采集多媒体样本集合,并根据观看多媒体样本的用户选出具有代表性的优质用户作为最新的训练样本用于训练用户信息获取模型,该模型在经过训练后,其计算的标准将基于当前热门的多媒体,以及具有代表性的优质用户,所得到的计算结果也将更加具有时效性,所得到的特征信息将更加贴合用户的实际情况,使得其计算的准确性也将更加稳定。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用户信息获取方法流程图;

图2为本发明实施例提供的一种用户信息获取模型的训练样本获取方法流程图;

图3为本发明实施例提供的一种用户信息获取装置的结构组成框图;

图4为本发明实施例提供的另一种用户信息获取装置的结构组成框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供了一种用户信息获取方法,如图1所示,该方法应用于根据用户的多媒体观看行为预测该用户的特征信息,具体步骤包括:

101、采集多媒体样本集合。

其中,多媒体样本集合中的多媒体样本格式不限定为视频、音频、文字或图片等。

本发明实施例所采集的多媒体样本集合中,多媒体样本可以为具体的多媒体内容,也可以是多媒体的名称、大小等相关多媒体属性。而所采集的多媒体样本应为多媒体样本,所谓多媒体样本是指具有区分用户特征信息的多媒体样本,用户的特征信息是指能够区分不同用户的属性信息,例如,用户的性别、年龄、职业等信息。通过这些信息,可以大致地预测出用户对于多媒体观看的喜好,从而能够有针对性的为该用户提供个性化服务,如多媒体信息推送,配置针对该用户的多媒体查找模式等。

每一个多媒体根据具体的内容都会有对应的观看用户群体,比如,动画片的观看用户主要为儿童,校园剧的观看用户多为学生,综艺娱乐节目的观看用户主要是青年,历史剧的观看用户则多为中年或老年人;在例如,男性更喜欢看美剧,女性更喜欢看韩剧等等。因此,每一个多媒体都能够按照不同的用户特征信息进行划分,具体地,可以对多媒体加注标签信息进行区分,并且一个多媒体可以标注多个标签用以标记不同的用户特征信息。此外,对于同一类的用户特征信息的标签,不同的多媒体还存在有程度的区别,例如,多媒体A和多媒体B都具有女性观看的标签,而多媒体A的观看用户相对多媒体B来说女性观看用户更多,对此,可以在标签中增加数值用以区分特征信息的不同程度。

需要说明的是,所采集的多媒体样本集合不限定是针对某一个用户特征信息所采集的多媒体,也可以是针对不同的用户特征信息综合采集。而对于所采集的多媒体数量则由系统的处理能力限定,采集的数量越多,其最终的预测结果也就越准确。因此,本发明实施例对采集多媒体的数量不做限定。

进一步的,为了保证所采集的多媒体样本的时效性,还可以通过定期更新该多媒体样本集合将最新的多媒体样本添加到集合中,同时,对于集合中区分用户特征信息不明显的多媒体样本进行删除或更换。在本发明实施例中,可以通过预置一个时间间隔来定期采集多媒体样本集合,其中,预置的时间间隔在本发明实施例中可以是人工设置的一个固定的时间周期,有系统定期地触发采集多媒体样本的步骤。也可以是一个非固定的时间周期,该时间间隔由系统的维护人员来确定。也就是说,预置的时间间隔可以是一天、一周、一个月这样的固定周期,也可以由管理员自由确定,当管理员认为最近多媒体内容更新的较多时,可以将周期缩短,甚至可以由管理员实时触发该采集步骤。

102、统计多媒体样本集合的观看用户,筛选出训练用户样本。

统计多媒体样本集合的观看用户是逐一统计出集合中的每一个多媒体样本的所有的观看用户,再将这些观看用户进行去重处理后,得到一个总观看用户的集合。也就是说,该集合中的任意一个用户至少观看了多媒体样本集合中的一个多媒体。

在确定了观看用户的集合后,再从该集合中筛选出训练用户样本。其中,训练用户样本是指具有明确用户特征信息的用户样本。也就是说,根据该用户观看多媒体的记录,可以很容易的确定该用户的一个或几个特征信息。例如,一个用户的多媒体观看记录多是韩剧,且观看的时间集中在周末或晚间,则该用户为职业女性的概率就很大。此外,筛选出的训练用户样本的数量则是要根据训练用户信息获取模型的需要来确定,数量越多,训练的模型的结果也就越准确,但训练所需要的时间也就越长,因此,训练用户样本选择的数量并非多多益善,而是要根据具体的情况进行设定。比如,样本更新的周期比较长时,就可以多选择一些样本进行训练,反之,则少选择一些样本训练即可。

筛选训练用户样本主要是根据用户所观看多媒体中带有的用户特征信息的标签进行统计计算后,按照得分的排序进行筛选。需要说明的是,本步骤中计算得到的分值不限为某一个用户特征信息的计算结果,也可以是多个用户特征信息计算结果的综合得分。对于具体的计算方法本发明实施例则不做具体限定。

103、利用训练用户样本训练用户信息获取模型,使用训练后的用户信息获取模型获取目标用户的特征信息。

在确定训练用户样本后,利用这些训练用户样本对用户信息获取模型进行训练,以使得用户信息获取模型的结果更符合这些优质用户样本中用户特征信息的对应关系。其中,用户信息获取模型的作用是通过选定用户,分析该用户的多媒体观看信息,经过分析得出该用户对应的特征信息。

最后,将目标用户观看多媒体的行为记录输入到训练后的用户信息获取模型中就能够得到该用户对应的特征信息。

结合上述的实现方式可以看出,本发明实施例所采用的用户信息获取方法,是通过构建一个可以定期训练的用户信息获取模型对目标用户进行用户特征信息获取的。通过定期采集多媒体样本集合,并根据观看多媒体样本的用户选出具有代表性的优质用户作为最新的训练样本用于训练用户信息获取模型。相对与现有模型在完成训练后就一直使用的情况,采用本发明实施例训练后的用户信息获取模型获取用户的特征信息,其计算的标准将是基于当前热门的多媒体,以及具有代表性的优质用户,所得到的计算结果也将更加具有时效性,所得到的特征信息将更加贴合用户的实际情况,使得其计算的准确性也将更加稳定。

为了更加详细地说明本发明实施例所提出的用户信息获取方法,以下将着重说明如何定期获取用户信息获取模型的训练样本,该方法如图2所示,包括的具体步骤为:

201、根据预置规则采集多媒体样本。

需要说明的是,本步骤中采集多媒体样本的触发条件是根据预置的时间间隔所触发的。关于预置的时间间隔的内容可以参考上述图1中的步骤101中的相关内容,此处不再赘述。

本发明实施例中采集多媒体样本的规则是根据实际情况预置,例如,当所采集的多媒体样本主要是区分用户的性别时,则需要重点采集多媒体中标记有用户性别倾向标签的多媒体;当所采集的多媒体样本主要是区分用户的年龄段时,则需要根据标记有用户年龄段倾向标签的多媒体。除了需要参考必要的用户特征信息倾向标签外,采集的规则还需要考虑如下的指标参数:多媒体的观看用户数、多媒体的播放次数、多媒体上线的时间。

其中,多媒体的观看用户数可以确定观看该多媒体的用户规模,只有在多媒体的观看用户数达到一定数量时,该多媒体才有被选为多媒体样本的意义。

多媒体的播放次数可以确定该多媒体相对于其他多媒体热度,次数越多越受欢迎,也可以从另一角度来评价该多媒体的观看用户数。不过,该参数与多媒体的观看用户数的区别在于,多媒体的播放次数不区分用户,允许一个用户多次点播。

多媒体上线的时间则是用于区分多媒体的新旧程度,一般的情况下,一个多媒体的上线时间越久,其累计的观看用户数和播放次数就越大。而如果两个多媒体在观看用户数或播放次数相同的情况下,我们可以认为上线时间越短的多媒体为热播多媒体。

结合上述的参数以及相关的实际需求,就可以采集到一批的多媒体样本。

202、根据用户特征信息倾向标签筛选出多个多媒体样本,生成多媒体样本集合。

在得到多个多媒体样本后,还可以对这些多媒体样本进行更加细致的筛选,得到一个多媒体样本集合。本步骤的筛选主要参考用户特征信息倾向标签,以及多媒体根据标签的分布情况,举例说明:假设要筛选的用户特征信息为用户性别,那么多媒体中标记的标签内容就包括:男、女,而更加细化的区分,还可以在标签中加入对应的分值,以区分不同多媒体的标签倾向程度。例如,多媒体A的标签为男7,多媒体B的标签为男2,假设分值的区间为0-10,分值越大,说明多媒体的倾向性越明显,那么可见,多媒体A相对于多媒体B来说,多媒体A的观看用户更加倾向于男性,而多媒体B的观看用户可能也有少部分的女性用户,两者比较来看,多媒体A相对于多媒体B来说就是多媒体样本。上述的例子只列举了一个用户特征信息的筛选,即性别,当然本发明实施例中并不限定于一个用户特征信息,当考虑多个用户特征信息时,就需要综合考虑所有的用户特征信息,在实际应用中,可以采用加权值的方式,根据不同用户特征信息的重要程度来综合评价多媒体的优质程度。

此外,在筛选多媒体样本时,还可以引入该多媒体在其他平台的指数分值。因为,一个多媒体资源往往会在多个不同的多媒体平台中播放,而不同的平台都会有不同的观看用户群体,因此,其他多媒体平台中的多媒体指数也具有一定的参考价值。

最终所得到的多媒体样本集合中的多媒体样本应具有明确的用户特征信息倾向,并且针对不同的用户特征信息分布均匀的特点。其中,分布均匀是指所采集的多媒体样本针对于一个用户特征信息具有相对匀称的数量分布,例如,采集了100个多媒体样本,当用户特征信息为性别时,最佳的分布就是有50个样本为男性,50个样本为女性。

203、获取多媒体样本集合中每一个多媒体样本的观看用户,得到观看用户集合。

由于多媒体样本集合中的每一个多媒体样本都具有大量的观看用户,因此,统计每一个多媒体样本的所有观看用户,并集合所有多媒体样本的观看用户就得到了观看用户集合。由于同一个用户可能观看有多媒体样本集合中的多个多媒体,因此,在统计时,还需要进行去重处理,或者在该用户中标记出所看多媒体样本的数量。其中,观看用户集合中的每一个用户至少观看过该多媒体样本集合中的一个多媒体样本。

204、根据观看用户集合中每一个用户的多媒体观看记录,统计每一个用户观看多媒体样本集合中的多媒体数量。

得到观看用户集合后,就可以进一步针对该集合中的每一个用户,获取该用户的所有多媒体观看记录,该观看记录并不限定于历史观看记录或者是在预置时间间隔内的观看记录。

根据每一个用户的所有多媒体观看记录,再统计该用户观看了该多媒体样本集合中的多媒体数量,即统计多媒体观看记录与多媒体样本集合的交集。

205、根据多媒体数量确定训练用户样本。

由于每个多媒体样本中至少标记有一个用户特征信息倾向标签,因此,观看用户集合中的每个用户可以针对所观看的多媒体样本标记至少一个用户特征信息倾向标签。用户看的多媒体样本数量越多,其标注的用户特征信息倾向标签也就越多,其中,可能会有相同特征但不同倾向程度的标签,或者是同特征且相同倾向程度的标签。这里对所获取的用户观看多媒体样本的用户特征信息倾向标签可以不做去重处理,保留所有的标签内容。

当用户特征信息的类别唯一时,观看用户集合中不同用户间的区别在于标签的个数以及标签中记载的不同程度值。此时,在计算用户的用户特征信息倾向得分时,可以根据实际情况分别对标签的数量和程度值设置权重,例如,当数量比较重要时,可将数量的权重设置为0.8,而将程度值的权重设置为0.2,再根据权重值综合计算用户特征信息倾向得分。

当用户特征信息的类别有多个时,也就是说,标签所标注的特征信息为多个时,观看用户集合中不同用户间的区别除了标签的程度值不同外,其标签所代表的特征信息也不同。此时,在计算用户的用户特征信息倾向得分时,就需要在根据不同标签之间的重要程度再进行权重的配置,进而综合计算用户的特征信息倾向得分。

在计算出观看用户集合中各个用户的特征信息倾向得分后,根据得分高低的排序,在从观看用户集合中筛选出一批训练用户样本,这些训练用户样本都是观看过上述多媒体样本,并且所看过的多媒体样本还标记有明显特征信息倾向的标签。最后,将得到的这些训练用户样本作为用户信息获取模型的训练样本,进而使用训练后的用户信息获取模型获取目标用户的特征信息。

进一步的,作为对上述方法的实现,本发明实施例提供了一种用户信息获取装置,如图3所示,该装置包括:

采集单元31,用于采集多媒体样本集合,其中,所述多媒体样本集合包括具有区分用户特征信息的多媒体样本,而用户的特征信息是指能够区分不同用户的属性信息;

选择单元32,用于统计所述采集单元31得到的多媒体样本集合的观看用户,筛选出训练用户样本,所述训练用户样本为具有明确用户特征信息的用户样本;

获取单元33,用于利用所述选择单元32选择的训练用户样本训练用户信息获取模型,使用训练后的用户信息获取模型获取目标用户的特征信息。

进一步的,如图4所示,所述采集单元31包括:

采集模块311,用于根据预置规则采集多媒体样本,其中,所述多媒体样本标注有用户特征信息倾向标签;

生成模块312,用于根据所述用户特征信息倾向标签在所述采集模块311采集的多媒体样本中筛选出多个多媒体样本,生成多媒体样本集合。

进一步的,如图4所示,所述采集单元31还包括:

定时模块313,用于根据预置的时间间隔定期采集多媒体样本集合。

进一步的,如图4所示,所述选择单元32包括:

获取模块321,用于获取所述多媒体样本集合中每一个多媒体样本的观看用户,得到观看用户集合;

统计模块322,用于根据所述获取模块321获取的观看用户集合中每一个用户的多媒体观看记录,统计每一个用户观看所述多媒体样本集合中的多媒体数量;

确定模块323,用于根据所述统计模块322统计的多媒体数量确定所述训练用户样本。

进一步的,如图4所示,所述确定模块323包括:

获取子模块3231,用于获取用户观看的所述多媒体样本的用户特征信息倾向标签;

计算子模块3232,用于根据所述获取子模块3231获取的不同用户特征信息倾向标签的权重,计算每一个用户的用户特征信息倾向得分,所述权重用于表示用户特征信息倾向标签的倾向程度;

确定子模块3233,用于根据所述计算子模块3232计算的用户特征信息倾向得分的排序确定所述训练用户样本。

综上所述,本发明实施例所采用的一种用户信息获取方法及装置,是通过构建一个可以定期训练的用户信息获取模型对目标用户进行用户特征信息获取的。与现有的预测模型相比,本发明实施例中的用户信息获取模型能够通过定期的训练来保证模型预测用户信息的高准确性,同时,本发明实施例还提出了对高质量的训练样本的筛选方式,是通过定期采集多媒体样本集合,并根据观看多媒体样本的用户选出具有代表性的优质用户作为最新的训练样本用于训练用户信息获取模型。相比于现有模型在完成训练后就一直使用的情况,采用本发明实施例进行训练后的用户信息获取模型获取用户的特征信息,其计算的标准将是基于当前热门的多媒体,以及具有代表性的优质用户,所得到的计算结果也将更加具有时效性,所得到的特征信息将更加贴合用户的实际情况,使得其计算的准确性也将更加稳定。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1