用户特征提取方法及装置与流程

文档序号:11155257阅读:1718来源:国知局
用户特征提取方法及装置与制造工艺

本发明涉及信息技术领域,尤其涉及一种用户特征提取方法及装置。



背景技术:

随着信息技术的发展,阅读应用服务的智能化越来越高。例如,可以通过用户特征的提取,仅向用户推荐其感兴趣的信息和/或避免向用户推荐其不感兴趣的信息,从而满足用户的个性需求,避免用户在海量的信息中查找自己感兴趣的信息,更好的利用了电子设备的软硬件资源,优化了用户阅读。要实现用户的个性推荐,则用户特征提取的精确性就非常重要了。现有技术中提供了很多种提取用户特征的方法,但是使用这些方式提取的用户特征进行信息推荐时,发现还不能满足预期的精确度。故如何提升用户特征提取的精确度是现有技术中进一步亟待解决的技术问题。



技术实现要素:

有鉴于此,本发明实施例期望提供的一种用户特征提取方法及装置,至少部分用于解决用户特征提取不够精确的问题。

为达到上述目的,本发明的技术方案是这样实现的:

本发明实施例第一方面提供一种用户特征提取方法,包括:

获取用户操作行为数据;

解析所述操作行为数据,生成用户特征;

根据所述用户操作行为数据所在的操作时间窗,确定所述用户特征的生效时间窗;

其中,所述用户特征用于控制所述生效时间窗内的第一类信息的推荐概率。

基于上述方案,所述解析所述操作行为数据,生成用户特征,包括:

基于所述第一操作时间窗内的所述操作行为数据生成短期用户特征,并基于第二操作时间窗内的所述操作行为数据,生成长期用户特征;其中,第二操作时间窗的时长大于所述第一操作时间窗的时长;

所述根据所述用户操作行为数据所在的操作时间窗,确定所述用户特征的生效时间窗,包括:

根据所述操作时间窗的时长,生成所述短期用户特征的第一生效时间窗和所述长期用户特征的第二生效时间窗;其中,所述第二生效时间窗的时长大于所述第一生效时间窗的时长。

基于上述方案,所述基于第二操作时间窗内的所述操作行为数据,生成长期用户特征,包括:

解析所述操作行为数据,获取潜在长期特征集合中潜在长期特征的出现频次;

确定潜在长期特征集合中包括的第一潜在长期特征对应的反向特征,是否是正式用户特征集合中的正式用户特征;

若所述第一潜在长期特征不是所述正式用户特征,则确定所述第一潜在特征为所述长期用户特征。

基于上述方案,所述基于第二操作时间窗内的所述操作行为数据,生成长期用户特征,还包括:

若所述第一潜在长期特征为所述正式用户特征集合中的第一类正式用户特征,则将所述第一潜在长期特征从所述潜在长期特征集合中删除;所述第一类正式用户特征为评分值的排序在预定范围内的正式用户特征;其中,所述评分值所述评分值,用于控制与所述正式用户特征对应的信息的推荐概率。

基于上述方案,所述基于第二操作时间窗内的所述操作行为数据,生成长期用户特征,还包括:

若所述第一潜在长期特征为所述正式用户特征集合中的第二类正式用户特征,则调整所述第一潜在长期特征对应的正式用户特征的评分值;所述第二类正式用户特征为所述评分值在所述预定范围之外的特征。

基于上述方案,所述基于第二操作时间窗内的所述操作行为数据,生成长期用户特征,还包括:

统计所述短期用户特征在所述第二操作时间窗内的出现频次;

当所述出现频次大于预定阈值时,将所述短期用户特征转化为所述长期用户特征。

基于上述方案,所述基于所述第一操作时间窗内的所述操作行为数据生成短期用户特征,并基于第二操作时间窗内的所述操作行为数据,生成长期用户特征,还包括:

解析所述第一操作时间窗内的负向操作行为数据,生成短期负向特征;解析所述第二操作时间窗内的负向操作行为数据,生成长期负向特征;

其中,所述负向操作行为数据表征的负向操作行为是减少信息显示的操作。

基于上述方案,所述负向操作行为包括:删除操作和/或第一类关闭操作;所述第一类关闭操作包括信息链接的关闭操作,和/或,详细页面显示时间小于第一预定时长的关闭操作;所述信息链接是:进入所述信息链接对应的详细信息显示的详细页面的链接。

本发明实施例第二方面提供一种用户特征提取装置,包括:

获取单元,用于获取用户操作行为数据;

解析单元,用于解析所述操作行为数据,生成用户特征;

确定单元,用于根据所述用户操作行为数据所在的操作时间窗,确定所述用户特征的生效时间窗;

其中,所述用户特征用于控制所述生效时间窗内的第一类信息的推荐概率。

基于上述方案,所述解析单元,用于基于所述第一操作时间窗内的所述操作行为数据生成短期用户特征,并基于第二操作时间窗内的所述操作行为数据,生成长期用户特征;其中,第二操作时间窗的时长大于所述第一操作时间窗的时长;

所述确定单元,具体用于根据所述操作时间窗的时长,生成所述短期用户特征的第一生效时间窗和所述长期用户特征的第二生效时间窗;其中,所述第二生效时间窗的时长大于所述第一生效时间窗的时长。

基于上述方案,所述解析单元,具体用于解析所述操作行为数据,获取潜在长期特征集合中潜在长期特征的出现频次;确定潜在长期特征集合中包括的第一潜在长期特征对应的反向特征,是否是正式用户特征集合中的正式用户特征;若所述第一潜在长期特征的反向特征不是所述正式用户特征,则根据所述出现频次,确定所述第一潜在特征为所述长期用户特征。

基于上述方案,所述解析单元,还具体用于若所述第一潜在长期特征的反向特征为所述正式用户特征集合中的第一类正式用户特征,则将所述第一潜在长期特征从所述潜在长期特征集合中删除;所述第一类正式用户特征为评分值的排序在预定范围内的正式用户特征;其中,所述评分值所述评分值,用于控制与所述正式用户特征对应的信息的推荐概率。

基于上述方案,所述解析单元,还具体用于若所述第一潜在长期特征为所述正式用户特征集合中的第二类正式用户特征,则调整所述第一潜在长期特征的反向特征的评分值;所述第二类正式用户特征为所述评分值在所述预定范围之外的特征。

基于上述方案,所述解析单元,具体用于统计所述短期用户特征在所述第二操作时间窗内的出现频次;当所述出现频次大于预定阈值时,将所述短期用户特征转化为所述长期用户特征。

基于上述方案,所述解析单元,还用于解析所述第一操作时间窗内的负向操作行为数据,生成短期负向特征;解析所述第二操作时间窗内的负向操作行为数据,生成长期负向特征;其中,所述负向操作行为数据表征的负向操作行为是减少信息显示的操作。

基于上述方案,所述负向操作行为包括:删除操作和/或第一类关闭操作;所述第一类关闭操作包括信息链接的关闭操作,和/或,详细页面显示时间小于第一预定时长的关闭操作;所述信息链接是:进入所述信息链接对应的详细信息显示的详细页面的链接。

本发明实施例提供的一种用户特征提取方法及装置,会获取用户行为数据,并根据用户行为数据对应的操作时间窗,确定生效时间窗。显然,这样相对于现有技术,避免了一旦用户特征生成,就作为永久用户特征使用的现象。因为用户的喜好会发生变化,且在用户特征的提取过程中很难做到百分百准确。若一旦提取了一个特征就作为永久特征,随着时间的推移或若特征提取出现偏差的时候,会长期导致用户特征的不精确,若依据这种不精确的用户特征持续用户信息推送等处理,不仅可以实现用户个性化信息推送,反而招致用户反感且导致用户感兴趣的数据的无法有效传播。而本实施例中通过根据操作时间窗为用户特征设置生效时间窗,可以很好的解决上述问题,提升了用户特征的精确度。

附图说明

图1为本发明实施例提供的第一种用户特征提取方法的流程示意图;

图2为本发明实施例提供的一种信息链接的显示示意图;

图3为本发明实施例提供的一种信息的详细页面的显示示意图;

图4为本发明实施例提供的另一种信息的详细页面的显示示意图;

图5为本发明实施例提取短期用户特征的流程示意图;

图6为本发明实施例提供的用户特征提取装置的结构示意图;

图7为本发明实施例提供的一种信息架构的结构示意图;

图8为本发明实施例提供的又一种用户特征提取方法的流程示意图;

图9为本发明实施例提供的又一种用户特征提取装置的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

如图1所示,本实施例提供一种用户特征提取方法,包括:

步骤S110:获取用户操作行为数据;

步骤S120:解析所述操作行为数据,生成用户特征;

步骤S130:根据所述用户操作行为数据所在的操作时间窗,确定所述用户特征的生效时间窗;

其中,所述用户特征用于控制所述生效时间窗内的第一类信息的推荐概率。

本实施例所述的用户特征提取方法,可为应用于具有数据处理的各种服务器等电子设备中。

所述步骤S110获取用户行为数据,可包括从业务支撑系统(Business and Operation Support System,Boss)系统获取所述用户行为数据,或接收客户端上报的所述用户行为数据。

所述用户行为数据可包括操作客户端显示的各种信息的各种操作而产生的数据。例如,点击数据、阅读行为数据、关闭行为数据、删除行为数据、添加黑名单行为数据、订阅行为数据等各种用户操作行为的用户行为数据。

按照预定时间间隔获取所述用户操作行为数据;其中,所述第一预定时间至少包括两个所述预定时间间隔。

所述步骤S110可包括:按照预定时间间隔获取的用户操作行为数据,这里的预定时间间隔可为均等预定时间间隔,即按照周期性获取用户操作行为数据,也可以非均等预定时间间隔,即并非周期性获取用户操作行为数据。总之在本实施例中,按照预定时间间隔获取用户操作行为数据,并根据多个预定时间间隔的用户操作行为数据,实现短期用户特征向长期用户特征的转化,以实现用户特征的精确化。

所述步骤S120可包括:解析在所述操作时间窗内是否有执行预定操作,预定操作执行次数或频次等信息。

在本实施例中所述方法还包括步骤S130,这里的步骤S130会根据操作时间窗生成对应用户特征的失效时间窗。通常情况下,生效时间窗的时长与所述操作时间窗的时长正比。因为操作时间窗越长,则对应的用户操作行为数据就越多,更能体现用户的稳定喜好,且体现的精确度越高,故在本实施例中生成的所述生效时间窗的时长与所述操作时间窗的时长。

在本实施例中所述用户特征一旦提取之后,还引入了生效时间窗的概念,一旦所述生效时间窗生效之后,所述用户特征就失效了。例如,在数据库中情清空了对应的用户特征,这样的话,若用户的喜好等用户属性发生了变化,这种用户特征的失效,就能够避免用户特征一致生效导致的不精确的问题,提升了用户特征提取的精确度。

例如,所述步骤S120可包括:

基于所述第一操作时间窗内的所述操作行为数据生成短期用户特征,并基于第二操作时间窗内的所述操作行为数据,生成长期用户特征;其中,第二操作时间窗的时长大于所述第一操作时间窗的时长;

所述步骤S130可包括:

根据所述操作时间窗的时长,生成所述短期用户特征的第一生效时间窗和所述长期用户特征的第二生效时间窗;其中,所述第二生效时间窗的时长大于所述第一生效时间窗的时长。

在本实施例中所述用户特征至少包括两种类型,一种短期用户特征,一种长期用户特征。由于用户的心情也会发生变化,例如,某一个时间内对一些信息感兴趣,但是该时间段过后,用户的兴趣又变回去了。但是该中用户特征对应的用户操作行为数据,在第二操作时间窗内是不会被视为长期用户特征提取的。为了兼顾用户的长期喜好和短期喜好,在本实施例中将会至少生成两种用户特征,分别是短期用户特征和长期用户特征,短期用户特征的生效时间更短。一旦用户特征失效,根据该用户特征确定的信息推荐概率需要重新确认。

所述短期用户特征可用于表征用户目前喜好的用户特征。这里的短期用户行为特征作用的生效时间窗口为所述第一生效时间窗口。所述第一生效时间窗口可为24小时、预定天数、一周或一个月等。

所述长期用户特征可为第二生效时间窗的时长大于所述第一生效时间窗。

总之,本实施例提供了一种同时能够兼顾用户短期喜好和长期喜好的用户特征提取方法,再次提升了用户特征的精确性。

在具体的实施过程中,所述步骤S120可包括:利用第一解析方式提取短期用户特征,利用第二解析方式提取长期用户特征;所述第一解析方式不同于第二解析方式。在本实施例中第一解析方式和第二解析方式可以根据短期用户特征和长期用户特征的特点进行设置。例如,由于短期用户特征的生效时长短,为了降低数据处理复杂度,降低数据处理量,可以使得所述第一解析方式的复杂度低于所述第二解析方式的复杂度,复杂度可体现出数据解析的操作步骤数量、引入的不同维度或不同类型的数据处理对象和/或单个步骤的计算量等。这样就可以很好的满足不同生效时长的用户特征的个性需求,例如,很好的平衡计算量和用户特征的精确性需求。

以下分别介绍短期用户特征和长期用户特征的提取方式:

短期用户特征的生成:

所述步骤S120可包括:

解析所述第一操作时间窗内的用户行为数据,确定各操作行为的出现频次;

根据所述出现频次确定所述短期用户特征。

例如,利用聚类方法对所述用户行为数据进行聚类处理。若该出现频次大于特定阈值,可生成所述短期用户特征,选择出现频次最高的一个或多个所述操作行为生成所述短期用户特征。所述短期用户特征的提取方式有多种,不局限于上述任意一种。

长期用户特征提取:

所述步骤S120可包括:

解析所述操作行为数据,确定潜在长期特征集合中潜在长期特征对应的操作行为的出现频次;

确定潜在长期特征集合中包括的第一潜在长期特征对应的反向特征,是否是正式用户特征集合中的正式用户特征;

若所述第一潜在长期特征的反向特征不是所述正式用户特征,则根据所述出现频次,确定所述第一潜在特征为所述长期用户特征。

这里的正式用户特征集合中为历史时刻确定的用户特征。第一潜在长期特征的反向特征为表征用户喜好与第一潜在长期特征相反的特征。例如,所述潜在长期特征为指示用户不喜欢A类信息,该潜在长期特征的反向特征为用户喜欢A类信息,若用户喜欢A类信息的特征不存在于当前的正式用户特征集合中,显然就是在第二操作时间窗内,提炼出的表征用户不喜欢A类信息的长期用户特征。这里的所述用户喜欢A类信息的特征和用户不喜欢A类信息的特征,互为反向特征。

若一个潜在长期特征不在所述正式用户特征,则根据出现频次确定过是否正式的长期用户特征。例如,所述正式的长期用户特征的确定可包括:通过解析所述操作行为数据,获得某一个操作行为的出现频次,当所述出现频次满足预设条件,则可认为是潜在长期特征。例如,所述出现频次大于阈值或所述出现频次排序靠前都可视为满足所述预设条件,则可确认是正式的长期用户特征。

进一步地,所述步骤S120还包括:

若所述第一潜在长期特征为所述正式用户特征集合中的第一类正式用户特征,则将所述第一潜在长期特征从所述潜在长期特征集合中删除;所述第一类正式用户特征为评分值的排序在预定范围内的正式用户特征;其中,所述评分值所述评分值,用于控制与所述正式用户特征对应的信息的推荐概率。

所述正式用户特征可至少分为两类。所述第一类正式用户特征为评分值在预设范围内的特征。在本实施例中所述评分值的高低是与提取生成对应用户特征的操作行为的出现频次正相关的。例如,若评分值越高,推荐概率越高,则若一个预定操作行为出现的频次越高,则对应的用户特征的评分值就越高。当然,在具体实现时也可以是,评分值越低,推荐概率越低,则若一个预定操作行为出现的频次越高,则对应的用户特征的评分值就越低。在本实施例中所述第一类用户特征为其对应的推荐概率大于阈值或推荐概率排序在前的用户特征,此时的推荐概率为从高到低排序。

若一个潜在长期特征的反向特征为所述第一类正式特征,则可能当前生成所述潜在长期特征的操作行为是用户的误操作,故为了剔除这种误操作的用户特征的提取,在本实施例中会将该潜在长期特征从对应的集合中删除,以提高用户特征的正确性。

在另一些实施例中,所述步骤S120,还包括:

若所述第一潜在长期特征的反向特征为所述正式用户特征集合中的第二类正式用户特征,则调整所述第一潜在长期特征的反向特征的评分值;所述第二类正式用户特征为所述评分值在所述预定范围之外的特征。

所述第二类正式用户特征为第一类正式用户特征以外的用户特征。在本实施例中为了调整对应的推荐概率,在本实施例中会调整对应的反向特征的评分值,从而实现推荐概率的调整。

例如,在本实施例中所述第二类正式用户特征为所述第一类正式用户特征之外的特征,即表示用户喜欢某一类信息或执行某一操作的程度比较低。故,在本实施例中所述第一潜在长期特征对应的第一正式特征为第二类正向特征,会调整所述评分值,以降低与所述第一正向特征对应的信息的推荐概率。例如,若所述评分值越高,表明用户喜欢的程度越高;则所述第二类正向特征的评分值相对于所述第一类正向特征的评分值是相对较低的,则本实施例中调整所述评分值为降低所述评分值。在本实施例中所述评分值为向用户推荐某一个类信息的推荐概率。故在本实施例中将评分值的调整,以降低所述推荐概率;此外在长期用户特征确定的过程中,通过所述评分值的调整,实现了对正式用户特征的评分中的调整,从而实现了推荐概率的再次校正。

所述步骤S120,还包括:统计所述短期用户特征在所述第二操作时间窗内的出现频次;当所述出现频次大于预定阈值时,将所述短期用户特征转化为所述长期用户特征。例如,所述第二操作时间是所述第一操作时间窗的整数倍,若一个短期用户特征在所述第二操作时间窗内频繁出现,可能表针该短期用户特征是用户的稳定特征,可以转化为所述长期用户特征。在本实施例中利用短期用户特征的处理结果,来确定长期用户特征,可以降低长期用户特征的提取复杂度,节省计算量。

在本实施例中会继续统计所述短期用户特征在第二操作时间内的出现频次,最后根据出现频次确定是否将该短期用户特征转化为长期用户特征。例如,以24小时为一个统计周期,确定所述短期用户特征。例如,短期用户特征A表征用户不喜欢A类信息。所述第一预定时间可为3天,若在3天内,所述短期用户特征A出现的频次低于所述预定阈值,则不进行所述短期用户特征A的转化,若大于所述预定阈值,则将所述短期用户特征转换为长期用户特征A。根据所述短期用户特征A,在一周内禁止A类信息的推荐,根据长期用户特征A,在一个月内禁止A类信息的推荐。这里的一周可为所述第一生效时间窗,所述一个月可为所述第二生效时间窗。在当所述短期用户特征及长期用户特征作用的生效时间窗失效后,可以再次尝试这些用户特征对应的信息的推荐,以再次进行用户特征的提取,以免用户喜好的变迁导致的用户特征的不再适用现象。

本实施例中所述用户特征可包括正向用户特征和负向用户特征。所述正向用户特征为表示用户喜好某一个类信息的特征;所述负向用户特征表示用户不喜欢或厌恶某一类信息的特征。

所述步骤S120可包括:

解析所述第一操作时间窗内的负向操作行为数据,生成短期负向特征;解析所述第二操作时间窗内的负向操作行为数据,生成长期负向特征;其中,所述负向操作行为数据表征的负向操作行为是减少信息显示的操作。

这里的长期负向特征和短期负向特征均为前述负向用户特征的一种,区别在于生效时间窗的不同。

所述负向操作可包括:删除操作和/或第一类关闭操作;所述第一类关闭操作包括信息链接的关闭操作,和/或,详细页面显示时间小于第一预定时长的关闭操作;所述信息链接是:进入所述信息链接对应的详细信息显示的详细页面的链接。

例如,在社交应用的信息显示平台,显示某一个信息;用户执行了该信息的屏蔽操作,该信息显示的关闭操作,删除该信息等,来减少信息显示的负向操作为。总之,这种反向操作为用户通过主动操作去减少某一个信息的显示。

如图2所示,在第一信息显示页面显示有进入到详细页面的信息链接,用户直接删除了所述信息链接或关闭该信息链接。这里的信息链接可为以某一个信息的标题或摘要形成的进入到详细页面的信息链接。所述信息链接可分为文字链接和图片链接,当然在具体的实现过程中还包括综合了文字和图片的图文链接。在图2中,所述文字链接包括文字链接a、文字链接b以及文字链接c。所述图片链接包括图片链接a、图片链接b以及图片链接c。图3可认为是一个详细页面,显然图3所示的详细页面为某一个条消息的正文或主要内容的显示页面,而并标题和/或摘要等信息链接中信息的显示页面。

再比如,用户虽然点开了一个信息链接,然后进入到某一个详细页面,在该详细页面内显示了某一个信息,但是用户进入该页面之后,很快就关闭了该详细页面,显然用户对详细页面内的显示内容是不感兴趣的。这种快速关闭的操作同样是前述的反向操作的一种。例如,公众号A,在信息推送的过程中,用户屏蔽了该公众号A,那么其他与公众号A同类信息的公众号,推送给该用户的概率就可以降低了。这里的屏蔽公众号A的操作,即为前述反向操作的一种。

如图4所示,进入详细页面之后,在详细页面上显示关闭控件和计时信息的显示。在图4中所述关闭控件和计时信息都显示在详细页面的右上角。若在1秒种内就直接叉掉了该详细页面或退出了该详细页面进入了如图2所示的主页面。总之,这里叉掉了该详细页面或退出了详细页面的都是为前述关闭该信息页面的操作。

在一些实施例中,信息类推送应用向用户的客户端在一周内推送了N次B类信息。在该推送周内的第一天推送了n1条B类消息,用户在没有进入详细页的情况下,直接关闭了m1次,这里的m1小于所述n1的正整数。通过步骤S110和步骤S120根据该B类消息的关闭操作,生成了用户不喜欢B类消息的短期负向特征。在第二天至第五天减少了B类信息的推送频次,但是还是有推送。通过第二条到第五天内,用户还是关掉了B类消息,且关闭的频次比较高或越来越高,则此时,这一周以后可以将用户不喜欢B类消息的短期负向特征转换长期负向特征。在本实施例中所述信息类推送应用可包括阅读类应用或具有信息推送的社交应用。所述阅读类应用可包括各种新闻推送应用、评论推送应用等应用,所述社交应用可如微信或QQ等各种具有社交功能的应用。

总之,在本实施例中在进行用户操作行为数据,生成短期负向特征和长期负向特征。且短期负向特征和长期负向特征,失效时间窗的时间长度是不一致,这样避免反向特征一旦确定就作为永久特征导致的反向特征的精确度不够的问题。此外,反向特征,分为了短期负向特征以及长期负向特征,一方面通过特征提取,预先当前利用反向特征进行后续信息推送的处理,另一方面在反向特征的应用过程中,长期负向特征是基于短期负向特征确定的,这样的话,相当于延长了长期负向特征的确定操作、确定流程及确定依据,这样确保了长期负向特征的参考参数的维度,提升了长期负向特征的确定精确度。

在一些实施例中,如图5所示,所述步骤S120可包括:

步骤S121:解析所述用户操作行为数据,确定所述用户操作行为对应的信息对象;

步骤S122:提取所述信息对象的信息特征,生成信息标签;

步骤S123:解析所述用户操作行为数据,获取所述用户操作行为的行为类型及行为参数;

步骤S124:基于所述行为类型及所述行为参数,生成表征用户对所述信息标签对应的信息是否感兴趣的用户特征。

在本实施例中所述用户操作行为数据可包括操作对象、行为类型等其他行为参数。这里的操作对象可包括所述信息对象。所述行为类型可分为反向操作以及正向操作。所述反向操作可为减少信息显示的操作;所述正向操作为用户主动阅读某一个类信息或增加某一个类信息的操作。这里的阅读例如在详细页面停留的时间超过时间阈值。所述增加某一个类信息的操作,可包括转发该类信息或向朋友的该信息的操作,或收藏该类信息的操作。所述行为参数可包括阅读某一个信息的时长、对该信息的具体操作,例如,选中了其中某一个文字,或将某一个信息复制的操作等。

如图6所示,本实施例提供了一种用户特征提取装置,包括:

获取单元110,用于获取用户操作行为数据;

解析单元120,用于解析所述操作行为数据,生成用户特征;

确定单元130,用于根据所述用户操作行为数据所在的操作时间窗,确定所述用户特征的生效时间窗;

其中,所述用户特征用于控制所述生效时间窗内的第一类信息的推荐概率。

本实施例提供的用户特征提取装置,可应用于各种能够进行用户特征提取的电子设备或服务器中。

所述获取单元110、解析单元120及确定单元130可对应于处理器或处理电路。所述处理器可包括中央处理器CPU、微处理器MCU、数字信号处理器DSP、应用处理器AP或可编程阵列PLC等。所述处理电路可包括专用集成电路ASIC。所述处理器或处理电路可通过可执行代码的执行实现上述功能单元的操作。

在本实施例中在提取用户特征的同时,还会确定生效时间窗,这样生成的用户特征一旦超过所述生效时间窗,则就认为失效。如此,首先避免了一旦一个用户特征提取之后直接作为永久用户特征导致的用户特征不精确的问题,与此同时通过将短期用户特征转化为长期用户特征的处理,可以减少在某些情况下因用户操作,直接形成了一个永久用户特征导致的用户特征提取的不精确问题。

在一些实施例中,所述解析单元120,具体用于根据所述操作时间窗的时长,生成所述短期用户特征的第一生效时间窗和所述长期用户特征的第二生效时间窗;其中,所述第二生效时间窗的时长大于所述第一生效时间窗的时长。

本实施例中所述解析单元120,通过长期用户特征和短期用户特征的提取,可以兼顾用户的短期兴趣和长期用户兴趣,从而使得提取的用户特征尽可能指示出用户的兴趣,提升用户特征的精确性。

在一些实施例中,所述解析单元120,还具体用于若所述第一潜在长期特征的反向特征为所述正式用户特征集合中的第一类正式用户特征,则将所述第一潜在长期特征从所述潜在长期特征集合中删除;所述第一类正式用户特征为评分值的排序在预定范围内的正式用户特征;其中,所述评分值所述评分值,用于控制与所述正式用户特征对应的信息的推荐概率。

通过与正式用户特征的交集处理,可以减少误操作形成的用户特征,再次提升了用户特征提取的精确度。

在一些实施例中,所述解析单元120,还具体用于若所述第一潜在长期特征为所述正式用户特征集合中的第二类正式用户特征,则调整所述第一潜在长期特征的反向特征的评分值;所述第二类正式用户特征为所述评分值在所述预定范围之外的特征。

通过评分值的调整,这样在用户出现某一个正式用户特征的反向兴趣的过程中,通过评分值的调整,实现推荐概率的动态调整,以尽可能的满足用户当前的需求或兴趣。

在一些实施例中,所述解析单元120,具体用于统计所述短期用户特征在所述第二操作时间窗内的出现频次;当所述出现频次大于预定阈值时,将所述短期用户特征转化为所述长期用户特征。

在本实施例中利用短期用户特征和长期用户特征进行转换,以减少数据处理量,降低数据处理复杂度。

在一些实施例中,所述解析单元120,还用于解析所述第一操作时间窗内的负向操作行为数据,生成短期负向特征;解析所述第二操作时间窗内的负向操作行为数据,生成长期负向特征;其中,所述负向操作行为数据表征的负向操作行为是减少信息显示的操作。

例如,所述负向操作行为包括:删除操作和/或第一类关闭操作;所述第一类关闭操作包括信息链接的关闭操作,和/或,详细页面显示时间小于第一预定时长的关闭操作;所述信息链接是:进入所述信息链接对应的详细信息显示的详细页面的链接。

这里的负向操作行为数据和负向操作行为可以参见前述的实施例,在此就不重复了。

以下结合上述实施例提供几个具体示例:

示例一:

本示例根据用户输入的不喜欢行为进行划分,主要分为短期行为和长期行为,并针对两种类型的行为采取不同的策略对待,得到短期用户特征和长期用户特征。所述短期行为表达,一定时间窗内对行为上的全部特征进行打压,超过该时间窗则尝试再次露出,观察用户的持续表达结果,得到所述短期用户特征。而长期行为,通过累积某个特征的历史不喜欢出现次数和对比用户的正向行为的画像特征,综合判断得到用户对某个标签/分类的厌恶程度,得到长期用户特征。本示例,一方面尊重了用户的主动行为表达,同时兼顾了用户的历史行为和正向画像特征,最大程度降低了前述针对单一用户行为进行过滤方案中造成的误判。这里的正向画像特征即为前述正向特征的集合。

示例二:

如图7所示,本示例提供了一种信息系统架构,包括:

业务运营支撑(Business and Operation Support System,BOSS)上报系统、数据库(Data Base,DB)、不喜欢数据索引系统、文章/视频映射系统、文章标签系统、视频标签系统以及用户画像系统。

BOSS上报系统,进行实时订阅解析处理,将解析得到的用户操作行为数据发送给数据库和不喜欢数据索引系统,不喜欢数据索引系统的索引处理,从而进行短期不喜欢特征提取和长期不喜欢特征提取,得到不喜欢特征。这里的不喜欢特征可用于用户画像和/或不喜欢特征的存储。

所述文章/视频映射系统,主要用于从文章索引中提取出视频索引。

所述文章标签系统可主要用于提取图文文章标签。这里的文章标签相当于信息标签。所述信息标签为信息特征,用于描述某一个信息的信息类型或信息内容等。视频标签系统用于视频文章的标签的提供。用户画像系统主要存储有当前时刻以前的原始用户画像特征。这里的原始画像特征为用户特征集合。

不喜欢特征提取策略:

数据来源:用户操作行为数据来自Boss上报系统从Boss系统的提取和上报,通过实时订阅获得用户的流水数据,解析后的数据存入不喜欢数据索引系统,同时备份写入数据库DB。这里的流水数据为日程进行操作的产生的各种流水记录的数据。

触发计算时机:

每收到一条用户的新增不喜欢行为,则触发计算用户的不喜欢画像特征,从而使得用户的表达得到快速反馈。

定期获取DB中一段时间内有不喜欢行为的用户列表,触发计算其对应的不喜欢画像特征,从而使得用户的短期不喜欢特征得到释放,同时解决历史特征计算中用户基础画像特征变化带来的改变;

输出结果:包括两部分,一部分是明确判定为不喜欢的标签/分类特征,该类特征在后续的推荐中将进行严格打击过滤;一部分是判定为可能不喜欢的标签/分类,需要对原始用户画像进行降权的特征,该类特征在后续的推荐中将降低出现概率;

如图8所示,用户特征提取可包括:

步骤1:获取用户不喜欢文章索引,可具体包括,获取用户的索引全部文章列表,从所述全部文正列表中查找到通过用户操作明确表示了用户不喜欢的文章的索引。这里的文章可包括各种形式的消息,例如,图文消息和视频消息。所述图文消息为包括仅包括文字的纯文本消息,还可仅包括图片的纯图片消息,还可包括同时包括文字和图片的图文混合消息。所述视频消息可为包括视频的消息。

步骤2:通过文章到视频标识(Identity,ID)的映射,将原始数据分成图文类文章和视频类文章。这里的图文类文章即为前述的图文消息,所述视频类文章即为所述视频消息。

步骤3:分别获取图文文章的标签/分类信息和视频文章的标签/分类信息;

步骤4:判断不喜欢操作的发生时间,这里按照不喜欢操作时间以最近24小时为界,分成短期用户特征提取和长期用户特征提取两个过程。这里的不喜欢操作即为前述的反向操作的一种。

步骤5:短期用户特征提取:

聚合标签/分类,例如,可包括:图文类文章和视频文章的标签/分类,全部判定为用户明确不喜欢的特征。

步骤6:长期用户特征提取:

步骤6.1:聚合标签/分类,统计次数;可包括:针对图文类文章和视频类文章的标签/分类进行聚合,获得各标签/分类出现的次数。

步骤6.2:获取用户原始画像(通过播放等正向隐性行为进行的特征提取),和当前不喜欢的标签/分类集合取交集,交集内的说明该分类/标签上有正向行为特征,执行步骤6.3;交集外的则执行步骤6.4。

步骤6.3:当用户原始画像上该标签/分类的分数高于前20的分数阈值时,认为是用户真实喜欢的标签/分类,忽略该不喜欢特征;反之,对于低于前20的分数阈值的标签/分类,则根据累积出现的次数对原始画像分数进行降权,降低其在推荐中出现的概率。这里的分数即为前述评分值的一种。

步骤6.4:比较该标签/分类出现次数,当出现次数大于规定的阈值(各个标签/分类可根据各自的特征规定不同的阈值)时,则判定为明确的不喜欢特征;否则,认为累积不够充分,暂时不做判断输出。

步骤7:合并短期不喜欢特征和长期不喜欢特征提取结果,输出用户明确的不喜欢特征列表和需要对原始画像进行分数降低的特征列表。这里的短期不喜欢特征即为前述的短期负向特征。所述长期不喜欢特征即为前述的长期负向特征。

基于本用户不感兴趣行为特征提取方案,会带来的有益效果包括如下:

(1)通过历史数据积累和用户短期行为向长期行为的转化分析,更加准确的分析提取用户不感兴趣的特征,为后继推荐提供更准确的用户画像依据,更大程度上避免因画像误伤造成的内容损失;

(2)当用户画像特征更加准确时,对推荐内容的整体点击率和播放完成度也会有比较好的提升。

示例三:

如图9所示,本示例提供一种用户特征提取装置的一个可选的硬件结构示意图,包括处理器11、输入/输出接口13(例如显示屏、触摸屏、扬声器),存储介质14以及网络接口12,组件可以经系统总线15连接通信。相应地,存储介质14中均存储有用于执行本发明实施例记载的服务处理方法的可执行指令。图9中示出的各硬件模块可根据需要部分实施、全部实施或实施其他的硬件模块,各类型硬件模块的数量可以为一个或多个,各硬件模块可以在同一地理位置实施,或者分布在不同的地理位置实施,可以用于执行上述图1、图5及图8所示的用户特征提取方法。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1