一种数据处理方法及系统与流程

文档序号:12176991阅读:316来源:国知局
一种数据处理方法及系统与流程

本发明涉及移动终端领域,特别涉及一种数据处理方法及系统。



背景技术:

随着手机等智能移动产品的发展,移动端应用得到了空前发展,比如微信、手机端腾讯新闻等。在这些移动端应用中,通常为了提高用户体验,会存在一定的“预拉取”处理。为了方便描述,结合图1展示了手机新闻端的一个用户界面,为使用户在向左右滑动时能够流畅地阅读不同频道的新闻,手机新闻端会在用户点击“视频”频道时,就预先将“广东”、“财经”、“娱乐”等频道的新闻加载到用户客户端中,从而产生一组对用户的曝光数据。这种预拉取处理产生的曝光数据我们称之为伪曝光数据,因为实际上用户还没有看到例子中“广东”、“财经”、“娱乐”等频道的新闻,在统计新闻的曝光和点击数据时,如果不加区分,这种伪曝光数据会造成错误的统计结果。

为了解决前面提到的问题,通常的数据统计利用离线存储和定期运算的方式,先将一段时期内的用户行为数据集中离线传输到一个分布式文件系统中,然后定期对离线数据进行统计,在这种情况下,用户的全部行为都是可见的,可以通过用户在预拉取之后的行为区分伪曝光数据和真实的曝光数据,用户实际点击的“视频”和“娱乐”频道下的新闻产生了真实的曝光,而用户未点击的“广东”、“财经”等频道下的预拉取曝光数据将被丢弃,不参与统计。

由于离线数据统计方案采用批量处理的计算方式,先将数据存储在磁盘中,然后定期进行处理,这种计算模式不能产生实时的统计数据,带来较大的时间延迟,不能满足当前的实时需求。



技术实现要素:

有鉴于此,本发明实施例提供了一种数据处理方法及系统。

本发明的一个目的是提供一种数据处理方法,包括:

获取用户操作客户端产生的第一数据,其中,所述用户具有用于标识身份的用户标识,所述第一数据包括用户标识、多个与所述用户标识对应的第二数据及多个第三数据,所述第二数据与所述第三数据一一对应;

配置所述第一数据的所述用户标识与所述第二数据及所述第三数据一一对应的关系并将所述第一数据作为缓存数据;

获取所述用户操作客户端产生的对象操作数据,所述对象操作数据包括所述用户标识、被操作的第二数据,其中,所述被操作的对象为所述多个第二数据中的一个;

根据所述用户标识在所述关系中查询得到所述用户标识对应的所述缓存数据;

根据所述被操作的第二数据查询所述缓存数据中所述被操作的第二数据对应的第三数据;

判断被操作的第二数据对应的第三数据满足预设条件时将所述被点击的第二数据对应的第三数据作为真实数据供后台使用。

进一步地、所述第一数据为原始曝光数据,所述第二数据为曝光频道,所述第三数据为曝光频道新闻ID列表,所述对象操作数据为频道点击数据,所述获取用户操作客户端产生的第一数据,其中,所述用户具有用于标识身份的用户标识,所述第一数据包括用户标识、多个与所述用户标识对应的第二数据及多个第三数据,所述第二数据与所述第三数据一一对应,包括:

获取用户操作客户端产生的原始曝光数据,其中,所述用户具有用于标识身份的用户ID,所述原始曝光数据包括用户ID、多个与所述用户ID对应的曝光频道及多个曝光频道新闻ID列表,所述曝光频道与所述曝光频道新闻ID列表一一对应;

所述配置所述第一数据的所述用户标识与所述第二数据及所述第三数据一一对应的关系并将所述第一数据作为缓存数据,包括:

将所述原始曝光数据以所述用户ID为key、以曝光频道及曝光频道新闻ID列表为value存入基于内存的KV存储系统中作为曝光缓存;

获取所述用户操作客户端产生的对象操作数据,所述对象操作数据包括所述用户标识、被操作的第二数据,其中,所述被操作的对象为所述多个第 二数据中的一个,包括:

获取所述用户操作客户端产生的频道点击数据,所述频道点击数据包括所述用户ID、被点击的曝光频道,其中,所述被点击频道为所述多个曝光频道中的一个;

根据所述用户标识在所述关系中查询得到所述用户标识对应的所述缓存数据,包括:

根据所述用户ID在所述KV存储系统中查询所述用户ID对应的所述曝光缓存;

根据所述被操作的第二数据查询所述缓存数据中所述被操作的第二数据对应的第三数据,包括:

根据所述被点击的曝光频道查询所述曝光缓存中所述被点击的曝光频道对应的曝光频道新闻ID列表;

判断被操作的第二数据对应的第三数据满足预设条件时将所述被点击的第二数据对应的第三数据作为真实数据供后台使用,包括:

判断被点击的曝光频道对应的曝光频道新闻ID列表满足预设条件时将所述被点击的曝光频道对应的曝光频道新闻ID列表作为真实曝光数据供后台使用。

进一步地、所述曝光频道新闻ID列表包括曝光时间及有效时间,

所述判断被点击的曝光频道对应的曝光频道新闻ID列表满足预设条件时将所述被点击的曝光频道对应的曝光频道新闻ID列表作为真实曝光数据供后台使用之前,还包括:

获取被点击的曝光频道的点击行为发生时间;

计算所述被点击的曝光频道新闻ID列表的曝光时间与所述点击行为发生时间之间的时间差值;

所述判断被点击的曝光频道对应的曝光频道新闻ID列表满足预设条件,包括:

所述时间差值不大于所述有效时间时则被点击的曝光频道对应的曝光频道新闻ID列表满足预设条件。

进一步地、根据所述被点击的曝光频道查询所述曝光缓存中所述被点击 的曝光频道对应的曝光频道新闻ID列表之后,还包括:

判断被点击的曝光频道对应的曝光频道新闻ID列表未满足预设条件时将所述被点击的曝光频道对应的曝光频道新闻ID列表作为伪曝光数据丢弃。

进一步地、所述根据所述用户ID在所述KV存储系统中查询所述用户ID对应的所述曝光缓存之前,还包括:

获取所述用户操作客户端产生的新闻点击数据,所述新闻点击数据包括所述用户ID、新闻所在曝光频道以及新闻ID,其中,所述新闻所在曝光频道为所述多个曝光频道中的一个;

所述根据所述用户ID在所述KV存储系统中查询所述用户ID对应的所述曝光缓存之后,还包括:

根据所述新闻所在曝光频道查询所述曝光缓存中所述新闻所在曝光频道对应的曝光频道新闻ID列表;

根据所述新闻ID在所述新闻所在曝光频道对应的曝光频道新闻ID列表中获取所述新闻ID对应的位置信息,以使得所述位置信息可供后台使用。

进一步地、所述有效时间为1分钟至10分钟中任意时间。

本发明的另一个目的是提供一种数据处理系统,包括:

第一获取单元,用于获取用户操作客户端产生的第一数据,其中,所述用户具有用于标识身份的用户标识,所述第一数据包括用户标识、多个与所述用户标识对应的第二数据及多个第三数据,所述第二数据与所述第三数据一一对应;

存储单元,用于配置所述第一数据的所述用户标识与所述第二数据及所述第三数据一一对应的关系并将所述第一数据作为缓存数据;

第二获取单元,用于获取所述用户操作客户端产生的对象操作数据,所述对象操作数据包括所述用户标识、被操作的第二数据,其中,所述被操作的对象为所述多个第二数据中的一个;

第一查询单元,用于根据所述用户标识在所述关系中查询得到所述用户标识对应的所述缓存数据;

第二查询单元,用于根据所述被操作的第二数据查询所述缓存数据中所述被操作的第二数据对应的第三数据;

第一判断单元,用于判断被操作的第二数据对应的第三数据满足预设条件时将所述被点击的第二数据对应的第三数据作为真实数据供后台使用。

进一步地、第一获取单元,用于获取用户操作客户端产生的原始曝光数据,其中,所述用户具有用于标识身份的用户ID,所述原始曝光数据包括用户ID、多个与所述用户ID对应的曝光频道及多个曝光频道新闻ID列表,所述曝光频道与所述曝光频道新闻ID列表一一对应;

存储单元,用于将所述原始曝光数据以所述用户ID为key、以曝光频道及曝光频道新闻ID列表为value存入基于内存的KV存储系统中作为曝光缓存;

第二获取单元,用于所述用户操作客户端产生的频道点击数据,所述频道点击数据包括所述第一用户ID、被点击的曝光频道,其中,所述被点击频道为所述多个曝光频道中的一个;

第一查询单元,用于根据所述用户ID在所述KV存储系统中查询所述用户ID对应的所述曝光缓存;

第二查询单元,用于根据所述被点击的曝光频道查询所述曝光缓存中所述被点击的曝光频道对应的曝光频道新闻ID列表;

第一判断单元,用于判断被点击的曝光频道对应的曝光频道新闻ID列表满足预设条件时将所述被点击的曝光频道对应的曝光频道新闻ID列表作为真实曝光数据供后台使用。

进一步地、所述曝光频道新闻ID列表包括曝光时间及有效时间,所述数据处理系统还包括:

第三获取单元,用于获取被点击的曝光频道的点击行为发生时间;

计算单元,用于计算所述被点击的曝光频道新闻ID列表的曝光时间与所述点击行为发生时间之间的时间差值;

所述第一判断单元还用于当所述时间差值不大于所述有效时间时则被点击的曝光频道对应的曝光频道新闻ID列表满足预设条件。

进一步地、所述数据处理系统还包括:

第二判断单元,用于判断被点击的曝光频道对应的曝光频道新闻ID列表未满足预设条件时将所述被点击的曝光频道对应的曝光频道新闻ID列表作为 伪曝光数据丢弃。

进一步地、所述数据处理系统还包括:

第四获取单元,用于所述用户操作客户端产生的新闻点击数据,所述新闻点击数据包括所述用户ID、新闻所在曝光频道以及新闻ID,其中,所述新闻所在曝光频道为所述多个曝光频道中的一个;

第三查询单元,用于根据所述新闻所在曝光频道查询所述曝光缓存中所述新闻所在曝光频道对应的曝光频道新闻ID列表;

第四查询单元,用于根据所述新闻ID在所述新闻所在曝光频道对应的曝光频道新闻ID列表中获取所述新闻ID对应的位置信息,以使得所述位置信息可供后台使用。

从以上技术方案可以看出,本发明实施例具有以下优点:

本发明提供的数据处理方法及系统,配置所述第一数据的所述用户标识与所述第二数据及所述第三数据一一对应的关系并将所述第一数据作为缓存数据,根据所述用户标识在所述关系中查询得到所述用户标识对应的所述缓存数据,根据所述被操作的第二数据查询所述缓存数据中所述被操作的第二数据对应的第三数据,判断被操作的第二数据对应的第三数据满足预设条件时将所述被点击的第二数据对应的第三数据作为真实数据供后台使用,即只统计真实数据,提高了后台数据处理的准确性。

附图说明

图1是现有技术手机新闻端的示意图;

图2a是本发明提供的数据处理方法的一种实施例的流程图;

图2b是本发明提供的数据处理方法的另一种实施例的流程图;

图3是本发明提供的数据处理方法的另一种实施例的流程图;

图4是本发明提供的数据处理方法的另一种实施例的流程图;

图5是本发明提供的数据处理系统的一种实施例的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然, 所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

结合图2a所示,本发明提供的数据处理方法的一种实施例,包括:

S1、获取用户操作客户端产生的第一数据,其中,所述用户具有用于标识身份的用户标识,所述第一数据包括用户标识、多个与所述用户标识对应的第二数据及多个第三数据,所述第二数据与所述第三数据一一对应。

在本实施例中,所述第一数据可以为原始曝光数据,所述第二数据可以为曝光频道,所述第三数据可以为曝光频道新闻ID列表,所述对象操作数据可以为频道点击数据,用户在使用客户端浏览网页新闻时,客户端会进行预拉取操作,提前为客户准备好相邻频道的新闻ID列表,这部分数据作为原始曝光数据,每个用户都可以有一个用户ID,用于标识用户的身份,每一个用户ID都会产生原始曝光数据,每一个用户ID可以对应几个曝光频道,每个曝光频道对应一个曝光频道新闻ID列表。

S2、配置所述第一数据的所述用户标识与所述第二数据及所述第三数据一一对应的关系并将所述第一数据作为缓存数据。

这里提到的关系是为了建立利用用户标识进行查询的关系,可以采用KV存储系统进行,对于KV存储是利用key-value为格式的存储系统,通过key可以查询到对应的value,本领域普通技术人员应当了解,所以对KV存储的含义不进行具体介绍,利用用户ID作为key,即在key值列表中,可以有多种用户ID,不仅限于第一用户ID,在构建KV存储系统时,将第一用户ID 作为key,则将第一用户ID操作对应预拉取的曝光频道和曝光频道新闻ID列表作为value,曝光频道和曝光频道新闻ID列表一一对应,即利用第一用户ID即可查询到对应的预拉取的曝光频道和曝光频道新闻ID列表。

S3、获取所述用户操作客户端产生的对象操作数据,所述对象操作数据包括所述用户标识、被操作的第二数据,其中,所述被操作的对象为所述多个第二数据中的一个。

被操作的第二数据可以为被点击的曝光频道,即用户实际操作的频道,建立KV存储系统后,当接收到第一用户ID操作客户端产生的频道点击数据,即第一用户ID点击了某个频道即可产生频道点击数据,此时说明第一用户ID的用户正在浏览该频道下的新闻,所以可以认为对该频道预拉取的新闻ID列表是用户看到的,可以作为真实曝光数据使用,所述频道点击数据包括所述第一用户ID、被点击的曝光频道,其中,所述被点击频道为所述多个曝光频道中的一个,被点击的曝光频道即第一用户ID的用户当前浏览的频道。

S4、根据所述用户标识在所述关系中查询得到所述用户标识对应的所述缓存数据。

因为所述关系中用户标识和缓存数据是一一对应的,可以根据用户标识查询的到对应的缓存数据,利用KV存储系统的特性,根据第一用户ID为key可以查询得到数据库中与所述第一用户ID对应的曝光缓存,即第一用户ID预拉取的曝光频道和曝光频道新闻ID列表。

S5、根据所述被操作的第二数据查询所述缓存数据中所述被操作的第二数据对应的第三数据。

获得了第一用户ID对应的的曝光频道和曝光频道新闻ID列表后,再利用被点击的曝光频道查询曝光缓存中的信息,可以得到被点击的曝光频道对应的曝光频道新闻ID列表。

S6、判断被操作的第二数据对应的第三数据满足预设条件时将所述被点击的第二数据对应的第三数据作为真实数据供后台使用。

对于得到的第三数据进行有效性验证,满足预设条件时候才供后台使用,但第三数据为曝光频道新闻列表时,可以采用记录曝光频道新闻ID列表的产生时间,并设定有效时间,以接收到用户对频道的点击行为的时间为准,计 算时间间隔是否不大于有效时间,若不大于,这可以确定得到的数据有限,可以将被点击的曝光频道对应的曝光频道新闻ID列表作为真实曝光数据供后台使用,即用户真正浏览了该频道的信息,后台使用可以对真实曝光数据进行统计,作为新闻推荐的参考,提高了新闻推荐的精准度。

本发明提供的数据处理方法,将预拉取产生的原始曝光数据进行KV存储,再利用频道点击数据中的用户ID在KV存储的数据库中查询得到曝光缓存,利用被点击频道将在曝光缓存中查询到曝光频道新闻ID列表,将利用被点击频道查询得到的曝光频道新闻ID列表作为真实曝光数据供后台使用,使得后台在进行统计时候,只统计原始曝光数据中经过频道点击的曝光频道新闻ID列表,即只统计真实曝光数据,并且利用KV存储和预设条件对原始曝光数据进行筛选,提高了后台数据处理的准确性。

结合图2b所示,本发明的数据处理方法还提供了一种实施例,其中,,所述第一数据为原始曝光数据,所述第二数据为曝光频道,所述第三数据为曝光频道新闻ID列表,所述对象操作数据为频道点击数据,所述方法包括:

S101、获取用户操作客户端产生的原始曝光数据,其中,所述用户具有用于标识身份的用户ID,所述原始曝光数据包括用户ID、多个与所述用户ID对应的曝光频道及多个曝光频道新闻ID列表,所述曝光频道与所述曝光频道新闻ID列表一一对应。

用户在使用客户端浏览网页新闻时,客户端会进行预拉取操作,提前为客户准备好相邻频道的新闻ID列表,这部分数据作为原始曝光数据,每个用户都可以有一个用户ID,用于标识用户的身份,每一个用户ID都会产生原始曝光数据,每一个用户ID可以对应几个曝光频道,每个曝光频道对应一个曝光频道新闻ID列表,并且每一个曝光频道新闻ID列表在产生原始曝光数据时候就已经确定,原始数据数据中可以包括多个用户ID对应的曝光频道和曝光频道新闻ID列表,不同的用户ID进行操作时候都会产生对应的原始曝光数据,例如,用户ID的用户正在浏览“军事频道”,客户端会将“军事频道”相邻的“社会频道”的新闻ID列表和“时政频道”的新闻ID列表进行预拉取作为该用户ID的原始曝光数据,而当另一个用户ID的用户浏览“社会频道”,客户端会将“社会频道”相邻的“军事频道”的新闻ID列表和“娱乐 频道”的新闻ID列表进行预拉取放作为这个用户ID对应的原始曝光数据,这里为了方便说明,以用户ID的操作进行介绍,对此下文中不进行赘述。

S102、将所述原始曝光数据以所述用户ID为key、以曝光频道及曝光频道新闻ID列表为value存入基于内存的KV存储系统中作为曝光缓存。

对于KV存储是利用key-value为格式的存储系统,通过key可以查询到对应的value,本领域普通技术人员应当了解,所以对KV存储的含义不进行具体介绍,利用用户ID作为key,即在key值列表中,可以有多种用户ID,不仅限于第一用户ID,在构建KV存储系统时,将第一用户ID作为key,则将第一用户ID操作对应预拉取的曝光频道和曝光频道新闻ID列表作为value,曝光频道和曝光频道新闻ID列表一一对应,即利用第一用户ID即可查询到对应的预拉取的曝光频道和曝光频道新闻ID列表,同理,可以利用第二用户ID,不进行赘述,按照这种方式将原始数据存储在KV存储系统的数据库中,原始曝光数据存储在KV系统中之后称为曝光缓存,下文中出现不进行赘述。

S103、获取以第一用户ID操作客户端产生的频道点击数据,所述频道点击数据包括所述第一用户ID、被点击的曝光频道,其中,所述被点击频道为所述多个曝光频道中的一个。

建立KV存储系统后,当接收到第一用户ID操作客户端产生的频道点击数据,即第一用户ID点击了某个频道即可产生频道点击数据,此时说明第一用户ID的用户正在浏览该频道下的新闻,所以可以认为对该频道预拉取的新闻ID列表是用户看到的,可以作为真实曝光数据使用,所述频道点击数据包括所述第一用户ID、被点击的曝光频道,其中,所述被点击频道为所述多个曝光频道中的一个,被点击的曝光频道即第一用户ID的用户当前浏览的频道,例如当前第一用户ID的用户在浏览“军事频道”,则被点击的曝光频道为“军事频道”,而这个被点击的曝光频道“军事频道”正是之前预拉取的多个曝光频道“时政频道”、“社会频道”及“军事频道”中的一个。

S104、根据所述第一用户ID在所述KV存储系统中查询所述第一用户ID对应的所述曝光缓存。

利用KV存储系统的特性,根据第一用户ID为key可以查询得到数据库中与所述第一用户ID对应的曝光缓存,即第一用户ID预拉取的曝光频道和 曝光频道新闻ID列表,例如,上文中提到的当前操作的“军事频道”及“军事频道”下的新闻ID列表、“时政频道”及“时政频道”下的新闻ID列表以及“社会频道”及“社会频道”下的新闻ID列表,下面需要做的是从第一用户ID对应的预拉取的曝光频道和曝光频道新闻ID列表确定用户已经浏览的频道,即确定真实曝光数据。

S105、根据所述被点击的曝光频道查询所述曝光缓存中所述被点击的曝光频道对应的曝光频道新闻ID列表。

获得了第一用户ID对应的的曝光频道和曝光频道新闻ID列表后,再利用被点击的曝光频道查询曝光缓存中的信息,可以得到被点击的曝光频道对应的曝光频道新闻ID列表,例如上文中提到的用户点击了“军事频道”,则根据“军事频道”可以在曝光缓存中查询“军事频道”的新闻ID列表,而这个“军事频道”的新闻ID列表正是用户浏览的频道在经过验证后可以作为真实数据。

S106、判断被点击的曝光频道对应的曝光频道新闻ID列表满足预设条件时将所述被点击的曝光频道对应的曝光频道新闻ID列表作为真实曝光数据供后台使用。

得到了被点击的曝光频道对应的曝光频道新闻ID列表后,需要进行有效性验证,例如,对曝光缓存的数据进行时间限制,超过一定时间的曝光缓存会被丢弃,以节省存储空间,具体可以采用记录曝光频道新闻ID列表的产生时间,并设定有效时间,以接收到用户对频道的点击行为的时间为准,计算时间间隔是否不大于有效时间,若不大于,这可以确定得到的数据有限,可以将被点击的曝光频道对应的曝光频道新闻ID列表作为真实曝光数据供后台使用,即用户真正浏览了该频道的信息,后台使用可以对真实曝光数据进行统计,作为新闻推荐的参考,提高了新闻推荐的精准度。

本发明提供的数据处理方法,将预拉取产生的原始曝光数据进行KV存储,再利用频道点击数据中的用户ID在KV存储的数据库中查询得到曝光缓存,利用被点击频道将在曝光缓存中查询到曝光频道新闻ID列表,将利用被点击频道查询得到的曝光频道新闻ID列表作为真实曝光数据供后台使用,使得后台在进行统计时候,只统计原始曝光数据中经过频道点击的曝光频道新 闻ID列表,即只统计真实曝光数据,并且利用KV存储和预设条件对原始曝光数据进行筛选,提高了后台数据处理的准确性。

结合图3所示,本发明的数据处理方法还提供了另一种实施例,包括:

S201、获取用户操作客户端产生的原始曝光数据,其中,所述用户具有用于标识身份的用户ID,所述原始曝光数据包括用户ID、多个与所述用户ID对应的曝光频道及多个曝光频道新闻ID列表,所述曝光频道与所述曝光频道新闻ID列表一一对应,所述用户ID至少包括第一用户ID。

步骤201中与上一实施例中S101相类似,此处不作赘述。

S202、将所述原始曝光数据以所述用户ID为key、以曝光频道及曝光频道新闻ID列表为value存入基于内存的KV存储系统中作为曝光缓存。

所述曝光频道新闻ID列表包括曝光时间及有效时间,在KV存储系统中一并存储,当查询到曝光频道新闻ID列表后可以获得该列表曝光时间,即列表的生成时间,有效时间用于校验查询得到的信息,对于超过有效时间的数据进行丢弃,以节省空间,提高数据统计的准确性,所述有效时间可以灵活进行设定,例如可以设为1分钟至10分钟中任意时间,具体可根据需要选择,在此不进行限定。

S203、获取以第一用户ID操作客户端产生的频道点击数据,所述频道点击数据包括所述第一用户ID、被点击的曝光频道,其中,所述被点击频道为所述多个曝光频道中的一个。

步骤203中与上一实施例中S103相类似,此处不作赘述。

S204、根据所述第一用户ID在所述KV存储系统中查询所述第一用户ID对应的所述曝光缓存.

步骤204中与上一实施例中S104相类似,此处不作赘述。

S205、根据所述被点击的曝光频道查询所述曝光缓存中所述被点击的曝光频道对应的曝光频道新闻ID列表。

步骤205中与上一实施例中S105相类似,此处不作赘述。

S206、获取被点击的曝光频道的点击行为发生时间。

在用户点击频道时记录当时时间,将点击发生时间放入到频道点击数据中,接收到频道点击数据可以解析出点击发生时间,用来作为判断曝光时间 是否超出有效时间的基准点。

S207、计算所述被点击的曝光频道新闻ID列表的曝光时间与所述点击行为发生时间之间的时间差值。

在预拉取曝光频道新闻ID列表时会生成曝光时间,用来提示曝光频道新闻ID列表的生成时间,利用点击行为发生时间可以计算曝光频道新闻ID列表的持续时间,即时间差值,比较时间差值和有效时间的大小可以确定曝光频道新闻ID列表是否可以作为真实曝光数据使用。

S208、判断所述时间差值不大于所述有效时间时则被点击的曝光频道对应的曝光频道新闻ID列表,若是,则执行S109,若否,则执行S110。

时间差值不大于所述有效时间时则被点击的曝光频道对应的曝光频道新闻ID列表满足预设条件,时间差值大于所述有效时间时则被点击的曝光频道对应的曝光频道新闻ID列表则不满足预设条件,本领域普通技术人员应当了解,此处不进行赘述。

S209、将所述被点击的曝光频道对应的曝光频道新闻ID列表作为真实曝光数据供后台使用。

步骤209中与上一实施例中S106相类似,此处不作赘述。

S210、将所述被点击的曝光频道对应的曝光频道新闻ID列表作为伪曝光数据丢弃。

后台需要对真实曝光数据进行统计等操作,因此需要排除伪曝光数据,为了节省KV存储系统的空间可以将伪曝光数据进行丢弃,即将伪曝光数据进行删除,以节省空间。

通过提供实时准确的有效曝光数据,得到了更精确的新闻数据分析,减小了原始曝光数据中伪曝光数据造成的统计错误。

为了更好的提供准确的推荐数据,针对用户对具体新闻的操作,本发明的数据处理方法还提供了一种实施例,下面结合图4进行说明。

S301、获取用户操作客户端产生的原始曝光数据,其中,所述用户具有用于标识身份的用户ID,所述原始曝光数据包括用户ID、多个与所述用户ID对应的曝光频道及多个曝光频道新闻ID列表,所述曝光频道与所述曝光频道新闻ID列表一一对应,所述用户ID至少包括第一用户ID。

步骤S301与步骤S201相类似,此处不进行赘述。

S302、将所述原始曝光数据以所述用户ID为key、以曝光频道及曝光频道新闻ID列表为value存入基于内存的KV存储系统中作为曝光缓存。

步骤S302与步骤S202相类似,此处不进行赘述。

S303、获取以第一用户ID操作客户端产生的频道点击数据,所述频道点击数据包括所述第一用户ID、被点击的曝光频道,其中,所述被点击频道为所述多个曝光频道中的一个。

步骤S303与步骤S203相类似,此处不进行赘述。

S304、获取以第一用户ID操作客户端产生的新闻点击数据,所述新闻点击数据包括所述第一用户ID、新闻所在曝光频道以及新闻ID,其中,所述新闻所在曝光频道为所述多个曝光频道中的一个。

用户的点击行为和新闻所处的位置有很大关系,新闻所处位置不同对不同用户的吸引力不同,因此得到用户点击新闻时新闻所处位置,对精准推荐或是数据分析都非常重要,在接收到第一用户ID的用户的新闻点击数据后,根据第一用户ID查询基于内存的KV存储得到第一用户ID的曝光缓存,根据新闻所在频道提取曝光缓存中新闻所在频道的曝光频道新闻ID列表,因为曝光频道新闻ID列表中的新闻ID是按序排列的,因此可以查询得到此次点击的新闻ID在列表中所处位置,即该新闻在曝光给用户时所处的推荐位置。

S305、根据所述第一用户ID在所述KV存储系统中查询所述第一用户ID对应的所述曝光缓存。

步骤S305与步骤S204相类似,此处不进行赘述。

S306、根据所述被点击的曝光频道查询所述曝光缓存中所述被点击的曝光频道对应的曝光频道新闻ID列表。

步骤S306与步骤S205相类似,此处不进行赘述。

S307获取被点击的曝光频道的点击行为发生时间。

步骤S307与步骤S206相类似,此处不进行赘述。

S308计算所述被点击的曝光频道新闻ID列表的曝光时间与所述点击行为发生时间之间的时间差值。

步骤S308与步骤S207相类似,此处不进行赘述。

S309、判断所述时间差值不大于所述有效时间时则被点击的曝光频道对应的曝光频道新闻ID列表,若是,则执行S310,若否,则执行S313。

时间差值不大于所述有效时间时则被点击的曝光频道对应的曝光频道新闻ID列表满足预设条件,时间差值大于所述有效时间时则被点击的曝光频道对应的曝光频道新闻ID列表则不满足预设条件,本领域普通技术人员应当了解,此处不进行赘述。

S310、将所述被点击的曝光频道对应的曝光频道新闻ID列表作为真实曝光数据供后台使用。

步骤301中与上一实施例中S209相类似,此处不作赘述。

S311、根据所述新闻所在曝光频道查询所述曝光缓存中所述新闻所在曝光频道对应的曝光频道新闻ID列表。

根据第一用户ID查询基于内存的KV存储得到第一用户ID的曝光缓存,根据新闻所在频道提取曝光缓存中新闻所在频道的曝光频道新闻ID列表。

S312、根据所述新闻ID在所述新闻所在曝光频道对应的曝光频道新闻ID列表中获取所述新闻ID对应的位置信息,以使得所述位置信息可供后台使用。

根据新闻所在频道提取曝光缓存中新闻所在频道的曝光频道新闻ID列表,因为曝光频道新闻ID列表中的新闻ID是按序排列的,因此可以查询得到此次点击的新闻ID在列表中所处位置,即该新闻在曝光给用户时所处的推荐位置,通过对用户新闻点击行为的加工处理,得到被点击新闻所处位置,提供了在推荐位层面的细粒度CTR(中文:点击通过率,英文:Click Through Rate)数据分析条件。

S313、将所述被点击的曝光频道对应的曝光频道新闻ID列表作为伪曝光数据丢弃。

后台需要对真实曝光数据进行统计等操作,因此需要排除伪曝光数据,为了节省KV存储系统的空间可以将伪曝光数据进行丢弃,即将伪曝光数据进行删除,以节省空间。

通过实际的新闻推荐业务验证了此方法通过对用户新闻点击行为的加工处理,得到被点击新闻所处位置,区分了不同推荐位的吸引力,更准确的理解用户兴趣,有效提高了在新闻推荐算法推荐的精准度。

为了便于理解本申请的数据处理方法,下面提供一种应用场景便于理解方案。

用户在客户端上浏览网页新闻,当前正在浏览的频道是B频道,与B频道相邻的是A频道和C频道,用户ID为第一用户ID,为了便于用户在左右滑动时可以快速查看A频道或者C频道中的新闻ID列表,需要预拉取A频道的频道列表和C频道的新闻ID列表,此时进行预拉取操作的时间为曝光时间,定为:10时00分,假设A频道的新闻ID列表包括a1、a2、a3,B频道的新闻ID列表为b1、b2、b3,C频道的新闻ID列表为c1、c2、c3,此时A频道的新闻ID列表、B频道的新闻ID列表以及C频道的新闻ID列表作为原始曝光数据,将这些原始曝光光数据以第一用户ID为key、A频道及A频道的新闻ID列表B频道及B频道的新闻ID列表C频道及C频道的新闻ID列表以及曝光时间为value存储KV存储系统中作为曝光缓存,当第一用户ID操作A频道时,生成A频道的频道点击数据,频道点击数据中包括第一用户ID、被点击的A频道,以及点击发生时间(定义为10时05分)和有效时间(定义为10分钟),利用第一用户ID在KV存储系统中查询到与第一用户ID对应的曝光缓存,再利用被点击的A频道查询曝光缓存中对应的A频道的新闻ID列表a1、a2、a3,根据点击发生时间和曝光时间计算时间差值为5分钟,时间差值不大于有效时间,所以原始曝光数据中的A频道和A频道的新闻ID列表为真实曝光数据,可以供后台统计使用,而第一用户ID的用户点击C频道时刻晚于10时10分(时间差值大于10分,超出有效时间)或者没有点击C频道,则可以将C频道即C频道的新闻ID列表作为伪曝光数据进行删除以节省空间。

上文中介绍了一种数据处理方法,结合图5所示,对应地,本发明还提供了数据处理系统的一种实施例,包括:

第一获取单元401,用于获取用户操作客户端产生的第一数据,其中,所述用户具有用于标识身份的用户标识,所述第一数据包括用户标识、多个与所述用户标识对应的第二数据及多个第三数据,所述第二数据与所述第三数据一一对应;

存储单元402,用于配置所述第一数据的所述用户标识与所述第二数据及 所述第三数据一一对应的关系并将所述第一数据作为缓存数据;

第二获取单元403,用于获取所述用户操作客户端产生的对象操作数据,所述对象操作数据包括所述用户标识、被操作的第二数据,其中,所述被操作的对象为所述多个第二数据中的一个;

第一查询单元404,用于根据所述用户标识在所述关系中查询得到所述用户标识对应的所述缓存数据;

第二查询单元405,用于根据所述被操作的第二数据查询所述缓存数据中所述被操作的第二数据对应的第三数据;

第一判断单元406,用于判断被操作的第二数据对应的第三数据满足预设条件时将所述被点击的第二数据对应的第三数据作为真实数据供后台使用。

可选地,第一获取单元401,用于获取用户操作客户端产生的原始曝光数据,其中,所述用户具有用于标识身份的用户ID,所述原始曝光数据包括用户ID、多个与所述用户ID对应的曝光频道及多个曝光频道新闻ID列表,所述曝光频道与所述曝光频道新闻ID列表一一对应,所述用户ID至少包括第一用户ID。

存储单元402,用于将所述原始曝光数据以所述用户ID为key、以曝光频道及曝光频道新闻ID列表为value存入基于内存的KV存储系统中作为曝光缓存。

第二获取单元403,用于获取以第一用户ID操作客户端产生的频道点击数据,所述频道点击数据包括所述第一用户ID、被点击的曝光频道,其中,所述被点击频道为所述多个曝光频道中的一个。

第一查询单元404,用于根据所述第一用户ID在所述KV存储系统中查询所述第一用户ID对应的所述曝光缓存。

第二查询单元405,用于根据所述被点击的曝光频道查询所述曝光缓存中所述被点击的曝光频道对应的曝光频道新闻ID列表。

第一判断单元406,用于判断被点击的曝光频道对应的曝光频道新闻ID列表满足预设条件时将所述被点击的曝光频道对应的曝光频道新闻ID列表作为真实曝光数据供后台使用。

本发明提供的数据处理系统,将预拉取产生的原始曝光数据进行KV存 储,再利用频道点击数据中的用户ID在KV存储的数据库中查询得到曝光缓存,利用被点击频道将在曝光缓存中查询到曝光频道新闻ID列表,将利用被点击频道查询得到的曝光频道新闻ID列表作为真实曝光数据供后台使用,使得后台在进行统计时候,只统计原始曝光数据中经过频道点击的曝光频道新闻ID列表,即只统计真实曝光数据,并且利用KV存储和预设条件对原始曝光数据进行筛选,提高了后台数据处理的准确性。

进一步地、所述曝光频道新闻ID列表包括曝光时间及有效时间,所述数据处理系统还包括:

第三获取单元407,用于获取被点击的曝光频道的点击行为发生时间;

计算单元408,用于计算所述被点击的曝光频道新闻ID列表的曝光时间与所述点击行为发生时间之间的时间差值;

所述第一判断单元还用于当所述时间差值不大于所述有效时间时则被点击的曝光频道对应的曝光频道新闻ID列表满足预设条件。

进一步地、所述数据处理系统还包括:

第二判断单元409,用于判断被点击的曝光频道对应的曝光频道新闻ID列表未满足预设条件时将所述被点击的曝光频道对应的曝光频道新闻ID列表作为伪曝光数据丢弃。

进一步地、所述数据处理系统还包括:

第四获取单元410,用于获取以第一用户ID操作客户端产生的新闻点击数据,所述新闻点击数据包括所述第一用户ID、新闻所在曝光频道以及新闻ID,其中,所述新闻所在曝光频道为所述多个曝光频道中的一个;

第三查询单元411,用于根据所述新闻所在曝光频道查询所述曝光缓存中所述新闻所在曝光频道对应的曝光频道新闻ID列表;

第四查询单元412,用于根据所述新闻ID在所述新闻所在曝光频道对应的曝光频道新闻ID列表中获取所述新闻ID对应的位置信息,以使得所述位置信息可供后台使用。

上文中提到的数据处理系统,这里还提供了作为数据处理系统载体的终端。

一种终端,包括前面描述的数据处理系统,当然终端还需要包括必要的 硬件结构,下面进行具体介绍。

该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、车载电脑等任意终端设备,以终端为手机为例:

手机包括:射频(Radio Frequency,RF)电路、存储器、输入单元、触摸显示屏、传感器、音频电路、无线保真(wireless fidelity,WiFi)模块、处理器、以及电源等部件。

下面对手机的各个构成部件进行具体的介绍:

RF电路可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器处理;另外,将设计上行的数据发送给基站。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier,LNA)、双工器等。此外,RF电路还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。

存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元可包括触控面板以及 其他输入设备。触控面板,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器,并能接收处理器发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板。除了触控面板,输入单元还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

触摸显示屏可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。触摸显示屏可包括显示面板,可选的,可以采用液晶显示器(英文:Liquid Crystal Display,简称:LCD)、有机发光二极管(英文:Organic Light-Emitting Diode,简称:OLED)等形式来配置显示面板。进一步的,触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器以确定触摸事件的类型,随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。

手机还可包括至少一种传感器,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在手机移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信 号,由音频电路接收后转换为音频数据,再将音频数据输出处理器处理后,经RF电路以发送给比如另一手机,或者将音频数据输出至存储器以便进一步处理。

WiFi属于短距离无线传输技术,手机通过WiFi模块可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。

处理器是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器可包括一个或多个处理单元;优选的,处理器可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。

手机还包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理系统与处理器逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方, 或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上对本发明所提供的一种数据处理方法即相关设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1