一种点击流数据的处理方法及装置的制造方法

文档序号:9304973阅读:463来源:国知局
一种点击流数据的处理方法及装置的制造方法
【技术领域】
[0001]本发明属于计算技术领域,尤其涉及一种点击流数据的处理方法及装置。
【背景技术】
[0002]在线广告的点击率预估在广告投放过程中起着重要的作用,其点击率预估模型的建立依赖于在线广告投放的历史数据。由于目前在线广告中面向的用户与广告订单变化快速,因此,在线广告点击率预估模型的快速更新也显得尤为重要。
[0003]近年来,流式数据处理系统在大数据领域应用的普及,为海量数据的实时处理提供了新的解决方案。例如,现有一种基于流式数据处理系统的在线分析点击流数据的方法,可从广告业务服务器接入广告点击流数据,提取点击流数据中相关有效信息,生成广告点击率预估模型所需的训练数据,其后会直接使用该训练数据训练点击率预估模型。其中,点击流数据是指展示广告的每一次曝光、点击、转化等行为被网络服务器记录在日志中时产生的流式数据。
[0004]在对现有技术的研究和实践过程中,本发明的发明人发现,随着在线广告市场的持续发展,广告相关的点击流数据也在持续增长。在海量的点击流数据中,在有效信息提取后,仍存有大量的信息冗余,如在同一段时间内,有很多相同年龄、相同性别的人在同一个广告位看到相同的广告,若将这些数据记录为多条,则会造成信息冗余,从而导致存储资源与后续模型计算资源的浪费。

【发明内容】

[0005]本发明的目的在于提供一种点击流数据的处理方法及装置,旨在减少存储资源与模型计算资源的浪费。
[0006]为解决上述技术问题,本发明实施例提供以下技术方案:
[0007]—种点击流数据的处理方法,其中包括:
[0008]获取点击流数据;
[0009]根据所述点击流数据,生成原始训练数据;
[0010]对所述原始训练数据进行聚合,得到第一聚合训练数据;
[0011]在预设的第一时间间隔内对得到的第一聚合训练数据进行存储;
[0012]基于存储的第一聚合训练数据进行点击率预估模型训练。
[0013]为解决上述技术问题,本发明实施例还提供以下技术方案:
[0014]—种点击流数据的处理装置,其中包括:
[0015]获取单元,用于获取点击流数据;
[0016]生成单元,用于根据所述点击流数据,生成原始训练数据;
[0017]聚合单元,用于对所述原始训练数据进行聚合,得到第一聚合训练数据;
[0018]存储单元,用于在预设的第一时间间隔内对得到的第一聚合训练数据进行存储;
[0019]训练单元,用于基于存储的第一聚合训练数据进行点击率预估模型训练。
[0020]相对于现有技术,本实施例,根据获取到的点击流数据,生成原始训练数据,并对该原始训练数据进行聚合处理,得到第一聚合训练数据;其后在预设的第一时间间隔内对得到的第一聚合训练数据进行存储,并利用第一聚合训练数据进行点击率预估模型训练;本发明实施例,在生成原始训练数据的过程中,基于点击流数据生成的训练数据进行聚合处理,并利用得到的聚合训练数据进行存储以及模型训练,可以避免信息的冗余,减少了数据的存储消耗,进而,在模型训练过程中可以使用到更长时间范围的数据,提升模型质量。
【附图说明】
[0021]下面结合附图,通过对本发明的【具体实施方式】详细描述,将使本发明的技术方案及其它有益效果显而易见。
[0022]图1a是本发明提供的点击流数据的处理方法的场景示意图;
[0023]图1b为本发明第一实施例提供的点击流数据的处理方法的流程示意图;
[0024]图2a为本发明第二实施例提供的点击流数据的处理方法的流程示意图;
[0025]图2b为本发明第二实施例提供的点击流数据的处理方法中数据聚合的流程示意图;
[0026]图2c为本发明第二实施例提供的点击流数据的处理方法中数据聚合示意图;
[0027]图2d为本发明第二实施例提供的点击流数据的处理方法中数据聚合的另一流程示意图;
[0028]图3a为本发明第三实施例提供的点击流数据的处理装置的结构示意图;
[0029]图3b为本发明第三实施例提供的点击流数据的处理装置的另一结构示意图。
【具体实施方式】
[0030]请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
[0031]在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
[0032]本发明实施例提供一种点击流数据的处理方法以及装置。
[0033]参见图la,为该点击流数据的处理方法的场景示意图,该点击流数据的处理方法可应用于广告点击率预估模型的训练系统,该系统可以包括点击流数据的处理装置,该点击流数据的处理装置可集成在服务器或网关等网络设备中,主要用于获取点击流数据,根据获取到的点击流数据,生成原始训练数据,比如根据点击流数据中的关键信息生成原始训练数据;其后,对原始训练数据进行聚合,得到第一聚合训练数据,在预设的第一时间间隔内对得到的第一聚合训练数据进行存储,即可以在一时间窗内(如10分钟或20分钟等)对第一聚合训练数据一并存储,以解决了针对由点击流数据生成的原始训练数据的信息冗余的问题;最后,可以基于存储的第一聚合训练数据进行点击率预估模型训练,比如基于第一聚合训练数据,对逻辑回归LR等线性模型进行广告点击率建模,以通过训练得到的模型进行广告的点击率预估,等等。
[0034]此外,该点击流数据的处理系统还可以包括多个广告业务服务器,主要用于向点击流数据的处理装置提供点击流数据;当然,该训练数据的模型训练系统还可以包括在线存储服务器(如可基于分布式存储系统)、广告投放装置以及终端等,其中在线存储服务器主要用于对训练数据、广告发布的有关信息等进行存储,广告投放装置主要用于根据训练结果和广告发布的有关信息等进行广告投放,终端主要用于向用户展示投放的广告等。
[0035]以下将分别进行详细说明。
[0036]第一实施例
[0037]在本实施例中,将从点击流数据的处理装置的角度进行描述,该点击流数据的处理装置具体可以集成在服务器或网关等网络设备中。
[0038]—种点击流数据的处理方法,包括获取点击流数据;根据点击流数据,生成原始训练数据;对上述原始训练数据进行聚合,得到第一聚合训练数据;在预设的第一时间间隔内对得到的第一聚合训练数据进行存储;基于存储的第一聚合训练数据进行点击率预估模型训练。
[0039]请参阅图lb,图1b是本发明第一实施例提供的点击流数据的处理方法的流程示意图。所述方法包括:
[0040]在步骤SlOl中,获取点击流数据。
[0041]在步骤S102中,根据上述点击流数据,生成原始训练数据。
[0042]其中,所述步骤SlOl与步骤S102可具体为:
[0043]本发明实施例中,点击流数据是指推广信息(如展示广告)的每一次曝光、点击、转化等行为都会被网络服务器记录在日志中产生的流式数据。
[0044]比如,“根据点击流数据,生成原始训练数据”可具体包括:
[0045](a)提取上述点击流数据中的关键信息;
[0046](b)根据上述关键信息生成原始训练数据。
[0047]比如,在计算广告学上,上述关键信息可包括广告标识、广告位标识和用户标识(用户标识例如邮箱等)等,当然关键信息还可包括其它一些关键信息。
[0048]可以理解的是,原始训练数据中的一条训练数据可认为是聚合了包括关键信息在内的多种信息的一个信息聚合体。
[0049]又比如,可将提取到的上述点击流数据中包含的关键信息写入缓冲区之中,在从缓冲区之中读取到上述关键信息之后,利用上述关键信息生成广告投放预测模型的训练数据^等等。
[0050]在步骤S103中,对该原始训练数据进行聚合,得到第一聚合训练数据。
[0051]在步骤S104中,在预设的第一时间间隔内对得到的第一聚合训练数据进行存储。
[0052]其中,所述步骤S103与步骤S104可具体为:
[0053]由于原始训练数据重复性高,因此此处采用数据聚合的方式,将原始训练数据进行聚合,得到第一聚合训练数据;其中,数据聚合是指将相同内容的多份数据聚合,只保留一份数据副本的数据处理方法。
[0054]也就是说,在生成原始训练数据的过程中,首先将原始训练数据中重复的训练数据做聚合,只保留一份训练数据的副本,并将这些保留的训练数据的副本收集并确定为第一聚合训练数据,并进行保存,以供后续模型训练使用,这样经过数据聚合可以有效的减少数据存储空间。
[0055]比如,具体的,可以通过一个哈希表来实现
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1