一种点击流数据的处理方法及装置的制造方法_2

文档序号：9304973阅读：来源：国知局

原始训练数据的聚合。该哈希表存储的数据结构包含原始训练数据中训练数据的具体内容以及对应的聚合后训练数据数量两部分。该训练数据结构的哈希值只与训练数据的具体内容相关，而与数据数量无关。
[0056]进一步的，将原始训练数据进行聚合之后，在预设的第一时间间隔内对得到的第一聚合训练数据进行存储，如存储在基于分布式存储的在线存储服务器中；其中，该第一时间间隔可以是10分钟或20分钟等等，其可以由预设参数确定的，或可以是根据用户指令确定的，或可以是通过其他方式确定，此处不作具体限定。
[0057]在步骤S105中，基于存储的第一聚合训练数据进行点击率预估模型训练。
[0058]在一种实施方式中，“基于存储的第一聚合训练数据进行点击率预估模型训练”可以包括:
[0059](I)接收模型训练的请求；
[0060](2)根据该请求，利用存储的第一聚合训练数据进行点击率预估模型训练。
[0061]也就是说，在生成原始训练数据的过程中，将原始训练数据中重复的训练数据做聚合，将得到的第一聚合训练数据确定为需要用来进行点击率预估模型训练的训练数据；在接收到模型训练的请求时，根据该请求，直接利用第一聚合训练数进行点击率预估模型训练。
[0062]在另一种实施方式中，“基于存储的第一聚合训练数据进行点击率预估模型训练”可以包括:
[0063]①接收模型训练的请求；
[0064]②根据该请求，获取在预设的第二时间间隔内存储的第一聚合训练数据；
[0065]其中该第二时间间隔大于第一时间间隔；
[0066]比如，第一时间间隔为10分钟，则该第二时间间隔可以为40分钟；具体的，每10
分钟将得到的第一聚合训练数据进行存储，当接收到模型训练的请求时，根据该请求获取离当前相隔40分钟内存储的第一聚合训练数据。
[0067]③对第一聚合训练数据进行聚合，得到第二聚合训练数据；
[0068]④利用第二聚合训练数据进行点击率预估模型训练。
[0069]也就是说，在生成原始训练数据的过程中，将原始训练数据中重复的训练数据做了首次聚合；在进行模型训练的过程中，对首次聚合得到的第一聚合训练数据进行聚合，得到第二聚合训练数据，即基于两步聚合，得到需要用来进行点击率预估模型训练的训练数据，从而达到训练数据的无损压缩数据处理，提升了模型质量。
[0070]可以理解的是，基于存储的第一聚合训练数据进行点击率预估模型训练之后，可以计算出点击率预估模型，并利用该点击率预估模型进行(广告)点击率预估(PCTR，Predict Click-Through Rate)等。
[0071]容易想到的是，本发明提及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。
[0072]由上述可知，本实施例提供的点击流数据的处理方法，根据获取到的点击流数据，生成原始训练数据，并对该原始训练数据进行聚合处理，得到第一聚合训练数据；其后在预设的第一时间间隔内对得到的第一聚合训练数据进行存储，并利用第一聚合训练数据进行点击率预估模型训练；本发明实施例，在生成原始训练数据的过程中，基于点击流数据生成的训练数据进行聚合处理，并利用得到的聚合训练数据进行存储以及模型训练，可以避免信息的冗余，减少了数据的存储消耗，进而，在模型训练过程中可以使用到更长时间范围的数据，提升模型质量。
[0073]第二实施例
[0074]根据第一实施例所描述的方法，以下将举例作进一步详细说明。
[0075]请参阅图2a，图2a为本发明第二实施例提供的点击流数据的处理方法的流程示意图。所述方法包括:
[0076]在步骤S201中，获取点击流数据。
[0077]在步骤S202中，提取上述点击流数据中的关键信息，并根据上述关键信息生成原始训练数据。
[0078]其中，所述步骤S201与步骤S202可具体为:
[0079]可以理解的是，在计算广告学上，点击流数据是指展示广告的每一次曝光、点击、转化等行为都会被网络服务器记录在日志中产生的流式数据；上述关键信息可包括广告标识、广告位标识和用户标识(用户标识例如邮箱等)等，当然关键信息还可包括其它一些关键信息。
[0080]本发明实施例中，原始训练数据中的一条训练数据可认为是聚合了包括关键信息在内的多种信息的一个信息聚合体。
[0081]比如，“根据上述关键信息生成原始训练数据”具体实现可如下:
[0082]调用流式计算拓扑，以上述关键信息为索引，在在线存储服务器中查找出与上述关键信息匹配的属性信息和特征信息；利用上述关键信息、上述属性信息和上述特征信息，生成原始训练数据；
[0083]又比如，可按照预设的聚合规则将上述关键信息、上述属性信息和上述特征信息进行聚合以得到原始训练数据等等，此处对原始训练数据的生成不作具体限定。
[0084]在步骤S203中，对上述原始训练数据进行聚合，得到第一聚合训练数据。
[0085]即在生成原始训练数据的过程中，将原始训练数据中重复的训练数据做了首次聚合；具体的，可以通过一个哈希表来实现原始训练数据的聚合。该哈希表存储的数据结构包含原始训练数据中训练数据的具体内容(如关键信息)以及对应的聚合后训练数据数量两部分。该训练数据结构的哈希值只与训练数据的具体内容相关，而与数据数量无关。
[0086]比如，如图2b所示，“对上述原始训练数据进行聚合，得到第一聚合训练数据”可以具体包括:
[0087]S2031、从原始训练数据中依次提取训练数据；
[0088]S2032、根据上述关键信息计算提取的训练数据的哈希值；
[0089]S2033、判断预设的哈希表是否存储有该哈希值指示的训练数据；
[0090]上述哈希表包含训练数据的内容及聚合的训练数据数量；
[0091 ] 根据判断结果分别执行步骤S2034或步骤S2035 ;
[0092]S2034、若是，则在上述哈希表中获取到对应的训练数据，并对对应的聚合的训练数据数量进行更新；
[0093]S2035、若否，则将该哈希值指示的训练数据加入哈希表，并记录对应的聚合的训练数据数量为I ;
[0094]也就是说，如图2b所示，当提取一条训练数据时，先计算其哈希值，判断是否已经在哈希表中存有该训练数据。若该训练数据并未存在于哈希表中，说明其为新的训练数据，将其加入哈希表中，并记其数据条数为I ;若该训练数据存在于哈希表中，说明训练数据为重复的训练数据，根据对应的哈希值找到哈希表中的存储对象，并将对应的数据条数在原有基础上加1，直至确定原始训练数据中的训练数据全部提取完成，从而完成对原始训练数据聚合处理。
[0095]S2036、确定上述原始训练数据是否全部提取完成；
[0096]如果在执行完S2034或S2035后确定出上述原始训练数据还未全部提取完成，则返回执行从原始训练数据中依次提取训练数据的步骤(即S2031)，直至确定原始训练数据全部提取完成。
[0097]S2037、在确定上述原始训练数据全部提取完成时，将哈希表中存储有的训练数据确定为第一聚合训练数据。
[0098]比如，以图2c所示聚合过程为例，根据训练数据的关键信息(如年龄A、性别G)计算训练数据的哈希值，首先在时间窗I中，获取到4个训练数据，假设当前提取的训练数据关键信息为“Al、G1”，由于该训练数据并未存在于哈希表中，因此将“Al、G1”写入哈希表，并将其数据条数为记录为1，依此方式依次对训练数据提取判断，假设当前再次提取的训练数据关键信息为“A1、G1”，由于该训练数据存在于哈希表中，因此根据对应的哈希值找到哈希表中的存储对象，在原有的数据条数I基础上加1，即将该数据条数记录为2，直至确定4个训练数据全部提取完成，从而完成在时间窗I中原始训练数据聚合处理(即完成第一步聚合)；同样的，在时间窗2中，获取到5个训练数据，并采用同样的方法对训练数据进行聚合，并记录对应的聚合的训练数据条数。
[0099]在某些实施方式中，如图2d所示，“对原始训练数据进行聚合，得到第一聚合训练数据”的步骤可以包括:
[0100]S203a、获取上述原始训练数据中所有训练数据；
[0101]S203b、根据上述关键信息对应计算原始训练数据中训练数据的哈希值；
[0102]S203c、对具有相同哈希值的训练数据分别进行聚合，得到第一聚合训练数据；
[0103]S203d、统计具有相同哈希值的训练数据的数量并记录。
[0104]区别于上述利用哈希值对原始训练数据中的训练数据进行逐一判断的方法，该方式将原始训练数据中训练数据的哈希值进行统一比较，如果哈希值相同的，就可以认为对应的训练数据为重复的训练数据，将它们进行聚合，从而得到第一聚合训练数据，判断过程中，还可以将具有相同哈希值的训练数据的数量进行统计与记录。
[0105]在步骤S204中，在预设的第一时间间隔内对得到的第一聚合训练数据进行存储。
[0106]进一步的，在预设的第一时间间隔内对得到的第一聚合训练数据进行存储，如存储在基于分布式存储的在线存储服务器中；其中，该第一时间间隔可以是10分钟或20分钟等等，其可以由预设参数确定的，

完整全部详细技术资料下载

当前第2页1 2 3 4 5