一种训练数据的处理方法及装置的制造方法

文档序号:9288422阅读:325来源:国知局
一种训练数据的处理方法及装置的制造方法
【技术领域】
[0001] 本发明属于计算技术领域,尤其涉及一种训练数据的处理方法及装置。
【背景技术】
[0002] 在用户浏览页面时,广告平台根据用户的网络浏览或搜索行为,以及页面的内容, 预估所有备选广告的点击率,选择点击率预估值较高的广告进行优先投放,因此在线广告 的点击率预估在广告投放过程中起着重要的作用。
[0003] 目前业界主要使用简单线性模型如逻辑回归(LR,LogisticRegression)等进行 广告点击率建模,模型求解过程简洁且较为迅速,可以在一定程度上防止对数据的过度拟 合等。由于在训练数据训练以及广告点击率预估过程中,模型所使用到的特征数量繁多,名 义空间范围大(通常可达到百亿级以上)且通常不是连续值,故LR模型一般使用哈希表的 稀疏结构来进行存储。
[0004] 通过哈希表来保存LR模型可以较方便地进行模型的训练与预测,但是由于哈希 表是采用稀疏结构来存储,因此存储空间相对消耗较大,从而降低了模型的网络传输速度 和模型训练更新的速度。

【发明内容】

[0005] 本发明的目的在于提供一种训练数据的处理方法及装置,旨在减少了存储空间的 消耗,提升模型的网络传输速度和模型训练更新的速度。
[0006] 为解决上述技术问题,本发明实施例提供以下技术方案:
[0007] -种训练数据的处理方法,其中包括:
[0008] 获取训练数据,并确定所述训练数据的原始特征空间,所述原始特征空间为训练 数据原始的特征数据存储结构;
[0009] 对所述原始特征空间进行扫描统计,并根据统计结果建立全局索引;
[0010] 根据所述全局索引将所述训练数据映射到实际特征空间,所述实际特征空间为根 据在原始特征空间内实际存储有特征数据的位置而构成的存储结构;
[0011] 利用实际特征空间的训练数据进行模型训练。
[0012] 为解决上述技术问题,本发明实施例还提供以下技术方案:
[0013] -种训练数据的处理装置,其中包括:
[0014] 获取单元,用于获取训练数据,并确定所述训练数据的原始特征空间,所述原始特 征空间为训练数据原始的特征数据存储结构;
[0015] 索引建立单元,用于对所述原始特征空间进行扫描统计,并根据统计结果建立全 局索引;
[0016] 映射单元,用于根据所述全局索引将所述训练数据映射到实际特征空间,所述实 际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构;
[0017] 训练单元,用于利用实际特征空间的训练数据进行模型训练。
[0018] 相对于现有技术,本实施例,通过全局索引,将原始特征空间的训练数据,映射到 实际特征空间,其中实际特征空间是根据在原始特征空间内实际存储有特征数据的位置而 构成的存储结构,其后利用实际特征空间的训练数据进行模型训练;本发明实施例,通过全 局索引将训练数据做一次映射,将稀疏的存储结构转换为稠密的存储结构,不仅大大的减 少了存储空间的消耗,还提升了模型的网络传输速度和模型训练更新的速度。
【附图说明】
[0019] 下面结合附图,通过对本发明的【具体实施方式】详细描述,将使本发明的技术方案 及其它有益效果显而易见。
[0020] 图la是本发明提供的训练数据的处理方法的场景示意图;
[0021] 图lb是本发明第一实施例提供的训练数据的处理方法的流程示意图;
[0022] 图2a为本发明第二实施例提供的训练数据的处理方法的流程示意图;
[0023] 图2b为本发明第二实施例提供的训练数据的处理方法中的训练数据与模型的示 意图;
[0024] 图2c为本发明第二实施例提供的训练数据的处理方法中的全局索引映射示意 图;
[0025] 图3为本发明第三实施例提供的训练数据的处理装置的结构示意图;
[0026] 图4为本发明第四实施例提供的服务器的结构示意图。
【具体实施方式】
[0027] 请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一 适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被 视为限制本发明未在此详述的其它具体实施例。
[0028] 在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤 及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所 指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元 的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置 或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构 为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文 字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操 作亦可实施在硬件当中。
[0029] 本发明实施例提供一种训练数据的处理方法以及装置。
[0030] 参见图la,该图为该训练数据的处理方法应用于训练数据的处理系统的场景示意 图,该系统可应用于广告领域,可以包括训练数据的处理装置,主要用于获取训练数据,并 确定训练数据的原始特征空间(即训练数据原始的特征数据存储结构);然后对原始特征 空间进行扫描统计,并根据统计结果建立全局索引,根据所述全局索引将训练数据映射到 实际特征空间,该实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构 成的存储结构,并利用实际特征空间的训练数据进行模型训练,比如对逻辑回归LR等线性 模型进行广告点击率建模,以基于训练得到的模型进行广告的点击率预估,等等。
[0031] 此外,该训练数据的处理系统还可以包括多个广告业务服务器,主要用于根据点 击流数据如用户年龄、用户性别、广告ID(身份标识号码)等生成训练数据;当然,该训练数 据的处理系统还可以包括在线存储服务器以及广告投放装置等,其中在线存储服务器主要 用于对训练数据、广告发布记录等进行存储,广告投放装置主要用于基于广告的投放等等。
[0032] 以下将分别进行详细说明。
[0033] 第一实施例
[0034] 在本实施例中,将从训练数据的处理装置的角度进行描述,该处理装置具体可以 集成在服务器或网关等网络设备中。
[0035] -种训练数据的处理方法,包括:获取训练数据,并确定训练数据的原始特征空 间,该原始特征空间为训练数据原始的特征数据存储结构;对原始特征空间进行扫描统计, 并根据统计结果建立全局索引;根据全局索引将训练数据映射到实际特征空间,该实际特 征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构;利用实际 特征空间的训练数据进行模型训练。
[0036] 请参阅图lb,图lb是本发明第一实施例提供的训练数据的处理方法的流程示意 图。所述方法包括:
[0037] 在步骤S101中,获取训练数据,并确定所述训练数据的原始特征空间,原始特征 空间为训练数据原始的特征数据存储结构。
[0038] 比如,训练数据可以具体是一些历史数据,其体现方式可以为一个矩阵,其每一行 是一条历史数据,包括自变量X(如用户特征与广告特征)和因变量y(如用户是否点击广 告)等特征数据;根据这些训练数据,对逻辑回归LR等线性模型进行广告点击率建模以及 迭代训练。
[0039] 其中,原始特征空间是指训练数据原始的特征数据存储结构,由于在训练数据训 练以及广告点击率预估过程中,模型所使用到的特征数量繁多,名义空间范围大(通常可 达到百亿级以上)且通常不是连续值,故LR模型一般使用哈希表的稀疏结构来进行存储; 由于训练数据与LR模型的数据结构相对应,因此原始特征空间也是稀疏结构。
[0040] 在步骤S102中,对该原始特征空间进行扫描统计,并根据统计结果建立全局索 引。
[0041] 在某些实施方式中,该步骤可以具体包括:
[0042] (一)对该原始特征空间进行扫描统计;
[0043] 以确定在原始特征空间内实际存储有特征数据的位置;
[0044] (二
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1