一种针对于ftrl模型的数据处理方法及装置的制造方法

文档序号:9433139阅读:248来源:国知局
一种针对于ftrl模型的数据处理方法及装置的制造方法
【技术领域】
[0001] 本发明涉及技术领域,特别是涉及一种针对于ftrl模型的数据处理方法及装置。
【背景技术】
[0002] logistic回归模型是广泛用于预估的算法,例如,可以利用其预估每个用户对某 个广告点击的概率,具体的,首先从用户日志数据中收集大量的相关的特征,如用户的国 家、语言、年龄,广告的类别、显示尺寸,等等,从而用这些特征建立一个logistic回归模 型,进而后续在使用时,可以通过这个模型给每一个关于用户和广告的组合计算一个分数, 这个分数就是该用户在看到该广告时会点击的概率。
[0003] 其中,ftrl模型是谷歌发明的logistic回归模型,具有高准确度和模型尺寸很小 的优点,该算法实现细节在2013年以论文披露后迅速被多家公司使用。但是,谷歌所公布 的ftrl (follow the regularized leader)模型是一个串行算法,即单机单线程方式运行 程序,其中,关于某一特征的计算结果会作为下一次关于该特征的计算的输入,这样意味着 在用户日志数据太多的时候,计算时间会很长,处理速度较慢。
[0004] 为了解决谷歌发明的logistic模型的缺陷,现有技术中,通过异步的方法并行化 ftrl模型,其中,并行化为多机或多线程方式运行程序,异步为并行化方式中的一种,具体 为多线程或多机之间各自运行自己的任务,没有沟通。对于异步的方法并行化ftrl模型而 言,由于并行化处理,使得数据处理速度成倍提到,但是,异步会带来另外一个问题:计算结 果相互覆盖,使得关于每一特征的最终计算结果为最后一次计算所得结果,忽略了之前的 计算结果,相对于串行方式准确率降低。

【发明内容】

[0005] 本发明实施例的目的在于提供一种针对于ftrl模型的数据处理方法及装置,以 在保证准确率的前提下,提高数据处理速度。具体技术方案如下:
[0006] 第一方面,本发明实施例提供了一种针对于ftrl模型的数据处理方法,应用于电 子设备,所述方法包括:
[0007] 获得多个待训练的日志数据块,其中,每一日志数据块包括多条日志记录,且所述 多个待训练的日志数据块中的日志记录各不相同;
[0008] 确定所述多个待训练的日志数据块所对应的训练机,其中,所述训练机为用于利 用日志数据块训练ftrl模型的设备,且训练机与日志数据块一一对应;
[0009] 将所述多个待训练的日志数据块分别发送至相应训练机,以使得各个训练机利 用相应的日志数据块训练所述ftrl模型,并将训练结果作为目标文件发送至所述电子设 备,其中,每一目标文件中均存储有多个特征的特征描述信息,特征描述信息与特征一一对 应;
[0010] 在获得各个训练机发送的目标文件后,对多个目标文件所存储特征的特征描述信 息进行归并处理,形成训练结果文件。
[0011] 可选的,每一特征描述信息均包括相应特征的特征名和多维数值;
[0012] 所述对多个目标文件所存储特征的特征描述信息进行归并处理,形成训练结果文 件,包括:
[0013] 对多个目标文件中,特征描述信息中的特征名相同的特征的多维数值进行两两归 并处理,将该特征的特征名和归并处理所得多维数值作为该特征的特征描述信息存储在训 练结果文件中;
[0014] 将仅仅存在于一个目标文件中的特征的特征描述信息存储在所述训练结果文件 中。
[0015] 可选的,多维数值所涉及的变量为:w、z和n,其中,w为数值概率,z和η均为训练 过程确定w时所需推倒系数。
[0016] 可选的,所述对多个目标文件中,特征描述信息中的特征名相同的特征的多维数 值进行两两归并处理所利用的计算公式包括:
[0020] 其中,wl和w2为待归并的两个数值概率w,nl和η2为待归并的两个推倒系数η, zl和ζ2为待归并的两个推倒系数z,ni是预设的初始值,α、β、λ JP λ 2均为经验常数。
[0021] 可选的,所述对多个目标文件中,特征描述信息中的特征名相同的特征的多维数 值进行两两归并处理所利用的计算公式包括:
[0022] w = (wl+w2) /2 ;
[0023] n = (nl+n2) /2 ;
[0024] z = (zl+z2)/2 ;
[0025] 其中,wl和w2为待归并的两个数值概率w,nl和n2为待归并的两个推倒系数n, zl和z2为待归并的两个推倒系数z。
[0026] 可选的,所述确定所述多个待训练的日志数据块所对应的训练机,包括:
[0027] 通过哈希映射算法,确定所述多个待训练的日志数据块所对应的训练机。
[0028] 第二方面,本发明实施例提供了一种针对于ftrl模型的数据处理装置,应用于电 子设备,所述装置包括:
[0029] 日志数据块获得模块,用于获得多个待训练的日志数据块,其中,每一日志数据块 包括多条日志记录,且所述多个待训练的日志数据块中的日志记录各不相同;
[0030] 训练机确定模块,用于确定所述多个待训练的日志数据块所对应的训练机,其中, 所述训练机为用于利用日志数据块训练ftrl模型的设备,且训练机与日志数据块一一对 应;
[0031] 日志数据块发送模块,用于将所述多个待训练的日志数据块分别发送至相应训练 机,以使得各个训练机利用相应的日志数据块训练所述ftrl模型,并将训练结果作为目标 文件发送至所述电子设备,其中,每一目标文件中均存储有多个特征的特征描述信息,特征 描述信息与特征一一对应;
[0032] 训练结果文件确定模块,用于在获得各个训练机发送的目标文件后,对多个目标 文件所存储特征的特征描述信息进行归并处理,形成训练结果文件。
[0033] 可选的,每一特征描述信息均包括相应特征的特征名和多维数值;
[0034] 所述训练结果文件确定模块,包括:
[0035] 第一结果确定单元,用于在获得各个训练机发送的目标文件后,对多个目标文件 中,特征描述信息中的特征名相同的特征的多维数值进行两两归并处理,将该特征的特征 名和归并处理所得多维数值作为该特征的特征描述信息存储所述训练结果文件中;
[0036] 第二结果确定单元,用于将仅仅存在于一个目标文件中的特征的特征描述信息存 储在所述训练结果文件中。
[0037] 可选的,多维数值所涉及的变量为:w、z和n,其中,w为数值概率,z和η均为训练 过程确定w时所需推倒系数。
[0038] 可选的,所述训练结果文件确定模块对多个目标文件中,特征描述信息中的特征 名相同的特征的多维数值进行两两归并处理所利用的计算公式包括:
[0042] 其中,wl和w2为待归并的两个数值概率w,nl和η2为待归并的两个推倒系数η, zl和ζ2为待归并的两个推倒系数z,ni是预设的初始值,α、β、λ JP λ 2均为经验常数。
[0043] 可选的,所述训练结果文件确定模块对多个目标文件中,特征描述信息中的特征 名相同的特征的多维数值进行两两归并处理所利用的计算公式包括:
[0044] w = (wl+w2) /2 ;
[0045] n = (nl+n2) /2 ;
[0046] z = (zl+z2)/2 ;
[0047] 其中,wl和w2为待归并的两个数值概率w,nl和n2为待归并的两个推倒系数n, zl和z2为待归并的两个推倒系数z。
[0048] 可选的,所述训练机确定模块,包括:
[0049] 训练机确定单元,用于通过哈希映射算法,确定所述多个待训练的日志数据块所 对应的训练机。
[0050] 与现有技术相比,本方案通过多个训练机各自独立利用日志数据块对ftrl模型 进行训练,实现了并行
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1