一种针对于ftrl模型的数据处理方法及装置的制造方法

文档序号：9433139阅读：248来源：国知局

一种针对于ftrl模型的数据处理方法及装置的制造方法
【技术领域】
[0001] 本发明涉及技术领域，特别是涉及一种针对于ftrl模型的数据处理方法及装置。
【背景技术】
[0002] logistic回归模型是广泛用于预估的算法，例如，可以利用其预估每个用户对某个广告点击的概率，具体的，首先从用户日志数据中收集大量的相关的特征，如用户的国家、语言、年龄，广告的类别、显示尺寸，等等，从而用这些特征建立一个logistic回归模型，进而后续在使用时，可以通过这个模型给每一个关于用户和广告的组合计算一个分数，这个分数就是该用户在看到该广告时会点击的概率。
[0003] 其中，ftrl模型是谷歌发明的logistic回归模型，具有高准确度和模型尺寸很小的优点，该算法实现细节在2013年以论文披露后迅速被多家公司使用。但是，谷歌所公布的ftrl (follow the regularized leader)模型是一个串行算法，即单机单线程方式运行程序，其中，关于某一特征的计算结果会作为下一次关于该特征的计算的输入，这样意味着在用户日志数据太多的时候，计算时间会很长，处理速度较慢。
[0004] 为了解决谷歌发明的logistic模型的缺陷，现有技术中，通过异步的方法并行化 ftrl模型，其中，并行化为多机或多线程方式运行程序，异步为并行化方式中的一种，具体为多线程或多机之间各自运行自己的任务，没有沟通。对于异步的方法并行化ftrl模型而言，由于并行化处理，使得数据处理速度成倍提到，但是，异步会带来另外一个问题：计算结果相互覆盖，使得关于每一特征的最终计算结果为最后一次计算所得结果，忽略了之前的计算结果，相对于串行方式准确率降低。

【发明内容】

[0005] 本发明实施例的目的在于提供一种针对于ftrl模型的数据处理方法及装置，以在保证准确率的前提下，提高数据处理速度。具体技术方案如下：
[0006] 第一方面，本发明实施例提供了一种针对于ftrl模型的数据处理方法，应用于电子设备，所述方法包括：
[0007] 获得多个待训练的日志数据块，其中，每一日志数据块包括多条日志记录，且所述多个待训练的日志数据块中的日志记录各不相同；
[0008] 确定所述多个待训练的日志数据块所对应的训练机，其中，所述训练机为用于利用日志数据块训练ftrl模型的设备，且训练机与日志数据块一一对应；
[0009] 将所述多个待训练的日志数据块分别发送至相应训练机，以使得各个训练机利用相应的日志数据块训练所述ftrl模型，并将训练结果作为目标文件发送至所述电子设备，其中，每一目标文件中均存储有多个特征的特征描述信息，特征描述信息与特征一一对应；
[0010] 在获得各个训练机发送的目标文件后，对多个目标文件所存储特征的特征描述信息进行归并处理，形成训练结果文件。
[0011] 可选的，每一特征描述信息均包括相应特征的特征名和多维数值；
[0012] 所述对多个目标文件所存储特征的特征描述信息进行归并处理，形成训练结果文件，包括：
[0013] 对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理，将该特征的特征名和归并处理所得多维数值作为该特征的特征描述信息存储在训练结果文件中；
[0014] 将仅仅存在于一个目标文件中的特征的特征描述信息存储在所述训练结果文件中。
[0015] 可选的，多维数值所涉及的变量为：w、z和n，其中，w为数值概率，z和η均为训练过程确定w时所需推倒系数。
[0016] 可选的，所述对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括：
[0020] 其中，wl和w2为待归并的两个数值概率w，nl和η2为待归并的两个推倒系数η， zl和ζ2为待归并的两个推倒系数z，ni是预设的初始值，α、β、λ JP λ 2均为经验常数。
[0021] 可选的，所述对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括：
[0022] w = (wl+w2) /2 ；
[0023] n = (nl+n2) /2 ；
[0024] z = (zl+z2)/2 ；
[0025] 其中，wl和w2为待归并的两个数值概率w，nl和n2为待归并的两个推倒系数n， zl和z2为待归并的两个推倒系数z。
[0026] 可选的，所述确定所述多个待训练的日志数据块所对应的训练机，包括：
[0027] 通过哈希映射算法，确定所述多个待训练的日志数据块所对应的训练机。
[0028] 第二方面，本发明实施例提供了一种针对于ftrl模型的数据处理装置，应用于电子设备，所述装置包括：
[0029] 日志数据块获得模块，用于获得多个待训练的日志数据块，其中，每一日志数据块包括多条日志记录，且所述多个待训练的日志数据块中的日志记录各不相同；
[0030] 训练机确定模块，用于确定所述多个待训练的日志数据块所对应的训练机，其中，所述训练机为用于利用日志数据块训练ftrl模型的设备，且训练机与日志数据块一一对应；
[0031] 日志数据块发送模块，用于将所述多个待训练的日志数据块分别发送至相应训练机，以使得各个训练机利用相应的日志数据块训练所述ftrl模型，并将训练结果作为目标文件发送至所述电子设备，其中，每一目标文件中均存储有多个特征的特征描述信息，特征描述信息与特征一一对应；
[0032] 训练结果文件确定模块，用于在获得各个训练机发送的目标文件后，对多个目标文件所存储特征的特征描述信息进行归并处理，形成训练结果文件。
[0033] 可选的，每一特征描述信息均包括相应特征的特征名和多维数值；
[0034] 所述训练结果文件确定模块，包括：
[0035] 第一结果确定单元，用于在获得各个训练机发送的目标文件后，对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理，将该特征的特征名和归并处理所得多维数值作为该特征的特征描述信息存储所述训练结果文件中；
[0036] 第二结果确定单元，用于将仅仅存在于一个目标文件中的特征的特征描述信息存储在所述训练结果文件中。
[0037] 可选的，多维数值所涉及的变量为：w、z和n，其中，w为数值概率，z和η均为训练过程确定w时所需推倒系数。
[0038] 可选的，所述训练结果文件确定模块对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括：
[0042] 其中，wl和w2为待归并的两个数值概率w，nl和η2为待归并的两个推倒系数η， zl和ζ2为待归并的两个推倒系数z，ni是预设的初始值，α、β、λ JP λ 2均为经验常数。
[0043] 可选的，所述训练结果文件确定模块对多个目标文件中，特征描述信息中的特征名相同的特征的多维数值进行两两归并处理所利用的计算公式包括：
[0044] w = (wl+w2) /2 ；
[0045] n = (nl+n2) /2 ；
[0046] z = (zl+z2)/2 ；
[0047] 其中，wl和w2为待归并的两个数值概率w，nl和n2为待归并的两个推倒系数n， zl和z2为待归并的两个推倒系数z。
[0048] 可选的，所述训练机确定模块，包括：
[0049] 训练机确定单元，用于通过哈希映射算法，确定所述多个待训练的日志数据块所对应的训练机。
[0050] 与现有技术相比，本方案通过多个训练机各自独立利用日志数据块对ftrl模型进行训练，实现了并行

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马越;
技术所有人：北京金山安全软件有限公司;
我是此专利的发明人

上一篇：一种基于增量集成学习的多时相影像分类方法
上一篇：基于结构相似度的非负稀疏编码的图像分类方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。