排序模型的训练方法和装置的制造方法_3

文档序号：9471946阅读：来源：国知局

最大值（稳定值）时可W结束训练，此时得到最优模型参数。由于该排序模型是根据用户的点击反馈训练得到的，因此，根据该排序模型对捜索结果进行排序，可W使得排序结果更加符合用户行为，从而提高捜索排序结果的准确率。
[0094] 综上，在本发明实施例中，根据用户针对捜索排序结果的点击反馈得到排序模型的捜索点击率，W及根据捜索点击率对排序模型的模型参数进行更新，可W在用户行为偏好发生变化时能够自动调整模型参数W适应用户的点击行为，相对于现有技术需要重新构建数据集，可W提高训练模型参数的效率。阳0巧]实施例二
[0096] 参照图2,示出了本发明的一种排序模型的训练系统的结构示意图，具体可W包括：捜索请求处理模块210、排序模块220、用户行为反馈模块230W及中央控制器240。
[0097] 其中，捜索请求处理模块210,用于接收来自用户的捜索请求，对捜索请求进行分词处理，然后随机向某一个排序模块220发起该捜索请求，W及将来自排序模块220的针对所述捜索请求的捜索排序结果返回给用户。
[0098] 排序模块220,用于接收并处理来自所述捜索请求处理210模块的捜索请求，例如，可W利用捜索请求处理模块210得到的分词查询倒排索引，然后，基于排序模型对查询结果进行排序，得到捜索排序结果，W及将捜索排序结果返回给捜索请求处理模块210。在本发明实施例中，排序模块220的个数可W大于等于2，各排序模块可W共用一个索引，并且采用相同的排序模型W及不同的模型参数。
[0099] 用户行为反馈模块230,用于收集用户针对所述捜索排序结果的点击反馈，并且周期性计算各排序模块的用户捜索次数（impression_count)、用户点击次数（click_count) W及捜索点击率（ctr，定义为click_counVimpression_count)。
[0100] 中央控制器240,用于根据各排序模块的捜索点击率，按照预置的参数更新算法对各排序模块的模型参数进行更新；直到捜索点击率达到稳定值，停止更新。阳101] 在具体应用中，可W在线上部署多个上述排序模块220,各排序模块共用一个索弓I，并且采用相同的排序模型，不同的是每个排序模块采用不同的模型参数。中央控制器 240可W实时配置各个排序模块的模型参数。当用户发起捜索请求时，捜索请求处理模块 210将捜索请求随机分配到某一个排序模块220上，并将来自该排序模块的捜索排序结果返回给用户。用户行为反馈模块230收集用户针对所述捜索排序结果的点击反馈（用户捜索次数impression_count、用户点击次数click_count)，计算各排序模块的捜索点击率 ctr，并将捜索点击率ctr发送给中央控制器240。中央控制器240根据各排序模块的捜索点击率ctr，按照梯度下降法，周期性更新各个排序模块的模型参数，每次更新后，排序模块的参数相对于上一轮的更优。迭代上述更新流程，直到捜索点击率达到稳态，上述更新流程能够使得到达稳态时捜索点击率为极大值点，此时停止更新。也即，本发明实施例通过自适应的学习更新模型参数，使得捜索点击率达到极大值，从而可W得到最优的模型参数，在提高捜索点击率的同时，可W提高训练参数的效率。阳102] 实施例S 阳103] 参照图3,示出了本发明的一种排序模型的训练方法实施例二的步骤流程图，具体可W包括：
[0104] 步骤301、随机向某个排序模块发送来自用户的捜索请求；
[0105] 步骤302、接收来自所述排序模块的所述捜索请求对应的捜索排序结果；阳106] 步骤303、向用户返回所述捜索排序结果；阳107]步骤304、根据用户针对所述捜索排序结果的点击反馈，确定所述排序模型对应的捜索点击率；
[0108] 步骤305、根据所述捜索点击率，按照预置的参数更新算法，对所述排序模型的模型参数进行更新。
[0109] 在本发明的一种应用示例中，假设排序模块的个数为2,排序模块RSB_1和RSB_2，排序模型包含m个参数，采用基于梯度下降法更新模型参数。具体更新步骤可W如下：
[0110] 步骤S31、确定模型初始参数a1°，a2°...曰m°; 阳111] 步骤S32、假设上一轮更新之后模型参数为aik，a,k...曰mN
[0112] 步骤S33、中央控制器将RSB_1和RSB_2的模型参数分别设置为aik，a3k...曰和a>Aaik，a,k...amk，用户行为反馈模块收集两种参数下用户的点击反馈，并计算出RSB_1对应的捜索点击率ctr_l，RSB_2对应的捜索点击率ctr_2 ;W及，计算参数斜率
[0113]步骤S34、重复上述步骤S33的过程，依次计算如下各参数斜率：阳114]
[0115]步骤S35、根据上述参数斜率，按照如下公式更新模型参数；
阳120] 其中S为学习步长，取值范围为（0, 1)。阳121] 步骤S36、在满足稳态条件时，停止更新。
[0122] 具体地，当aik"-a；%a2k"-a2*%都小于预设阔值时，说明训练结果满足稳态条件，此时，捜索点击率达到极大值，则停止更新。
[0123] 在本发明实施例中，当用户发起捜索请求时，将该捜索请求随机分配到某个排序模块，并将该排序模块返回的排序结果返回给用户，基于用户针对排序结果的点击反馈更新排序模块的模型参数，在每次更新后，可W使得排序模块的参数相对于上一轮的更优。迭代上述更新过程，直到各排序模块的捜索点击率达到稳态，停止更新。在本发明实施例中，由于训练数据可W通过各排序模块产生的，因此，相对于现有技术，不用构建数据集，可W 节省大量的时间。此外，当用户行为发生变化时，用户的点击反馈也会发生相应的变化，本发明基于用户针对排序结果的点击反馈更新排序模块的模型参数，因此，本发明实施例在用户行为偏好发生变化时能够自动调整模型参数W适应用户的点击行为，相对于现有技术需要重新构建数据集，可W提高训练参数的效率。
[0124]需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可W采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所设及的动作并不一定是本发明实施例所必须的。阳12引装置实施例阳126]参照图4,示出了本发明的一种排序模型的训练装置实施例的结构框图，具体可W包括：
[0127] 排序模块410,用于根据排序模型，对用户捜索请求对应的捜索结果进行排序，得到对应的捜索排序结果；
[0128]反馈模块420,用于根据用户针对所述捜索排序结果的点击反馈，确定所述排序模型对应的捜索点击率；及
[0129] 更新模块430,用于根据所述捜索点击率，按照预置的参数更新算法，对所述排序模型的模型参数进行更新。
[0130] 在本发明的一种优选实施例中，所述排序模块410,具体可W包括：阳131] 请求发送子模块，用于向具有相同模型和不同参数的多个排序模型中的任意一个，发送来自用户的用户捜索请求；
[0132]结果接收子模块，用于接收来自所述排序模型的所述用户捜索请求对应的捜索排序结果。阳133] 在本发明的另一种优选实施例中，所述更新模块430,具体可W包括：
[0134] 更新子模块，用于根据所述捜索点击率，按照预置的参数更新算法，对所述排序模型的模型参数进行更新，直到各排序模型对应的捜索点击率达到稳定值。
[0135] 在本发明的又一种优选实施例中，所述反馈模块420,具体可W包括：阳136] 收集子模块，用于收集所述捜索排序结果对应的用户捜索次数和用户点击次数；
[0137] 计算子模块，用于根据所述用户点击次数与所述用户捜索次数的比值，确定捜索点击率。
[0138] 在本发明的再一种优选实施例中，所述预置的参数更新算法为梯度下降算法；
[0139] 所述更新模块430,具体可W包括：
[0140] 初始化子模块，用于确定所述各排序模型的初始参数；阳141] 点击率确定子模块，用于确定所述各排序模型对应的捜索点击率；
[0142] 迭代更新子模块，用于根据所述各排序模型对应的

完整全部详细技术资料下载

当前第3页1 2 3 4