排序模型的训练方法和装置的制造方法_3

文档序号:9471946阅读:来源:国知局
最大值(稳定值)时可W结束训练,此时得 到最优模型参数。由于该排序模型是根据用户的点击反馈训练得到的,因此,根据该排序模 型对捜索结果进行排序,可W使得排序结果更加符合用户行为,从而提高捜索排序结果的 准确率。
[0094] 综上,在本发明实施例中,根据用户针对捜索排序结果的点击反馈得到排序模型 的捜索点击率,W及根据捜索点击率对排序模型的模型参数进行更新,可W在用户行为偏 好发生变化时能够自动调整模型参数W适应用户的点击行为,相对于现有技术需要重新构 建数据集,可W提高训练模型参数的效率。 阳0巧]实施例二
[0096] 参照图2,示出了本发明的一种排序模型的训练系统的结构示意图,具体可W包 括:捜索请求处理模块210、排序模块220、用户行为反馈模块230W及中央控制器240。
[0097] 其中,捜索请求处理模块210,用于接收来自用户的捜索请求,对捜索请求进行分 词处理,然后随机向某一个排序模块220发起该捜索请求,W及将来自排序模块220的针对 所述捜索请求的捜索排序结果返回给用户。
[0098] 排序模块220,用于接收并处理来自所述捜索请求处理210模块的捜索请求,例 如,可W利用捜索请求处理模块210得到的分词查询倒排索引,然后,基于排序模型对查询 结果进行排序,得到捜索排序结果,W及将捜索排序结果返回给捜索请求处理模块210。在 本发明实施例中,排序模块220的个数可W大于等于2,各排序模块可W共用一个索引,并 且采用相同的排序模型W及不同的模型参数。
[0099] 用户行为反馈模块230,用于收集用户针对所述捜索排序结果的点击反馈,并且周 期性计算各排序模块的用户捜索次数(impression_count)、用户点击次数(click_count) W及捜索点击率(ctr,定义为click_counVimpression_count)。
[0100] 中央控制器240,用于根据各排序模块的捜索点击率,按照预置的参数更新算法对 各排序模块的模型参数进行更新;直到捜索点击率达到稳定值,停止更新。 阳101] 在具体应用中,可W在线上部署多个上述排序模块220,各排序模块共用一个索 弓I,并且采用相同的排序模型,不同的是每个排序模块采用不同的模型参数。中央控制器 240可W实时配置各个排序模块的模型参数。当用户发起捜索请求时,捜索请求处理模块 210将捜索请求随机分配到某一个排序模块220上,并将来自该排序模块的捜索排序结果 返回给用户。用户行为反馈模块230收集用户针对所述捜索排序结果的点击反馈(用户 捜索次数impression_count、用户点击次数click_count),计算各排序模块的捜索点击率 ctr,并将捜索点击率ctr发送给中央控制器240。中央控制器240根据各排序模块的捜索 点击率ctr,按照梯度下降法,周期性更新各个排序模块的模型参数,每次更新后,排序模块 的参数相对于上一轮的更优。迭代上述更新流程,直到捜索点击率达到稳态,上述更新流程 能够使得到达稳态时捜索点击率为极大值点,此时停止更新。也即,本发明实施例通过自适 应的学习更新模型参数,使得捜索点击率达到极大值,从而可W得到最优的模型参数,在提 高捜索点击率的同时,可W提高训练参数的效率。 阳102] 实施例S 阳103] 参照图3,示出了本发明的一种排序模型的训练方法实施例二的步骤流程图,具体 可W包括:
[0104] 步骤301、随机向某个排序模块发送来自用户的捜索请求;
[0105] 步骤302、接收来自所述排序模块的所述捜索请求对应的捜索排序结果; 阳106] 步骤303、向用户返回所述捜索排序结果; 阳107]步骤304、根据用户针对所述捜索排序结果的点击反馈,确定所述排序模型对应的 捜索点击率;
[0108] 步骤305、根据所述捜索点击率,按照预置的参数更新算法,对所述排序模型的模 型参数进行更新。
[0109] 在本发明的一种应用示例中,假设排序模块的个数为2,排序模块RSB_1和RSB_2, 排序模型包含m个参数,采用基于梯度下降法更新模型参数。具体更新步骤可W如下:
[0110] 步骤S31、确定模型初始参数a1°,a2°...曰m°; 阳111] 步骤S32、假设上一轮更新之后模型参数为aik,a,k...曰mN
[0112] 步骤S33、中央控制器将RSB_1和RSB_2的模型参数分别设置为aik,a3k...曰 和a>Aaik,a,k...amk,用户行为反馈模块收集两种参数下用户的点击反馈,并计算 出RSB_1对应的捜索点击率ctr_l,RSB_2对应的捜索点击率ctr_2 ;W及,计算参数斜率
[0113]步骤S34、重复上述步骤S33的过程,依次计算如下各参数斜率: 阳114]
[0115]步骤S35、根据上述参数斜率,按照如下公式更新模型参数;
阳120] 其中S为学习步长,取值范围为(0, 1)。 阳121] 步骤S36、在满足稳态条件时,停止更新。
[0122] 具体地,当aik"-a;%a2k"-a2*%都小于预设阔值时,说明训练结 果满足稳态条件,此时,捜索点击率达到极大值,则停止更新。
[0123] 在本发明实施例中,当用户发起捜索请求时,将该捜索请求随机分配到某个排序 模块,并将该排序模块返回的排序结果返回给用户,基于用户针对排序结果的点击反馈更 新排序模块的模型参数,在每次更新后,可W使得排序模块的参数相对于上一轮的更优。迭 代上述更新过程,直到各排序模块的捜索点击率达到稳态,停止更新。在本发明实施例中, 由于训练数据可W通过各排序模块产生的,因此,相对于现有技术,不用构建数据集,可W 节省大量的时间。此外,当用户行为发生变化时,用户的点击反馈也会发生相应的变化,本 发明基于用户针对排序结果的点击反馈更新排序模块的模型参数,因此,本发明实施例在 用户行为偏好发生变化时能够自动调整模型参数W适应用户的点击行为,相对于现有技术 需要重新构建数据集,可W提高训练参数的效率。
[0124]需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组 合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依 据本发明实施例,某些步骤可W采用其他顺序或者同时进行。其次,本领域技术人员也应该 知悉,说明书中所描述的实施例均属于优选实施例,所设及的动作并不一定是本发明实施 例所必须的。 阳12引装置实施例 阳126]参照图4,示出了本发明的一种排序模型的训练装置实施例的结构框图,具体可W包括:
[0127] 排序模块410,用于根据排序模型,对用户捜索请求对应的捜索结果进行排序,得 到对应的捜索排序结果;
[0128]反馈模块420,用于根据用户针对所述捜索排序结果的点击反馈,确定所述排序模 型对应的捜索点击率;及
[0129] 更新模块430,用于根据所述捜索点击率,按照预置的参数更新算法,对所述排序 模型的模型参数进行更新。
[0130] 在本发明的一种优选实施例中,所述排序模块410,具体可W包括: 阳131] 请求发送子模块,用于向具有相同模型和不同参数的多个排序模型中的任意一 个,发送来自用户的用户捜索请求;
[0132]结果接收子模块,用于接收来自所述排序模型的所述用户捜索请求对应的捜索排 序结果。 阳133] 在本发明的另一种优选实施例中,所述更新模块430,具体可W包括:
[0134] 更新子模块,用于根据所述捜索点击率,按照预置的参数更新算法,对所述排序模 型的模型参数进行更新,直到各排序模型对应的捜索点击率达到稳定值。
[0135] 在本发明的又一种优选实施例中,所述反馈模块420,具体可W包括: 阳136] 收集子模块,用于收集所述捜索排序结果对应的用户捜索次数和用户点击次数;
[0137] 计算子模块,用于根据所述用户点击次数与所述用户捜索次数的比值,确定捜索 点击率。
[0138] 在本发明的再一种优选实施例中,所述预置的参数更新算法为梯度下降算法;
[0139] 所述更新模块430,具体可W包括:
[0140] 初始化子模块,用于确定所述各排序模型的初始参数; 阳141] 点击率确定子模块,用于确定所述各排序模型对应的捜索点击率;
[0142] 迭代更新子模块,用于根据所述各排序模型对应的
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1