本技术实施例涉及数据搜索,尤其涉及一种排序模型的训练的方法、搜索方法、装置及其设备。
背景技术:
1、随着计算机技术的快速发展,视频已经成为人们日常生活中获取信息和享受娱乐的主要载体。用户通过搜索框输入搜索词,检索模型根据搜索词获取与搜索词相关的搜索文档,排序模型对搜索文档排序后展示给用户,用户可以对搜索文档进行消费,例如,点击、播放、收藏、转发等。
2、在视频搜索场景下,对用户的历史消费(点击、播放等)行为进行建模可以有效提高搜索需求识别的准确度。现有的排序模型的通常采用实时训练方法,对排序模型的参数实时更新,以使得排序模型能够适应不断变化的数据,提高排序模型的准确性。然而,现有的训练数据的获取方式导致训练数据的滞后性,例如,用户在进行一次搜索之后,服务端需要从不同的数据源分别获取搜索词相关数据、搜索结果的展示信息以及用户消费行为等原始数据,对获取的原始数据进行清洗、拼接等数据处理,才能形成训练数据。
3、一些搜查场景中,例如,用户在短期内多次重复搜索或者换搜索词搜索,用户短期实时的搜索消费行为对模型预估有很大价值。但是,上述获取训练数据的方式所需时间较长,从而导致获取到的训练数据的延迟较大,无法获取用户短期(例如10分钟或者5分钟)内的训练数据,从而导致排序模型的排序结果的准确性低。
技术实现思路
1、本技术实施例提供一种排序模型的训练的方法、搜索方法、装置及其设备,能够提高排序模型的排序结果的准确性。
2、第一方面,本技术实施例提供一种排序模型的训练方法,所述方法包括:
3、获取多个用户的训练数据,所述训练数据包括历史搜索行为序列、当前时间之前的第一时间内的最新搜索会话数据和即时搜索行为序列,所述最新搜索会话数据和所述即时搜索行为序列均包括搜索词、与搜索词对应的至少一个搜索文档的标识和搜索文档的交互标签,所述最新搜索会话数据和即时搜索行为序列是根据客户端实时保存的原始搜索数据生成的;
4、获取所述用户的历史搜索行为序列;
5、根据所述历史搜索行为序列确定所述用户的历史搜索特征,根据所述即时搜索行为序列确定所述用户的即时搜索特征,根据所述最新搜索会话数据确定所述用户的最新搜索特征;
6、对所述用户的所述历史搜索特征和所述即时搜索特征进行特征组合,得到组合搜索特征;
7、将所述组合搜索特征和所述最新搜索特征输入排序模型,得到所述最新搜索会话数据中的搜索文档的预测交互概率;
8、根据所述最新搜索会话数据中的搜索文档的预测交互概率和交互标签,对所述排序模型进行训练。
9、第二方面,本技术实施例提供一种搜索方法,包括:
10、接收搜索请求,所述搜索请求中包括搜索词;
11、根据所述搜索请求获取用户的搜索数据,所述搜索数据包括当前搜索会话数据、在当前时间之前的第一时间内的即时搜索行为序列和历史搜索行为序列,其中,所述当前搜索会话数据包括所述搜索词、与所述搜索词对应的至少一个搜索文档,所述即时搜索行为序列包括搜索词、与搜索词对应的至少一个搜索文档的标识和搜索文档的交互标签;
12、根据所述历史搜索行为序列确定所述用户的历史搜索特征,根据所述即时搜索行为序列确定所述用户的即时搜索特征,根据所述当前搜索会话数据确定所述用户的当前搜索特征;
13、对所述用户的所述历史搜索特征和所述即时搜索特征进行特征组合,得到组合搜索特征;
14、将所述组合搜索特征和所述当前搜索特征输入第一方面所述方法训练得到的排序模型中,得到所述当前搜索会话数据中的搜索文档的预测交互概率;
15、根据所述当前搜索会话数据中的搜索文档的预测交互概率,确定所述当前搜索会话数据中的搜索文档的排序结果。
16、第三方面,本技术实施例提供一种排序模型的训练装置,所述装置包括:
17、数据获取模块,用于获取多个用户的训练数据,所述训练数据包括历史搜索行为序列、当前时间之前的第一时间内的最新搜索会话数据和即时搜索行为序列,所述最新搜索会话数据和所述即时搜索行为序列均包括搜索词、与搜索词对应的至少一个搜索文档的标识和搜索文档的交互标签,所述最新搜索会话数据和即时搜索行为序列是根据客户端实时保存的原始搜索数据生成的;
18、特征获取模块,用于根据所述历史搜索行为序列确定所述用户的历史搜索特征,根据所述即时搜索行为序列确定所述用户的即时搜索特征,根据所述最新搜索会话数据确定所述用户的最新搜索特征;
19、特征组合模块,用于对所述用户的所述历史搜索特征和所述即时搜索特征进行特征组合,得到组合搜索特征;
20、排序模块,用于将所述组合搜索特征和所述最新搜索特征输入排序模型,得到所述最新搜索会话数据中的搜索文档的预测交互概率;
21、所述排序模块,还用于根据所述最新搜索会话数据中的搜索文档的预测交互概率和交互标签,对所述排序模型进行训练。
22、第四方面,本技术实施例提供一种搜索装置,包括:
23、接收模块,用于接收搜索请求,所述搜索请求中包括搜索词;
24、第一获取模块,用于根据所述搜索请求获取用户的搜索数据,所述搜索数据包括当前搜索会话数据、在当前时间之前的第一时间内的即时搜索行为序列和历史搜索行为序列,其中,所述当前搜索会话数据包括所述搜索词、与所述搜索词对应的至少一个搜索文档,所述即时搜索行为序列包括搜索词、与搜索词对应的至少一个搜索文档的标识和搜索文档的交互标签;
25、特征获取模块,用于根据所述历史搜索行为序列确定所述用户的历史搜索特征,根据所述即时搜索行为序列确定所述用户的即时搜索特征,根据所述当前搜索会话数据确定所述用户的当前搜索特征;
26、特征组合模块,用于对所述用户的所述历史搜索特征和所述即时搜索特征进行特征组合,得到组合搜索特征;
27、排序模块,用于将所述组合搜索特征和所述当前搜索特征输入第三方面所述装置训练得到的排序模型中,得到所述当前搜索会话数据中的搜索文档的预测交互概率;
28、所述排序模块,还用于根据所述当前搜索会话数据中的搜索文档的预测交互概率,确定所述当前搜索会话数据中的搜索文档的排序结果。
29、第五方面,本技术实施例提供一种电子设备,所述电子设备包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,以执行如上述第一方面所述的方法。
30、第六方面,本技术实施例提供一种电子设备,所述电子设备包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,以执行如上述第二方面所述的方法。
31、第七方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序使得计算机执行如上述第一方面所述的方法。
32、第八方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序使得计算机执行如上述第二方面所述的方法。
33、第九方面,本技术实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面或者第二方面所述的方法。
34、本技术实施例提供的排序模型的训练的方法、搜索方法、装置及其设备,训练设备通过获取多个用户的训练数据,训练数据包括历史搜索行为序列、当前时间之前的第一时间内的最新搜索会话数据和即时搜索行为序列,根据历史搜索行为序列确定用户的历史搜索特征,根据即时搜索行为序列确定用户的即时搜索特征,根据最新搜索会话数据确定用户的最新搜索特征,对用户的历史搜索特征和即时搜索特征进行特征组合,得到组合搜索特征,使用该组合搜索特征和最新搜索特征对排序模型进行训练。由于获取的即时搜索行为序列的时延很小,基于该即时搜索行为序列对排序模型进行训练以及预测,能够提高排序模型的排序结果的准确性。