推荐模型的训练、搜索文本的推荐方法、装置及存储介质与流程

文档序号:19787048发布日期:2020-01-24 13:43阅读:144来源:国知局
推荐模型的训练、搜索文本的推荐方法、装置及存储介质与流程

本发明实施例涉及数据处理技术领域,尤其涉及一种推荐模型的训练、搜索文本的推荐方法、装置及存储介质。



背景技术:

随着网络的发展,播放音视频的载体不再局限于电视,用户可通过智能终端上的音视频软件进行音视频的搜索和播放,现有音视频软件的搜索引擎通常都提供搜索关键词推荐的功能。例如,用户在搜索栏中输入搜索关键词,并点击“开始搜索”的按钮后,跳转到的页面中不仅包含搜索结果(对网页搜索来说,搜索结果是匹配搜索关键词的网页的链接地址和其他展示信息),还包括搜索引擎推荐的与用户输入的搜索关键词相关的其他搜索关键词或搜索关键词的组合。或者,用户在搜索栏中输入搜索关键词,会在搜索栏的下拉菜单中弹出与用户输入的搜索关键词相关的推荐关键词,以便用户选择某一推荐关键词后进行搜索。

然而,对于同一款音视频软件为用户推荐的关键词,通常是基于使用该音视频软件的所有用户的历史搜索行为生成的,上述推荐方式,不能结合每个用户搜索行为的特点,无法保证推荐的精准度。



技术实现要素:

鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一种推荐模型的训练、搜索文本的推荐方法、装置及存储介质。

第一方面,本发明实施例提供一种推荐模型的训练方法,包括:

从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据;

根据时间顺序将所述历史搜索数据划分为第一文本和第二文本,其中,所述第一文本的时间优先级低于所述第二文本;

将所述第一文本作为训练样本,所述训练样本输入至推荐模型中,使所述推荐模型输出与所述训练样本对应的输出结果;

若所述推荐模型的输出结果与所述第二文本的相似度大于第一阈值,则确定所述推荐模型训练完成;若所述推荐模型的输出结果与所述第二文本的相似度小于或等于所述第一阈值,则通过所述输出结果调整所述推荐模型中计算所述输出结果的参数,继续对所述推荐模型进行训练。

在一个可能的实施方式中,所述方法还包括:

从日志文件中获取执行音视频数据播放操作对应的历史观看数据,其中,所述历史观看数据为所述第一文本对应的数据;

所述将所述第一文本作为训练样本对推荐模型进行训练,包括:

将所述第一文本和所述历史观看数据作为训练样本对推荐模型进行训练。

在一个可能的实施方式中,所述方法还包括:

从日志文件中获取执行音视频数据标题点击操作对应的历史点击数据,其中,所述历史点击数据为所述第一文本对应的数据;

所述将所述第一文本作为训练样本对推荐模型进行训练,包括:

将所述第一文本、所述历史观看数据和所述历史点击数据作为训练样本对推荐模型进行训练。

第二方面,本发明实施例提供一种搜索文本的推荐方法,包括:

从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据;

按照时间顺序将所述历史搜索数据生成第一数据序列;

将所述第一数据序列输入推荐模型,以使所述推荐模型输出待推荐的搜索文本,其中,所述推荐模型为利用上述第一方面中任一方法获得的。

在一个可能的实施方式中,所述方法还包括:从日志文件中获取执行音视频数据播放操作对应的历史观看数据,其中,所述历史观看数据为所述历史搜索数据对应的数据;按照时间顺序将所述历史观看数据生成第二数据序列;

所述将所述第一数据序列输入推荐模型,以使所述推荐模型输出待推荐的搜索文本,包括:

将所述第一数据序列和所述第二数据序列输入推荐模型,以使所述推荐模型输出待推荐的搜索文本。

在一个可能的实施方式中,所述推荐模型输出待推荐的搜索文本,包括:

所述推荐模型从所述第一数据序列中提取第一语义特征,以及从所述第二数据序列提取第二语义特征;基于所述第一语义特征和所述第二语义特征预测待推荐的搜索文本。

在一个可能的实施方式中,所述方法还包括:按照优先级别的由高到低顺序对所述待推荐的搜索文本进行排序;将优先级别高于指定级别的待推荐的搜索文本推荐给用户。

在一个可能的实施方式中,所述推荐模型输出待推荐的搜索文本,包括:

所述推荐模型输出符合预设条件的待推荐的搜索文本;

其中,所述预设条件为:所述搜索文本的字符长度小于等于第二阈值,或所述搜索文本中词的个数小于等于第三阈值。

第三方面,本发明实施例提供一种推荐模型的训练装置,包括:

获取模块,用于从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据;划分模块,用于根据时间顺序将所述历史搜索数据划分为第一文本和第二文本,其中,所述第一文本的时间优先级低于所述第二文本;训练模块,用于将所述第一文本作为训练样本,所述训练样本输入至推荐模型中,使所述推荐模型输出与所述训练样本对应的输出结果;若所述推荐模型的输出结果与所述第二文本的相似度大于第一阈值,则确定所述推荐模型训练完成;若所述推荐模型的输出结果与所述第二文本的相似度小于或等于所述第一阈值,则通过所述输出结果调整所述推荐模型中计算所述输出结果的参数,继续对所述推荐模型进行训练。

第四方面,本发明实施例提供一种搜索文本的推荐装置,包括:

获取模块,用于从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据;

生成模块,用于按照时间顺序将所历史述搜索文本生成第一数据序列;

输出模块,用于将所述第一数据序列输入推荐模型,以使所述推荐模型输出待推荐的搜索文本。

第五方面,本发明实施例提供一种终端设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的搜索文本的推荐程序,以实现上述第一方面中任一项所述的推荐模型的训练方法或第二方面中任一项所述的搜索文本的推荐方法。

第六方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面中任一项所述的推荐模型的训练方法或第二方面中任一项所述的搜索文本的推荐。

本发明实施例提供的搜索文本的推荐方案,通过从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据;按照时间顺序将所述历史搜索数据生成第一数据序列;将所述第一数据序列输入推荐模型,以使所述推荐模型输出待推荐的搜索文本,根据每个用户的历史搜索数据确定待推荐的搜索文本,通过分析每个用户的历史搜索数据,可以得出用户在最近时间段的音视频搜索行为,根据用户最近时间段的音视频搜索行为对用户即将执行的音视频搜索行为进行预测,得出待推荐的搜索文本,该搜索文本更符合当前用户的音视频搜索行为,从而实现对用户音视频搜索行为的精准预测。

附图说明

图1a为本发明实施例提供的一种推荐模型的训练方法的流程示意图;

图1b为本发明实施例提供的一种推荐模型的结构示意图;

图2为本发明实施例提供的一种搜索文本的推荐方法的流程示意图;

图3为本发明实施例提供的另一种搜索文本的推荐方法的流程示意图;

图4为本发明实施例提供的一种推荐模型的训练装置的结构示意图;

图5为发明实施例提供的一种搜索文本的推荐装置的结构示意图;

图6为本发明实施例提供的一种服务器的结构示意图;

图7为本发明实施例提供的另一种服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。

图1a为本发明实施例提供的一种推荐模型的训练方法的流程示意图,如图1所示,该方法具体包括:

s11、从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据。

s12、根据时间顺序将所述历史搜索数据划分为第一文本和第二文本。

在进行推荐模型训练过程中,获取某个视频类应用程序对应的日志文件,从该日志文件中获取执行音视频数据搜索操作对应的历史搜索数据,这里的历史搜索数据包括尽可能多的样本,并且将历史搜索数据划分为多个部分,历史搜索数据可以包括:用户使用应用程序搜索功能时输入的搜索文本、输入搜索文本的时间、搜索文本的字符长度等。

根据输入搜索文本的时间将历史搜索数据划分为第一文本和第二文本,其中,所述第一文本的时间优先级低于所述第二文本(第一文本的时间点晚于第二文本的时间点),第一文本可以包括多个搜索文本,第二文本包括一个、且时间最早的搜索文本。

例如,现获取到的历史搜索数据为11个,按照时间先后顺序编号为1-11,1为时间最早的历史搜索数据,11为最晚的搜索数据,将历史搜索数据1划分为第二文本,将历史搜索数据2-11划分为第一文本。

s13、将所述第一文本作为训练样本,所述训练样本输入至推荐模型中,使所述推荐模型输出与所述训练样本对应的输出结果。

根据输入历史搜索文本的时间对第一文本进行排序,生成第一数据序列,将第一数据序列输入推荐模型中,使所述推荐模型输出与第一数据序列对应的输出结果。

在本发明实施例的一可选方案中,从日志文件中获取执行音视频数据播放操作对应的历史观看数据,其中,所述历史观看数据为所述第一文本对应的数据;将所述第一文本和所述历史观看数据作为训练样本对推荐模型进行训练。

进一步地,从日志文件确定历史观看数据对应的时间,按照历史观看数据的时间对历史观看数据进行排序,生成第二数据序列,将第一数据序列和第二数据序列作为训练样本对推荐模型进行训练。

在本发明实施例的另一可选方案中,从日志文件中获取执行音视频数据标题点击操作对应的历史点击数据,其中,所述历史点击数据为所述第一文本对应的数据;将所述第一文本、所述历史观看数据和所述历史点击数据作为训练样本对推荐模型进行训练。

进一步地,从日志文件确定历史点击数据对应的时间,按照历史点击数据的时间对历史点击数据进行排序,生成第三数据序列,将第一数据序列、第二数据序列和第三数据序列作为训练样本对推荐模型进行训练。

s14、若所述推荐模型的输出结果与所述第二文本的相似度大于第一阈值,则确定所述推荐模型训练完成。

将第一文本输入至推荐模型,该推荐模型输出对应的输出结果,该输出结果为推荐模型预测的推荐搜索文本,计算该输出结果与所述第二文本的相似度,相似度的计算方式包括:计算输出结果与第二文本中相同文字/字母占所有文字/字母的比例。

当确定推荐模型的输出结果与所述第二文本的相似度大于第一阈值,则确定所述推荐模型训练完成,否则执行s15。

需要说明的是,对于第一阈值的具体数据可根据实际情况进行设定,如,90%、95%等,对此,本发明实施例,不作具体限定。

s15、若所述推荐模型的输出结果与所述第二文本的相似度小于或等于所述第一阈值,则通过所述输出结果调整所述推荐模型中计算所述输出结果的参数,继续对所述推荐模型进行训练。

在本发明实施例中,借助模型bert,对其的编码部分进行改进,将编码部分的输入进行调整,以数据序列格式的数据作为编码部分输入,参照

图1b,示出了基于模型bert改进后的推荐模型的结构示意图,该推荐模型具体包括:编码模块和解码模块。

进一步地,编码模块包括:第一输入单元、第二输入单元、第一语义提取单元、第二语义提取单元和语义信息汇总单元;第一输入单元用于接收输入的历史搜索数据对应的数据序列,第二输入单元用于接收输入的历史观看数据/历史点击数据对应的数据序列,第一语义提取单元用于从历史搜索数据对应的数据序列提取语义信息,第二语义提取单元用于从历史观看数据/历史点击数对应的数据序列提取语义信息,语义信息汇总单元用于对两个数据序列提取到的语义信息进行汇总。

解码模块包括:第三语义提取单元、线性自动稀疏编码单元、归一化指数函数计算单元和输出单元;第三语义提取单元用于从语义信息汇总单元汇总后的语义信息进行提取,线性自动稀疏编码单元用于对提取到的语义进行线性自动稀疏编码,归一化指数函数计算单元用于对编码后的数据进行归一化指数函数计算,输出单元用于对计算后的结果进行输出,得到模型的输出结果。

在推荐模型配置好后,采用历史搜索数据、历史观看数据/历史点击数据对应的数据序列作为训练样本对推荐模型进行训练,在训练过程中通过调整归一化指数函数计算单元中的参数,当推荐模型的输出结果与第二文本的第二文本的相似度大于第一阈值,确定所述推荐模型训练完成。

图2为本发明实施例提供的一种搜索文本的推荐方法的流程示意图,如图2所示,该方法具体包括:

s21、从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据。

在本发明实施例中,用户在终端设备内应用程序使用搜索功能时,终端设备采用日志文件形式记录用户输入的搜索文本(如,关键词等)。

进一步地,终端设备内的应用程序可以是,但不限于:浏览器、音视频app等,当需要向用户执行搜索文本的推荐时,终端设备的处理器从相应的应用程序的日志文件中获取存储执行音视频数据搜索操作对应的历史搜索数据,历史搜索数据包括:用户使用应用程序搜索功能时输入的搜索文本、输入搜索文本的时间、搜索文本的字符长度等。

s22、按照时间顺序将所历史述搜索文本生成第一数据序列。

将获取到的历史搜索数据按照时间顺序进行排序,生成对应的第一数据序列,具体地,解析历史搜索数据,得到输入的历史搜索文本以及输入历史搜索文本的时间,根据输入历史搜索文本的时间对历史搜索数据进行排序,生成第一数据序列。

例如,解析历史搜索数据得到:2019.06.01-18.00三国演义,2019.05.20-17.00倚天屠龙记,2019.06.02-20.00三国演义。

按照时间顺序将历史搜索数据进行排序(如排序后为,2019.05.20-17.00倚天屠龙记,2019.06.01-18.00三国演义,2019.06.02-20.00三国演义),排序后按照时间顺序将历史搜索文本生成为第一数据序列(第一数据序列包括含有顺序信息的历史搜索文本,如,倚天屠龙记、三国演义、三国演义)。

s23、将所述第一数据序列输入推荐模型,以使所述推荐模型输出待推荐的搜索文本。

将第一数据序列输入到预先训练好的推荐模型中,推荐模型根据第一数据序列进行处理分析,根据第一数据序列预测出待推荐的搜索文本。

进一步地,如第一数据序列为(倚天屠龙记、三国演义、三国演义),推荐模型对(倚天屠龙记、三国演义、三国演义)进行处理分析,以及预测待推荐的搜索文本为(三国演义)。

本发明实施例提供的搜索文本的推荐方法,通过从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据;按照时间顺序将所述历史搜索数据生成第一数据序列;将所述第一数据序列输入推荐模型,以使所述推荐模型输出待推荐的搜索文本,根据每个用户的历史搜索数据确定待推荐的搜索文本,通过分析每个用户的历史搜索数据,可以得出用户在最近时间段的音视频搜索行为,根据用户最近时间段的音视频搜索行为对用户即将执行的音视频搜索行为进行预测,得出待推荐的搜索文本,该搜索文本更符合当前用户的音视频搜索行为,从而实现对用户音视频搜索行为的精准预测。

图3为本发明实施例提供的另一种搜索文本的推荐方法的流程示意图,如图3所示,该方法具体包括:

s31、从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据。

s32、按照时间顺序将所述历史搜索文本生成第一数据序列。

本发明实施例的搜索文本的推荐方法可以应用于视频类应用程序,用户在使用上述应用程序搜索时,终端设备采用日志文件形式记录用户输入的搜索数据,该搜索数据可以包括:搜索文本(query)、搜索文本的输入时间、搜索文本的字符长度等,搜索文本可以是,但不限于:关键词、短句等。

应用程序的后台服务器从相应的应用程序的日志文件中获取存储的执行音视频数据搜索操作对应的历史搜索数据,历史搜索数据为用户使用应用程序搜索功能时输入的搜索文本、输入搜索文本的时间、搜索文本的字符长度等。

进一步地,例如,用户经常性的使用视频app观看视频,当用户再次启动视频app并点击进入搜索界面时,服务器调取视频app对应的日志文件,并从该日志文件中获取用户执行音视频数据搜索操作时的历史搜索数据(例如,2019.06.01-18.00三国演义,2019.05.20-17.00倚天屠龙记,2019.06.02-20.00三国演义),解析历史搜索数据,得到历史搜索文本和历史搜索文本的输入时间,按照时间顺序将历史搜索数据(如,排序后为:2019.05.20-17.00倚天屠龙记,2019.06.01-18.00三国演义,2019.06.02-20.00三国演义),排序后按照时间顺序将历史搜索文本生成为第一数据序列(如,倚天屠龙记、三国演义、三国演义)。

s33、从日志文件中获取执行音视频数据播放操作对应的历史观看数据。

s34、按照时间顺序将所述历史观看数据生成第二数据序列。

在执行搜索操作时,通过输入搜索文本显示对应的搜索结果界面,采用日志文件的形式记录用户对搜索结果界面中各个对象的点击操作(例如,视频标题的点击)和观看操作。

当需要向用户执行搜索文本的推荐时,服务器从相应的应用程序的日志文件中获取存储的执行音视频数据播放操作对应的历史观看数据。

具体地,从日志文件中获取到的历史观看数据包括:音视频名称、观看时间、音视频的播放信息等信息;根据音视频的观看时间对历史观看数据进行排序,排序后从历史观看数据中提取观看时间、音视频名称及音视频的播放信息生成第二数据序列。

进一步地,例如,用户经常性的使用视频类app观看视频,当用户再次启动该app并点击进入搜索界面时,该app的后台服务器调取日志文件,并从该日志文件中获取用户执行音视频数据播放操作对应的历史观看数据,(例如,历史观看数据可以是:2019.06.01-18.01三国演义94版本第30集,2019.05.20-17.00倚天屠龙记01版本第16集,2019.06.02-20.00三国演义94版本第31集),按照历史观看数据中的观看时间的顺序将历史观看数据进行排序(排序后为:2019.05.20-17.00倚天屠龙记01版本第16集,2019.06.01-18.01三国演义94版本第30集,2019.06.02-20.00三国演义94版本第31集),排序后从历史观看数据中提取观看时间、音视频名称及音视频的播放信息生成第二数据序列(第二数据序列为:2019.05.20-17.00倚天屠龙记01版本第16集,2019.06.01-18.01三国演义94版本第30集,2019.06.02-20.00三国演义94版本第31集)。

需要说明的是,在本发明实施例中,获取到的历史搜索数据和历史观看数据需要为最新的,例如,在2019.06.05,18:00进行搜索时,获取的数据为截止2019.06.05,18:00之前的历史搜索数据和历史观看数据,其中,为保证数据的连贯性,设置历史搜索数据和历史观看数据的时间段,例如获取当前搜索时间前48小时内的历史搜索数据和历史观看数据。

对于超出该时间段内的历史搜索数据和历史观看数据舍弃,对于在该时间段内不存在的历史搜索数据和历史观看数据时,采用补零的方式补齐,也即当某时间段内不存在的历史搜索数据和历史观看数据时,第一数据序列和第二数据序列为0。

s35、将所述第一数据序列和所述第二数据序列输入推荐模型。

s36、所述推荐模型从所述第一数据序列中提取第一语义特征,以及从所述第二数据序列提取第二语义特征。

将第一数据序列和第二数据序列输入推荐模型,推荐模型对第一数据序列和第二数据序列进行特征提取(如,先将数据序列进行分词处理,再采用transformer特征提取器提取语义特征),具体地,从第一数据序列中提取第一语义特征,从第二数据序列提取第二语义特征。

例如,第一语义特征和第二语言特征可以是第一数据序列和第二数据序列中某个文字或字母出现次数超过设定阈值的文字或字母。

s37、基于所述第一语义特征和所述第二语义特征预测待推荐的搜索文本。

在本发明实施例中,预测出待推荐的搜索文本可能为单个词或字母,需要将单个词或字母进行组合,在组合过程中可参照历史搜索数据,保证预测待推荐的搜索文本的正确性。

在本发明实施例的一可选方案中,推荐模型输出符合预设条件的待推荐的搜索文本,所述预设条件为:所述搜索文本的字符长度小于等于第二阈值,或所述搜索文本中词的个数小于等于第三阈值,设置搜索文本的字符长度或词的个数避免出现搜索文本过长,影响搜索体验。

对于第二阈值和第三阈值可以根据实际情况进行设定,第二阈值和第三阈值可以设置为相等或不等,本发明实施例不作具体限定。

如,设置输出的搜索文本的字符长度小于等于10个字符,或设置输出的搜索文本中词的个数小于等于10个汉字/字母。

在本发明实施例的一可选方案中,对于影视作品,为实现精准推荐策略,在确定待推荐的搜索文本后,还可以根据用户的历史观看数据进一步限定搜索文本的细节,如,根据第一数据序列和第二数据序列预测出待推荐的搜索文本为:三国演义时,根据历史观看数据可确定用户分别观看了三国演义94版本第30和31集,可预测出用户可能观看31集(之前未看完),或32集,因此,待推荐的搜索文本可以是:三国演义94版本第31、32集。

需要说明的是:对于追剧类型的推荐,可根据用户的长期时间段的观看记录直接进行推荐,例如,某电视剧在视频app上每周一到周五晚8点定时更新两集,用户时时观看更新的相关影集,周四更新为9、10集,当用户周五晚八点之后进入视频app的搜索界面时,直接向用户推送某电视剧的11、12集。

s38、按照优先级别的由高到低顺序对所述待推荐的搜索文本进行排序。

s39、将优先级别高于指定级别的待推荐的搜索文本推荐给用户。

在得到待推荐的搜索文本后,搜索文本可以包括多个,按照优先级别的由高到低顺序对多个搜索文本进行排序,优先级别可以根据第一数据序列的搜索时间和第二数据序列中的观看时间确定,搜索时间/观看时间越早的优先级别越高;将优先级别高于指定级别的待推荐的搜索文本推荐给用户。

按照搜索时间/观看时间将待推荐的搜索文本的优先级别划分为a、b和c(顺次优先级别降低),将优先级别高于b的待推荐的搜索文本推荐给用户。

划分a、b和c的方式可以包括:将搜索时间/观看时间从开始时间点到结束时间点平均划分为三段,通过判断推荐的搜索文本与每个时间段内的历史搜索文本/历史观看数据是否相同,即可确定推荐的搜索文本的优先级别。

本发明实施例提供的搜索文本的推荐方法,通过从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据;按照时间顺序将所述历史搜索数据生成第一数据序列;将所述第一数据序列输入推荐模型,以使所述推荐模型输出待推荐的搜索文本,根据每个用户的历史搜索数据确定待推荐的搜索文本,该搜索文本更符合当前用户的音视频搜索行为,减少用户输入搜索文本的时间,提升用户观看音视频数据的体验。

图4为本发明实施例提供的一种推荐模型的训练装置的结构示意图,如图4所示,该装置具体包括:

获取模块401,用于从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据;

划分模块402,用于根据时间顺序将所述历史搜索数据划分为第一文本和第二文本,其中,所述第一文本的时间优先级低于所述第二文本;

训练模块403,用于将所述第一文本作为训练样本,所述训练样本输入至推荐模型中,使所述推荐模型输出与所述训练样本对应的输出结果;若所述推荐模型的输出结果与所述第二文本的相似度大于第一阈值,则确定所述推荐模型训练完成;若所述推荐模型的输出结果与所述第二文本的相似度小于或等于所述第一阈值,则通过所述输出结果调整所述推荐模型中计算所述输出结果的参数,继续对所述推荐模型进行训练。

可选地,所述获取模块401,还用于从日志文件中获取执行音视频数据播放操作对应的历史观看数据,其中,所述历史观看数据为所述第一文本对应的数据;

所述训练模块403,具体用于将所述第一文本和所述历史观看数据作为训练样本对推荐模型进行训练。

可选地,所述获取模块401,还用于从日志文件中获取执行音视频数据标题点击操作对应的历史点击数据,其中,所述历史点击数据为所述第一文本对应的数据;

所述训练模块403,具体用于将所述第一文本、所述历史观看数据和所述历史点击数据作为训练样本对推荐模型进行训练。

图5为本发明实施例提供的一种搜索文本的推荐装置的结构示意图,如图5所示,该装置具体包括:

获取模块501,用于从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据;

生成模块502,用于按照时间顺序将所历史述搜索文本生成第一数据序列;

输出模块503,用于将所述第一数据序列输入推荐模型,以使所述推荐模型输出待推荐的搜索文本。

可选地,所述获取模块501,还用于从日志文件中获取执行音视频数据播放操作对应的历史观看数据,其中,所述历史观看数据为所述历史搜索数据对应的数据;

所述生成模块502,还用于按照时间顺序将所述历史观看数据生成第二数据序列;

所述输出模块503,还用于将所述第一数据序列和所述第二数据序列输入推荐模型,以使所述推荐模型输出待推荐的搜索文本。

可选地,所述输出模块503,具体用于所述推荐模型从所述第一数据序列中提取第一语义特征,以及从所述第二数据序列提取第二语义特征;基于所述第一语义特征和所述第二语义特征预测待推荐的搜索文本。

可选地,所述装置还包括:推荐模块504,用于按照优先级别的由高到低顺序对所述待推荐的搜索文本进行排序;将优先级别高于指定级别的待推荐的搜索文本推荐给用户。

可选地,所述输出模块503,具体用于所述推荐模型输出符合预设条件的待推荐的搜索文本;

其中,所述预设条件为:所述搜索文本的字符长度小于等于第二阈值,或所述搜索文本中词的个数小于等于第三阈值。

本发明实施例提供的搜索文本的推荐装置可以是如图5中所示的搜索文本的推荐装置,可执行如图2-3中搜索文本的推荐方法的所有步骤,进而实现图2-3所示搜索文本的推荐方法的技术效果,具体请参照图2-3相关描述,为简洁描述,在此不作赘述。

图6为本发明实施例提供的一种服务器的结构示意图,应用于推荐模型的训练,图6所示的服务器600包括:至少一个处理器601、存储器602、至少一个网络接口604和其他用户接口603。服务器600中的各个组件通过总线系统605耦合在一起。可理解,总线系统605用于实现这些组件之间的连接通信。总线系统605除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统605。

其中,用户接口603可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。

可以理解,本发明实施例中的存储器602可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-onlymemory,rom)、可编程只读存储器(programmablerom,prom)、可擦除可编程只读存储器(erasableprom,eprom)、电可擦除可编程只读存储器(electricallyeprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(randomaccessmemory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(staticram,sram)、动态随机存取存储器(dynamicram,dram)、同步动态随机存取存储器(synchronousdram,sdram)、双倍数据速率同步动态随机存取存储器(doubledataratesdram,ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram,esdram)、同步连接动态随机存取存储器(synchlinkdram,sldram)和直接内存总线随机存取存储器(directrambusram,drram)。本文描述的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器602存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统6021和应用程序6022。

其中,操作系统6021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序6022,包含各种应用程序,例如媒体播放器(mediaplayer)、浏览器(browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序6022中。

在本发明实施例中,通过调用存储器602存储的程序或指令,具体的,可以是应用程序6022中存储的程序或指令,处理器601用于执行各方法实施例所提供的方法步骤,例如包括:

从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据;根据时间顺序将所述历史搜索数据划分为第一文本和第二文本,其中,所述第一文本的时间优先级低于所述第二文本;将所述第一文本作为训练样本,所述训练样本输入至推荐模型中,使所述推荐模型输出与所述训练样本对应的输出结果;若所述推荐模型的输出结果与所述第二文本的相似度大于第一阈值,则确定所述推荐模型训练完成;若所述推荐模型的输出结果与所述第二文本的相似度小于或等于所述第一阈值,则通过所述输出结果调整所述推荐模型中计算所述输出结果的参数,继续对所述推荐模型进行训练。

可选地,从日志文件中获取执行音视频数据播放操作对应的历史观看数据,其中,所述历史观看数据为所述第一文本对应的数据;将所述第一文本和所述历史观看数据作为训练样本对推荐模型进行训练。

可选地,从日志文件中获取执行音视频数据标题点击操作对应的历史点击数据,其中,所述历史点击数据为所述第一文本对应的数据;将所述第一文本、所述历史观看数据和所述历史点击数据作为训练样本对推荐模型进行训练。

上述本发明实施例揭示的方法可以应用于处理器601中,或者由处理器601实现。处理器601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器601读取存储器602中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(applicationspecificintegratedcircuits,asic)、数字信号处理器(digitalsignalprocessing,dsp)、数字信号处理设备(dspdevice,dspd)、可编程逻辑设备(programmablelogicdevice,pld)、现场可编程门阵列(field-programmablegatearray,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本发明实施例提供的服务器可以是如图6中所示的服务器,可执行如图2-3中推荐模型的训练方法的所有步骤,进而实现图2-3所示推荐模型的训练方法的技术效果,具体请参照图2-3相关描述,为简洁描述,在此不作赘述。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在推荐模型的训练设备侧执行的推荐模型的训练方法。

所述处理器用于执行存储器中存储的推荐模型的训练程序,以实现以下在推荐模型的训练设备侧执行的推荐模型的训练方法的步骤:

从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据;根据时间顺序将所述历史搜索数据划分为第一文本和第二文本,其中,所述第一文本的时间优先级低于所述第二文本;将所述第一文本作为训练样本,所述训练样本输入至推荐模型中,使所述推荐模型输出与所述训练样本对应的输出结果;若所述推荐模型的输出结果与所述第二文本的相似度大于第一阈值,则确定所述推荐模型训练完成;若所述推荐模型的输出结果与所述第二文本的相似度小于或等于所述第一阈值,则通过所述输出结果调整所述推荐模型中计算所述输出结果的参数,继续对所述推荐模型进行训练。

可选地,从日志文件中获取执行音视频数据播放操作对应的历史观看数据,其中,所述历史观看数据为所述第一文本对应的数据;将所述第一文本和所述历史观看数据作为训练样本对推荐模型进行训练。

可选地,从日志文件中获取执行音视频数据标题点击操作对应的历史点击数据,其中,所述历史点击数据为所述第一文本对应的数据;将所述第一文本、所述历史观看数据和所述历史点击数据作为训练样本对推荐模型进行训练。

图7为本发明实施例提供的另一种的服务器的结构示意图,图7所示的服务器700包括:至少一个处理器701、存储器702、至少一个网络接口704和其他用户接口703。服务器700中的各个组件通过总线系统705耦合在一起。可理解,总线系统705用于实现这些组件之间的连接通信。总线系统705除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统705。

处理器701、存储器702、用户接口703、网络接口704、总线系统705与如图6中的处理器601、存储器602、其他用户接口603、网络接口604和总线系统605类似,具体可参照图6部分的相关描述,为简洁描述,在此,不作赘述。

在一些实施方式中,存储器702存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统7021和应用程序7022。

在本发明实施例中,通过调用存储器702存储的程序或指令,具体的,可以是应用程序7022中存储的程序或指令,处理器701用于执行各方法实施例所提供的方法步骤,例如包括:

从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据;按照时间顺序将所述历史搜索数据生成第一数据序列;将所述第一数据序列输入推荐模型,以使所述推荐模型输出待推荐的搜索文本。

可选地,从日志文件中获取执行音视频数据播放操作对应的历史观看数据,其中,所述历史观看数据为所述历史搜索数据对应的数据;按照时间顺序将所述历史观看数据生成第二数据序列;

将所述第一数据序列和所述第二数据序列输入推荐模型,以使所述推荐模型输出待推荐的搜索文本。

可选地,所述推荐模型从所述第一数据序列中提取第一语义特征,以及从所述第二数据序列提取第二语义特征;基于所述第一语义特征和所述第二语义特征预测待推荐的搜索文本。

可选地,按照优先级别的由高到低顺序对所述待推荐的搜索文本进行排序;将优先级别高于指定级别的待推荐的搜索文本推荐给用户。

可选地,所述推荐模型输出符合预设条件的待推荐的搜索文本;

其中,所述预设条件为:所述搜索文本的字符长度小于等于第二阈值,或所述搜索文本中词的个数小于等于第三阈值。

上述本发明实施例揭示的方法可以应用于处理器701中,或者由处理器701实现。处理器701可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702,处理器701读取存储器702中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(applicationspecificintegratedcircuits,asic)、数字信号处理器(digitalsignalprocessing,dsp)、数字信号处理设备(dspdevice,dspd)、可编程逻辑设备(programmablelogicdevice,pld)、现场可编程门阵列(field-programmablegatearray,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本发明实施例提供的服务器可以是如图7中所示的服务器,可执行如图2-3中搜索文本的推荐方法的所有步骤,进而实现图2-3所示搜索文本的推荐方法的技术效果,具体请参照图2-3相关描述,为简洁描述,在此不作赘述。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在搜索文本的推荐设备侧执行的搜索文本的推荐方法。

所述处理器用于执行存储器中存储的搜索文本的推荐程序,以实现以下在搜索文本的推荐设备侧执行的搜索文本的推荐方法的步骤:

从日志文件中获取执行音视频数据搜索操作对应的历史搜索数据;按照时间顺序将所述历史搜索数据生成第一数据序列;将所述第一数据序列输入推荐模型,以使所述推荐模型输出待推荐的搜索文本。

可选地,从日志文件中获取执行音视频数据播放操作对应的历史观看数据,其中,所述历史观看数据为所述历史搜索数据对应的数据;按照时间顺序将所述历史观看数据生成第二数据序列;

将所述第一数据序列和所述第二数据序列输入推荐模型,以使所述推荐模型输出待推荐的搜索文本。

可选地,所述推荐模型从所述第一数据序列中提取第一语义特征,以及从所述第二数据序列提取第二语义特征;基于所述第一语义特征和所述第二语义特征预测待推荐的搜索文本。

可选地,按照优先级别的由高到低顺序对所述待推荐的搜索文本进行排序;将优先级别高于指定级别的待推荐的搜索文本推荐给用户。

可选地,所述推荐模型输出符合预设条件的待推荐的搜索文本;

其中,所述预设条件为:所述搜索文本的字符长度小于等于第二阈值,或所述搜索文本中词的个数小于等于第三阈值。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1