项目推荐方法与装置、项目推荐模型、介质及电子设备与流程

文档序号:30750435发布日期:2022-07-13 08:50阅读:70来源:国知局
项目推荐方法与装置、项目推荐模型、介质及电子设备与流程

1.本公开涉及人工智能技术领域,具体而言,涉及一种基于强化学习的项目推荐方法与装置、项目推荐模型,以及实现上述基于强化学习的项目推荐方法的计算机可读存储介质和电子设备。


背景技术:

2.随着人工智能技术的发展,推荐系统通过预测模型预测用户可能喜欢的内容,从而为用户推荐满足用户个性化需求的内容。例如,为听歌用户推荐用户可能喜欢的歌曲,为视频/短视频观众推荐其可能喜欢的内容。
3.相关技术中,一般为先获取多个用户的历史浏览数据,然后基于历史浏览数据训练预测模型。进一步地,通过训练后的预测模型向目标用户推荐其可能喜好的项目。
4.然而,通过相关技术提供的方案进行项目推荐时,推荐准确度较低。
5.需要说明的是,上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。


技术实现要素:

6.本公开的目的在于提供一种基于强化学习的项目推荐方法与装置、项目推荐模型,以及实现上述方法的计算机可读存储介质和电子设备,将用户浏览数据中干扰信息进行过滤处理,并通过上述过滤处理后的用户浏览数据进行项目推荐,至少在一定程度上提高推荐准确度。
7.本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
8.根据本公开的一个方面,提供一种基于强化学习的项目推荐方法,包括:根据目标项目的向量表示以及当前项目列表中的历史浏览项目预测对所述目标项目的推荐值,其中,所述当前项目列表由包含用户浏览行为的项目组成;获取所述目标项目与所述历史浏览项目之间的相对特征;基于第一强化学习模型,根据所述相对特征和所述推荐值确定是否需要对所述当前项目列表进行过滤处理;以及,响应于需要对所述当前项目列表进行过滤处理,基于第二强化学习模型,根据所述相对特征在所述当前项目列表中确定待过滤项目,以基于过滤后的优化项目列表进行项目推荐。
9.根据本公开的一个方面,提供了一种项目推荐模型,包括:推荐值预测模型、第一强化学习模型和第二强化学习模型。
10.其中,上述推荐值预测模型,被配置为:根据目标项目的向量表示以及用户的向量表示预测对所述目标项目的推荐值,其中,所述用户的向量表示是根据当前项目列表确定的,所述当前项目列表由包含用户浏览行为的项目组成;上述第一强化学习模型,被配置为:根据相对特征和所述推荐值确定是否需要对所述当前项目列表进行过滤处理,其中,所述相对特征为所述目标项目与所述历史浏览项目之间的相对特征;以及,上述第二强化学
习模型,被配置为:响应于需要对所述当前项目列表进行过滤处理,根据所述相对特征在所述当前项目列表中确定待过滤项目,以使得所述推荐值预测模型基于过滤后的优化项目列表进行项目推荐。
11.根据本公开的一个方面,提供了一种基于强化学习的项目推荐装置,包括:预测模块、获取模块、判断模块以及过滤处理模块。
12.其中,上述预测模块,被配置为:根据目标项目的向量表示以及当前项目列表中的历史浏览项目预测对所述目标项目的推荐值,其中,所述当前项目列表由包含用户浏览行为的项目组成;上述获取模块,被配置为:获取所述目标项目与所述历史浏览项目之间的相对特征;上述判断模块,被配置为:基于第一强化学习模型,根据所述相对特征和所述推荐值确定是否需要对所述当前项目列表进行过滤处理;以及,上述过滤处理模块,被配置为:响应于需要对所述当前项目列表进行过滤处理,基于第二强化学习模型,根据所述相对特征在所述当前项目列表中确定待过滤项目,以基于过滤后的优化项目列表进行项目推荐。
13.在本公开的一些实施例中,基于前述方案,上述获取模块被具体配置为:分别获取上述目标项目与上述多个历史浏览项目之间的个体相对特征;以及,根据上述个体相对特征确定上述目标项目与上述当前项目列表之间的整体相对特征。
14.在本公开的一些实施例中,基于前述方案,上述过滤处理模块被具体配置为:将上述整体相对特征和上述推荐值输入上述第一强化学习模型,以基于上述第一强化学习模型确定上述目标项目与上述当前项目列表之间的整体关联度;以及,基于上述整体关联度确定是否需要对上述当前项目列表进行过滤处理。
15.在本公开的一些实施例中,基于前述方案,上述基于强化学习的项目推荐装置还包括:第一训练模块。
16.其中,上述第一训练模块,被配置为:根据第j次的第一奖励更新上述第一强化学习模型的模型参数,根据更新模型参数后的第一强化学习模型确定是否进行第j次过滤处理,j为大于1的整数;响应于需要进行第j次过滤处理,根据第j次过滤处理后得到的第j优化项目列表,确定对上述目标项目的第j推荐值;根据上述第j推荐值和上述第j-1推荐值确定对上述第一强化学习模型的第j+1次的第一奖励,以根据第j+1次的第一奖励更新上述第一强化学习模型的模型参数。
17.在本公开的一些实施例中,基于前述方案,上述过滤处理模块被进一步的具体配置为:获取上述目标项目与第j优化项目列表中历史浏览项目之间的第j整体相对特征;根据上述第j推荐值和上述第j整体相对特征确定第j状态向量;基于第j次的第一奖励更新模型参数后的第一强化学习模型,对上述第j状态向量进行线性整流处理,得到第j整流向量;以及,基于上述第一强化学习模型的动作参数,处理上述第j整流向量,得到上述目标项目与上述当前项目列表之间的整体关联度。
18.在本公开的一些实施例中,基于前述方案,上述基于强化学习的项目推荐装置还包括:项目推荐模块。
19.其中,上述项目推荐模块,被配置为:响应于无需进行第j次过滤处理,基于第j-1次过滤处理过滤后的第j-1优化项目列表进行项目推荐。
20.在本公开的一些实施例中,基于前述方案,上述获取模块被具体配置为:分别获取上述目标项目与上述多个历史浏览项目之间的个体相对特征。
21.在本公开的一些实施例中,基于前述方案,上述过滤处理模块被具体配置为:将第t历史浏览项目对应的第t个体相对特征输入上述第二强化学习模型,以基于上述第二强化学习模型的模型参数确定上述目标项目与上述第t历史浏览项目之间的个体关联度,t为不大于第t优化项目列表中历史浏览项目个数的整数;以及,基于上述个体关联度确定上述第t历史浏览项目是否为待过滤项目。
22.在本公开的一些实施例中,基于前述方案,上述基于强化学习的项目推荐装置还包括:第二训练模块。
23.其中,上述第二训练模块,被配置为:根据第k次的第二奖励更新上述第二强化学习模型的模型参数,并根据更新模型参数后的第二强化学习模型确定待过滤项目,k为大于1的整数;根据第k次过滤处理后得到的第k优化项目列表,确定对上述目标项目的第k推荐值;根据上述第k推荐值和第k-1推荐值确定第一部分奖励,其中,第k-1推荐值为根据第k-1次过滤处理后得到的第k-1优化项目列表确定的;分别计算上述第k优化项目列表中每个历史浏览项目与上述目标项目之间的相似度,根据上述多个相似度确定第二部分奖励;以及,根据上述第一部分奖励和上述第二部分奖励确定对上述第二强化学习模型的第k+1次的第二奖励,以根据第k+1次的第二奖励更新上述第二强化学习模型的模型参数。
24.在本公开的一些实施例中,基于前述方案,上述过滤处理模块被进一步的具体配置为:获取上述目标项目与第t历史浏览项目之间的第t个体相对特征;根据上述第t个体相对特征确定第t状态向量;基于第k次的第二奖励更新模型参数后的第二强化学习模型,对上述第t状态向量进行线性整流处理,得到第t整流向量;基于上述第二强化学习模型的动作参数,处理上述第t整流向量,得到上述目标项目与上述第t历史浏览项目之间的个体关联度。
25.在本公开的一些实施例中,基于前述方案,上述预测模块包括用户向量表示单元和推荐值确定单元。
26.其中,上述用户向量表示单元被配置为:根据上述当前项目列表中的历史浏览项目确定用户的向量表示;上述推荐值确定单元被配置为:基于上述用户的向量表示和上述目标项目的向量表示,预测对上述目标项目的推荐值。
27.在本公开的一些实施例中,基于前述方案,上述用户向量表示单元被具体配置为:对第j次过滤处理后得到的第j优化项目列表中的历史浏览项目的向量表示求平均,得到用于用户的第j向量表示,以用于预测对上述目标项目的第j推荐值。
28.在本公开的一些实施例中,基于前述方案,上述获取模块被配置为:获取上述目标项目与上述历史浏览项目之间的以下信息中的一种或几种:余弦距离、向量的点乘积和项目的特征标签间的相似度,得到上述相对特征。
29.根据本公开的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的基于强化学习的项目推荐方法。
30.根据本公开的一个方面,提供一种电子设备,包括:一个或多个处理器;以及存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述第一方面所述的基于强化学习的项目推荐方法。
31.根据本公开的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序
产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质中读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的基于强化学习的项目推荐方法。
32.由上述技术方案可知,本公开示例性实施例中的基于强化学习的项目推荐方法、基于强化学习的项目推荐装置、计算机可读存储介质及电子设备至少具备以下优点和积极效果:
33.在本公开的一些实施例所提供的技术方案中,先通过预测模型预测对目标项目的推荐值。然后,基于第一强化学习模型,根据目标项目与历史浏览项目之间的相对特征以及上述推荐值,判断目标视频与当前的项目列表之间在整体级别上的相关性,若整体上的相关性较小则说明当前的项目列表中包含较多的干扰信息,则需要对项目列表进行过滤处理。进一步地,基于第二强化学习模型,根据目标项目与历史浏览项目之间的相对特征,判断目标视频与当前的项目列表中每个历史浏览项目之间在个体级别上的相关性,若与某一历史浏览项目之间的相关性较小则说明该历史浏览项目属于干扰信息,并将该干扰信息过滤掉。可见本技术方案基于在两个层次上判断目标视频与项目列表中历史浏览项目之间的相关性,能够快速且有效的分辨出当前项目列表是否需要过滤以及确定待过滤项目。而基于过滤掉干扰信息的项目列表对目标项目进行推荐值预测,有助于模型预测的准确度。
34.同时,本技术方案基于过滤后的优化项目列表进行项目推荐,也就是说本技术方案基于上述第一强化学习模型和第二强化学习模型对确定推荐值的预测模型进行增强处理,从而有利于进一步提升项目推荐的准确度。
35.本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
36.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
37.图1示出本公开一示例性实施例中项目推荐模型的结构示意图。
38.图2示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
39.图3示出本公开一示例性实施例中项目列表的示意图。
40.图4示出本公开一示例性实施例中基于强化学习的项目推荐方法的流程示意图。
41.图5示出本公开一示例性一实施例中项目推荐值的预测方法的流程示意图。
42.图6示出本公开另一示例性实施例中基于强化学习的项目推荐方法的流程示意图。
43.图7示出本公开一示例性实施例中对第一强化学习模型的训练方法的流程示意图。
44.图8示出本公开一示例性实施例中对第二强化学习模型的训练方法的流程示意图。
45.图9示出本公开一示例性实施例中基于强化学习的项目推荐装置的结构示意图。
46.图10示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
47.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
48.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
49.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
50.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
51.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
52.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
53.强化学习(reinforcement learning,rl),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。
54.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、迁移学习、归纳学习、式教学习等技术。
55.本公开实施例提供的方案涉及人工智能的强化学习和机器学习等技术,具体通过如下实施例进行说明:
56.相关技术中,一般为先获取多个用户的历史浏览数据,然后基于历史浏览数据训
练预测模型,即依赖于分析用户历史浏览数据来确定用户兴趣点。但是当用户浏览量较大或者用户历史浏览数据中存在干扰信息时,将会导致用于训练预测模型的数据中存在干扰信息,导致不必要的计算量并不利于预测模型的预测准确度。
57.针对相关技术中存在的技术问题,本技术方案提供一种基于强化学习的项目推荐方法、装置、推荐模型、介质及设备。首先,图1示意性示出了根据本公开示例性实施例提供的项目推荐模型的示意图。参考图1,项目推荐模型包括:推荐值预测模型11、第一强化学习模型12以及第二强化学习模型13。
58.具体地,上述推荐值预测模型11根据目标项目的向量表示以及用户的向量表示预测对目标项目的推荐值a。其中,项目列表中由包含用户浏览行为的项目组成,上述用户的向量表示可以根据项目列表确定。
59.进一步地,获取目标项目与历史浏览项目之间的相对特征b,在上述第一强化学习模型中,根据上述相对特征b与对目标项目的推荐值a确定是否需要对项目列表进行过滤处理。在确定对当前项目列表进行过滤处理c的情况下,基于第二强化学习模型13根据上述相对特征b在当前项目列表中确定出待过滤项目,以使得推荐值预测模型11基于过滤后的优化项目列表d进行项目推荐。
60.图2示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
61.如图2所示,系统架构100可以包括终端110、网络120、服务器端130。其中,终端110和服务器端130通过网络120连接。
62.终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。网络120可以是能够在终端110和服务器端130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路、无线通信链路或者光纤电缆等等,本技术在此不做限制。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
63.具体地,服务器端130可以提供项目推荐模型的训练,例如,对推荐值预测模型11的训练,对第一强化学习模型12、第二强化学习模型13的训练等。还可以存储训练后的项目推荐模型,将推荐值预测模型11、第一强化学习模型12、第二强化学习模型13存储至服务器端130。
64.另外,用户可以在终端120对项目(如,视频、歌曲、商品、新闻等)产生的浏览行为,从而产生项目列表(如图3)。参考图3,以视频作为项目为例,参考图3示出的“视频浏览记录”(项目列表),其中可以为用户点击、浏览、收藏、转发或评论等的多种类型的视频。示例性的,服务器端130获取该包含用户浏览行为的项目,得到项目列表。进而,在服务器端130执行以下步骤:根据目标项目的向量表示以及当前项目列表中的历史浏览项目预测对目标项目的推荐值,以及,获取目标项目与历史浏览项目之间的相对特征;基于第一强化学习模型,根据相对特征和推荐值确定是否需要对当前项目列表进行过滤处理,若需要对所述当前项目列表进行过滤处理,则基于第二强化学习模型,根据相对特征在当前项目列表中确定待过滤项目,以基于过滤后的优化项目列表进行项目推荐。
65.本公开实施例中的基于强化学习的项目推荐方法也可以应用于终端。本公开对此
不做特殊限定。本公开实施例主要以基于强化学习的项目推荐方法应用于服务器端130来举例说明。
66.接下来介绍本技术方案提供的基于强化学习的项目推荐方法。其中,图4示出本公开一示例性实施例中基于强化学习的项目推荐方法的流程示意图。参考图4,该实施例提供的基于强化学习的项目推荐方法,包括:
67.步骤s410,根据目标项目的向量表示以及当前项目列表中的历史浏览项目预测对所述目标项目的推荐值,其中,所述当前项目列表由包含用户浏览行为的项目组成;
68.步骤s420,获取所述目标项目与所述历史浏览项目之间的相对特征;
69.步骤s430,基于第一强化学习模型,根据所述相对特征和所述推荐值确定是否需要对所述当前项目列表进行过滤处理;以及,
70.步骤s440,响应于需要对所述当前项目列表进行过滤处理,基于第二强化学习模型,根据所述相对特征在所述当前项目列表中确定待过滤项目,以基于过滤后的优化项目列表进行项目推荐。
71.图4所示实施例提供的基于强化学习的项目(item)推荐方案,适用于对短视频(一般为时长较短的视频内容,如,微录vlog、小视频等)、视频(如,影视作品)、音乐、商品以及新闻等的预测与推荐。下述各个实施例中的“目标项目”可以是任一个项目(item),例如,在对短视频推荐方案中,“目标项目”可以是任意一个短视频。本方案通过先判断该目标视频与当前的项目列表之间在整体级别上的相关性,若整体上的相关性较小则说明当前的项目列表中包含较多的干扰信息,则需要对项目列表进行过滤处理。然后判断目标视频与当前的项目列表中每个历史浏览项目之间在个体级别上的相关性,若与某一历史浏览项目之间的相关性较小则说明该历史浏览项目属于干扰信息,并将该干扰信息过滤掉。可见,本技术方案基于在两个层次上判断目标视频与项目列表中历史浏览项目之间的相关性,能够快速且有效的分辨出当前项目列表是否需要过滤以及确定待过滤项目。而基于过滤掉干扰信息的项目列表对目标项目进行推荐值预测,有助于模型预测的准确度。
72.同时,本技术方案基于过滤后的优化项目列表进行项目推荐,也就是说本技术方案基于上述第一强化学习模型和第二强化学习模型对确定推荐值的预测模型进行增强处理,从而有利于进一步提升项目推荐的准确度。
73.以下实施例中以“短视频”为例,对图4所示实施例的各个步骤的具体实施方式进行详细阐述:
74.在示例性的实施例中,先获取项目列表,其中项目列表由包含用户浏览行为的项目组成。例如,用户在过往一周内进行过以下操作:点击、浏览、收藏、转发或评论等的短视频,即可以作为上述项目列表。
75.需要说明的是,鉴于在第一强化学习模型12、第二强化学习模型13的训练过程中,推荐值预测模型11是不断被增强的,也就是说,推荐值预测模型11进行预测使用到的“项目列表”是不断更新的。因此,使用“当前项目列表”指代还未经过过滤处理的原始项目列表,也可以指代经过第j次过滤处理后的优化项目列表(可以记作“第j优化项目列表”)。
76.在步骤s410中,通过推荐值预测模型11中预测对目标项目的推荐值。作为一种具体实施方式,图5示例性示出了本公开一实施例中确定推荐值的方法流程示意图。参考图5,该方法包括步骤s510和步骤s520。
77.在步骤s510中,根据所述当前项目列表中的历史浏览项目确定用户的向量表示。
78.在示例性的实施例中,通过学习用户与历史浏览项目的交互信息来构建用户的向量表示。例如根据以下公式确定用户的向量表示:
[0079][0080]
其中,qu为用户的向量表示,tu为当前项目列表中的项目数量,p
tu
为当前项目列表中第t个项目的向量表示。
[0081]
需要说明的是,在上述步骤s510中确定对用户的向量表示的具体实施方式不限于上述一种,还可以是矩阵分解方式,即通过分解用户视频交互矩阵来获得用户的向量表示;还可以是图网络嵌入,即通过在用户视频交互图上面随机游走,来构建训练语料,随后通过word2vec来学习用户的向量表示等,本实施例对此不做限定。
[0082]
在步骤s520中,基于所述用户的向量表示和所述目标项目的向量表示,预测对所述目标项目的推荐值。
[0083]
在示例性的实施例中,根据以下公式预测对目标项目ci的推荐值:
[0084][0085]
其中,εu表示当前项目列表,包括多个历史浏览项目,qu为用户的向量表示,ci表示目标项目,pi为目标项目的向量表示,p(y=1|εu,ci)表示对目标项目ci的推荐值。
[0086]
需要说明的是,在上述步骤s410中确定对目标项目的推荐值的具体实施方式不限于上述一种预测模型,还可以是其他预测模型,例如神经网络模型,本实施例对此不做限定。
[0087]
在步骤s420中,获取上述目标项目分别与当前项目列表中每个历史浏览项目之间的相对特征。示例性的,在本技术方案中该“相对特征”用于衡量目标项目与当前项目列表/列表中某一个历史浏览项目之间的相关性(也可以作为差别度)。参考图3,“视频浏览记录”(项目列表)包括:美食类的视频a、视频b、视频f,体育类的短视c、美妆类的视频e以及游戏类的视频d。假如,目标项目为美食类的视频,则该目标项目分别与视频a之间的相关性较强,而与视频c、视频d或视频e之间的相关性较弱。其中,与目标项目相关性较强的项目有利于确定对该目标项目的推荐值,相反,与目标项目相关性较弱的项目并不利于确定对该目标项目的推荐值,即可以作为“干扰信息”进行过滤,以提升对目标项目推荐值的预测准确度。
[0088]
为了避免直接将目标项目与各个历史浏览项目进行比对相关性带来的计算量大的问题,本技术方案中,先确定目标项目与整个项目记录的相关性。具体的,获取目标项目与当前项目列表之间的“整体相对特征”,若该整体相对特征体现为目标项目与当前项目列表之间的相关性较弱/差别度较大,说明当前项目列表存在较多的干扰信息,需对该项目列表进行过滤处理。
[0089]
进一步地,获取目标项目与当前项目列表中某一个历史浏览项目之间的“个体相对特征”,若该个体相对特征体现为目标项目与该历史浏览项目之间的相关性较弱/差别度较大,说明该历史浏览项目为待过滤项目。相反,若该个体相对特征体现为目标项目与该历史浏览项目之间的相关性较强/差别度不大,说明该历史浏览项目可以用于预测目标项目
的推荐值,则对其进行保留。
[0090]
可见,本技术方案基于在两个层次上判断目标视频与项目列表中历史浏览项目之间的相关性,能够快速且有效的分辨出当前项目列表是否需要过滤以及确定待过滤项目。
[0091]
在示例性的实施例中,图6示出本公开一示例性实施例中确定当前项目列表需要过滤处理的方法流程示意图。参考图6,该方法包括以下步骤:
[0092]
在步骤s610中,分别获取所述目标项目与所述多个历史浏览项目之间的个体相对特征。
[0093]
在示例性的实施例中,为了获取目标项目ci(向量表示为pi)与当前项目列表中历史浏览项目(向量表示为p
tu
,t的取值范围为不大于当前项目列表中项目个数的正整数)之间的相关性/差别度,可以计算目标项目与历史浏览项目之间的以下信息中的一种或几种:余弦距离向量的点乘积(pi·
p
tu
)和项目的特征标签间的相似度,得到目标项目与某个历史浏览项目之间的个体相对特征。
[0094]
在示例性的实施例中,可以用欧几里得距离来确定特征标签之间的相似度。具体的,可以首先分别获取目标项目的特征标签以及任一历史浏览项目的特征标签。其中,特征标签用于体现项目本身特点。例如,目标项目为体育类新闻,则该新闻的关键词可以作为其特征标签,例如其特征标签可以包括:体育、篮球、科比、冠军。同样,历史浏览新闻的关键词,即其特征标签为:体育、乒乓球、男子单打、马龙。进一步地,计算目标项目的特征标签与历史浏览项目的特征标签之间的欧几里得距离。示例性的,所得欧几里得距离的值越小,说明目标项目的特征标签与历史浏览项目的特征标签之间的相似度越大,反之,两者之间的相似度越小。
[0095]
在步骤s620中,根据所述个体相对特征确定所述目标项目与所述当前项目列表之间的整体相对特征。
[0096]
在示例性的实施例中,计算当前项目列表中每个历史浏览项目对应的个体相对特征的平均值,作为目标项目与当前项目列表之间的整体相对特征。通过求平均的方式来在整体上反映当前项目列表与目标项目之间的相关性。
[0097]
在示例性的实施例中,在基于第一强化学习模型进行预测处理之前,先通过图7介绍对第一强化学习模型的训练过程。参考图7:
[0098]
在步骤s710中,根据第j次的第一奖励更新所述第一强化学习模型的模型参数,j为大于1的整数。
[0099]
其中,上述“第一奖励”为在此次迭代处理过程中对第一强化学习模型的奖励值(reward)。关于第一奖励的确定将在步骤s740对应的实施例部分进行介绍。
[0100]
在步骤s720中,根据更新模型参数后的第一强化学习模型确定是否进行第j次过滤处理。
[0101]
示例性的,第一强化学习模型确定是否进行第j次过滤处理的具体处理方式将在步骤s640对应的实施例部分进行介绍。
[0102]
响应于不需要进行第j次过滤处理,说明当前项目列表与目标项目相关性较强,无需再对当前项目列表进行过滤,即使用前一次过滤处理后的优化项目列表进行项目推荐就可以满足推荐准确度的要求,则执行步骤s730’:基于第j-1次(前一次)过滤处理过滤后的
第j-1优化项目列表进行项目推荐。
[0103]
响应于需要进行第j次过滤处理,说明当前项目列表与目标项目相关性较弱,需再一次对当前项目列表进行过滤,则执行步骤s730和步骤s740。在步骤s730中,根据第j次过滤处理后得到的第j优化项目列表(记作),确定对所述目标项目的第j推荐值(记作)。
[0104]
示例性的,在响应于需要进行第2(即,j=2)次过滤处理的情况下,例如在第2次过滤处理后的项目列表(记作“第j优化项目列表”)可以表示为[项目a,项目b、项目x,项目y],则将[项目a,项目b、项目x,项目y]的向量表示输入至推荐值预测模型11中,基于公式(2)确定对目标项目第j推荐值。
[0105]
在步骤s740中,根据所述第j推荐值和所述第j-1推荐值确定对所述第一强化学习模型第j+1次的第一奖励。
[0106]
其中,第j-1推荐值(记作“p(y=1|εu,ci)”)为基于步骤s730示出的方式,根据第j-1次过滤处理后得到的第j-1优化项目列表确定的。
[0107]
示例性的,先根据以下公式(3)确定对第一强化学习模型的子奖励。
[0108][0109]
其中,r(s
ht
,a
ht
)表示对上述第一奖励,s
ht
表示第j次迭代过程中第一强化学习模型的状态向量,a
ht
表示第j次迭代过程中第一强化学习模型的的动作参数,表示基于第j优化向量列表确定的对目标项目ci的推荐值,p(y=1|εu,ci)表示基于第j-1优化向量列表εu确定的对目标项目ci的推荐值,tu表示第j优化向量列表中的项目个数。
[0110]
然后,根据以下公式(4),结合上述子奖励r(s
ht
,a
ht
)确定对所述第一强化学习模型的第j+1次的第一奖励。
[0111][0112]
其中,θh为第一强化学习模型的参数。
[0113]
参考图7,将j+1赋值给j,以及将j赋值给j-1,继续执行步骤s710,以根据第j+1次的第一奖励更新所述第一强化学习模型的模型参数。
[0114]
进一步地,基于迭代处理后的第一强化学习模型确定目标项目与当前项目列表之间的整体关联度:继续参考图6,在步骤s630中,将所述整体相对特征和所述推荐值输入所述第一强化学习模型,以基于所述第一强化学习模型确定所述目标项目与所述当前项目列表之间的整体关联度;以及,在步骤s640中,基于所述整体关联度确定是否需要对所述当前项目列表进行过滤处理。
[0115]
在示例性的实施例中,步骤s630和步骤s640的具体实施方式包括:
[0116]
s1、获取目标项目与第j优化项目列表中历史浏览项目之间的第j整体相对特征。步骤s1的具体实施方式如步骤s620的具体实施方式,在此不再赘述。
[0117]
s2、根据第j推荐值和所述第j整体相对特征确定第j状态向量s
ht

[0118]
s3、基于第j次的第一奖励更新模型参数后的第一强化学习模型,利用公式(5)对所述第j状态向量进行线性整流处理,得到第j整流向量。
[0119]hht
=relu(w
h1sht
+b
h1
)
ꢀꢀꢀꢀꢀꢀ
(5)
[0120]
其中,h
ht
表示第一强化学习模型中的第j整流向量,relu()为线性整流函数,s
ht
表示第一强化学习模型的第j状态向量,w
h1
和b
h1
为基于第j次的第一奖励更新后的整流参数。
[0121]
s4、利用公式(6),基于第一强化学习模型的动作参数a
ht
,处理所述第j整流向量,得到所述目标项目与所述当前项目列表之间的整体关联度。
[0122]
π(s
ht
,a
ht
)=p(a
ht
|s
ht
,θh)=a
ht
σ(w
h2hht
)+(1-a
ht
)(1-σ(w
h2hht
))
ꢀꢀꢀ
(6)
[0123]
其中,θh为第一强化学习模型的模型参数,w
h2
为基于第j次的第一奖励更新后的激活参数,σ(
·
)为sigmode函数,动作参数a
ht
取值为0或1。当动作参数a
ht
取值为0时,π(s
ht
,a
ht
)确定当前项目列表无需被过滤的概率,当动作参数a
ht
取值为1时,π(s
ht
,a
ht
)确定当前项目列表需被过滤的概率。
[0124]
从而,在动作参数a
ht
取值为1时,可以根据公式(6)的输出概率值确定当前项目列表是否被过滤。
[0125]
在确定当前项目列表需要被过滤处理时,可以通过上述第二强化学习模型在当前项目列表中确定出待过滤项目。以下先介绍对第二强化学习模型的训练过程,然后介绍基于第二强化学习模型在当前项目列表中确定出待过滤项目的具体实施方式。
[0126]
图8示出了本公开一示例性实施例中第二强化学习模型的训练方法的流程示意图。参考图8,该方法包括步骤s810-步骤s850。
[0127]
在步骤s810中,根据第k次的第二奖励更新所述第二强化学习模型的模型参数,k为大于1的整数。
[0128]
其中,上述“第二奖励”为在此次迭代处理过程中对第二强化学习模型的奖励值(reward)。关于第二奖励的确定将在步骤s840和步骤s850中进行介绍。
[0129]
在步骤s820中,根据第k次过滤处理后得到的第k优化项目列表(记作),确定对所述目标项目的第k推荐值
[0130]
示例性的,在响应于需要进行第2(即,k=3)次过滤处理的情况下,例如在第3次过滤处理后的项目列表(记作“第k优化项目列表”)可以表示为[项目o,项目p、项目q],则将[项目o,项目p、项目q]的向量表示输入至推荐值预测模型11中,基于公式(2)确定对目标项目第k推荐值。
[0131]
在步骤s830中,根据所述第k推荐值和第k-1推荐值确定第一部分奖励,其中,第k-1推荐值(记作“p(y=1|εu,ci)”)为根据第k-1次过滤处理后得到的第k-1优化项目列表确定的。
[0132]
示例性的,根据以下公式(7)确定第一部分奖励。
[0133][0134]
其中,r(s
lt
,a
lt
)表示对第一奖励中的第一部分奖励,s
lt
表示第k次迭代过程中的状态向量,a
lt
表示第k次迭代过程中的动作参数,表示基于第k优化向量列表确定的目标项目ci的推荐值,p(y=1|εu,ci)表示基于第k-1优化向量列表εu确定的目标项目ci的推荐值,tu表示第k优化向量列表中的项目个数。
[0135]
可以看出,公式(7)确定的第一部分奖励是在第k次迭代处理结束后才能确定的,
以下将介绍在此次迭代处理过程中产生的奖励,即第二部分奖励。
[0136]
在步骤s840中,分别计算所述第k优化项目列表中每个历史浏览项目与所述目标项目之间的相似度,根据所述多个相似度确定第二部分奖励g(s
lt
,a
lt
)。假如第k优化项目列表表示为[项目o,项目p、项目q],分别计算项目o,项目p、项目q与目标项目之间的余弦距离,根据余弦距离确定第二部分奖励g(s
lt
,a
lt
)。
[0137]
上述第二部分奖励g(s
lt
,a
lt
)无需在此次迭代结束后便可以确定,因此有利于加速对第二强化学习模型的训练。
[0138]
在步骤s850中,根据以下公式(8),结合所述第一部分奖励r(s
lt
,a
lt
)和所述第二部分奖励g(s
lt
,a
lt
)确定对所述第二强化学习模型的第k+1次的第一奖励,以根据第k+1次的第一奖励更新所述第二强化学习模型的模型参数。
[0139][0140]
其中,θ
l
为第二强化学习模型的参数。
[0141]
参考图8,将k+1赋值给k,继续执行步骤s810,以根据第k+1次的第二奖励更新所述第二强化学习模型的模型参数。
[0142]
参考图6,包括步骤s610、步骤s620’以及步骤s630’。其中,步骤s610的具体实施方式不再赘述。
[0143]
进一步地,基于迭代处理后的第二强化学习模型确定目标项目与当前项目列表中历史浏览项目之间的个体关联度:继续参考图6,包括步骤s610、步骤s620’以及步骤s630’。其中,步骤s610的具体实施方式不再赘述。
[0144]
在步骤s620’中,将第t历史浏览项目对应的第t个体相对特征输入所述第二强化学习模型,以基于所述第二强化学习模型的模型参数确定所述目标项目与所述第t历史浏览项目之间的个体关联度;以及,在步骤s630’,基于所述个体关联度确定所述第t历史浏览项目是否为待过滤项目。
[0145]
在示例性的实施例中,步骤s620’和s630’的具体实施方式包括:
[0146]
s1、获取目标项目与第t历史浏览项目之间的第t个体相对特征。步骤s1的具体实施方式如步骤s610的具体实施方式,在此不再赘述。
[0147]
s2、根据所述第t个体相对特征确定第t状态向量s
lt

[0148]
s3、基于第k次的第二奖励更新模型参数后的第二强化学习模型,利用公式(9)对所述第t状态向量进行线性整流处理,得到第t整流向量。
[0149]hlt
=relu(w
l1slt
+b
l1
)
ꢀꢀꢀ
(9)
[0150]
其中,h
lt
表示第二强化学习模型中的第t整流向量,relu()为线性整流函数,s
lt
表示第二强化学习模型的第t状态向量,w
l1
和b
l1
为基于第k次的奖励更新的整流参数。
[0151]
s4、利用公式(10),基于第二强化学习模型的动作参数a
lt
,处理所述第t整流向量,得到所述目标项目与第t历史浏览项目之间的个体关联度。
[0152]
π(s
lt
,a
lt
)=p(a
lt
|s
lt

l
)=a
lt
σ(w
l2hlt
)+(1-a
lt
)(1-σ(w
l2hlt
))
ꢀꢀꢀ
(10)
[0153]
其中,θ
l
基于第二强化学习模型的模型参数,w
l2
为基于第k次的第二奖励更新后的激活参数,σ(
·
)为sigmode函数,动作参数a
lt
取值为0或1。当动作参数a
lt
取值为0时,π(s
lt
,a
lt
)确定第t历史浏览项目被保留的概率,当动作参数a
lt
取值为1时,π(s
lt
,a
lt
)确定第
t历史浏览项目被过滤的概率。
[0154]
从而,在动作参数a
lt
取值为1时,可以根据公式(10)的输出概率值确定当前项目列表中第t历史浏览项目是否被过滤。进一步地,将待过滤项目进行过滤处理得到的项目列表作为更新后的“当前项目列表”,并在根据如图6中步骤s610-步骤s640示出的方式判断“当前项目列表”是否需要被过滤。
[0155]
当“当前项目列表”中不包含待过滤项目时,则“当前项目列表”可以用于项目推荐。则,以视频为例,基于过滤后的优化项目列表进行视频推荐的具体实施方式可以包含以下几种方案:
[0156]
方案a:基于相似度的推荐
[0157]
基于相似度的推荐技术主要分为两类:一类是基于用户相似度的推荐方法,对于一个给定用户,通过推荐与该用户相似的用户浏览过的视频给出推荐结果。另一类是基于视频的推荐方法,给定一个用户,通过推荐与该用户浏览视频最相似的视频的方法给出推荐结果。
[0158]
方案b:基于匹配度的推荐
[0159]
基于匹配度的推荐技术主要通过计算给定用户与候选集视频的匹配度,然后按照匹配度对候选集视频进行排序,随后推荐匹配度最高的几个视频。
[0160]
方案c:基于节点嵌入的推荐
[0161]
基于节点嵌入的推荐技术通过协同过滤、图嵌入等方法获取用户和视频特征,随后使用特征向量点乘的方式来预测用户和视频的关系。并推荐点乘向量最大的几个视频。
[0162]
需要注意的是,进行项目推荐的方案不限于上述几种,还可以是其他项目推荐方式,本技术对此不做限定。
[0163]
本技术方案基于在两个层次上判断目标视频与项目列表中历史浏览项目之间的相关性,能够快速且有效的分辨出当前项目列表是否需要过滤以及确定待过滤项目。同时,本技术方案基于过滤后的优化项目列表进行项目推荐,也就是说本技术方案基于上述第一强化学习模型和第二强化学习模型对确定推荐值的预测模型进行增强处理,从而有利于提升项目推荐的准确度。
[0164]
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由处理器,(包括gpu/cpu)执行的计算机程序。在该计算机程序被gpu/cpu执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
[0165]
此外,需要注意的是,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
[0166]
以下通过图9介绍本公开的基于强化学习的项目推荐装置实施例,可以用于执行本公开上述的基于强化学习的项目推荐方法。
[0167]
图9示出本公开示例性实施例中基于强化学习的项目推荐装置的结构示意图。如图9所示,上述基于强化学习的项目推荐装置900包括:预测模块901、获取模块902、判断模块903以及过滤处理模块904。
[0168]
其中,上述预测模块901,被配置为:根据目标项目的向量表示以及当前项目列表中的历史浏览项目预测对上述目标项目的推荐值,其中,上述当前项目列表由包含用户浏览行为的项目组成;上述获取模块902,被配置为:获取上述目标项目与上述历史浏览项目之间的相对特征;上述判断模块903,被配置为:基于第一强化学习模型,根据上述相对特征和上述推荐值确定是否需要对上述当前项目列表进行过滤处理;以及,上述过滤处理模块904,被配置为:响应于需要对上述当前项目列表进行过滤处理,基于第二强化学习模型,根据上述相对特征在上述当前项目列表中确定待过滤项目,以基于过滤后的优化项目列表进行项目推荐。
[0169]
在本公开的一些实施例中,基于前述方案,上述获取模块902被具体配置为:分别获取上述目标项目与上述多个历史浏览项目之间的个体相对特征;以及,根据上述个体相对特征确定上述目标项目与上述当前项目列表之间的整体相对特征。
[0170]
在本公开的一些实施例中,基于前述方案,上述过滤处理模块904被具体配置为:将上述整体相对特征和上述推荐值输入上述第一强化学习模型,以基于上述第一强化学习模型确定上述目标项目与上述当前项目列表之间的整体关联度;以及,基于上述整体关联度确定是否需要对上述当前项目列表进行过滤处理。
[0171]
在本公开的一些实施例中,基于前述方案,上述基于强化学习的项目推荐装置900还包括:第一训练模块。
[0172]
其中,上述第一训练模块,被配置为:根据第j次的第一奖励更新上述第一强化学习模型的模型参数,根据更新模型参数后的第一强化学习模型确定是否进行第j次过滤处理,j为大于1的整数;响应于需要进行第j次过滤处理,根据第j次过滤处理后得到的第j优化项目列表,确定对上述目标项目的第j推荐值;根据上述第j推荐值和上述第j-1推荐值确定对上述第一强化学习模型的第j+1次的第一奖励,以根据第j+1次的第一奖励更新上述第一强化学习模型的模型参数。
[0173]
在本公开的一些实施例中,基于前述方案,上述过滤处理模块904被进一步的具体配置为:获取上述目标项目与第j优化项目列表中历史浏览项目之间的第j整体相对特征;根据上述第j推荐值和上述第j整体相对特征确定第j状态向量;基于第j次的第一奖励更新模型参数后的第一强化学习模型,对上述第j状态向量进行线性整流处理,得到第j整流向量;以及,基于上述第一强化学习模型的动作参数,处理上述第j整流向量,得到上述目标项目与上述当前项目列表之间的整体关联度。
[0174]
在本公开的一些实施例中,基于前述方案,上述基于强化学习的项目推荐装置900还包括:项目推荐模块。
[0175]
其中,上述项目推荐模块,被配置为:响应于无需进行第j次过滤处理,基于第j-1次过滤处理过滤后的第j-1优化项目列表进行项目推荐。
[0176]
在本公开的一些实施例中,基于前述方案,上述获取模块902被具体配置为:分别获取上述目标项目与上述多个历史浏览项目之间的个体相对特征。
[0177]
在本公开的一些实施例中,基于前述方案,上述过滤处理模块904被具体配置为:将第t历史浏览项目对应的第t个体相对特征输入上述第二强化学习模型,以基于上述第二强化学习模型的模型参数确定上述目标项目与上述第t历史浏览项目之间的个体关联度,t为不大于第t优化项目列表中历史浏览项目个数的整数;以及,基于上述个体关联度确定上
述第t历史浏览项目是否为待过滤项目。
[0178]
在本公开的一些实施例中,基于前述方案,上述基于强化学习的项目推荐装置900还包括:第二训练模块。
[0179]
其中,上述第二训练模块,被配置为:根据第k次的第二奖励更新上述第二强化学习模型的模型参数,并根据更新模型参数后的第二强化学习模型确定待过滤项目,k为大于1的整数;根据第k次过滤处理后得到的第k优化项目列表,确定对上述目标项目的第k推荐值;根据上述第k推荐值和第k-1推荐值确定第一部分奖励,其中,第k-1推荐值为根据第k-1次过滤处理后得到的第k-1优化项目列表确定的;分别计算上述第k优化项目列表中每个历史浏览项目与上述目标项目之间的相似度,根据上述多个相似度确定第二部分奖励;以及,根据上述第一部分奖励和上述第二部分奖励确定对上述第二强化学习模型的第k+1次的第二奖励,以根据第k+1次的第二奖励更新上述第二强化学习模型的模型参数。
[0180]
在本公开的一些实施例中,基于前述方案,上述过滤处理模块904被进一步的具体配置为:获取上述目标项目与第t历史浏览项目之间的第t个体相对特征;根据上述第t个体相对特征确定第t状态向量;基于第k次的第二奖励更新模型参数后的第二强化学习模型,对上述第t状态向量进行线性整流处理,得到第t整流向量;基于上述第二强化学习模型的动作参数,处理上述第t整流向量,得到上述目标项目与上述第t历史浏览项目之间的个体关联度。
[0181]
在本公开的一些实施例中,基于前述方案,上述预测模块901包括用户向量表示单元和推荐值确定单元。
[0182]
其中,上述用户向量表示单元被配置为:根据上述当前项目列表中的历史浏览项目确定用户的向量表示;上述推荐值确定单元被配置为:基于上述用户的向量表示和上述目标项目的向量表示,预测对上述目标项目的推荐值。
[0183]
在本公开的一些实施例中,基于前述方案,上述用户向量表示单元被具体配置为:对第j次过滤处理后得到的第j优化项目列表中的历史浏览项目的向量表示求平均,得到用于用户的第j向量表示,以用于预测对上述目标项目的第j推荐值。
[0184]
在本公开的一些实施例中,基于前述方案,上述获取模块902被配置为:获取上述目标项目与上述历史浏览项目之间的以下信息中的一种或几种:余弦距离、向量的点乘积和项目的特征标签间的相似度,得到上述相对特征。
[0185]
上述基于强化学习的项目推荐装置中各单元的具体细节已经在基于强化学习的项目推荐方法中进行了详细的描述,因此此处不再赘述。
[0186]
图10示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
[0187]
需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0188]
如图10所示,计算机系统1000包括处理器1001,其中处理器1001又具体可以包括:图像处理单元(graphics processing unit,简称:gpu)和中央处理单元(central processing unit,简称:cpu),其可以根据存储在只读存储器(read-only memory,简称:rom)1002中的程序或者从存储部分1008加载到随机访问存储器(random access memory,简称:ram)1003中的程序而执行各种适当的动作和处理。在ram 1003中,还存储有系统操作所需的各种程序和数据。处理器1001、rom 1002以及ram 1003通过总线1004彼此相连。输
入/输出(input/output,简称:i/o)接口1005也连接至总线1004。
[0189]
以下部件连接至i/o接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(cathode ray tube,简称:crt)、液晶显示器(liquid crystal display,简称:lcd)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如局域网(local area network,简称:lan)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
[0190]
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时,执行本技术的系统中限定的各种功能。
[0191]
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0192]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0193]
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬
件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
[0194]
作为另一方面,本技术还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
[0195]
例如,所述的电子设备可以实现如图4中所示的:步骤s410,根据目标项目的向量表示以及当前项目列表中的历史浏览项目预测对所述目标项目的推荐值,其中,所述当前项目列表由包含用户浏览行为的项目组成;步骤s420,获取所述目标项目与所述历史浏览项目之间的相对特征;步骤s430,基于第一强化学习模型,根据所述相对特征和所述推荐值确定是否需要对所述当前项目列表进行过滤处理;以及,步骤s440,响应于需要对所述当前项目列表进行过滤处理,基于第二强化学习模型,根据所述相对特征在所述当前项目列表中确定待过滤项目,以基于过滤后的优化项目列表进行项目推荐。
[0196]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0197]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
[0198]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0199]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1