媒体文件推荐方法、装置、电子设备及计算机存储介质与流程

文档序号:30436549发布日期:2022-06-17 20:23阅读:74来源:国知局
媒体文件推荐方法、装置、电子设备及计算机存储介质与流程

1.本技术涉及数据处理技术领域,具体而言,本技术涉及一种媒体文件推荐方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.近年来,随着推荐系统在互联网电商、搜索引擎、视频网站的广泛应用,其显著的技术启发性引起了业界的关注。越来越多的企业开始注重智能推荐的研究与应用,将人工智能的相关技术应用到智能推荐领域来,从而提升用户的体验。通俗来说,智能推荐就是基于用户的过往行为,来推测用户潜在的兴趣爱好,进而将用户可能感兴趣的东西推荐给用户。
3.目前的推荐算法主要分为基于协同过滤的推荐算法和基于用户特征的推荐算法。其中,基于协同过滤的推荐算法只考虑到各媒体文件之间的表面联系,有可能出现两个媒体文件的表面特征十分类似而实质内容截然不同的情况,同时由于基于协同过滤的推荐算法严重依赖于惯用数据,无法解决冷启动问题,其效率也不利于大规模的部署应用。基于用户特征的推荐算法则极度依赖于用户特征的构造,推荐的效果受限于媒体内容的描述的详细程度,容易受到构造特征的技术人员的影响,同时基于用户特征的推荐方法会一直推荐给用户内容密切关联的媒体,缺乏推荐内容的多样性。


技术实现要素:

4.本技术提供了一种媒体文件推荐方法、装置、电子设备及计算机可读存储介质,用于解决现有的媒体文件推荐方法仅关注媒体文件的表面特征,关注层次较为浅显,以及依赖于用户特征构造效果的问题。
5.根据本技术的一个方面,提供了一种媒体文件推荐方法,包括:
6.获取目标用户的媒体数据;其中,媒体数据包括第一媒体数据和第二媒体数据;第一媒体数据包括目标用户的历史播放数据的媒体类型信息,第二媒体数据包括历史播放数据的播放时间信息;
7.将媒体数据输入至预设处理器,得到目标用户的推荐结果;其中,预设处理器包括第一处理器、第二处理器以及第三处理器;第一处理器基于第一媒体数据的上下文信息确定第一特征向量;第二处理器基于第二媒体数据对应的低维向量确定第二特征向量;第三处理器基于时间注意力机制以及媒体数据,确定目标用户的第三特征向量;推荐结果为根据第一特征向量、第二特征向量以及第三特征向量确定的。
8.可选地,获取目标用户的媒体数据,包括:
9.获取目标用户的历史播放数据;其中,历史播放数据包括媒体名称信息、媒体类型信息和播放时间信息;
10.根据历史播放数据中的媒体名称信息和媒体类型信息,确定目标用户的第一媒体数据;
11.根据历史播放数据中的媒体名称信息和播放时间信息,确定目标用户的第二媒体数据。
12.可选地,根据历史播放数据中的媒体名称信息和媒体类型信息,确定目标用户的第一媒体数据,包括:
13.获取历史播放数据中的第一媒体初始数据;第一媒体初始数据包括媒体名称信息和媒体类型信息;
14.当第一媒体初始数据中不存在对应的时长数据时,将第一时长数据作为第一媒体初始数据中的时长数据;第一时长数据为历史播放数据中对应的播放时长最长的时长数据;
15.当第一媒体初始数据中的时长数据小于预设时长数据时,将第一媒体初始数据中的时长数据更新为预设时长数据,得到第一媒体数据。
16.可选地,根据历史播放数据中的媒体名称信息和播放时间信息,确定目标用户的第二媒体数据,包括:
17.获取历史播放数据中的第二媒体初始数据;第二媒体初始数据包括媒体名称信息和播放时间信息;播放时间信息包括播放开始时间和播放结束时间;
18.根据媒体名称信息筛选出存在对应的第一媒体数据的第二媒体初始数据,作为第二媒体数据。
19.可选地,将媒体数据输入至预设处理器,得到目标用户的推荐结果,包括:
20.将媒体数据输入至预设处理器,得到第一特征向量、第二特征向量以及第三特征向量;
21.将第一特征向量、第二特征向量以及第三特征向量进行特征向量融合,得到融合结果;
22.基于融合结果进行相似度计算,得到目标用户的推荐结果。
23.可选地,融合结果包括媒体特征向量和用户特征向量;推荐结果包括第一推荐结果和第二推荐结果;
24.基于融合结果进行相似度计算,得到目标用户的推荐结果,包括:
25.基于媒体特征向量进行相似度计算,得到目标用户的第一推荐结果,基于用户特征向量进行相似度计算,得到目标用户的第二推荐结果。
26.可选地,方法还包括:
27.获取训练数据;
28.将训练数据输入至初始处理器,得到初始推荐结果;
29.根据初始推荐结果对初始处理器进行反向优化,得到优化后的处理器,直至得到满足预设精确度要求的预设处理器。
30.根据本技术的另一个方面,提供了一种媒体文件推荐装置,包括:
31.第一获取模块,用于获取目标用户的媒体数据;其中,媒体数据包括第一媒体数据和第二媒体数据;第一媒体数据包括目标用户的历史播放数据的媒体类型信息,第二媒体数据包括历史播放数据的播放时间信息;
32.第一推荐模块,用于将媒体数据输入至预设处理器,得到目标用户的推荐结果;其中,预设处理器包括第一处理器、第二处理器以及第三处理器;第一处理器基于第一媒体数
据的上下文信息确定第一特征向量;第二处理器基于第二媒体数据对应的低维向量确定第二特征向量;第三处理器基于时间注意力机制以及媒体数据,确定目标用户的第三特征向量;推荐结果为根据第一特征向量、第二特征向量以及第三特征向量确定的。
33.可选地,第一获取模块包括:
34.第一获取子模块,用于获取目标用户的历史播放数据;其中,历史播放数据包括媒体名称信息、媒体类型信息和播放时间信息;
35.第二获取子模块,用于根据历史播放数据中的媒体名称信息和媒体类型信息,确定目标用户的第一媒体数据;
36.第三获取子模块,用于根据历史播放数据中的媒体名称信息和播放时间信息,确定目标用户的第二媒体数据。
37.可选地,第二获取子模块包括:
38.第二获取单元,用于获取历史播放数据中的第一媒体初始数据;第一媒体初始数据包括媒体名称信息和媒体类型信息;
39.第一更新单元,用于当第一媒体初始数据中不存在对应的时长数据时,将第一时长数据作为第一媒体初始数据中的时长数据;第一时长数据为历史播放数据中对应的播放时长最长的时长数据;
40.第二更新单元,用于当第一媒体初始数据中的时长数据小于预设时长数据时,将第一媒体初始数据中的时长数据更新为预设时长数据,得到第一媒体数据。
41.可选地,第三获取子模块包括:
42.第三获取单元,用于获取历史播放数据中的第二媒体初始数据;第二媒体初始数据包括媒体名称信息和播放时间信息;播放时间信息包括播放开始时间和播放结束时间;
43.筛选单元,用于根据媒体名称信息筛选出存在对应的第一媒体数据的第二媒体初始数据,作为第二媒体数据。
44.可选地,第一推荐模块包括:
45.输入子模块,用于将媒体数据输入至预设处理器,得到第一特征向量、第二特征向量以及第三特征向量;
46.融合子模块,用于将第一特征向量、第二特征向量以及第三特征向量进行特征向量融合,得到融合结果;
47.计算子模块,用于基于融合结果进行相似度计算,得到目标用户的推荐结果。
48.可选地,融合结果包括媒体特征向量和用户特征向量;推荐结果包括第一推荐结果和第二推荐结果;
49.计算子模块具体用于基于媒体特征向量进行相似度计算,得到目标用户的第一推荐结果,基于用户特征向量进行相似度计算,得到目标用户的第二推荐结果。
50.可选地,装置还包括:
51.第二获取模块,用于获取训练数据;
52.第二推荐模块,用于将训练数据输入至初始处理器,得到初始推荐结果;
53.训练模块,用于根据初始推荐结果对初始处理器进行反向优化,得到优化后的处理器,直至得到满足预设精确度要求的预设处理器。
54.根据本技术的另一个方面,提供了一种电子设备,该电子设备包括:
55.一个或多个处理器;
56.存储器;
57.一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行本技术第一个方面所示的媒体文件推荐方法。
58.根据本技术的另一个方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本技术第一个方面所示的媒体文件推荐方法。
59.应用本技术提供的一种媒体文件推荐方法,获取目标用户的媒体数据;其中,媒体数据包括第一媒体数据和第二媒体数据;第一媒体数据包括目标用户的历史播放数据的媒体类型信息,第二媒体数据包括历史播放数据的播放时间信息;将媒体数据输入至预设处理器,得到目标用户的推荐结果;其中,预设处理器包括第一处理器、第二处理器以及第三处理器;第一处理器基于第一媒体数据的上下文信息确定第一特征向量;第二处理器基于第二媒体数据对应的低维向量确定第二特征向量;第三处理器基于时间注意力机制以及媒体数据,确定目标用户的第三特征向量;推荐结果为根据第一特征向量、第二特征向量以及第三特征向量确定的。
60.本技术通过预设处理器中的第一处理器、第二处理器以及第三处理器分别从目标用户的历史播放数据中的媒体数据提取出关键信息,确定相应的特征向量,然后在融合特征向量之后进行相似度计算,实现了从媒体相似度和用户相似度两个方面向用户推荐媒体文件,推荐结果能够精确地捕捉到不同用户深层次的兴趣偏好,具备较好的解释性。
附图说明
61.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
62.图1为本技术实施例提供的一种媒体文件推荐方法的流程示意图之一;
63.图2为本技术实施例提供的一种媒体文件推荐方法的流程示意图之二;
64.图3为本技术实施例提供的一种媒体文件推荐装置的结构示意图;
65.图4为本技术实施例提供的一种媒体文件推荐电子设备的结构示意图。
具体实施方式
66.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能解释为对本发明的限制。
67.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措
辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
68.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
69.一种现有的应用场景中,采用基于协同过滤的推荐算法向用户推荐媒体文件,在用户的历史观看记录中寻找相似的媒体文件推荐给用户,或者将有共同观看记录的用户所观看的媒体文件推荐给用户。基于协同过滤的推荐算法更多的只考虑到各影视作品之间的表面联系,例如,媒体文件的标题或者特征,因此,可能出现两个媒体文件的标题十分类似而内容截然不同的情况,推荐的效果就会十分有限。同时由于协同过滤算法严重依赖于惯用数据,在冷启动问题上显得无能为力。另一方面,基于协同过滤的推荐算法不能应用于大规模的部署应用。
70.另一种现有的应用场景中,采用基于用户特征的推荐算法向用户推荐媒体文件,构建用户的偏好特征,根据用户的偏好特征进行推荐。基于用户特征的推荐算法极度依赖于用户特征的构造,即便特征的构造十分精妙,仍然存在用户的某些特征难以捕捉的问题,也就是说对于用户爱好的召回比较低。从节目内容刻画的角度来说,容易受限于对节目的内容进行描述的详细程度,对于一些内容上的特有特征难以捕捉。从推荐多样性的角度来说,基于用户特征的推荐方法会一直推荐给用户内容密切关联的节目,而失去了推荐内容的多样性。
71.本技术提供的媒体文件推荐方法、装置及电子设备,旨在解决现有技术的如上技术问题。
72.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
73.本技术实施例中提供了一种媒体文件推荐方法,如图1所示,具体包括:
74.步骤s101,获取目标用户的媒体数据;其中,媒体数据包括第一媒体数据和第二媒体数据;第一媒体数据包括目标用户的历史播放数据的媒体类型信息,第二媒体数据包括历史播放数据的播放时间信息。
75.获取目标用户的历史播放数据,历史播放数据例如在媒体播放网站中记录的目标用户的历史播放记录中的数据,媒体数据为从历史播放数据中提取出的关键数据,包括第一媒体数据和第二媒体数据。换言之,第一媒体数据和第二媒体数据都是通过对目标用户的历史播放数据进行处理得到的。
76.本技术实施例中的媒体文件包括视频文件、音频文件等常规类型的媒体文件,这里以视频文件为例进行说明。第一媒体数据包括目标用户的历史播放数据的媒体类型信息,媒体类型信息例如媒体文件所属的新闻类型、财经类型、体育类型、生活类型等信息。除此之外,第一媒体数据还包括媒体名称信息、媒体形态信息、媒体内容信息等。其中,媒体名称信息是指目标用户的历史播放数据中记录的媒体文件的名称;媒体形态信息例如专题片、纪实片、脱口秀等形态信息;媒体内容信息是指媒体文件本身的具体内容信息。
77.第二媒体数据包括历史播放数据的播放时间信息,播放时间信息例如目标用户的历史播放数据中媒体文件的播放时间信息,包括对应的媒体文件开始播放的时间和结束播放的时间。第二媒体数据还包括播放时间信息对应的媒体文件的名称,即媒体名称信息。
78.通过第一媒体数据和第二媒体数据,实现媒体类型信息与播放类型信息的结合。具体而言,第一媒体数据对应的是媒体文件本身的属性,第二媒体数据对应的是目标用户播放媒体文件的属性。基于第一媒体数据可以分析不同类型、不同形态的媒体文件之间的深层次联系,基于第二媒体数据可以分析不同的用户播放媒体文件的偏好、播放时间的习惯等行为特征。本技术实施例将第一媒体数据和第二媒体数据结合起来进行比较、分析和计算,能够更全面和准确地确定目标用户喜欢的媒体文件。
79.步骤s102,将媒体数据输入至预设处理器,得到目标用户的推荐结果。
80.其中,预设处理器包括第一处理器、第二处理器以及第三处理器;第一处理器基于第一媒体数据的上下文信息确定第一特征向量;第二处理器基于第二媒体数据对应的低维向量确定第二特征向量;第三处理器基于时间注意力机制以及媒体数据,确定目标用户的第三特征向量;推荐结果为根据第一特征向量、第二特征向量以及第三特征向量确定的。
81.获取目标用户的媒体数据之后,将媒体数据输入至预设处理器,得到目标用户的推荐结果。本技术实施例中提供的预设处理器,具体由至少三个子处理器组成,即第一处理器、第二处理器以及第三处理器。
82.其中,第一处理器可以基于bert(bidirectional encoderrepresentation from transformers)模型进行设计。bert模型是一种基于微调的多层双向transformer编码器,也是一种预训练语言表示的方法。 bert模型在处理一个词汇或句子的时候,能够考虑到这个词汇或句子的上下文信息,从而获得上下文语义,进而产生更精准的特征表示,提高模型性能。
83.第一处理器从第一媒体数据中获取不同的媒体文件之间的上下文信息,基于上下文信息确定目标用户的第一特征向量。
84.第二处理器可以基于item2vec模型进行设计,主要用于对第二媒体数据进行数据处理。item2vec模型将目标用户的第二媒体数据作为行为序列转化为item组成的句子,将原本高维稀疏的表示方式映射到低维稠密的向量空间中提取特征,对低维向量进行计算确定第二特征向量。其中,第二处理器中还可以引入概率丢弃词的方法,平衡低频词和高频词,从而提升确定第二特征向量的准确性。
85.第二处理器从第二媒体数据中获取目标用户的行为特征向量,作为第二特征向量。
86.第三处理器可以基于t-am(time-attention mechanism)模型进行设计,引入时间注意力机制,加入时间参数确定第三特征向量,使得输出结果更贴合用户的兴趣变化情况。t-am模型的本质是模仿人类视觉注意力机制,学习出一个对媒体文件特征的权重分布,再把这些权重分布施加在原来的特征上,为基于节目的推荐和基于用户的推荐等提供不同的特征影响,使得任务主要关注一些重要特征,忽略不重要特征,提高任务效率。
87.第三处理器根据时间注意力机制从媒体数据中确定目标用户的第三特征向量。t-am模型包括权重计算过程,即设计一个打分函数,针对每个attention向量,计算出一个分值,打分依据就是和attention向量所关注的对象的相关程度,越相关,所得值越大,将分值映射成为(0,1)的值。
88.媒体文件推荐应考虑时间效应,因为用户的兴趣是有时间变化的。用户过去一周喜欢的媒体文件现在不一定感兴趣,相比于推荐过去喜欢的媒体文件,推荐用户近期喜欢
的媒体文件更有参考价值。
89.例如,以一周为一个时间周期,构造以时间x为变量的时间函数时间函数以每周第四天为中心对称,单调递减。结合时间参数和媒体数据,即可确定目标用户的第三特征向量。
90.预设处理器分别基于第一处理器、第二处理器以及第三处理器确定目标用户的第一特征向量、第二特征向量以及第三特征向量。根据第一特征向量、第二特征向量以及第三特征向量确定目标用户的推荐结果。
91.推荐结果例如包括媒体文件的名称、媒体文件的网络链接等信息,用户通过推荐结果即可播放感兴趣的媒体文件。通过预设处理器中的第一处理器、第二处理器以及第三处理器提取目标用户的关键特征向量,对特征向量进行融合和计算,从而实现了确定更符合用户需求的媒体文件推荐结果。
92.本技术实施例中,通过预设处理器中的第一处理器、第二处理器以及第三处理器分别从目标用户的历史播放数据中提取出关键信息,确定相应的特征向量,然后在融合特征向量后进行相似度计算,实现了从媒体相似度和用户相似度两个方面向用户推荐媒体文件,推荐结果能够精确地捕捉到不同用户深层次的兴趣偏好,具备较好的解释性。
93.本技术一种优选实施例中,提供了获取目标用户的媒体数据的可能的实现方式,包括获取目标用户的第一媒体数据和获取目标用户的第二媒体数据的可能的实现方式。
94.获取目标用户的历史播放数据;其中,历史播放数据包括媒体名称信息、媒体类型信息和播放时间信息。
95.获取目标用户的历史播放数据,其中,历史播放数据包括目标用户曾经播放过的媒体的各类媒资信息,例如,媒体名称信息、媒体形态信息、媒体类型信息以及媒体的具体内容等,除此之外,历史播放数据还包括目标用户曾经播放媒体的具体播放时间。本技术实施例中,历史播放数据至少包括媒体名称信息、媒体类型信息以及播放时间信息。
96.其中,获取目标用户的第一媒体数据,包括:
97.根据历史播放数据中的媒体名称信息和媒体类型信息,确定目标用户的第一媒体数据。
98.第一媒体数据包括历史播放数据中的媒体名称信息和媒体类型信息,也可以包括其他类型的媒资信息,例如,媒体形态信息、媒体的具体内容等。根据获取的历史播放数据中的媒体名称信息和媒体类型信息,就可以确定出目标用户的第一媒体数据。
99.本技术一种优选实施例中,提供了根据历史播放数据中的媒体名称信息和媒体类型信息,确定目标用户的第一媒体数据的可能的实现方式。
100.获取历史播放数据中的第一媒体初始数据;第一媒体初始数据包括媒体名称信息和媒体类型信息。
101.获取历史播放数据中的第一媒体初始数据,其中,第一媒体初始数据与第一媒体数据对应。第一媒体初始数据包括媒体名称信息和媒体类型信息。对历史播放数据中的第一媒体初始数据进行预处理,就可以得到对应的第一媒体数据。
102.当第一媒体初始数据中不存在对应的时长数据时,将第一时长数据作为第一媒体初始数据中的时长数据;第一时长数据为历史播放数据中对应的播放时长最长的时长数
据;
103.第一媒体初始数据对应的时长数据也属于媒体的媒资信息,时长数据可以在获取历史播放数据时就直接获取得到。具体而言,部分历史播放数据中的时长数据存在缺失的情况,例如,在获取第一媒体初始数据中对应的时长数据时,可能出现获取到的时长数据为空值的情况,也就是第一媒体初始数据不存在对应的时长数据。在这种情况下,需要对时长数据进行具体的处理,从而得到符合预设要求的第一媒体数据。
104.通常情况下,时长数据是指媒体自身所携带的时长数据,当媒体自身没有携带对应的时长数据时,就将第一时长数据作为第一媒体初始数据中的时长数据。第一时长数据为历史播放数据中记录的对应的媒体被播放的最长的时长数据。
105.当第一媒体初始数据中的时长数据小于预设时长数据时,将第一媒体初始数据中的时长数据更新为预设时长数据,得到第一媒体数据。
106.当第一媒体初始数据中不存在对应的时长数据时,将第一时长数据作为第一媒体初始数据中的时长数据;当第一媒体初始数据中存在对应的时长数据时,不做任何处理。
107.进一步,当第一媒体初始数据中的时长数据小于预设时长数据时,还需对时长数据进行再一次更新处理。预设时长数据为预先设定的第一媒体数据的标准时长数据,可以由用户自行设定。不同媒体形态的媒体所对应的第一时长数据可以是不同的。本技术实施例中,可以通过填充时长的方式完成对时长数据的更新处理。具体而言,填充同媒体形态的媒体对应的时长数据,得到时长数据统一为预设时长数据的第一媒体数据。
108.其中,获取目标用户的第二媒体数据,包括:
109.根据历史播放数据中的媒体名称信息和播放时间信息,确定目标用户的第二媒体数据。
110.第二媒体数据包括历史播放数据中的媒体名称信息和播放时间信息,也可以包括其他类型的历史播放数据信息。播放时间信息包括目标用户曾经播放媒体的开始播放时间和结束播放时间,根据开始播放时间和结束播放时间可以计算得到目标用户曾经播放不同的媒体的具体播放时长。
111.本技术一种优选实施例中,提供了根据历史播放数据中的媒体名称信息和播放时间信息,确定目标用户的第二媒体数据的可能的实现方式。
112.获取历史播放数据中的第二媒体初始数据;第二媒体初始数据包括媒体名称信息和播放时间信息;播放时间信息包括播放开始时间和播放结束时间。
113.获取历史播放数据中的第二媒体初始数据,其中,第二媒体初始数据与第二媒体数据对应。第二媒体初始数据包括媒体名称信息和播放时间信息。播放时间信息包括播放开始时间和播放结束时间。对历史播放数据中的第二媒体初始数据进行预处理,就可以得到对应的第二媒体数据。
114.具体而言,目标用户的历史播放数据中可能存在缺失播放时间信息的情况,例如,目标用户曾经播放媒体文件01,对应的历史播放数据中不存在媒体文件01的播放开始时间和播放结束时间中的至少一项,从而无法根据播放时间信息确定出媒体文件01的具体播放时长。本技术实施例中,舍弃播放时间信息不完整的媒体数据,也就是说,获取的第二媒体初始数据为包括播放开始时间和播放结束时间的媒体数据。
115.根据媒体名称信息筛选出存在对应的第一媒体数据的第二媒体初始数据,作为第
二媒体数据。
116.第一媒体数据包括媒体名称信息,第二媒体初始数据也包括媒体名称信息。针对从历史播放数据中获取到的第二媒体初始数据,根据对应的媒体名称信息筛选出合适的第二媒体初始数据,作为第二媒体数据,具体而言,合适的第二媒体初始数据是指与第一媒体数据存在对应的媒体名称信息的第二媒体初始数据。例如,第二媒体初始数据对应的媒体名称信息为 02,存在第一媒体数据对应的媒体名称信息也为02,那么就将该第二媒体初始数据作为第二媒体数据。若第二媒体初始数据不存在相同媒体名称的第一媒体数据,就将该第二媒体初始数据舍弃。
117.本技术一种优选实施例中,提供了将媒体数据输入至预设处理器,得到目标用户的推荐结果的可能的实现方式。
118.将媒体数据输入至预设处理器,得到第一特征向量、第二特征向量以及第三特征向量。
119.将目标用户的媒体数据输入至预设处理器,其中,媒体数据包括第一媒体数据和第二媒体数据。预设处理器中的第一处理器对第一媒体数据进行特征提取处理,得到第一特征向量;预设处理器中的第二处理器对第二媒体数据进行特征提取处理,得到第二特征向量;预设处理器中的第三处理器基于媒体数据和时间注意力机制,计算得到第三特征向量。
120.将第一特征向量、第二特征向量以及第三特征向量进行特征向量融合,得到融合结果。
121.预设处理器在基于三个子处理器获取到目标用户的特征向量后,将特征向量进行融合处理,得到融合结果。
122.为了更清楚地表示特征向量融合的步骤,这里将第一特征向量表示为 a,将第二特征向量表示为b,那么,第一特征向量与第二特征向量的融合结果为c=[ab]。
[0123]
进一步,为了向目标用户更全面地推荐媒体,本技术实施例提供了具体的基于媒体特征和基于用户特征的两种特征融合方式。
[0124]
其中,基于媒体特征的融合结果表示为v=c*f(x);其中,f(x)为第三处理器提供的时间参数。
[0125]
基于用户特征的融合结果表示为其中,ui为第i 个用户的向量表示,m为第i个用户在一个周期内的历史播放记录总数, f(x)为第三处理器提供的时间参数。
[0126]
基于第一特征向量、第二特征向量以及第三特征向量进行特征向量融合,得到融合结果。
[0127]
基于融合结果进行相似度计算,得到目标用户的推荐结果。
[0128]
具体而言,本技术实施例中至少得到基于媒体特征和基于用户特征的两种融合结果,分别对两种融合结果进行相似度计算,从而得到全面的目标用户的推荐结果。
[0129]
相似度计算可以采用余弦相似度计算的方式。例如,a和b是两个n 维向量,a是[a1,a2,

,an],b是[b1,b2,

,bn],那么a与b的夹角θ的余弦表示为
[0130][0131]
预设处理器分别计算目标用户的媒体相似度和用户相似度,然后基于媒体相似度和用户相似度确定对应的推荐结果。
[0132]
本技术一种优选实施例中,提供了基于融合结果进行相似度计算,得到目标用户的推荐结果的可能的实现方式。
[0133]
基于媒体特征向量进行相似度计算,得到目标用户的第一推荐结果,基于用户特征向量进行相似度计算,得到目标用户的第二推荐结果。
[0134]
预设处理器基于媒体特征向量v计算不同的媒体之间的相似度,并筛选相似度最高的预设数量的媒体,作为目标用户的第一推荐结果。预设处理器基于用户特征向量u计算不同的用户之间的相似度,并筛选相似度最高的预设数量的用户的历史播放记录中的媒体,作为目标用户的第二推荐结果。
[0135]
应用本技术实施例提供的一种媒体文件推荐方法,获取目标用户的媒体数据;其中,媒体数据包括第一媒体数据和第二媒体数据;第一媒体数据包括目标用户的历史播放数据的媒体类型信息,第二媒体数据包括历史播放数据的播放时间信息;将媒体数据输入至预设处理器,得到目标用户的推荐结果;其中,预设处理器包括第一处理器、第二处理器以及第三处理器;第一处理器基于第一媒体数据的上下文信息确定第一特征向量;第二处理器基于第二媒体数据对应的低维向量确定第二特征向量;第三处理器基于时间注意力机制以及媒体数据,确定目标用户的第三特征向量;推荐结果为根据第一特征向量、第二特征向量以及第三特征向量确定的。
[0136]
本技术实施例通过预设处理器中的第一处理器、第二处理器以及第三处理器分别从目标用户的历史播放数据中提取出关键信息,确定相应的特征向量,然后在融合特征向量后进行相似度计算,实现了从媒体相似度和用户相似度两个方面向用户推荐媒体文件,推荐结果能够精确地捕捉到不同用户深层次的兴趣偏好,具备较好的解释性。
[0137]
本技术实施例提供了一种媒体文件推荐方法,如图2所示,该方法包括:
[0138]
步骤s201,获取训练数据。
[0139]
获取用户的历史播放数据,并从历史播放数据中提取出用户的历史播放数据对应的媒体数据,其中,媒体数据包括第三媒体数据和第四媒体数据。第三媒体数据包括用户的历史播放数据的媒体类型信息,第四媒体数据包括历史播放数据的播放时间信息。
[0140]
历史播放数据包括用户曾经播放过的媒体的各类媒资信息,例如,媒体名称信息、媒体形态信息、媒体类型信息以及媒体的具体内容等,除此之外,历史播放数据还包括用户曾经播放媒体的具体播放时间。本技术实施例中,历史播放数据至少包括媒体名称信息、媒体类型信息以及播放时间信息。
[0141]
步骤s202,将训练数据输入至初始处理器,得到初始推荐结果。
[0142]
初始处理器由第一初始处理器、第二初始处理器以及第三初始处理器至少三个子处理器组成。
[0143]
其中,第一初始处理器可以基于bert模型进行设计,主要用于对第三媒体数据进行数据处理。第一初始处理器通过从第三媒体数据中提取特征,根据上下文信息确定第四特征向量。
[0144]
第二初始处理器可以基于item2vec模型进行设计,主要用于对第四媒体数据进行数据处理。第二初始处理器通过将原本高维稀疏的表示方式映射到低维稠密的向量空间中提取特征,对低维向量进行计算确定第五特征向量。
[0145]
第三初始处理器可以基于t-am模型进行设计,引入时间注意力机制,加入时间参数确定第六特征向量,使得输出结果更贴合用户的兴趣变化情况。
[0146]
预设处理器分别基于第一初始处理器、第二初始处理器以及第三初始处理器确定第四特征向量、第五特征向量以及第六特征向量。进一步,根据第四特征向量、第五特征向量以及第六特征向量确定初始推荐结果。
[0147]
步骤s203,根据初始推荐结果对初始处理器进行反向优化,得到优化后的处理器,直至得到满足预设精确度要求的预设处理器。
[0148]
对初始推荐结果进行筛选和标记,确定正样本数据和负样本数据。其中,正样本数据为推荐效果较好的样本数据,负样本数据为推荐结果较差的样本数据。
[0149]
基于正样本数据和负样本数据对初始处理器进行反向优化,得到符合预设精确度要求的预设处理器。
[0150]
应用本技术实施例提供的一种媒体文件推荐方法,获取训练数据;将训练数据输入至初始处理器,得到初始推荐结果;根据初始推荐结果对初始处理器进行反向优化,得到优化后的处理器,直至得到满足预设精确度要求的预设处理器。
[0151]
本技术实施例通过用户的历史播放数据对初始处理器进行训练和优化,得到符合精确度要求的预设处理器。预设处理器可以自动从媒体相似度和用户相似度两个方面向用户推荐媒体文件,推荐结果能够精确地捕捉到不同用户深层次的兴趣偏好,具备较好的解释性。
[0152]
本技术实施例提供了一种媒体文件推荐装置,如图3所示,该装置包括:
[0153]
第一获取模块301,用于获取目标用户的媒体数据;其中,媒体数据包括第一媒体数据和第二媒体数据;第一媒体数据包括目标用户的历史播放数据的媒体类型信息,第二媒体数据包括历史播放数据的播放时间信息;
[0154]
第一推荐模块302,用于将媒体数据输入至预设处理器,得到目标用户的推荐结果;其中,预设处理器包括第一处理器、第二处理器以及第三处理器;第一处理器基于第一媒体数据的上下文信息确定第一特征向量;第二处理器基于第二媒体数据对应的低维向量确定第二特征向量;第三处理器基于时间注意力机制以及媒体数据,确定目标用户的第三特征向量;推荐结果为根据第一特征向量、第二特征向量以及第三特征向量确定的。
[0155]
在一个或多个实施例中,第一获取模块301包括:
[0156]
第一获取子模块,用于获取目标用户的历史播放数据;其中,历史播放数据包括媒体名称信息、媒体类型信息和播放时间信息;
[0157]
第二获取子模块,用于根据历史播放数据中的媒体名称信息和媒体类型信息,确定目标用户的第一媒体数据;
[0158]
第三获取子模块,用于根据历史播放数据中的媒体名称信息和播放时间信息,确
定目标用户的第二媒体数据。
[0159]
在一个或多个实施例中,第二获取子模块包括:
[0160]
第二获取单元,用于获取历史播放数据中的第一媒体初始数据;第一媒体初始数据包括媒体名称信息和媒体类型信息;
[0161]
第一更新单元,用于当第一媒体初始数据中不存在对应的时长数据时,将第一时长数据作为第一媒体初始数据中的时长数据;第一时长数据为历史播放数据中对应的播放时长最长的时长数据;
[0162]
第二更新单元,用于当第一媒体初始数据中的时长数据小于预设时长数据时,将第一媒体初始数据中的时长数据更新为预设时长数据,得到第一媒体数据。
[0163]
在一个或多个实施例中,第三获取子模块包括:
[0164]
第三获取单元,用于获取历史播放数据中的第二媒体初始数据;第二媒体初始数据包括媒体名称信息和播放时间信息;播放时间信息包括播放开始时间和播放结束时间;
[0165]
筛选单元,用于根据媒体名称信息筛选出存在对应的第一媒体数据的第二媒体初始数据,作为第二媒体数据。
[0166]
在一个或多个实施例中,第一推荐模块302包括:
[0167]
输入子模块,用于将媒体数据输入至预设处理器,得到第一特征向量、第二特征向量以及第三特征向量;
[0168]
融合子模块,用于将第一特征向量、第二特征向量以及第三特征向量进行特征向量融合,得到融合结果;
[0169]
计算子模块,用于基于融合结果进行相似度计算,得到目标用户的推荐结果。
[0170]
在一个或多个实施例中,融合结果包括媒体特征向量和用户特征向量;推荐结果包括第一推荐结果和第二推荐结果;
[0171]
计算子模块具体用于基于媒体特征向量进行相似度计算,得到目标用户的第一推荐结果,基于用户特征向量进行相似度计算,得到目标用户的第二推荐结果。
[0172]
在一个或多个实施例中,装置还包括:
[0173]
第二获取模块,用于获取训练数据;
[0174]
第二推荐模块,用于将训练数据输入至初始处理器,得到初始推荐结果;
[0175]
训练模块,用于根据初始推荐结果对初始处理器进行反向优化,得到优化后的处理器,直至得到满足预设精确度要求的预设处理器。
[0176]
应用本技术实施例提供的一种媒体文件推荐装置,获取目标用户的媒体数据;其中,媒体数据包括第一媒体数据和第二媒体数据;第一媒体数据包括目标用户的历史播放数据的媒体类型信息,第二媒体数据包括历史播放数据的播放时间信息;将媒体数据输入至预设处理器,得到目标用户的推荐结果;其中,预设处理器包括第一处理器、第二处理器以及第三处理器;第一处理器基于第一媒体数据的上下文信息确定第一特征向量;第二处理器基于第二媒体数据对应的低维向量确定第二特征向量;第三处理器基于时间注意力机制以及媒体数据,确定目标用户的第三特征向量;推荐结果为根据第一特征向量、第二特征向量以及第三特征向量确定的。
[0177]
本技术实施例通过预设处理器中的第一处理器、第二处理器以及第三处理器分别从目标用户的历史播放数据中提取出关键信息,确定相应的特征向量,然后在融合特征向
量后进行相似度计算,实现了从媒体相似度和用户相似度两个方面向用户推荐媒体文件,推荐结果能够精确地捕捉到不同用户深层次的兴趣偏好,具备较好的解释性。
[0178]
本技术实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现通过预设处理器中的第一处理器、第二处理器以及第三处理器分别从目标用户的历史播放数据中提取出关键信息,确定相应的特征向量,然后在融合特征向量后进行相似度计算,实现了从媒体相似度和用户相似度两个方面向用户推荐媒体文件,推荐结果能够精确地捕捉到不同用户深层次的兴趣偏好,具备较好的解释性。
[0179]
在一个可选实施例中提供了一种电子设备,如图4所示,图4所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本技术实施例的限定。
[0180]
处理器4001可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic (application specific integrated circuit,专用集成电路),fpga(fieldprogrammable gate array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001 也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp 和微处理器的组合等。
[0181]
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect,外设部件互连标准)总线或 eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0182]
存储器4003可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random accessmemory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read onlymemory,电可擦可编程只读存储器)、cd-rom(compact disc read onlymemory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
[0183]
存储器4003用于存储执行本技术方案的应用程序代码,并由处理器 4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
[0184]
本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,通过预设处理器中的第一处理器、第二处理器以及第三处理器分别从目标
用户的历史播放数据中提取出关键信息,确定相应的特征向量,然后在融合特征向量后进行相似度计算,实现了从媒体相似度和用户相似度两个方面向用户推荐媒体文件,推荐结果能够精确地捕捉到不同用户深层次的兴趣偏好,具备较好的解释性。
[0185]
本技术实施例提供了一种包含指令的计算机程序产品,当其在计算机设备上运行时,使得计算机设备执行上述各个方法实施例所提供的优惠券的处理方法。
[0186]
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0187]
以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1