一种视频推荐方法及系统与流程

文档序号:21268521发布日期:2020-06-26 22:48阅读:203来源:国知局
一种视频推荐方法及系统与流程

本发明涉及数据处理技术领域,具体涉及一种视频推荐方法及系统。



背景技术:

随着互联网的发展,各式各样应用软件被开发出来。用户在使用应用软件的过程中,应用软件会向用户提供个性化推荐服务。

目前向用户提供个性化推荐服务的方式为:根据用户的历史行为数据,利用推荐算法把信息按照用户的喜好进行过滤,得到用户喜欢的信息。但是,目前的个性化推荐服务仅能对单一类型的信息进行推荐,随着信息类型的不断增多并且每种类型的信息的特性都有所不同,目前的个性化推荐服务无法满足用户的实际需求和不能准确的对多类型的信息进行推荐,用户使用体验较差和信息推荐的准确性较差。



技术实现要素:

有鉴于此,本发明实施例提供一种视频推荐方法及系统,以解决目前个性化推荐服务存在的用户使用体验较差和信息推荐的准确性较差等问题。

为实现上述目的,本发明实施例提供如下技术方案:

本发明实施例第一方面公开一种视频推荐方法,所述方法包括:

获取长短视频特征和用户的用户特征,所述长短视频特征由组合多个待推荐长视频的长视频特征和多个待推荐短视频的短视频特征得到;

将所述用户特征和所述长短视频特征输入预设的推荐模型进行点击率预测,得到每个所述待推荐长视频的预测点击率和每个所述待推荐短视频的预测点击率,所述推荐模型根据预先获取的训练数据集训练机器学习模型得到;

根据每个所述待推荐长视频的预测点击率和每个所述待推荐短视频的预测点击率,对所有所述待推荐长视频和所述待推荐短视频进行排序,将排序结果反馈给所述用户。

优选的,所述获取长短视频特征和用户的用户特征,包括:

获取历史长短视频特征和实时长短视频特征,融合所述历史长短视频特征和所述实时长短视频特征得到长短视频特征;

获取用户对应的历史用户特征和实时用户特征,融合所述历史用户特征和所述实时用户特征得到所述用户对应的用户特征。

优选的,获取训练数据集的过程包括:

获取样本长视频对应的样本长视频画像和样本短视频对应的样本短视频画像,以及获取样本用户对应的样本用户画像和样本上下文行为画像;

对所述样本长视频画像、所述样本短视频画像、所述样本用户画像和所述样本上下文行为画像进行数据预处理,得到原始特征数据集;

对所述原始特征数据集进行特征工程处理,得到训练数据集,所述特征工程处理至少包括特征提取处理和特征转化处理。

优选的,根据预先获取的训练数据集训练机器学习模型得到推荐模型的过程,包括:

根据预设的划分比例,将所述训练数据集划分为训练集、验证集和测试集;

根据所述训练集、所述验证集和所述测试集,以及结合样本用户对样本长视频与样本短视频的点击行为和曝光行为,训练机器学习模型直至所述机器学习模型收敛,得到推荐模型。

优选的,对所有所述待推荐长视频和所述待推荐短视频进行排序,将排序结果反馈给所述用户之后,还包括:

根据所述用户对所述待推荐长视频和所述待推荐短视频的点击行为和曝光行为,对所述推荐模型进行更新优化。

本发明实施例第二方面公开一种视频推荐系统,所述系统包括:

获取单元,用于获取长短视频特征和用户的用户特征,所述长短视频特征由组合多个待推荐长视频的长视频特征和多个待推荐短视频的短视频特征得到;

处理单元,用于将所述用户特征和所述长短视频特征输入预设的推荐模型进行点击率预测,得到每个所述待推荐长视频的预测点击率和每个所述待推荐短视频的预测点击率,所述推荐模型根据预先获取的训练数据集训练机器学习模型得到;

排序单元,用于根据每个所述待推荐长视频的预测点击率和每个所述待推荐短视频的预测点击率,对所有所述待推荐长视频和所述待推荐短视频进行排序,将排序结果反馈给所述用户。

优选的,所述获取单元具体用于:获取历史长短视频特征和实时长短视频特征,融合所述历史长短视频特征和所述实时长短视频特征得到长短视频特征,获取用户对应的历史用户特征和实时用户特征,融合所述历史用户特征和所述实时用户特征得到所述用户对应的用户特征。

优选的,用于获取训练数据集的所述处理单元包括:

获取模块,用于获取样本长视频对应的样本长视频画像和样本短视频对应的样本短视频画像,以及获取样本用户对应的样本用户画像和样本上下文行为画像;

预处理模块,用于对所述样本长视频画像、所述样本短视频画像、所述样本用户画像和所述样本上下文行为画像进行数据预处理,得到原始特征数据集;

特征工程处理模块,用于对所述原始特征数据集进行特征工程处理,得到训练数据集,所述特征工程处理至少包括特征提取处理和特征转化处理。

优选的,用于训练机器学习模型得到推荐模型的所述处理单元,包括:

划分模块,用于根据预设的划分比例,将所述训练数据集划分为训练集、验证集和测试集;

训练模块,用于根据所述训练集、所述验证集和所述测试集,以及结合样本用户对样本长视频与样本短视频的点击行为和曝光行为,训练机器学习模型直至所述机器学习模型收敛,得到推荐模型。

优选的,所述系统还包括:

更新单元,用于根据所述用户对所述待推荐长视频和所述待推荐短视频的点击行为和曝光行为,对所述推荐模型进行更新优化。

基于上述本发明实施例提供的一种视频推荐方法及系统,该方法为:获取长短视频特征和用户的用户特征;将用户特征和长短视频特征输入预设的推荐模型进行点击率预测,得到每个待推荐长视频的预测点击率和每个待推荐短视频的预测点击率;根据每个待推荐长视频的预测点击率和每个待推荐短视频的预测点击率,对所有待推荐长视频和待推荐短视频进行排序,将排序结果反馈给用户。本方案中,将用户特征和由长视频特征与短视频特征组合得到的长短视频特征输入预先训练的推荐模型,得到待推荐长视频和待推荐短视频的预测点击率。按照预测点击率对待推荐长视频和待推荐短视频进行排序,将排序结果反馈给用户,实现不同类型信息的推荐,提高用户使用体验和提高信息推荐的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种视频推荐方法的流程图;

图2为本发明实施例提供的获取训练数据集的流程图;

图3为本发明实施例提供的一种视频推荐方法的另一流程图;

图4为本发明实施例提供的一种视频推荐系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知,目前向用户提供个性化推荐服务的方式仅能对单一类型的信息进行推荐,而随着信息类型的不断增多并且每种类型的信息的特性都有所不同,目前的个性化推荐服务不能满足用户的实际需求和不能准确的对多类型的信息进行推荐,存在用户使用体验较差和信息推荐的准确性较差等问题。

因此,本发明实施例提供一种视频推荐方法及系统,预先训练得到推荐模型,将用户特征和由长视频特征与短视频特征组合得到的长短视频特征输入推荐模型,得到待推荐长视频和待推荐短视频的预测点击率。按照预测点击率对待推荐长视频和待推荐短视频进行排序,将排序结果反馈给用户,实现不同类型信息的推荐,以提高用户使用体验和以提高信息推荐的准确性。

参见图1,示出了本发明实施例提供的一种视频推荐方法的流程图,该视频推荐方法包括以下步骤:

步骤s101:获取长短视频特征和用户的用户特征。

需要说明的是,预先接收用户发送的推荐请求,该推荐请求中至少包括了该用户对应的用户id。接收到推荐请求后,从内存数据库(例如redis数据库)中获取与用户id对应的用户特征和长短视频特征。

需要说明的是,在接收推荐请求之前,预先将多个待推荐长视频的长视频特征和多个待推荐短视频的短视频特征进行组合,得到长短视频特征,并将长短视频特征存储至内存数据库中。

可以理解的是,为保证所获取得到的长短视频特征和用户特征是实时最新和准确的,在获取长短视频特征和用户特征的过程中,获取历史长短视频特征和实时长短视频特征,融合历史长短视频特征和实时长短视频特征得到长短视频特征。

也就是说,根据预设周期,融合历史长短视频特征和实时长短视频特征得到长短视频特征,保证长短视频特征的实时性和准确性。将长短视频特征预先存储至内存数据库中,在接收到用户的推荐请求后直接读取长短视频特征,提高读写速度。

获取用户对应的历史用户特征和实时用户特征,融合历史用户特征和实时用户特征得到用户对应的用户特征。

也就是说,实时获取该用户的行为数据(例如用户当前的喜好数据),根据实时获取的行为数据生成该用户对应的实时用户特征。融合历史用户特征和实时用户特征得到用户对应的用户特征,保证用户特征的实时性和准确性。将用户特征预先存储至内存数据库中,在接收到用户的推荐请求后直接读取用户特征,提高读写速度。

步骤s102:将用户特征和长短视频特征输入预设的推荐模型进行点击率预测,得到每个待推荐长视频的预测点击率和每个待推荐短视频的预测点击率。

需要说明的是,预先收集样本长视频对应的样本长视频画像和样本短视频对应的样本短视频画像,以及收集样本用户对应的样本用户画像和样本上下文行为画像。

根据样本长视频画像、样本短视频画像、样本用户画像和样本上下文行为画像,构建用于训练机器学习模型的训练数据集。

进一步需要说明的是,样本上下文行为画像指的是:样本用户发生点击视频行为的场景,该场景包含样本用户点击视频的具体时间、样本用户点击的视频位置、样本用户点击视频之前所观看的上一个视频和样本用户点击视频之后所观看的下一个视频。

样本长视频画像和样本短视频画像是对数据库(存储全量长视频和短视频的数据库)中的长视频和短视频进行处理生成的。

可以理解的是,获取训练数据集之后,按照预设的划分比例,将该训练数据集划分为训练集、验证集和测试集,例如:在划分训练数据集时,根据时间顺序和划分比例对训练数据集进行划分,得到训练集、验证集和测试集。

需要说明的是,训练集是用于训练机器学习模型的数据样本,验证集是训练机器学习模型过程中用于调整模型参数的样本集,测试集用于评估训练完成的机器学习模型的泛化能力(点击率的预测能力)。可以理解的是,训练集、验证集和测试集服从于同一数据分布。

根据训练集、验证集和测试集,以及结合样本用户对样本长视频与样本短视频的点击行为和曝光行为,生成正负样本。利用正负样本训练机器学习模型直至该机器学习模型收敛,得到推荐模型。

需要说明的是,机器学习模型的类型包括但不仅限于:fm线性模型、lightgbm树模型,deepfm深度学习模型。

在训练机器学习模型的过程中,利用gridsearch、randomsearch或hyperopt等方式对机器学习模型进行超参调整和优化,选择性能最好的超参组合确定推荐模型。

在具体实现步骤s102的过程中,将用户特征和长短视频特征输入推荐模型,利用该推荐模型预测用户对每个待推荐长视频和每个待推荐短视频的点击率(预测用户对每个待推荐长视频和每个待推荐短视频的喜好程度),得到每个待推荐长视频的预测点击率和每个待推荐短视频的预测点击率。

步骤s103:根据每个待推荐长视频的预测点击率和每个待推荐短视频的预测点击率,对所有待推荐长视频和待推荐短视频进行排序,将排序结果反馈给用户。

在具体实现步骤s103的过程中,利用推荐模型得到每个待推荐长视频的预测点击率和每个待推荐短视频的预测点击率后,按照预测点击率由高至低的顺序,对所有的待推荐长视频和待推荐短视频进行排序,并将排序结果反馈给用户。

可以理解的是,对所有的待推荐长视频和待推荐短视频进行排序后,将排序结果中的前n位待推荐视频(待推荐视频为待推荐长视频或待推荐短视频)推荐给用户,n为正整数且具体数值根据实际情况进行设置。

优选的,为保证推荐模型的预测准确性,根据用户对待推荐长视频和待推荐短视频的点击行为和曝光行为,对推荐模型进行更新优化(调整优化推荐模型的参数)。

对推荐模型(更新优化前的模型)和更新优化后的推荐模型进行ab测试(a/btesting),并根据预设的评估指标对推荐模型(更新优化前的模型)和更新优化后的推荐模型进行评估。

若更新优化前的推荐模型的评估效果比更新优化后的推荐模型的评估效果好,则继续使用更新优化前的推荐模型进行后续使用过程中的点击率预测。

若更新优化后的推荐模型的评估效果比更新优化前的推荐模型的评估效果好,则使用更新优化后的推荐模型进行后续使用过程中的点击率预测。

在本发明实施例中,预先利用训练数据集训练机器学习模型得到推荐模型。将用户特征和由长视频特征与短视频特征组合得到的长短视频特征输入推荐模型,得到待推荐长视频的预测点击率和待推荐短视频的预测点击率。按照预测点击率对待推荐长视频和待推荐短视频进行排序,将排序结果反馈给用户,实现不同类型信息(长视频和短视频)的推荐,提高用户使用体验和提高信息推荐的准确性。

上述本发明实施例图1步骤s102中涉及的获取训练数据集的过程,参见图2,示出了本发明实施例提供的获取训练数据集的流程图,包括以下步骤:

步骤s201:获取样本长视频对应的样本长视频画像和样本短视频对应的样本短视频画像,以及获取样本用户对应的样本用户画像和样本上下文行为画像。

在具体实现步骤s201的过程中,对数据库(存储全量长视频和短视频的数据库)中的长视频和短视频进行处理,得到样本长视频画像和样本短视频画像。

利用大数据工具(例如hive和spark等)对样本用户对应的用户行为日志进行处理,得到该样本用户对应的样本用户画像和样本上下文行为画像。

步骤s202:对样本长视频画像、样本短视频画像、样本用户画像和样本上下文行为画像进行数据预处理,得到原始特征数据集。

在具体实现步骤s202的过程中,分别对样本长视频画像、样本短视频画像、样本用户画像和样本上下文行为画像进行数据预处理,得到包含数据预处理结果的原始特征数据集。也就是说,原始特征数据集包含:对样本长视频画像的数据预处理结果,对样本短视频画像的数据预处理结果,对样本用户画像的数据预处理结果,对样本上下文行为画像的数据预处理结果。

对样本长视频画像、样本短视频画像、样本用户画像和样本上下文行为画像进行数据预处理的具体过程,参见以下内容。

对样本长视频画像和样本短视频画像的数据预处理:统一样本长视频画像和样本短视频画像的数据格式,对样本长视频画像和样本短视频画像中属性为空的字段填充固定字段(预设的字段),该填充了该固定字段的字段代表空。

对样本用户画像的数据预处理:将样本用户在视频类别和其它属性的点击行为进行格式化,将没有点击行为的样本用户过滤掉。

可以理解的是,由于点击行为是样本用户对应的原始的日志,该日志不符合样本用户画像的存储格式,因此需要将点击行为格式化为符合预设规范的格式。

对于一部分样本用户,该部分样本用户可能未发生点击行为,也可能发生点击行为但是观看视频的时间小于预先定义的观看时间(表示未观看),将这一部分的样本用户过滤掉。

对样本上下文行为画像的数据预处理:对样本用户的行为数据按照预设时间段内(例如按照最近4周)进行筛选,利用筛选得到的行为数据生成样本用户对应的样本上下文行为画像。

步骤s203:对原始特征数据集进行特征工程处理,得到训练数据集。

在具体实现步骤s203的过程中,对原始特征数据集中的数据进行特征工程处理,得到用于训练机器学习模型的格式化特征,所生成的格式化特征即为训练数据集。

需要说明的是,特征工程处理至少包括特征提取处理和特征转化处理,为更好解释说明如何对原始特征数据集进行特征工程处理,通过以下内容对特征工程处理进行举例说明。

空值填充:对原始特征数据集中的类别型特征空缺值填充众数或填充默认值,对原始特征数据集中的连续性特征空缺值填充0或均值。

特征转化:对原始特征数据集中的离散变量(类别型特征)和连续变量离散化one-hot(独热编码)生成特征,并且对连续变量进行归一化生成特征。

对长短视频(统一数据格式后的长视频和短视频)的标题和标签等属性的特征转化:提取长短视频的融合标签特征,利用预先训练得到的长短视频对应的标签词向量模型,对长短视频的融合标签特征进行embedding(嵌入)得到长短视频对应的标签向量,并将该标签向量进行聚类(也可归一化)生成长短视频对应的特征。提取长短视频的标题并对标题进行分词,利用预先训练得到的长短视频对应的标题词向量模型,对长短视频的标题进行处理得到标题词向量,将该标题词向量进行聚类(也可归一化)生成长短视频对应的特征。

对样本用户在长短视频的类别点击行为的特征转化:对样本用户在长短视频的类别点击行为进行融合,生成类别行为点击权重向量特征。利用预先训练得到的聚类模型,将类别行为点击权重向量特征进行聚类生成聚类特征。

对样本用户的长短视频标签行为的特征转化:利用预先训练得到的标签词向量模型,将样本用户的长短视频标签行为转化为向量,并利用预先训练好的聚类模型对该向量进行聚类生成聚类特征。

对样本用户进行人群分类:利用样本用户的手机型号和地理位置等基础信息,对样本用户进行人群分类。利用样本用户的应用(app)列表计算tf-idf(termfrequency–inversedocumentfrequency),并通过预先训练得到的聚类模型(比如kmeans聚类模型)对样本用户进行人群聚类得到对应的聚类特征。

对长短视频的点击行为划分:由于长视频和短视频的物理时长不同且属性不同,因此根据点击时长的分布,对是否点击长短视频进行划分来确定长短视频的播放完成度特征,并对目标长短视频进行播放完成度加权。

对长短视频的热度特征转化:由于短视频的点击数通常在上百万(甚至数亿)次,而长视频由于本身属性限制其点击数通常为数十万次,因此短视频和长视频的热度计算有所不同。短视频过滤之前展示,对样本用户只曝光一次,根据点击数和曝光数计算短视频的热度特征。长视频可多次展示,每天进行曝光去重处理,联合长视频下的剧集总点击数计算长视频的热度特征。同理,也可根据长短视频的累计播放时长除以总点击数得到平均播放时长,从而计算长短视频的播放完成度,即将样本用户对长短视频本身质量的评价作为热度特征。

可以理解的是,通过上述各个方式确定特征后,为避免大量特征存在而造成冗余,需要对特征进行选择,具体的特征选择方式为:计算各个特征与目标值(目标值为0和1,0表示未点击,1表示点击,其目的是筛选有效且重要的特征)的相关系数等指标,对各个特征进行评估。根据评估结果选择重要的特征进行验证,确定baseline,然后利用模型训练和相关系数等指标对特征进行优化。

需要说明的是,上述涉及的标签词向量模型和标题词向量模型,可利用word2vec模型或bert模型训练得到标签词向量模型和标题词向量模型,并经过词向量质量检验和上线验证,调整标签词向量模型和标题词向量模型的参数。

对于聚类模型的应用,通过检验类别数量的分布来不断调整类别数量的分布,避免大部分样本聚成一个类,根据检验类别数量的分布的检验结果对聚类模型和特征进行调优。

利用通过上述方式所确定的特征,构建训练数据集,并利用训练数据集训练机器学习模型得到推荐模型。

在本发明实施例中,对样本长视频画像、样本短视频画像、样本用户画像和样本上下文行为画像进行数据预处理,得到原始特征数据集。对原始特征数据集进行特征提取处理和特征转化处理等特征工程处理,得到包含用于训练机器学习模型的格式化特征的训练数据集。利用训练数据集训练机器学习模型得到推荐模型,并通过推荐模型对用户提供对于不同类型信息的个性化推荐服务,提高用户使用体验和提高信息推荐的准确性。

为更好解释说明上述本发明实施例图1和图2示出的内容,通过图3进行举例说明,需要说明的是,图3仅用于举例说明。

参见图3,示出了本发明实施例提供的一种视频推荐方法的另一流程图,包括以下步骤:

步骤s301:在离线模式下,获取训练数据集,利用训练数据集训练机器学习模型得到推荐模型。

在具体实现步骤s301的过程中,获取样本长视频画像、样本短视频画像、样本用户画像和样本上下文行为画像,对样本长视频画像、样本短视频画像、样本用户画像和样本上下文行为画像分别进行数据预处理和特征工程处理,得到训练数据集。

其中,步骤s301包括子步骤s3011至子步骤s3014。

子步骤s3011:从视频数据源中获取样本长视频画像和样本短视频画像,利用hive对样本用户的用户行为日志进行处理得到样本用户画像和样本上下文行为画像。

需要说明的是,视频数据源中存储多个长视频对应的长视频画像(也存储了长视频特征)和多个短视频对应的短视频画像(也存储了短视频特征)。

子步骤s3012:对样本长视频画像、样本短视频画像、样本用户画像和样本上下文行为画像分别进行数据预处理,得到原始特征数据集。

在具体实现子步骤s3012的过程中,数据预处理的过程参见上述本发明实施例图2步骤s202中的内容。

子步骤s3013:对原始特征数据集进行特征工程处理,得到包含格式化特征的训练数据集,将训练数据集存储至分布式文件系统(hadoopdistributedfilesystem,hdfs)。

在具体实现子步骤s3013的过程中,进行特征工程处理的过程,参见上述本发明实施例图2步骤s203中的内容。

子步骤s3014:利用hdfs中的训练数据集训练机器学习模型,得到推荐模型并离线存储推荐模型。

步骤s302:在近线模式下,获取用户对应的实时用户特征和从视频数据源中获取实时长短视频特征,以及从离线模式下所处理的数据中获取历史长短视频特征和历史用户特征。融合历史长短视频特征和实时长短视频特征得到长短视频特征,融合历史用户特征和实时用户特征得到用户对应的用户特征。

步骤s303:在在线模式下,将用户特征和长短视频特征输入推荐模型进行点击率预测,得到每个待推荐长视频的预测点击率和每个待推荐短视频的预测点击率,并对所有待推荐长视频和待推荐短视频进行排序,将排序结果反馈给用户。

步骤s303包括子步骤s3031至子步骤s3034,具体内容如下。

子步骤s3031:接收用户发送的推荐请求。

子步骤s3032:获取用户特征和长短视频特征,利用c++加载推荐模型,并将用户特征和长短视频特征输入推荐模型进行点击率预测,得到每个待推荐长视频的预测点击率和每个待推荐短视频的预测点击率。

子步骤s3033:按照预测点击率的高低顺序,对所有待推荐长视频和待推荐短视频进行排序。

子步骤s3034:将排序结果反馈给用户。

需要说明的是,图3中各个步骤的执行原理,可参见上述本发明实施例图1和图2中的内容,在此不再进行赘述。

与上述本发明实施例提供的一种视频推荐方法相对应,参见图4,本发明实施例还提供了一种视频推荐系统的结构框图,该视频推荐系统包括:获取单元401、处理单元402和排序单元403;

获取单元401,用于获取长短视频特征和用户的用户特征,长短视频特征由组合多个待推荐长视频的长视频特征和多个待推荐短视频的短视频特征得到。

在具体实现中,获取单元401具体用于:获取历史长短视频特征和实时长短视频特征,融合历史长短视频特征和实时长短视频特征得到长短视频特征,获取用户对应的历史用户特征和实时用户特征,融合历史用户特征和实时用户特征得到用户对应的用户特征。

处理单元402,用于将用户特征和长短视频特征输入预设的推荐模型进行点击率预测,得到每个待推荐长视频的预测点击率和每个待推荐短视频的预测点击率,推荐模型根据预先获取的训练数据集训练机器学习模型得到。

排序单元403,用于根据每个待推荐长视频的预测点击率和每个待推荐短视频的预测点击率,对所有待推荐长视频和待推荐短视频进行排序,将排序结果反馈给用户。

在本发明实施例中,预先利用训练数据集训练机器学习模型得到推荐模型。将用户特征和由长视频特征与短视频特征组合得到的长短视频特征输入推荐模型,得到待推荐长视频的预测点击率和待推荐短视频的预测点击率。按照预测点击率对待推荐长视频和待推荐短视频进行排序,将排序结果反馈给用户,实现不同类型信息(长视频和短视频)的推荐,提高用户使用体验和提高信息推荐的准确性。

优选的,结合图4示出的内容,用于获取训练数据集的处理单元402包括:获取模块、预处理模块和特征工程处理模块,各个模块的执行原理如下:

获取模块,用于获取样本长视频对应的样本长视频画像和样本短视频对应的样本短视频画像,以及获取样本用户对应的样本用户画像和样本上下文行为画像。

预处理模块,用于对样本长视频画像、样本短视频画像、样本用户画像和样本上下文行为画像进行数据预处理,得到原始特征数据集。

特征工程处理模块,用于对原始特征数据集进行特征工程处理,得到训练数据集,特征工程处理至少包括特征提取处理和特征转化处理。

在本发明实施例中,对样本长视频画像、样本短视频画像、样本用户画像和样本上下文行为画像进行数据预处理,得到原始特征数据集。对原始特征数据集进行特征提取处理和特征转化处理等特征工程处理,得到包含用于训练机器学习模型的格式化特征的训练数据集。利用训练数据集训练机器学习模型得到推荐模型,并通过推荐模型对用户提供对于不同类型信息的个性化推荐服务,提高用户使用体验和提高信息推荐的准确性。

优选的,结合图4示出的内容,用于训练机器学习模型得到推荐模型的处理单元402,包括:划分模块和训练模块,各个模块的执行原理如下。

划分模块,用于根据预设的划分比例,将训练数据集划分为训练集、验证集和测试集。

训练模块,用于根据训练集、验证集和测试集,以及结合样本用户对样本长视频与样本短视频的点击行为和曝光行为,训练机器学习模型直至机器学习模型收敛,得到推荐模型。

优选的,结合图4示出的内容,该视频推荐系统还包括:

更新单元,用于根据用户对待推荐长视频和待推荐短视频的点击行为和曝光行为,对推荐模型进行更新优化。

综上所述,本发明实施例提供一种视频推荐方法及系统,将用户特征和由长视频特征与短视频特征组合得到的长短视频特征输入预先训练的推荐模型,得到待推荐长视频和待推荐短视频的预测点击率。按照预测点击率对待推荐长视频和待推荐短视频进行排序,将排序结果反馈给用户,实现不同类型信息的推荐,提高用户使用体验和提高信息推荐的准确性。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1