多媒体推荐方法及装置的制造方法

文档序号:10489078阅读:290来源:国知局
多媒体推荐方法及装置的制造方法
【专利摘要】本发明是关于一种多媒体推荐方法及装置,其方法包括:提取数据库中待处理数据信息的特征数据;对所述特征数据进行特征构造,得到目标特征数据;根据所述目标特征数据计算所述数据库中每一多媒体对应的推荐分数;根据所述推荐分数为用户推荐多媒体。这样根据用户的兴趣特点和历史行为等全面的特征数据,最终计算出数据库中每一多媒体针对于该用户的推荐分数,并将推荐分数较高的多媒体推荐给该用户,从而实现有针对性地向每一个用户推荐其感兴趣的多媒体信息。
【专利说明】
多媒体推荐方法及装置
技术领域
[0001] 本发明实施例涉及视频技术领域,尤其涉及一种多媒体推荐方法及装置。
【背景技术】
[0002] 随着技术的不断发展,可以为用户提供的移动终端产品的品种和类型也越来越 多,例如:智能手机、平板电脑和笔记本电脑等,这些移动终端产品几乎都带有无线网WIFI 接入功能,用户可以很方便的将终端接入WIFI在线观看视频。为了方便用户快速找到自己 喜欢的视频,很多视频应用都为用户提供了视频推荐功能。
[0003] 而目前主要根据所有用户的视频观看行为,为每一个视频找出被相同类型用户观 看过的其它视频,来推荐给用户。这种方法虽然可以根据用户的观看视频历史挖掘出该用 户可能感兴趣的视频,但是仅仅以视频为基础进行推荐,没有综合考虑用户的兴趣,另外只 是对用户的历史数据进行简单的计数,没有对用户是否可以点击这个视频的概率进行最优 化计算,进而推荐的视频可能不是用户最喜欢的视频。

【发明内容】

[0004] 为了解决相关技术在为用户推荐其所喜欢的视频时,仅仅以视频为基础进行推 荐,没有综合考虑用户的兴趣,推荐的视频很可能不是用户所喜欢的视频的问题,本发明提 供一种多媒体推荐方法及装置。
[0005] 根据本发明实施例的第一方面,提供一种多媒体推荐方法,包括:
[0006] 提取数据库中待处理数据信息的特征数据;
[0007] 对所述特征数据进行特征构造,得到目标特征数据;
[0008] 根据所述目标特征数据计算所述数据库中每一多媒体对应的推荐分数;
[0009] 根据所述推荐分数为用户推荐所述多媒体。
[0010] 根据本发明实施例的第二方面,提供一种多媒体推荐装置,包括:
[0011] 特征数据提取单元,用于提取数据库中待处理数据信息的特征数据;
[0012] 特征构造单元,用于对所述特征数据进行特征构造,得到目标特征数据;
[0013] 推荐分数计算单元,用于根据所述目标特征数据计算所述数据库中每一多媒体对 应的推荐分数;
[0014] 视频推荐单元,用于根据所述推荐分数为用户推荐所述多媒体。
[0015] 本发明的实施例提供的技术方案可以包括以下有益效果:
[0016] 本发明实施例中提供的多媒体推荐方法及装置,通过提取数据库中待处理数据信 息的特征数据,并对该特征数据进行特征构造,得到目标特征数据,根据该目标特征数据计 算数据库中每一多媒体对应的推荐分数,依据该推荐分数为用户推荐多媒体。由于从待处 理数据信息中提取的特征数据可以包括多媒体的相关信息及用户本身的行为信息,使得提 取出的特征数据更为全面,进而可以根据更为全面的特征数据最终计算出数据库中每一多 媒体的推荐分数更加符合用户实际的喜欢程度。因为每个用户的特征数据不同,所以针对 每个用户所计算出的多媒体推荐分数也不同,从而实现有针对性地向每个用户推荐其自身 感兴趣的多媒体信息。使得在将推荐分数较高的多媒体推荐给用户之后,可以更加的符合 用户需求,提升用户体验。
[0017] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不 能限制本发明。
【附图说明】
[0018] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施 例,并与说明书一起用于解释本发明的原理。
[0019] 图1示出本发明实施例提供的一种多媒体推荐方法的流程图;
[0020]图2示出本实施例中对特征数据进行特征构造得到目标特征数据的具体流程图; [0021 ]图3示出本实施例中根据目标特征数据计算数据库中每一多媒体对应的推荐分数 的具体流程图;
[0022]图4示出本实施例中根据推荐分数为用户推荐多媒体的具体流程图;
[0023] 图5示出本发明另一实施例提供的一种多媒体推荐装置的结构示意图;
[0024] 图6示出另一实施例中特征构造单元的示意图;
[0025] 图7示出另一实施例中推荐分数计算单元的示意图;
[0026] 图8示出另一实施例中视频推荐单元的示意图。
【具体实施方式】
[0027] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及 附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例 中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附 权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0028] 本发明实施例首先提供了一种多媒体推荐方法,如图1所示,该方法可以包括如下 步骤:
[0029]在步骤SllO中,提取数据库中待处理数据信息的特征数据。
[0030]需要说明的是,本发明实施例中涉及到的多媒体,可以是视频、音频或图像等数 据,为了便于说明,本发明实施例中涉及到的多媒体均以视频为例进行说明,并且还可以应 用到音频、图像等数据的处理当中,例如通过本发明提供的实施例,可以推荐出用户喜欢的 音频、图像等等,本发明实施例中不限于此。
[0031]这里的待处理数据信息,包括数据库中存储的有关视频方面的信息、用户方面的 信息及用户观看视频的行为记录等。
[0032]从上述中的待处理数据信息中分别提取特征数据,例如,从数据库抽取视频的特 征数据,包括:视频的所属频道、视频类型、视频的所属地区、视频的发布时间、更新时间,以 及视频在过去某段时间的点击率等;从数据库抽取用户方面的信息的特征数据包括:用户 的年龄、性别、职业、观看过视频的频道、观看过视频的类型、观看过视频的TAG(标签),及观 看过视频的地区等等;用户观看视频的行为记录,可以是从数据库抽取某一段时间的用户 观看历史视频的历史行为,其特征包括:用户的识别码、推荐视频的list(清单)、推荐时间, 及是否点过推荐的某一个视频。
[0033] 另外,在对特征数据选取的过程中,需要去除某些字段丢失的数据,即无效数据。 可以将视频库中的视频信息分为两类,一类是用户喜欢看的视频,一类是用户不喜欢看的 视频。可以将用户喜欢看的那一类视频作为正样本,将用户不喜欢看的视频作为负样本,通 过将视频库中的视频信息分为正负样本,可以提高后续模型拟合时的准确度,以便在得到 一个视频之后,可以更加准确的识别出该视频是否为用户喜欢的视频。
[0034] 示例性的,在过往为用户推荐的视频中,将用户点击过的视频作为正样本,将用户 未点击的视频作为负样本。因此,为了保证正负样本的均匀,需要在负样本中随机抽样一定 数量的数据并提取其特征,使得正负样本的比例为1:1。
[0035]在步骤Sl20中,对特征数据进行特征构造,得到目标特征数据。
[0036]从待处理数据信息中直接提取出的特征数据,很多时候不能直接满足模型训练的 要求,这就需要首先对这些特征数据进行特征构造,例如,将特征数据进行连续特征离散化 处理;对特征数据进行编码,将特征数据从一维特征转换为多维特征,每一特征都对应一个 特征值;为了表达复杂的非线性关系,采用特征交叉的方式将多维特征数据进行交叉,特征 构造后的特征数据,再经过模型训练可以得到更加准确的结果。
[0037]需要说明的是,对经过特征构造后的特征数据进行模型训练的过程中,每对模型 训练一次,相当于从待处理数据信息中提取一次特征数据,并对特征数据识别一次,将该特 征数据归为某一类,如将特征数据对应的视频归为用户喜欢的视频或用户不喜欢的视频。 训练的次数越多,那么识别愈加准确。在识别某一视频是否为用户喜欢的视频时,可以通过 提取的该视频的特征进行快速准确的判断,识别出该视频为用户喜欢的视频或不喜欢的视 频。
[0038]在步骤S130中,根据目标特征数据计算数据库中每一多媒体对应的推荐分数。
[0039] 在利用目标特征数据计算数据库中每一视频对应的推荐分数的过程中,具体可以 首先利用FTRL算法对得到的特征数据进行拟合,最终得到一个可以表达用户对视频喜爱程 度的逻辑回归模型。其中,该逻辑回归模型的表现形式为KV对,即key-value,其中key标识 特征名称(如视频名称),value为特征的权重(如推荐分数)。
[0040] 在步骤S140中,根据推荐分数为用户推荐多媒体。
[00411 实施例中可以将上述得到的key对应到具体的视频名称,value对应到该视频名称 对应的推荐分数。通过对特征数据的训练,可以得到数据库中每一个视频的推荐分数,可以 将该推荐分数进行排序,将推荐分数较高的视频推荐给用户。
[0042]本发明实施例中提供的多媒体推荐方法,通过提取数据库中待处理数据信息的特 征数据,并对该特征数据进行特征构造,得到目标特征数据,根据该目标特征数据计算数据 库中每一多媒体对应的推荐分数,依据该推荐分数为用户推荐多媒体。由于从待处理数据 信息中提取的特征数据可以包括多媒体的相关信息及用户本身的行为信息,使得提取出的 特征数据更为全面,进而可以根据更为全面的特征数据最终计算出数据库中每一多媒体的 推荐分数更加符合用户实际的喜欢程度。因为每个用户的特征数据不同,所以针对每个用 户所计算出的多媒体推荐分数也不同,从而实现有针对性地向每个用户推荐其自身感兴趣 的多媒体信息。使得在将推荐分数较高的多媒体推荐给用户之后,可以更加的符合用户需 求,提升用户体验。
[0043] 为了详细阐述如何对提取出的特征数据进行特征构造,作为图1方法的细化,在本 发明的另一实施例中,如图2所示,步骤S120还可以包括如下步骤:
[0044] 在步骤S121中,将特征数据离散化处理,得到离散化特征数据。
[0045] 在采用逻辑回归模型对特征数据进行训练时,由于逻辑回归模型是一种比较简单 的线性模型,不能很好的识别特征中的连续值,所以需要对连续的特征离散化,比如视频过 去某段时间的点击率,一般采用的方法是等频分割。就是对需要进行离散化的特征上所有 的样例排序,平均分为若干等份,用其所在的index(索引)取代原来特征的值。
[0046] 在步骤S122中,对离散化特征数据进行编码,生成多维离散化特征数据。
[0047] 由于逻辑回归模型是一种比较简单的线性模型,而线性模型一般只能表征二维类 别特征,而不能表征多维类别特征。示例性的,视频的类型根据剧情可以分为多种类型,如: 战争、爱情和生活等。因此,需要对得到的离散化特征数据编码,把原来的某一维特征数据 转化为多维特征数据,这样得到的多维特征数据可以更加全面,最终得到的推荐分数也更 能符合用户的喜欢程度。例如转化η维特征数据,这里的η就是类别特征数据中对应的取值。 其中,在对离散化特征数据进行编码时,可以采用one-hot编码方式,实施例不限于此。 [0048]在步骤S123中,将多维离散化特征数据按照预定的规则进行特征交叉,转换为目 标特征数据。
[0049] 由于逻辑回归模型是一种比较简单的线性模型,不能表达复杂的非线性关系,这 就需要人工制定规则进行特征交叉(Feature Cross),示例性的,实施例中主要根据乐视视 频的特点进行用户和视频的特征交叉。由于特征交叉需要消耗大量的计算时间,这里考虑 到性能问题,特征交叉最多进行三维,如表1所示。
[0050] 表 1
如下步骤:
[0053]在步骤S131中,对目标特征数据进行特征编码,得到整型特征数据。
[0054]由于上述生成的特征都是用字符串表示,采用字符串的形式可以便于用户查看其 代表的含义,但是对于计算机来讲,其对字符串的运算速度会大大降低,特别面对海量数据 处理时,会严重降低计算机的运算速度。因此,为了便于计算机高效的运算,以便快速得到 运算结果,本发明实施例中对得到的每个特征数据出现的次序对从〇开始编码,将字符串类 型的特征数据转换为整型数据,如int型数据,便于快速得到运算结果。
[0055]在步骤S132中,对整型特征数据进行拟合,得到相应的数据模型。
[0056]在步骤S133中,在所述数据模型中读取每个所述整型特征数据对应的权重,将权 重累加得到每一多媒体对应的推荐分数。
[0057]对整型特征数据进行拟合的过程,具体可以采用FTRL算法对该整型特征数据进行 拟合,这样通过拟合得到相应的数据模型。其中,该数据模块为逻辑回归模型。该逻辑回归 模型的表现形式为K-V对,即K为key,表示特征名称,例如视频名称;V为value,表示对应特 征的权重,为一个具体的数值。实施例中该权重可以是推荐分数,推荐分数越高,代表用户 喜欢的程度越高;反之,用户喜欢的程度越低。因此,可以根据该逻辑回归模型中的推荐分 数,将推荐分数较高的视频推荐给用户,这样为用户推荐的视频很可能是用户所喜欢的视 频。
[0058]作为图1方法的细化,在本发明的另一实施例中,如图4所示,步骤S140还可以包括 如下步骤:
[0059] 在步骤S141中,将推荐分数按照降序方式排序,得到视频推荐列表。
[0060] 在步骤S142中,将视频推荐列表中推荐分数大于预设数值的视频作为推荐视频。 [0061]在得到数据库中每个视频的推荐分数之后,根据该推荐分数,采用降序方式对视 频进行排序,得到视频推荐列表。将视频推荐列表中推荐分数大于预设数值的视频作为推 荐视频。当然,还可以将视频推荐列表中排列前几名的视频,即得分较高的视频推荐给用 户。本发明实施例中不限于此。
[0062]本发明实施例中提供的多媒体推荐方法,通过提取数据库中待处理数据信息的特 征数据,并对该特征数据进行特征构造,得到目标特征数据,根据该目标特征数据计算数据 库中每一多媒体对应的推荐分数,依据该推荐分数为用户推荐多媒体。由于从待处理数据 信息中提取的特征数据可以包括多媒体的相关信息及用户本身的行为信息,使得提取出的 特征数据更为全面,进而可以根据更为全面的特征数据最终计算出数据库中每一多媒体的 推荐分数更加符合用户实际的喜欢程度。因为每个用户的特征数据不同,所以针对每个用 户所计算出的多媒体推荐分数也不同,从而实现有针对性地向每个用户推荐其自身感兴趣 的多媒体信息。使得在将推荐分数较高的多媒体推荐给用户之后,可以更加的符合用户需 求,提升用户体验。
[0063] 通过以上的方法实施例的描述,所属领域的技术人员可以清楚地了解到本发明可 借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者 是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡 献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包 括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行 本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:只读存储器 (R0M)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0064] 另外,作为对上述各实施例的实现,本发明实施例还提供了一种多媒体推荐装置, 该装置位于终端中,如图5所示,该装置包括:
[0065] 特征数据提取单元10,用于提取数据库中待处理数据信息的特征数据;
[0066] 特征构造单元20,用于对所述特征数据进行特征构造,得到目标特征数据;
[0067] 推荐分数计算单元30,用于根据所述目标特征数据计算所述数据库中每一多媒体 对应的推荐分数;
[0068]视频推荐单元40,用于根据所述推荐分数为用户推荐多媒体。
[0069]在本发明又一实施例中,基于图5,如图6所示,所述特征构造单元20,包括:
[0070]特征离散化处理模块21,用于将所述特征数据离散化处理,得到离散化特征数据; [0071 ]编码模块22,用于对所述离散化特征数据进行编码,生成多维离散化特征数据;
[0072]目标特征数据生成模块23,用于将所述多维离散化特征数据按照预定的规则进行 特征交叉,转换为所述目标特征数据。
[0073]在本发明又一实施例中,基于图5,如图7所示,所述推荐分数计算单元30,包括:
[0074] 特征编码模块31,用于对所述目标特征数据进行特征编码,得到整型特征数据;
[0075] 数据拟合模块32,用于对所述整型特征数据进行拟合,得到相应的数据模型;
[0076]推荐分数确定模块33,用于在所述数据模型中读取每个所述整型数据特征对应的 权重,将所述权重累加得到每一多媒体对应的推荐分数。
[0077]在本发明又一实施例中,基于图5,如图8所示,所述视频推荐单元40,包括:
[0078] 排序模块41,用于将所述推荐分数按照降序方式排序,得到视频推荐列表;
[0079] 推荐视频确定模块42,用于将所述视频推荐列表中推荐分数大于预设数值的视频 作为推荐视频。
[0080] 其中,实施例中的特征数据,包括:视频特征数据、用户特征数据和所述用户观看 视频的历史记录特征数据。
[0081] 关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法 的实施例中进行了详细描述,此处将不做详细阐述说明。
[0082]本发明实施例中提供的多媒体推荐装置,通过提取数据库中待处理数据信息的特 征数据,并对该特征数据进行特征构造,得到目标特征数据,根据该目标特征数据计算数据 库中每一多媒体对应的推荐分数,依据该推荐分数为用户推荐多媒体。由于从待处理数据 信息中提取的特征数据可以包括多媒体的相关信息及用户本身的行为信息,使得提取出的 特征数据更为全面,进而可以根据更为全面的特征数据最终计算出数据库中每一多媒体的 推荐分数更加符合用户实际的喜欢程度。因为每个用户的特征数据不同,所以针对每个用 户所计算出的多媒体推荐分数也不同,从而实现有针对性地向每个用户推荐其自身感兴趣 的多媒体信息。使得在将推荐分数较高的多媒体推荐给用户之后,可以更加的符合用户需 求,提升用户体验。
[0083] 可以理解的是,本发明可用于众多通用或专用的计算系统环境或配置中。例如:个 人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理 器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任 何系统或设备的分布式计算环境等等。
[0084] 本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序 模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组 件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由 通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以 位于包括存储设备在内的本地和远程计算机存储介质中。
[0085]需要说明的是,在本文中,诸如"第一"和"第二"等之类的关系术语仅仅用来将一 个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之 间存在任何这种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意在 涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些 要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设 备所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除 在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0086]本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其 它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或 者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识 或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的 权利要求指出。
[0087]应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并 且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
【主权项】
1. 一种多媒体推荐方法,其特征在于,包括: 提取数据库中待处理数据信息的特征数据; 对所述特征数据进行特征构造,得到目标特征数据; 根据所述目标特征数据计算所述数据库中每一多媒体对应的推荐分数; 根据所述推荐分数为用户推荐所述多媒体。2. 根据权利要求1所述的多媒体推荐方法,其特征在于,所述对所述特征数据进行特征 构造,包括: 将所述特征数据离散化处理,得到离散化特征数据; 对所述离散化特征数据进行编码,生成多维离散化特征数据; 将所述多维离散化特征数据按照预定的规则进行特征交叉,转换为所述目标特征数 据。3. 根据权利要求1所述的多媒体推荐方法,其特征在于,所述根据所述目标特征数据计 算所述数据库中每一多媒体对应的推荐分数,包括: 对所述目标特征数据进行特征编码,得到整型特征数据; 对所述整型特征数据进行拟合,得到相应的数据模型; 在所述数据模型中读取每个所述整型特征数据对应的权重,将所述权重累加得到每一 多媒体对应的推荐分数。4. 根据权利要求1所述的多媒体推荐方法,其特征在于,所述根据所述推荐分数为用户 推荐视频,包括: 将所述推荐分数按照降序方式排序,得到视频推荐列表; 将所述视频推荐列表中推荐分数大于预设数值的视频作为推荐视频。5. 根据权利要求1~4中任一项所述的多媒体推荐方法,其特征在于,所述特征数据,包 括:视频特征数据、用户特征数据和所述用户观看视频的历史记录特征数据。6. -种多媒体推荐装置,其特征在于,包括: 特征数据提取单元,用于提取数据库中待处理数据信息的特征数据; 特征构造单元,用于对所述特征数据进行特征构造,得到目标特征数据; 推荐分数计算单元,用于根据所述目标特征数据计算所述数据库中每一多媒体对应的 推荐分数; 视频推荐单元,用于根据所述推荐分数为用户推荐所述多媒体。7. 根据权利要求6所述的多媒体推荐装置,其特征在于,所述特征构造单元,包括: 特征离散化处理模块,用于将所述特征数据离散化处理,得到离散化特征数据; 编码模块,用于对所述离散化特征数据进行编码,生成多维离散化特征数据; 目标特征数据生成模块,用于将所述多维离散化特征数据按照预定的规则进行特征交 叉,转换为所述目标特征数据。8. 根据权利要求6所述的多媒体推荐装置,其特征在于,所述推荐分数计算单元,包括: 特征编码模块,用于对所述目标特征数据进行特征编码,得到整型特征数据; 数据拟合模块,用于对所述整型特征数据进行拟合,得到相应的数据模型; 推荐分数确定模块,用于在所述数据模型中读取每个所述整型数据特征对应的权重, 将所述权重累加得到每一多媒体对应的推荐分数。9. 根据权利要求6所述的多媒体推荐装置,其特征在于,所述视频推荐单元,包括: 排序模块,用于将所述推荐分数按照降序方式排序,得到视频推荐列表; 推荐视频确定模块,用于将所述视频推荐列表中推荐分数大于预设数值的视频作为推 荐视频。10. 根据权利要求6~9中任一项所述的多媒体推荐装置,其特征在于,所述特征数据, 包括:视频特征数据、用户特征数据和所述用户观看视频的历史记录特征数据。
【文档编号】G06F17/30GK105843953SQ201610225098
【公开日】2016年8月10日
【申请日】2016年4月12日
【发明人】孙浩川
【申请人】乐视控股(北京)有限公司, 乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1