一种多媒体数据的聚类方法及装置的制造方法

文档序号:9217276阅读:416来源:国知局
一种多媒体数据的聚类方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域,尤其涉及一种多媒体数据的聚类方法及装置。
【背景技术】
[0002] 现今,在这个互联网高速发展的时代,人们对于视听方面的需求越来越高,而视频 关联推荐业务可以为用户推荐视频,有效地帮助用户发现需求,推进用户对于视听业务的 点播。在现有技术中,通常使用协同过滤推荐(CollaborativeFiltering,,简称CF)算法 来为用户推荐视频。
[0003] 在现有技术中,终端(以智能电视为例)根据传统的CF算法为用户推荐视频时, 通常会利用聚类算法按照视频所属类别,分别将终端后台服务器的数据库中存储的电视视 频以及观看这些视频的用户进行聚类,然后根据聚类后的用户所属视频类别以及视频所属 类别,来为用户推荐视频。但是,由于在终端后台服务器的数据库中通常会有几十万部的电 视视频源,而每个用户所观看的视频数量仅仅为百部或更少,使得两两用户间所观看的视 频相似度很低,从而造成了数据库中用户与视频间关系的稀疏性问题。例如,当服务器将邻 居用户喜欢观看的视频推荐给用户时,由于用户与用户之间共同观看的视频集合很少,从 而导致终端不能准确找到有相似兴趣的邻居用户。这样由于上述的数据稀疏性问题,即用 户与视频间的稀疏关系,从而导致终端对用户和视频进行聚类时,聚类出的评分矩阵不准 确,无法正确的为用户推荐用户感兴趣的视频。

【发明内容】

[0004] 本发明的实施例提供一种多媒体数据的聚类方法及装置,解决了现有技术中的终 端无法对用户与视频进行准确聚类的问题。
[0005] 为达到上述目的,本发明的实施例采用如下技术方案:
[0006] 第一方面,提供一种多媒体数据的聚类方法,包括:
[0007] 获取多媒体数据的属性信息;所述属性信息包括用户的标识,以及用户观看的多 媒体数据的标识;
[0008] 根据所述多媒体数据的属性信息生成矩阵R和矩阵S;其中,所述矩阵R的行和列 分别表示用户的标识和多媒体数据的标识,所述矩阵R的元素Ru表示用户i是否观看多媒 体数据j;所述矩阵S的行和列均为多媒体数据的标识,所述矩阵S的元素Sab表示多媒体 数据a与多媒体数据b间的相似度;
[0009] 根据所述矩阵R、所述矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类, 得到矩阵Y;所述矩阵F的行和列均为用户的标识,所述矩阵F的元素Fxy表示用户x与用 户y间是否为好友关系;所述矩阵Y的行为组标识,所述矩阵Y的列包括用户的标识和多媒 体矩阵的标识,所述矩阵Y的元素Yfl表示用户f属于组1的权重值,所述矩阵Y的元素Ygl 表示多媒体数据g属于组1的权重值;
[0010] 其中,所述i,X,y,fG1,2,......,n;j,a,b,g,G1, 2,......,m;1G1, 2,......,k; 所述n为用户个数,所述m为多媒体数据个数,所述k为组个数。
[0011] 第二方面,提供一种多媒体数据的聚类装置,包括:
[0012] 获取模块,用于获取多媒体数据的属性信息;所述属性信息包括用户的标识,以及 用户观看的多媒体数据的标识;
[0013] 生成模块,用于根据所述获取模块获取的所述多媒体数据的属性信息生成矩阵R和矩阵S;其中,所述矩阵R的行和列分别表示用户的标识和多媒体数据的标识,所述矩阵 R的元素表示用户i是否观看多媒体数据j;所述矩阵S的行和列均为多媒体数据的标 识,所述矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度;
[0014] 聚类模块,用于根据所述生成模块生成的所述矩阵R、所述矩阵S以及矩阵F,将所 有用户与所有多媒体数据进行聚类,得到矩阵Y;所述矩阵F的行和列均为用户的标识,所 述矩阵F的元素Fxy表示用户x与用户y间是否为好友关系;所述矩阵Y的行为组标识,所 述矩阵Y的列包括用户的标识和多媒体矩阵的标识,所述矩阵Y的元素Yfl表示用户f属于 组1的权重值,所述矩阵Y的元素Ygl表示多媒体数据g属于组1的权重值;
[0015] 其中,所述i,X,y,fG1,2,......,n;j,a,b,g,G1, 2,......,m;1G1, 2,......,k; 所述n为用户个数,所述m为多媒体数据个数,所述k为组个数。
[0016] 本发明的实施例提供的多媒体数据的聚类方法及装置,根据获取到的多媒体数据 的属性信息矩阵R和矩阵S,该矩阵R的元素表示用户i是否观看多媒体数据j,该矩 阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度,然后,根据矩阵R、矩阵S以 及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y,该矩阵F的元素Fxy表示用 户x与用户y间是否为好友关系,该矩阵Y的元素Ygl表示多媒体数据g属于组1的权重 值。这样通过矩阵F、矩阵R以及矩阵S中分别体现出的用户与用户之间、用户与多媒体数 据之间以及多媒体数据与多媒体数据间的关联性,对用户与多媒体数据间进行更精细化的 聚类,从而提高了终端对用户与多媒体数据聚类的准确性。
【附图说明】
[0017] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0018] 图1为本发明的实施例提供的一种多媒体数据的聚类方法的流程示意图;
[0019] 图2为本发明的实施例提供的一种多媒体数据的推荐方法的流程示意图;
[0020] 图3为本发明的实施例提供的一种多媒体数据的聚类装置的结构示意图;
[0021] 图4为本发明的实施例提供的一种多媒体数据的聚类装置的结构示意图。
【具体实施方式】
[0022] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0023] 本发明的实施例提供一种多媒体数据的聚类方法,如图1所示,该方法具体包括 如下步骤:
[0024] 101、多媒体数据的聚类装置获取多媒体数据的属性信息。
[0025] 示例性的,本发明中的多媒体数据为视频、音乐、文本文档等多媒体文件数据。上 述的多媒体数据的属性信息包括用户的标识以及用户观看的多媒体数据的标识。其中,该 属性信息还包括多媒体数据的参数信息包括文件属性信息,例如,当该多媒体数据为视频 时,该多媒体数据的参数信息包括:视频演员名称、导演名称、视频类型等。
[0026] 其中,上述的用户的标识可以为该用户的登陆账号或者其他可唯一表示该用户 的标识,本实施例中采用UpU2、U3……Un形式表示不同用户的标识;多媒体数据的标识可 以为该多媒体数据的名称或其他可唯一表示该多媒体数据的标识,本实施例中采用&、B2、 B3……8"表示不同多媒体数据的标识;用户观看多媒体数据的记录表示用户与观看的多媒 体数据间的关系。
[0027] 优选的,在步骤101中,可以设置一个更新周期,更新周期的长短可以根据多媒体 数据数据库更新情况进行设定,例如,可以设为一个月,一周或一天,本发明对此不进行限 制,在每个更新周期内获取所述每个更新周期内的多媒体数据的属性信息并进行更新。本 实施例下述各步骤均以当前周期为例进行说明。
[0028] 102、多媒体数据的聚类装置根据多媒体数据的属性信息生成矩阵R和矩阵S。
[0029] 其中,上述的矩阵R的行和列分别表示用户的标识和多媒体数据的标识,该矩 阵R的元素&表示用户i是否观看多媒体数据j;上述的矩阵S的行和列均为多媒体数 据的标识,该矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度。上述的 iG1,2,......,n ;j, a,bG1,2,......,m ;上述的n为用户个数,上述的m为记录中n个用户 所观看的不重复的多媒体数据总和。
[0030] 示例性的,若以多媒体数据为视频为例,假设用户和视频的集合分别为U= {UpU2, ? ? ?,UJ和B=取,B2, ? ? ?,BJ,若将用户标识作为矩阵行,将多媒体数据标识作为 矩阵列,则定义用户与视频间的关系矩阵为矩阵〃 ,^表示用户u
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1