一种多元属性电影数据可视化系统的制作方法

文档序号:10655323阅读:831来源:国知局
一种多元属性电影数据可视化系统的制作方法
【专利摘要】本发明提供了一种多元属性电影数据可视化系统,包括:数据预处理模块,根据原始项目集中电影项目自身的多元属性及用户标签对电影项目数据进行预处理,以产生用于进行可视化映射的输入数据;可视化映射模块,根据输入数据生成电影项目可视化界面。本发明解决了推荐系统的新用户冷启动问题,并增加了系统的透明度和交互性,提高推荐系统的准确性和用户满意度。
【专利说明】
-种多元属性电影数据可视化系统
技术领域
[0001] 本发明属于数据处理技术领域,具体地说,尤其设及一种多元属性电影数据可视 化系统。
【背景技术】
[0002] 电影个性化推荐系统是从庞杂的电影项目集中选择用户可能感兴趣的电影推荐 给相应用户,用户可能感兴趣的项目是通过用户资料中的对看过电影的历史评分数据计算 得出的。但是,新用户加入进来时,其资料中并没有项目偏好信息,所W无法针对其进行个 性化的推荐,运就是所谓的新用户冷启动问题。
[0003] 但是,现有推荐系统对新用户的冷启动问题的解决,仅仅是从算法的优化上来考 虑(如人口统计学算法、推荐热口项目等),并没有从数据产生的源头来解决问题。

【发明内容】

[0004] 为解决W上问题,本发明提供了一种多元属性电影数据可视化系统,用于从数据 产生的源头来解决推荐系统对新用户的冷启动问题。
[0005] 根据本发明的一个实施例,提供了一种多元属性电影数据可视化系统,包括:
[0006] 数据预处理模块,根据原始项目集中电影项目自身的多元属性及用户标签对电影 项目数据进行预处理,W产生用于进行可视化映射的输入数据;
[0007] 可视化映射模块,根据所述输入数据生成电影项目可视化界面。
[000引根据本发明的一个实施例,所述数据预处理模块通过W下方式产生可视化的映射 输入数据:
[0009] 根据每个电影项目的用户标签计算电影项目之间的皮尔逊相关系数,并根据皮尔 逊相关系数计算电影项目节点之间连接边的权重值;
[0010] 将权重值作为电影项目连接边的附属属性,将流派、标题、海报和评分作为电影节 点附属属性,生成第一数据文件;
[0011] 将导演名字和演员名字分别作为节点,通过名字属性生成第二数据文件。
[0012] 根据本发明的一个实施例,所述可视化映射模块进一步包括:
[0013] 流派控制单元,根据流派属性对电影项目分类,并控制流派分类面板显示于可视 化界面W使得用户进行流派分类选择;
[0014] 主视图显示控制单元,根据流派控制单元对电影项目的分类W及第一数据文件, 采用力导向算法生成电影项目主视图;
[0015] 副视图显示控制单元,根据流派控制单元对电影项目的分类W及第二数据文件, 采用力导向算法生成导演-演员副视图。
[0016] 根据本发明的一个实施例,
[0017] 在所述主视图中,
[001引电影名称设为节点,
[0019] 节点颜色饱和度和透明度映射电影评分,其中,电影评分越高,对应节点颜色越 深,透明度越低,
[0020] 皮尔逊相关系数设为电影名称之间的连接边,皮尔逊相关系数越大,两节点的相 似度越高,连接边权重越大,连接边越粗;
[0021] 在所述副视图中,
[0022] 导演名字和演员名字设为节点,导演节点和演员节点通过不同颜色区分,节点之 间的连接边表示导演和演员的合作关系。
[0023] 根据本发明的一个实施例,所述可视化映射模块进一步包括:
[0024] 节点交互控制单元,用于选定、调整及控制显示所述主视图和所述副视图,W使得 用户对所述主视图和所述副视图进行节点控制。
[0025] 根据本发明的一个实施例,所述可视化映射模块进一步包括:
[0026] 力导向参数调节单元,用于对显示主视图及副视图中采用的力导向算法对应的参 数进行设置,并控制力导向参数调节面板显示于可视化界面W使得用户进行力导向参数设 置。
[0027] 根据本发明的一个实施例,所述可视化映射模块进一步包括:
[0028] 节点可见性调节单元,根据用户兴趣度对主视图和副视图中节点进行选择性可见 调节,并控制节点可见性调节面板显示于可视化界面W使得用户进行节点可见性调节。
[0029] 根据本发明的一个实施例,在所述主视图中,所述用户兴趣度设置为距选定焦点 节点的路径距离,其中,通过设置节点可见性调节单元中的滑动距离滑动条,将超出选定焦 点节点预设路径距离的节点隐藏。
[0030] 根据本发明的一个实施例,在所述副视图中,通过设置节点可见性调节单元中的 滑动层级滑动条,将导演和演员分层显示。
[0031] 根据本发明的一个实施例,所述可视化映射模块进一步包括:
[0032] 电影评分交互单元,用于接收用户电影评分及输出评分作为用户资料数据,并且 控制电影评分交互面板显示于可视化界面W使得用户进行电影评分及提交。
[0033] 本发明的有益效果:
[0034] 本发明将信息可视化技术与推荐系统结合起来,使用多元属性网络可视化技术对 推荐系统的电影项目集进行可视化,尽量多地将有用的属性进行可视化映射,方便新用户 全面浏览项目集。同时我系统加入了多种用户交互方法,允许用户对感兴趣的项目进行评 分操作,并采集评分的数据输出,作为冷启动推荐系统的新用户输入数据。运样从数据来源 上解决了推荐系统的新用户冷启动问题,并增加了系统的透明度和交互性,进而提高推荐 系统的准确性和用户满意度。
[0035] 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利 要求书W及附图中所特别指出的结构来实现和获得。
【附图说明】
[0036] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要的 附图做简单的介绍:
[0037] 图I是根据本发明的一个实施例的一种多元属性电影数据可视化系统结构图;
[0038] 图2是对应图1的所示系统的数据处理流程图;
[0039] 图3是根据本发明的一个实施例的数据预处理过程示意图;
[0040] 图4是根据本发明的一个实施例的可视化界面示意图;
[0041 ]图5是根据本发明的一个实施例的可视化界面主视图;
[0042] 图6是根据本发明的一个实施例的可视化界面副视图;
[0043] 图7a是根据本发明的一个实施例的过滤出距离焦点=步的电影节点示意图;
[0044] 图7b是根据本发明的一个实施例的过滤出距离焦点二步的电影节点示意图;
[0045] 图7c是根据本发明的一个实施例的过滤出距离焦点一步的电影节点示意图;
[0046] 图8a是根据本发明的一个实施例的导演为焦点的一层副视图;
[0047] 图8b是根据本发明的一个实施例的导演为焦点的二层副视图;
[0048] 图8c是根据本发明的一个实施例的演员为焦点的一层副视图;
[0049] 图8d是根据本发明的一个实施例的演员为焦点的二层副视图;
[0050] 图9是根据本发明的一个实施例的电影评分面板示意图。
【具体实施方式】
[0051] W下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用 技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据W实施。需要说明 的是,只要不构成冲突,本发明中的各个实施例W及各实施例中的各个特征可W相互结合, 所形成的技术方案均在本发明的保护范围之内。
[0052] 个性化推荐系统大多是针对现实生活中的数据进行推荐,其中大部分数据都具有 关联的属性,如社交网络、生化网络和软件网络等。推荐项目集中除了数据间的彼此关联关 系外,数据本身也包含多种属性。传统单一的可视化方法只能展示数据的单一属性,多种属 性同时展示时视图会变得混乱和复杂。
[0053] 因此,针对推荐数据集的多种属性和数据间的关系连接,利用多元属性可视化技 术对数据集进行可视化,并加入多种用户交互技术,使用户能够亲自选择感兴趣的项目,并 对项目进行评分,并输出用户的交互数据作为推荐算法的输入。运样,就解决了冷启动问题 中的新用户没有资料数据的问题,而且可W使用户对自己的偏好数据进行修改订正,有利 于提高推荐系统的准确度和用户满意度。
[0054] 如图1所示为根据本发明的一个实施例的一种多元属性电影数据可视化系统结构 图,图2所示为对应图1所示系统的数据处理流程图,W下参考图1和图2来对本发明进行详 细说明。
[0055] 如图1所示,该多元属性电影数据可视化系统包括数据预处理模块和可视化映射 模块,其中,数据预处理模块根据原始项目集中电影项目自身的多元属性及用户标签对电 影项目数据进行预处理,W产生用于进行可视化映射的输入数据;可视化映射模块与数据 预处理模块连接,根据输入数据生成电影项目可视化界面。
[0056] 由于每个电影项目都对应有电影名、导演、演员、流派、标签、评分、海报等属性,每 个电影项目都对应着由用户标注的几个到几十个不同的、具有很大参考价值的标签,参考 每个电影项目的多元属性和用户标签对原始电影数据集进行预处理产生的可视化映射的 输入数据,作为用户采集的数据。运样,可W参考已有用户的偏好信息对新用户进行个性化 推荐,从而解决新用户的冷启动问题。
[0057] 本发明采用Movielens数据集作为原始数据为例进行说明,但不限于此。项目集中 每个电影项目都对应有电影名、导演、演员、流派、标签、评分、海报等属性。对于电影网络, 每部电影、每个导演、每个演员都可W表示成网络中的一个节点,而运些节点间存在不同模 式的联系。不同节点之间的边连接关系一般划分为=种关系模式:导演与电影的对应关系、 演员与电影的对应关系W及导演与演员的合作关系。在推荐系统中用户最关注的是推荐项 目,也就是电影数据。所W本发明主要研究电影项目之间的相似关系,W及电影导演与演员 之间的合作关系,由原始数据生成输入数据的预处理过程如图3所示。
[0058] 具体的,首先根据每个电影项目的标签计算电影项目之间的皮尔逊相关系数。项 目集中每个电影项目都对应着几个到几十个不同的标签,考虑到运些标签是用户标注的, 具有很大的参考价值,所W用用户标签作为项目之间的相似度衡量标准。遍历项目集,当两 个项目之间的相同标签集长度大于预设值(例如6个相同标签)时,计算两个电影项目标签 集之间的皮尔逊相关系数。皮尔逊相关系数相关系数通过下式计算:
[0059]

[0060] 其中,Wt,康示标签t在项目冲所占的权重,Ii康示项目巧日项目j相同标签的标签 集合,巧表示项目1标签的平均权重,^^表示项目^'标签的平均权重。
[0061 ]并将皮尔逊相关系数作为电影项目节点之间连接边的权重值;将权重值作为电影 项目连接边的附属属性,将流派、标题、海报和评分作为电影节点附属属性,生成第一数据 文件,即movies_xl. xml文件。
[0062] 另外,数据预处理模块还将导演名字和演员名字作为另外两种节点,生成第二数 据文件,即directo;r_actors_xl. xml文件。具体的,导演和演员通过nClass属性(名字属性) 进行区分,mid属性为导演执导或演员参演的电影ID列表。movies_xl. xml和director actors_xl.xml两个文件是我们做可视化映射的输入数据,在运个过程中要用默认值补全 空值,防止可视化映射中出现错误编码和空白现象。
[0063] 由于原始电影项目集中的电影数量很多,如果将全部电影项目绘制为可视化界面 上的节点,会导致视觉混杂现象,而且众多的电影项目也不利于用户的浏览和交互操作。因 此,在可视化映射模块,需要将电影项目按流派属性进行划分,用户可W选择不同的流派, 查看归属于该流派下的电影。
[0064] 具体的,该可视化映射模块通过W下几个单元将输入数据映射产生电影项目可视 化界面。流派控制单元可W根据流派属性对电影项目分类,并控制流派分类显示于可视化 界面W使得用户进行流派分类选择。如图4所示通过可视化界面左侧的流派选择面板,选择 感兴趣的该流派下的电影。
[0065] 主视图显示控制单元根据流派控制单元对电影项目的分类W及第一数据文件,采 用力导向算法生成电影项目主视图。副视图显示控制单元根据流派控制单元对电影项目的 分类W及第二数据文件,采用力导向算法生成导演-演员副视图。由于主视图和副视图的布 局都使用了力导向算法布局,可W更好地体现节点之间的连接关系,还可W保持两个视图 视觉效果的一致性,如图4所示。
[0066] 力导向算法将图中的每个节点视作有质量、速度和相互作用力的物理粒子,节点 之间的边视作弹黃,根据粒子间的相互作用力来多次迭代确定节点在图中的位置。为每个 节点计算S种力:N-body相互作用力、弹黃弹力和阻力,对N-body相互作用力的计算使用了 Barnes-化t算法。弹黃弹力是模拟节点之间的连接边产生的作用力,阻力根据阻力系数的 大小来减少节点的速度,帮助稳定节点位置。
[0067] 在主视图中,如图5所示,我们将电影名称设为节点,电影标签的相似度设为连接 边,为避免视觉混杂,我们设置的最长路径为4或其他可分辨路径长度。电影评分的高低映 射为节点颜色饱和度和透明度的大小,评分越高的电影,对应节点颜色越深,透明度越低。 将数据预处理中计算出的边的权重可视化为边的粗细,两个电影节点的相似度越高,边的 权重越大,边越粗。由于将所有电影节点的海报都擅染出来时反而不利于寻找目标,所W仅 显示焦点节点对应的电影海报。
[0068] 在副视图中,将导演和演员名设为节点,导演节点和演员节点通过不同的颜色编 码区分,如可将导演设置为蓝色节点,将演员设置为粉色节点,如图6所示。节点之间的连接 边代表导演和演员的合作关系(曾在同一部电影中出现过),导演与演员可W分层显示。
[0069] 在本发明的一个实施例中,可视化模块还进一步包括节点交互控制单元,如图4所 示,用于选定、调整及控制显示主视图和副视图,W使得用户对主视图和副视图进行节点控 审IJ。具体的,用户可W对主视图和副视图进行拖拽、缩放、平移等操作。例如,当用户鼠标移 到主视图中的某个电影节点时,该节点变为红色,邻居节点变为黄色突出显示。当用户点击 某电影节点时,固定该节点位置,擅染出该节点对应电影项目的海报图片,并在副视图中同 步刷新出该电影项目对应的导演、与导演有合作关系的演员。
[0070] 在本发明的一个实施例中,可视化模块还进一步包括力导向参数调节单元,如图4 所示,用于对显示主视图及副视图中采用的力导向算法对应的参数进行设置,并控制力导 向参数调节面板显示于可视化界面W使得用户进行力导向参数设置。具体的,用户可W通 过主视图右侧的力参数面板调整电影项目的布局。力参数面板包括了力导向图布局中用到 的S种力的参数。N-body相互作用力的参数包括引力常量、最小距离和Barnes-Hut参数,如 果引力常量是正值节点会相互吸引,反之则会相互排斥,最小距离是值两个节点产生相互 作用力的最小距离范围,Barnes-化t参数用户调整聚合质量的计算;阻力包括阻力系数,该 系数越大,则施加给节点的粘滞力越大;弹黃弹力有两个参数:弹力系数和默认弹黃长度, 弹力系数越大,弹力越大,用户可W自由调整弹黃的默认长度。
[0071] 在本发明的一个实施例中,可视化模块还进一步包括节点可见性调节单元,如图4 所示,根据用户兴趣度对主视图和副视图中节点进行选择性可见调节,并控制节点可见性 调节面板显示于可视化界面W使得用户进行节点可见性调节。在主视图中,用户兴趣度设 置为距选定焦点节点的路径距离,其中,通过设置节点可见性调节单元中的滑动距离滑动 条,将超出选定焦点节点预设路径距离的节点隐藏。在副视图中,通过设置节点可见性调节 单元中的滑动层级滑动条,将导演和演员分层显示。
[0072] 具体的,在主视图中,用户滑动距离滑动条与焦点节点距离超出该值的节点隐藏, 方便用户更清楚地浏览与感兴趣的电影节点最相似的电影项目。如图7a-7c所示为距焦点 不同距离过滤出的电影节点示意图。
[0073] 在副视图中,用户滑动层级滑动条,层级设为2时会显示第二层节点。例如,当焦点 节点为导演时,第一层节点为与当前导演有合作关系的演员,第二层节点为与第一层演员 有合作关系的导演;当焦点节点为演员时,第一层节点为与当前演员有合作关系的导演,第 二层节点为与第一层导演有合作关系的演员。如图8a-8d所示。
[0074] 在本发明的一个实施例中,可视化模块还进一步包括电影评分交互单元,如图9所 示,用于接收用户电影评分及输出作为用户资料数据,并且控制电影评分交互面板显示于 可视化界面W使得用户进行电影评分及提交。具体的,评分面板上方显示当前焦点节点对 应的电影名称,用户可W选择单选按钮对焦点电影进行从1星到5星的评分,选择评分后点 击提交按钮会将用户的评分数据输出到文件newRatings. txt,包括电影ID,电影名称和评 分。该文件可W作为推荐系统的用户资料数据进行解析。
[0075] 本发明将信息可视化技术与推荐系统结合起来,使用多元属性网络可视化技术对 推荐系统的电影项目集进行可视化,尽量多地将有用的属性进行可视化映射,方便新用户 全面浏览项目集。同时我系统加入了多种用户交互方法,允许用户对感兴趣的项目进行评 分操作,并采集评分的数据输出,作为冷启动推荐系统的新用户输入数据。运样从数据来源 上解决了推荐系统的新用户冷启动问题,并增加了系统的透明度和交互性,进而提高推荐 系统的准确性和用户满意度。
[0076] 虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采 用的实施方式,并非用W限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本 发明所公开的精神和范围的前提下,可W在实施的形式上及细节上作任何的修改与变化, 但本发明的专利保护范围,仍须W所附的权利要求书所界定的范围为准。
【主权项】
1. 一种多元属性电影数据可视化系统,包括: 数据预处理模块,根据原始项目集中电影项目自身的多元属性及用户标签对电影项目 数据进行预处理,以产生用于进行可视化映射的输入数据; 可视化映射模块,根据所述输入数据生成电影项目可视化界面。2. 根据权利要求1所述的系统,其特征在于,所述数据预处理模块通过以下方式产生可 视化的映射输入数据: 根据每个电影项目的用户标签计算电影项目之间的皮尔逊相关系数,并根据皮尔逊相 关系数计算电影项目节点之间连接边的权重值; 将权重值作为电影项目连接边的附属属性,将流派、标题、海报和评分作为电影节点附 属属性,生成第一数据文件; 将导演名字和演员名字分别作为节点,通过名字属性生成第二数据文件。3. 根据权利要求2所述的系统,其特征在于,所述可视化映射模块进一步包括: 流派控制单元,根据流派属性对电影项目分类,并控制流派分类面板显示于可视化界 面以使得用户进行流派分类选择; 主视图显示控制单元,根据流派控制单元对电影项目的分类以及第一数据文件,采用 力导向算法生成电影项目主视图; 副视图显示控制单元,根据流派控制单元对电影项目的分类以及第二数据文件,采用 力导向算法生成导演-演员副视图。4. 根据权利要求3所述的系统,其特征在于, 在所述主视图中, 电影名称设为节点, 节点颜色饱和度和透明度映射电影评分,其中,电影评分越高,对应节点颜色越深,透 明度越低, 皮尔逊相关系数设为电影名称之间的连接边,皮尔逊相关系数越大,两节点的相似度 越高,连接边权重越大,连接边越粗; 在所述副视图中, 导演名字和演员名字设为节点,导演节点和演员节点通过不同颜色区分,节点之间的 连接边表示导演和演员的合作关系。5. 根据权利要求3或4所述的系统,其特征在于,所述可视化映射模块进一步包括: 节点交互控制单元,用于选定、调整及控制显示所述主视图和所述副视图,以使得用户 对所述主视图和所述副视图进行节点控制。6. 根据权利要求3-5中任一项所述的系统,其特征在于,所述可视化映射模块进一步包 括: 力导向参数调节单元,用于对显示主视图及副视图中采用的力导向算法对应的参数进 行设置,并控制力导向参数调节面板显示于可视化界面以使得用户进行力导向参数设置。7. 根据权利要求3-6中任一项所述的系统,其特征在于,所述可视化映射模块进一步包 括: 节点可见性调节单元,根据用户兴趣度对主视图和副视图中节点进行选择性可见调 节,并控制节点可见性调节面板显示于可视化界面以使得用户进行节点可见性调节。8. 根据权利要求7所述的系统,其特征在于,在所述主视图中,所述用户兴趣度设置为 距选定焦点节点的路径距离,其中,通过设置节点可见性调节单元中的滑动距离滑动条,将 超出选定焦点节点预设路径距离的节点隐藏。9. 根据权利要求7所述的系统,其特征在于,在所述副视图中,通过设置节点可见性调 节单元中的滑动层级滑动条,将导演和演员分层显示。10. 根据权利要求3-9中任一项所述的系统,其特征在于,所述可视化映射模块进一步 包括: 电影评分交互单元,用于接收用户电影评分及输出评分作为用户资料数据,并且控制 电影评分交互面板显示于可视化界面以使得用户进行电影评分及提交。
【文档编号】G06F17/30GK106021485SQ201610333717
【公开日】2016年10月12日
【申请日】2016年5月19日
【发明人】杨成, 李晨, 潜冬
【申请人】中国传媒大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1