一种确定对象热度的方法及系统、处理设备与流程

文档序号:18475506发布日期:2019-08-20 20:59阅读:147来源:国知局
一种确定对象热度的方法及系统、处理设备与流程

本申请涉及计算机技术领域,尤其涉及一种确定对象热度的方法及系统、处理设备。



背景技术:

目前,有很多提供对象的数据源。以数据源为网站为例,网站可以提供很多视频或很多歌曲等对象。可以理解的是,每个对象均对应一个表示用户喜欢程度的热度。例如,可以采用对象被播放的次数、频率等来表示用户喜欢对象的程度,即热度。

各个数据源可以按对象的热度进行排序的排序列表。例如,音乐网站(数据源)可以提供歌曲(对象),每个歌曲(对象)对应一个热度,音乐网站有按各个歌曲的热度进行排序的排序列表。

在现实中由于各个对象的限制,每个数据源不能涵盖所有对象(例如,一个音乐网站购买歌曲“成都”版权,则该音乐网站具有对象“成都”,另一个音乐网站没有购买歌曲“成都”版权的,则该音乐网站不具有对象“成都”)。

因此,各个数据源中的排序列表仅能表示该数据源所具有对象的排列顺序,不能表示同一类别数据源中的所有对象的排列顺序。例如,一个音乐网站的歌曲排序列表不能表示音乐类别中所有歌曲的排列顺序,一个视频网站的视频排序列表,不能表示视频类别中所有视频的排列顺序。

因此,现在具有确定同一类别数据源中所有对象排序列表的需求。



技术实现要素:

鉴于此,本申请提供一种确定对象热度的方法及系统、处理设备,可以合并同一类别的多个数据源的对象,从而实现确定同一类别数据源中所有对象排序列表的目的。

为了实现上述目的,本申请提供以下技术特征:

一种热度计算系统,包括:处理设备以及与所述处理设备相连的多个数据源;

所述处理设备,用于对多个数据源中对象的热度进行标准化,对多个相同对象进行去重合并,以获得合并多个数据源后的多个去重剩余对象以及多个去重剩余对象的热度,根据热度对所述多个去重剩余对象执行排序操作。

可选的,所述处理设备,还用于获得排序操作后的排序结果,并发送所述排序结果至所述多个数据源;

所述多个数据源,用于接收并显示所述排序结果。

一种确定对象热度的方法,包括:

对多个数据源中对象的热度进行标准化;

对多个相同对象进行去重合并,以获得合并多个数据源后的多个去重剩余对象以及多个去重剩余对象的热度;

根据热度对所述多个去重剩余对象执行排序操作。

可选的,在所述对多个数据源中对象的热度进行标准化之前,还包括:

获取数据源中对象的多个预设属性以及多个预设属性的属性值;

在多个预设属性中确定用于表示热度的热度属性;

将所述热度属性对应的属性值,确定为对象的原有热度值。

可选的,所述在多个预设属性中确定用于表示热度的热度属性,包括:

计算数据源中多个预设属性的空值率和多个预设属性的均匀度;

将数据源中空值率大于第一预设值且均匀度大于第二预设值的预设属性,确定为数据源的热度属性。

可选的,所述在多个预设属性中确定用于表示热度的热度属性,包括:

计算数据源中的多个预设属性的空值率;

将数据源中空值率小于第一预设值的预设属性,确定为数据源的热度属性。

可选的,所述对多个相同对象进行去重合并,以获得合并多个数据源后的多个去重剩余对象以及多个去重剩余对象的热度,包括:

在合并多个数据源的过程中,计算多个数据源中对象间的相似度,将相似度大于预设阈值的多个相同对象组成对象集,以获得多个对象集;

对每个对象集进行去重,合并每个对象集仅保留的一个去重剩余对象;

获得多个去重剩余对象以及多个去重剩余对象的热度。

可选的,所述对多个数据源中对象的热度进行标准化,包括:

在多个数据源中确定最大热度值以及最小热度值;

计算对象的原有热度值与最小热度值的第一差值,以及,计算所述最大热度值与所述最小热度值的第二差值,将所述第一差值与所述第二差值的商,作为对象的标准热度值;

利用所述标准热度值更新对象的原有热度值。

可选的,还包括:

获得排序操作后的排序结果;

分别发送所述排序结果至多个数据源。

可选的,热度包括:对象的播放频率、对象的播放次数、对象的播放人数或对象的收藏次数。

一种处理设备,包括:

通信模块,用于获取多个数据源中对象的热度;

处理器,用于对多个数据源中对象的热度进行标准化,对多个相同对象进行去重合并,以获得合并多个数据源后的多个去重剩余对象以及多个去重剩余对象的热度,根据热度对所述多个去重剩余对象执行排序操作。

通过以上技术手段,可以实现以下有益效果:

本申请提供了一种对象热度计算方法,由于多个数据源用于计算对象热度的属性不同,为了使得多个数据源的对象热度具有可比性,本申请对多个数据源的热度进行标准化。

为了获得同一类别中所有对象的热度,本申请合并多个数据源中的对象(合并过程中对于多个相同对象仅保留一个对象,删除重复对象),获得多个去重剩余对象以及多个去重剩余对象的热度。多个去重剩余对象为同一类别中所有对象,后续可以对所有对象热度执行排序操作。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种确定对象热度的系统的结构示意图;

图2为本申请实施例公开的一种确定对象热度的方法的流程图;

图3为本申请实施例公开的又一种确定对象热度的方法的流程图;

图4为本申请实施例公开的又一种确定对象热度的方法的流程图;

图5为本申请实施例公开的又一种确定对象热度的方法的流程图;

图6为本申请实施例公开的一种处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

术语解释:

数据源:顾名思义是数据的来源,是提供某种所需要数据的器件或原始媒体。

热度:在本申请中表示数据源中对象受用户欢迎的程度,例如,可以采用对象被播放的次数、频率等来表示用户喜欢对象的程度。

空值率:一组对象数据中数据值为空值的对象个数与所有对象个数的商。

均匀度:表示一个属性的各个等级中对象数量的均匀程度。

为了便于本领域技术人员了解本申请的应用场景,本申请提供了一种热度计算系统。参见图1,具体包括:处理设备100和与所述处理设备相连的多个数据源200。

可以理解的是,在实际情况下对同一类别对象进行排序才有实际意义,即对视频类别的各个视频进行排序,对歌曲类别的各个歌曲进行排序等等。本申请中的多个数据源可以为提供同一类别对象的来源。例如,提供视频的视频网站,或者,提供歌曲的音乐网站等等。

在图1提供的热度计算系统的基础上,根据本申请的一个实施例,提供了一种确定对象热度的方法。如图2所示,具体包括以下步骤:

步骤s201:处理设备100确定各个数据源中每个对象的热度。

为了实现确定同一类别各个数据源中所有对象排序列表的目的,发明人提出方案:合并同一类别的各个数据源的对象,获得同一类别中所有对象的热度。为此,首先需要确定各个数据源中每个对象的热度。

根据本申请提供的一个实施例,参见图3,可以包括以下步骤:

步骤s2011:处理设备100获取各个数据源中的多个对象的对象信息;其中,所述对象信息包括多个预设属性以及各个预设属性的属性值。

处理设备100可以预先确定多个用于计算对象热度的预设属性,例如,播放次数、播放人数、收藏次数、搜索次数等等。

可以理解的是,各个数据源会统计一些属性的属性值。处理设备100与各个数据源具有数据连接,所以处理设备100可以利用爬虫方式从各个数据源获取各个对象的对象标识,以及,各个对象的多个预设属性的属性值。

各个数据源可能不会统计处理设备设置的每个预设属性的属性值。因此,当一个数据源没有统计一个预设属性的属性值的情况下,该数据源中所有对象的预设属性的属性值为空值。

处理设备100为每个数据源设置数据源标识,在获取各个数据源中多个对象信息后,将每个数据源的多个对象信息与每个数据源标识对应存储。

参见表1,为处理设备100存储各个数据源的多个对象信息的示例。

表1

可选的,处理设备100会对各个数据源的多个对象信息进行数据清洗,以保证各个数据源中的多个对象信息的合理化。对数据进行清洗可以包括:

第一,删除异常属性值。各个数据源中有一些属性值可能是异常值,因此,判断各个属性值是否在预先设定的合理范围内,若不在删除异常属性值。

第二,对属性值的数据格式进行标准化。由于各个数据源的数据格式不统一,为了便于后续处理,可以将各个属性值的数据格式进行统一。

第三,删除冗余数据值。有的数据源为了保护数据,可能会对数据进行备份。本实施例会删除冗余数据值。

可以理解的是,对各个数据源的对象信息进行清洗,还可以包括其它内容,在此不再一一列举。

步骤s2012:处理设备100分别在多个预设属性中为各个数据源确定热度属性。

各个数据源原本具有用于计算对象热度的属性,有的为将播放次数作为计算对象热度的热度属性,有的为将播放人数作为计算对象热度的热度属性,有的为将收藏次数作为计算对象热度属性,等等。

因此,处理设备100会为各个数据源重新确定热度属性,以便使各个数据源确定热度属性的指标是统一的(指标统一,但用于确定热度的热度属性可以不同)。

本申请提供确定热度属性的两个指标:

第一指标:空值率最低的预设属性。

以一个数据源的一个预设属性为例,处理设备100会统计该数据源中该预设属性中不具有数据值(空值)的对象个数,以及,该数据源中所有对象个数,然后计算两者的商值,将商值确定为该预设属性的空值率。

一个预设属性的空值率越低,表示该预设属性中具有属性值的对象数量越多。使用该预设属性计算对象热度可以计算较多对象的对象热度。

第二指标:均匀度最高的属性。

以一个数据源的一个预设属性为例,处理设备100会在每个预设属性的最小值与最大值之间设定若干个等级。处理设备100会分别统计属性值位于各个等级的对象数量。

若各个等级中的对象数量越趋于相同,则均匀度越高。

本步骤中,处理设备100可以计算各个数据源中各个预设属性的空值率和各个预设属性的均匀度;然后,将各个数据源中空值率大于第一预设值且均匀度大于第二预设值的预设属性,确定为各个数据源的热度属性。

其中,第一预设值和第二预设值分别为预先设定的数据值,具体数据值可以根据实际情况具体确定,在此不做限定。

步骤s2013:将各个数据源中各个对象的热度属性对应的热度值,确定为各个对象的热度。

返回图2,进入步骤s202:处理设备100对多个数据源中对象的热度进行标准化。即,分别对各个数据源中每个对象的热度进行标准化获得标准热度值,利用对象的标准热度值更新对象的原有热度值。

由于各个数据源中的对象信息不尽相同,所以,基于相同指标确定的用于计算热度的热度属性也不尽相同。有的数据源采用播放次数作为热度属性,有的数据源采用采用播放频率作为热度属性,等等。

由于各个数据源中用于计算对象热度的属性不一致,所以各个数据源的对象热度不具有可比性。因此,可以对各个数据源的对象热度进行标准化。

本实施例可以采用离差标准化对各个数据源的对象热度进行标准化。参见图4,具体过程可以包括:

步骤s2021:在各个数据源中确定最大热度值以及最小热度值。

在各个数据源所包含的所有对象中,对各个对象热度进行排序,获得最大热度值和最小热度值。

步骤s2022:计算对象原有热度值与最小热度值的第一差值,以及,计算所述最大热度值与所述最小热度值的第二差值,将所述第一差值与所述第二差值的商,作为对象的标准热度值。

步骤s2023:利用所述标准热度值更新对象的原有热度值。

本实施例提供了一种数据标准化的方式,可以理解的是,还有多种对数据标准化方式,例如:如极值法、标准差法、三折线法、半正态性分布等等,在此不再一一列举。对数据进行标准化的具体执行过程已为成熟技术,在此不再赘述。

接着返回图2,进入步骤s203:对多个相同对象进行去重合并,以获得合并多个数据源后的多个去重剩余对象以及多个去重剩余对象的热度。

在对各个数据源中的各个对象热度进行标准化后,可以合并各个数据源的对象。由于一个对象可以存在于多个数据源中(例如,多个音乐网站中均包含同一首歌曲),所以必然会遇到多个数据源包含相同对象的情况。

根据本申请的一个实施例,参见图5,本步骤的执行过程包括:

步骤s2031:在合并多个数据源的过程中,计算多个数据源中对象间的相似度,将相似度大于预设阈值的多个相同对象组成对象集,以获得多个对象集。

对象信息包括对象相似度的指标,可以包括:节目简介、创作者、创作公司、发行日期、区域、语种等指标。针对一个数据源的一个对象,基于相似度指标计算对象与其它数据源中各个对象的相似度。

然后,将其它数据源中与该对象的相似度大于预设相似度的多个对象,确定为与该对象为相同对象。各个数据源中的相同对象可以组成一个对象集,该对象集包括多个相同对象。

可以理解的是,对象集之外的对象,为各个数据源中没有相同对象的对象。

步骤s2032:对每个对象集进行去重,合并每个对象集仅保留的一个去重剩余对象。

由于对象集包括多个相同对象,各个对象相同但对象热度不尽相同。因此,可以统一相同对象的热度。

统一相同对象热度的方式可以包括:将对象集中热度最大值确定为统一后的对象热度,或者,将对象集中热度平均值确定为统一后的对象热度,等等。

对每个对象集而言,对对象集进行去重仅保留一个对象删除多余对象。对象集中保留的对象称为去重剩余对象,去重剩余对象的热度值为统一后热度值。

步骤s2033:获得多个去重剩余对象以及多个去重剩余对象的热度。

在合并多个数据源的过程中,在对对象集执行去重操作后,合并每个对象集仅保留的一个去重剩余对象,获得同一类别数据源中所有对象。

接着返回图2,进入步骤s204:处理设备100根据热度对所述多个去重剩余对象执行排序操作。

步骤s205:处理设备100在执行排序操作后获得排序结果,并发送排序结果至多个数据源。

步骤s206:多个数据200源接收并显示排序结果。

通过以上内容,可以得知本申请的有益效果如下:

本申请提供了一种对象热度计算方法,由于多个数据源用于计算对象热度的属性不同,为了使得多个数据源的对象热度具有可比性,本申请对多个数据源的热度进行标准化。

为了获得同一类别中所有对象的热度,本申请合并多个数据源中的对象(合并过程中对于多个相同对象仅保留一个对象,删除重复对象),获得多个去重剩余对象以及多个去重剩余对象的热度。多个去重剩余对象为同一类别中所有对象,后续可以对所有对象热度执行排序操作。参见图6,本申请还提供了一种处理设备,包括:

通信模块,用于获取各个数据源中多个对象的热度;

处理器,用于对多个数据源中对象的热度进行标准化,对多个相同对象进行去重合并,以获得合并多个数据源后的多个去重剩余对象以及多个去重剩余对象的热度,根据热度对所述多个去重剩余对象执行排序操作。

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1