用户评价数据的处理方法、装置及服务器与流程

文档序号:18642976发布日期:2019-09-11 23:47阅读:277来源:国知局
用户评价数据的处理方法、装置及服务器与流程

本发明涉及数据处理技术领域,特别是涉及一种用户评价数据的处理方法、装置及服务器。



背景技术:

目前,很多网站都提供用户评价界面,用来接收用户的正面评价数据和负面评价数据,以便后续处理。例如:视频网站或应用商店就会提供用户评价界面,用户可以通过评价界面对影视作品或应用程序(app)进行正面评价或者负面评价,比如:顶或者踩的评价,其中,顶为正面评价,表示喜欢,踩为负面评价表示不喜欢。服务器对接收到的评价数据也就是用户正面评价的数量和负面评价的数量进行统计、计算等处理,获得评分结果,将获得的评分随影视作品或应用程序的封面一同显示,供用户参考。

目前,对用户评价数据进行统计、计算等处理,获得评分结果,通常采用如下方式来实现:用正面评价的数量,除以正面评价的数量和负面评价的数量之和,得到好评率,再将该好评率转换为[0,10]区间内保留一位小数的数值,得到评分结果。

发明人在实现本发明的过程中发现,现有技术中对用户评价数据的处理方法至少存在评分结果不够合理的问题。

具体的,由于现有技术通过用正面评价的数量,除以正面评价的数量和负面评价的数量之和的方式来获得评分结果,因此,对一个评价对象,如一个影视作品或一个app的评分结果仅由该评价对象得到的正面评价和负面评价的数量决定。然而,针对同一类型的评价对象,例如:针对影视作品来说,各个影视作品得到的总的评价的数量可能存在较大差异,有的影视作品甚至相差多个数量级,例如:影片a只有10个评价,而影片b有10000个评价。显然,针对影片a仅用10个评价计算获得的评分结果,与针对影片b用1000个评价计算获得的评分结果,对用户的参考价值不同,影片a的评价结果仅能体现少数人的评价结果,因此,评分结果不够合理,对用户的参考意义不大。

由此可见,采用现有的用户评价数据的处理方法获得的评分结果不够合理。



技术实现要素:

本发明实施例的目的在于提供一种用户评价数据的处理方法、装置及服务器,以提高评分结果的合理性。具体技术方案如下:

为了达到上述目的,第一方面,本发明实施例提供了一种用户评价数据的处理方法,该方法包括:

获得当前评价对象对应的评价数据;所述评价数据包含:正面评价的数量和负面评价的数量;

根据所述正面评价的数量和负面评价的数量,计算好评率;

将所述好评率转换为预设评分范围中的数值,作为基础评分;

根据所述评价数据的数据量,从预设的不同数据量对应的不同的检验统计量中,确定出与所述当前评价对象对应的当前检验统计量;

根据预设的置信度值和当前检验统计量计算所述基础评分的置信区间;

根据所述置信区间,确定所述当前评价对象的第一评分。

可选的,所述根据所述评价数据的数据量,从预设的不同数据量对应的不同的检验统计量中,确定出与所述当前评价对象对应的当前检验统计量的步骤,包括:

当所述评价数据的数据量大于预设数量阈值时,将z检验统计量确定为当前检验统计量;

当所述评价数据的数据量不大于所述预设数量阈值时,将t检验统计量确定为当前检验统计量。

可选的,所述根据预设的置信度值和当前检验统计量计算所述基础评分的置信区间的步骤,包括:

当所述评价数据的数据量大于预设数量阈值时,根据预设的置信度值和预设第一公式计算所述基础评分的置信区间;

当所述评价数据的数据量不大于所述预设数量阈值时,根据预设的置信度值和预设第二公式计算所述基础评分的置信区间;

其中,p为所述基础评分,n为当前评价对象对应的评价数据的数据量,a为显著性水平,a=1-预设的置信度值,z1-a/2为根据1-a/2值确定的z检验统计量,t1-a/2为根据1-a/2值确定的t检验统计量。

可选的,所述根据所述置信区间,确定所述当前评价对象的第一评分的步骤,包括:

将所述置信区间的下限,确定为所述当前评价对象的第一评分。

可选的,在计算获得所有待评价对象的第一评分后,所述方法,还包括:

将所有待评价对象的第一评分,按分值大小由低到高排列成一个评分列表;

按预设的各个子评分序列的数据量,将所述评分列表按分值由低到高的顺序,划分为预设数量个子评分序列;所述各个子评分序列的数据量是根据正态分布的规则确定的;所述子评分序列的数量是根据所述评分范围中包含的整数数值个数确定的;

为每一子评分序列分配对应的序列号;

针对所述每一子评分序列,将所述子评分序列中的每一个第一评分,分别转换为预设转换区间内的数值s;

利用预设的公式:score=i+s,计算每一个待评价对象的第二评分;其中,score为所述待评价对象的第二评分,i为所述待评价对象所属的子评分序列的序列号。

可选的,所述预设转换区间为区间[0,1];

所述针对所述每一子评分序列,将所述子评分序列中的每一个第一评分,分别转换为预设转换区间内的数值的步骤,包括:

利用预设的公式:将每一子评分序列中的每一个第一评分,分别转换为[0,1]区间内的数值;其中,x为所述待评价对象的第一评分,min为所述待评价对象所属的子评分序列中的最小值,max为所述待评价对象所属的子评分序列中的最大值,s为所述待评价对象的第一评分x在预设转换区间[0,1]区间内对应的数值。

第二方面,本发明实施例提供了一种用户评价数据的处理装置,该装置包括:

获得模块,用于获得当前评价对象对应的评价数据;所述评价数据包含:正面评价的数量和负面评价的数量;

计算模块,用于根据所述正面评价的数量和负面评价的数量,计算好评率;

基础评分模块,用于将所述好评率转换为预设评分范围中的数值,作为基础评分;

确定模块,用于根据所述评价数据的数据量,从预设的不同数据量对应的不同的检验统计量中,确定出与所述当前评价对象对应的当前检验统计量;

区间计算模块,用于根据预设的置信度值和当前检验统计量计算所述基础评分的置信区间;

第一评分模块,用于根据所述置信区间,确定所述当前评价对象的第一评分。

可选的,所述确定模块,具体用于:

当所述评价数据的数据量大于预设数量阈值时,将z检验统计量确定为当前检验统计量;

当所述评价数据的数据量不大于所述预设数量阈值时,将t检验统计量确定为当前检验统计量。

可选的,所述区间计算模块,具体用于:

当所述评价数据的数据量大于预设数量阈值时,根据预设的置信度值和预设第一公式计算所述基础评分的置信区间;

当所述评价数据的数据量不大于所述预设数量阈值时,根据预设的置信度值和预设第二公式计算所述基础评分的置信区间;

其中,p为所述基础评分,n为当前评价对象对应的评价数据的数据量,a为显著性水平,a=1-预设的置信度值,z1-a/2为根据1-a/2值确定的z检验统计量,t1-a/2为根据1-a/2值确定的t检验统计量。

可选的,所述第一评分模块,具体用于:

将所述置信区间的下限,确定为所述当前评价对象的第一评分。

可选的,所述装置,还包括:

列表模块,用于在计算获得所有待评价对象的第一评分后,将所有待评价对象的第一评分,按分值大小由低到高的顺序排列成一个评分列表;

划分模块,用于按预设的各个子评分序列的数据量,将所述评分列表按分值由低到高的顺序,划分为预设数量个子评分序列;所述各个子评分序列的数据量是根据正态分布的规则确定的;所述子评分序列的数量是根据所述评分范围中包含的整数数值个数确定的;

分配模块,用于为每一子评分序列分配对应的序列号;

评分转换模块,用于针对所述每一子评分序列,将所述子评分序列中的每一个第一评分,分别转换为预设转换区间内的数值s;

第二评分模块,用于利用预设的公式:score=i+s,计算每一个待评价对象的第二评分;其中,score为所述待评价对象的第二评分,i为所述待评价对象所属的子评分序列的序列号。

可选的,所述预设转换区间为区间[0,1];

所述评分转换模块,具体用于:利用预设的公式:将每一子评分序列中的每一个第一评分,分别转换为[0,1]区间内的数值;其中,x为所述待评价对象的第一评分,min为所述待评价对象所属的子评分序列中的最小值,max为所述待评价对象所属的子评分序列中的最大值,s为所述待评价对象的第一评分x在预设转换区间[0,1]区间内对应的数值。

第三方面,本发明实施例提供了一种服务器,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现如下步骤:

获得当前评价对象对应的评价数据;所述评价数据包含:正面评价的数量和负面评价的数量;

根据所述正面评价的数量和负面评价的数量,计算好评率;

将所述好评率转换为预设评分范围中的数值,作为基础评分;

根据所述评价数据的数据量,从预设的不同数据量对应的不同的检验统计量中,确定出与所述当前评价对象对应的当前检验统计量;

根据预设的置信度值和当前检验统计量计算所述基础评分的置信区间;

根据所述置信区间,确定所述当前评价对象的第一评分。

本发明实施还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一用户评价数据的处理方法的步骤。

本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一用户评价数据的处理方法。

本发明实施例提供的一种用户评价数据的处理方法、装置及服务器,可以实现获得当前评价对象对应的正面评价的数量和负面评价的数量;根据正面评价的数量和负面评价的数量,计算好评率;将好评率转换为预设评分范围中的数值,作为基础评分;根据评价数据的数据量,从预设的不同数据量对应的不同的检验统计量中,确定出与当前评价对象对应的当前检验统计量;根据预设的置信度值和当前检验统计量计算基础评分的置信区间;根据置信区间,确定当前评价对象的第一评分。与现有的用户评价数据的处理方法通过用正面评价的数量,除以正面评价的数量和负面评价的数量之和的方式来获得评分结果相比,本发明实施例提供的用户评价数据的处理方法,在计算当前评价对象的评分时,利用置信区间将评价数据的数据量对评分结果的影响也融入到评分结果的计算中,提高了评分结果的合理性,解决了现有技术由于没有考虑到评价的数量对评分结果的影响,导致的评分结果不够合理的问题。

当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的用户评价数据的处理方法的一种流程示意图;

图2为本发明实施例提供的用户评价数据的处理方法的另一种流程示意图;

图3为本发明实施例提供的一种评分结果的分布示意图;

图4为现有技术中的一种评分结果的分布示意图;

图5为本发明实施例提供的用户评价数据的处理装置的一种结构示意图;

图6为本发明实施例提供的用户评价数据的处理装置的另一种结构示意图;

图7为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。

为了提高评分结果的合理性,本发明实施例提供了一种用户评价数据的处理方法,参见图1,该方法包括:

s101:获得当前评价对象对应的评价数据;

该评价数据包含:正面评价的数量和负面评价的数量;在实际应用中,评价对象可以是影视作品、应用软件等。

在一种具体的实施例中,可以设置一个采集模块实时的采集用户对评价对象的评价,并将采集模块采集到的评价数据保存至一个或多个存储服务器中,这样,在对用户评价数据进行处理时,就可以从存储服务器中获得评价对象对应的评价数据。

s102:根据正面评价的数量和负面评价的数量,计算好评率;

具体的,可以用公式:得到好评率。

s103:将好评率转换为预设评分范围中的数值,作为基础评分;

具体的,可以是:将好评率转换为预设评分范围中包含一位小数的数值,作为基础评分。

在一种具体的实施例中,将好评率转换为预设评分范围中包含一位小数的数值,作为基础评分的步骤,可以包括:

先按预设的移位方向和移位数量,对好评率的小数点进行移位,得到准基础评分;

再利用四舍五入或选取第一位小数的算法,将准基础评分转换为只有一位小数的数值,作为基础评分。

例如:在一种具体的实施例中,评分范围可以为[0,10],根据评分范围[0,10]预设的小数点移位方向和移位数量可以是:右移1位。如果当前评价对象得到的正面评价的数量和负面评价的数量分别是22个和978个,用正面评价的数量22,除以正面评价的数量和负面评价的数量之和1000,得到好评率0.022,先将该好评率的小数点右移1位,得到准基础评分0.22;再利用四舍五入的算法,将准基础评分0.22转换为只有一位小数的数值0.2,将0.2作为基础评分。

s104:根据评价数据的数据量,从预设的不同数据量对应的不同的检验统计量中,确定出与当前评价对象对应的当前检验统计量;

具体的,可以是:当评价数据的数据量大于预设数量阈值时,将z检验统计量确定为当前检验统计量;

当评价数据的数据量不大于所述预设数量阈值时,将t检验统计量确定为当前检验统计量。

s105:根据预设的置信度值和当前检验统计量计算基础评分的置信区间;

具体的,可以是:当评价数据的数据量大于预设数量阈值时,根据预设的置信度值和预设第一公式计算基础评分的置信区间;

当评价数据的数据量不大于预设数量阈值时,根据预设的置信度值和预设第二公式计算基础评分的置信区间;

其中,p为基础评分,n为当前评价对象对应的评价数据的数据量,a为显著性水平,a=1-预设的置信度值,z1-a/2为根据1-a/2值确定的z检验统计量,t1-a/2为根据1-a/2值确定的t检验统计量。

比如:在一种具体的实施例中,预设数量阈值为50,这样,当评价数据的数据量大于50时,根据预设的置信度值和预设第一公式计算基础评分的置信区间。

当评价数据的数据量不大于50时,根据预设的置信度值和预设第二公式计算基础评分的置信区间;

由于评价对象正面评价的数量和负面评价的数量符合二项分布的特点,如果假设评价对象的基础分有99%的可能性在一个以基础分p为中心的置信区间[s1,p,s2]中,那么,可以根据二项分布的特点,将置信度值设置为0.99,以99%的置信度计算评价对象的基础分的置信区间。

在一种具体的实施例中,可以根据实际需求设置置信度值,比如,可以将置信度值设置为0.99,此时,根据a=1-预设的置信度值,可以确定显著性水平a=1-0.99=0.01。

s106:根据置信区间,确定当前评价对象的第一评分。

由于当评分用户数越多时,以基础分p为中心的置信区间越小,对p的估算也就越准确,为了体现出该特点,可以取置信区间的下限s1作为当前评价对象的第一评分。

具体的,当当前评价对象的评价数据的数据量大于预设数量阈值时,将预设第一公式:的下限:作为当前评价对象的第一评分。

当当前评价对象的评价数据的数据量小于或等于预设数量阈值时,将预设第二公式:的下限:作为当前评价对象的第一评分。

由图1所示的实施例可见,与现有的用户评价数据的处理方法通过用正面评价的数量,除以正面评价的数量和负面评价的数量之和的方式来获得评分结果相比,本发明实施例提供的用户评价数据的处理方法,在计算当前评价对象的评分时,利用置信区间将评价数据的数据量对评分结果的影响也融入到评分结果的计算中,提高了评分结果的合理性,解决了现有技术由于没有考虑到评价的数量对评分结果的影响,导致的评分结果不够合理的问题。

在计算获得所有待评价对象的第一评分后,在本发明实施例提供的方法,还可以按照如下步骤,进一步对第一评分的评分结果进行修正得到第二评分,使评分结果更为合理,使所有待评价对象的评分分布符合业内公认的类正态分布。

获得第二评分的步骤,可以包括:

将所有待评价对象的第一评分,按分值大小由低到高的顺序排列成一个评分列表;

按预设的各个子评分序列的数据量,将评分列表按分值由低到高的顺序,划分为预设数量个子评分序列;各个子评分序列的数据量是根据正态分布的规则确定的;子评分序列的数量是根据评分范围中包含的整数数值个数确定的;

在一种具体的实施例中,预设评分范围可以为[0,10],而子评分序列的数量可以根据评分范围中包含的整数数值个数确定:在范围[0,10]内有11个整数:0,1,2,…,10,而在实际应用中当预设评分范围为[0,10]时,影视作品的评分可能是:[0,1)、[1,2)、[2,3)、[3,4)、[4,5)、[5,6)、[6,7)、[7,8)、[8,9)、[9,10],这10个区间内任一区间内的一个数值,因此,可以将评分列表按分值由低到高的顺序,划分为10个子评分序列。

为每一子评分序列分配对应的序列号;

例如:为子评分序列list1,list2,…,list10,依次分配的序列号可为:0,1,…,9。

针对每一子评分序列,将子评分序列中的每一个第一评分,分别转换为预设转换区间内的数值s;

利用预设的公式:score=i+s,计算每一个待评价对象的第二评分;其中,

score为待评价对象的第二评分,i为待评价对象所属的子评分序列的序列号。

具体的,预设转换区间为可以为区间[0,1];

针对每一子评分序列,将子评分序列中的每一个第一评分,分别转换为预设转换区间内的数值的步骤,可以包括:

利用预设的公式:将每一子评分序列中的每一个第一评分,分别转换为[0,1]区间内的数值;其中,x为待评价对象的第一评分,min为待评价对象所属的子评分序列中的最小值,max为待评价对象所属的子评分序列中的最大值,s为待评价对象的第一评分x在预设转换区间[0,1]区间内对应的数值。

以下列举一个具体的实施例,对本发明实施例提供的用户评价数据的处理方法做进一步详细的说明。

在该实施例中评价对象可以为影视作品,评价数据可以包含:正面评价的数量和负面评价的数量,也就是“顶”和“踩”的数量。预设评分范围可以为[0,10],根据预设评分范围设置的小数点移位的方向和数量可以为右移1位,预设转换区间为区间[0,1],预设数量阈值可以为50,预设的置信度值可以为0.99,那么,根据a=1-预设的置信度值,可以确定显著性水平a=1-0.99=0.01。

参见图2,在该实施例中用户评价数据的处理方法的流程为:

s200:获得待评价影视作品;

s201:获得当前影视作品对应的正面评价的数量和负面评价的数量;其中,当前影视作品为获得的待评价影视作品中的一个影视作品。

s202:用正面评价的数量,除以正面评价的数量和负面评价的数量之和,得到好评率;

s203:将好评率的小数点右移1位,得到准基础评分;

s204:利用四舍五入的算法,将准基础评分转换为只有一位小数的数值,作为基础评分;

例如:好评率为0.25,将该好评率的小数点右移1位,得到准基础评分2.5。

实际应用中,如果计算出的准基础评分小数点后没有小数或就只有一位,可以直接指向步骤s205。

s205:判断当前影视作品的评价数据的数据量是否大于预设数量阈值50;如果当前影视作品的评价数据的数据量大于预设数量阈值50,则将预设第一公式确定为当前预设公式;如果当前影视作品的评价数据的数据量小于或等于预设数量阈值50,则将第二预设公式确定为当前预设公式;其中,p为基础评分,n为当前影视作品对应的评价数据的数据量,a为显著性水平,a=1-预设的置信度值,z1-a/2为根据1-a/2值确定的z检验统计量的z值,t1-a/2为根据1-a/2值确定的t检验统计量的t值。

z检验统计量和t检验统计量可以用来检验两个平均数之间差异显著的程度,通常z检验统计量适合样本数较大的情况,比如样本数大于50,t适合样本数较小的情况,比如样本数小于等于50。

z检验统计量的z值计算公式为:其中:为检验样本的平均数;μ0为检验样本所属的总体的平均数,比如,从100个待评价对象中选择了10个待评价对象作为检验样本,那么,该检验样本所属的总体为就为上述的100个待评价对象;s为检验样本的标准差;n为检验样本的个数。

标准差用于衡量一组数值与其平均数之间差异的程度。

假设有一组数值x1,...,xn,其平均数的计算公式为:其标准差的计算公式为:

在实际应用中,za对应的z检验统计量的z值,可以根据za的下角标a,通过查询z值表得到。

例1,z0.9955对应的z检验统计量的z值,可以通过以下步骤得到:

z0.9955的下角标为0.9955,用1-0.9955=0.0045,参见表一所示的z值表,可知,通过查询z值表确定0.0045所在行的行标为-2.6,所在列的列标为0.01,因此,得到z0.9955对应的z检验统计量的z值为-2.61。

例2,如果预设的置信度值为0.99,显著性水平a=1-预设的置信度值=0.01,那么,z1-a/2=z0.995。z0.995对应的z检验统计量的z值,可以通过以下步骤得到:

用1-0.995=0.005,参见表一所示的z值表,可知,z值表中没有0.005,而,-2.58对应的z值为0.0049,-2.57对应的z值为0.0051,也就是说,0.005的z值在-2.58和-2.57之间,可以取两者的平均值-2.575作为z0.995对应的z检验统计量的z值。

表一

t检验统计量的t值计算公式为:其中:为检验样本的平均数;μ0为检验样本所属的总体的平均数;s为检验样本的标准差;n为检验样本的个数。

在实际应用中,ta对应的t检验统计量的t值,可以根据ta的下角标a和当前影视作品的评价数据的数据量,通过查询t值检验表得到。

例如,如果预设的置信度值为0.99,显著性水平a=1-预设的置信度值=0.01,那么,t1-a/2对应的t检验统计量的t值,可以通过以下步骤得到:

确定自由度n',其中自由度为当前影视作品的评价数据的数据量-1,比如,当前影视作品的评价数据的数据量为7,那么自由度为7-1=6,参见表二所示的t值表,可知,当自由度为6,显著性水平a=0.01时,由t1-a/2的下角标a/2可以确定为双侧检验,因此,t1-a/2对应的t检验统计量的t值为3.707。

表二

s206:根据预设的置信度值0.99,使用当前预设公式对基础评分计算置信区间;

s207:将置信区间的下限,确定为当前影视作品的第一评分;

s208:在计算获得所有影视作品的第一评分后,将所有影视作品的第一评分,按分值大小由低到高的顺序排列成一个评分列表;

比如:计算获得影视作品a、b、c、d的第一评分分别为2、1、3、4,将影视作品a、b、c、d的第一评分,按分值大小由低到高的顺序排列成一个评分列表:1、2、3、4。

s209:按预设的各个子评分序列的数据量,将评分列表按分值由低到高的顺序,划分为10个子评分序列;

在实际应用中,为了进一步提高评分结果的合理性使平台上影视作品的评分分布符合业内公认的分布形态:类正态分布,可以为不同的子评分序列设置不同的数据量,按为每一子评分序列设置的数据量将评分列表按分值由低到高的顺序,划分为多个子评分序列。

在一种具体的实施例中,可以为不同的子评分序列设置不同的百分占比,根据评分列表的数据量和各子评分序列的百分占比,确定各子评分序列对应的数据量,按预设的各个子评分序列的数据量,将评分列表按分值由低到高的顺序,划分为多个子评分序列。

例如:为子评分序列list1,…,list10,设置的百分占比分别为:1.5%,5%,10%,15%,25%,20%,15%,5%,2.5%,1%,评分列表的数据量为2000,根据评分列表的数据量和各子评分序列的百分占比,确定子评分序列list1,…,list10对应的数据量分别为:30,100,200,300,500,400,300,100,50,20,按确定的各个子评分序列的数据量,将评分列表按分值由低到高的顺序,划分为10个子评分序列。其中,list1中包含该评分列表中的前30也就是第1-30个第一评分,list2中包含该评分列表中的第31-130个第一评分,依次类推。

s210:利用预设的公式:将每一子评分序列中的每一个第一评分,分别转换为[0,1]区间内的数值;其中,x为影视作品的第一评分,min为该影视作品所属的子评分序列中的最小值,max为该影视作品所属的子评分序列中的最大值,s为该影视作品的第一评分x在预设转换区间[0,1]区间内对应的数值;

例如:子评分序列list1中包含的第一评分分别为:0.5、0.8、1、1.5、1.8、2.5。可知,list1中的最小值min=0.5,list1中的最大值max=2.5,计算list1中第一评分1对应的[0,1]区间内的数值:

也就是说,第一评分1在预设转换区间[0,1]区间内对应的数值为0.25。

s211:利用预设的公式:score=i+s,计算每一个影视作品的第二评分;其中,score为该影视作品的第二评分,i为该影视作品所属的子评分序列的序列号,s为该影视作品的第一评分在预设转换区间[0,1]区间内对应的数值。

例如:影视作品a所属的子评分序列的序列号为1,影视作品a的第一评分在预设转换区间[0,1]区间内对应的数值为0.25,那么,影视作品a的第二评分为score=1+0.25=1.25。

在实际应用中还可以在获得评分结果后,对当前影视作品的评分结果、当前影视作品获得的正面评价的数量和负面评价的数量等进行保存,以便于后续使用。

参见图3,图3为对利用本发明实施例提供的方法得到的评分结果,进行分析统计后得到的评分分布示意图;由图3可以看出,利用本发明实施例提供的方法得到的评分结果的分布为类正态分布,所有影视作品中评分为6.8、6.9和7.0分的影视作品最多,共300多部,符合业内公认的影视作品评分特点:多数影视作品的评分都在分布在评分区间的中段,评分结果为极端评分的影视作品的数量较少,从而,证明了利用本发明实施例提供的用户评价数据的处理方法得到的评分结果较为合理。

图4为对利用现有技术提供的方法得到的评分结果,进行分析统计后得到的评分分布示意图。由图4可以看出,利用现有技术提供的方法得到的评分结果的分布为:所有影视作品中有70%~80%的影视作品的评分都在8分以上,6分以下的影视作品很少,这显然不符合业内公认的影视作品评分特点,反映出现有的对用户评价数据的处理方法获得的评分结果不够合理。

可见,与现有的用户评价数据的处理方法通过用正面评价的数量,除以正面评价的数量和负面评价的数量之和的方式来获得评分结果相比,本发明实施例提供的用户评价数据的处理方法,在计算当前评价对象的评分时,利用置信区间将评价数据的数据量对评分结果的影响也融入到评分结果的计算中,提高了评分结果的合理性,解决了现有技术由于没有考虑到评价的数量对评分结果的影响,导致的评分结果不够合理的问题。

与图1所示实施例对应的,本发明实施例还提供了一种用户评价数据的处理装置,参见图5,该用户评价数据的处理装置,可以包括:

获得模块501,用于获得当前评价对象对应的评价数据;所述评价数据包含:正面评价的数量和负面评价的数量;

计算模块502,用于根据所述正面评价的数量和负面评价的数量,计算好评率;

基础评分模块503,用于将所述好评率转换为预设评分范围中的数值,作为基础评分;

确定模块504,用于根据所述评价数据的数据量,从预设的不同数据量对应的不同的检验统计量中,确定出与所述当前评价对象对应的当前检验统计量;

区间计算模块505,用于根据预设的置信度值和当前检验统计量计算所述基础评分的置信区间;

第一评分模块506,用于根据置信区间,确定当前评价对象的第一评分。

可选的,确定模块504,具体用于:

当评价数据的数据量大于预设数量阈值时,将z检验统计量确定为当前检验统计量;

当评价数据的数据量不大于所述预设数量阈值时,将t检验统计量确定为当前检验统计量。

可选的,区间计算模块505,具体用于:

当评价数据的数据量大于预设数量阈值时,根据预设的置信度值和预设第一公式计算基础评分的置信区间;

当评价数据的数据量不大于预设数量阈值时,根据预设的置信度值和预设第二公式计算基础评分的置信区间;

其中,p为基础评分,n为当前评价对象对应的评价数据的数据量,a为显著性水平,a=1-预设的置信度值,z1-a/2为根据1-a/2值确定的z检验统计量,t1-a/2为根据1-a/2值确定的t检验统计量。

可选的,第一评分模块506,可以具体用于:

将所述置信区间的下限,确定为当前评价对象的第一评分。

可选的,参见图6,该用户评价数据的处理装置,还可以包括:

列表模块601,用于在计算获得所有待评价对象的第一评分后,将所有待评价对象的第一评分,按分值大小由低到高的顺序排列成一个评分列表;

划分模块602,用于按预设的各个子评分序列的数据量,将评分列表按分值由低到高的顺序,划分为预设数量个子评分序列;各个子评分序列的数据量是根据正态分布的规则确定的;子评分序列的数量是根据评分范围中包含的整数数值个数确定的;

分配模块603,用于为每一子评分序列分配对应的序列号;

评分转换模块604,用于针对每一子评分序列,将子评分序列中的每一个第一评分,分别转换为预设转换区间内的数值s;

第二评分模块605,用于利用预设的公式:score=i+s,计算每一个待评价对象的第二评分;其中,score为待评价对象的第二评分,i为待评价对象所属的子评分序列的序列号。

可选的,预设转换区间为区间[0,1];

评分转换模块604,可以具体用于:利用预设的公式:将每一子评分序列中的每一个第一评分,分别转换为[0,1]区间内的数值;其中,x为待评价对象的第一评分,min为待评价对象所属的子评分序列中的最小值,max为待评价对象所属的子评分序列中的最大值,s为待评价对象的第一评分x在预设转换区间[0,1]区间内对应的数值。

由图5所示的实施例可见,与现有的用户评价数据的处理装置通过用正面评价的数量,除以正面评价的数量和负面评价的数量之和的方式来获得评分结果相比,本发明实施例提供的用户评价数据的处理装置,在计算当前评价对象的评分时,利用置信区间将评价数据的数据量对评分结果的影响也融入到评分结果的计算中,提高了评分结果的合理性,解决了现有技术由于没有考虑到评价的数量对评分结果的影响,导致的评分结果不够合理的问题。

本发明实施例还提供了一种服务器,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,

存储器703,用于存放计算机程序;

处理器701,用于执行存储器703上所存放的程序时,实现如下步骤:

获得当前评价对象对应的评价数据;评价数据包含:正面评价的数量和负面评价的数量;

根据正面评价的数量和负面评价的数量,计算好评率;

将好评率转换为预设评分范围中的数值,作为基础评分;

根据评价数据的数据量,从预设的不同数据量对应的不同的检验统计量中,确定出与当前评价对象对应的当前检验统计量;

根据预设的置信度值和当前检验统计量计算基础评分的置信区间;

根据置信区间,确定当前评价对象的第一评分。

由图7所示的实施例可见,与现有的服务器通过用正面评价的数量,除以正面评价的数量和负面评价的数量之和的方式来获得评分结果相比,本发明实施例提供的服务器,在计算当前评价对象的评分时,利用置信区间将评价数据的数据量对评分结果的影响也融入到评分结果的计算中,提高了评分结果的合理性,解决了现有技术由于没有考虑到评价的数量对评分结果的影响,导致的评分结果不够合理的问题。

上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory,ram),也可以包括非易失性存储器(non-volatilememory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一用户评价数据的处理方法的步骤。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一用户评价数据的处理方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1