数据处理方法、装置、电子设备及存储介质与流程

文档序号:21179157发布日期:2020-06-20 17:41阅读:188来源:国知局
数据处理方法、装置、电子设备及存储介质与流程

本申请涉及数据处理领域,具体而言,涉及一种数据处理方法、装置、电子设备及存储介质。



背景技术:

为了促进司机工作的积极性,网约车平台一般会举办司机组队进行业务竞赛的活动,而在进行竞赛团队的队员分配时,一般是选择家乡或年龄的相近司机组成一队。但是在实际应用中,发现根据上述方式组成的竞赛团队的竞赛结果不佳,对司机的激励效果不显著。



技术实现要素:

本申请实施例的目的在于提供一种数据处理方法、装置、电子设备及存储介质,使得可以选择满足要求的服务提供者在一个团队,进而提高了组队竞赛对服务提供者的激励效果,以此调动了服务提供者参与竞赛的积极性。

第一方面,本申请实施例提供了一种数据处理方法,所述方法包括:从订单处理平台获取多个服务提供者中每个服务提供者在参加历史业务竞赛的时间段内的多种数据类型的接单特征数据;对所述多个服务提供者的每种数据类型的接单特征数据进行相似度计算,获得每种数据类型的数据相似度值;获取所述多个服务提供者的综合指标提升数据,所述综合指标提升数据为根据所述多个服务提供者中每个服务提供者在所述历史业务竞赛中的业绩提升数据所确定的数据;计算每个数据类型的所述数据相似度值与所述综合指标提升数据之间的关联度值,获得每个数据类型对应的关联度值;从多个数据类型对应的关联度值中确定出满足要求的至少一个目标关联度值;确定所述至少一个目标关联度值对应的数据类型作为目标数据类型,并根据多个候选服务提供者的目标数据类型的接单特征数据从所述多个候选服务提供者中选出组队参与业务竞赛的目标服务提供者。

在上述实现过程中,通过获得与多个服务提供者的综合指标提升数据满足要求的目标数据类型,然后可基于目标数据类型的接单特征数据从多个候选服务提供者中选出参与业务竞赛的目标服务提供者,从而依据更多的数据类型进行队员的选取,可以选择满足要求的服务提供者在一个团队,进而提高了组队竞赛对服务提供者的激励效果,以此调动了服务提供者参与竞赛的积极性。

可选地,对所述多个服务提供者的每种数据类型的接单特征数据进行相似度计算,获得每种数据类型的数据相似度值,包括:计算所述多个服务提供者的每种数据类型的接单特征数据的方差,所述方差为每种数据类型的数据相似度值。

在上述实现过程中,通过方差来表征每种数据类型的数据相似度值,从而可以更为准确地获得每种数据类型的数据相似度值。

可选地,所述接单特征数据包括每个服务提供者在各个接单时间段内的接单次数,计算所述多个服务提供者的每种数据类型的接单特征数据的方差,包括:针对每个接单时间段,基于每个服务提供者在每个接单时间段内的接单次数获取所述多个服务提供者在每个接单时间段的接单次数均值;根据所述接单次数均值计算获得第一方差,所述第一方差为数据类型为在各个接单时间段内接单次数时的数据相似度值。

在上述实现过程中,基于服务提供者在每个接单时间段内的接单次数来获取对应数据类型的数据相似度值,从而可从时间维度上对服务提供者的社会属性进行分析,进而可以从服务提供者的更多社会属性分析服务提供者之间的相似性。

可选地,所述接单特征数据还包括每个服务提供者在各个区域的出现次数,计算所述多个服务提供者的每种数据类型的接单特征数据的方差,包括:针对每个区域,基于每个服务提供者在每个区域的出现次数获取所述多个服务提供者在每个区域的出现次数均值;根据所述出现次数均值计算第二方差,所述第二方差为数据类型为各个区域的出现次数时的数据相似度值。。

在上述实现过程中,基于服务提供者出现在各个区域的出现次数来获取对应数据类型的数据相似度值,从而可从空间维度上对服务提供者的社会属性进行分析,进而可以从服务提供者的更多社会属性分析服务提供者之间的相似性。

可选地,计算每个数据类型的所述数据相似度值与所述综合指标提升数据之间的关联度值,获得每个数据类型对应的关联度值,包括:

通过关联度模型:计算每个数据类型的所述数据相似度值与所述综合指标提升数据之间的关联度值,获得每个数据类型对应的关联度值;

其中,x为所述数据相似度值,y为综合指标提升数据,p为关联度值,为x的均值,为y的均值。

在上述实现过程中,通过计算数据类型的相似度值与综合指标提升数据之间的相关系数,从而可以此准确方便地表示两者之间的关联度值。

可选地,从多个数据类型对应的关联度值中确定出满足要求的至少一个目标关联度值,包括:从多个数据类型对应的关联度值中获取大于预设阈值的至少一个目标关联度值,所述关联度值越大表明每种数据类型的数据相似度值与所述综合指标提升数据之间为正相关性越强。

在上述实现过程中,通过获取大于预设阈值且小于或等于一常数的至少一个目标关联度值,从而可以获得满足要求的至少一个目标关联度值,进而可获取与综合指标提升数据之间满足一定关联度的目标数据类型。

可选地,从多个数据类型对应的关联度值中确定出满足要求的至少一个目标关联度值,包括:将多个数据类型对应的关联度值进行排序,获取预设个数的至少一个目标关联度值,其中,所述预设个数的至少一个目标关联度值均不小于所述多个数据类型对应的关联度值中除所述至少一个目标关联度值以外的其他关联度值。

在上述实现过程中,通过获取预设个数的至少一个目标关联度值,从而可以获得满足要求的至少一个目标关联度值,进而可获取与综合指标提升数据之间满足一定关联度的目标数据类型。

可选地,获得每个数据类型对应的关联度值之后,还包括:将所述每个数据类型对应的关联度值以热力图的形式进行呈现。

在上述实现过程中,将关联度值以热力图的形式进行呈现,从而可以更加直观的观测到各个数据类型的数据相似度与综合指标提升数据之间的关联度值。

第二方面,本申请实施例提供了一种数据处理装置,所述装置包括:

特征数据获取模块,用于从订单处理平台获取多个服务提供者中每个服务提供者在参加历史业务竞赛的时间段内的多种数据类型的接单特征数据;

相似度值获取模块,用于对所述多个服务提供者的每种数据类型的接单特征数据进行相似度计算,获得每种数据类型的数据相似度值;

指标提升数据获取模块,用于获取所述多个服务提供者的综合指标提升数据,所述综合指标提升数据为根据所述多个服务提供者中每个服务提供者在所述历史业务竞赛中的业绩提升数据所确定的数据;

关联度值计算模块,用于计算每个数据类型的所述数据相似度值与所述综合指标提升数据之间的关联度值,获得每个数据类型对应的关联度值;

目标关联度值选取模块,用于从多个数据类型对应的关联度值中确定出满足要求的至少一个目标关联度值;

目标数据类型确定模块,用于确定所述至少一个目标关联度值对应的数据类型作为目标数据类型,并根据多个候选服务提供者的目标数据类型的接单特征数据从所述多个候选服务提供者中选出组队参与业务竞赛的目标服务提供者。

可选地,所述相似度值获取模块,用于计算所述多个服务提供者的每种数据类型的接单特征数据的方差,每种数据类型的数据相似度值为所述方差。

可选地,所述接单特征数据包括每个服务提供者在各个接单时间段内的接单次数,所述相似度值获取模块,用于针对每个接单时间段,基于每个服务提供者在每个接单时间段内的接单次数获取所述多个服务提供者在每个接单时间段的接单次数均值;根据所述接单次数均值计算获得第一方差,所述第一方差为数据类型为在各个接单时间段内接单次数时的数据相似度值。

可选地,所述接单特征数据还包括每个服务提供者在各个区域的出现次数,所述相似度值获取模块,用于针对每个区域,基于每个服务提供者在每个区域的出现次数获取所述多个服务提供者在每个区域的出现次数均值;根据所述出现次数均值计算第二方差,所述第二方差为数据类型为各个区域的出现次数时的数据相似度值。

可选地,所述关联度值计算模块,用于通过关联度模型:计算每个数据类型的所述数据相似度值与所述综合指标提升数据之间的关联度值,获得每个数据类型对应的关联度值;

其中,x为所述数据相似度值,y为综合指标提升数据,p为关联度值,为x的均值,为y的均值。

可选地,所述目标关联度值选取模块,用于从多个数据类型对应的关联度值中获取大于预设阈值的至少一个目标关联度值,所述关联度值越大表明每种数据类型的数据相似度值与所述综合指标提升数据之间为正相关性越强。

可选地,所述目标关联度值选取模块,用于将多个数据类型对应的关联度值进行排序,获取预设个数的至少一个目标关联度值,其中,所述预设个数的至少一个目标关联度值均不小于所述多个数据类型对应的关联度值中除所述至少一个目标关联度值以外的其他关联度值。

可选地,所述装置还包括:

热力图呈现模块,用于将所述每个数据类型对应的关联度值以热力图的形式进行呈现。

第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。

第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出根据本申请的一些实施例的可以实现本申请思想的电子设备的示例性硬件和软件组件的示意图;

图2为本申请实施例提供的一种数据处理方法的流程图;

图3为本申请实施例提供的一种表征a地区中特征数据与综合指标提升数据之间的相关关系的热力图的示意图;

图4为本申请实施例提供的一种表征b地区中特征数据与综合指标提升数据之间的相关关系的热力图的示意图;

图5为本申请实施例提供的一种表征c地区中特征数据与综合指标提升数据之间的相关关系的热力图的示意图;

图6为本申请实施例提供的一种数据处理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“网约车”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕网约车进行描述,但是应该理解,这仅是一个示例性实施例。本申请可以应用于任何其他交通运输类型。例如,本申请可以应用于不同的运输系统环境,包括陆地,海洋,或航空等,或其任意组合。运输系统的交通工具可以包括出租车、私家车、顺风车、公共汽车、火车、子弹头列车、高速铁路、地铁、船只、飞机、宇宙飞船、热气球、或无人驾驶车辆等,或其任意组合。本申请还可以包括用于提供服务的任何服务系统,例如,用于发送和/或接收快递的系统、用于买卖双方交易的服务系统。本申请的系统或方法的应用可以包括网页、浏览器的插件、客户端终端、定制系统、内部分析系统、或人工智能机器人等,或其任意组合。

需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。

本申请中的术语“司机”、“提供方”、“服务提供方”和“服务提供者”可互换使用,以指代可以提供服务的个人、实体或工具。

请参照图1,图1示出根据本申请的一些实施例的可以实现本申请思想的电子设备100的示例性硬件和软件组件的示意图。例如,处理器可以用于电子设备100上,并且用于执行本申请中的功能。

电子设备100可以是通用计算机或特殊用途的计算机,两者都可以用于实现本申请的数据处理方法。本申请尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本申请描述的功能,以均衡处理负载。

例如,电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130、和不同形式的存储介质140,例如,磁盘、rom、或ram,或其任意组合。示例性地,计算机平台还可以包括存储在rom、ram、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(input/output,i/o)接口150。

为了便于说明,在电子设备100中仅描述了一个处理器。然而,应当注意,本申请中的电子设备100还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备100的处理器执行步骤a和步骤b,则应该理解,步骤a和步骤b也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤a,第二处理器执行步骤b,或者第一处理器和第二处理器共同执行步骤a和b。

请参照图2,图2为本申请实施例提供的一种数据处理方法的流程图,该方法包括如下步骤:

步骤s110:从订单处理平台获取多个服务提供者中每个服务提供者在参加历史业务竞赛的时间段内的多种数据类型的接单特征数据。

服务提供者为上述的服务提供方,以指代可以提供服务的个人、实体或工具。以网约车为例,服务提供者为司机,下面为描述的方便,均将服务提供者作为司机进行描述。

一般网约车平台为了鼓励司机积极接单,通常会举办一些组队竞赛活动来提高司机接单的积极性,这些竞赛活动有如端午车主组队竞赛活动、世界杯车主组队赛、3月车主组队pk赛等。

为了使得下次在参加活动的团队有更好的成绩,所以,在推荐团队成员时,需要对团队成员的各个方面进行考虑,如年龄、各个成员经常活动的区域以及各个成员接单的时间等等,综合各个成员的情况,合理的分配团队的成员,能够让竞赛更好的进行,让司机得到更好的分配,使得组成的团队在参加比赛时可以更好的配合,以在竞赛中有更好的表现。所以,为了对团队在参加竞赛时的业绩提升进行预测,可以选取参加历史业务竞赛活动的司机,然后对这些司机的相关数据进行分析,以获得影响团队业绩提升的相关数据。

所以,首先可以从订单处理平台获取多个服务提供者中每个服务提供者在参加历史业务竞赛的时间段内的多种数据类型的接单特征数据。

其中,订单处理平台是指用于存储各个司机的历史接单特征数据,接单特征数据可以包括但不限于:每个服务提供者在参加历史业务竞赛的时间段内在各个接单时间段内的接单次数、每个服务提供者在各个区域的出现次数、每个服务提供者的最后一次听单时间、最后一次完单时间、最后一次抢单时间以及接单总时长中的至少一种。

可以理解地,每种接单特征数据对应各自的数据类型。

步骤s120:对所述多个服务提供者的每种数据类型的接单特征数据进行相似度计算,获得每种数据类型的数据相似度值。

例如,多个服务提供者包括三个司机,分别是司机a、司机b和司机c,这三个司机均组队参加过历史业务竞赛,如端午车主组队竞赛活动,且这三个司机在参加端午车主组队竞赛活动时不在一个团队,也就是说这三个司机至少分属于两个不同的团队,当然,这三个司机在参见历史业务竞赛时也可以是在一个团队,为了更好地司机的相关属性进行分析,可选多个在不同团队中的司机,预测下次参加业务竞赛时以何种选择标准来选取对应的司机组成的团队是否有更好的业绩,所以,需获取每种数据类型的数据相似度值。

具体地,数据相似度值用于表示多个服务提供者是否在各个数据维度具有相似属性,具体地,可以计算该多个服务提供者的每种数据类型的接单特征数据的方差,每种数据类型的数据相似度值为该方差,当然,每种数据类型的接单特征数据的标准差也可用于表征每种数据类型的数据相似度值。数据相似度值可以包括但不限于:家乡方差、年龄方差、最后一次听单时间方差、最后一次完单时间方差、最后一次抢单时间方差、普通订单总和时长方差、成交总额方差、日均覆盖时区数的方差、日均覆盖区域数的方差、出现时间排名第一时区方差、出现时间排名第二时区方差、出现时间排名第三时区方差等等。

其中,家乡方差可以通过计算多个司机的家乡的信息熵来表示。

年龄标准差是通过获取多个司机的平均年龄计算获得的,例如上述司机a的年龄为23,司机b的年龄为32,司机c的年龄为29,则该三个司机的年龄方差为13.99。

最后一次听单时间方差是先根据多个司机在参加历史业务竞赛的时间段内的最后一次听单时间求方差获得的,例如测试团队中的司机a最后一次听单时间为8点,司机b最后一次听单时间为8点11,司机c最后一次听单时间为8点31,其最后一次听单时间方差的计算公式为((8-8.14)2+(8.11-8.14)2+(8.31-8.14)2))/3=0.66。

最后一次完单时间方差是根据多个司机在参加历史业务竞赛的时间段内的最后一次完单时间求方差获得的。

最后一次抢单时间方差是根据多个司机在参加历史业务竞赛的预设时间段内的最后一次抢单时间求方差获得的。

普通订单总和时长方差是根据多个司机在参加历史业务竞赛的时间段内的订单总和时长求方差获得的。

成交总额方差是根据多个司机在参加历史业务竞赛的时间段内的成交总额求方差获得的。

日均覆盖时区数的方差是通过先获取每个服务提供者在参加历史业务竞赛的时间段内在各个接单时间段的接单次数,然后根据接单次数计算获得的。其中,接单时间段以小时为单位为例,即可以针对每个接单时间段,基于每个服务提供者在每个接单时间段内的接单次数获取多个服务提供这在每个接单时间段的接单次数的均值,根据接单次数均值计算获得第一方差,该第一方差为数据类型为各个接单时间段内接单次数时的数据相似度值。例如,对于司机a在某三天内在早7点-8点的时间内接单次数为9,司机b在这三天在早7点-8点的时间内接单次数为12,司机c在这三天在早7点-8点的时间内接单次数为15,其接单的均值为12,其方差为6,方差越小,表示该三个司机的在早7点-8点的时间段的接单次数越接近,以此方式可计算出这三天内中从0点-24点各个时间点司机的接单次数的方差,然后可选取方差最小的前三个时区对应的接单次数的方差,作为出现时间排名第一时区方差、出现时间排名第二时区方差以及出现时间排名第三时区方差。

日均覆盖区域数的方差是通过先获取每个服务提供者在各个区域的出现次数,然后根据出现次数获得的。即可以针对每个区域,基于每个服务提供者在每个区域的出现次数获取多个服务提供者在每个区域的出现次数均值,根据该出现次数均值计算获得第二方差,该第二方差为数据类型为各个区域的出行次数时的数据相似度值。如司机a在某三天内出现在a区域的次数为3,司机b在这三天内出现在a区域的次数为4,司机c在这三天内出现在a区域的次数为5,则这三个司机出现在a区域的次数的均值为4,其方差为0.67。

当然,接单特征数据不仅仅只包括上述的各种数据,其还可以包括更多关于司机属性的其他数据,如参加历史竞赛活动的次数等。接单特征数据包括多种,从而可以从更多的社会属性分析服务提供者之间的相关关系。

步骤s130:获取所述多个服务提供者的综合指标提升数据。

综合指标提升数据为根据每个服务提供者在历史业务竞赛中的业绩提升数据所确定的数据,例如综合指标提升数据包括订单提升量均值,其是先获取每个司机在历史业务竞赛前后的订单提升数量,例如对于司机a其在端午竞赛之前的三天内的订单数量为100,其在端午三天参加竞赛的活动中的订单数量为120,其订单提升数量为20,对于司机b和司机c也可按此方式计算出各自的订单提升数量,若司机b的订单提升数量为10,司机c的订单提升数量为3,则订单提升量均值则为11,当然对于某个司机的订单数量为减少的,则该司机的订单提升数量为负值。

当然,综合指标提升数据还可包括其他值,如所述多个服务提供者在所述历史业务竞赛前后的订单提升量的提升率均值、成交总额提升量均值、成交总额提升率均值、接单时长提升量均值以及接单时长提升率均值中的至少一种。

其中,订单提升量的提升率均值为多个司机的订单提升率的均值,如司机a在参加端午竞赛之前的三天内的订单数量为10,其在参加端午竞赛三天中的订单数量为12,则其订单提升率为12/10-1=0.2,对于司机b和司机c也可按此方式计算出各自的订单提升率,若司机b的订单提升率为0.3,司机c的订单提升率为0.4,则该三个司机的订单提升量的提升率均值为0.3,当然对于某个司机的订单数量为减少的,则该司机的订单提升率为负值。

成交总额提升量均值通过如下方式获得:若司机a在端午竞赛之前的三天内的订单总额为1000元,其在参加端午竞赛三天中的订单总额为1000元,则其成交总额提升量为1000,对于司机b和司机c也可按此方式计算出各自的成交总额提升量,若司机b的成交总额提升量为500,司机c的成交总额提升量为300,则这三个司机的成交总额提升量均值则为600,当然对于某个司机的订单总额为减少的,则该司机的成交总额提升量为负值。

成交总额提升率均值为多个司机的成交总额提升率的均值,若司机a的成交总额提升率为1,司机b的成交总额提升率为0.8,司机c的成交总额提升率为0.6,则这三个司机的成交总额提升率均值为0.8,当然对于某个司机的成交总额为减少的,则该司机的成交总额提升率为负值。

接单时长提升量均值可通过如下方式获得:若司机a在参加端午竞赛之前的三天内的接单时长为12小时,其在参加端午竞赛三天中的接单时长为15小时,则其接单时长提升量为3小时,对于司机b和司机c也可按此方式计算出各自的接单时长提升量,若司机b的接单时长提升量为5,司机c的接单时长提升量为1,则这三个司机的接单时长提升量均值则为3,当然对于某个司机的接单时长为减少的,则该司机的接单时长提升量为负值。

接单时长提升率均值为多个司机的接单时长提升率的均值。

当然,综合指标提升数据不仅仅只包括上述列举的各种数据,其还可以包括其他数据,如订单提升为正的用户量占比(如三个司机中只有两个司机的订单为正向提升,其占比为2/3)、成交总额提升为正的用户量占比、时长提升为正的用户量占比等等。综合指标提升数据包括多种,从而可以分析哪些数据类型与哪些综合指标提升数据之间具有较强的相关关系,进而可以获得影响某个综合指标提升数据的数据类型对应的接单特征数据,以此更好的分析未来参加业务竞赛时团队中各个服务提供者之间的相似性,使得可以选择具有相似属性的服务提供者在一个团队,进而该团队在竞赛过程可能有更好的成绩。

步骤s140:计算每个数据类型的所述数据相似度值与所述综合指标提升数据之间的关联度值,获得每个数据类型对应的关联度值。

为了分析每种数据类型对应的接单特征数据与综合指标提升数据之间的关系,从而找到影响综合指标提升数据的目标数据类型,所以,还可计算每个数据类型的数据相似度值与综合指标提升数据之间的关联度值,例如对于上述的家乡方差,可计算其与多个综合指标提升数据中每个综合指标提升数据之间的关联度值,具体地,通过关联度模型:计算每个数据类型的所述数据相似度值与所述综合指标提升数据之间的关联度值,获得每个数据类型对应的关联度值,其中,x为所述数据相似度值,y为综合指标提升数据,p为关联度值,为x的均值,为y的均值。其中,p的取值为[-1,1],在p=1时,表示数据相似度值与综合指标提升数据之间为完全正相关,在p=-1时,表示数据相似度值与综合指标提升数据之间为完全负相关,p取值越大表明数据相似度值与综合指标提升数据之间的正相关性越强。

例如,可计算家乡方差与每个综合指标提升数据之间的皮尔逊相关系数(即上述关联度模型中的p),相关系数是用以反映变量之间相关关系密切程度的统计指标,相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度。

需要说明的是,皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数,上述分析每个数据类型的数据相似度值与综合指标提升数据之间的相关关系,还可计算每个数据类型的数据相似度值与综合指标提升数据之间的其他相关系数来表征。

通过上述的相关系数来表征每个数据类型的数据相似度值与综合指标提升数据之间的关联度值,相关系数越接近1,则表明数据相似度值与综合指标提升数据之间的越相关,反之,则表明数据相似度值与综合指标提升数据之间的越不相关。

需要说明的是,上述获得的关联度值是表征每种数据类型的数据相似度与综合指标提升数据之间的关联度,即相关关系,在上述实施例获得的关联度值的情况下,其两者之间的关联度越大,关联度值是越接近于1,但是在其他情况获得的关联度值时,其两者之间的关联度越大,关联度值越大,关联度越小,关联度值越小。

所以,可通过上述方法获得每个数据类型的数据相似度值与上述的每个综合指标提升数据之间的关联度值,获得每个数据类型对应的关联度值。

步骤s150:从多个数据类型对应的关联度值中确定出满足要求的至少一个目标关联度值。

在获得每个数据类型对应的关联度值后,可以从中获得满足要求的至少一个目标关联度值,如从多个数据类型对应的关联度值中获取大于预设阈值的至少一个目标关联度值,所述关联度值越大表明每种数据类型的数据相似度值与所述综合指标提升数据之间为正相关性越强。

例如,若将上述获得的相关系数作为关联度值,若预设阈值为0.7,则从多个关联度值中获取关联度值大于0.7的至少一个目标关联度值,即关联度值范围在(0.7-1]之间的至少一个目标关联度值。

或者,还可以将多个数据类型对的关联度值进行排序,获取预设个数的至少一个目标关联度值,其中,所述预设个数的至少一个目标关联度值均不小于所述多个数据类型对应的关联度值中除所述至少一个目标关联度值以外的其他关联度值。

若以上述的相关系数作为关联度值,则在排序的时候可以关联度值的数值大小来进行排序的,关联度值越接近于1表示数据相似度值与综合指标提升数据之间的关联度越大,所以在进行排序时,若获得的多个关联度值有0.7、0.8、-0.6、0.5这几个值,则排序后的关联度值为0.8、0.7、0.5、-0.6,其中,预设个数可以自行设定,如为2,则目标关联度值为0.8、0.7。

步骤s160:确定所述至少一个目标关联度值对应的数据类型作为目标数据类型,并根据多个候选服务提供者的目标数据类型的接单特征数据从所述多个候选服务提供者中选出组队参与业务竞赛的目标服务提供者。

在上述确定出目标关联度值后,对于数据相似度值为年龄方差时,若计算出其与综合指标提升数据为订单提升量均值的关联度值为0.3,则表示年龄方差与订单提升量均值之间的关联度较小,对于数据相似度值为抢单时间方差时,若计算出其与综合指标提升数据为订单提升量均值的关联度值为0.96,则表示抢单时间方差与订单提升量均值之间的关联度较大,则按照上述方法,将该关联度值确定为目标关联度值,即该数据类型(签单时间)对应的目标关联度值为0.96,所以,可以删选出与订单提升量均值之间的关联度值接近于1的目标关联度值,即删选出与订单提升量均值之间的关联度值满足要求的目标关联度值对应的数量类型作为目标数据类型,该目标数据类型即是对订单提升量均值影响较大大的数据类型。

若上述的抢单时间方差与订单提升量均值之间的关联度较大,且是正相关,表明随着抢单时间方差的增大,订单提升量均值则增大,则在未来业务竞赛中,参考多个候选服务提供者的抢单时间作为组队的标准,如对于多个候选服务提供者中司机e的抢单时间为7点-8点,司机f的抢单时间为12点-13点,司机g的抢单时间为18点-20点,表明这三个司机的抢单时间均不太相近,则可推荐把这三个司机组在一个团队中参加业务竞赛,若司机f的抢单时间为8点-9点,则可把司机e和司机g组在一个团队中参加业务竞赛,当然参加业务竞赛时团队中的成员数量可以自行设定,该团队还可以包括其他司机,其他司机与司机e和司机g的抢单时间不接近。可以理解地,最后组成团队参加业务竞赛的团队的抢单时间方差的值较大,如大于某个预设值。

需要说明的是,在实际应用中,在推荐多个候选服务提供者组队比赛时,有的司机会报名成为队长,则在进行队员推荐时可以以上述的抢单时间方差为数据标准,例如从多个候选司机中选取与队长的抢单时间相差比较大的目标司机,然后可将这些目标司机的相关信息发送至队长的用户终端,队长可选择是否将这些目标司机加入自己的团队中,以此方式可完成组队。而在进行队员推荐时,还可以同时综合多项数据类型的接单特征数据为标准进行数据推荐,例如,若数据类型为订单总和时长与指标提升数据之间是相关的,则还可参照订单总和时长为标准,还可选取抢单时间与队长相差较大,且订单综合时长与队长相近的目标司机,然后将这些目标司机推荐给队长。

所以,通过获得与多个服务提供者的综合指标提升数据满足要求的目标数据类型,然后可基于目标数据类型的接单特征数据从多个候选服务提供者中选出参与业务竞赛的目标服务提供者,从而依据更多的数据类型进行队员的选取,可以选择满足要求的服务提供者在一个团队,进而提高了组队竞赛对服务提供者的激励效果,以此调动了服务提供者参与竞赛的积极性。

另外,在上述获得各个数据类型对应的关联度值后,为了更加直观地看出各个数据类型的数据相似度值与综合指标提升数据之间的关联度,可将每个数据类型对应的关联度值以热力图的形式进行呈现,热力图中的不同颜色深度代表不同的关联度值,关联度值越接近于1颜色越深,关联度值越不接近于1颜色越浅。

如图3所示,图3为在a地区举办的历史业务竞赛时采集的各个数据类型的数据相似度值与综合指标提升数据之间的关联度(即每个数据类型对应的关联度值)的热力图,通过热力图的方式将每个数据类型对应的关联度值进行呈现,其中,颜色越深代表两项关联程度越高,图中的右上角和左下角表示各个数据类型的数据相似度值与综合指标提升数据之间的相关关系,图中的左上角表示的是各个数据类型的数据相似度值与各个数据类型的数据相似度值的相关关系,右下角表示的是综合指标提升数据与综合指标提升数据之间的相关关系,可以看出相同各个数据类型的数据相似度值之间的相关关系为1,相同综合指标提升数据之间的相关关系为1。对于所有的各个数据类型的数据相似度值x,其均代表上述的某各个数据类型的方差,故关联度值绝对值最大的(正相关或者负相关),表示相关程度越高。所有对于某一综合指标提升数据y值,如成交总额(gmv)提升率,那么影响最大的数据类型是在预设时间段内的成交总额方差,且是正相关关系,于是可以得出在a地区,在组队的时候,选择把预设时间段内成交总额相差越大的司机组在一个团队中,该组成的团队的成交总额提升率均值越大。

图4为在b地区举办的历史业务竞赛时采集的各个数据类型的数据相似度值与综合指标提升数据之间的相关关系的热力图,图4中对于成交总额提升率,其影响最大的数据类型是多个司机的最后一次听单时间方差,且是正相相关关系,于是在b地址,组队的时候,可以选择把最后听单时间相差越大的司机组在一个团队中,则团队的成交总额提升率均值越大。

图5为在c地区举办的历史业务竞赛时采集的各个数据类型的数据相似度值与综合指标提升数据之间的相关关系的热力图,图5中对于成交总额提升率,其影响最大的数据类型是多个司机在所述预设时间段内的订单总和时长标准差,且是负相关关系,于是在c地区,组队的时候,可以选择把在预设时间段内订单总和时长越接近的司机组在一个团队中,则组成的团队的成交总额提升率均值越大。

所以,将关联度值以热力图的方式进行呈现,可以更加直观地看出各个数据类型的数据相似度值与各个综合指标提升数据之间的关联度值大小。

另外,在上述实施例的基础上,还可以对获得的目标数据类型进行验证,以验证最终数据类型是否是影响综合指标提升数据较大的数据类型,其可以通过模型y=ax+b来验证,例如,可以获得很多不同司机组成的虚拟团队,从而可以获得很多不同数据类型对应的接单特征数据,如预设时间段内的订单总和时长标准差,以及不同数值的综合指标提升数据,如订单提升量均值,从而可以获得模型中a和b的值,则对于y为订单提升量均值,x为订单总和时长标准差时,若随着x的增大,y为减少,则a可能为小于1的值,则表明订单总和时长标准差与订单提升量的相关关系较大,其验证正确。

按照此方式,还可以对其他数据类型进行验证,以验证获得的目标数据类型是否满足要求,即是否与综合指标提升数据有较大的关联度,在此不再一一举例说明。

请参照图6,图6为本申请实施例提供的一种数据处理装置200的结构示意图,所述装置包括:

特征数据获取模块210,用于从订单处理平台获取多个服务提供者中每个服务提供者在参加历史业务竞赛的时间段内的多种数据类型的接单特征数据;

相似度值获取模块220,用于对所述多个服务提供者的每种数据类型的接单特征数据进行相似度计算,获得每种数据类型的数据相似度值;

指标提升数据获取模块230,用于获取所述多个服务提供者的综合指标提升数据,所述综合指标提升数据为根据所述多个服务提供者中每个服务提供者在所述历史业务竞赛中的业绩提升数据所确定的数据;

关联度值计算模块240,用于计算每个数据类型的所述数据相似度值与所述综合指标提升数据之间的关联度值,获得每个数据类型对应的关联度值;

目标关联度值选取模块250,用于从多个数据类型对应的关联度值中确定出满足要求的至少一个目标关联度值;

目标数据类型确定模块260,用于确定所述至少一个目标关联度值对应的数据类型作为目标数据类型,并根据多个候选服务提供者的目标数据类型的接单特征数据从所述多个候选服务提供者中选出组队参与业务竞赛的目标服务提供者。

可选地,所述相似度值获取模块220,用于计算所述多个服务提供者的每种数据类型的接单特征数据的方差,每种数据类型的数据相似度值为所述方差。

可选地,所述接单特征数据包括每个服务提供者在各个接单时间段内的接单次数,所述相似度值获取模块220,用于针对每个接单时间段,基于每个服务提供者在每个接单时间段内的接单次数获取所述多个服务提供者在每个接单时间段的接单次数均值;根据所述接单次数均值计算获得第一方差,所述第一方差为数据类型为在各个接单时间段内接单次数时的数据相似度值。

可选地,所述接单特征数据还包括每个服务提供者在各个区域的出现次数,所述相似度值获取模块220,用于针对每个区域,基于每个服务提供者在每个区域的出现次数获取所述多个服务提供者在每个区域的出现次数均值;根据所述出现次数均值计算第二方差,所述第二方差为数据类型为各个区域的出现次数时的数据相似度值。

可选地,所述关联度值计算模块240,用于通过关联度模型:计算每个数据类型的所述数据相似度值与所述综合指标提升数据之间的关联度值,获得每个数据类型对应的关联度值;

其中,x为所述数据相似度值,y为综合指标提升数据,p为关联度值,为x的均值,为y的均值。

可选地,所述目标关联度值选取模块250,用于从多个数据类型对应的关联度值中获取大于预设阈值的至少一个目标关联度值,所述关联度值越大表明每种数据类型的数据相似度值与所述综合指标提升数据之间为正相关性越强。

可选地,所述目标关联度值选取模块250,用于将多个数据类型对应的关联度值进行排序,获取预设个数的至少一个目标关联度值,其中,所述预设个数的至少一个目标关联度值均不小于所述多个数据类型对应的关联度值中除所述至少一个目标关联度值以外的其他关联度值。

可选地,所述装置还包括:

热力图呈现模块,用于将所述每个数据类型对应的关联度值以热力图的形式进行呈现。

本申请实施例提供一种可读存储介质,所述计算机程序被处理器执行时,执行如图2所示方法实施例中电子设备所执行的方法过程。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。

综上所述,本申请实施例提供一种数据处理方法、装置、电子设备及存储介质,该方法通过获取表征测试团队中各个服务提供者之间的相似程度的特征数据,然后确定特征数据与测试团队的综合指标提升数据之间的相关关系,再根据相关关系生成热力图,从而可将特征数据与综合指标提升数据之间的相关关系通过热力图的方式直观地呈现出来,然后基于热力图从特征数据中选择最终特征数据,再基于最终特征数据从多个服务提供者中选择组成团队参与业务竞赛的服务提供者,使得可以选择具有相似属性的服务提供者在一个团队,进而该团队在竞赛过程可能有更好的成绩,调动了服务提供者参与竞赛的积极性。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1