一种数据处理方法、装置、系统及电子设备与流程

文档序号:12365937阅读:295来源:国知局
一种数据处理方法、装置、系统及电子设备与流程
本发明涉及互联网
技术领域
,特别涉及一种数据处理方法、装置、系统及电子设备。
背景技术
:在互联网和电信业务中,业务运营方为了更好的了解用户需求,提升用户体验,增加业务收入,会构建用户行为分析系统,用户行为分析系统会在用户使用业务的过程中根据用户的基本信息和行为记录,建立数据挖掘模型,建立用户画像、预测用户的行为,业务运营方就会根据用户的行为提供不同的业务服务模式,或采取不同的业务推广和营销策略。在用户行为分析中,用户的社交属性(如好友的数量,好友的年龄层、好友对业务的使用方式和偏好程度等)也会在很大程度上反映用户的属性和行为。越来越多的用户行为分析系统也将用户的各种社交属性作为预测系统的特征来对用户的各种业务行为(如购买产品,点击广告,用户离网)进行预测。现有基于社交特征的用户行为预测系统的社交特征计算方式如下:预测模型的原始输入用户的社交行为记录(通话记录,消息记录,follow行为等)和用户的属性(包括基础属性和行为属性);根据输入数据构建以用户为节点,用户关系为边的图数据集,节点的属性为用户的属性,边的属性为用户关系属性;基于社交数据库定义用于预测用户行为的多个社交特征值,作为预测模型的输入;预测模型训练阶段会计算每个样本用户的社交特征值向量,生成对应的预测模型,上述社交特征计算方式中,定义的多个社交特征彼此独立,社交特征需要一个个计算,社交特征计算速度慢。技术实现要素:本发明实施例提供了一种数据处理方法、装置、系统及电子设备,加快了社交特征计算时间,节约了计算资源。本发明实施例第一方面提供了一种数据处理方法,包括:用户社交特征计算装置接收社交特征计算请求方发送的对目标用户集至少一个预测模型的社交特征计算请求;所述用户社交特征计算装置根据所述至少一个预测模型的社交特征计算请求,确定与所述至少一个预测模型相关联的N个待计算社交特征,其中,N为正整数;所述用户社交特征计算装置根据自身保存的社交特征与社交特征计算模式的对应关系,确定所述N个待计算社交特征对应的K个社交特征计算模式,其中,每个社交特征对应一个社交特征计算模式,K为正整数;所述用户社交特征计算装置以社交特征计算模式为计算单位,计算所述K个社交特征计算模式对应的所述N个待计算社交特征中,每个待计算社交特征的社交特征值;所述用户社交特征计算装置将计算得到的社交特征值返回所述社交特征计算请求方。结合本发明实施例的第一方面,在本发明实施例的第一方面的第一种可能的实现方式中,所述至少一个预测模型的社交特征计算请求中包括所述至少一个预测模型关联的社交特征标识集合,所述社交特征标识集合为所述至少一个预测模型中各预测模型关联的社交特征标识的并集;所述用户社交特征计算装置根据所述至少一个预测模型的社交特征计算请求,确定与所述至少一个预测模型相关联的N个待计算社交特征,包括:所述用户社交特征计算装置根据所述社交特征标识集合,以及所述用户社交特征计算装置中预先保存的社交特征与社交特征标识信息对应关系,确定与所述至少一个预测模型相关联的N个待计算社交特征。结合本发明实施例的第一方面,在本发明实施例的第一方面的第二种可能的实现方式中,所述至少一个预测模型的社交特征计算请求中包括所述至少一个预测模型的标识集合,所述至少一个预测模型的标识集合中包括所述至少一个预测模型中每个预测模型的标识信息;所述用户社交特征计算装置根据所述至少一个预测模型的社交特征计算请求,确定与所述至少一个预测模型相关联的N个待计算社交特征,包括:所述用户社交特征计算装置根据所述至少一个预测模型中每个预测模型的标识信息,在预先保存的预测模型与社交特征关联关系中,查找与每个预测模型关联的社交特征,确定N个待计算社交特征。结合本发明实施例的第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式,在本发明实施例的第一方面的第三种可能的实现方式中,每个所述社交特征计算模式包括预先定义的共有步骤;所述用户社交特征计算装置以社交特征计算模式为计算单位,计算所述K个社交特征计算模式对应的所述N个待计算社交特征中,每个待计算社交特征的社交特征值,包括:所述用户社交特征计算装置对所述K个社交特征计算模式中每个目标社交特征计算模式,执行所述目标社交特征计算模式预先定义的共有步骤,得到目标信息,并根据目标信息分别计算所述目标社交特征计算模式对应的每个待计算社交特征的社交特征值,直至所述K个社交特征计算模式对应的所述N个社交特征完成计算为止。结合本发明实施例的第一方面的第三种可能的实现方式,在本发明实施例的第一方面的第四种可能的实现方式中,每个社交特征具有对应的社交特征计算步骤;所述根据目标信息分别计算所述目标社交特征计算模式对应的每个待计算社交特征的社交特征值,包括:基于所述目标信息,对所述目标社交特征计算模式对应的每个目标社交特征,从社交数据库中获取社交特征对应的计算数据,分别执行目标社交特征对应的社交特征计算步骤,得到目标社交特征值。结合本发明实施例的第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式或第一方面的第四种可能的实现方式,在本发明实施例的第一方面的第五种可能的实现方式中,所述用户社交特征计算装置新建社交特征并命名;所述用户社交特征计算装置确定所述新建社交特征对应的社交特征计算模式,为所述新建社交特征添加社交特征计算接口,并为所述新建社交特征计算接口设定对应的社交特征计算步骤。本发明实施例第二方面提供了一种用户社交特征计算装置,包括:接收单元,用于接收社交特征计算请求方发送的对目标用户集至少一个预测模型的社交特征计算请求;第一确定单元,用于根据所述至少一个预测模型的社交特征计算请求,确定与所述至少一个预测模型相关联的N个待计算社交特征,其中,N为正整数;第二确定单元,用于根据自身保存的社交特征与社交特征计算模式的对应关系,确定所述N个待计算社交特征对应的K个社交特征计算模式,其中,每个社交特征对应一个社交特征计算模式,K为正整数;社交特征计算单元,用于以社交特征计算模式为计算单位,计算所述K个社交特征计算模式对应的所述N个待计算社交特征中,每个待计算社交特征的社交特征值;返回单元,用于将计算得到的社交特征值返回所述社交特征计算请求方。结合本发明实施例的第二方面,在本发明实施例的第二方面的第一种可能的实现方式中,所述至少一个预测模型的社交特征计算请求中包括所述至少一个预测模型关联的社交特征标识集合,所述社交特征标识集合为所述至少一个预测模型中各预测模型关联的社交特征标识的并集;所述第一确定单元具体用于根据所述社交特征标识集合,以及所述用户社交特征计算装置中预先保存的社交特征与社交特征标识信息对应关系,确定与所述至少一个预测模型相关联的N个待计算社交特征。结合本发明实施例的第二方面,在本发明实施例的第二方面的第二种可能的实现方式中,所述至少一个预测模型的社交特征计算请求中包括所述至少一个预测模型的标识集合,所述至少一个预测模型的标识集合中包括所述至少一个预测 模型中每个预测模型的标识信息;所述第一确定单元具体用于根据所述至少一个预测模型中每个预测模型的标识信息,在预先保存的预测模型与社交特征关联关系中,查找与每个预测模型关联的社交特征,确定N个待计算社交特征。结合本发明实施例的第二方面或第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式,在本发明实施例的第二方面的第三种可能的实现方式中,每个所述社交特征计算模式包括预先定义的共有步骤;所述社交特征计算单元具体用于对所述K个社交特征计算模式中每个目标社交特征计算模式,执行所述目标社交特征计算模式预先定义的共有步骤,得到目标信息,并根据目标信息分别计算所述目标社交特征计算模式对应的每个待计算社交特征的社交特征值,直至所述K个社交特征计算模式对应的所述N个社交特征完成计算为止。结合本发明实施例的第二方面的第三种可能的实现方式,在本发明实施例的第二方面的第四种可能的实现方式中,每个社交特征具有对应的社交特征计算步骤;所述社交特征计算单元具体用于基于所述目标信息,对所述目标社交特征计算模式对应的每个目标社交特征,从社交数据库中获取社交特征对应的计算数据,分别执行目标社交特征对应的社交特征计算步骤,得到目标社交特征值。结合本发明实施例的第二方面或第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式或第二方面的第三种可能的实现方式或第二方面的第四种可能的实现方式,在本发明实施例的第二方面的第五种可能的实现方式中,新建特征单元,用于新建社交特征并命名;确定所述新建社交特征对应的社交特征计算模式,为所述新建社交特征添加社交特征计算接口,并为所述新建社交特征计算接口设定对应的社交特征计算步骤。本发明实施例第三方面提供了一种用户社交特征计算系统,包括第二方面任一所述的用户社交特征计算装置,以及保存用户社交数据的社交数据库。本发明实施例第四方面提供了一种电子设备,包括:一个或多个处理器;存储器;以及一个或多个程序;其中,所述存储器存储有保存社交数据的社交数据库;所述一个或多个程序被存储在所述存储器中并被配置为被所述一个或多个处理器执行,所述一个或多个程序包括指令,所述指令用于:用户社交特征计算装置接收社交特征计算请求方发送的对目标用户集至少一个预测模型的社交特征计算请求;所述用户社交特征计算装置根据所述至少一个预测模型的社交特征计算请求,确定与所述至少一个预测模型相关联的N个待计算社交特征,其中,N为正整数;所述用户社交特征计算装置根据自身保存的社交特征与社交特征计算模式的对应关系,确定所述N个待计算社交特征对应的K个社交特征计算模式,其中,每个社交特征对应一个社交特征计算模式,K为正整数;所述用户社交特征计算装置以社交特征计算模式为计算单位,计算所述K个社交特征计算模式对应的所述N个待计算社交特征中,每个待计算社交特征的社交特征值;所述用户社交特征计算装置将计算得到的社交特征值返回所述社交特征计算请求方。从以上技术方案可以看出,本发明实施例具有以下优点:本发明实施例中,对需要计算的N个待计算社交特征,按照社交特征计算模式将待计算社交特征进行特征分组,以社交特征计算模式为计算单位,计算所述K个社交特征计算模式对应的所述N个待计算社交特征中,每个待计算社交特征的社交特征值,避免了一个个社交特征单独计算,加快了社交特征计算时间,节约了计算资源。附图说明图1是现有技术用户社交特征计算系统的一个实施例示意图;图2是本发明实施例中用户社交特征计算系统的一个实施例示意图;图3是本发明实施例中数据处理方法的一个实施例示意图;图4是本发明实施例中数据处理方法的另一个实施例示意图;图5是本发明实施例中数据处理方法的另一个实施例示意图;图6是本发明实施例中用户社交特征计算装置的一个实施例示意图。具体实施方式本发明实施例提供了一种数据处理方法、装置、系统及电子设备,加快了社交特征计算时间,节约了计算资源。为了使本
技术领域
的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。为了方便理解本发明实施例,首先在此介绍本发明实施例描述中会引入的几个要素;社交特征:用户的社交属性,反映用户的属性和行为,例如用户的好友的数量,好友的年龄层、用户的对业务的使用方式和用户的偏好程度等,每个社交特征都对应有一个计算函数,有一个对应的社交特征计算流程,例如,社交特征为好友平均年龄时,需要获取用户好友的年龄信息,根据好友平均年龄对应的计算函数计算用户好友的平均年龄。预测模型:在用户使用业务的过程中根据用户的基本信息和行为记录,建立的数据挖掘模型,用于预测用户的行为,业务运营方可以根据预测模型 预测的用户的行为提供不同的业务服务模式,或采取不同的业务推广和营销策略,每个预测模型都有一个对应的预测模型ID,一般预测模型中会关联至少一个需要计算的社交特征。社交数据库:用来保存社交行为数据,并提供快速的数据构建、修改、查找和遍历功能,社交数据库可以是图数据库,关系型数据库或者文件系统。如图1所示,基于社交特征的用户行为预测系统计算社交特征的方式,每个预测模型的原始输入为用户的社交行为记录(通话记录,消息记录等)和用户的属性(包括基础属性和行为属性);根据输入数据构建以用户为节点,用户关系为边的图数据集,节点的属性为用户的属性,边的属性为用户关系属性;基于社交图数据库定义用于预测用户行为的多个社交特征值,作为预测模型的输入;上述技术方案在对预测模型关联的社交特征进行计算时,定义的多个社交特征彼此独立,社交特征需要一个个计算,且多个预测模型关联的社交特征的计算也是彼此独立的,社交特征计算速度慢,由于多个预测模型关联的社交特征的计算也是彼此独立的,无法有效利用现有特征,同时新特征开发工作量大。基于此,本发明提供一种数据处理方法、装置、系统及电子设备,如图2所示,,该用户社交特征计算系统包括用户社交特征计算装置和社交数据库,其中,社交数据库中保存社交CDR和用户属性数据,CDR为CallDetailRecord(详细呼叫记录,可以简称为详单)。用户社交特征计算装置可以接收至少一个预测模型(例如图2中预测模型1至预测模型n)的社交特征计算请求,每个预测模型可以关联多个社交特征。根据社交特征计算的特点,在社交数据库之上定义社交特征计算模式层,一方面通过社交特征计算模式层统一相似的社交特征计算过程,加快多个相似社交特征的计算速度;另一方面,可以基于社交特征计算模式层创建新的社交特征,提高新社交特征定义的效率。下面介绍本发明实施例中用户社交特征计算方法的实施例,本发明用户社交特征计算方法的实施例应用于所述用户社交特征计算系统中的用户社交特征计算系统。请参阅图3,本发明实施例中数据处理方法的一个实施例包括:301、用户社交特征计算装置接收社交特征计算请求方发送的对目标用户集至少一个预测模型的社交特征计算请求;本实施例中,目标用户集为当前预测模型需要预测的用户对象集合,社交特征计算请求方可以建立预测模型的建模系统,也可以是其他对象,社交特征计算请求可以是用户触发预测模型训练时发起,也可以是定时触发的,此处不做限定。所述至少一个预测模型的社交特征计算请求中可以包括所述至少一个预测模型关联的社交特征标识集合,所述社交特征标识集合为所述至少一个预测模型中各预测模型关联的社交特征标识的并集,社交特征的标识可以是社交特征的名称,ID等,此处不做限定。所述至少一个预测模型的社交特征计算请求中也可以包括所述至少一个预测模型的标识集合,所述至少一个预测模型的标识集合中包括所述至少一个预测模型中每个预测模型的标识信息,预测模型的标识信息可以是预测模型的ID等。302、用户社交特征计算装置根据所述至少一个预测模型的社交特征计算请求,确定与所述至少一个预测模型相关联的N个待计算社交特征;其中,N为正整数;当所述至少一个预测模型的社交特征计算请求中可以包括所述至少一个预测模型关联的社交特征标识集合,所述社交特征标识集合为所述至少一个预测模型中各预测模型关联的社交特征标识的并集时,所述用户社交特征计算装置根据所述至少一个预测模型的社交特征计算请求,确定与所述至少一个预测模型相关联的N个待计算社交特征,可以包括:所述用户社交特征计算装置根据所述社交特征标识集合,以及所述用户社交特征计算装置中预先保存的社交特征与社交特征标识信息对应关系,确定与所述至少一个预测模型相关联的N个待计算社交特征。此时,根据每个社交特征的标识,查找到该社交特征,因此可以确定所述社交特征标识集合对应的N个待计算特征,N个待计算社交特征为查找所述社交特征标识集中每个社交特征标识对应的社交特征后,查找到的所有社交特征。当所述至少一个预测模型的社交特征计算请求中包括所述至少一个预测 模型的标识集合,所述至少一个预测模型的标识集合中包括所述至少一个预测模型中每个预测模型的标识信息时,所述用户社交特征计算装置根据所述至少一个预测模型的社交特征计算请求,确定与所述至少一个预测模型相关联的N个待计算社交特征,可以包括:用户社交特征计算装置根据所述至少一个预测模型中每个预测模型的标识信息,在预先保存的预测模型与社交特征关联关系中,查找与每个预测模型关联的社交特征,确定N个待计算社交特征。其中,N个待计算社交特征为查找所述至少一个预测模型中每个预测模型关联的社交特征后,查找到的所有社交特征。此时,当所述至少一个预测模型为一个时,所述用户社交特征计算装置根据所述至少一个预测模型中每个预测模型的标识信息,在预先保存的预测模型与社交特征关联关系中,查找与每个预测模型关联的社交特征,确定N个待计算社交特征,可以包括:所述用户社交特征计算装置根据所述预测模型的标识信息,在预先保存的预测模型与社交特征关联关系中,查找与所述预测模型关联的社交特征,确定N个待计算社交特征。当所述至少一个预测模型为两个以上时,所述用户社交特征计算装置根据所述至少一个预测模型中每个预测模型的标识信息,在预先保存的预测模型与社交特征关联关系中,查找与每个预测模型关联的社交特征,确定N个待计算社交特征,可以包括:所述用户社交特征计算装置根据所述预测模型的标识信息,在预先保存的预测模型与社交特征关联关系中,查找每个预测模型关联的社交特征,确定每个预测模型关联的社交特征集;所述用户社交特征计算装置根据确定的社交特征集取并集,确定N个待计算社交特征。例如,当有至少一个预测模型是两个预测模型时,预测模型的标识信息为预测模型的ID时,根据这两个预测模型的ID可以查找到两个社交特征集合:假设分别为社交特征集合1(中心度特征,离网邻居通话比例特征,好友平均年龄特征,节点紧密度特征,节点偏心度特征)和社交特征集合2(离网邻居通话比例特征,好友平均年龄特征,节点紧密度特征,节点偏心度特 征,所在社群密度,所在社群的权威分数),求两个社交特征集合的并集为(中心度特征,离网邻居通话比例特征,好友平均年龄特征,节点紧密度特征,节点偏心度特征,所在社群密度,所在社群的权威分数),该并集即为7个待计算社交特征。303、用户社交特征计算装置根据自身保存的社交特征与社交特征计算模式的对应关系,确定所述N个待计算社交特征对应的K个社交特征计算模式,其中,每个社交特征对应一个社交特征计算模式;其中,K为正整数,在用户社交特征计算装置自身保存的社交特征与社交特征计算模式的对应关系中,每个社交特征对应一个社交特征计算模式,每个社交特征计算模式可以对应多个社交特征。304、以社交特征计算模式为计算单位,计算所述K个社交特征计算模式对应的所述N个待计算社交特征中,每个待计算社交特征的社交特征值。本实施例中,每个所述社交特征计算模式可以包括预先定义的共有步骤;例如包括平均好友年龄、好友性别比例的近邻属性特征计算模式,由于平均好友年龄、好友性别比例都需要获取目标用户的好友ID,该社交特征计算模式预先定义的共有步骤可以是:在社交数据库中扫描获取目标用户集中每个目标用户的所有好友ID。此时,所述用户社交特征计算装置以社交特征计算模式为计算单位,计算所述K个社交特征计算模式对应的所述N个待计算社交特征中,每个待计算社交特征的社交特征值,可以包括:所述用户社交特征计算装置对所述K个社交特征计算模式中每个目标社交特征计算模式,执行所述目标社交特征计算模式预先定义的共有步骤,得到目标信息,并根据目标信息分别计算所述目标社交特征计算模式对应的每个待计算社交特征的社交特征值,直至所述K个社交特征计算模式对应的所述N个社交特征完成计算为止。进一步的,每个社交特征具有对应的社交特征计算步骤,例如,“好友平均年龄”的社交特征对应的社交特征计算步骤就包括:根据目标用户好友ID获取目标用户好友的年龄信息,根据该社交特征对应的计算函数计算目标用户好友的平均年龄;此时,所述根据目标信息分别计算所述目标社交特征计算模式对应的每个待计算社交特征的社交特征值,可以包括:基于所述目标信息,对所述目标社交特征计算模式对应的每个目标社交特征,从社交数据库中获取社交特征对应的计算数据,分别执行目标社交特征对应的社交特征计算步骤,得到目标社交特征值。305、用户社交特征计算装置将计算得到的社交特征值返回所述社交特征计算请求方。本实施例中,用户社交特征计算装置在完成N个社交特征的计算得到对应的社交特征值后,可以向社交特征计算请求方返回计算得到的该社交特征的社交特征值。本发明实施例中,对需要计算的N个待计算社交特征,按照社交特征计算模式将待计算社交特征进行特征分组,以社交特征计算模式为计算单位,计算所述K个社交特征计算模式对应的所述N个待计算社交特征中,每个待计算社交特征的社交特征值,避免了一个个社交特征单独计算,加快了社交特征计算时间,节约了计算资源。图3所示的实施例中,在接收至少一个预测模型的社交特征计算请求之前,所述方法还可以包括:用户社交特征计算装置定义社交特征和社交特征计算模式的对应关系,下面以一具体实施例作出介绍。请参照图4,本发明实施例中数据处理方法的另一个实施例包括:401、用户社交特征计算装置定义社交特征和社交特征计算模式的对应关系;本实施例中,需要预先定义好社交特征和社交特征计算模式,然后已定义的社交特征和已定义的社交特征计算模式的对应关系;一些常见的社交特征定义如下:(1)中心度ODC(x)=O(x)m-|1]]>其中o(x)表示节点x相邻节点的数量,m为网络中总结点数;(2)离网邻居通话比例FNC(x)=Churner_dur(x)dur(x)]]>churner_dur(x):表示与离网用户通话总时长;dur(x):表示与所有好友通话总时长;(3)好友平均年龄age_avg(x)=sum_age(x)o(x)]]>sum_age(x):表示所有好友年龄的和;其中o(x)表示节点x相邻节点的数量;(4)所在社群密度CDS(x)=edges(c)p(c)]]>edgs(c):社群所有边数p(c):社群所有可能的边数(5)所在社群的权威分数PeR(Ni)=(1-d)+dΣNj∈F(Ni)PeR(Nj)|F(Nj)|]]>其中d为阻尼系数,F(Nj)为认识节点Nj的用户集合;(6)节点紧密度ClosenessCentralityCC(u)=|V|-1Σu≠v,v∈Vd(u,v).]]>|V|为网络所有节点数,d(u,v)表示节点u到节点v的最短距离(7)Eccentricitycentrality偏心度EC(x)=1max{di,j:j∈V}]]>di,j表示节点i到节点j的最短路径(8)节点地位NodePositionNP(x)=(1-ε)+ε·(NP(y1)·C(y1→x)+...+NP(ym)·C(ym→x))ε为常数,y1…ym为认识节点x的节点集合,C(yi->x)为关系(yi,x)的权重函数;对于预先定义的用户的社交特征,可以预先定义多种社交特征计算特征模式,所述社交特征计算模式包括近邻属性特征计算模式,社群特征计算模式,距离特征计算模式和迭代计算特征计算模式。每个社交特征都对应一种社交特征计算模式,一个社交特征计算模式可以对应多个社交特征,每种社交特征计算模式都对应多个社交特征,例如如下表1所示,定义以下四种社交特征计算模式。表1需要说明的是,步骤401中,定义社交特征、社交特征计算模式,以及社交特征和社交特征计算模式的对应关系,在本发明一些实施例中,可以直接利用已定义好的社交特征、社交特征计算模式,以及社交特征和社交特征计算模式的对应关系,因此步骤401在本发明的一些实施例中是可以没有的,因此此处不作限定。402、用户社交特征计算装置接收社交特征计算请求方发送的对目标用户集至少一个预测模型的社交特征计算请求;此步骤与步骤301中类似,此处不再赘述。403、用户社交特征计算装置根据所述至少一个预测模型的社交特征计算请求,确定与所述至少一个预测模型相关联的N个待计算社交特征;此步骤与步骤302中类似,此处不再赘述。404、用户社交特征计算装置根据自身保存的社交特征与社交特征计算模式的对应关系,确定所述N个待计算社交特征对应的K个社交特征计算模式;此步骤与步骤303中类似,此处不再赘述。405、用户社交特征计算装置以社交特征计算模式为计算单位,计算所述K个社交特征计算模式对应的所述N个待计算社交特征中,每个待计算社交特征的社交特征值。其中,每个所述社交特征计算模式可以包括预先定义的共有步骤;例如包括平均好友年龄、好友性别比例的近邻属性特征计算模式,由于平均好友年龄、好友性别比例都需要获取目标用户的好友ID,该社交特征计算模式预先定义的共有步骤可以是:在社交数据库中扫描获取目标用户集中每个目标用户的所有好友ID。此时,所述用户社交特征计算装置以社交特征计算模式为计算单位,计算所述K个社交特征计算模式对应的所述N个待计算社交特征中,每个待计算社交特征的社交特征值,可以包括:所述用户社交特征计算装置对所述K个社交特征计算模式中每个目标社交特征计算模式,执行所述目标社交特征计算模式预先定义的共有步骤,得到目标信息,并根据目标信息分别计算所述目标社交特征计算模式对应的每个待计算社交特征的社交特征值,直至所述K个社交特征计算模式对应的所述N个社交特征完成计算为止。进一步的,每个社交特征具有对应的社交特征计算步骤,例如“好友平均年龄”的社交特征对应的社交特征计算步骤就包括:根据目标用户好友ID获取目标用户好友的年龄信息,根据该社交特征对应的计算函数计算目标用户好友的平均年龄;此时,所述根据目标信息分别计算所述目标社交特征计算模式对应的每个待计算社交特征的社交特征值,可以包括:基于所述目标信息,对所述目标社交特征计算模式对应的每个目标社交特征,从社交数据库中获取社交特征对应的计算数据,分别执行目标社交特征对应的社交特征计算步骤,得到目标社交特征值。例如下表1中近邻属性特征计算模式下的“好友平均年龄”,“好友男女比例”这两个社交特征,以社交特征计算模式为计算单位,对该社交特征计算模式下的这两个社交特征计算时,近邻属性特征计算模式预先定义的共有步骤即:在社交数据库中扫描获得目标用户集中每个目标用户的所有好友ID,“好友平均年龄”的社交特征对应的社交特征计算步骤就包括:根据目标用户好友ID获取目标用户好友的年龄信息,根据该社交特征对应的计算函数计算目标用户好友的平均年龄;而“好友男女比例”的社交特征对应的社交特 征计算步骤就包括:根据目标用户好友ID获取目标用户好友的性别信息,根据该社交特征对应的计算函数计算目标用户好友的性别比例。406、用户社交特征计算装置将计算得到的社交特征值返回所述社交特征计算请求方。本实施例中,用户社交特征计算装置在完成N个社交特征的计算得到对应的社交特征值后,可以向社交特征计算请求方返回计算得到的该社交特征的社交特征值。本实施例在图1所示的实施例的基础上,可以针对后续预测模型预先定义社交特征和社交特征计算模式的对应关系,以更方便预测模型社交特征值的计算,同时,本发明实施例中限定了预测模型可以同时对多个预测模型社交特征的计算,避免了每个预测模型社交特征单独计算耗时,且浪费计算资源使得计算效率低下的问题。图3、图4所示的实施例中,用户社交特征计算装置还可以为后续预测模型定义新的社交特征,并将新的社交对应特征与预先定义的社交特征计算模式对应,具体地,所述方法还可以包括:用户社交特征计算装置新建社交特征并命名;所述用户社交特征计算装置确定所述新建社交特征对应的社交特征计算模式,为所述新建社交特征添加社交特征计算接口,并为所述新建社交特征计算接口设定对应的社交特征计算步骤。由于多个预测模型关联的社交特征的计算可以同时进行,因此本发明实施例中可以有效利用已定义的社交特征,这样可以大大减少新特征开发的工作量。为了便于更好的理解技术,下面实施例以一具体应用场景对上述实施例中描述的数据处理方法进行详细描述。离网用户预测是一个重要的电信领域用户行为预测模型,通过对可能离网的用户实施客户挽留措施来避免收入下降。社交特征是判断用户离网的有效特征,因为电信业务具有社交属性,通过实验表明,用户联系人的离网行为会影响用户对业务的态度,社交特征对于离网预测往往比用户的业务行为特征更有效。某个离网用户预测模型,定义了以下6个社交特征,并定义各社交特征对应的社交特征计算模式,如下表2所示:表21离网好友连接比例近邻属性特征计算模式2非离网好友连比例近邻属性特征计算模式3离网好友连接数近邻属性特征计算模式4非离网好友连接数近邻属性特征计算模式5用户的紧密度Closeness距离特征计算模式6用户的偏心度betweenness距离特征计算模式请参阅图5,本发明实施例中用户社交特征计算方法另一个实施例包括:501、用户社交特征计算装置接收社交特征计算请求方发送的对目标用户集离网用户预测模型的社交特征计算请求;本实施例中,社交特征计算请求方可以建立离网用户预测模型的建模系统,所述请求中包括离网用户预测模型的ID。502、用户社交特征计算装置根据离网用户预测模型的ID,查找与离网用户预测模型关联的社交特征,得到6个待计算社交特征;用户社交特征计算装置根据离网用户预测模型的ID,在预先保存的预测模型与社交特征关联关系中,查找与离网用户预测模型关联的社交特征,确定6个待计算社交特征。其中,6个待计算社交特征,为查找离网用户预测模型关联的社交特征后,查找到的所有社交特征。503、用户社交特征计算装置根据自身保存的社交特征与社交特征计算模式的对应关系,确定所述6个待计算社交特征对应的2个社交特征计算模式;其中,上述表格中序号为1,2,3,4,的社交特征对应的社交特征计算模式为近邻属性特征计算模式,序号为5,6的社交特征对应的社交特征计算模式为距离特征计算模式。504、用户社交特征计算装置以社交特征计算模式为计算单位,计算所述K个社交特征计算模式对应的所述N个待计算社交特征中,每个待计算社交特征的社交特征值。对近邻属性特征计算模式,其预先定义的共有步骤为:遍历社交关系图 结构(此时以社交数据库为社交关系图为例),获得目标用户集中每个目标用户的近邻用户及其属性集合,根据近邻用户的属性集合来计算社交特征值。近邻属性特征计算模式需要实现的特征计算接口的输入为单个目标用户的近邻用户属性集合,如{targetUserid,List<Map<attribute,value>>},其中targetUserid为目标用户标识,List<Map<attribute,value>>为近邻属性列表,列表中的每个项Map<attribute,value>表示单个近邻的多个属性attribute和属性值value的集合,接口的输出为社交特征值。则序号为1的社交特征对应的社交特征计算步骤通过统计含有Churn=1属性的近邻占所有近邻的比例;则序号为2的社交特征对应的社交特征计算步骤通过统计含有Churn=0属性的近邻占所有近邻的比例;则序号为3的社交特征对应的社交特征计算步骤通过统计含有Churn=1属性的近邻数量;则序号为4的社交特征对应的社交特征计算步骤通过统计含有Churn=0属性的近邻数量;在近邻社交特征计算模式执行过程中,首先执行近邻属性特征计算模式预先定义的共有步骤,遍历每个目标用户的近邻;然后分别执行1、2、3、4社交特征对应的社交特征计算步骤,得到1、2、3、4社交特征值,这时只需要在社交关系图中遍历近邻一次,尤其是对海量分布式的大数据社交关系结构存储来说,图遍历的计算非常慢,通过共有的社交特征的计算模式大大的节约了多个社交特征计算的时间。对距离属性特征计算模式,其预先定义的共有步骤为:计算社交关系图中任意两个节点的最短路径,根据目标用户到其他用户的最短路径集合来计算社交特征值;距离属性特征计算模式需要实现的特征计算接口的输入为单个目标用户到其他用户的最短路径集合,如{targetUserid,List<distance>},其中targetUserid为目标用户标识,List<distance>为目标用户到其他用户的最短路径集合,distanc为最短路径的距离,接口的输出为社交特征值。则序号为5的社交特征对应的社交特征计算步骤为根据节点紧密度的计 算公式(6)计算紧密度值,作为社交特征值输出;则序号为6的社交特征对应的社交特征计算步骤为根据节点紧密度的计算公式(7)计算偏心度值,作为社交特征值输出;在距离属性社交特征计算模式执行过程中,首先执行距离属性特征计算模式预先定义的共有步骤,计算用户间的最短路径;然后分别执行5、6社交特征对应的社交特征计算步骤,得到5、6社交特征值。同样对海量分布式的大数据社交关系结构存储来说,图节点最短路径计算非常慢,通过共有的社交特征计算模式大大的节约了多个社交特征计算的时间。505、用户社交特征计算装置将计算得到的6个社交特征值返回所述社交特征计算请求方。下面介绍本发明实施例中的用户社交特征计算装置实施例,请参阅图6,本发明实施例中的用户社交特征计算装置600的一个实施例包括:接收单元601,用于接收社交特征计算请求方发送的对目标用户集至少一个预测模型的社交特征计算请求;第一确定单元602,用于根据所述至少一个预测模型的社交特征计算请求,确定与所述至少一个预测模型相关联的N个待计算社交特征,其中,N为正整数;第二确定单元603,用于根据自身保存的社交特征与社交特征计算模式的对应关系,确定所述N个待计算社交特征对应的K个社交特征计算模式,其中,每个社交特征对应一个社交特征计算模式,K为正整数;社交特征计算单元604,用于以社交特征计算模式为计算单位,计算所述K个社交特征计算模式对应的所述N个待计算社交特征中,每个待计算社交特征的社交特征值;返回单元605,用于将计算得到的社交特征值返回所述社交特征计算请求方。可选的,所述至少一个预测模型的社交特征计算请求中包括所述至少一个预测模型关联的社交特征标识集合,所述社交特征标识集合为所述至少一个预测模型中各预测模型关联的社交特征标识的并集;所述第一确定单元602具体用于根据所述社交特征标识集合,以及所述 用户社交特征计算装置中预先保存的社交特征与社交特征标识信息对应关系,确定与所述至少一个预测模型相关联的N个待计算社交特征。可选的,所述至少一个预测模型的社交特征计算请求中包括所述至少一个预测模型的标识集合,所述至少一个预测模型的标识集合中包括所述至少一个预测模型中每个预测模型的标识信息;所述第一确定单元602具体用于根据所述至少一个预测模型中每个预测模型的标识信息,在预先保存的预测模型与社交特征关联关系中,查找与每个预测模型关联的社交特征,确定N个待计算社交特征。可选的,每个所述社交特征计算模式包括预先定义的共有步骤;所述社交特征计算单元604具体用于对所述K个社交特征计算模式中每个目标社交特征计算模式,执行所述目标社交特征计算模式预先定义的共有步骤,得到目标信息,并根据目标信息分别计算所述目标社交特征计算模式对应的每个待计算社交特征的社交特征值,直至所述K个社交特征计算模式对应的所述N个社交特征完成计算为止。可选的,每个社交特征具有对应的社交特征计算步骤;所述社交特征计算单元604具体用于基于所述目标信息,对所述目标社交特征计算模式对应的每个目标社交特征,从社交数据库中获取社交特征对应的计算数据,分别执行目标社交特征对应的社交特征计算步骤,得到目标社交特征值。可选的,所述用户社交特征计算装置还可以包括:定义单元,用于在接收至少一个预测模型的社交特征计算请求之前,定义社交特征和社交特征计算模式的对应关系。可选的,所述用户社交特征计算装置还可以包括:新建特征单元,用于新建社交特征并命名;确定所述新建社交特征对应的社交特征计算模式,为所述新建社交特征添加社交特征计算接口,并为所述新建社交特征计算接口设定对应的社交特征计算步骤。可选的,所述社交特征计算模式包括近邻属性特征计算模式,社群特征计算模式,距离特征计算模式和迭代计算特征计算模式。本发明实施例中,获取单元602根据接收单元601接收的至少一个预测 模型的社交特征计算请求,查找需要计算的N个待计算社交特征,确定单元603确定所述N个社交特征对应的社交特征计算模式,社交特征计算单元604以社交特征计算模式为计算单位,对同一个社交特征计算模式对应的社交特征,进行一次社交特征计算,避免了一个个社交特征单独计算,加快了社交特征计算时间,节约了计算资源。下面介绍本发明实施例中的用户社交特征计算系统实施例,请参阅图2,本发明实施例中的用户社交特征计算系统一个实施例包括如图6实施例中所述的任一种情况下的用户社交特征计算装置,以及保存用户社交数据的社交数据库,所述社交数据库用于供所述用户社交特征计算装置扫描获取目标用户集中用户的数据。其中,社交数据库可以是以图结构来保存社交数据的社交关系图,便于索引查找用户数据,提供快速的图构建、修改、查找和遍历功能。下面介绍本发明实施例中的电子设备的实施例,本发明是实施例中电子设备的一个实施例包括:一个或多个处理器;存储器;以及一个或多个程序;其中,所述存储器存储有保存社交数据的社交数据库;所述一个或多个程序被存储在所述存储器中并被配置为被所述一个或多个处理器执行,所述一个或多个程序包括指令,所述指令用于:一个或多个处理器;存储器;以及一个或多个程序;其中,所述存储器存储有保存社交数据的社交数据库;所述一个或多个程序被存储在所述存储器中并被配置为被所述一个或多个处理器执行,所述一个或多个程序包括指令,所述指令用于:用户社交特征计算装置接收社交特征计算请求方发送的对目标用户集至少一个预测模型的社交特征计算请求;所述用户社交特征计算装置根据所述至少一个预测模型的社交特征计算 请求,确定与所述至少一个预测模型相关联的N个待计算社交特征,其中,N为正整数;所述用户社交特征计算装置根据自身保存的社交特征与社交特征计算模式的对应关系,确定所述N个待计算社交特征对应的K个社交特征计算模式,其中,每个社交特征对应一个社交特征计算模式,K为正整数;所述用户社交特征计算装置以社交特征计算模式为计算单位,计算所述K个社交特征计算模式对应的所述N个待计算社交特征中,每个待计算社交特征的社交特征值;所述用户社交特征计算装置将计算得到的社交特征值返回所述社交特征计算请求方。所述指令完成的其他步骤或进一步的细化步骤可以参见如上用户社交特征计算方法的中的步骤,此处不再赘述。本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的用户社交特征计算方法的至少部分或全部步骤。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方, 或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1