为用户整合个性化资源的方法及装置制造方法

文档序号:7801708阅读:493来源:国知局
为用户整合个性化资源的方法及装置制造方法
【专利摘要】本发明公开了一种为用户整合个性化资源的方法及装置。其中的方法包括:获取目标用户对应的资源;确定目标用户的相似用户并获取所述相似用户对应的资源,和/或,确定并获取所述目标用户对应资源的相似资源;将目标用户对应的资源,以及,所述相似用户对应的全部或部分资源和/或全部或部分所述相似资源,整合为该目标用户的资源包。本发明不但获取到目标用户对应的资源,而且,将目标用户的相似用户对应的资源和/或目标用户对应资源的相似资源,也一并填补到目标用户的资源包中,由于相似用户资源和/或相似资源的补充,可一次性获取到更为丰富的资源。
【专利说明】为用户整合个性化资源的方法及装置
【技术领域】
[0001]本发明涉及网络【技术领域】,特别是涉及一种为用户整合个性化资源的方法及装置。
【背景技术】
[0002]云计算(Cloud Computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,主要是基于互联网的相关服务地增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。云服务器是云计算服务的重要组成部分,是面向各类互联网用户提供综合业务能力的服务平台,平台整合了传统意义上的互联网应用三大核心要素:计算、存储、网络,面向用户提供公用化的互联网资源。
[0003]基于云计算,发展出了各种各样的云服务。所谓云服务,可以理解为提供丰富功能的个性化产品(例如软件),以满足市场上日益膨胀的个性化需求。对于每一种云服务系统,其云服务器上存储了众多用户的信息(例如,手机号码、用户账号等),如前描述,目前云服务器可以向用户提供公用化的互联网资源,但是,由于用户身份、兴趣、需求的不同,这不能满足用户的个性化需求。因此,如何基于众多的用户信息为每个用户提供个性化资源,则是一个值得研究的技术课题。

【发明内容】

[0004]本发明提供了为用户整合个性化资源的方法及装置,能够为目标用户整合个性化资源,满足用户个性化需求。
[0005]本发明提供了如下方案:
[0006]一种为用户整合个性化资源的方法,包括:获取目标用户对应的资源;确定目标用户的相似用户并获取所述相似用户对应的资源,和/或,确定并获取所述目标用户对应资源的相似资源;将目标用户对应的资源,以及,所述相似用户对应的全部或部分资源和/或全部或部分所述相似资源,整合为该目标用户的资源包。
[0007]优选的,所述确定目标用户的相似用户包括:基于多个用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
[0008]优选的,为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示被动通信次数或主动通信次数;通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
[0009]优选的,为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
[0010]优选的,所述被动通信权重大于或等于所述主动通信权重。
[0011]优选的,在基于所述多个用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户之后,如果目标用户及相似用户对应的资源低于资源包容量,所述方法还包括:基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;将所述目标用户的标签相似用户对应的全部或者部分资源一并整合进所述目标用户的资源包。
[0012]优选的,在将标签相似用户对应的资源整合进所述目标用户的资源包之后,如果整合后的资源低于资源包容量,则通过目标用户的归属地或当前位置查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包;如果整合后的资源高于资源包容量,则去除标签相似用户对应的资源的一部分,以满足资源包容量限制。
[0013]优选的,所述确定目标用户的相似用户包括:基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;基于多个标签相似用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
[0014]优选的,为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示被动通信次数或主动通信次数;通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
[0015]优选的,所述云端通信信息标签包括房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、外卖、猎头、快递。
[0016]优选的,为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
[0017]优选的,所述被动通信权重大于或等于所述主动通信权重。
[0018]优选的,所述确定所述目标用户对应资源的相似资源包括:基于多个被动通信信息和/或主动通信信息的相似度,确定所述目标用户对应资源的相似资源。
[0019]优选的,为每个通信信息建立用户特征向量,其中,每一维特征表示一个用户;每一维特征值表示该维特征所对应的用户对该通信信息的被动通信次数或主动通信次数;通过判断两个通信信息的通信特征向量的余弦相似度确定两个通信信息是否为相似资源。
[0020]优选的,为每个通信信息建立用户特征向量,其中,每一维特征表示一个用户;每一维特征值表示该维特征所对应的用户对该通信信息的:被动通信次数*被动通信权重+主动通信次数*主动通信权重;通过判断两个通信信息的通信特征向量的余弦相似度确定两个通信信息是否为相似资源。
[0021]优选的,所述被动通信权重大于或等于所述主动通信权重。
[0022]优选的,在基于所述多个被动通信信息和/或主动通信信息的相似度,确定所述目标用户对应的资源的相似资源之后,如果目标用户对应资源以及相似资源低于资源包容量,所述方法还包括:基于针对所述目标用户的被动通信信息和/或主动通信信息的标签,确定所述被动通信信息和/或主动通信信息的标签相似资源;将所述标签相似资源的全部或者部分一并整合进所述目标用户的资源包。
[0023]优选的,在将所述标签相似信息整合进所述目标用户的资源包之后,如果整合后的资源低于资源包容量,则通过目标用户的归属地或当前位置是否为相似资源查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包;如果整合后的资源高于资源包容量,则去除所述标签相似资源的一部分,以满足资源包容量限制。
[0024]优选的,所述确定所述目标用户对应资源的相似资源包括:判断多个被动通信信息和/或主动通信信息的标签是否相同,如果相同,则进一步基于多个被动通信信息和/或主动通信信息的相似度,确定所述目标用户对应资源的相似资源。
[0025]优选的,所述标签包括房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、夕卜卖、猎头、快递。
[0026]优选的,还包括:如果获取的资源低于资源包容量,则通过目标用户的归属地或当前位置查找到热门资源和/或目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包。
[0027]优选的,所述被动通信信息包括接电号码,所述主动通信信息包括拨电号码,所述被动通信次数包括接电次数,所述主动通信次数包括拨电次数;或者,所述被动通信信息包括所述用户接收到的短信或所述用户接收到的即时消息,所述主动通信信息包括所述用户发送的短信或所述用户发送的即时消息,所述被动通信次数包括用户接收到的短信的次数或即时消息的次数,所述主动通信次数包括用户发送短信的次数或即时消息的次数。
[0028]优选的,在整合目标用户的资源包之后,还包括:将所述资源包下发给目标用户的客户端和/或相似用户的客户端。
[0029]优选的,所述确定目标用户的相似用户,是基于云端记录的多个用户账号信息,确定目标用户的相似用户,所述用户账户信息包括电话号码和/或用户个人信息;所述资源包包括号码包、工具软件包、专业文档、会议资讯、音频资源、视频资源、和/或,新闻资讯。
[0030]优选的,根据用户客户端的MEI或/和MSI作为用户id识别出同一个用户。
[0031]一种为用户整合个性化资源的装置,包括:相似用户确定单元和/或相似资源确定单元,以及,资源获取单元和资源整合单元,其中,所述相似用户确定单元,用于确定目标用户的相似用户;所述相似资源确定单元,用于确定目标用户对应资源的相似资源;所述资源获取单元,用于获取目标用户对应的资源,并获取所述相似用户对应的资源和/或获取所述相似资源;所述资源整合单元,用于将目标用户对应的资源,以及,所述相似用户对应的全部或部分资源和/或全部或部分所述相似资源,整合为该目标用户的资源包。
[0032]优选的,所述相似用户确定单元具体用于,基于多个用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
[0033]优选的,所述相似用户确定单元,用于为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示被动通信次数或主动通信次数;并通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
[0034]优选的,所述相似用户确定单元,用于为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
[0035]优选的,所述被动通信权重大于或等于所述主动通信权重。
[0036]优选的,所述装置还包括:标签相似用户确定单元,用于基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;所述资源获取单元还用于获取所述标签相似用户对应的资源;所述资源整合单元,还用于将所述目标用户的标签相似用户对应的资源全部或者部分一并整合进所述目标用户的资源包。
[0037]优选的,所述装置还包括:资源包调整单元,在整合后的资源低于资源包容量情况下,用于通过目标用户的归属地或当前位置查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包;在整合后的资源高于资源包容量情况下,用于去除标签相似用户对应的资源的一部分,以满足资源包容量限制。
[0038]优选的,所述相似用户确定单元,用于基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;并且,基于多个标签相似用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
[0039]优选的,所述标签相似用户确定单元或者相似用户确定单元,用于为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示被动通信次数或主动通信次数;并通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
[0040]优选的,所述云端通信信息标签包括房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、外卖、猎头、快递。
[0041]优选的,所述标签相似用户确定单元或者相似用户确定单元,用于为每个用户建立标签特征向量,其中,每一维特征表不一个云端通信信息标签;每一维特征值表不:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
[0042]优选的,所述被动通信权重大于或等于所述主动通信权重。
[0043]优选的,所述相似资源确定单元具体用于,基于多个被动通信信息和/或主动通信信息的相似度,确定所述目标用户对应资源的相似资源。
[0044]优选的,所述相似资源确定单元,用于为每个通信信息建立用户特征向量,其中,每一维特征表示一个用户;每一维特征值表示该维特征所对应的用户对该通信信息的被动通信次数或主动通信次数;并通过判断两个通信信息的通信特征向量的余弦相似度确定两个通信信息是否为相似资源。
[0045]优选的,所述相似资源确定单元,用于为每个通信信息建立用户特征向量,其中,每一维特征表示一个用户;每一维特征值表示该维特征所对应的用户对该通信信息的:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个通信信息的通信特征向量的余弦相似度确定两个通信信息是否为相似资源。
[0046]优选的,所述被动通信权重大于或等于所述主动通信权重。
[0047]优选的,所述装置还包括:标签相似资源确定单元,用于基于针对所述目标用户的多个被动通信信息和/或主动通信信息的标签,确定所述被动通信信息和/或主动通信信息的标签相似资源;所述资源整合单元,还用于将全部或者部分所述标签相似资源一并整合进所述目标用户的资源包。
[0048]优选的,所述装置还包括:资源包调整单元,在整合后的资源低于资源包容量情况下,用于通过目标用户的归属地或当前位置查找到热门资源和/或目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包;在整合后的资源高于资源包容量情况下,用于去除标签相似资源的一部分,以满足资源包容量限制。
[0049]优选的,所述相似资源确定单元,用于判断多个被动通信信息和/或主动通信信息的标签是否相同,如果相同,则进一步基于多个被动通信信息和/或主动通信信息的相似度,确定所述目标用户对应资源的相似资源。
[0050]优选的,所述标签包括房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、夕卜卖、猎头、快递。
[0051]优选的,还包括:资源包调整单元,用于在获取的资源低于资源包容量时,通过目标用户的归属地或当前位置查找到热门资源和/或目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包。
[0052]优选的,所述被动通信信息包括接电号码,所述主动通信信息包括拨电号码,所述被动通信次数包括接电次数,所述主动通信次数包括拨电次数;或者,所述被动通信信息包括所述用户接收到的短信或所述用户接收到的即时消息,所述主动通信信息包括所述用户发送的短信或所述用户发送的即时消息,所述被动通信次数包括用户接收到的短信的次数或即时消息的次数,所述主动通信次数包括用户发送短信的次数或即时消息的次数。
[0053]优选的,还包括:下发单元,用于将所述资源包下发给目标用户的客户端和/或相似用户的客户端。
[0054]优选的,所述相似用户确定单元是基于云端记录的多个用户账号信息从而确定目标用户的相似用户,其中,所述用户账户信息包括电话号码和/或用户个人信息;所述资源包包括号码包、工具软件包、专业文档、会议资讯、音频资源、视频资源、和/或,新闻资讯。
[0055]优选的,根据用户客户端的MEI或/和MSI作为用户id识别出同一个用户。
[0056]根据本发明提供的具体实施例,本发明公开了以下技术效果:
[0057]本发明实施例不但获取到目标用户对应的资源,而且,通过确定目标用户的相似用户,继而将目标用户的相似用户对应的全部或者部分资源也一并填补到目标用户的资源包中,并且/或者,通过确定目标用户对应资源的相似资源,继而将相似资源也一并填补到目标用户的资源包中,由于相似用户之间具有相似的行为或需求,同理,相似资源之间具有相似的特点,因此,目标用户对相似用户的资源和/或相似资源也具有相对较高的需求概率。通过这种方式,不但保证了向目标用户整合出特定需求的个性化资源,而且,由于相似用户资源和/或相似资源的补充,可一次性获取到更为丰富的资源。
[0058]以拦截骚扰号码的号码通为例,本发明相比于现有技术能够显著地提升内置号码命中率。因为不同用户的历史行为一般是有差异的,例如用户A经常接听“广告推销”与“房产中介”的陌电,用户B则经常接听“猎头”与“外卖”的陌电,如果对用户A与用户B不加区分地采用相同常用号码集合作为内置号码包,则会造成内置号码的浪费,没有针对性。本发明介绍的技术根据用户的历史行为为其计算更加相关的内置号码包,加入了个性化信息,能够显著改善现有技术的缺陷。
[0059]本发明通过确定相似用户和/或相似资源,达到了为号码通用户推荐相关内置号码的目的。虽然本发明以号码通为例进行了说明,但是实际上,本发明也可以为一个用户推荐其他资源,例如手机输入法的细胞词库等等,以及技术资料、音频资源、视频资源、工具软件包、专业文档、会议资讯、影视资源、新闻资讯等等。【专利附图】

【附图说明】
[0060]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0061]图1是现有生成内置号码包的数据处理示意图;
[0062]图2是本发明实施例提供的为用户整合个性化资源的方法流程图;
[0063]图3是本发明实施例提供的生成内置号码包的处理示意图;
[0064]图4是本发明实施例提供的为用户整合个性化资源的装置结构图。
【具体实施方式】
[0065]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
[0066]如前所述,所谓云服务,可以理解为提供丰富功能的个性化产品(例如软件),以满足市场上日益膨胀的个性化需求。例如,号码通是一种云服务,它是一款基于搜索引擎海量数据,实现智能拦截方案的号码工具类软件(也称为应用程序)。通过抓取互联网中的公开电话信息,建立海量号码数据库,让诈骗、中介、推销等骚扰号码无处遁形。面对陌生的骚扰号码,用户可以进行分类“标记”,充分利用智慧众包,让那些数据库之外的漏网骚扰电话一一得到标记。号码通的背后是一个庞大的云端号码库,其来源包括互联网抓取、用户标记、商家合作等等。号码通进行陌电识别的原理是,当陌电打来的时候,联网到云端查询,并将查询得到的陌电信息返回给客户端,客户端将陌电信息展示给用户,从而帮助用户得知陌电的信息。
[0067]但是对于2G网络的手机用户,号码通的查询机制存在一定缺陷,即2G网络用户在接电瞬间会发生断网,造成无法联网到云端查询陌电信息,使得一些本来可以识别的陌电无法得到识别。另外,一些在接电时没有打开网络的用户也同样存在这个问题。对此,可通过向客户端下发内置号码包的方式解决。图1是现有生成内置号码包的数据处理示意图。首先根据所有用户的接电拨电历史数据抽取出少量的最常用号码,然后将这部分常用号码经过加密压缩打包后,在客户端网络空闲时下发到客户端本地。这种方案的缺点主要表现在,所有用户的内置号码包都是一样的,没有体现出不同用户的个性化信息。例如,用户A经常受到房产中介电话的骚扰,用户B经常受到猎头的骚扰,在这种情况下,将猎头的号码或广告推销的号码放入用户A的内置号码包就是一种资源浪费,而且对用户A的陌电识别帮助不大。
[0068]从上述问题出发,本发明旨在为用户整合个性化资源。例如,通过为每个用户计算生成一个内置在客户端本地的个性化内置号码包,当陌电打来时,号码通可以优先在本地内置号码包中进行查询,如果查询不到再尝试进行联网查询,从而在一定程度上解决用户不联网或无法联网造成的号码查询问题。[0069]参见图2,为本发明实施例的为用户整合个性化资源的方法流程图。该方法包括以下步骤:
[0070]S201:获取目标用户对应的资源;
[0071]S202:确定目标用户的相似用户并获取相似用户对应的资源,和/或,确定并获取目标用户对应资源的相似资源;
[0072]具体的,可以是基于云端记录的多个用户账号信息,确定目标用户的相似用户;
[0073]具体的,可以从云端资源库中获取资源,包括获取目标用户对应的资源、获取目标用户的相似用户对应的资源,以及获取目标用户对应资源的相似资源;
[0074]S203:将目标用户对应的资源,以及,相似用户对应的全部或部分资源和/或全部或部分相似资源,整合为该目标用户的资源包。
[0075]在仅是使用相似用户对应的资源补充资源包的情况下:当目标用户的全部相似用户对应的资源总量与目标用户对应的资源之和满足资源包的容量限制或者满足用户客户端的内存要求时,可以将目标用户的相似用户对应的全部资源整合为该目标用户的资源包;当目标用户的全部相似用户对应的资源总量较多时,即目标用户的全部相似用户对应的资源总量与目标用户对应的资源之和,大于资源包的容量限制或者大于用户客户端的内存要求时,可以考虑将目标用户的相似用户对应的部分资源整合为该目标用户的资源包,以满足资源包的容量限制或者满足用户客户端的内存要求。
[0076]在仅是使用相似资源补充资源包的情况下:当目标用户对应的资源与相似资源之和满足资源包的容量限制或者满足用户客户端的内存要求时,可以将目标用户对应资源的相似资源整合为该目标用户的资源包;当目标用户对应资源的相似资源总量较多时,即目标用户对应的资源与相似资源之和,大于资源包的容量限制或者大于用户客户端的内存要求时,可以考虑将相似资源的一部分整合为该目标用户的资源包,以满足资源包的容量限制或者满足用户客户端的内存要求。
[0077]在使用相似用户对应的资源以及相似资源共同补充资源包的情况下:当目标用户对应的资源、相似用户对应的资源以及相似资源三者之和满足资源包的容量限制或者满足用户客户端的内存要求时,可以将目标用户对应的资源、相似用户对应的资源以及相似资源三者整合为该目标用户的资源包;当相似用户对应的资源以及相似资源二者总量较多时,即目标用户对应的资源、相似用户对应的资源以及相似资源三者之和,大于资源包的容量限制或者大于用户客户端的内存要求时,可以考虑将相似用户对应的资源和/或相似资源的一部分整合为该目标用户的资源包,以满足资源包的容量限制或者满足用户客户端的内存要求。
[0078]本发明实施例不但获取到目标用户对应的资源,而且,通过确定目标用户的相似用户,继而将目标用户的相似用户对应的全部或者部分资源也一并填补到目标用户的资源包中,并且/或者,通过确定目标用户对应资源的相似资源,继而将相似资源的全部或者部分也一并填补到目标用户的资源包中,由于相似用户之间具有相似的行为或需求,同理,相似资源之间具有相似的特点,因此,目标用户对相似用户的资源和/或相似资源也具有相对较高的需求概率。通过本发明实施例的方式,不但保证了向目标用户整合出特定需求的个性化资源,而且,由于相似用户对应的资源和/或相似资源的补充,可一次性为目标用户获取到更为丰富的资源。[0079]其中,以上是基于云计算技术为背景对本发明实施例进行的说明,即在确定目标用户的相似用户过程中,是基于云端记录的多个用户账号信息进行的,而用户的资源也是从云端资源库中获取的。但本领域技术人员应该理解,本发明并不限于云计算技术,可以基于其他已有的数据库资源或未来的其他技术作为实现背景,只要能够实现确定目标用户的相似用户并获取到相似用户对应的资源即可。
[0080]可见,本发明确定的资源包中,不但包括目标用户对应的资源,还将相似用户对应的全部或者部分资源,以及/或者,目标用户对应资源的全部或者部分相似资源,一并整合到资源包中。可见,本发明有多种实现方式,例如,第一种方式中,资源包包括目标用户对应的资源以及相似用户对应的资源;第二种方式中,资源包包括目标用户对应的资源以及相似资源;第三种方式中,资源包包括目标用户对应的资源、相似用户对应的资源以及相似资源。可以理解,上述第三种方式所获取的资源最为全面,是本发明最优的实施例。在该最优实施例中,不但考虑了相似用户的资源,也考虑了相似资源。当然,第一种方式和第二种方式也是可行的。不论哪一种方式,都涉及如何确定相似用户和/或相似资源的具体实现,下面就“如何确定相似用户”及“如何确定相似资源”这两方面对本发明实施例进行详细说明。
[0081]首先介绍如何确定目标用户的相似用户。
[0082]对于确定相似用户的方式有多种。以上述号码通软件为例,由于关注的是用户拨打或接听的号码,因此,可以根据用户接电号码或拨电号码进行相似用户的确定。即,可以基于多个用户的接电号码和/或拨电号码的相似度,确定目标用户的相似用户。下面就各种情况分别以不同实施例对相似用户的确定进行详细说明。
[0083]第一实施例
[0084]在本实施例中,基于多个用户的接电电话号码的相似度,确定目标用户的相似用户。具体的,首先,为每个用户建立号码特征向量,其中,每一维特征表示一个电话号码,可以是云端号码,也可以是非云端号码,每一维特征值表示接电次数;然后,通过判断两个用户的号码特征向量的余弦相似度确定两个用户的相似程度。
[0085]例如,要确定用户A和用户B的相似程度,分别为用户A和用户B建立i维号码特征向量:
[0086]用户A 号码特征向量:al:0, a2:4, a3:3,...,a1:0
[0087]用户B 号码特征向量:al:l,a2:6,a3:l,...,a1:0
[0088]其中,&1、32、33,...,ai代表不同的电话号码,各电话号码对应的值代表用户接听该电话号码的次数,例如上述用户A号码特征向量中“a2:4”表示用户A接听a2这个电话号码的次数为4次。
[0089]然后,通过判断用户A和用户B的号码特征向量的余弦相似度来确定这两个用户的相似程度,两个用户特征向量的余弦相似度越大(即余弦夹角越小),那么这两个用户就越相似。具体实现中,可以设置一个相似阈值,在两个用户相似度等于或大于该相似阈值情况下,确定两个用户为相似用户。本领域技术人员可以理解,相似阈值越大,要求的用户相似程度越高。例如,相似阈值优选范围在0.6至I之间。假设,设置相似阈值为0.8,那么,两个用户相似度等于或大于0.8的情况下,确定这两个用户为相似用户;再假设,设置相似阈值为0.9,那么,两个用户相似度等于或大于0.9的情况下,确定这两个用户为相似用户。相似阈值的设置可以根据最终相似用户对应的资源数量的多少进行反向调节设定,相似阈值越接近1.0,目标用户与相似用户的相似度越高,即相似用户对应的资源对于目标用户的利用价值越高。
[0090]通过第一实施例中确定相似用户的方式,充分考虑了两个用户被同一号码“骚扰”的概率,从而尽可能准确地确定相似用户。例如,对于经常被房产中介骚扰的多个用户,确定这些用户为相似用户,之后,在后续确定目标用户的资源时,将相似用户对应的骚扰号码也一并包括在号码包中,进一步可以下发给目标用户,当然也可以下发给相似用户,目标用户可以基于号码包进行相应操作,例如,屏蔽号码包中的号码等。
[0091]第二实施例
[0092]在本实施例中,基于多个用户的拨电电话号码的相似度,确定目标用户的相似用户。具体的,首先,为每个用户建立号码特征向量,其中,每一维特征表示一个电话号码,可以是云端号码,也可以是非云端号码,每一维特征值表示拨电次数;然后,通过判断两个用户的号码特征向量的余弦相似度确定两个用户的相似程度。
[0093]例如,要确定用户A和用户B的相似程度,分别为用户A和用户B建立i维号码特征向量:
[0094]用户A 号码特征向量:bl:0,b2:0,b3:l,…,b1:0
[0095]用户B 号码特征向量:bl:0,b2:l,b3:3,…,b1:l
[0096]其中,bl、b2、b3,…,bi代表不同电话号码,各电话号码对应的值代表拨打该号码的次数,例如上述用户A号码特征向量中“b3:1”表示用户A拨打b3这个号码的次数为I次。
[0097]然后,通过判断用户A和用户B的号码特征向量的余弦相似度来确定这两个用户的相似程度,两个用户特征向量的余弦相似度越大(即余弦夹角越小),这两个用户越相似。具体实现中,可以设置一个相似阈值,在两个用户相似度等于或大于该相似阈值情况下,确定两个用户为相似用户。本领域技术人员可以理解,相似阈值越大,要求的用户相似程度越高。例如,相似阈值优选范围在0.6至I之间。假设,设置相似阈值为0.8,那么,两个用户相似度等于或大于0.8的情况下,确定这两个用户为相似用户;再假设,设置相似阈值为0.9,那么,两个用户相似度等于或大于0.9的情况下,确定这两个用户为相似用户。相似阈值的设置可以根据最终相似用户的资源数量的多少进行反向调节设定,相似阈值越接近1.0,目标用户与相似用户的相似度越高,即相似用户对应的资源对于目标用户的利用价值越高。
[0098]通过第二实施例中确定相似用户的方式,充分考虑了用户拨打同一号码的概率。例如,对于具有向某产品客服拨打记录的用户,如向苹果公司客服拨电历史的用户,可以确定这些用户都使用iPhone或ipad等苹果公司终端,那么就可以在后续针对这些相似用户整合适用于苹果终端操作系统的软件或产品。再比如,如果用户经常拨打某类电话(例如房产中介电话),就可以把此类的相似用户的资源(例如房产信息、相关百科知识)也推荐给此用户。
[0099]第三实施例
[0100]在本实施例中,基于多个用户的接电电话号码以及拨电电话号码的相似度,确定目标用户的相似用户。具体的,首先,为每个用户建立号码特征向量,其中,每一维特征表示一个电话号码,可以是云端号码,也可以是非云端号码,每一维特征值表示“接电次数*接电权重+拨电次数*拨电权重”,接电权重和拨电权重可以是事先预先设置的常量,由于重点关注非法号码对用户的骚扰,因此优选情况下,可以设定接电权重大于或等于拨电权重;继而,通过判断两个用户的号码特征向量的余弦相似度确定两个用户的相似程度。
[0101]例如,要确定用户A和用户B的相似程度,分别为用户A和用户B建立i维号码特征向量:
[0102]用户A 号码特征向量:cl: (A-Cjl * A-Rjl + A-Bcl * A-Rbl), c2: (A-Cj2 *A-Rj2 + A-Bc2 * A-Rb2), c3: (A-Cj3 * A-Rj3 + A_Bc3 * A_Rb3),…,c1: (A-Cji *A-Rji + A-Bci * A-Rbi)
[0103]用户B 号码特征向量:cl: (B-CjI * B-Rjl + B-Bcl * B-Rbl), c2: (B-Cj2 *B-Rj2 + B-Bc2 * B-Rb2), c3: (B-Cj3 * B-Rj3 + B_Bc3 * B_Rb3),—, c1: (B-Cji *B-Rji + B-Bci * B-Rbi)
[0104]其中,01、02、03,...,ci代表不同电话号码,各电话号码对应的值代表接听该号码以及拨打该号码的情况。例如,用户A号码特征向量中“cl: (A-Cjl * A-Rjl+A-Bcl *A-Rbl)”表示用户A对于电话号码Cl的特征值为(A-Cjl * A-Rjl + A-Bcl * A-Rbl),其中,A-CjI表不用户A接听电话号码cl的次数,A-RjI表不对于用户A而言电话号码cl的接电权重,A-BcI表不用户A拨打电话号码cl的次数,A-RbI表不对于用户A而言电话号码Cl的拨电权重。
[0105]如前已述,由于重点关注非法号码对用户的骚扰,因此优选情况下,接电权重可以大于拨电权重,即,A-Rjl大于A-Rbl。但是应该理解,对于不同电话号码,接电权重可以相同,也可以不相同。同理,对于不同电话号码,拨电权重可以相同,也可以不同,对此不作限制。例如,A-Rjl与A-Rj2相同或不同,等等。例如,如果骚扰电话或者推销电话用户接到的很多,远大于房产中介或教育培训的电话等,可以考虑增加骚扰电话或者推销电话的接电权重。比如,推销电 话的接电权重表示为A-Rj I,培训电话的接电权重表示为A-Rj2,可以设置 A-Rjl 大于 A-Rj2,例如,A-Rjl = 80%, A-Rj2 = 30%等。
[0106]关于接电权重可以根据接电的标签类型进行统一设定,比如标签为“房产中介”的所有接电电话的接电权重可以设定为同一个值。当然对于标签相同,但对应电话号码归宿地或实际位置不同的接电电话,也可以设置不同的接电权重。具体设置标准可以根据目标用户的实际需求进行设定,在此不再详述。
[0107]然后,通过判断用户A和用户B的号码特征向量的余弦相似度来确定这两个用户的相似程度,两个用户特征向量的余弦相似度越大(即余弦夹角越小),那么这两个用户就越相似。具体实现中,可以设置一个相似阈值,在两个用户相似度等于或大于该相似阈值情况下,确定两个用户为相似用户。本领域技术人员可以理解,相似阈值越大,要求的用户相似程度越高。例如,相似阈值优选范围在0.6至I之间。假设,设置相似阈值为0.8,那么,两个用户相似度等于或大于0.8的情况下,确定这两个用户为相似用户;再假设,设置相似阈值为0.9,那么,两个用户相似度等于或大于0.9的情况下,确定这两个用户为相似用户。同上所述相似阈值的设置可以根据最终相似用户的资源数量的多少进行反向调节设定,相似阈值越接近1.0,目标用户与相似用户的相似度越高,即相似用户对应的资源对于目标用户的利用价值越高。
[0108]该第三实施例相较于第一实施例和第二实施例更为优选,因为充分考虑了用户拨打以及接听同一电话号码的概率,因此可以更为精准地确定目标用户的相似用户。当然,第一、二实施例具体分别针对了用户拨打,用户接听同一电话号码的概率,对于仅对拨电或者接电有需求的目标用户来讲,通过上述方法获得的号码包(本发明实施例所述资源包的一种)就更为准确和适合。
[0109]以上三个实施例是基于用户接听或/和拨打的号码特征向量进行相似用户判断,这种基于用户接听或/和拨打的号码来确定相似用户存在一些缺陷,例如用户特征向量大部分维度的特征值都为0,造成确定的相似用户较少。在实际计算相似用户时可以结合用户接听或拨打云端电话号码的标签来进行辅助判断。也就是,除了号码特征向量,还可以引入标签特征向量进行替代或补充,从而更好更广泛地确定相似用户。
[0110]第四实施例
[0111]在基于上述第一实施例、第二实施例或第三实施例,确定目标用户的相似用户之后,如果通过目标用户及其相似用户对应的资源低于资源包容量,优选地,可进一步执行以下步骤:基于多个用户的标签相似度,确定目标用户的标签相似用户;并且,在步骤203中,将目标用户的标签相似用户对应的资源一并整合进目标用户的资源包。如果整合后的资源仍低于资源包容量,则还可以通过目标用户的归属地或当前位置查找到热门资源,和/或,目标用户拨电号码或接电号码的标签查找到热门资源,将全部或者部分热门资源补充进资源包。如果整合后的资源高于资源包容量,则可以去除标签相似用户对应的资源的一部分,使得整合后的资源等于资源包容量。
[0112]其中,标签相似度的确定过程与号码相似度的确定过程类似,也可以有三种方式。
[0113]第一种方式是,为每个用户建立标签特征向量,其中,每一维特征表不一个云端号码标签,每一维特征值表示接电次数;继而,通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。其中,云端号码标签包括但不限于:房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、外卖、猎头、快递,等等。
[0114]例如,要确定用户A和用户B的标签相似程度,分别为用户A和用户B建立i维标签特征向量:
[0115]用户A 标签特征向量:dl:39,d2:19,d3:0,...,d1:8
[0116]用户B 标签特征向量:dl:20,d2:4,d3:25,...,d1:5
[0117]其中,dl、d2、d3,…,di代表不同标签,各标签对应的值代表用户接听属于该标签的电话号码的次数,例如上述用户A标签特征向量中“dl: 39”表示用户A接听属于标签dl的电话号码的次数为39次。
[0118]然后,通过判断用户A和用户B的标签特征向量的余弦相似度来确定这两个用户的相似程度,两个用户特征向量的余弦相似度越大(即余弦夹角越小),那么这两个用户就越相似。具体实现中,可以设置一个标签相似阈值,在两个用户标签相似度等于或大于该标签相似阈值情况下,确定两个用户为标签相似用户。本领域技术人员可以理解,标签相似阈值越大,要求的用户相似程度越高。例如,标签相似阈值优选范围在0.6至I之间。假设,设置标签相似阈值为0.8,那么,两个用户相似度等于或大于0.8的情况下,确定这两个用户为标签相似用户;再假设,设置标签相似阈值为0.9,那么,两个用户相似度等于或大于0.9的情况下,确定这两个用户为标签相似用户。同上所述标签相似阈值的设置可以根据最终标签相似用户的资源数量的多少进行反向调节设定,标签相似阈值越接近1.0,目标用户与标签相似用户的相似度越高,即标签相似用户对应的资源对于目标用户的利用价值越高。[0119]第二种方式是,为每个用户建立标签特征向量,其中,每一维特征表示一个云端号码标签,每一维特征值表示拨电次数;继而,通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。其中,云端号码标签包括但不限于:房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、外卖、猎头、快递,等等。
[0120]例如,要确定用户A和用户B的标签相似程度,分别为用户A和用户B建立i维标签特征向量:
[0121]用户A 标签特征向量:el:5,e2:9,e3:0,...,e1:23
[0122]用户B 标签特征向量:el:10,e2:8,e3:3,…,e1:12
[0123]其中,61、62、63,...,ei代表不同标签,各标签对应的值代表用户拨打属于该标签的号码的次数,例如上述用户A标签特征向量中“el:5”表示用户A拨打属于标签el的号码的次数为5次。
[0124]然后,通过判断用户A和用户B的标签特征向量的余弦相似度来确定这两个用户的相似程度,两个用户特征向量的余弦相似度越大(即余弦夹角越小),那么这两个用户就越相似。具体实现中,可以设置一个标签相似阈值,在两个用户标签相似度等于或大于该标签相似阈值情况下,确定两个用户为标签相似用户。本领域技术人员可以理解,标签相似阈值越大,要求的用户相似程度越高。例如,标签相似阈值优选范围在0.6至I之间。假设,设置标签相似阈值为0.8,那么,两个用户相似度等于或大于0.8的情况下,确定这两个用户为标签相似用户;再假设,设置标签相似阈值为0.9,那么,两个用户相似度等于或大于0.9的情况下,确定这两个用户为标签相似用户。同上所述标签相似阈值的设置可以根据最终标签相似用户的资源数量的多少进行反向调节设定,标签相似阈值越接近1.0,目标用户与标签相似用户的相似度越高,即标签相似用户对应的资源对于目标用户的利用价值越高。
[0125]第三种方式是为每个用户建立标签特征向量,其中,每一维特征表示一个云端号码标签,每一维特征值表示“接电次数*接电权重+拨电次数*拨电权重”,由于重点关注非法号码对用户的骚扰,因此优选情况下,接电权重可以大于或等于拨电权重;继而,通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。其中,云端号码标签包括但不限于:房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、外卖、猎头、快递等。
[0126]例如,要确定用户A和用户B的标签相似程度,分别为用户A和用户B建立i维标签特征向量:
[0127]用户A 标签特征向量:fl: (A-Cjl * A-Rjl + A-Bcl * A-Rbl), f2: (A-Cj2 *A-Rj2 + A-Bc2 * A-Rb2), f3: (A-Cj3 * A-Rj3 + A_Bc3 * A_Rb3),...,f1: (A-Cji *A-Rji + A-Bci * A-Rbi)
[0128]用户B 标签特征向量:Π: (B-CjI * B-Rjl + B-Bcl * B-Rbl), f2: (B-Cj2 *B-Rj2 + B-Bc2 * B-Rb2), f3: (B-Cj3 * B-Rj3 + B_Bc3 * B_Rb3),...,f1: (B-Cji *B-Rji + B-Bci * B-Rbi)
[0129]其中,fl、f2、f3,…,fi代表不同标签,各标签对应的值代表用户接听和拨打属于该标签的号码的次数,例如用户A标签特征向量中“fl:(A-Cjl * A-Rjl+A-Bcl * A-Rbl)”表示用户A对于标签f I的特征值为(A-Cjl * A-Rjl + A-Bcl * A-Rbl),其中,A-CjI表示用户A接听属于标签Π的号码的次数,A-Rjl表示对于用户A而言属于标签Π的号码的接电权重,A-Bcl表不用户A拨打属于标签fl的号码的次数,A-Rbl表不对于用户A而言属于标签fl的号码的拨电权重。
[0130]如前已述,由于重点关注非法号码对用户的骚扰,因此优选情况下,接电权重大于或等于拨电权重,即,A-Rjl大于A-Rbl。但是应该理解,对于不同标签的号码,接电权重可以相同,也可以不相同,同理,对于不同标签的号码,拨电权重可以相同,也可以不同,本发明对此不作限制。例如,A-Rjl与A-Rj2可以相同或不同,等等。例如,如果骚扰电话或者推销电话用户接到的很多,远大于中介或教育培训的电话等,可以考虑增加骚扰电话或者推销电话标签的电话的接电权重。比如,推销电话标签的电话的接电权重表示为A-Rjl,教育培训电话标签的电话的接电权重表示为A-Rj2,可以设置A-Rjl大于A-Rj2,例如,A-Rjl=80%, A-Rj2 = 30%等。
[0131]然后,通过判断用户A和用户B的标签特征向量的余弦相似度来确定这两个用户的相似程度,两个用户特征向量的余弦相似度越大(即余弦夹角越小),那么这两个用户就越相似。具体可以设置一个标签相似阈值,在两个用户标签相似度等于或大于该标签相似阈值情况下,确定两个用户为标签相似用户。
[0132]本领域技术人员可以理解,标签相似阈值越大,要求的用户相似程度越高。例如,标签相似阈值优选范围在0.6至I之间。假设,设置标签相似阈值为0.8,那么,两个用户相似度等于或大于0.8的情况下,确定这两个用户为标签相似用户;再假设,设置标签相似阈值为0.9,那么,两个用户相似度等于或大于0.9的情况下,确定这两个用户为标签相似用户。同上所述标签相似阈值的设置可以根据最终标签相似用户的资源数量的多少进行反向调节设定,标签相似阈值越接近1.0,目标用户与标签相似用户的相似度越高,即标签相似用户对应的资源对于目标用户的利用价值越高。
[0133]可以理解,通常通过标签特征向量的方式确定的标签相似用户,比号码特征向量的方式确定的相似用户要多。虽然标签相似度没有号码相似度体现的用户相似程度高,但是,通过标签相似度进行的标签相似用户判定具有节省资源的优点,这是因为,两个用户拨打或接听同一个标签的号码的概率要比拨打或接听同一个号码的概率高很多,例如,用户A和用户B都有可能受到属于“房产中介”标签的号码的骚扰,但是不一定是相同的号码的骚扰。
[0134]由此,在确定目标用户的相似用户的过程中,可以首先确定目标用户的标签相似用户,继而在标签相似用户中继续筛选出相似用户,从而达到节省资源的目的。下面在第五实施例中对此情况进行介绍。
[0135]第五实施例
[0136]在该实施例中,首先,基于多个用户的接电电话号码和/或拨电电话号码的标签相似度,确定目标用户的标签相似用户;然后,再基于多个标签相似用户的接电电话号码和/或拨电电话号码的相似度,确定目标用户的相似用户。其中确定标签相似用户的方式请参见第四实施例描述的三种方式,确定相似用户的实现请参见第一实施例、第二实施例、第三实施例描述的三种方式,此处不再赘述。可见,确定标签相似用户至少有三种方式(第四实施例描述的三种方式),确定相似用户的方式也至少有三种方式(第一实施例、第二实施例、第三实施例),因此,该第五实施例的具体实现方式有多种组合。
[0137]第五实施例最优的一种方式是,采用第四实施例的第三种方式确定标签相似用户,进而采用第三实施例确定相似用户,这是因为,第四实施例的第三种方式充分考虑了用户拨打以及接听同一标签的电话号码的概率,因此可以更为精准地确定标签相似用户,同理,第三实施例充分考虑了用户拨打以及接听同一号码的概率,因此可以更为精准地确定相似用户。
[0138]当然除了上述最优的方式之外,其余组合方式也是具有实际意义的。比如,采用第四实施例的第一种方式确定标签相似用户,采用第一实施例确定相似用户,这种情况下,第四实施例的第一种方式充分考虑了用户接听同一标签的号码的概率,同理,第一实施例充分考虑了用户接听同一号码的概率,可见,这种方式适合用户用于防止非法电话骚扰的情形。
[0139]再比如,采用第四实施例的第二种方式确定标签相似用户,采用第二实施例确定相似用户,这种情况下,第四实施例的第二种方式充分考虑了用户拨打同一标签的号码的概率,同理,第二实施例充分考虑了用户拨打同一号码的概率,可见,这种方式适合通过用户拨打记录确定用户行为的情况。
[0140]另外,通过拨打与接听的交叉组合,也是可行的。比如,采用第四实施例的第一种方式确定标签相似用户,进而采用第二实施例确定相似用户,这种情况下,第四实施例的第一种方式充分考虑了用户接听同一标签的号码的概率,而第二实施例充分考虑了用户拨打同一号码的概率。
[0141]再比如,采用第四实施例的第二种方式确定标签相似用户,采用第一实施例确定相似用户,这种情况下,第四实施例的第二种方式充分考虑了用户拨打同一标签的号码的概率,而第一实施例充分考虑了用户接听同一号码的概率。
[0142]再比如,采用第四实施例的第三种方式确定标签相似用户,采用第一实施例确定相似用户,这种情况下,第四实施例的第三种方式充分考虑了用户接听及拨打同一标签的号码的概率,而第一实施例充分考虑了用户接听同一号码的概率。总之,通过排列组合,一共有九种实现方式,此处不一一赘述。
[0143]下面介绍如何确定目标用户对应资源的相似资源。
[0144]对于确定相似资源的方式有多种。以上述号码通软件为例,由于关注的是用户拨打或接听的号码,因此,可以根据用户接电号码A或拨电号码B进行相似资源的确定。即,可以基于多个接电号码和/或拨电号码的相似度,确定这个接电号码A或拨电号码B的相似号码。下面就各种情况分别以不同实施例对相似资源的确定进行详细说明。
[0145]第I实施例
[0146]在本实施例中,基于多个接电电话号码的相似度,确定相似号码。具体的,首先,为每个接电电话号码建立用户特征向量,其中,每一维特征表示一个用户,每一维特征值表示该维特征对应的用户对该号码的接电次数;然后,通过判断两个接电电话号码的用户特征向量的余弦相似度确定两个号码的相似程度,确定是否为相似号码。
[0147]例如,要确定号码A和号码B的相似程度,分别为号码A和号码B建立i维用户特征向量:
[0148]号码A 用户特征向量:al:0, a2:4, a3:3,...,a1:0
[0149]号码B 用户特征向量:al:1, a2:6, a3:1,...,a1:0
[0150]其中,&1、32、33,...,ai代表不同的用户,各用户对应的值代表该用户接听该号码的次数,例如上述号码A用户特征向量中“a2:4”表示用户a2接听号码A的次数为4次。
[0151]然后,通过判断号码A和号码B的用户特征向量的余弦相似度来确定这两个号码的相似程度,两个号码的用户特征向量的余弦相似度越大(即余弦夹角越小),那么这两个号码就越相似。具体实现中,可以设置一个相似阈值,在两个号码相似度等于或大于该相似阈值情况下,确定两个号码为相似号码。本领域技术人员可以理解,相似阈值越大,要求的号码相似程度越高。例如,相似阈值优选范围在0.6至I之间。假设,设置相似阈值为0.8,那么,两个号码相似度等于或大于0.8的情况下,确定这两个号码为相似号码;再假设,设置相似阈值为0.9,那么,两个号码相似度等于或大于0.9的情况下,确定这两个号码为相似号码。相似阈值的设置可以根据最终相似资源数量的多少进行反向调节设定,相似阈值越接近1.0,目标用户对应资源与相似资源的相似度越高,即相似资源对于目标用户的利用价值越高。
[0152]通过第一实施例中确定相似号码的方式,充分考虑了两个号码对同一用户“骚扰”的概率,从而尽可能准确地确定相似号码。例如,某个用户经常被属于房产中介的一个号码骚扰,通过确定该号码的相似号码,可以查找出更多的属于房产中介的号码,之后,在后续确定目标用户的资源时,将相似号码(很可能属于骚扰号码)也一并包括在号码包(本发明实施例所述资料包的一种方式)并下发给目标用户,目标用户可以基于号码包进行相应操作,例如,屏蔽号码包中的号码等。
[0153]第2实施例
[0154]在本实施例中,基于多个拨电电话号码的相似度,确定相似号码。具体的,首先,为每个拨电电话号码建立用户特征向量,其中,每一维特征表示一个用户,每一维特征值表示该用户对该拨电电话号码的拨电次数;然后,通过判断两个拨电电话号码的用户特征向量的余弦相似度确定两个号码的相似程度,确定是否为相似号码。
[0155]例如,要确定号码A和号码B的相似程度,分别为号码A和号码B建立i维用户特征向量:
[0156]号码A 用户特征向量:bl:0,b2:0,b3:l,...,b1:0
[0157]号码B 用户特征向量:bl:0,b2:l,b3:3,...,b1:l
[0158]其中,bl、b2、b3,…,bi代表不同用户,各用户对应的值代表该用户拨打该号码的次数,例如上述号码A用户特征向量中“b3:1 ”表示用户b3拨打号码A的次数为I次。
[0159]然后,通过判断号码A和号码B的用户特征向量的余弦相似度来确定这两个号码的相似程度,两个号码的用户特征向量的余弦相似度越大(即余弦夹角越小),这两个号码越相似。具体实现中,可以设置一个相似阈值,在两个号码相似度等于或大于该相似阈值情况下,确定两个号码为相似号码。本领域技术人员可以理解,相似阈值越大,要求的号码相似程度越高。例如,相似阈值优选范围在0.6至I之间。假设,设置相似阈值为0.8,那么,两个号码相似度等于或大于0.8的情况下,确定这两个号码为相似号码;再假设,设置相似阈值为0.9,那么 ,两个号码相似度等于或大于0.9的情况下,确定这两个号码为相似号码。相似阈值的设置可以根据最终相似资源数量的多少进行反向调节设定,相似阈值越接近1.0,目标用户对应资源与相似资源的相似度越高,即相似资源对于目标用户的利用价值越高。
[0160]通过第2实施例中确定相似号码的方式,充分考虑了用户拨打相似号码的概率。例如,对于具有向某产品客服拨打记录的用户,如向苹果公司客服拨电历史的用户,可以确定该用户使用iPhone或ipad等苹果公司终端,那么就可以在后续针对该用户整合适用于苹果终端操作系统的软件或产品。再比如,如果用户经常拨打某类电话(例如房产中介电话),就可以把此类的相似号码(相似号码是本发明实施例所述相似资源的一种形式)的资源(例如房产信息)也推荐给此用户。
[0161]第3实施例
[0162]在本实施例中,基于多个接电电话号码及拨电电话号码的相似度,确定相似号码。具体的,首先,为每个号码建立用户特征向量,其中,每一维特征表示一个用户,每一维特征值表示该特征所对应用户对该号码的“接电次数*接电权重+拨电次数*拨电权重”,接电权重和拨电权重可以是事先预先设置的常量,由于重点关注非法号码对用户的骚扰,因此优选情况下,可以设定接电权重大于或等于拨电权重;继而,通过判断两个号码的用户特征向量的余弦相似度确定两个号码的相似程度,确定是否为相似号码。
[0163]例如,要确定号码A和号码B的相似程度,分别为号码A和号码B建立i维用户特征向量:
[0164]号码A 用户特征向量:cl: (A-Cjl * A-Rjl + A-Bcl * A-Rbl), c2: (A-Cj2 *A-Rj2 + A-Bc2 * A-Rb2), c3: (A-Cj3 * A-Rj3 + A_Bc3 * A_Rb3),—, c1: (A-Cji *A-Rji + A-Bci * A-Rbi)
[0165]号码B 用户特征向量:cl: (B-CjI * B-Rjl + B-Bcl * B-Rbl), c2: (B-Cj2 *B-Rj2 + B-Bc2 * B-Rb2), c3: (B-Cj3 * B-Rj3 + B_Bc3 * B_Rb3),—, c1: (B-Cji *B-Rji + B-Bci * B-Rbi)
[0166]其中,cl、c2、c3,...,ci代表不同用户,各用户对应的值代表该用户接听该号码以及拨打该号码的情况。例如,号码A用户特征向量中“cl: (A-Cjl * A-Rjl + A-Bcl *A-Rbl)”表示号码A对于用户Cl的特征值为(A-Cjl * A-Rjl + A-Bcl * A-Rbl),其中,A-Cjl表示用户Cl接听号码A的次数,A-Rjl表示对于用户Cl而言号码A的接电权重,A-Bcl表不用户cl拨打号码A的次数,A-Rbl表不对于用户cl而言号码A的拨电权重。如前已述,由于重点关注非法号码对用户的骚扰,因此优选情况下,接电权重大于拨电权重,即,A-Rj I大于A-RbI。但是应该理解,对于不同号码,接电权重可以相同,也可以不相同,同理,对于不同号码,拨电权重可以相同,也可以不同,对此不作限制。例如,A-Rj I与A-Rj2可以相同,也可以不同,等等。例如,如果骚扰电话或者推销电话用户接到的很多,远大于中介或培训的电话等,可以考虑增加骚扰电话或者推销电话权重。比如,推销电话的接电权重表示为A-RjI,培训电话的接电权重表示为A-Rj2,可以设置A-RjI大于A_Rj2,例如,A-RjI =80%, A-Rj2 = 30%等。
[0167]关于接电权重可以根据接电的标签类型进行统一设定,比如标签为“房产中介”的所有接电电话的接电权重可以设定为同一个值。当然对于标签相同,但对应电话号码归宿地或实际位置不同的接电电话,也可以设置不同的接电权重。具体设置标准可以根据目标用户的实际需求进行设定,在此不再详述。
[0168]然后,通过判断号码A和号码B的用户特征向量的余弦相似度来确定这两个号码的相似程度,两个号码的用户特征向量的余弦相似度越大(即余弦夹角越小),那么这两个号码就越相似。具体实现中,可以设置一个相似阈值,在两个号码相似度等于或大于该相似阈值情况下,确定两个号码为相似号码。本领域技术人员可以理解,相似阈值越大,要求的号码相似程度越高。例如,相似阈值优选范围在0.6至I之间。假设,设置相似阈值为0.8,那么,两个号码相似度等于或大于0.8的情况下,确定这两个号码为相似号码;再假设,设置相似阈值为0.9,那么,两个号码相似度等于或大于0.9的情况下,确定这两个号码为相似号码。相似阈值的设置可以根据最终相似资源数量的多少进行反向调节设定,相似阈值越接近1.0,目标用户对应资源与相似资源的相似度越高,即相似资源对于目标用户的利用价值越高。
[0169]该第3实施例相较于第I实施例和第2实施例更为优选,因为充分考虑了用户拨打以及接听号码的概率,因此可以更为精准地确定相似号码。当然,第I实施例、第2实施例具体分别针对了用户拨打电话号码,用户接听电话号码的概率,对于仅对拨电或者接电有需求的目标用户来讲,通过上述方法获得的号码包(本发明实施例所述资源包的一种)就更为准确和适合。
[0170]以上三个实施例是基于号码被用户接听或/和拨打的用户特征向量进行相似号码判断,这种基于号码被用户接听或/和拨打来确定相似号码的方式存在一些缺陷,例如用户特征向量大部分维度的特征值都为0,造成确定的相似号码较少。在实际计算相似号码时可以结合号码的标签来进行辅助判断。也就是,除了通过用户特征向量确定相似号码之夕卜,还可以通过号码的标签进一步确定标签相似号码,从而对相似号码进行补充。
[0171]第4实施例
[0172]在基于上述第I实施例、第2实施例或第3实施例,确定相似资源之后,如果目标用户对应资源及相似资源低于资源包容量,优选地,可进一步执行以下步骤:基于针对目标用户的接听和/或拨打电话号码的标签,确定标签相似资源,即获取属于该标签的电话号码;并且,在步骤203中,将标签相似资源一并整合进目标用户的资源包。如果整合后的资源仍低于资源包容量,则还可以通过目标用户的归属地或当前位置查找到热门资源,和/或目标用户拨电号码或接电号码的标签查找到热门资源,将全部或部分热门资源补充进资源包。如果整合后的资源高于资源包容量,则可以去除标签相似资源的一部分,使得整合后的资源等于资源包容量或者满足用户客户端的内存要求。
[0173]其中,标签相似资源的确定方式容易理解。仍以号码通软件为例,在确定了目标用户所接听和/或拨打电话号码及其相似号码之后,如果所确定的号码没有达到内置号码包的容量限制,则可以进一步确定目标用户接听和/或拨打的号码及其相似号码的标签,将属于该标签的号码(该标签的全部号码或部分号码)作为标签相似资源,一并整合到资源包中。例如,对于目标用户a,其接听和拨打电话号码的集合为(A,B, C),通过上述第I实施例、第2实施例或第3实施例的方式,确定出号码A的相似号码集合为(D, E)、号码B的相似号码集合为(F)、号码C的相似号码集合为(G,H),在将号码(A,B, C,D, E, F,G, H)都整合到用户a的内置号码包的情况下,如果还没有达到内置号码包的容量限制,则为了不浪费号码包的容量,则可以进一步通过标签相似号码对号码包进行补充,具体地,首先确定各个号码所述的标签,然后将该标签下的号码纳入号码包。例如,经过分析确定,号码A,B,E同属于标签1,号码C,D, F,G, H同属于标签2,那么,就可以将标签I的号码以及标签2的号码补充到号码包中。其中,标签包括但不限于:房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、外卖、猎头、快递,等等。
[0174]可以理解,通过标签相似号码的方式,可以比相似号码的方式确定更多的相似号码。通过标签相似号码进行补充具有节省资源的优点。这是由于通过标签可以迅速确定众多的号码,例如可以快速查找出属于“房产中介”标签的号码。
[0175]由此,在确定两个号码是否是相似号码之前,可以首先判断这两个号码是否同属于一个标签,继而在标签相同情况下,再判断这两个号码是否是相似号码,从而达到节省资源的目的。下面在第五实施例中对此情况进行介绍。
[0176]第5实施例
[0177]在该实施例中,首先,针对两个号码,判断是否同属于相同的标签;如果这两个号码属于相同标签,然后,再判断这两个号码是否属于相似号码,具体判断相似号码的方式可采用如前面第I实施例、第2实施例或第3实施例介绍的方式。例如,如果要针对号码A和号码B进行相似号码判断,首先,需要判断号码A和号码B是否属于相同标签,如果号码A和号码B属于相同标签,则进一步根据第I实施例、第2实施例或第3实施例介绍的方式,最终确定号码A和号码B是否是相似号码,如果号码A和号码B不属于相同标签,则不进行相似号码的判断。例如,号码A和号码B同属于“房产中介”标签,则进一步进行相似号码的判断。再比如,假设号码A属于“房产中介”标签,而号码B同属于“猎头”标签,由于标签不同,则不进行后续的相似号码判断。
[0178]上述仅以号码通为例从如何确定相似用户及如何确定相似资源两方面对本发明实施例进行了说明,但本领域技术人员应该理解,本发明实施例对于其他应用场景或需求同样适用。实际上,对于通过云技术为用户提供资源的方案,本发明实施例都适用。例如,如果云端针对特定群体的用户,例如同属于某一【技术领域】的人员,可以向他们提供该【技术领域】的会议咨询、技术资料等个性化资源包。因此,本发明实施例中提到的资源包包括但不限于内置号码包、工具软件包、专业文档、会议资讯、音频资源、视频资料、新闻资讯等。本发明实施例中提到的用户账户信息包括但不限于电话号码和/或用户个人信息。
[0179]本发明适用于各类通信场景。例如,上述号码通实施例中是以接听和/或拨打电话为例进行说明的,具体的,是基于用户接电和/或拨电次数的统计从而确定相似用户和/或相似资源。可以理解,本发明是基于多个用户的被动通信信息和/或主动通信信息的相似度,确定目标用户的相似用户和/或相似资源。其中,除了上述介绍的接电和拨电通信方式之外,对于短信或即时通信工具(例如,微信、QQ、飞信)等通信方式,本发明都是适用的。例如,对于短信或即时通信工具方式,被动通信信息是指用户接收到的短信或用户接收到的即时消息,主动通信信息是指用户发送的短信或用户发送的即时消息,那么,通过建立短信或即时消息特征向量和/或用户特征向量,并统计用户接收到的短信的次数或即时消息的次数以及用户发送短信的次数或即时消息的次数,利用上述介绍的各个实施例方法即可确定目标用户的相似用户和/或目标用户对应资源的相似资源。
[0180]基于云技术的云服务为用户提供丰富的资源,其来源包括互联网抓取、用户标记、商家合作等等。云端服务器可以根据用户id识别出唯一的用户,根据该用户id查找到该用户对应的资源。其中,用户id是唯一识别用户客户端(终端)的唯一标识信息,具体地,可以根据用户客户端的IMEI(International Mobile Equipment Identity,国际移动设备身份石马)或 / 和 IMSI (International Mobile Subscriber Identification Number,国际移动用户识别码)作为用户id识别出同一个用户。本发明实施例除了获取目标用户自身对应的资源之外,还将目标用户的相似用户的对应的资源也一并获取到,以此填补到目标用户的资源包中。
[0181]本发明实施例不但获取到目标用户对应的资源,而且,将目标用户的相似用户对应的资源和/或目标用户对应资源的相似资源,也一并填补到目标用户的资源包中,由于相似用户之间具有相似的行为或需求,同理,相似资源具有相似特点,因此,目标用户对相似用户对应的资源以及相似资源也具有相对较高的需求概率。通过这种方式,不但保证了向目标用户整合出特定需求的个性化资源,而且,由于相似用户对应的资源和/或相似资源的补充,可一次性获取到更为丰富的资源。
[0182]在上述步骤之后,如果通过目标用户及其相似用户对应的资源和/或相似资源总和仍低于资源包容量,还可以进一步填补资源包,以避免容量浪费。例如,可以通过目标用户的归属地或当前位置查找到热门资源和/或目标用户拨电号码或接电号码的标签查找到热门资源,将热门资源补充进资源包。
[0183]另外,在上述S201-S203步骤之后,优选执行以下步骤:将资源包下发给目标用户的客户端,其中,该资源包是采用上述介绍的任何一种方法获得的。当然也可以将资源包下发给相似用户的客户端,或者将资源包下发给目标用户和相似用户的客户端。将资源包下发给目标用户或相似用户的客户端的好处是,当目标用户客户端无法联网时(例如上面提到的2G网络的手机用户、没有打开网络的用户等情况),就可以直接在本地使用该预先获取的资源包。
[0184]下面以号码通为例对本发明实施例进行说明。
[0185]参见图3,为基于本发明的生成内置号码包的处理示意图。如图3所示,以用户A为目标用户,为该用户A生成内置号码包的过程包括四个步骤。首先,确定用户A相似用户,和/或,确定用户A接电或拨电电话号码集合;其次,确定用户A及其相似用户的接电/拨电电话号码集合,和/或,确定用户A接电/拨电电话号码集合的相似号码集合;然后,可以对该电话号码集合和相似号码集合合并,可以进行必要的操作例如过滤、加密、压缩等,生成用户A的内置号码包;最后,在空闲时或其他情形(例如用户申请时),将该内置号码包下发给用户A客户端。本领域技术人员可以理解,也可以将内置号码包下发给相似用户。或者,在将内置号码包下发给目标用户的同时,也可以将内置号码包下发给相似用户。
[0186]下面结合图3,对实现关键技术点进行详细说明。
[0187]第一步,明确识别出同一个号码通用户。在号码通用户的历史接电拨电行为日志中,如果两个用户的IMEI号(针对手机)一致,则认为是同一用户;或者,如果两个用户的MSI号(针对手机卡)一致,则认为是同一用户。优选的,如果两个用户的MEI号(针对手机)与MSI号(针对手机卡)都一致(这样可以更为准确地确定用户),则认为是同一用户。将用户的頂EI和MSI号一起作为用户的id (也可以只用MEI或MSI作为用户id),计算用户内置号码包以及为用户下发内置号码包都可以根据这个id进行的。
[0188]第二步,确定目标用户的相似用户。其中,确定目标用户的相似用户的方法有两类方式,介绍如下:
[0189](I)基于“号码相似”来确定相似用户
[0190]其中,“号码相似”是指用户接听或拨打的号码的相似程度。
[0191]如前在第一实施例至第三实施例介绍的,每个用户可以表示为一个号码特征向量,特征向量中的每一维特征代表一个电话号码,该电话号码可以是云端号码也可以是非云端号码,每一维特征值可以是该维特征所对应号码的接电次数,这样利于预测用户的接电行为。特征值也可以是该维特征所对应号码的拨电次数,这样利于预测用户的拨电行为。优选地,本发明实施例中采用的特征值的含义是:该维特征所对应号码的“接电次数*接电权重+拨电次数*拨电权重”,接电权重与拨电权重是事先设定好的常量或者可调变量,考虑到号码通重点预测接电的信息(防止骚扰电话),所以优选地,接电权重大于或等于拨电权重。除此优选情况之外,当然,特征值的含义还可以仅表示该维特征所对应号码的接电次数,同理,特征值的含义还可以仅表示该维特征所对应号码的拨电次数。通过判断两个用户的号码特征向量的余弦相似度来确定这两个用户的相似程度,两个用户特征向量的余弦相似度越大,即余弦夹角越小,那么这两个用户就越相似。
[0192](2)基于“号码相似”与“标签相似”结合的方式,确定相似用户
[0193]其中,“标签相似”是指用户接听或拨打的云端号码的标签的相似程度。
[0194]仅基于“号码相似”来确定相似用户的方式基于用户接听或拨打的号码来确定相似用户存在一些缺陷,例如当用户特征向量大部分维度的特征值都为O时,确定的相似用户数量就较少。在实际计算相似用户时,可进一步需要结合用户接听/拨打云端号码的标签来进行辅助判断。具体方法是,如前面第四实施例介绍的,为每个用户维护一个标签特征向量,每一维代表该用户接听/拨打云端号码的标签(例如“房产中介”、“广告推销”、“骚扰电话”、“快递”、“推销电话”、“贷款”等等),优选的,每一维特征的特征值的含义可以是用户对该维特征所对应标签的云端号码的接听/拨打次数加权和,即“接电次数*接电权重+拨电次数*拨电权重”。除此优选情况之外,当然,特征值的含义还可以仅表示用户对该维特征所对应标签的云端号码的“接电次数”,同理,特征值的含义还可以仅表示用户对该维特征所对应标签的云端号码的“拨电次数”。可以理解,标签特征向量比号码特征向量的维度小很多,因为成百上千的号码都可以映射为同一个标签,这使得计算效率大大提高。
[0195]“号码相似”与“标签相似”结合的方式至少包括以下两种。
[0196](2.1)首先采用“号码相似”确定相似用户,然后采用“标签相似”对相似用户进行补充。先判断相似用户,如果通过相似用户确定的号码已经足够内置号码包的容量,就可以不判断标签相似用户,如果没达到,就可以进一步进行标签相似用户的判断,即利用标签相似用户的接电或拨电号码填充内置号码包。可见,这种方式是通过标签相似用户对相似用户进行辅助。
[0197](2.2)首先采用“标签相似”确定标签相似用户,然后采用“号码相似”从标签相似用户中确定相似用户。可以理解,虽然标签相似用户所体现的相似度没有用号码相似用户体现出来的相似度质量高,但为了节省计算资源,可以考虑当两个用户的标签相同的情况下,再去判断他们的号码是否相似,即先确定出标签相似用户,再从标签相似用户中确定相似用户。
[0198]第三步,确定相似号码。其中确定相似号码的方法有两类方式,介绍如下:
[0199](I)基于“用户相似”来确定相似号码
[0200]其中,“用户相似”是指一个号码被相同用户接听或拨打的相似程度。
[0201]如前在第一实施例至第三实施例介绍的,每个号码可以表示为一个用户特征向量,用户特征向量中的每一维特征代表一个用户,每一维特征所对应用户对该号码的接电次数,这样利于预测用户的接电行为,特征值也可以是该维特征所对应用户对该号码的拨电次数,这样利于预测用户的拨电行为。优选地,本发明实施例中采用的特征值的含义是:该维特征所对应用户对该号码的“接电次数*接电权重+拨电次数*拨电权重”,接电权重与拨电权重可以是事先设定好的常量或者可调变量,考虑到号码通重点预测接电的信息(防止骚扰电话),所以优选地,接电权重大于或等于拨电权重。除此优选情况之外,当然,特征值的含义还可以仅表示该维特征所对应号码的接电次数,同理,特征值的含义还可以仅表示该维特征所对应号码的拨电次数。通过判断两个号码的用户特征向量的余弦相似度来确定这两个号码的相似程度,两个号码的用户特征向量的余弦相似度越大,即余弦夹角越小,那么这两个号码就越相似。
[0202](2)基于“用户相似”与“号码标签”结合的方式,确定相似号码
[0203]其中,“号码标签”是指用户接听或拨打的云端号码的标签。
[0204]仅基于“用户相似”来确定相似号码的方式存在一些缺陷,例如当用户特征向量大部分维度的特征值都为O时,确定的相似号码数量就较少。在实际计算相似号码时,可进一步结合用户接听和/或拨打云端号码的标签来进行辅助判断。
[0205]“用户相似”与“号码标签”结合的方式至少包括以下两种。
[0206](2.1)首先采用“用户相似”确定相似号码,然后采用“号码标签”对相似号码进行补充。先判断相似号码,如果通过相似号码已经足够内置号码包(本发明实施例所述资料包的一种形式)的容量,就可以不引入标签的方式,如果没达到,就可以进一步通过标签确定更多的号码,即利用已经确定的号码的标签确定出属于该标签的更多的号码填充内置号码包。可见,这种方式是通过号码的标签补充进更多的号码。
[0207](2.2)虽然相同标签所体现的相似度没有用基于用户特征向量的余弦相似度计算体现出来的相似度质量高,但为了节省计算资源,可以考虑当两个号码的标签相同的情况下,再去判断这两个号码是否为相似号码,即先判断两个号码的标签是否相同,在标签相同的情况下,再判断是否为相似号码。
[0208]需要说明的是,上述三个步骤可以组合进行,例如,可以仅执行第一步和第二步,也可以仅执行第一步和第三步,当然优选的,执行第一步、第二步和第三步,但是可以理解,第二步和第三步的执行顺序不限,即,可以先执行第三步再执行第二步。
[0209]仍以图3为例,为一个用户生成个性化内置号码包的基本步骤如下:
[0210](a)确定用户A接听或/和拨打过的云端号码,并将这些云端号码放进用户A的内置号码包;
[0211](b)确定这些相似用户接听或拨打过而用户A没有接听或拨打过的云端号码,并放入用户A的内置号码包;
[0212](c)为用户A的每个历史接听和/或拨打号码计算若干相似云端号码,即得到该历史号码的相似号码集合,再将这些号码(所有历史号码的相似号码集合)放入用户A的内置号码包;
[0213](d)如果通过前述生成的号码量不够多,即获取的号码量低于用户A的内置号码包最大容量,则优选地,可进一步利用用户A的归属地或当前位置以及用户A拨电接电号码的标签等信息,为用户A补充一些热门号码。
[0214]需要说明的是,上述步骤b和步骤c可择一执行,也可以全部执行,并且执行顺序不限。[0215]需要说明的是,为了节省下发资源,如果通过第b步和/或第c步生成的号码量不够多,可进一步利用该用户的归属地、该用户的当前位置以及该用户拨电接电号码的标签等信息为该用户补充一些热门的陌电。这样做的好处:现在每个用户内置号码包的大小例如可以是5000个号码,如果这个用户的个性化数据不多,则该用户的个性化号码有可能凑不到5000个,这时就用一些热门陌电号码把他的内置号码包凑成5000个,避免下发浪费。
[0216]具体实例:
[0217]实例1:一个用户接听/拨打电话号码的集合为{A,B,C,D},该用户有3个相似用户,第I个相似用户接听/拨打电话号码的集合为{A,B,C,E},第2个相似用户接听/拨打电话号码的集合为{A,C,E,F},第3个相似用户接听/拨打电话号码的集合为{B,C,G,H}。那么该用户的相似用户接听/拨打过而该用户没有接听/拨打过的电话号码集合为{E,F,G,H}。例如其中H号码不是云端电话号码,即没有H号码的标签信息。则将{A,B,C,D,E,F,G}这些电话号码放入该用户的内置号码包。如果号码H经过相似用户的标注而成为云端号码,则也将H放入该用户的内置号码包。
[0218]实例2:—个用户接听/拨打电话号码的集合为{A,B, C},其中电话号码A的相似号码集合为{D,E},电话号码B的相似号码集合为{E,F},电话号码C的相似号码集合为{G,H}。那么该用户接听/拨打电话号码的相似号码集合为{D,E,F,G,H}。例如其中H号码不是云端号码,即没有H号码的标签信息。则将{A,B,C,D,E,F,G}这些电话号码放入该用户的内置号码包。如果号码H经过用户的标注而成为云端号码,则也将H放入该用户的内置号码包。
[0219]实例3:—个用户接听/拨打电话号码的集合为{A,B,C},首先考虑该用户的相似用户接听/拨打电话号码情况,该用户有3个相似用户,第I个相似用户接听/拨打电话号码的集合为{A,B,C,E},第2个相似用户接听/拨打电话号码的集合为{A,C,E,F},第3个相似用户接听/拨打电话号码的集合为{B,C,G,H},那么该用户的相似用户接听/拨打过而该用户没有接听/拨打过的电话号码集合为{E,F,G,H}。其次考虑该用户接听/拨打电话号码的相似号码,其中电话号码A的相似号码集合为{D,E},电话号码B的相似号码集合为{E,F},电话号码C的相似号码集合为{G,K}。那么该用户接听/拨打电话号码的相似号码集合为{D,E,F,G,K}。最后,综合考虑相似用户接听/拨打电话号码的情况以及相似号码的情况,则将{A,B, C,D,E,F,G,K}这些电话号码放入该用户的内置号码包。
[0220]本发明相比于现有技术能够显著地提升内置号码命中率。因为不同用户的历史行为一般是有差异的,例如用户A经常接听“推销电话”与“房产中介”的陌电,用户B则经常接听“猎头”与“外卖”的陌电,如果对用户A与用户B不加区分地采用相同常用号码集合作为内置号码包,则会造成内置号码的浪费,没有针对性。本发明介绍的技术根据用户的历史行为为其计算更加相关的内置号码包,加入了个性化信息,能够显著改善现有技术缺陷。
[0221]本发明通过确定相似用户和/或相似号码,达到了为号码通用户推荐相关内置号码的目的。虽然本发明以号码通为例进行了说明,但是实际上,也可以为一个用户推荐其他资源,例如手机输入法的细胞词库等等,以及前述的技术资料、视频资源等等。
[0222]与上述方法相对应,本发明还提供一种为用户整合个性化资源的装置。本领域技术人员可以理解,该装置可以是由硬件、软件或者软硬件结合实现。具体的,可以是指云端的设备(例如云服务器)或者云端的设备(例如云服务器)内的功能实体。[0223]参见图4,为本发明为用户整合个性化资源的装置的结构示意图。该装置包括相似用户确定单元401和/或相似资源确定单元402,以及,资源获取单元403和资源整合单元404,其中,
[0224]所述相似用户确定单元401,用于确定目标用户的相似用户;
[0225]所述相似资源确定单元402,用于确定目标用户对应资源的相似资源;
[0226]所述资源获取单元403,用于获取目标用户对应的资源,并获取所述相似用户对应的资源和/或获取所述相似资源;
[0227]所述资源整合单元404,用于将目标用户对应的资源,以及,所述相似用户对应的全部或部分资源,和/或,全部或部分所述相似资源,整合为该目标用户的资源包。
[0228]首先,介绍确定相似用户方面的实现细节。
[0229]相似用户确定单元401具体用于,基于多个用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
[0230]具体的,相似用户确定单元401,用于为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示被动通信次数或主动通信次数;并通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
[0231]或者,相似用户确定单元401,用于为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。其中,所述被动通信权重大于或等于所述主动通信权重。
[0232]优选的,所述装置还包括:
[0233]标签相似用户确定单元405,用于基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;
[0234]所述资源获取单元403还用于获取所述标签相似用户对应的资源;所述资源整合单元404,还用于将所述目标用户的标签相似用户对应的资源全部或者部分一并整合进所述目标用户的资源包。
[0235]优选的,所述装置还包括:
[0236]资源包调整单元406,在整合后的资源低于资源包容量情况下,用于通过目标用户的归属地或当前位置查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包;在整合后的资源高于资源包容量情况下,用于去除标签相似用户对应的资源的一部分,以满足资源包容量限制。
[0237]或者,所述相似用户确定单元401,用于基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;并且,基于多个标签相似用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
[0238]其中,所述标签相似用户确定单元405或者相似用户确定单元401,用于为每个用户建立标签特征向量,其中,每一维特征表不一个云端通信信息标签;每一维特征值表不被动通信次数或主动通信次数;并通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。其中,所述云端通信信息标签包括房产中介、推销电话、教育培训、骚扰电话、保险推销、贷款、外卖、猎头、快递。[0239]或者,所述标签相似用户确定单元405或者相似用户确定单元401,用于为每个用户建立标签特征向量,其中,每一维特征表不一个云端通信信息标签;每一维特征值表不:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。其中,所述被动通信权重大于或等于所述主动通信权重。
[0240]其次,介绍确定相似资源方面的实现细节。
[0241]所述相似资源确定单元402具体用于,基于多个被动通信信息和/或主动通信信息的相似度,确定所述目标用户对应资源的相似资源。
[0242]具体的,所述相似资源确定单元402,用于为每个通信信息建立用户特征向量,其中,每一维特征表示一个用户;每一维特征值表示该维特征所对应的用户对该通信信息的被动通信次数或主动通信次数;并通过判断两个通信信息的通信特征向量的余弦相似度确定两个通信信息是否为相似资源。
[0243]或者,所述相似资源确定单元402,用于为每个通信信息建立用户特征向量,其中,每一维特征表示一个用户;每一维特征值表示该维特征所对应的用户对该通信信息的:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个通信信息的通信特征向量的余弦相似度确定两个通信信息的相似程度。其中,所述被动通信权重大于或等于所述主动通信权重。
[0244]优选的,所述装置还包括:
[0245]标签相似资源确定单元407,用于基于针对所述目标用户的多个被动通信信息和/或主动通信信息的标签,确定所述被动通信信息和/或主动通信信息的标签相似资源;
[0246]所述资源整合单元404,还用于将全部或者部分所述标签相似资源一并整合进所述目标用户的资源包。
[0247]优选的,所述装置还包括:
[0248]资源包调整单元406,在整合后的资源低于资源包容量情况下,用于通过目标用户的归属地或当前位置查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包;在整合后的资源高于资源包容量情况下,用于去除标签相似资源的一部分,以满足资源包容量限制。
[0249]或者,所述相似资源确定单元402,用于判断多个被动通信信息和/或主动通信信息的标签是否相同,如果相同,则进一步基于多个被动通信信息和/或主动通信信息的相似度,确定所述目标用户对应资源的相似资源。其中,所述标签包括房产中介、推销电话、教育培训、骚扰电话、保险推销、贷款、外卖、猎头、快递。
[0250]优选的,装置还包括资源包调整单元406,用于在获取的资源低于资源包容量时,通过目标用户的归属地查找到热门资源和/或目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包。
[0251]其中,所述被动通信信息包括接电号码,所述主动通信信息包括拨电号码,所述被动通信次数包括接电次数,所述主动通信次数包括拨电次数;或者,所述被动通信信息包括所述用户接收到的短信或所述用户接收到的即时消息,所述主动通信信息包括所述用户发送的短信或所述用户发送的即时消息,所述被动通信次数包括用户接收到的短信的次数或即时消息的次数,所述主动通信次数包括用户发送短信的次数或即时消息的次数。
[0252]优选的,装置还包括下发单元408,用于将所述资源包下发给目标用户和/或相似用户的客户端。
[0253]其中,所述相似用户确定单元401是基于云端记录的多个用户账号信息从而确定目标用户的相似用户,其中,所述用户账户信息包括电话号码和/或用户个人信息;所述资源包包括号码包、工具软件包、专业文档、会议资讯、音频资源、视频资源、和/或,新闻资τΗ ο
[0254]其中根据用户客户端的IMEI或/和IMSI作为用户id识别出同一个用户。
[0255]通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0256]本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0257]以上对本发明所提供的为用户整合个性化资源的方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
【权利要求】
1.一种为用户整合个性化资源的方法,其特征在于,包括: 获取目标用户对应的资源; 确定目标用户的相似用户并获取所述相似用户对应的资源,和/或,确定并获取所述目标用户对应资源的相似资源; 将目标用户对应的资源,以及,所述相似用户对应的全部或部分资源和/或全部或部分所述相似资源,整合为该目标用户的资源包。
2.根据权利要求1所述的方法,其特征在于,所述确定目标用户的相似用户包括: 基于多个用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
3.根据权利要求2所述的方法,其特征在于, 为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示被动通信次数或主动通信次数; 通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
4.根据权利要求2所述的方法,其特征在于, 为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重; 通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
5.根据权利要求2所述的方法,其特征在于,在基于所述多个用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户之后,如果目标用户及相似用户对应的资源低于资源包容量,所述方法还包括: 基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户; 将所述目标用户的标签相似用户对应的全部或者部分资源一并整合进所述目标用户的资源包。
6.根据权利要求5所述的方法,其特征在于,在将标签相似用户对应的资源整合进所述目标用户的资源包之后, 如果整合后的资源低于资源包容量,则通过目标用户的归属地或当前位置查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包; 如果整合后的资源高于资源包容量,则去除标签相似用户对应的资源的一部分,以满足资源包容量限制。
7.根据权利要求1所述的方法,其特征在于,所述确定目标用户的相似用户包括: 基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户; 基于多个标签相似用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
8.根据权利要求7所述的方法,其特征在于, 为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示被动通信次数或主动通信次数;通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
9.根据权利要求7所述的方法,其特征在于, 为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重; 通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
10.根据权利要求1所述的方法,其特征在于,所述确定所述目标用户对应资源的相似资源包括: 基于多个被动通信信息和/或主动通信信息的相似度,确定所述目标用户对应资源的相似资源。
11.根据权利要求10所述的方法,其特征在于, 为每个通信信息建立用户特征向量,其中,每一维特征表示一个用户;每一维特征值表示该维特征所对应的用户对该通信信息的被动通信次数或主动通信次数; 通过判断两个通信信息的通信特征向量的余弦相似度确定两个通信信息是否为相似资源。
12.根据权利要求10所述的方法,其特征在于, 为每个通信信息建立用户特征向量,其中,每一维特征表示一个用户;每一维特征值表示该维特征所对应的用户对该通信信息的:被动通信次数*被动通信权重+主动通信次数*主动通信权重; 通过判断两个通信信息的通信特征向量的余弦相似度确定两个通信信息是否为相似资源。
13.根据权利要求10所述的方法,其特征在于,在基于所述多个被动通信信息和/或主动通信信息的相似度,确定所述目标用户对应的资源的相似资源之后,如果目标用户对应资源以及相似资源低于资源包容量,所述方法还包括: 基于针对所述目标用户的被动通信信息和/或主动通信信息的标签,确定所述被动通信信息和/或主动通信信息的标签相似资源; 将全部或者部分所述标签相似资源一并整合进所述目标用户的资源包。
14.根据权利要求13所述的方法,其特征在于,在将所述标签相似信息整合进所述目标用户的资源包之后, 如果整合后的资源低于资源包容量,则通过目标用户的归属地或当前位置是否为相似资源查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包; 如果整合后的资源高于资源包容量,则去除所述标签相似资源的一部分,以满足资源包容量限制。
15.根据权利要求1所述的方法,其特征在于,所述确定所述目标用户对应资源的相似资源包括: 判断多个被动通信信息和/或主动通信信息的标签是否相同,如果相同,则进一步基于多个被动通信信息和/或主动通信信息的相似度,确定所述目标用户对应资源的相似资源。
16.根据权利要求1所述的方法,其特征在于,还包括:如果获取的资源低于资源包容量,则通过目标用户的归属地或当前位置查找到热门资源和/或目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包。
17.根据权利要求2-16任一项所述的方法,其特征在于, 所述被动通信信息包括接电号码,所述主动通信信息包括拨电号码,所述被动通信次数包括接电次数,所述主动通信次数包括拨电次数;或者, 所述被动通信信息包括所述用户接收到的短信或所述用户接收到的即时消息,所述主动通信信息包括所述用户发送的短信或所述用户发送的即时消息,所述被动通信次数包括用户接收到的短信的次数或即时消息的次数,所述主动通信次数包括用户发送短信的次数或即时消息的次数。
18.根据权利要求1所述的方法,其特征在于,在整合目标用户的资源包之后,还包括: 将所述资源包下发给目标用户的客户端和/或相似用户的客户端。
19.根据权利要求1所述的方法,其特征在于,根据用户客户端的MEI或/和IMSI作为用户id识别出同一个用户。
20.一种为用户整合个性化资源的装置,其特征在于,包括:相似用户确定单元和/或相似资源确定单元,以及,资源获取单元和资源整合单元,其中, 所述相似用户确定单元,用于确定目标用户的相似用户; 所述相似资源确定单元,用于确定目标用户对应资源的相似资源; 所述资源获取单元,用于获取目标用户对应的资源,并获取所述相似用户对应的资源和/或获取所述相似资源; 所述资源整合单元,用于将目标用户对应的资源,以及,所述相似用户对应的全部或部分资源和/或全部或部分所述相似资源,整合为该目标用户的资源包。
21.根据权利要求20所述的装置,其特征在于,所述相似用户确定单元具体用于,基于多个用户的被动通信信息和/或主动通信信息的相似度,确定BJH141-030 4所述目标用户的相似用户。
22.根据权利要求21所述的装置,其特征在于,所述相似用户确定单元,用于为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示被动通信次数或主动通信次数;并通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
23.根据权利要求21所述的装置,其特征在于,所述相似用户确定单元,用于为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
24.根据权利要求21所述的装置,其特征在于,所述装置还包括: 标签相似用户确定单元,用于基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户; 所述资源获取单元还用于获取所述标签相似用户对应的资源;所述资源整合单元,还用于将所述目标用户的标签相似用户对应的资源全部或者部分一并整合进所述目标用户的资源包。
25.根据权利要求24所述的装置,其特征在于,所述装置还包括: 资源包调整单元,在整合后的资源低于资源包容量情况下,用于通过目标用户的归属地或当前位置查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包;在整合后的资源高于资源包容量情况下,用于去除标签相似用户对应的资源的一部分,以满足资源包容量限制。
26.根据权利要求20所述的装置,其特征在于,所述相似用户确定单元,用于基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;并且,基于多个标签相似用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
27.根据权利要求24或26所述的装置,其特征在于,所述标签相似用户确定单元或者相似用户确定单元,用于为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示被动通信次数或主动通信次数;并通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
28.根据权利要求24或26所述的装置,其特征在于,所述标签相似用户确定单元或者相似用户确定单元,用于为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
29.根据权利要求20所述的装置,其特征在于,所述相似资源确定单元具体用于,基于多个被动通信信息和/或主动通信信息的相似度,确定所述目标用户对应资源的相似资源。
30.根据权利要求29所述的装置,其特征在于,所述相似资源确定单元,用于为每个通信信息建立用户特征向量,其中,每一维特征表示一个用户;每一维特征值表示该维特征所对应的用户对该通信信息的被动通信次数或主动通信次数;并通过判断两个通信信息的通信特征向量的余弦相似度确定两个通信信息是否为相似资源。
31.根据权利要求29所述的装置,其特征在于,所述相似资源确定单元,用于为每个通信信息建立用户特征向量,其中,每一维特征表示一个用户;每一维特征值表示该维特征所对应的用户对该通信信息的:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个通信信息的通信特征向量的余弦相似度确定两个通信信息是否为相似资源。
32.根据权利要求29所述的装置,其特征在于,所述装置还包括: 标签相似资源确定单元,用于基于针对所述目标用户的多个被动通信信息和/或主动通信信息的标签,确定所述被动通信信息和/或主动通信信息的标签相似资源; 所述资源整合单元,还用于将全部或者部分所述标签相似资源一并整合进所述目标用户的资源包。
33.根据权利要求32所述的装置,其特征在于,所述装置还包括: 资源包调整单元,在整合后的资源低于资源包容量情况下,用于通过目标用户的归属地或当前位置查找到热门资源和/或目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包;在整合后的资源高于资源包容量情况下,用于去除标签相似资源的一部分,以满足资源包容量限制。
34.根据权利要求20所述的装置,其特征在于,所述相似资源确定单元,用于判断多个被动通信信息和/或主动通信信息的标签是否相同,如果相同,则进一步基于多个被动通信信息和/或主动通信信息的相似度,确定所述目标用户对应资源的相似资源。
35.根据权利要求20所述的装置,其特征在于,还包括: 资源包调整单元,用于在获取的资源低于资源包容量时,通过目标用户的归属地或当前位置查找到热门资源和/或目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包。
36.根据权利要求21-35任一项所述的装置,其特征在于, 所述被动通信信息包括接电号码,所述主动通信信息包括拨电号码,所述被动通信次数包括接电次数,所述主动通信次数包括拨电次数;或者, 所述被动通信信息包括所述用户接收到的短信或所述用户接收到的即时消息,所述主动通信信息包括所述用户发送的短信或所述用户发送的即时消息,所述被动通信次数包括用户接收到的短信的次数或即时消息的次数,所述主动通信次数包括用户发送短信的次数或即时消息的次数。
37.根据权利要求20所述的装置,其特征在于,还包括: 下发单元,用于将所 述资源包下发给目标用户的客户端和/或相似用户的客户端。
【文档编号】H04L29/08GK103944986SQ201410157670
【公开日】2014年7月23日 申请日期:2014年4月18日 优先权日:2014年4月18日
【发明者】唐拯, 王志军, 张扬 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1