帐户召回方法及装置与流程

文档序号:25731147发布日期:2021-07-02 21:19阅读:88来源:国知局
帐户召回方法及装置与流程

本公开涉及互联网技术领域,尤其涉及一种帐户召回方法及装置。



背景技术:

目前,视频、直播等平台上的视频内容类型种类繁多,平台为保证其平台上的视频作品质量,通常需要对发布某类内容的视频的帐户进行召回,以对这些帐户进行管理,避免这些帐户经常发布一些创作成本低、作品价值低或涉嫌抄袭的作品。

相关技术中,可利用计算机视觉或者自然语言处理技术等来实现,但存在一定的问题,如开发时间长、复用性较差、需要积累大量帐户样例作为模型训练数据等,可见,相关帐户召回方案在实现上较为复杂。



技术实现要素:

本公开提供一种帐户召回方法及装置,以至少解决相关技术中的帐户召回方案较为复杂的问题。本公开的技术方案如下:

根据本公开实施例的第一方面,提供一种帐户召回方法,包括:

获取预设内容类型的n个种子帐户,其中,n为正整数;

基于帐户之间的关注关系,确定所述n个种子帐户的第一粉丝集合;

确定第一帐户的第二粉丝集合中属于所述第一粉丝集合的粉丝占比,其中,所述第一帐户为除所述n个种子帐户之外的任一帐户;

召回粉丝占比大于预设阈值的第一帐户。

可选的,所述基于帐户之间的关注关系,确定所述n个种子帐户的第一粉丝集合,包括:

基于帐户之间的关注关系,获取所述n个种子帐户中每个种子帐户的粉丝集合,得到第三粉丝集合;

基于所述n个种子帐户的内容类型,确定所述n个种子帐户的粉丝画像特征;

利用所述n个种子帐户的粉丝画像特征,去除所述第三粉丝集合中不具备所述粉丝画像特征的粉丝帐户,得到第一粉丝集合。

可选的,所述获取预设内容类型的n个种子帐户,包括:

获取预设内容类型的m个样例帐户,m为大于或等于n的整数;

对所述m个样例帐户按粉丝数量进行排序;

从所述m个样例帐户中选取粉丝数量排序在目标名次区间的n个种子帐户。

可选的,所述对所述m个样例帐户按粉丝数量进行排序之后,所述从所述m个样例帐户中选取粉丝数量排序在目标名次区间的n个种子帐户之前,所述方法还包括:

确定l个不同预设名次,l为小于m的正整数;

从所述m个样例帐户中,选取分别排序在所述l个不同预设名次中的第1至第l个预设名次的l个种子实验帐户;

基于所述l个种子实验帐户中的每个种子实验帐户的粉丝集合,召回共同粉丝占比大于所述预设阈值的第二帐户,其中,所述第二帐户为除当前种子实验帐户之外的任一帐户;

确定所述每个种子实验帐户的召回参数,并依据所述召回参数确定目标种子实验帐户,其中,所述召回参数包括召回量和召回精确度中的至少之一;

依据所述目标种子实验帐户对应的目标预设名次,确定目标名次区间。

可选的,所述基于所述l个种子实验帐户中的每个种子实验帐户的粉丝集合,召回共同粉丝占比大于所述预设阈值的第二帐户,包括:

确定第一种子实验帐户的粉丝集合,其中,所述第一种子实验帐户为所述l个种子实验帐户中的任一种子实验帐户;

确定第二帐户的粉丝集合中属于所述第一种子实验帐户的粉丝集合的粉丝占比,其中,所述第二帐户为除所述第一种子实验帐户之外的任一帐户;

召回粉丝占比大于所述预设阈值的第二帐户。

可选的,所述依据所述目标种子实验帐户对应的目标预设名次,确定目标名次区间,包括:

将所述目标预设名次的前k名至所述目标预设名次的后k名之间的名次区间确定为目标名次区间,k为正整数。

可选的,所述依据所述目标种子实验帐户对应的目标预设名次,确定目标名次区间之后,所述从所述m个样例帐户中选取粉丝数量排序在目标名次区间内的n个种子帐户之前,所述方法还包括:

从所述m个样例帐户中选取粉丝数量排序在所述目标名次区间的q个种子实验帐户,q为正整数;

基于所述q个种子实验帐户的粉丝集合,召回共同粉丝占比大于所述预设阈值的第三帐户,并确定当前召回质量,其中,所述第三帐户为除所述q个种子实验帐户之外的任一帐户;

在第k次召回的情况下,确定当前召回质量相对上一次召回质量的下降幅度,其中,k为大于1的整数;

在所述下降幅度未超过预设幅度的情况下,将所述q的值增大预设值,并重复上述从所述m个样例帐户中选取粉丝数量排序在所述目标名次区间的q个种子实验帐户,确定当前召回质量,以及确定当前召回质量相对上一次召回质量的下降幅度的步骤,直至所述下降幅度超过所述预设幅度;

依据每一次的召回质量,确定召回质量最佳时q的取值,其中,召回质量最佳时q的取值为所述n的值。

可选的,所述召回粉丝占比大于预设阈值的第一帐户,包括:

将粉丝占比大于预设阈值的第一帐户确定为待召回帐户;

依据目标帐户特征对所述待召回帐户进行筛选,得到目标召回帐户;

召回所述目标召回帐户。

根据本公开实施例的第二方面,提供一种帐户召回装置,包括:

获取模块,被配置为执行获取预设内容类型的n个种子帐户,其中,n为正整数;

第一确定模块,被配置为执行基于帐户之间的关注关系,确定所述n个种子帐户的第一粉丝集合;

第二确定模块,被配置为执行确定第一帐户的第二粉丝集合中属于所述第一粉丝集合的粉丝占比,其中,所述第一帐户为除所述n个种子帐户之外的任一帐户;

第一召回模块,被配置为执行召回粉丝占比大于预设阈值的第一帐户。

可选的,所述第一确定模块包括:

第一获取单元,被配置为执行基于帐户之间的关注关系,获取所述n个种子帐户中每个种子帐户的粉丝集合,得到第三粉丝集合;

第一确定单元,被配置为执行基于所述n个种子帐户创作的内容类型,确定所述n个种子帐户的粉丝画像特征;

过滤单元,被配置为执行利用所述n个种子帐户的粉丝画像特征,去除所述第三粉丝集合中不具备所述粉丝画像特征的粉丝帐户,得到第一粉丝集合。

可选的,所述获取模块包括:

第二获取单元,被配置为执行获取预设内容类型的m个样例帐户,m为大于或等于n的整数;

排序单元,被配置为执行对所述m个样例帐户按粉丝数量进行排序;

选取单元,被配置为执行从所述m个样例帐户中选取粉丝数量排序在目标名次区间的n个种子帐户。

可选的,所述帐户召回装置还包括:

第三确定模块,被配置为执行确定l个不同预设名次,l为小于m的正整数;

第一选取模块,被配置为执行从所述m个样例帐户中,选取分别排序在所述l个不同预设名次中的第1至第l个预设名次的l个种子实验帐户;

第二召回模块,被配置为执行基于所述l个种子实验帐户中的每个种子实验帐户的粉丝集合,召回共同粉丝占比大于所述预设阈值的第二帐户,其中,所述第二帐户为除当前种子实验帐户之外的任一帐户;

第四确定模块,被配置为执行确定所述每个种子实验帐户的召回参数,并依据所述召回参数确定目标种子实验帐户,其中,所述召回参数包括召回量和召回精确度中的至少之一;

第五确定模块,被配置为执行依据所述目标种子实验帐户对应的目标预设名次,确定目标名次区间。

可选的,所述第二召回模块包括:

第二确定单元,被配置为执行确定第一种子实验帐户的粉丝集合,其中,所述第一种子实验帐户为所述l个种子实验帐户中的任一种子实验帐户;

第三确定单元,被配置为执行确定第二帐户的粉丝集合中属于所述第一种子实验帐户的粉丝集合的粉丝占比,其中,所述第二帐户为除所述第一种子实验帐户之外的任一帐户;

第一召回单元,被配置为执行召回粉丝占比大于所述预设阈值的第二帐户。

可选的,所述第五确定模块被配置为执行将所述目标预设名次的前k名至所述目标预设名次的后k名之间的名次区间确定为目标名次区间,k为正整数。

可选的,所述帐户召回装置还包括:

第二选取模块,被配置为执行从所述m个样例帐户中选取粉丝数量排序在所述目标名次区间的q个种子实验帐户,q为正整数;

第三召回模块,被配置为执行基于所述q个种子实验帐户的粉丝集合,召回共同粉丝占比大于所述预设阈值的第三帐户,并确定当前召回质量,其中,所述第三帐户为除所述q个种子实验帐户之外的任一帐户;

第六确定模块,被配置为执行在第k次召回的情况下,确定当前召回质量相对上一次召回质量的下降幅度,其中,k为大于1的整数;

处理模块,被配置为执行在所述下降幅度未超过预设幅度的情况下,将所述q的值增大预设值,并重复上述从所述m个样例帐户中选取粉丝数量排序在所述目标名次区间的q个种子实验帐户,确定当前召回质量,以及确定当前召回质量相对上一次召回质量的下降幅度的步骤,直至所述下降幅度超过所述预设幅度;

第七确定模块,被配置为执行依据每一次的召回质量,确定召回质量最佳时q的取值,其中,召回质量最佳时q的取值为所述n的值。

可选的,所述第一召回模块包括:

第四确定单元,被配置为执行将粉丝占比大于预设阈值的第一帐户确定为待召回帐户;

筛选单元,被配置为执行依据目标帐户特征对所述待召回帐户进行筛选,得到目标召回帐户;

第二召回单元,被配置为执行召回所述目标召回帐户。

根据本公开实施例的第三方面,提供一种帐户召回装置,包括:

处理器;

用于存储所述处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述指令,以实现上述第一方面所述的帐户召回方法。

根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由帐户召回装置执行时,使得所述帐户召回装置能够执行上述第一方面所述的帐户召回方法。

根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序,当所述计算机程序被处理器执行时实现上述第一方面所述的帐户召回方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

获取预设内容类型的n个种子帐户,其中,n为正整数;基于帐户之间的关注关系,确定所述n个种子帐户的第一粉丝集合;确定第一帐户的第二粉丝集合中属于所述第一粉丝集合的粉丝占比,其中,所述第一帐户为除所述n个种子帐户之外的任一帐户;召回粉丝占比大于预设阈值的第一帐户。这样,只需依靠部分创作内容类型一致的种子帐户,并基于帐户之间的关注关系,加以简单的数据分析,如分析粉丝占比情况,便可实现召回更多的创作同类型内容的帐户,该实现方式相比相关技术较为简单。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种帐户召回方法的流程图。

图2是根据一示例性实施例示出的获取预设内容类型的n个种子帐户的步骤的流程图。

图3是根据一示例性实施例示出的一种帐户召回装置的框图。

图4是根据一示例性实施例示出的另一种帐户召回装置的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例可以应用于互联网技术领域,例如短视频、直播等领域中,对创作某类型内容的用户进行召回的场景,例如,为了保证某短视频创作平台上的视频作品质量,可对创作一些星座运势类内容的作者用户进行召回,以监控或限制这些用户对此类内容的创作。

图1是根据一示例性实施例示出的一种帐户召回方法的流程图,应用于帐户召回装置,帐户召回装置可以以软件或硬件形式装载或集成在电子设备(比如服务器、终端等)中,如图1所示,帐户召回方法包括以下步骤。

在步骤s11中,获取预设内容类型的n个种子帐户,其中,n为正整数。

上述n个种子帐户可以是从目标服务器中选取的n个作为种子帐户的帐户,所述目标服务器可以是实际应用场景中需要对某应用程序平台上的一些用户帐户进行召回的后台服务器,例如,可以是为短视频、直播、网站等提供服务的后台服务器。

本公开实施例中,可以利用目标服务器上的若干个创作某一类型内容的用户帐户作为种子帐户,并基于目标服务器上各用户帐户间的关注关系,来找出更多创作该类型内容的用户帐户,以对这些用户帐户进行召回。

因此,该步骤中,帐户召回装置可以先从所述目标服务器上获取n个创作内容类型一致的用户帐户作为种子帐户,具体可以从所述目标服务器的用于存放用户帐户信息的数据库中获取用户帐户信息,并确定各用户帐户的创作内容类型,再依据各用户帐户的创作内容类型,选取一些所需创作内容类型的用户帐户作为种子帐户。更具体地,可以根据实际需要,从预设内容类型的样例帐户中选取n个粉丝数量在一定范围内的用户帐户作为种子帐户,例如,分别选取n个粉丝数量在100左右的用户帐户作为种子帐户,其中,所述内容类型可以是指创作的内容所属的类型,如搞笑类、动漫类、篮球类、教育类等,且创作内容的类型可根据创作内容的分类标签或通过识别创作内容确定,所述预设内容类型可以是本次需要召回的内容类型,所述样例帐户可以是选取的创作内容类型为所述预设内容类型的部分用户帐户。所述n的取值可以根据实际需要进行相应设定,例如,可以根据对该类型内容的多次召回试验结果确定。

需说明的是,为了较为准确地召回目标帐户,在获取样例帐户或种子帐户时,可以尽可能保证样例帐户或种子帐户的创作内容类型纯度,即保证所述样例帐户或种子帐户创作的内容类型基本为同一种类型或为相似的类型,这样可以保证关注这些帐户的用户即粉丝基本为同一种类型,都是被同样类型的内容所吸引。

在步骤s12中,基于帐户之间的关注关系,确定所述n个种子帐户的第一粉丝集合。

在获得所述n个种子帐户后,可以进一步获取所述n个种子帐户的粉丝集合,具体地,可以基于各帐户之间的关注关系,分别获取所述n个种子帐户中每个种子帐户的粉丝帐户,即关注所述种子帐户的用户帐户,得到所述n个种子帐户的粉丝集合。例如,对于3个种子帐户而言,可以分别获取第1个种子帐户的粉丝帐户,第2个种子帐户的粉丝帐户和第3个种子帐户的粉丝帐户,并将这3个种子帐户的粉丝帐户集合在一块,得到这3个种子帐户的粉丝集合。

本公开实施例中,可以将获得的所述n个种子帐户的粉丝集合确定为第一粉丝集合,也可以进一步对所获得的所述n个种子帐户的粉丝集合进行过滤,例如,根据所述n个种子帐户创作的内容类型,确定关注该类型内容的人群的普遍特征,再基于这些特征去过滤所述n个种子帐户的粉丝集合中不具备这些特征的粉丝帐户,以得到关注所述n个种子帐户创作的该类型内容的粉丝群体。

也就是说,所述步骤s12可包括:

基于帐户之间的关注关系,获取所述n个种子帐户中每个种子帐户的粉丝集合,得到第三粉丝集合;

基于所述n个种子帐户的内容类型,确定所述n个种子帐户的粉丝画像特征;

利用所述n个种子帐户的粉丝画像特征,去除所述第三粉丝集合中不具备所述粉丝画像特征的粉丝帐户,得到第一粉丝集合。

即可以先基于所述目标服务器上帐户之间的关注关系,确定关注每个种子帐户的用户帐户,进而获得每个种子帐户的粉丝集合,对所述每个种子帐户的粉丝集合取并集便可得到所述n个种子帐户的第三粉丝集合。

为得到对所述n个种子帐户的关注度较高的粉丝,可以利用关注所述n个种子帐户创作的内容类型的这类用户群体的共同画像特征,对所述第三粉丝集合进行筛选过滤。具体地,可以基于所述n个种子帐户创作的内容类型,确定对这种内容类型感兴趣的用户群体所具备的共性特征,也即确定所述n个种子帐户的粉丝画像特征。具体可以通过不同内容类型对应的粉丝画像特征,来快速确定基于所述n个种子帐户的粉丝画像特征。例如,对于nba类视频内容,感兴趣的主要用户群体为20至30岁左右的青年男性,则对于这类内容,可以确定其粉丝画像特征包括男性,年龄在20至30岁左右;对于某地区新闻类视频内容,感兴趣的主要用户群体为该地区人员,则对于这类内容,可以确定其粉丝画像特征包括该地区,等等。

然后,可利用所述n个种子帐户的粉丝画像特征对所述第三粉丝集合进行过滤,具体为过滤掉所述第三粉丝集合中不具备所述粉丝画像特征的粉丝帐户,或者说筛选所述第三粉丝集合中具备所述粉丝画像特征的粉丝帐户,过滤后或筛选出的粉丝集合便为所述第一粉丝集合。

这样,通过利用所述n个种子帐户的粉丝画像特征对所述第三粉丝集合进行过滤,去除所述第三粉丝集合中不具备所述粉丝画像特征的粉丝帐户,可保证最终得到的粉丝集合为对所述n个种子帐户的创作内容类型感兴趣的主要消费对象,进而保证后续基于所述第一粉丝集合召回帐户时的准确度。

在步骤s13中,确定第一帐户的第二粉丝集合中属于所述第一粉丝集合的粉丝占比,其中,所述第一帐户为除所述n个种子帐户之外的任一帐户。

上述第二粉丝集合可以是所述第一帐户的粉丝帐户的集合,即关注所述第一帐户的用户帐户集合。

在获取所述n个种子帐户的第一粉丝集合后,可以获取所述目标服务器上的其他用户帐户的粉丝集合,即获取所述目标服务器上除所述n个种子帐户外的各帐户的粉丝集合,然后统计各帐户的粉丝集合中同样属于所述第一粉丝集合的粉丝数量,并基于此计算各帐户的粉丝集合中属于所述第一粉丝集合的粉丝占比。例如,确定某帐户的1000个粉丝帐户中,有10个粉丝帐户属于第一粉丝集合,则可确定该帐户的粉丝集合属于所述第一粉丝集合的粉丝占比为10/1000=1%。

在步骤s14中,召回粉丝占比大于预设阈值的第一帐户。

上述预设阈值可以是经验阈值,即可以是技术人员根据实验确定的阈值,例如,取0.5%,当然也可以根据实际情况进行灵活调整。

鉴于喜欢某种内容类型的用户往往会关注多个创作该类型内容的作者,也即创作内容类型一致的帐户往往具备相类似的粉丝群体,故在确定所述目标服务器上除所述n个种子帐户之外的各帐户的粉丝占比后,可以根据预设阈值,确定其中粉丝占比大于所述预设阈值的帐户,将这些帐户作为目标召回帐户进行召回。即确定某个帐户的粉丝集合中超过了一定比例的粉丝帐户同属于所述n个种子帐户的粉丝集合,则可判定该帐户的创作内容类型与所述n个种子帐户的创作内容类型相同或相似,从而可将该帐户作为目标召回帐户进行召回。其中,所述对目标召回帐户进行召回,可以是获取所述目标召回帐户的帐户信息,对所述目标召回帐户在所述目标服务器上的操作行为(如发布作品)进行管理,避免所述目标召回帐户在所述目标服务器上发布某种类型的作品,等等。

可选的,所述步骤s14包括:

将粉丝占比大于预设阈值的第一帐户确定为待召回帐户;

依据目标帐户特征对所述待召回帐户进行筛选,得到目标召回帐户;

召回所述目标召回帐户。

该实施方式中,可以在确定粉丝占比大于预设阈值的第一帐户后,依据创作这类内容的共同用户画像特征,对所确定的待召回用户做进一步筛选,以保证最终召回的帐户的精确度,具体地,可以将粉丝占比大于预设阈值的第一帐户确定为待召回帐户,然后依据目标帐户特征对所述待召回帐户进行筛选,保留所述待召回帐户中具备所述目标帐户特征的待召回帐户作为目标召回帐户,并召回所述目标召回帐户,其中,所述目标帐户特征可以基于所述n个种子帐户的共同用户画像特征预先设定,例如,创作言情动漫类视频内容的作者通常均为女性,则可以将女性作为所述目标帐户特征,在确定待召回帐户后,可以筛选其中性别为女性的待召回帐户作为目标召回帐户。

这样,通过对待召回帐户做进一步筛选,可保证最终召回结果具备更高的召回精确度。

可选的,如图2所示,所述步骤s11包括:

步骤s111、获取预设内容类型的m个样例帐户,m为大于或等于n的整数;

步骤s112、对所述m个样例帐户按粉丝数量进行排序;

步骤s113、从所述m个样例帐户中选取粉丝数量排序在目标名次区间的n个种子帐户。

即可以在样例帐户中选取符合条件的样例帐户做种子帐户,以保证基于所述n个种子帐户召回的用户具备较高的准确度。具体地,可以先从所述目标服务器上获取创作内容类型为预设内容类型的m个样例帐户,所述预设内容类型可以根据实际召回需要进行灵活设定,具体地,可以通过统计所述目标服务器上各用户帐户发布的作品的内容类型,从中筛选部分创作内容类型为所述预设内容类型的用户帐户作为样例帐户,并且在筛选时所选取的样例帐户具备较高的创作内容类型纯度,即所选取的样例帐户基本只创作所述预设内容类型的内容作品。其中,所述m的值可以根据实际情况进行设定,例如,当创作所述预设内容类型的用户较多时,m可以选取较大的值,当创作所述预设内容类型的用户较少时,m可以选取较小的值即可。

然后,可以分别获取所述m个样例帐户中每个样例帐户的粉丝数量,并按粉丝数量对所述m个样例帐户进行排序,例如,将所述m个样例帐户按粉丝数量从低至高的顺序排序,或者,将所述m个样例帐户按粉丝数量从高至低的顺序排序。

最后,可以按照目标名次区间,从所述m个样例帐户中选取粉丝数量排序在所述目标名次区间的n个样例帐户作为种子帐户,得到n个种子帐户,例如,总共有20个样例帐户,所述目标名次区间为8至12,n取3,则可以从第8名至第12名样例帐户中选取3个样例帐户即可,如选取第9、第10和第11名样例帐户作为种子帐户。其中,所述目标名次区间可以根据召回实验确定,例如,可以在召回实验阶段,从所述m个样例帐户分别选取粉丝数量在不同名次区间的样例帐户作为种子实验帐户进行帐户召回,并分析每个种子实验帐户的召回结果,确定召回质量(召回量、召回精确度等)较好的一个种子实验帐户,如确定召回质量最高或召回质量高于预定值的种子实验帐户,并将该种子实验帐户所对应的名次区间作为所述目标名次区间。

本公开实施例从预设内容类型的m个样例帐户中选取粉丝数量排序在目标名次区间的n个样例帐户作为种子帐户,可以为种子帐户的选取提供一种较为有效的策略,尽可能地保证依据所述n个种子帐户召回的结果具备较高的精确度。

在一个实施例中,所述对所述m个样例帐户按粉丝数量进行排序之后,所述从所述m个样例帐户中选取粉丝数量排序在目标名次区间的n个样例帐户作为种子帐户之前,所述方法还包括:

步骤s114、确定l个不同预设名次,l为小于m的正整数;

步骤s115、从所述m个样例帐户中,选取分别排序在所述l个不同预设名次中的第1至第l个预设名次的l个种子实验帐户;

步骤s116、基于所述l个种子实验帐户中的每个种子实验帐户的粉丝集合,召回共同粉丝占比大于所述预设阈值的第二帐户,其中,所述第二帐户为除当前种子实验帐户之外的任一帐户;

步骤s117、确定所述每个种子实验帐户的召回参数,并依据所述召回参数确定目标种子实验帐户,其中,所述召回参数包括召回量和召回精确度中的至少之一;

步骤s118、依据所述目标种子实验帐户对应的目标预设名次,确定目标名次区间。

即该实施方式中,可以在选取种子帐户之前,通过召回实验确定所述目标名次区间,具体地,可以先确定l个不同的预设名次,其中,为保证不同粉丝范围的样例用户均被选取到,所述l个预设名次可以分别处于不同的名次区间,以从所述m个样例帐户中分别选取l个排序在不同名次区间的样例帐户作为种子实验帐户,例如,共有100个样例帐户,确定了5个预设名次,分别为第10名、第30名、第50名、第70名和第90名,这样,可以从所述100个样例帐户中选取粉丝数量分别排名在第10名、第30名、第50名、第70名和第90名的5个样例帐户作为种子实验帐户。

当然,也可以依据粉丝量级来选取种子实验帐户,例如,可以分别选取l个不同粉丝量级的样例帐户作为种子实验帐户,仍以100个样例帐户为例,可以依据这100个样例帐户的粉丝量级分布,分别在10%、30%、50%、70%和90%的粉丝量级分位点选取1位样例帐户作为种子实验帐户,即可以将所述100个样例帐户按粉丝数量从低至高排序,粉丝量级为10%的样例帐户为第10%×100=10位样例帐户,类似地,粉丝量级为30%、50%、70%和90%的样例帐户分别为第30位、第50位、第70位和第100位样例帐户。

然后,可以分别对所述l个种子实验帐户中的每个种子实验帐户,按照预定的召回流程确定召回帐户,也即进行召回实验,以通过比较分析每个种子实验帐户的召回结果来确定表现较佳的目标种子实验帐户,依据该目标种子实验帐户对应的预设名次来确定目标名次区间。

具体地,上述预定的召回流程可以是,选择所述l个种子实验帐户中的任一种子实验帐户为当前种子实验帐户,确定当前种子实验帐户的粉丝集合,当然也可如前述可选的实施方式一样,对该种子实验帐户的粉丝集合进行过滤,得到过滤后的粉丝集合,接着,对于所述目标服务器上除当前种子实验帐户之外的各帐户,可基于当前种子实验帐户的的粉丝集合,分别确定各帐户与当前种子实验帐户的共同粉丝的占比情况。

其中,所述基于所述l个种子实验帐户中的每个种子实验帐户的粉丝集合,召回共同粉丝占比大于所述预设阈值的第二帐户,可以包括:

确定第一种子实验帐户的粉丝集合,其中,所述第一种子实验帐户为所述l个种子实验帐户中的任一种子实验帐户;

确定第二帐户的粉丝集合中属于所述第一种子实验帐户的粉丝集合的粉丝占比,其中,所述第二帐户为除所述第一种子实验帐户之外的任一帐户;

召回粉丝占比大于所述预设阈值的第二帐户。

也就是说,在基于当前种子实验帐户的粉丝集合,确定各帐户与当前种子实验帐户的共同粉丝占比时,可以是以当前种子实验帐户的粉丝集合为基础,对其他任一帐户,确定其粉丝集合中属于当前种子实验帐户的粉丝集合的粉丝占比,再判断该粉丝占比是否大于所述预设阈值,若大于,则可将该帐户确定为召回帐户,或对这些召回帐户进行召回,从而得到当前种子实验帐户的召回结果,对于所述l个种子实验帐户中的其他种子实验帐户,也可以采用同样的方式,得到各自的召回结果。

然后,可以基于每个种子实验帐户的召回结果,确定每个种子实验帐户的召回参数,如召回量、召回精确度,具体地,可以通过统计每个种子实验帐户的召回帐户数量确定召回量,通过分析每个种子实验帐户的召回帐户所创作的内容类型,确定每个种子实验帐户的召回帐户中符合召回要求的召回帐户数在总召回帐户数中的占比,该占比的大小即可表示召回精确度的大小,例如,依据某个种子实验帐户共确定了50个召回帐户,其中,35个召回帐户的创作内容类型与该种子实验帐户的内容类型一致,即有35个召回帐户符合召回要求,则该种子实验帐户的召回精确度为35/50=70%。

接着,可以根据实际需求,综合每个种子实验帐户的召回参数,确定其中表现较佳的种子实验帐户为目标种子实验帐户,例如,可以将每个种子实验帐户的召回量乘以召回精确度,得到每个种子实验帐户的真实召回数量,并将真实召回数量最多的种子实验帐户作为目标种子实验帐户,或者,在对召回精确度要求较高的情况下,以召回精确度最高的种子实验帐户作为目标种子实验帐户,还或者,在召回量达到一定值的情况下,取召回精确度最高的种子实验帐户作为目标种子实验帐户,等等。

最后,可依据所确定的目标种子实验帐户对应的目标预设名次,确定对应的目标名次区间,例如,目标种子实验帐户在100个样例帐户中的粉丝数量排名为第30名,则可以确定对应的目标名次区间为30左右,如取第20至40名之间、取第25至35名之间等。

其中,所述依据所述目标种子实验帐户对应的目标预设名次,确定目标名次区间,可以包括:

将所述目标预设名次的前k名至所述目标预设名次的后k名之间的名次区间确定为目标名次区间,k为正整数。

即可以依据所述目标种子实验帐户对应的目标预设名次,在所述目标预设名次前后浮动k个名次,来确定对应的目标名次区间,其中,k的值可以根据实际情况进行调整,例如,当样例帐户较多即m较大时,k可以取较大的值,当样例帐户较少即m较小时,k可以取较小的值。

这样,通过召回实验来确定目标名次区间,可保证依据所述目标名次区间选取的种子帐户,能够更准确地召回更多的相似帐户。

在一个实施例中,所述依据所述目标种子实验帐户对应的目标预设名次,确定目标名次区间之后,所述从所述m个样例帐户中选取粉丝数量排序在目标名次区间内的n个种子帐户之前,所述方法还包括:

步骤s119、从所述m个样例帐户中选取粉丝数量排序在所述目标名次区间的q个种子实验帐户,q为正整数;

步骤s120、基于所述q个种子实验帐户的粉丝集合,召回共同粉丝占比大于所述预设阈值的第三帐户,并确定当前召回质量,其中,所述第三帐户为除所述q个种子实验帐户之外的任一帐户;

步骤s121、在第k次召回的情况下,确定当前召回质量相对上一次召回质量的下降幅度,其中,k为大于1的整数;

步骤s122、在所述下降幅度未超过预设幅度的情况下,将所述q的值增大预设值,并重复上述从所述m个样例帐户中选取粉丝数量排序在所述目标名次区间的q个种子实验帐户,确定当前召回质量,以及确定当前召回质量相对上一次召回质量的下降幅度的步骤,直至所述下降幅度超过所述预设幅度;

步骤s123、依据每一次的召回质量,确定召回质量最佳时q的取值,其中,召回质量最佳时q的取值为所述n的值。

即该实施方式中,在确定目标名次区间之后,还可以基于所述目标名次区间,继续进行召回实验,以确定在所述目标名次区间内,取多少数量的种子帐户能获得较佳的召回质量,也即结合所述目标名次区间通过进一步召回实验来确定n的值。

具体地,可以先从所述m个样例帐户中选取粉丝数量排序在所述目标名次区间的q个样例帐户作为种子实验帐户,然后对这q个种子实验帐户按照与前述实施方式类似的召回流程进行召回实验,并确定本次的召回质量,接着,可以逐一增大q的值,也即增加种子帐户的选取数量,并按照增加后的q值,重复类似地召回实验,并记录每次的召回质量,直至召回质量出现较为明显的拐点,如当前召回质量相对上一次召回质量出现大幅下降(下降幅度超过预设幅度)时,停止增大q值并结束召回实验。

其中,q的初始值可以取较小的值,然后每次固定增大预设值,例如,首次可以从所述m个样例帐户中选取粉丝数量排序在所述目标名次区间的1个样例帐户(即q取值1)作为种子实验帐户,进行召回实验,往后依次选取2个、3个、4个……(即q分别取值2、3、4……)粉丝数量排序在所述目标名次区间的样例帐户作为种子实验帐户进行召回实验,直至召回质量出现明显拐点,也即当前召回质量相对上一次召回质量的下降幅度超过预设幅度时停止实验。所述召回质量可以综合召回量和召回精确度确定,召回量大且召回精确度高的认为其召回质量较好,例如,可以利用每次的召回量乘以召回精确度来衡量每次的召回质量。

每次召回实验中的召回流程与前述介绍的召回流程类似,具体地,可确定每次所选取的q个种子实验帐户的粉丝集合,当然也可如前述可选的实施方式一样,对这q个种子实验帐户的粉丝集合进行过滤,得到过滤后的粉丝集合,接着,对于所述目标服务器上除这q个种子实验帐户之外的各帐户,可分别确定各帐户的粉丝集合中属于这q个种子实验帐户的粉丝集合的粉丝占比,并将其中粉丝占比大于所述预设阈值的帐户确定为召回帐户,从而得到每次所选取的q个种子实验帐户的召回结果。

然后,可以依据记录的每一次的召回质量,确定召回质量最优点对应的种子帐户数,即确定召回质量最佳的一次所选取的种子帐户数q,并将该次中q的取值确定为n的值,从而在召回阶段,从所述m个样例帐户中选取粉丝数量排序在所述目标名次区间内的n个样例帐户作为种子帐户,按照本公开实施例中介绍的召回流程进行召回。

其中,需说明的是,还可以确定召回质量最优点对应的种子帐户粉丝数量,从而在选取种子帐户时,还可以进一步确保所选取的n个种子帐户的粉丝数量与该最优点对应的种子帐户粉丝数量较为接近,以保证取得较好的召回结果。

这样,在确定目标名次区间后,进一步通过召回实验来确定所需选取的种子帐户数,可保证依据所述目标名次区间和所述种子帐户数选取的种子帐户,能够更为准确地召回更多的相似帐户。

本公开实施例中的帐户召回方法,获取预设内容类型的n个种子帐户,其中,n为正整数;基于帐户之间的关注关系,确定所述n个种子帐户的第一粉丝集合;确定第一帐户的第二粉丝集合中属于所述第一粉丝集合的粉丝占比,其中,所述第一帐户为除所述n个种子帐户之外的任一帐户;召回粉丝占比大于预设阈值的第一帐户。这样,只需依靠部分创作内容类型一致的种子帐户,并基于帐户之间的关注关系,加以简单的数据分析,如分析粉丝占比情况,便可实现召回更多的创作同类型内容的帐户,该实现方式相比相关技术较为简单。

图3是根据一示例性实施例示出的一种帐户召回装置框图。参照图3,该帐户召回装置300包括获取模块301,第一确定模块302、第二确定模块303和第一召回模块304。

该获取模块301被配置为执行获取预设内容类型的n个种子帐户,其中,n为正整数;

该第一确定模块302被配置为执行基于帐户之间的关注关系,确定所述n个种子帐户的第一粉丝集合;

该第二确定模块303被配置为执行确定第一帐户的第二粉丝集合中属于所述第一粉丝集合的粉丝占比,其中,所述第一帐户为除所述n个种子帐户之外的任一帐户;

该第一召回模块304,被配置为执行召回粉丝占比大于预设阈值的第一帐户。

可选的,第一确定模块302包括:

第一获取单元,被配置为执行基于帐户之间的关注关系,获取所述n个种子帐户中每个种子帐户的粉丝集合,得到第三粉丝集合;

第一确定单元,被配置为执行基于所述n个种子帐户创作的内容类型,确定所述n个种子帐户的粉丝画像特征;

过滤单元,被配置为执行利用所述n个种子帐户的粉丝画像特征,去除所述第三粉丝集合中不具备所述粉丝画像特征的粉丝帐户,得到第一粉丝集合。

可选的,获取模块301包括:

第二获取单元,被配置为执行获取预设内容类型的m个样例帐户,m为大于或等于n的整数;

排序单元,被配置为执行对所述m个样例帐户按粉丝数量进行排序;

选取单元,被配置为执行从所述m个样例帐户中选取粉丝数量排序在目标名次区间的n个种子帐户。

可选的,帐户召回装置300还包括:

第三确定模块,被配置为执行确定l个不同预设名次,l为小于m的正整数;

第一选取模块,被配置为执行从所述m个样例帐户中,选取分别排序在所述l个不同预设名次中的第1至第l个预设名次的l个种子实验帐户;

第二召回模块,被配置为执行基于所述l个种子实验帐户中的每个种子实验帐户的粉丝集合,召回共同粉丝占比大于所述预设阈值的第二帐户,其中,所述第二帐户为除当前种子实验帐户之外的任一帐户;

第四确定模块,被配置为执行确定所述每个种子实验帐户的召回参数,并依据所述召回参数确定目标种子实验帐户,其中,所述召回参数包括召回量和召回精确度中的至少之一;

第五确定模块,被配置为执行依据所述目标种子实验帐户对应的目标预设名次,确定目标名次区间。

可选的,所述第二召回模块包括:

第二确定单元,被配置为执行确定第一种子实验帐户的粉丝集合,其中,所述第一种子实验帐户为所述l个种子实验帐户中的任一种子实验帐户;

第三确定单元,被配置为执行确定第二帐户的粉丝集合中属于所述第一种子实验帐户的粉丝集合的粉丝占比,其中,所述第二帐户为除所述第一种子实验帐户之外的任一帐户;

第一召回单元,被配置为执行召回粉丝占比大于所述预设阈值的第二帐户。

可选的,所述第五确定模块被配置为执行将所述目标预设名次的前k名至所述目标预设名次的后k名之间的名次区间确定为目标名次区间,k为正整数。

可选的,帐户召回装置300还包括:

第二选取模块,被配置为执行从所述m个样例帐户中选取粉丝数量排序在所述目标名次区间的q个种子实验帐户,q为正整数;

第三召回模块,被配置为执行基于所述q个种子实验帐户的粉丝集合,召回共同粉丝占比大于所述预设阈值的第三帐户,并确定当前召回质量,其中,所述第三帐户为除所述q个种子实验帐户之外的任一帐户;

第六确定模块,被配置为执行在第k次召回的情况下,确定当前召回质量相对上一次召回质量的下降幅度,其中,k为大于1的整数;

处理模块,被配置为执行在所述下降幅度未超过预设幅度的情况下,将所述q的值增大预设值,并重复上述从所述m个样例帐户中选取粉丝数量排序在所述目标名次区间的q个种子实验帐户,确定当前召回质量,以及确定当前召回质量相对上一次召回质量的下降幅度的步骤,直至所述下降幅度超过所述预设幅度;

第七确定模块,被配置为执行依据每一次的召回质量,确定召回质量最佳时q的取值,其中,召回质量最佳时q的取值为所述n的值。

可选的,第一召回模块304包括:

第四确定单元,被配置为执行将粉丝占比大于预设阈值的第一帐户确定为待召回帐户;

筛选单元,被配置为执行依据目标帐户特征对所述待召回帐户进行筛选,得到目标召回帐户;

第二召回单元,被配置为执行召回所述目标召回帐户。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本公开实施例中的帐户召回装置,获取预设内容类型的n个种子帐户,其中,n为正整数;基于帐户之间的关注关系,确定所述n个种子帐户的第一粉丝集合;确定第一帐户的第二粉丝集合中属于所述第一粉丝集合的粉丝占比,其中,所述第一帐户为除所述n个种子帐户之外的任一帐户;召回粉丝占比大于预设阈值的第一帐户。这样,只需依靠部分创作内容类型一致的种子帐户,并基于帐户之间的关注关系,加以简单的数据分析,如分析粉丝占比情况,便可实现召回更多的创作同类型内容的帐户,该实现方式相比相关技术较为简单。

图4是根据一示例性实施例示出的一种用于帐户召回装置400的框图。

参照图4,该帐户召回装置400包括:处理器401、存储器402和总线接口403。

处理器401,用于读取存储器402中的程序,执行下列过程:

获取预设内容类型的n个种子帐户,其中,n为正整数;

基于帐户之间的关注关系,确定所述n个种子帐户的第一粉丝集合;

确定第一帐户的第二粉丝集合中属于所述第一粉丝集合的粉丝占比,其中,所述第一帐户为除所述n个种子帐户之外的任一帐户;

召回粉丝占比大于预设阈值的第一帐户。

在图4中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器401代表的一个或多个处理器和存储器402代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口403提供接口。

处理器401负责管理总线架构和通常的处理,存储器402可以存储处理器401在执行操作时所使用的数据。

可选的,处理器401,还用于:

基于帐户之间的关注关系,获取所述n个种子帐户中每个种子帐户的粉丝集合,得到第三粉丝集合;

基于所述n个种子帐户创作的内容类型,确定所述n个种子帐户的粉丝画像特征;

利用所述n个种子帐户的粉丝画像特征,去除所述第三粉丝集合中不具备所述粉丝画像特征的粉丝帐户,得到第一粉丝集合。

可选的,处理器401,还用于:

获取预设内容类型的m个样例帐户,m为大于或等于n的整数;

对所述m个样例帐户按粉丝数量进行排序;

从所述m个样例帐户中选取粉丝数量排序在目标名次区间的n个种子帐户。

可选的,处理器401,还用于:

确定l个不同预设名次,l为小于m的正整数;

从所述m个样例帐户中,选取分别排序在所述l个不同预设名次中的第1至第l个预设名次的l个种子实验帐户;

基于所述l个种子实验帐户中的每个种子实验帐户的粉丝集合,召回共同粉丝占比大于所述预设阈值的第二帐户,其中,所述第二帐户为除当前种子实验帐户之外的任一帐户;

确定所述每个种子实验帐户的召回参数,并依据所述召回参数确定目标种子实验帐户,其中,所述召回参数包括召回量和召回精确度中的至少之一;

依据所述目标种子实验帐户对应的目标预设名次,确定目标名次区间。

可选的,处理器401,还用于:

确定第一种子实验帐户的粉丝集合,其中,所述第一种子实验帐户为所述l个种子实验帐户中的任一种子实验帐户;

确定第二帐户的粉丝集合中属于所述第一种子实验帐户的粉丝集合的粉丝占比,其中,所述第二帐户为除所述第一种子实验帐户之外的任一帐户;

召回粉丝占比大于所述预设阈值的第二帐户。

可选的,处理器401,还用于:

将所述目标预设名次的前k名至所述目标预设名次的后k名之间的名次区间确定为目标名次区间,k为正整数。

可选的,处理器401,还用于:

从所述m个样例帐户中选取粉丝数量排序在所述目标名次区间的q个种子实验帐户,q为正整数;

基于所述q个种子实验帐户的粉丝集合,召回共同粉丝占比大于所述预设阈值的第三帐户,并确定当前召回质量,其中,所述第三帐户为除所述q个种子实验帐户之外的任一帐户;

在第k次召回的情况下,确定当前召回质量相对上一次召回质量的下降幅度,其中,k为大于1的整数;

在所述下降幅度未超过预设幅度的情况下,将所述q的值增大预设值,并重复上述从所述m个样例帐户中选取粉丝数量排序在所述目标名次区间的q个种子实验帐户,确定当前召回质量,以及确定当前召回质量相对上一次召回质量的下降幅度的步骤,直至所述下降幅度超过所述预设幅度;

依据每一次的召回质量,确定召回质量最佳时q的取值,其中,召回质量最佳时q的取值为所述n的值。

可选的,处理器401,还用于:

将粉丝占比大于预设阈值的第一帐户确定为待召回帐户;

依据目标帐户特征对所述待召回帐户进行筛选,得到目标召回帐户;

召回所述目标召回帐户。

帐户召回装置400能够实现前述实施例中的各个过程,为避免重复,这里不再赘述。

在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,上述指令可由帐户召回装置400的处理器401执行以完成上述方法。可选地,计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

在示例性实施例中,还提供一种计算机程序产品,包括计算机程序,当所述计算机程序被处理器执行时实现上述帐户召回方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1