一种扩散种子用户的方法及装置的制造方法

文档序号:10570545
一种扩散种子用户的方法及装置的制造方法
【专利摘要】本发明涉及一种扩散种子用户的方法及装置,其中所述方法包括:根据网络平台中全量用户的属性信息和正样本点的属性信息构造出负样本点;根据所述正样本点和所述负样本点来训练扩散模型;以及根据所述全量用户的属性信息,按照所述扩散模型,从所述全量用户中提取扩散用户。根据本发明实施例的扩散种子用户的方法及装置能够提高种子用户的扩散精度,使得扩散用户与种子用户人群特征类似。
【专利说明】
_种扩散种子用户的方法及装置
技术领域
[0001] 本发明涉及互联网大数据处理领域,尤其涉及一种扩散种子用户的方法及装置。
【背景技术】
[0002] 网络平台在推出新产品时,往往需要精准定位有效用户,从而带来推广成本降低 和效率提升。一般会利用小流量产生少量种子人群,通过分析种子人群的静态和行为特征, 从而指导更大规模的投放。种子用户的选取对于新产品的运营和投放至关重要,而种子用 户覆盖的特征越全面,则越有利于新产品的推广。
[0003] 然而,在新产品推出初期,获取种子人群的窗口时间是有限的,收集到的种子人群 也是有限的,所以,往往在获取了一定数目的种子用户之后,对种子用户进行扩散,以得到 更多的种子用户。
[0004] 目前对种子用户进行扩散的常用方法是:首先提取种子用户的主要特征、例如用 户年龄、性别、职业、教育水平和兴趣爱好等,然后根据所提取的种子用户的主要特征,利用 特征距离相似性来获取与种子用户相像的用户,将这些用户作为扩散用户。
[0005] 这种利用特征相似性进行种子用户扩散的方法在提取种子用户的哪些特征、选取 多少数量的特征等方面,没有较为系统的策略,全站用户趋同性的行为对于相似性计算干 扰非常大,所以实施起来通常需要人工干预,有可能导致获取到的扩散用户并不能起到类 似于种子用户的作用,另外,这种方法也不利于对种子用户扩散的规模进行控制。

【发明内容】

[0006] 技术问题
[0007] 有鉴于此,本发明要解决的技术问题是,如何提高种子用户的扩散精度。
[0008] 解决方案
[0009] 为了解决上述技术问题,根据本发明的一个方面,提供了一种扩散种子用户的方 法,包括:根据网络平台中全量用户的属性信息和正样本点的属性信息构造出负样本点;根 据所述正样本点和所述负样本点来训练扩散模型;以及根据所述全量用户的属性信息,按 照所述扩散模型,从所述全量用户中提取扩散用户。
[0010] 对于上述方法,在一种可能的实现方式中,所述正样本点为预定时间段内参与所 述网络平台推出的产品的种子用户。
[0011] 对于上述方法,在一种可能的实现方式中,所述网络平台推出的产品包括:广告、 多媒体资源、话题和应用软件中的至少一个;以及参与所述网络平台推出的产品包括:向好 友分享、转发、评论以及向所述网络平台反馈所述产品中的至少一个。
[0012] 对于上述方法,在一种可能的实现方式中,所述负样本点为不会参与所述网络平 台推出的产品的用户,构造出所述负样本点包括:从所述全量用户中排除属性信息与所述 正样本点的属性信息相同或相近的用户,以得到所述负样本点。
[0013] 对于上述方法,在一种可能的实现方式中,所述扩散模型为如下函数:f(Xl)=p(yi =1IX1,0);其中,X1是对所述全量用户中的第i个用户的属性信息进行量化后的数值,f( xl) 用于表示所述第i个用户为所述扩散用户的概率,9是所述属性信息的权重,yi = l表示所述 第i个用户为所述扩散用户;从所述全量用户中提取扩散用户包括:将所述全量用户的属性 信息输入所述扩散模型,将输出大于设定阈值的用户确定为所述扩散用户。
[0014] 对于上述方法,在一种可能的实现方式中,所述属性信息包括:静态属性和动态属 性;根据所述全量用户在所述网络平台上注册的信息数据,来提取所述全量用户的静态属 性,所述静态属性包括:年龄、性别、职业、教育水平和兴趣爱好中的至少一个;以及根据所 述全量用户在所述网络平台上进行的行为数据,来提取所述全量用户的动态属性,所述动 态属性包括:兴趣爱好、最常关注和活跃度中的至少一个。
[0015] 为了解决上述技术问题,根据本发明的又一个方面,提供了一种扩散种子用户的 装置,包括:样本构建模块,用于根据网络平台中全量用户的属性信息和正样本点的属性信 息构造出负样本点;模型构建模块,与所述样本构建模块连接,用于根据所述正样本点和所 述负样本点来训练扩散模型;以及扩散模块,与所述模型构建模块连接,用于根据所述全量 用户的属性信息,按照所述扩散模型,从所述全量用户中提取扩散用户。
[0016] 对于上述装置,在一种可能的实现方式中,所述正样本点为预定时间段内参与所 述网络平台推出的产品的种子用户。
[0017] 对于上述装置,在一种可能的实现方式中,所述网络平台推出的产品包括:广告、 多媒体资源、话题和应用软件中的至少一个;以及参与所述网络平台推出的产品包括:向好 友分享、转发、评论以及向所述网络平台反馈所述产品中的至少一个。
[0018] 对于上述装置,在一种可能的实现方式中,所述负样本点为不会参与所述网络平 台推出的产品的用户,所述样本构建模块具体用于:从所述全量用户中排除属性信息与所 述正样本点的属性信息相同或相近的用户,以得到所述负样本点。
[0019] 对于上述装置,在一种可能的实现方式中,所述扩散模型为如下函数:f(Xl)=p(yi =1IX1,0);其中,X1是对所述全量用户中的第i个用户的属性信息进行量化后的数值,f( xl) 用于表示所述第i个用户为所述扩散用户的概率,0是所述属性信息的权重,yi = l表示所述 第i个用户为所述扩散用户;所述扩散模块具体用于:将所述全量用户的属性信息输入所述 扩散模型,将输出大于设定阈值的用户确定为所述扩散用户。
[0020] 有益效果
[0021]通过根据网络平台中全量用户的属性信息和正样本点的属性信息,构造出负样本 点,然后根据所述正样本点和所述负样本点来训练扩散模型,从而根据所述全量用户的属 性信息,按照所述扩散模型,能够从所述全量用户中提取扩散用户。根据本发明实施例的扩 散种子用户的方法及装置能够提高种子用户的扩散精度,使得扩散用户与种子用户人群特 征特征类似。
[0022] 根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得 清楚。
【附图说明】
[0023] 包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的 示例性实施例、特征和方面,并且用于解释本发明的原理。
[0024] 图1示出根据本发明一实施例的扩散种子用户的方法的流程图;
[0025] 图2示出根据本发明另一实施例的扩散种子用户的方法的流程图;
[0026] 图3示出根据本发明又一实施例的扩散种子用户的方法的流程图;
[0027] 图4示出根据本发明一实施例的扩散种子用户的装置的结构示意图。
【具体实施方式】
[0028] 以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同 的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除 非特别指出,不必按比例绘制附图。
[0029] 在这里专用的词"示例性"意为"用作例子、实施例或说明性"。这里作为"示例性" 所说明的任何实施例不必解释为优于或好于其它实施例。
[0030] 另外,为了更好的说明本发明,在下文的【具体实施方式】中给出了众多的具体细节。 本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于 本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。
[0031] 实施例1
[0032] 图1示出根据本发明一实施例的扩散种子用户的方法的流程图。如图1所示,该方 法主要包括:
[0033] 步骤S100、根据网络平台中全量用户的属性信息和正样本点的属性信息,构造出 负样本点;其中,网络平台可以是互联网网站或者应用软件,全量用户可以包括在该网络平 台上注册的所有用户和访问过该网络平台的所有用户。
[0034] 企业或者个人在推出新产品时,往往借助网络平台发布,通过种子用户试用并向 网络平台反馈关于新产品的意见或建议,使得企业或个人对该新产品进行改进,以使得新 产品能够尽可能快地被推广和使用。由此可见,种子用户对于新产品的运营和投放至关重 要。
[0035] 在一种可能的实现方式中,所述正样本点为预定时间段内参与所述网络平台推出 的产品的种子用户。所述网络平台推出的产品包括:广告、多媒体资源、话题和应用软件中 的至少一个。参与所述网络平台推出的产品包括:向好友分享、转发、评论以及向所述网络 平台反馈所述产品中的至少一个。可以通过以下方法来选择种子用户,例如,网络平台新发 布了一则广告,统计一天内对该广告进行了评论或者转发的用户,将这些用户作为种子用 户。一般情况下,若某用户仅浏览了该广告,而并未进行其它行为,则该用户并不是种子用 户。当然,预定时间段不限于上述的一天,可以根据获取的种子用户的数量灵活增加或减小 预定时间段。
[0036] 步骤S200、根据所述正样本点和所述负样本点来训练扩散模型;所述负样本点为 不会参与所述网络平台推出的产品的用户。这样,通过参与了网络平台推出的产品的用户 和不会参与网络平台推出的产品的用户来确定扩散模型,能够使得确定出的扩散模型更精 确。
[0037] 步骤S300、根据所述全量用户的属性信息,按照所述扩散模型,从所述全量用户中 提取扩散用户。其中,扩散用户为有可能会参与网络平台推出的产品的用户,扩散用户参与 网络平台推出的产品的可能性越大,则种子用户的扩散精度越高,种子用户的扩散也越成 功。
[0038] 在一种可能的实现方式中,所述扩散模型为如下函数:以11)=1)(71 = 1|11,0);其 中,Xl是对所述全量用户中的第i个用户的属性信息进行量化后的数值,f( Xl)用于表示所述 第i个用户为所述扩散用户的概率,9是所述属性信息的权重,yi = l表示所述第i个用户为 所述扩散用户。P(yi = l|Xl,9)所表示的是如下含义,即在对所述全量用户中的第i个用户的 属性信息进行量化后的数值为^、并且所述第i个用户的各个属性信息的权重为9的情况 下,该第i个用户为扩散用户的概率。其中,若第i个用户的属性信息有N个,则 XdP0分别都 具有N个分量。步骤S300具体可以为:将所述全量用户的属性信息输入所述扩散模型,将输 出大于设定阈值的用户确定为所述扩散用户。该设定阈值越高,则提取出的扩散用户参与 网络平台推出的产品的可能性越大,但是所能够提取出的扩散用户的数量可能越小,因此 可以根据实际需要灵活设置阈值,从而能够实现对扩散用户规模的控制。
[0039] 在一种可能的实现方式中,所述属性信息可以包括静态属性和动态属性。所述静 态属性包括:年龄、性别、职业、教育水平和兴趣爱好中的至少一个,可以根据全量用户在网 络平台上注册的信息数据,来提取全量用户的静态属性;动态属性包括:兴趣爱好、最常关 注和活跃度中的至少一个,可以根据全量用户在网络平台上进行的行为数据,来提取全量 用户的动态属性。其中,全量用户在网络平台上进行的行为数据可以包括其访问和订阅的 网络平台所提供的内容、以及其在网络平台上发布的内容等,可以据此获取全量用户的兴 趣爱好和最常关注等属性,另外,全量用户在网络平台上进行的行为数据还可以包括其登 录网络平台的频率、以及其参与网络平台提供的内容的频率等,可以据此获取全量用户的 活跃度。
[0040] 需要说明的是,由于兴趣爱好有可能会随着时间而改变,用户在网络平台上注册 的兴趣爱好与根据其在网络平台上进行的行为数据所提取出的兴趣爱好有可能不同,例如 用户在注册时填写的兴趣爱好是体育,但是其经常浏览与电子产品有关的内容而认为其兴 趣爱好可能是电子产品,因此可以将兴趣爱好既作为静态属性又作为动态属性同时提取。
[0041] 另外,上述的扩散模型中的变量Xl可以是一个N行1列的向量,每行包括属性信息 的一个特征,例如年龄、兴趣爱好、最常关注等。权重9也可以是一个N行1列的向量,各行分 别对应属性信息的各个特征的权重。将正样本点的输出f( Xl)设置为最大值,将负样本点的 输出f(Xl)设置为最小值,通过正样本点和负样本点的属性信息对扩散模型进行训练,最终 得到较为精确的权重9。
[0042]以分类器logistic Regression为例,可以通过如下步骤来构造扩散模型:步骤 (1)、首先构造损失函数:1〇%(〇) = 1].>',1<^(1(')) + (卜-)/',)丨(^〇-1(')),其中,11表示全量用 户的数目,f(Xl)是前面所述的用于表示第i个用户为所述扩散用户的概率;步骤(2)、采用 梯度下降的方式进行优化,常见的方法有gradient descent/L-BFGS等,通过优化可以得出 9参数,从而最终得到扩散模型:/(』?)= -如在上述步骤S300中所述地,可以通过调 1 + e 节设定阈值来对扩散用户的规模进行控制,将设定阈值调节得越大,则扩散的标准越严格, 反之则表示扩散的标准越松散。
[0043]需要说明的是,上述的扩散模型仅为示例,还可以采用其它常用的训练方法来构 造扩散模型,所得到的扩散模型f(x)将根据训练用的分类器的不同而不同。
[0044] 这样,通过根据正样本点和负样本点来生成扩散模型,并利用全量用户的属性信 息,根据该扩散模型从全量用户中提取出扩散用户,根据本发明上述实施例的扩散种子用 户的方法能够提高种子用户的扩散精度,使得扩散用户与种子用户人群特征类似。
[0045] 实施例2
[0046] 图2示出根据本发明另一实施例的扩散种子用户的方法的流程图。图2中标号与图 1相同的组件具有相同的功能,为简明起见,省略对这些组件的详细说明。
[0047] 由于很难直接定位到不符合预期的用户群、也即不会参与网络平台推出的产品的 用户,所以不容易直接找出负样本点。本实施例利用一种组合方法从全量用户中挑选出不 符合种子用户特征的用户群,并将其标记为负样本点。具体地,如图2所示,图1所示的构造 出负样本点的步骤S100可以包括:
[0048]步骤S110、从全量用户中排除属性信息与所述正样本点的属性信息相同或相近的 用户,以得到候选用户;其中,与所述正样本点的属性信息相同或相近的用户可以是如下用 户:与表示正样本点的种子用户在内容上喜好相同的用户、与种子用户在订阅行为上相似 的用户、以及与种子用户主要特征相似的用户。
[0049] 具体地,如图3所示,可以通过以下步骤挑选出要从全量用户中过滤的用户:
[0050] 3.1、通过用户访问的内容的数据,找到与种子用户在内容上喜好相同的用户,并 标记为内容过滤用户;
[0051] 3.2、通过用户的订阅数据,找到与种子用户在订阅行为上相似的用户,并标记为 订阅过滤用户;
[0052] 3.3、通过计算特征信息熵的方法,选取种子用户信息熵突出的特征,通过这些特 征挑选出与种子用户主要特征相似的用户,将其标记为特征过滤用户。具体地,首先对全量 用户进行聚合投影,可以得出标签i的人数<4,在全量用户中所占的比例为j4d,接下来对 种子用户进行投影,可以得出种子用户中标签i的人数c:以及比例i^ d,那么可以将标签i 的特征熵(类似FOIL信息熵增益)定义为:e:Led =c_t|>gP_i -_l〇gP:ut;),通过这个值的大小 来确定主要特征。一般选取该值较大的一些特征作为主要特征,主要特征可以包括在前述 的用户属性信息中。
[0053]然后,从全量用户中排除已经标记的内容过滤用户、订阅过滤用户、特征过滤用户 以及种子用户,从剩下的用户中采用随机策略生成负样本点。即步骤S120、从所述候选用户 (即上述的剩下的用户)中,抽取出预定数量的用户作为所述负样本点。由于候选用户的数 量较多,而往往不需要那么多的负样本点,因此,从候选用户中抽取根据实际需要数量的负 样本点。
[0054]当然,根据实际应用场景,也可以从所述全量用户中排除属性信息与所述正样本 点的属性信息相同或相近的用户,将剩下的用户均作为负样本点。
[0055]在一种可能的实现方式中,可以根据已经产生的正样本点和负样本点,采用线性 分类器进行训练,生成最终的扩散模型,从而将用于扩散种子用户的扩散模型转化为较为 简单的分类模型,同时利用本实例所述的组合方法生成用于确定分类模型的负样本点,从 而能够在扩散过程中不需要关注特征选取,能够有效利用全部特征的信息。另外,利用扩散 模型对全量用户进行分类,可以通过调节模型的阈值大小来灵活控制扩散用户的数量。
[0056] 根据本发明上述实施例的扩散种子用户的方法能够提高种子用户的扩散精度,使 得扩散用户与种子用户人群特征类似,并能够实现对扩散用户规模的控制。从而通过种子 用户和扩散用户的传播和反馈,提高了网络平台投放产品的精度,带来产品运行和投放效 率的提升。
[0057] 实施例3
[0058]图4示出根据本发明一实施例的扩散种子用户的装置400的结构示意图。如图4所 示,该装置主要包括:样本构建模块410、模型构建模块420和扩散模块430。其中,样本构建 模块410用于根据网络平台中全量用户的属性信息和正样本点的属性信息构造出负样本 点;模型构建模块420与样本构建模块410连接,用于根据所述正样本点和所述负样本点来 训练扩散模型;扩散模块430与模型构建模块420连接,用于根据所述全量用户的属性信息, 按照所述扩散模型,从所述全量用户中提取扩散用户。
[0059] 在一种可能的实现方式中,所述正样本点为预定时间段内参与所述网络平台推出 的产品的种子用户。所述网络平台推出的产品包括:广告、多媒体资源、话题和应用软件中 的至少一个;参与所述网络平台推出的产品包括:向好友分享、转发、评论以及向所述网络 平台反馈所述产品中的至少一个。
[0060] 在一种可能的实现方式中,所述负样本点为不会参与所述网络平台推出的产品的 用户,样本构建模块410具体用于:从所述全量用户中排除属性信息与所述正样本点的属性 信息相同或相近的用户,以得到所述负样本点。
[0061] 在一种可能的实现方式中,所述扩散模型为如下函数:以11)=1)(71 = 1|11,0);其 中,Xl是对所述全量用户中的第i个用户的属性信息进行量化后的数值,f( Xl)用于表示所述 第i个用户为所述扩散用户的概率,9是所述属性信息的权重,yi = l表示所述第i个用户为 所述扩散用户;扩散模块430具体用于:将所述全量用户的属性信息输入所述扩散模型,将 输出大于设定阈值的用户确定为所述扩散用户。
[0062]根据本实施例的样本构建模块410、模型构建模块420和扩散模块430的具体实现 机理可以参考实施例1和2中对步骤S110至步骤S130的描述,并且根据本实施例的扩散种子 用户的装置400能够实现与实施例1和2所述方法相同的有益效果。即够提高种子用户的扩 散精度,使得扩散用户与种子用户人群特征类似,并能够实现对扩散用户规模的控制。从而 通过种子用户和扩散用户的传播和反馈,提高了网络平台投放产品的精度,带来产品运行 和投放效率的提升。
[0063]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
【主权项】
1. 一种扩散种子用户的方法,其特征在于,包括: 根据网络平台中全量用户的属性信息和正样本点的属性信息构造出负样本点; 根据所述正样本点和所述负样本点来训练扩散模型;以及 根据所述全量用户的属性信息,按照所述扩散模型,从所述全量用户中提取扩散用户。2. 根据权利要求1所述的方法,其特征在于,所述正样本点为预定时间段内参与所述网 络平台推出的产品的种子用户。3. 根据权利要求2所述的方法,其特征在于, 所述网络平台推出的产品包括:广告、多媒体资源、话题和应用软件中的至少一个;以 及 参与所述网络平台推出的产品包括:向好友分享、转发、评论以及向所述网络平台反馈 所述产品中的至少一个。4. 根据权利要求1所述的方法,其特征在于,所述负样本点为不会参与所述网络平台推 出的产品的用户,构造出所述负样本点包括: 从所述全量用户中排除属性信息与所述正样本点的属性信息相同或相近的用户,以得 到所述负样本点。5. 根据权利要求1所述的方法,其特征在于,所述扩散模型为如下函数:f (Xi )= p (yi = 1 Χι,θ);其中,X1是对所述全量用户中的第i个用户的属性信息进行量化后的数值,以^)用 于表示所述第i个用户为所述扩散用户的概率,Θ是所述属性信息的权重,yi = l表示所述第 i个用户为所述扩散用户;从所述全量用户中提取扩散用户包括:将所述全量用户的属性信 息输入所述扩散模型,将输出大于设定阈值的用户确定为所述扩散用户。6. 根据权利要求1所述的方法,其特征在于,所述属性信息包括:静态属性和动态属性; 根据所述全量用户在所述网络平台上注册的信息数据,来提取所述全量用户的静态属性, 所述静态属性包括:年龄、性别、职业、教育水平和兴趣爱好中的至少一个;以及 根据所述全量用户在所述网络平台上进行的行为数据,来提取所述全量用户的动态属 性,所述动态属性包括:兴趣爱好、最常关注和活跃度中的至少一个。7. -种扩散种子用户的装置,其特征在于,包括: 样本构建模块,用于根据网络平台中全量用户的属性信息和正样本点的属性信息构造 出负样本点; 模型构建模块,与所述样本构建模块连接,用于根据所述正样本点和所述负样本点来 训练扩散模型;以及 扩散模块,与所述模型构建模块连接,用于根据所述全量用户的属性信息,按照所述扩 散模型,从所述全量用户中提取扩散用户。8. 根据权利要求7所述的装置,其特征在于,所述正样本点为预定时间段内参与所述网 络平台推出的产品的种子用户。9. 根据权利要求8所述的装置,其特征在于, 所述网络平台推出的产品包括:广告、多媒体资源、话题和应用软件中的至少一个;以 及 参与所述网络平台推出的产品包括:向好友分享、转发、评论以及向所述网络平台反馈 所述产品中的至少一个。10. 根据权利要求7所述的装置,其特征在于,所述负样本点为不会参与所述网络平台 推出的产品的用户,所述样本构建模块具体用于: 从所述全量用户中排除属性信息与所述正样本点的属性信息相同或相近的用户,以得 到所述负样本点。11. 根据权利要求7所述的装置,其特征在于,所述扩散模型为如下函数:f(Xl)=p(yi = 1|Χ1,Θ);其中,Xl是对所述全量用户中的第i个用户的属性信息进行量化后的数值,以^)用 于表示所述第i个用户为所述扩散用户的概率,Θ是所述属性信息的权重, yi = l表示所述第 i个用户为所述扩散用户;所述扩散模块具体用于:将所述全量用户的属性信息输入所述扩 散模型,将输出大于设定阈值的用户确定为所述扩散用户。
【文档编号】G06Q30/02GK105931079SQ201610282514
【公开日】2016年9月7日
【申请日】2016年4月29日
【发明人】汪飞, 王必尧, 尹玉宗, 姚键, 潘柏宇, 王冀
【申请人】合网络技术(北京)有限公司, 合一网络技术(北京)有限公司
再多了解一些
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1