一种特征聚类的方法及装置的制造方法

文档序号:10687196阅读:148来源:国知局
一种特征聚类的方法及装置的制造方法
【专利摘要】本发明公开了一种特征聚类的方法,包括:获取帐号信息,以及与所述帐号信息对应的属性信息;对所述帐号信息,以及与所述帐号信息对应的属性信息进行预处理,得到模型输入数据;利用主题模型算法,对所述模型输入数据进行处理,得到所述帐号信息所包含的各主题的概率,每个主题的概率对应一个特征;利用聚类算法对所述帐号信息所包含的特征进行聚类。本发明实施例提供的特征聚类的方法,可以对帐号信息以及与该帐号信息对应的属性信息,通过主题概率的方式进行聚类,不仅能够有效避免了漫长的特征探索过程,还能有效减少特征维度过多的问题,从而提高了特征聚类的效率。
【专利说明】
一种特征聚类的方法及装置
技术领域
[0001 ]本发明涉及计算机技术领域,具体涉及一种特征聚类的方法及装置。
【背景技术】
[0002] 随着互联网技术的高速发展,网络上应用的种类越来越多,以社交应用为例,目前 的社交应用不仅能提供用户间的在线交流,还可以为用户推送各种类型的内容。
[0003] 例如:社交应用中可以开通各种类型的公众号,用户可以通过关注自己喜欢的公 众号进行订阅,这样,当该公众号下有新文章发表时,就会将该新文章推送给该用户,从而 有利于用户及时收看到新文章。
[0004] 因为一个公众号可以被众多用户订阅,一个用户也可以订阅多个公众号,因此,为 了更好的分析每个公众号的用户群体,或者用户对公众号的倾向性喜好,通常需要对公众 号或者用户进行聚类。
[0005] 现有技术中的聚类方法通常是对每个样本设定不同维度的特征,但是不同维度的 特征往往需要相应领域的知识才能完成设置,而且特征探索是个很漫长的过程,特征可能 会很多,因此容易导致特征维度灾难,导致特征聚类效率低下。

【发明内容】

[0006] 为解决现有技术中通过不同维度特征设定的方式进行特征聚类,导致特征聚类效 率低下的问题,本发明实施例提供一种特征聚类的方法,可以对帐号信息以及与该帐号信 息对应的属性信息,通过主题概率的方式进行聚类,不仅能够有效避免了漫长的特征探索 过程,还能有效减少特征维度过多的问题,从而提高了特征聚类的效率。本发明实施例还提 供了相应的聚类装置。
[0007] 本发明第一方面提供一种特征聚类的方法,包括:
[0008] 获取帐号信息,以及与所述帐号信息对应的属性信息;
[0009]对所述帐号信息,以及与所述帐号信息对应的属性信息进行预处理,得到模型输 入数据;
[0010] 利用主题模型算法,对所述模型输入数据进行处理,得到所述帐号信息所包含的 各主题的概率,每个主题的概率对应一个特征;
[0011] 利用聚类算法对所述帐号信息所包含的特征进行聚类。
[0012] 本发明第二方面提供一种特征聚类的装置,包括:
[0013] 获取单元,用于获取帐号信息,以及与所述帐号信息对应的属性信息;
[0014] 预处理单元,用于对所述获取单元获取的帐号信息,以及与所述帐号信息对应的 属性信息进行预处理,得到模型输入数据;
[0015] 处理单元,用于利用主题模型算法,对所述预处理单元得到的模型输入数据进行 处理,得到所述帐号信息所包含的各主题的概率,每个主题的概率对应一个特征;
[0016] 聚类单元,用于利用聚类算法对所述处理单元得到的所述帐号信息所包含的特征 进行聚类。
[0017] 与现有技术中通过不同维度特征设定的方式进行特征聚类,导致特征聚类效率低 下相比,本发明实施例提供的特征聚类的方法,可以对帐号信息以及与该帐号信息对应的 属性信息,通过主题概率的方式进行聚类,不仅能够有效避免了漫长的特征探索过程,还能 有效减少特征维度过多的问题,从而提高了特征聚类的效率。
【附图说明】
[0018] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附 图。
[0019] 图1是本发明实施例中特征聚类的方法的一实施例示意图;
[0020]图2是本发明实施例中特征聚类的方法的另一实施例示意图;
[0021] 图3是本发明实施例中特征聚类的方法的另一实施例示意图;
[0022] 图4是本发明实施例中特征聚类的装置的一实施例示意图;
[0023] 图5是本发明实施例中服务器的一实施例示意图。
【具体实施方式】
[0024] 本发明实施例提供一种特征聚类的方法,可以对帐号信息以及与该帐号信息对应 的属性信息,通过主题概率的方式进行聚类,不仅能够有效避免了漫长的特征探索过程,还 能有效减少特征维度过多的问题,从而提高了特征聚类的效率。本发明实施例还提供了相 应的聚类装置。以下分别进行详细说明。
[0025]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
[0026] 为了便于理解本发明实施例中的内容,下面针对本发明实施例所涉及到的名词做 下简单介绍。
[0027] 帐号信息:指的是用于表示帐号的信息,可以包括网络虚拟服务帐号,以及在网络 虚拟服务平台中的用户注册帐号等。
[0028] 网络虚拟服务帐号:指的是在网络虚拟服务平台中注册的公众号。
[0029]用户注册帐号:指的是用户的社交应用的帐号。
[0030] 帐号信息对应的属性信息:指的是与该帐号信息呈树形结构的信息。
[0031] 例如:在本发明实施例中,当帐号信息为网络虚拟服务帐号时,则网络虚拟服务帐 号对应的属性信息为订阅该网络虚拟服务帐号下的用户信息,包括,用户帐号。
[0032] 当帐号信息为在网络虚拟服务平台中的用户注册帐号时,则用户注册帐号对应的 属性信息为该用户帐号所关注的网络虚拟服务帐号。
[0033] 主题模型算法:(英文全称Latent Dirichlet Allocation,英文简称"LDA"),主题 模型顾名思义就是对文字中隐含主题的一种建模方法,主题模型可以用公式
[0034]上述主题模型的公式是以文档的形式表示的,其中,p(词语|文档)表示每篇文档 中每个词语出现的概率,P(词语I主题)表示每个主题中每个词语出现的概率,P(主题I文 档)表示的是每篇文档中各个主题出现的概率。
[0035] 若用矩阵的形式表示,上述模型公式还可以表示为C=〇*?。
[0036]其中C、〇和?都是矩阵,当以文章为例时,其中,C表示每篇文档中每个词语出现 的概率,也就是P(词语I文档),〇表示每个主题中每个词语出现的概率P(词语I主题),?表 示的是每篇文档中各个主题出现的概率P(主题I文档)。
[0037] 主题就是词汇表上词语的条件概率分布,每个主题的概率对应一个特征,例如:例 如:在一个场景中,p(笔记本I百度)=0.000001,p(笔记本I联想)=0.2,则0.000001对应的 特征为百度,0.2对应的特征为联想。
[0038] 特征聚类:就是将相似的特征聚集到一个类中。
[0039] 聚类过程可以是首先从n个数据对象中任意选择k个对象作为初始聚类中心,k小 于n,而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分 配给与其最相似的(聚类中心所代表的)聚类;然后再计算该聚类中所有对象的均值,获得 新聚类的聚类中心,不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方 差作为标准测度函数。
[0040] 其中,k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的 分开。
[0041 ]用数学方式表示可以为:
[0042] 步骤 1:输入:k,data[n];
[0043] 步骤2、选择k个初始中心点,例如c[0] =data[0],…c[k_l] =data[k_l];
[0044] 步骤3、对于data[0]." .data[n],分别与c[0]…c[k_l]比较,假定与c差值最少,就 标记为i;
[0045]步骤4、对于所有标记为i点,重新计算c={所有标记为i的data[j]之和}/标记为i 的个数;
[0046]重复(3) (4),直到所有c值的变化小于给定阈值。
[0047]以上是对本发明实施例所涉及到的相关名称的介绍,下面结合【附图说明】本发明实 施例中特征聚类的方法的实施例。
[0048]需要说明的是,实现本发明实施例特征聚类的装置可以是一个独立的物理机,也 可以是多个物理机所组成的物理机集群,还可以是多个依靠从物理资源中所划分出来的虚 拟机。服务器属于物理机的一种表现形式。
[0049] 图1为本发明实施例中特征聚类的方法的一实施例示意图,
[0050] 如图1所示,本发明实施例所提供的特征聚类的方法的一实施例包括:
[0051 ] 101、获取帐号信息,以及与所述帐号信息对应的属性信息。
[0052] 当帐号信息为网络虚拟服务帐号时,与所述帐号信息对应的属性信息可以为关注 该网络虚拟服务帐号的用户注册帐号。
[0053] 例如:当网络虚拟服务帐号为公众号时,与所述帐号信息对应的属性信息可以为 订阅该公众号的用户注册帐号,当然与所述帐号信息对应的属性信息不限于订阅该公众号 的用户注册帐号,还可以包括订阅用户数量,活跃用户数量,以及互动粉丝数量等。
[0054] 当帐号信息为在网络虚拟服务平台中的用户注册帐号时,与所述帐号信息对应的 属性信息可以为该用户注册帐号所订阅的网络虚拟服务帐号,
[0055] 例如:该用户注册帐号所关注的公众号,用户注册帐号所关注的公众号可以从公 众号平台上面采集了每个用户所订阅的公众号列表中查找。当然与所述帐号信息对应的属 性信息不限于该用户所关注的公众号,还可以包括用户给每个微信公众号发送的上行消息 数目、支付次数、查看文章次数以及点击菜单次数等等。
[0056] 102、对所述帐号信息,以及与所述帐号信息对应的属性信息进行预处理,得到模 型输入数据。
[0057]预处理的过程可以是帐号信息与属性信息之间的格式生成,以及数据的过滤。 [0058] 103、利用主题模型算法,对所述模型输入数据进行处理,得到所述帐号信息所包 含的各主题的概率,每个主题的概率对应一个特征。
[0059] 利用主题模型算法,对所述模型输入数据进行处理可以利用公式
或者公式c= 〇*@对模型输入数据进行 处理,得到每个主题的概率,从而确定每个主题对应的特征。
[0060] 104、利用聚类算法对所述帐号信息所包含的特征进行聚类。
[0061] 聚类的过程可以参阅名词解释部分的描述:
[0062] 步骤 1:输入:k,data[n];
[0063] 步骤2、选择k个初始中心点,例如c[0] =data[0],…c[k_l] =data[k_l];
[0064] 步骤3、对于data[0]'" .data[n],分别与c[0]…c[k_l]比较,假定与c差值最少,就 标记为i;
[0065]步骤4、对于所有标记为i点,重新计算c={所有标记为i的data[j]之和}/标记为i 的个数;
[0066]重复(3) (4),直到所有c值的变化小于给定阈值。
[0067]用该过程实现特征聚类,只是在本发明实施例中,输入的数据为帐号信息。
[0068] 与现有技术中通过不同维度特征设定的方式进行特征聚类,导致特征聚类效率低 下相比,本发明实施例提供的特征聚类的方法,可以对帐号信息以及与该帐号信息对应的 属性信息,通过主题概率的方式进行聚类,不仅能够有效避免了漫长的特征探索过程,还能 有效减少特征维度过多的问题,从而提高了特征聚类的效率。
[0069] 可选地,在上述实施例所描述的内容的基础上,本发明实施例所提供的特征聚类 的方法的另一实施例中,所述帐号信息为网络虚拟服务帐号,则所述对所述帐号信息,以及 与所述帐号信息对应的属性信息进行预处理,得到模型输入数据,可以包括:
[0070] 对所述网络虚拟服务帐号,以及与所述网络虚拟服务帐号对应的属性信息进行预 处理,得到模型输入数据。
[0071] 进一步的,所述对所述网络虚拟服务帐号,以及与所述网络虚拟服务帐号对应的 属性信息进行预处理,得到模型输入数据,可以包括:
[0072] 生成网络虚拟服务帐号与订阅所述网络虚拟服务帐号的用户注册帐号之间的对 应关系;
[0073] 过滤掉用户注册帐号不满足预置条件的所述对应关系。
[0074] 本发明实施例中,网络虚拟服务帐号和用户注册帐号之间的对应关系可以通过关 系列表的形式来表不。
[0075] 如表1所示,公众号和订阅该公众号的注册用户之间的对应关系表可以为:
[0078]如表1所示,公众号"知产力"与关注"知产力"的注册用户之间的对应关系可以用 例如表1的形式来表示,当然表1只是举例,实际上,大多数公众号都会有大量的注册用户关 注。
[0079]另外,需要说明的一点是,本发明实施例中的粉丝指的也是注册用户,有的地方使 用了粉丝,有的地方使用了注册用户,只是接合具体的场景做的直白化表述,但不应将注册 用户和粉丝做不同理解。
[0080] 下面结合图2描述当帐号信息为网络虚拟服务帐号时,本发明实施例所提供的特 征聚类的方法的过程。
[0081] 如图2所示,以公众号为例,本发明实施例所提供的特征聚类的方法的另一实施例 包括:
[0082] 201、从公众号平台上采集每个公众号,以及每个公众号对应的属性信息。
[0083] 公众号对应的属性信息包括订阅每个公众号的用户注册帐号,还包括但不限反应 公众号规模的订阅用户数、活跃用户数、互动用户数等数据。
[0084] 202、对每个公众号下的用户数据进行预处理。
[0085]预处理的过程包括:生成预处理数据Data,格式可以为:公众号\丨对应公众号的用 户注册帐号列表。
[0086] 生成公众号的用户注册帐号列表后,对列表中的数据做过滤清洗:
[0087] 对数据做过滤清洗需要从两方面进行,一方面是从公众号的角度进行过滤清洗, 另一方面是从用户的角度进行过滤清洗。
[0088] 从统计分布的角度上来说,一个数据集合中,特别大的数据和特别小的数据都不 适合统计,所以清洗数据需要清洗掉数据集合中特别大的数据和特别小的数据,关于特别 大的数据和特别小的数据的清洗本发明实施例中列举两种方案:
[0089] 先介绍从公众号的角度进行过滤清洗。
[0090] 从公众号的角度进行过滤清洗指的是过滤掉用户特别多的公众号和用户特别少 的公众号。两种过滤方案分别为:
[0091] 第一种为:过滤清洗掉注册用户数大于第一阈值U的公众号,以及过滤掉注册用户 数小于第二阈值B的公众号。
[0092] 第二种为:统计公众号的注册用户数分布,过滤掉95分位(或者其他分位)以上的 公众号,以及5分为(或者其他分位)以下的公众号。分位在统计学上指的是数据的分布位 置。
[0093] 下面介绍从用户的角度进行过滤清洗。
[0094] 从用户的角度进行过滤清洗也是指过滤掉数据集合中订阅公众号特别少的用户 和过滤掉订阅公众号特别多的用户,两种过滤方案分别为:
[0095] 第一种为:过滤掉订阅公众号数小于某一阈值(例如:5)或是大于一定数目阈值 (例如:100000)的用户。
[0096] 第二种为:统计用户订阅公众号的分布,过滤掉95分位(或者其他分位)以上的用 户,以及5分为(或者其他分位)以下的用户。
[0097] 203、利用主题模型算法,进行主题学习,得到每个公众号在各主题的概率分布。
[0098]主题学习的过程可以采用支持分布式计算的主题模型lightLDA或者深度学习模 型。
[0099] 204、输出步骤203中的各公众号主题概率分布结果。
[0100] 各公众号主题概率分布结果输出后,进行人工评估,通过不断调整模型参数进行 步骤203的优化迭代,尽量使得最终结果达到理想状态。
[0101] 最终数据格式为:公众号\t主题1:概率值1主题2:概率值2...主题N:概率值N
[0102] 205、对于步骤204中输出的公众号对应的各个主题的分布情况,每个主题对应一 个特征,然后利用聚类对公众号进行特征聚类。
[0103] 以上步骤201-205是结合公众号对特征聚类的过程描述,本发明实施例中的公众 号可以是微信公众号,也可以是其他社交应用中的公众号。
[0104] 可选地,在上述实施例所描述的内容的基础上,本发明实施例所提供的特征聚类 的方法的另一实施例中,所述帐号信息为在网络虚拟服务平台中的用户注册帐号,则所述 对所述帐号信息,以及与所述帐号信息对应的属性信息进行预处理,得到模型输入数据,包 括:
[0105] 对所述用户注册帐号,以及与所述用户注册帐号对应的属性信息进行预处理,得 到模型输入数据。
[0106] 进一步的,所述对所述用户注册帐号,以及与所述用户注册帐号对应的属性信息 进行预处理,得到模型输入数据,可以包括:
[0107] 生成用户注册帐号与所述用户注册帐号所订阅的网络虚拟服务帐号之间的对应 关系;
[0108] 过滤掉网络虚拟服务帐号不满足预置条件的所述对应关系。
[0109] 本发明实施例中,用户注册帐号和所订阅的网络虚拟服务帐号之间的对应关系可 以通过关系列表的形式来表示。
[0110]如表2所示,用户注册帐号和所订阅的公众号之间的对应关系表可以为:
[0112] 如表2所示,用户注册帐号13415666333与所订阅的公众号之间的对应关系可以用 例如表2的形式来表示,当然表2只是举例,实际上,该用户还可能订阅了更多的公众号。
[0113] 在特征聚类时,要关注每个公众号之间的相似性。
[0114] 下面结合图3描述当帐号信息为在网络虚拟服务平台中的用户注册帐号时,本发 明实施例所提供的特征聚类的方法的过程。
[0115] 如图3所示,本发明实施例所提供的特征聚类的方法的另一实施例包括:
[0116] 301、从公众号平台上采集每个用户所订阅的公众号列表。
[0117] 除了公众号列表外,还可以采集每个注册用户每月订阅的公众号的一些统计指标 信息,其中可以包括用户给每个微信公众号发送的上行消息数目、支付次数、查看文章次 数、点击菜单次数等等。
[0118] 302、对每个用户注册帐号的数据进行预处理。
[0119] 预处理的过程包括:生成数据Data,格式为:用户注册帐号\t其订阅的公众号列 表。
[0120] 生成用户的公众号列表后,对列表中的数据做过滤清洗的过程可以是:
[0121] 先介绍从公众号的角度进行过滤清洗。
[0122] 从公众号的角度进行过滤清洗指的是过滤掉用户特别多的公众号和用户特别少 的公众号。两种过滤方案分别为:
[0123] 第一种为:过滤清洗掉注册用户数大于第一阈值U的公众号,以及过滤掉注册用户 数小于第二阈值B的公众号。
[0124] 第二种为:统计公众号的注册用户数分布,过滤掉95分位(或者其他分位)以上的 公众号,以及5分为(或者其他分位)以下的公众号。分位在统计学上指的是数据的分布位 置。
[0125] 下面介绍从用户的角度进行过滤清洗。
[0126] 从用户的角度进行过滤清洗也是指过滤掉数据集合中订阅公众号特别少的用户 和过滤掉订阅公众号特别多的用户,两种过滤方案分别为:
[0127] 第一种为:过滤掉订阅公众号数小于某一阈值(例如:5)或是大于一定数目阈值 (例如:100000)的用户。
[0128] 第二种为:统计用户订阅公众号的分布,过滤掉95分位(或者其他分位)以上的用 户,以及5分为(或者其他分位)以下的用户。
[0129] 303、利用主题模型算法,进行主题学习,得到每个公众号在各主题的概率分布。
[0130] 主题学习的过程可以采用支持分布式计算的主题模型lightLDA或者深度学习模 型。
[0131] 304、输出步骤303中的各公众号主题概率分布结果。
[0132] 在模型效果优化的过程中,除了基于订阅关系之外,还会基于注册用户和公众号 的互动关系来进行聚类,互动关系定义为上行消息数目、支付次数、查看文章次数、点击菜 单次数等一些指标数目达到一定数值。输出每个用户对应的潜在语义主题分布,格式为:注 册用户\t主题1:概率值1主题2:概率值2...主题N:概率值N。
[0133] 305、对于步骤304中输出的公众号对应的各个主题的分布情况,每个主题对应一 个特征,然后利用聚类对公众号进行特征聚类。
[0134] 以上步骤301-305是结合公众号对特征聚类的过程描述,本发明实施例中的公众 号可以是微信公众号,也可以是其他社交应用中的公众号。
[0135] 本发明实施例所提供的聚类的方法,聚类的过程中所涉及到的文本数据包括但不 限于如昵称、简介、签名和文章等文本信息构造相关特征数据。
[0136] 所使用的主题模型算法包括但不限于如潜在语义模型比如深度学习和主题模型 各种变体模型,还可以包括奇异值分解(英文全称Singular value decomposition,英文简 称"SVD")等各种聚类算法进行按照潜在语义信息进行识别。
[0137] 另外,在图2和图3所描述的实施例中,公众号和注册用户的关系的替换,比如但不 限与微信公众号和其对应文章的关系、微信公众号文章的转发关系、微信公众号用户点击 的关系等等。
[0138] 以上,本发明实施例所提供的特征聚类的方法,所产生的有益效果可以包括:
[0139] -、可以有效避免了漫长的特征探索过程,还能有效减少特征维度过多的问题。
[0140] 二:利用分布式主题模型有效支持了大规模的聚类需求。
[0141] 三:通过对微信公众号或者粉丝用户进行聚类,在后续的挖掘工作中可以使用同 个主题代理个体微信公众号或用户数据,因此有效解决长尾部分数据稀疏问题。
[0142] 四:微信公众号聚类结果有很多潜在使用的地方,包括相似微信公众号推荐、微信 公众号文章推荐、微信公众号广告播放等领域。
[0143] 以上是对特征聚类的方法的描述,下面介绍本发明实施例中的特征聚类的装置 20 〇
[0144] 图4为本发明实施例中特征聚类的装置20的一实施例示意图。
[0145] 参阅图4,本发明实施例所提供的特征聚类的装置40的一实施例包括:
[0146] 获取单元401,用于获取帐号信息,以及与所述帐号信息对应的属性信息;
[0147] 预处理单元402,用于对所述获取单元401获取的帐号信息,以及与所述帐号信息 对应的属性信息进行预处理,得到模型输入数据;
[0148] 处理单元403,用于利用主题模型算法,对所述预处理单元402得到的模型输入数 据进行处理,得到所述帐号信息所包含的各主题的概率,每个主题的概率对应一个特征;
[0149] 聚类单元404,用于利用聚类算法对所述处理单元403得到的所述帐号信息所包含 的特征进行聚类。
[0150] 本发明实施例中,获取单元401获取帐号信息,以及与所述帐号信息对应的属性信 息;预处理单元402对所述获取单元401获取的帐号信息,以及与所述帐号信息对应的属性 信息进行预处理,得到模型输入数据;处理单元403利用主题模型算法,对所述预处理单元 402得到的模型输入数据进行处理,得到所述帐号信息所包含的各主题的概率,每个主题的 概率对应一个特征;聚类单元404,用于利用聚类算法对所述处理单元403得到的所述帐号 信息所包含的特征进行聚类。与现有技术中通过不同维度特征设定的方式进行特征聚类, 导致特征聚类效率低下相比,本发明实施例提供的特征聚类的装置,可以对帐号信息以及 与该帐号信息对应的属性信息,通过主题概率的方式进行聚类,不仅能够有效避免了漫长 的特征探索过程,还能有效减少特征维度过多的问题,从而提高了特征聚类的效率。
[0151] 可选地,在上述特征聚类的装置40的实施例的基础上,本发明实施例提供的特征 聚类的装置40的另一实施例中,
[0152] 所述预处理单元,用于当所述帐号信息为网络虚拟服务帐号时,对所述网络虚拟 服务帐号,以及与所述网络虚拟服务帐号对应的属性信息进行预处理,得到模型输入数据。
[0153] 进一步的,所述预处理单元用于:
[0154] 生成网络虚拟服务帐号与订阅所述网络虚拟服务帐号的用户注册帐号之间的对 应关系;
[0155] 过滤掉用户注册帐号不满足预置条件的所述对应关系。
[0156] 可选地,在上述特征聚类的装置40的实施例的基础上,本发明实施例提供的特征 聚类的装置40的另一实施例中,
[0157] 所述预处理单元,用于当所述帐号信息为在网络虚拟服务平台中的用户注册帐号 时,对所述用户注册帐号,以及与所述用户注册帐号对应的属性信息进行预处理,得到模型 输入数据。
[0158] 进一步的,所述预处理单元用于:
[0159] 生成用户注册帐号与所述用户注册帐号所订阅的网络虚拟服务帐号之间的对应 关系;
[0160]过滤掉网络虚拟服务帐号不满足预置条件的所述对应关系。
[0161] 以上特征聚类的装置可以由服务器来实现,下面结合图5说明由服务器来实现上 述特征聚类的装置实现聚类的过程。
[0162] 图5是本发明实施例提供的服务器50的结构示意图。所述服务器50包括处理器 510、存储器550和收发器530,存储器550可以包括只读存储器和随机存取存储器,并向处理 器510提供操作指令和数据。存储器550的一部分还可以包括非易失性随机存取存储器 (NVRAM)〇
[0163] 在一些实施方式中,存储器550存储了如下的元素,可执行模块或者数据结构,或 者他们的子集,或者他们的扩展集:
[0164] 在本发明实施例中,通过调用存储器550存储的操作指令(该操作指令可存储在操 作系统中),
[0165] 获取帐号信息,以及与所述帐号信息对应的属性信息;
[0166] 对所述帐号信息,以及与所述帐号信息对应的属性信息进行预处理,得到模型输 入数据;
[0167] 利用主题模型算法,对所述模型输入数据进行处理,得到所述帐号信息所包含的 各主题的概率,每个主题的概率对应一个特征;
[0168] 利用聚类算法对所述帐号信息所包含的特征进行聚类。
[0169] 与现有技术中通过不同维度特征设定的方式进行特征聚类,导致特征聚类效率低 下相比,本发明实施例提供的服务器,可以对帐号信息以及与该帐号信息对应的属性信息, 通过主题概率的方式进行聚类,不仅能够有效避免了漫长的特征探索过程,还能有效减少 特征维度过多的问题,从而提高了特征聚类的效率。
[0170] 处理器510控制服务器50的操作,处理器510还可以称为CPU(Central Processing Unit,中央处理单元)。存储器550可以包括只读存储器和随机存取存储器,并向处理器510 提供指令和数据。存储器550的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体 的应用中服务器50的各个组件通过总线系统520耦合在一起,其中总线系统520除包括数据 总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在 图中将各种总线都标为总线系统520。
[0171] 上述本发明实施例揭示的方法可以应用于处理器510中,或者由处理器510实现。 处理器510可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各 步骤可以通过处理器510中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理 器510可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列 (FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或 者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或 者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直 接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完 成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可 编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器550,处理器510读 取存储器550中的信息,结合其硬件完成上述方法的步骤。
[0172] 可选地,处理器510用于:
[0173] 当所述帐号信息为在网络虚拟服务平台中的用户注册帐号时,对所述用户注册帐 号,以及与所述用户注册帐号对应的属性信息进行预处理,得到模型输入数据。
[0174] 进一步处理器510用于,
[0175] 生成网络虚拟服务帐号与订阅所述网络虚拟服务帐号的用户注册帐号之间的对 应关系;
[0176] 过滤掉用户注册帐号不满足预置条件的所述对应关系。
[0177] 可选地,处理器510用于:
[0178] 当所述帐号信息为在网络虚拟服务平台中的用户注册帐号时,对所述用户注册帐 号,以及与所述用户注册帐号对应的属性信息进行预处理,得到模型输入数据。
[0179] 进一步处理器510用于,
[0180] 生成用户注册帐号与所述用户注册帐号所订阅的网络虚拟服务帐号之间的对应 关系;
[0181]过滤掉网络虚拟服务帐号不满足预置条件的所述对应关系。
[0182] 以上的服务器50可以参阅图1至图3部分的描述进行理解,本处不做过多赘述
[0183] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可 以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储 介质可以包括:R〇M、RAM、磁盘或光盘等。
[0184]以上对本发明实施例所提供的特征聚类的方法以及装置进行了详细介绍,本文中 应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助 理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想, 在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本 发明的限制。
【主权项】
1. 一种特征聚类的方法,其特征在于,包括: 获取帐号信息,以及与所述帐号信息对应的属性信息; 对所述帐号信息,以及与所述帐号信息对应的属性信息进行预处理,得到模型输入数 据; 利用主题模型算法,对所述模型输入数据进行处理,得到所述帐号信息所包含的各主 题的概率,每个主题的概率对应一个特征; 利用聚类算法对所述帐号信息所包含的特征进行聚类。2. 根据权利要求1所述的方法,其特征在于,所述帐号信息为网络虚拟服务帐号,则所 述对所述帐号信息,以及与所述帐号信息对应的属性信息进行预处理,得到模型输入数据, 包括: 对所述网络虚拟服务帐号,以及与所述网络虚拟服务帐号对应的属性信息进行预处 理,得到模型输入数据。3. 根据权利要求1所述的方法,其特征在于,所述帐号信息为在网络虚拟服务平台中的 用户注册帐号,则所述对所述帐号信息,以及与所述帐号信息对应的属性信息进行预处理, 得到模型输入数据,包括: 对所述用户注册帐号,以及与所述用户注册帐号对应的属性信息进行预处理,得到模 型输入数据。4. 根据权利要求2所述的方法,其特征在于,所述对所述网络虚拟服务帐号,以及与所 述网络虚拟服务帐号对应的属性信息进行预处理,得到模型输入数据,包括: 生成网络虚拟服务帐号与订阅所述网络虚拟服务帐号的用户注册帐号之间的对应关 系; 过滤掉用户注册帐号不满足预置条件的所述对应关系。5. 根据权利要求3所述的方法,其特征在于,所述对所述用户注册帐号,以及与所述用 户注册帐号对应的属性信息进行预处理,得到模型输入数据,包括: 生成用户注册帐号与所述用户注册帐号所订阅的网络虚拟服务帐号之间的对应关系; 过滤掉网络虚拟服务帐号不满足预置条件的所述对应关系。6. -种特征聚类的装置,其特征在于,包括: 获取单元,用于获取帐号信息,以及与所述帐号信息对应的属性信息; 预处理单元,用于对所述获取单元获取的帐号信息,以及与所述帐号信息对应的属性 信息进行预处理,得到模型输入数据; 处理单元,用于利用主题模型算法,对所述预处理单元得到的模型输入数据进行处理, 得到所述帐号信息所包含的各主题的概率,每个主题的概率对应一个特征; 聚类单元,用于利用聚类算法对所述处理单元得到的所述帐号信息所包含的特征进行 聚类。7. 根据权利要求6所述的装置,其特征在于, 所述预处理单元,用于当所述帐号信息为网络虚拟服务帐号时,对所述网络虚拟服务 帐号,以及与所述网络虚拟服务帐号对应的属性信息进行预处理,得到模型输入数据。8. 根据权利要求6所述的装置,其特征在于, 所述预处理单元,用于当所述帐号信息为在网络虚拟服务平台中的用户注册帐号时, 对所述用户注册帐号,以及与所述用户注册帐号对应的属性信息进行预处理,得到模型输 入数据。9. 根据权利要求7所述的装置,其特征在于, 所述预处理单元用于: 生成网络虚拟服务帐号与订阅所述网络虚拟服务帐号的用户注册帐号之间的对应关 系; 过滤掉用户注册帐号不满足预置条件的所述对应关系。10. 根据权利要求8所述的装置,其特征在于, 所述预处理单元用于: 生成用户注册帐号与所述用户注册帐号所订阅的网络虚拟服务帐号之间的对应关系; 过滤掉网络虚拟服务帐号不满足预置条件的所述对应关系。
【文档编号】G06F17/30GK106055699SQ201610421683
【公开日】2016年10月26日
【申请日】2016年6月15日
【发明人】陈明星, 陈谦, 万伟
【申请人】腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1