兴趣特征确定方法、装置、设备及存储介质与流程

文档序号:21641843发布日期:2020-07-29 02:53阅读:254来源:国知局
兴趣特征确定方法、装置、设备及存储介质与流程

本发明属于大数据技术领域,尤其涉及一种兴趣特征确定方法、装置、设备及存储介质。



背景技术:

随着大数据的快速发展,各大运营商开始从单一的通讯服务提供商逐渐转变为多元化的信息服务提供商。因此,运营商的产业链和价值链也需要更加丰富,那么运营商所拥有的用户成为了运营商的价值链中的核心。而将用户作为运营商的价值链中的核心,需要构建完善的用户标签体系,准确描述用户特征,进而为用户提供差异化的服务信息。

用户标签体系对运营商挖掘用户的意图、活动规律和潜在的兴趣爱好等重要信息具有重要的意义。但是,通过用户标签体系识别用户群体的准确性低且群体特征丰富性差。



技术实现要素:

本发明实施例提供一种兴趣特征确定方法、装置、设备及存储介质,能够解决识别用户群体的准确性低且群体特征丰富性差的问题。

第一方面,提供了一种兴趣特征确定方法,该方法包括:

根据获取的多个用户的用户通信行为信息和用户兴趣特征信息,生成用户关系图;

根据获取的多个用户的用户兴趣特征信息,生成用户兴趣特征图;

根据用户关系图和用户兴趣特征图,确定第一用户群体和第二用户群体;

基于第二用户群体,对第一用户群体进行聚类,确定第三用户群体的兴趣特征;其中,第三用户群体包括第一用户群体和第二用户群体。

在一种可能的实现方式中,根据获取的多个用户的用户兴趣特征信息,生成用户兴趣特征图,包括:

根据多个用户的用户兴趣特征信息,提取每个用户的兴趣特征向量;

根据每个用户的兴趣特征向量,计算用户之间兴趣特征的相似度;

根据用户之间兴趣特征的相似度,生成用户兴趣特征图。

在一种可能的实现方式中,根据用户关系图和用户兴趣特征图,确定第一用户群体和第二用户群体,包括:

根据用户关系图和用户兴趣特征图,生成用户关系兴趣特征向量;

根据用户关系兴趣特征向量,确定用户的中心度;中心度表示用户在社交网络中的重要度;

根据中心度,确定第一用户群体和第二用户群体。

在一种可能的实现方式中,基于第二用户群体,对第一用户群体进行聚类,确定第三用户群体的兴趣特征,包括:

对第一用户群体进行聚类,得到第一用户群体的目标聚类子集;

计算第二用户群体和第一用户群体之间的兴趣主题的相似度;

将第二用户群体和第一用户群体之间的兴趣主题的相似度最高对应的第二用户群体加入到第一用户群体的聚类子集中,得到用户群体聚类子集和用户群体聚类子集的兴趣特征;

根据用户群体聚类子集和用户群体聚类子集的兴趣特征,确定第三用户群体的兴趣特征。

在一种可能的实现方式中,对第一用户群体进行聚类,得到第一用户群体的目标聚类子集,包括:

获取第一用户群体中用户对不同兴趣主题的兴趣特征值;

针对所述第一用户群体,迭代下述步骤一至步骤三:

步骤一:确定所述第一用户群体中的聚类子集;

步骤二:根据所述第一用户群体中用户对不同兴趣主题的兴趣特征值,确定所述聚类子集对不同兴趣主题的支持度;

步骤三:根据所述支持度,确定所述聚类子集对不同兴趣主题的信息模糊度;

当第一用户群体中用户对不同兴趣主题的信息模糊度为零或者迭代次数达到预设的次数阈值时,得到第一用户群体的目标聚类子集。

在一种可能的实现方式中,该方法包括:

根据用户群体聚类子集的兴趣特征,计算用户群体聚类子集对兴趣主题集合的差异度;兴趣主题集合是由不同兴趣主题组成的集合;

根据差异度确定兴趣特征的均值;

当兴趣特征中的兴趣特征值为零时,将兴趣特征值替换为均值。

在一种可能的实现方式中,该方法还包括:

根据第一用户群体中用户对不同兴趣主题的兴趣特征值,计算第一用户群体的聚类子集的差异度。

第二方面,提供了一种兴趣特征确定装置,其特征在于,该装置包括:

关系图生成模块,用于根据获取的多个用户的用户通信行为信息和用户兴趣特征信息,生成用户关系图;

特征图生成模块,用于根据获取的多个用户的用户兴趣特征信息,生成用户兴趣特征图;

群体确定模块,用于根据用户关系图和用户兴趣特征图,确定第一用户群体和第二用户群体;

特征确定模块,用于基于第二用户群体,对第一用户群体进行聚类,确定第三用户群体的兴趣特征;其中,第三用户群体包括第一用户群体和第二用户群体。

第三方面,提供了一种电子设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如第一方面或者第一方面的任一可能实现方式中的方法。

第四方面,提供了一种计算机存储介质,该计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面或者第一方面的任一可能实现方式中的方法。

基于提供的兴趣特征确定方法、装置、设备及存储介质,通过根据获取的多个用户的用户通信行为信息和用户兴趣特征信息,生成用户关系图;根据获取的多个用户的用户兴趣特征信息,生成用户兴趣特征图;根据用户关系图和用户兴趣特征图,确定第一用户群体和第二用户群体;基于第二用户群体,对第一用户群体进行聚类,确定第三用户群体的兴趣特征;其中,第三用户群体包括第一用户群体和第二用户群体,能够提高识别用户群体的准确性和群体特征丰富性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种兴趣特征确定方法的流程示意图;

图2是本发明实施例提供的一种用户关系图;

图3是本发明实施例提供的一种用户兴趣特征图;

图4是本发明实施例提供的一种用户和用户之间的关系-兴趣特征图;

图5是本发明实施例提供的一种兴趣特征确定装置的结构示意图;

图6是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

随着大数据的快速发展,各大运营商开始从单一的通讯服务提供商逐渐转变为多元化的信息服务提供商。因此,运营商的产业链和价值链也需要更加丰富,那么运营商所拥有的用户成为了运营商的价值链中的核心。而将用户作为运营商的价值链中的核心,需要构建完善的用户标签体系,准确描述用户特征,进而为用户提供差异化的服务信息。

用户标签体系对运营商挖掘用户的意图、活动规律和潜在的兴趣爱好等重要信息具有重要的意义。但是,通过用户标签体系识别用户群体的准确性低且群体特征丰富性差。

因此,本发明实施例提供了一种兴趣特征确定方法、装置、设备及存储介质,提高识别用户群体的准确性和群体特征丰富性。

为了方便理解本发明实施例,首先对本发明实施例提供的兴趣特征确定方法进行详细阐述。

图1是本发明实施例提供的一种兴趣特征确定方法的流程示意图。

如图1所示,本发明实施例提供的兴趣特征确定方法,包括:

s101:根据获取的多个用户的用户通信行为信息和用户兴趣特征信息,生成用户关系图。

用户通信行为信息可以是用户通话时生成的信息,如主叫方和被叫方、通话时长、与同一个用户进行通话的次数、主叫次数和被叫次数等等。用户兴趣特征信息可以是用户在社交活动、上网活动以及消费等信息中能够体现用户目的、活动规律以及用户兴趣爱好的信息。例如,用户在某地点驻留时间能够体现出用户的地点偏好特征;用户上网过程中对某运营商的业务查询能够体现出用户的业务偏好特征。

用户通信行为信息可以是当用户产生通信行为信息的时候,将用户通信行为信息保存在数据库中。当使用用户通信行为信息的时,可以从数据库中直接获取用户通信行为信息。也可以是从数据库中获取用户兴趣特征信息。

用户通信行为信息中可能还会包括用户在收取快递或者收取外卖时产生的通信行为信息。为了更准确的确定用户的兴趣特征,需要将用户在收取快递或收取外卖时产生的通信行为信息删除,并根据用户兴趣特征信息,确定用户与用户之间的兴趣特征信息的重合度。其中兴趣特征信息的重合度表示用户的兴趣特征重合的程度。基于通信行为信息和用户兴趣特征信息的重合度,生成用户与用户之间的用户关系图,如图2所示。

用户关系图可以表示用户与用户之间的关系值。以用户i和用户j为例,用户i和用户j之间的关系值e(i,j)可以定义为下述公式(1):

e(i,j)=a×callexp(i,j)+b×contactratio(i,j)(1)

其中,callexp(i,j)表示用户i和用户j之间的通话行为信息;contactratio(i,j)表示用户i和用户j之间的兴趣特征信息的重合度;a和b均为常数,且a+b=1。

例如,当用户i和用户j之间没有通话信息行为时,a为零。当用户i和用户j之间没有重合的兴趣特征信息时,b为零。

s102:根据获取的多个用户的用户兴趣特征信息,生成用户兴趣特征图。

用户兴趣特征信息可以是一个向量,例如,用户甲的用户兴趣特征信息可以包括美食、购物、娱乐、景点等兴趣信息。基于多个用户的用户兴趣特征信息,能够生成用户兴趣特征图,如图3所示。

具体的,根据多个用户的用户兴趣特征信息,提取每个用户的兴趣特征向量;

根据每个用户的兴趣特征向量,计算用户之间兴趣特征的相似度;

根据用户之间兴趣特征的相似度,生成用户兴趣特征图。

提取用户的兴趣特征向量,实际是以向量的形式定义用户兴趣特征信息,其中,兴趣特征向量可以表示为:vu=[deushu……enuscu]。其中,deu表示用户对美食的兴趣程度;shu表示用户对购物的兴趣程度;enu表示用户对娱乐的兴趣程度;scu表示用户对景点的兴趣程度。

需要说明的是,兴趣特征向量中不仅包括用户美食、购物、娱乐、景点等的兴趣程度,还包括其他与用户生活密切相关的绝大部分兴趣场所或者事物,能够映射出用户在日常生活中的具有代表性的大多数行为。兴趣特征向量能够客观的反映出用户的兴趣爱好等特征。

基于多个用户的兴趣特征向量,能够计算出用户与用户之间的兴趣特征的相似度。以用户i和用户j为例,用户i的兴趣特征向量为vi,用户j的兴趣特征向量为vj。作为一个示例,可以采用余弦定理来计算用户i和用户j之间兴趣特征的相似度s(i,j)。其中,s(i,j)满足下述公式(2):

其中,vi表示用户i的兴趣特征向量,vj表示用户j的兴趣特征向量,|vi|表示用户i的兴趣特征向量中用户i兴趣特征的个数,|vj|表示用户j的兴趣特征向量中用户i兴趣特征的个数。

在这里,用户i和用户j之间兴趣特征的相似度s(i,j)的范围应该是[0,1]。当s(i,j)的值越接近于1时,则用户i和用户j之间兴趣特征的相似度越高。当s(i,j)的值越接近于0时,则用户i和用户j之间兴趣特征的相似度越低。

基于用户与用户之间兴趣特征的相似度能够生成用户兴趣特征图。

s103:根据用户关系图和用户兴趣特征图,确定第一用户群体和第二用户群体。

第一用户群体是指用户在社交网络中重要程度排名大于预设值的用户群体。第二用户群体是指用户在社交网络中重要程度排名不大于预设值的用户群体。

确定第一用户群体和第二用户群体需要将用户关系图和用户兴趣特征图进行合并。

具体的,根据用户关系图和用户兴趣特征图,生成用户关系兴趣特征向量;

根据用户关系兴趣特征向量,确定用户的中心度;中心度表示用户在社交网络中的重要度;

根据中心度,确定第一用户群体和第二用户群体。

如图2所示,用户关系图中,每一个用户与用户之间的连线可以表示用户与用户之间的关系边,且每一个关系边都对应有一个权值,也就是用户与用户之间的关系值e(i,j)。如图3所示,用户兴趣特征图中,每一个用户与用户之间的连线可以表示用户与用户之间的兴趣特征边,每一个兴趣特征边都对应有一个权值,也就是用户与用户之间兴趣特征的相似度s(i,j)。

根据用户关系图和用户兴趣特征图,提取用户关系兴趣特征向量,需对用户关系图中的关系边和用户兴趣特征图中的兴趣特征边进行合并。

作为一个示例,根据用户关系图得到用户i和用户j之间存在关系边,也就是用户i和用户j之间有关系值存在,关系值为e(i,j)。根据用户兴趣特征图得到用户i和用户j之间存在兴趣特征边,也就是用户i和用户j之间有存在相似的兴趣特征,兴趣特征的相似度s(i,j)。那么将用户关系图和用户兴趣特征图进行合并后,就能够得到用户和用户之间的关系-兴趣特征图,如图4所示。在关系-兴趣特征图中,用户与用户之间的连线表示用户与用户之间的关系-兴趣特征边。其中,关系-兴趣特征边的权值c(i,j)满足下述公式(3):

c(i,j)=a×e(i,j)+b×s(i,j)(3)

其中,e(i,j)表示用户i和用户j之间的关系值;s(i,j)表示用户i和用户j之间兴趣特征的关系度;a和b均为常数,且a+b=1。

需要说明的是,当用户i和用户j之间没有关系值时,a=0且b=1。当用户i和用户j之间没有兴趣特征值时,a=1且b=0。

如图4所示,用户和用户之间的关系-兴趣特征图中,虚线表示用户与用户之间兴趣特征的相似度;实线表示用户与用户之间的关系值。在这里,可以根据不同场景可对最终的用户与用户的关系-兴趣特征的权值进行调节。例如,更注重交往关系,则a值占比更高。更注重兴趣特征,则b值占比更高。将关系-兴趣特征图转换为用户关系兴趣特征向量。其中,用户关系兴趣特征向量能够为后续用户群体划分提供准确地数据依据。

中心度是在用户关系兴趣特征向量中用户在社交网络中的重要度,也就是用户在关系-兴趣特征图中的中心性。中心度越高,则用户在社交网络中的重要度越高。用户i的中心度indegree(i)可以满足下述公式(4)

其中,n为正整数,表示用户关系兴趣特征向量的维度或用户关系图中用户的数量;i表示用户i;j表示用户j。

确定中心度后,根据中心度,确定第一用户群体和第二用户群体。例如,对用户的中心度从高到低排序,根据二八原则限制用户中心度排名前20%为第一用户群体,用户中心度排名在后80%为第二用户群体。

在本发明的一些实施例中,确定第一用户群体和第二用户群体时,不仅需要考虑用户的中心度,还要考虑用户对兴趣主题的兴趣强度和兴趣密度。

其中,兴趣主题是指用户可能感兴趣的主题,例如,美食,购物等兴趣主题。用户对兴趣主题的兴趣强度是指对兴趣主题感兴趣的强度,例如,用户对兴趣主题的特征向量中每一个元素对应的值都大于预设的强度阈值,那么表示用户对该兴趣主题有强烈兴趣。

兴趣密度是指是指当用户对兴趣主题特征向量的强度,达到一定程度的限制。例如,一共有10个兴趣主题分类,某一用户只对其中5个兴趣主题有兴趣,则用户对兴趣主题集的密度为0.5。

那么,可以将用户中心度排名前20%,且用户对兴趣主题的特征向量中每一个元素对应的值都大于预设的强度阈值、兴趣密度大于预设密度阈值的用户作为第一用户群体,剩余的为第二用户群体。

s104:基于第二用户群体,对第一用户群体进行聚类,确定第三用户群体的兴趣特征;其中,第三用户群体包括第一用户群体和第二用户群体。

确定了第一用户群体和第二用户群体后,进一步对第一用户群体进行聚类,将第一用户群体cleader形成不同的聚类子集clusi。

其中,n=1,2,3,……。

具体的,获取第一用户群体中用户对不同兴趣主题的兴趣特征值;

针对第一用户群体,迭代下述步骤一至步骤三:

步骤一:确定第一用户群体中的聚类子集;

步骤二:根据第一用户群体中用户对不同兴趣主题的兴趣特征值,确定聚类子集对不同兴趣主题的支持度;

步骤三:根据支持度,确定聚类子集对不同兴趣主题的信息模糊度;

当第一用户群体中用户对不同兴趣主题的信息模糊度为零或者迭代次数达到预设的次数阈值时,得到第一用户群体的目标聚类子集。

当首次对第一用户群体进行聚类时,第一用户群体的聚类子集可以是随机划分得到的。进而确定不同聚类子集的对不同兴趣主题的支持度和模糊度。当非首次对第一用户群体进行聚类时,是根据上一次迭代过程确定得到的模糊度对第一用户群体进行聚类,进而得到聚类子集。

在这里,每一个用户v对主题tj的支持度p(i,j)满足下述公式(5):

其中,表示用户v对主题tj兴趣值rij大于0的集合,v表示聚类子集clusi中的任意一个用户,r(v,t)表示用户v对主题tj的兴趣值;表示中聚类子集clusi的个数;|clusi|表示聚类子集clusi中的用户数量。

其中,聚类子集clusi对主题tj的兴趣值rij满足下述公式(6):

其中,v表示聚类子集clusi中任意一个用户,其中,k=1,2,3,……。

根据上述(6)可以得出聚类子集clusi对主题集合的兴趣值集合为ri=(ri1,ri2,...,rij)。

每一个聚类子集clusi对主题tj的模糊度ambij满足下述公式(7)

其中,表示中聚类子集clusi的个数;|clus|表示第一用户群体中聚类子集的总数量。

根据上述公式(8)可以得到每一个聚类子集clusi对全部主题t的模糊度ambi定义为下述公式(8):

根据上述公式(8),可以得到第一用户群体中所有的聚类子集clus全部主题t的模糊度amb定义为下述公式(9):

基于上述公式(5)-(9),根据聚类子集clus全部主题t的模糊度amb对第一用户群体进行聚类,来确定第一用户群体的聚类子集。直至聚类子集clus全部主题t的模糊度amb为零,或者迭代次数超过预设的次数阈值,最终确定第一用户群体的目标聚类子集。

在一些实施例中,还可以通过计算第一用户群体的目标聚类子集之间的差异度来检验对第一用户群体进行聚类的效果。

任意两个目标聚类子集之间的差异度div(clusi,clusj)满足下述公式(10):

其中,clusi和clusj均为目标聚类子集,ri表示目标聚类子集clusi对全部主题的兴趣值;rj表示目标聚类子集clusj对全部主题的兴趣值。|ri|表示目标聚类子集clusi感兴趣的兴趣主题的数量;|rj|表示目标聚类子集clusj感兴趣的兴趣主题的数量。

所有目标聚类子集之间的差异度diss满足下述公式(11):

当差异度越大时,表示目标聚类子集之间的兴趣特征差异项越大,那么每一个目标聚类子集中用户的兴趣特征越明显,也就是聚类的效果越好。

得到第一用户群体的目标聚类子集后,还需要对第二用户群体进行聚类。

具体的,计算第二用户群体和第一用户群体之间的兴趣主题的相似度;

将第二用户群体和第一用户群体之间的兴趣主题的相似度最高对应的第二用户群体加入到第一用户群体的聚类子集中,得到用户群体聚类子集和用户群体聚类子集的兴趣特征。

其中,第二用户群体和第一用户群体之间的相似度满足下述公式(12):

其中,ri表示第二用户群体中用户对兴趣主题的兴趣值,表示目标聚类子集clusj对兴趣主题的兴趣值;δ为预设的参数。

将与目标聚类子集clusj相似度最高的第二群体中的用户加入到目标聚类子集clusj中,形成第三用户群体的聚类子集,从而得到第三用户群体。其中第三用户群体包括第一用户群体和第二用户群体。

第三用户群体的聚类子集d(vi,clusj)满足下述公式(13)

其中,d(vi,clusj)表示将第二用户群体中的用户vi加入到第一用户群体的目标用户子集clusj中的聚类子集,也就是第三用户群体的聚类子集;n表示任意常数。

需要说明的是,第三用户群体就是包括全部用户的群体。得到用户群体聚类子集,从而能够确定第三用户群体。得到用户群体聚类子集的兴趣特征的同时,也确定了第三用户群体的兴趣特征。

在一些实施例中,第三用户群体的兴趣特征存在一些用户可能对某些兴趣主题不感兴趣,也就是说兴趣值为0。当用户对兴趣主题的兴趣值为0时,需要对兴趣值进行补充。

具体的,根据用户群体聚类子集的兴趣特征,计算用户群体聚类子集对兴趣主题集合的差异度;

根据差异度确定兴趣特征的均值;

当兴趣特征中的兴趣特征值为零时,将兴趣特征值替换为均值。

其中,用户群体聚类子集gi对兴趣主题集合t的兴趣值集合表示为gi=(gi1,gi2,...,gin)。i=1,2,3,……,n=1,2,3,……。

用户群体聚类子集gi对兴趣主题集合t的差异度dev满足下述公式(14):

其中,g表示所有的用户群体聚类子集;gki表示用户群体聚类子集gi对兴趣主题k的兴趣值;gkj表示用户群体聚类子集gj对兴趣主题k的兴趣值,|g|表示所有的用户群体聚类子集中用户群体聚类子集的数量。

根据差异度dev,对兴趣值为0的集合做兴趣补充。其中,进行兴趣补充的集合的兴趣值gij满足下述公式(15)

其中,m表示兴趣主题集合的数量;devik为兴趣主题集合k的差异度,gik为gi中兴趣主题k的均值。

本发明实施例提供的兴趣特征确定方法,通过根据获取的多个用户的用户通信行为信息和用户兴趣特征信息,生成用户关系图;根据获取的多个用户的用户兴趣特征信息,生成用户兴趣特征图;根据用户关系图和用户兴趣特征图,确定第一用户群体和第二用户群体;基于第二用户群体,对第一用户群体进行聚类,确定第三用户群体的兴趣特征;其中,第三用户群体包括第一用户群体和第二用户群体,能够提高识别用户群体的准确性和群体特征丰富性。

图5是本发明实施例提供的一种兴趣特征确定装置的结构示意图。

如图5所示,本发明实施例提供的一种兴趣特征确定装置,可以包括:关系图生成模块501,特征图生成模块502,群体确定模块503,特征确定模块504。

关系图生成模块501,用于根据获取的多个用户的用户通信行为信息,生成用户关系图;

特征图生成模块502,用于根据获取的多个用户的用户兴趣特征信息,生成用户兴趣特征图;

群体确定模块503,用于根据用户关系图和用户兴趣特征图,确定第一用户群体和第二用户群体;

特征确定模块504,用于基于第二用户群体,对第一用户群体进行聚类,确定第三用户群体的兴趣特征;其中,第三用户群体包括第一用户群体和第二用户群体。

可选的,在本发明的一些实施例中,特征图生成模块,具体用于:

根据多个用户的用户兴趣特征信息,提取每个用户的兴趣特征向量;

根据每个用户的兴趣特征向量,计算用户之间兴趣特征的相似度;

根据用户之间兴趣特征的相似度,生成用户兴趣特征图。

可选的,在本发明的一些实施例中,群体确定模块,具体用于:

根据用户关系图和用户兴趣特征图,生成用户关系兴趣特征向量;

根据用户关系兴趣特征向量,确定用户的中心度;中心度表示用户在社交网络中的重要度;

根据中心度,确定第一用户群体和第二用户群体。

可选的,在本发明的一些实施例中,特征确定模块,具体用于:

对第一用户群体进行聚类,得到第一用户群体的目标聚类子集;

计算第二用户群体和第一用户群体之间的兴趣主题的相似度;

将第二用户群体和第一用户群体之间的兴趣主题的相似度最高对应的第二用户群体加入到第一用户群体的聚类子集中,得到用户群体聚类子集和用户群体聚类子集的兴趣特征;

根据用户群体聚类子集和用户群体聚类子集的兴趣特征,确定第三用户群体的兴趣特征。

可选的,在本发明的一些实施例中,特征确定模块,具体用于:

获取第一用户群体中用户对不同兴趣主题的兴趣特征值;

根据第一用户群体中用户对不同兴趣主题的兴趣特征值,确定用户对不同兴趣主题的支持度;

根据支持度,确定第一用户群体中用户对不同兴趣主题的信息模糊度;

当第一用户群体中用户对不同兴趣主题的信息模糊度为零或者迭代次数达到预设的次数阈值时,得到第一用户群体的目标聚类子集。

可选的,在本发明的一些实施例中,该装置还包括:

计算模块,用于根据用户群体聚类子集的兴趣特征,计算用户群体聚类子集对兴趣主题集合的差异度;兴趣主题集合是由不同兴趣主题组成的集合;;

均值确定模块,用于根据差异度确定兴趣特征的均值;

替换模块,用于当兴趣特征中的兴趣特征值为零时,将兴趣特征值替换为均值。

可选的,在本发明的一些实施例中,计算模块还用于:

根据第一用户群体中用户对不同兴趣主题的兴趣特征值,计算第一用户群体的聚类子集的差异度。

本发明实施例提供的兴趣特征确定装置,通过关系图生成模块,用于根据获取的多个用户的用户通信行为信息,生成用户关系图;特征图生成模块,用于根据获取的多个用户的用户兴趣特征信息,生成用户兴趣特征图;群体确定模块,用于根据用户关系图和用户兴趣特征图,确定第一用户群体和第二用户群体;特征确定模块,用于基于第二用户群体,对第一用户群体进行聚类,确定第三用户群体的兴趣特征;其中,第三用户群体包括第一用户群体和第二用户群体,能够提高识别用户群体的准确性和群体特征丰富性。

本发明实施例提供的兴趣特征确定装置执行图1所示的方法中的各个步骤,并能够达到提高识别用户群体的准确性和群体特征丰富性的技术效果,为简洁描述,再此不在详细赘述。

图6示出了本发明实施例提供的一种电子设备的硬件结构示意图。

在电子设备可以包括处理器601以及存储有计算机程序指令的存储器602。

具体地,上述处理器601可以包括中央处理器(cpu),或者特定集成电路(applicationspecificintegratedcircuit,asic),或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(harddiskdrive,hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universalserialbus,usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在综合网关容灾设备的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。在特定实施例中,存储器602包括只读存储器(rom)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可改写rom(earom)或闪存或者两个或更多个以上这些的组合。

处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现图3至图5所示实施例中的任意一种兴趣特征确定方法。

在一个示例中,电子设备还可包括通信接口603和总线610。其中,如图6所示,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。

通信接口603,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线610包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线610可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。

该电子设备可以执行本发明实施例中的兴趣特征确定方法,从而实现结合图1描述的兴趣特征确定方法。

另外,结合上述实施例中的兴趣特征确定方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种兴趣特征确定方法。

需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。

以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1