基于社交网络和大数据分析的用户分组方法及装置与流程

文档序号:12666268阅读:210来源:国知局
基于社交网络和大数据分析的用户分组方法及装置与流程

本发明涉及信息处理技术领域,特别涉及基于社交网络和大数据分析的用户分组方法及装置。



背景技术:

现有的社交网络系统(比如学者社交网络系统)包括服务器和客户端,用户可以通过客户端上传信息到服务器,这样服务器会将上传的信息与用户标识对应地储存;服务器可以向客户端的用户主动推荐信息。且用户可以客户端加入到某个用户分组。

在学者社交系统中,用户可以通过客户端加入某一个学术圈,这样系统中的服务器会将该用户的信息与该学术圈的信息对应地储存,使得该学术圈的信息对该用户的客户端是可见的。现有技术中,用户需要根据自己的判断逐个确定哪些学术圈适合自己,然后通过客户端加入确定的学术圈,这样只有客户端请求时,才会将用户加入到某个用户分组中,对于用户的管理不是很方便。而且现有技术中,用户往往只加入与自己的学术方向一致的学术圈,导致同一个学术圈中的所有用户的学术方向都是一致的,这不利于学术上的交叉创新。



技术实现要素:

本发明实施例提供基于社交网络和大数据分析的用户分组方法及装置,实现了根据已有用户的上传文件的第一特征信息之间的匹配度,确定用户分组。

本发明实施例提供一种用户分组方法,包括:

分别获取多个已有用户的第一上传信息文件的第一特征信息;

计算所述多个已有用户中任意两个已有用户的第一上传信息文件的第一特征信息之间的匹配度;

根据所述计算的匹配度确定用户分组,在一个用户分组中包括多个已有用户,且任意两个已有用户的第一上传信息文件的第一特征信息之间的匹配度在预置范围内。

本发明实施例还提供一种用户分组装置,包括:

特征获取单元,用于分别获取多个已有用户的第一上传信息文件的第一特征信息;

计算单元,用于计算所述多个已有用户中任意两个已有用户的第一上传信息文件的第一特征信息之间的匹配度;

分组确定单元,用于根据所述计算的匹配度确定用户分组,在一个用户分组中包括多个已有用户,且任意两个已有用户的第一上传信息文件的第一特征信息之间的匹配度在预置范围内。

可见,在本实施例的方法中,社交网络系统中的服务器会根据任意两个已有用户的第一上传信息文件的第一特征信息之间的匹配度,确定用户分组,从而实现对社交网络系统中用户的管理。这样服务器可以主动根据用户的上传文件的内容将各个用户归入到某个用户分组中,而不用客户端请求才会对用户进行分组,方便了对系统中用户的管理,同时使得同一个社交圈中的任意两个已有用户的特征信息相互匹配,而不是所有已有用户的特征信息相互匹配,这有利于社交圈的拓广,使得同一个学术社交圈中的任意两个已有用户的学术方向有所交叉,这有利于学术上的交叉创新。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种用户分组方法的流程图;

图2是本发明实施例提供的一种确定新加入用户的用户分组方法的流程图;

图3是本发明应用实施例提供的一种用户分组方法的流程图;

图4是本发明实施例提供的一种用户分组装置的结构示意图;

图5是本发明实施例提供的另一种用户分组装置的结构示意图;

图6是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种用户分组方法,主要可以应用于社交网络系统中,本实施例是社交网络系统中的服务器所执行的方法,流程图如图1所示,包括:

步骤101,分别获取多个已有用户的第一上传信息文件的第一特征信息。

可以理解,用户可以通过社交网络系统中的客户端上传文件到服务器,这样服务器会对应地储存用户标识与上传文件。服务器可以定时地发起本实施例中对该系统的用户进行分组的流程,这样可以将多个用户归入一个用户分组中,服务器会储存用户分组的信息与多个用户标识的对应关系。

服务器在执行本步骤中获取一个已有用户的第一上传信息文件的第一特征信息,可以先提取已有用户的第一上传信息文件的第一关键词,根据第一关键词在第一上传信息文件中的出现频次对第一关键词进行排序,然后将在第一上传信息文件中出现频次较高的多个第一关键词作为对应已有用户的第一特征信息。

步骤102,计算多个已有用户中任意两个已有用户的第一上传信息文件的第一特征信息之间的匹配度。

服务器在执行本步骤时,具体可以将任意两个已有用户中第一已有用户对应的第一特征信息与第二已有用户对应的第一特征信息中具有的相同关键词的个数作为该任意两个已有用户的第一上传信息文件的第一特征信息之间的匹配度。

步骤103,根据步骤102计算的匹配度确定用户分组,在一个用户分组中包括多个已有用户,任意两个已有用户的第一上传信息文件的第一特征信息之间的匹配度在预置范围内。且一个已有用户可以包括在两个用户分组中。

具体地,如果任意两个已有用户的第一上传信息文件的第一特征信息之间的相同关键词的个数大于预置值,则可以确定任意两个已有用户在一个用户分组中。

进一步地,服务器还可以将确定的用户分组的信息发送给用户分组中已有用户对应的客户端,用户分组的信息可以包括标识信息及入口信息等,该入口信息可以是一个网站链接,也可以是一个二维码。这样客户端就可以显示该用户分组的信息,如果客户端根据用户分组的入口信息发送加入该用户分组的请求给服务器,服务器则向客户端返回确认消息。

更进一步地,服务器还可以储存用户分组的信息与该用户分组内用户的用户标识的对应关系。

可见,在本实施例的方法中,社交网络系统中的服务器会根据任意两个已有用户的第一上传信息文件的第一特征信息之间的匹配度,确定用户分组,从而实现对社交网络系统中用户的管理。这样服务器可以主动根据用户的上传文件的内容将各个用户归入到某个用户分组中,而不用客户端请求才会对用户进行分组,方便了对系统中用户的管理,同时使得同一个社交圈中的任意两个已有用户的特征信息相互匹配,而不是所有已有用户的特征信息相互匹配,这有利于社交圈的拓广,使得同一个学术社交圈中的任意两个已有用户的学术方向有所交叉,这有利于学术上的交叉创新。

参考图2所示,在一个具体的实施例中,服务器可以通过如下的步骤将新加入社交网络系统的用户归入某个用户分组中:

步骤201,获取新加入用户的第二上传信息文件的第二特征信息。

具体地,服务器在获取第二特征信息时,可以与执行上述步骤101的方法类似,具体地,可以先提取新加入用户的第二上传信息文件的第二关键词,将在第二上传信息文件中出现频次较高的多个第二关键词作为新加入用户的第二特征信息。

步骤202,计算第二特征信息分别与多个用户分组中任意一个已有用户的第一上传信息文件的第一特征信息之间的匹配度,确定新加入用户所在的用户分组为:与第二特征信息的匹配度较高的至少一个第一特征信息对应的用户分组。

进一步地,服务器还可以将新加入用户的用户分组的信息发送给该新加入用户对应的客户端,用户分组的信息可以包括标识信息及入口信息等,该入口信息可以是一个网站链接,也可以是一个二维码。这样客户端就可以显示该用户分组的信息,如果客户端根据用户分组的入口信息发送加入该用户分组的请求给服务器,服务器则向客户端返回确认消息。

更进一步地,服务器可以储存该新加入用户的用户标识与该新加入用户所在用户分组的信息的对应关系。

更进一步地,如果出现以下任一条件时,可以停止在该某一用户分组中加入新的用户,且可以标注该用户分组已满的信息:某一个用户分组中的用户数量超过预置的值等。

以下以一个具体的实施例来说明本发明实施例的方法,在本实施例中,社交网络系统为学者社交网络系统,用户组合为学术圈,第一上传信息文件和第二上传信息文件为用户已上传到社交网络大数据中的信息或/和文件包括学术信息或/和学术文件。具体的,建立HDFS学术大数据文件系统和HBASE学术大数据库表,并将采集到的学术信息文件及其对应学术圈的信息存入HDFS学术大数据文件系统和HBASE学术大数据库表。本实施例的方法流程图如图3所示,包括:

步骤301,获取社交网络系统中多个用户的学术信息文件的特征信息,其中,学术信息文件可以是论文、项目、专利、专著等。

服务器在执行本实施例的步骤时,可以先分别提取各个用户的学术信息文件的关键词,根据关键词在学术信息文件中的出现频次对关键词进行排序,然后将在学术信息文件中出现频次较高的多个关键词作为学术信息文件的特征信息。比如,将出现频次较高的前K(K为预设的自然数,默认为10)个关键词作为学术信息文件的特征信息。

步骤302,计算多个用户中任意两个用户的学术信息文件的特征信息之间的匹配度。

服务器在执行本步骤时,具体可以将两个用户的学术信息文件的特征信息中具有的相同关键词的个数作为两个用户对应的特征信息之间的匹配度。比如,将一个用户的特征信息和另一个用户的特征信息中10个关键词中相同关键词的个数作为匹配度。

步骤303,根据上述步骤302中计算的匹配度确定用户分组,在一个用户分组中包括多个用户,且任意两个用户的学术信息文件的特征信息之间的匹配度在预置范围内。比如一个用户分组中任意一个用户的特征信息和另一个用户的特征信息中10个关键词中相同关键词的个数大于预置值(比如6)。

本发明实施例还提供一种用户分组装置,比如上述的服务器,其结构示意图如图4所示,具体可以包括:

特征获取单元10,用于分别获取多个已有用户的第一上传信息文件的第一特征信息。

所述特征获取单元10,用于提取所述已有用户的第一上传信息文件的第一关键词,将在所述第一上传信息文件中出现频次较高的多个第一关键词作为对应已有用户的第一特征信息。

计算单元11,用于计算所述特征获取单元10获取的多个已有用户中任意两个已有用户的第一上传信息文件的第一特征信息之间的匹配度;

分组确定单元12,用于根据所述计算单元11计算的匹配度确定用户分组,在一个用户分组中包括多个已有用户,且任意两个已有用户的第一上传信息文件的第一特征信息之间的匹配度在预置范围内。

所述计算单元11,具体用于将所述任意两个已有用户中第一已有用户对应的第一特征信息与第二已有用户对应的第一特征信息中具有的相同关键词的个数作为所述任意两个已有用户的第一上传信息文件的第一特征信息之间的匹配度;所述分组确定单元12,具体用于如果所述任意两个已有用户的第一长传文件的第一特征信息之间的相同关键词的个数大于预置值,确定所述任意两个已有用户在一个用户分组中。

且分组确定单元12还可以储存用户分组的信息与该用户分组内用户的用户标识的对应关系。

需要说明的是,上述的用户分组为社交圈包括学术圈,所述第一上传信息文件为用户已上传到社交网络大数据中的信息或/和文件包括学术信息或/和学术文件。具体的,建立HDFS学术大数据文件系统和HBASE学术大数据库表,并将采集到的学术信息文件及其对应学术圈的信息存入HDFS学术大数据文件系统和HBASE学术大数据库表。

在本实施例的装置中,分组确定单元12会根据任意两个已有用户的第一上传信息文件的第一特征信息之间的匹配度,确定用户分组,从而实现对社交网络系统中用户的管理。这样用户分组装置就可以主动根据用户的上传文件的内容将各个用户归入到某个用户分组中,而不用客户端请求才会对用户进行分组,方便了对系统中用户的管理,同时使得同一个社交圈中的任意两个已有用户的特征信息相互匹配,而不是所有已有用户的特征信息相互匹配,这有利于社交圈的拓广,使得同一个学术社交圈中的任意两个已有用户的学术方向有所交叉,这有利于学术上的交叉创新。

参考图5所示,在一个具体的实施例中,用户分组装置除了可以包括如图4所示的结构外,还可以包括:信息发送单元13和限制单元14,在本实施例中:

所述特征获取单元10,还用于获取新加入用户的第二上传信息文件的第二特征信息;

所述计算单元11,还用于计算所述第二特征信息分别与所述多个用户分组中任意一个已有用户的第一上传信息文件的第一特征信息之间的匹配度;

所述分组确定单元12,还用于确定所述新加入用户所在的用户分组为:与所述第二特征信息的匹配度较高的至少一个第一特征信息对应的用户分组。在本实施例中,分组确定单元12还可以储存该新加入用户的用户标识与该新加入用户所在用户分组的信息的对应关系。

信息发送单元13,用于将所述分组确定单元12确定的用户分组的信息发送给所述用户分组中已有用户对应的客户端。

限制单元14,用于如果某一个用户分组中的用户数量超过预置的值,停止在所述某一用户分组中加入新的用户。

本发明实施例还提供一种服务器,其结构示意图如图6所示,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)20(例如,一个或一个以上处理器)和存储器21,一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中,存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器20可以设置为与存储介质22通信,在服务器上执行存储介质22中的一系列指令操作。

具体地,在存储介质22中储存的应用程序221包括用户分组的应用程序,且该程序可以包括上述用户分组装置中的特征获取单元10,计算单元11,分组确定单元12,信息发送单元13和限制单元14,在此不进行赘述。更进一步地,中央处理器20可以设置为与存储介质22通信,在服务器上执行存储介质22中储存的用户分组的应用程序对应的一系列操作。

服务器还可以包括一个或一个以上电源23,一个或一个以上有线或无线网络接口24,一个或一个以上输入输出接口25,和/或,一个或一个以上操作系统223,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

上述方法实施例中所述的由服务器所执行的步骤可以基于该图6所示的服务器的结构。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。

以上对本发明实施例所提供的基于社交网络和大数据分析的用户分组方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1