目标对象的社交账号挖掘方法及服务器与流程

文档序号:11864677阅读:432来源:国知局
目标对象的社交账号挖掘方法及服务器与流程

本发明涉及信息技术领域,尤其涉及一种目标对象的社交账号挖掘方法及服务器。



背景技术:

随着移动互联网的普及,人们通过社交网络进行日常交流,信息同步,言论发表等行为已经非常普遍。常见的可用于社交网络进行社交的社交应用可包括微信、QQ、豆瓣等。

在社交的过程中,经常会出现意见领袖等社交影响大的任务,这些意见领袖利用他们的社交账号发表观点、转发文章等,从而影响其他用户。在具体实现时,有时候需要挖掘出这些影响力大的社交账号,以通过利用这些账号的影响力,在有限的资源下获得活动的影响最大化。例如,在广告特定人群投放方面,特定人群挖掘的精准度对于点击率效果非常重要。再例如,银行征信项目中,人群属性是非常重要的参考因素;在安全方面,对于恶意用户甚至违法分子通过社交网络帮助快速定位。这些,广告特定人群、人群属性以及恶意用户的定位,都涉及到目标对象的社交账号的挖掘。现有技术中提供了多种目标对象的社交账号的挖掘,例如,脸书提出的相似挖掘、根据社交账号网络行为的挖掘以及基于社团划分的挖掘;然而实际使用过程中发现,这些方法要么存在精确度的问题,要么就存在着计算复杂度大的问题。



技术实现要素:

有鉴于此,本发明实施例期望提供一种目标对象的社交账号挖掘方法及服务器,至少部分解决上述问题。

为达到上述目的,本发明的技术方案是这样实现的:

本发明实施例一方面提供一种目标对象的社交账号挖掘方法,包括:

利用目标对象的属性信息,定位所述目标对象所在的目标社交群;

解析所述目标社交群中社交账号的预定信息,获取所述社交账号对应的用户的第一身份信息;

将所述第一身份信息与目标对象的第二身份信息进行匹配;

确定与所述第二身份信息匹配的所述第一身份信息的社交账号为所述目标对象的社交账号。

本发明实施例另一方面提供一种服务器,包括:

定位单元,用于利用目标对象的属性信息,定位所述目标对象所在的目标社交群;

解析单元,用于解析所述目标社交群中社交账号的预定信息,获取所述社交账号对应的用户的第一身份信息;

匹配单元,用于将所述第一身份信息与目标对象的第二身份信息进行匹配;

确定单元,用于确定与所述第二身份信息匹配的所述第一身份信息的社交账号为所述目标对象的社交账号。

本发明实施例提供的目标对象的社交账号挖掘方法及服务器,会从社交账号的预定信息中提取出用户的身份信息,再将该提取出的身份信息与用户线下的身份信息匹配,就能够精确定位出目标用户的社交账号,采用这种线上的身份信息和线下的身份信息的匹配,能够提高精确度,相对于社交账号中的海量行为等其他方法来确定目标用户的社交账号,直接利用身份信息的匹配,还具有需要处理的信息量少,计算复杂度低及计算简单的特点。

附图说明

图1为本发明实施例提供的一种目标对象的社交账号挖掘方法的流程示意图;

图2为本发明实施例提供的一种社区网络构建方法的流程示意图;

图3为本发明实施例提供的一种服务器的结构示意图;

图4为本发明实施例提供的另一种服务器的结构示意图;

图5本发明实施例提供的一种目标对象的社交账号挖掘方法的流程示意图;

图6为本发明实施例提供的一种备选社交群的效果示意图;

图7为本发明实施例提供的一种目标社交群的效果示意图;

图8为本发明实施例挖掘的社交账号的用户信息效果示意图之一;

图9为本发明实施例挖掘的社交账号的用户信息效果示意图之二;

图10为本发明实施提供的目标对象参与的其他社交群的效果示意图;

图11为本发明实施例提供的一种身份信息挖掘方法的流程示意图;

图12为本发明实施例提供的一种基于关系链拓展的目标对象的社交账号挖掘流程示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

如图1所示,本实施例提供一种目标对象的社交账号挖掘方法,包括:

步骤S110:利用目标对象的属性信息,定位所述目标对象所在的目标社交群;

步骤S120:解析所述目标社交群中社交账号的预定信息,获取所述社交账号对应的用户的第一身份信息;

步骤S130:将所述第一身份信息与目标对象的第二身份信息进行匹配;

步骤S140:确定与所述第二身份信息匹配的所述第一身份信息的社交账号为所述目标对象的社交账号。

本实施例提供的目标对象的社交账号挖掘方法,可应用于各种具有信息处理的电子设备中,具体应用于分布式计算机网络中,可由多台设备来执行。

在本实施例中所述目标对象可为目标用户。所述社交群可为各种可用于网络社交功能的虚拟组织,通常都至少包括两个成员。所述社交群可包括微信群、QQ群等各种群。

所述目标对象的属性信息可包括身份信息、职位信息、年龄信息等各种特征信息,在步骤S110中通常选择所述目标对象较为独特的属性信息,例如可以唯一区分所述目标对象与其他用户的属性信息。例如,所述目标对象为Y企业创始人B先生,就可以用“Y企业”这一关键词或“Y企业高管”、或者甚至“B先生”、“Y企业创始人”这些词条作为B先生的属性信息,确定出目标社交群。例如,“Y企业高管”为目标对象的信息,通过信息匹配就可以找到群名或群名备注为“Y企业高管”的社交群作为所述目标社交群。通常此时,目标对象的社交账号在目标社交群中的概率较高。

在步骤S120中解析目标社交群中社交账号的预定信息。这里的预定信息可包括群昵称、社交账号等信息。通常为了方便社交过程中识别,有些用户不局限于用网络名称进行社交,还会在各种备注信息中备注自己的日常生活所用的名称等身份信息。例如,在群昵称字段中:李娜;该李娜是一个用户日常生活中使用到的称呼,甚至可能是用户身份证或护照上使用的称呼。所述第一身份信息可包括用户的线下的称呼。所述线下的称呼,可如“李娜”等包括姓氏和名称;也可以是包括职业称呼,例如“北大校长”等,这些信息都可以是所述第一身份信息,能够表示用户在线下的身份。所述第二身份信息可为执行本实施例所述方法的电子设备从其他电子设备,或从人机交互接口接收到的信息。例如,当前目标对象是Y企业高管;则以Y企业高管为检索词条,就可能搜索到Y企业公司高管的名录以及对应的职位等信息。

在步骤S130中将从社交账号中提取的第一身份信息和第二身份信息进行匹配,若匹配成功,则表示对应的账号为目标对象的社交账号的概率非常高,就可认为是找大了目标对象的社交账号。显然就挖掘到了目标对象的社交账号,采用这种结合用户的线下身份信息来定位其社交账号的方法,具有复杂度低且精确度高的特点。

本实施例为了更加充分的挖掘出目标对象的社交账号,首先需要精确的定位目标社交群,以下提供一种可选简便快捷且精确定位目标社交群的方法,具体如,所述步骤S110可包括:

利用所述属性信息,与备选社交群的群属性进行匹配;

选择群属性与所述属性信息相匹配的社交群为所述目标社交群。

通常一个社交群都会设置对应的群名或群标签等。所述群名或群标签即为所述群属性。这些群名等群属性可以从一定的程度上反映该社交群内社交账号对应的用户的身份信息。在本实施例中直接通过群名的匹配,可以便捷的找到部分目标社交群。但是有时候,有些社交群的群名并不能很好的反映社交群内的成员的身份信息。在本实施例中将采用以下方法,来挖掘群名不能精确反映群内成员的身份信息的方法。所述方法还包括:

构建群社区;其中,所述群社区包括至少两个满足预定关联度的社交群;

对所述社交群的属性信息进行信息聚类,确定聚类主题并确定出与所述属性信息满足预设匹配度的目标聚类主题;

过滤与所述目标聚类主题不相关的所述群社区,获得与所述目标聚类主题相关的目标群社区;其中,位于所述目标群社区中的所述社交群为所述备选社交群。

若一个目标对象位于多个社交群,则这些社交群就会有相同的社交账号,此时,即可认为这些社交群满足预定的关联度。

在本实施例中将构建群社区,该群社区包括至少两个社交群。社交群里的群成员即对应于社交账号的用户。

进入对群社区内的社交群进行信息聚类。这里的信息聚类可包括提取每一个社交群的群名,将这群名视为文档,采用文档主题生成模型(Latent Dirichlet Allocation,LDA)进行主题聚类,形成聚类结果。所述LDA也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所述文档主题生成模会将文档内每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。同时LDA还是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。

当然所述群社区的属性信息不局限于群名,还可包括群内的聊天记录或社交群的群空间内存储的群文档;或社交群内群空间内存储的群图片中提取的信息。

总之通过主题聚类,可以确定出多个群社区的关联度。接下来选择与目标对象的属性信息相符的目标聚类主题来过滤群社区。例如,群社区有多个,通过信息聚类,发现有些群社区跟A大学相关,有些群社区跟B大学相关;而此时目标对象是A大学的教授;接下来就选择A大学作为所述目标聚类主题,过滤掉与A大学不相关的群社区,获得目标群社区。在本实施例中在进行目标聚类主题过滤群社区时,可以利用目标聚类主题与群社区的社区属性进行模糊匹配,定位出所述目标群。所述模糊匹配不一定完全包括目标聚类主题,可以包括目标聚类主题的同义词条等,以尽可能避免漏选目标对象所在目标群社区。位于所述目标群社区中的社交群即为所述备选社交群。

再选择出了所述备选社交群之后,利用精确匹配从备选社交群中选择出与所述目标对象的属性信息匹配的目标社交群。这的精确匹配通常是要求两个匹配的词条之间完全匹配,两个词条有同义都不是所述精确匹配,这样以精确定位所述目标社交群,减少所述目标对象不再的社交群的个数,减少后续处理的数据量,以降低处理复杂度和运算量。在确定所述目标社交群可包括:首先利用目标对象的属性信息与备选群社区中的社交群的群属性进行精确匹配,选择出精确匹配成功次数大于预定次数的群社区作为目标群社区。再将目标群社区中的社交群作为所述目标社交群。当然还可以利用所述目标用户的群属性与目标群社区中的社交群进行再次匹配,本次匹配可以上述模糊匹配,若模糊匹配成功,则模糊匹配成功的社交群即为所述目标社交群。

当然确定所述备选社交群的方法,除了上述方法之外,还可将直接将一中社交工具中所有的社交群视为备选社交群等。

在选择出目标群社区之间,需要将一个一个单独的群社交划分到群社区内,划分的方法有可以群名等群信息聚类来获得,以下提供另外一种聚类精确高的可选方法:

所述构建群社区,包括:

首先,构建至少包括两个所述社交群的社区网络;所述社交群为所述社区网络中的结点;第一结点和第二结点包含有相同社交账号,则所述第一结点到所述第二结点之间设有有向边;所述有向边的边权重等于第一数值与第二数值的比值;所述第一数值为所述第一结点和第二结点包含有相同社交账号的数目;所述第二数值为第二结点包含的社交账号的数据。本实施例中所述有向边为有向边。所述有向边为有方向的边。在本实施例中所述有向边为从一个结点指向另一个结点的边。

在图2中显示有3个社交群,分别是G1、G2及G3。所述G1中包括5个成员,一个所述成员对应一个社交账号。所述G2中包括4个成员。所述G3包括6个成员。在图2中填充相同阴影的小圆圈代表相同的社交账号,故由图2可知,G1和G2有3个相同的社交账号;G2和G3有2个相同的社交账号;G1和G3有3个相同的社交账号,由两个社交群共同包含的社交账号可称为共同社交账号。

利用图2中G1、G2及G3构建社区如图2中右侧所示的社区网络。构建社区网络,具体如通过构建社区图来构建所述社区网络。

所述社区图具有以下特点:

图类型:有向图

图结点:一个社交圈应图的一个结点;

图边:存在共同群成员的两个结点之间的连接线。

在构建完所述社区网络之后,需要计算边权重。

在计算边权重时,将共同社交账号的第一数值与结点包括的社交账号的第二数值的比较,即得到所述边权重。例如,从G1到G2的有向边的边权重为可以采用如下公式计算:

WGy——→Gx=Countcom(Gy,Gx)/Count(Gx)

其中,所述WGy——→Gx表示从社交群Gy到社交群Gx的边权重。所述Countcom(Gy,Gx)表示社交群Gy和社交群Gx的共同社交成账号;所述Count(Gx)为社交群的社交账号。

故在图2所示的社区图中,显示有从G1到G2的边权重为:/4=0.75;从G1到G3的边权重为:3/6=0.5;从G2到G1的边权重为:3/5=0.6;从G2到G3的边权重:2/6=0.33;从G3到G1的边权重:3/5=0.6;从G3到G2的边权重为2/4=0.5。

其次,遍历社区网络,以每一个结点为目标结点,收集目标结点的相邻结点的结点标签及对应的入度边权重;其中,所述入度边权重为从所述相邻结点指向所述目标结点的有向边的边权重;所述目标结点为所述社区网络中的一个结点。在本实施例中遍历所述社区网络为:以每一个所述结点为一次所述目标结点。每一个所述结点都对应一个结点标签,该结点标签的初始值可为对应结点自身的结点标识。例如,以G1为目标结点,则其入度边包括两条有向边,分别是从G2到G1的有向边,从G3到G1的有向边;对应的入度边权重为0.5和0.6,显然G3到G1的有向边的边权重最大。若所述G1为第一个进行遍历的目标结点,则此时会将G1的结点标签替换成G3的结点标签。由于G3的结点标识的初始值为G3自身的结点标识,则G1的结点标签在被更新后为G3的结点标识。

再次,将结点标签相同的所述入度边权重相加。在遍历开始之前,每一个结点的结点标签都是其自身,随着遍历了部分结点之后,有些结点的结点标签已经更替为了其他结点的结点标识,这个时候目标结点的有向边中可能有多个是对应于同一个结点标识的,故此时需要将结点标签相同的所述入读边的权重相加。

接着,利用最大所述入度边权重对应的结点标签,替换所述目标结点的结点标签。相加后得到了一个目标结点的所有有向边的边权重及有向边对应的结点标签,选择边权重最大的结点标签,替换目标结点的结点标签。

最后,当遍历完所述社区网络之后,将具有相同结点标签的社交群划分到一个群社区。当遍历完所有社区网络中的结点之后,部分或全部结点标签进行了更新。在本实施例中会将具有相同结点标签的社交群划分到同一个群社区中。显然这样得到的群社区内社交群任意两个社交群都会有相同的社交账号。故此处,满足所述预设关联度的社交群可为:群社区内任意两个社交群至少包括一个相同社交账号。

所述步骤S120可包括:

提取所述目标社交群中各所述社交账号的备注信息;其中,所述备注信息为对用户身份的进行备注的信息;

从所述备注信息中提取所述第一身份信息。

图所示为一个微信的社交账号界面,显然在该社交账号的备注信息中可以看到一些社交账号的用户信息,这些用户信息就包括用户的名称等信息。故可以从备注信息中提取出所述第一身份信息,所述第一身份信息可包括用户名称或昵称等。所述备注信息可以对应于社交账号中能够表明用户身份的多个字段内的信息。

具体地如,所述备注信息包括好友备注信息、群备注信息及账号备注信息的至少其中之一;所述好友备注信息为第一社交账号的好友账号对所述第一社交账号的备注信息;所述群备注信息为所述第一社交账号在所述社交群的备注信息;所述账号备注信息为所述第一社交账号自身对用户身份的备注信息。

在使用社交账号时,有些用户直接会将自己的社交账号的账号名改成自己的名字或昵称,当加入一个社交群之后,在该社交群内还会设置群昵称或群称呼等备注信息或标签信息。当一个社交账号被添加为其他社交账号的好友之后,该社交账号的备注信息可能会被好友用户直接设置成该社交账号的用户的用户名等。故在本实施例中可以从这些信息中提取所述第一身份信息,以方便在步骤S130中的匹配。在进行第一身份信息和第二身份信息匹配时,可以直接进行匹配,在本实施例中为了避免所述第一身份信息中出现名字书写错误等,例如,书写成同音字,在本实施例中所述步骤S130可包括:提取所述第一身份信息的发音信息;所述步骤S140可包括:将所述第一身份信息的发音信息与所述第二身份信息的发音信息进行匹配。

所述发音信息可以为中文的拼音,在本实施例中通过中文拼音的匹配,可以避免有些中文汉字书写错误,导致的第一身份信息和第二身份信息明明指代的是同一人,而没有匹配成功的问题,以提高匹配成功率。

当所述目标对象为多个且所述目标对象具有关联关系时,所述方法还包括:

提取已确定社交账号的所述目标对象的好友账号;

解析所述好友账号的预定信息,获得待与所述第一身份信息匹配的所述第二身份信息。

所述目标对象可能对应多个目标用户,例如,目标对象为Y企业高管,显然可能有多个,且这些多个目标对象都是Y企业高管是有关联关系的。那么这些目标对象会基于这种关联关系,可能是彼此的好友,这种好友关系会在社交账号的好友账号中体现出来。故在本实施例中会已确定社交账号的目标对象为种子用户,提取种子用户的社交账号的好友账号,再次解析这些好友账号的所述预定信息,这样的话,就相当于拓展了定位目标对象的社交账号的方位。例如,目标对象A的好友包括目标对象B;目标对象B有可能不在目标社交群内,通过这种好友关系链的解析,以目标对象A为种子用户,就能够定位出目标对象B的社交账号,从而提升了确定目标对象的社交账号的成功率。

如图3所示,本实施例还提供一种服务器包括定位单元110、解析单元120、匹配单元130及确定单元140。所述定位单元110,用于利用目标对象的属性信息,定位所述目标对象所在的目标社交群;所述解析单元120,用于解析所述目标社交群中社交账号的预定信息,获取所述社交账号对应的用户的第一身份信息;所述匹配单元130,用于将所述第一身份信息与目标对象的第二身份信息进行匹配;所述确定单元140,用于确定与所述第二身份信息匹配的所述第一身份信息的社交账号为所述目标对象的社交账号。

在本实施例中所述定位单元110、解析单元120、匹配单元130及确定单元140都可对应于服务器内信息处理结构。所述信息处理结构可包括中央处理器CPU、微处理器MCU、数字信号处理器DSP、可编程阵列PLC或应用处理器AP等处理器。所述信息处理结构还可包括专用集成电路ASIC。所述信息处理结构可为能够进行信息处理的电子结构。

本实施例中所述信息处理结构可通过执行预定代码,实现上述单元的功能,以通过第一身份信息与线下的第二身份信息匹配,以精确确定出目标对象的社交账号,以方面利用目标对象的社交账号进行信息推广及信息挖掘等后续操作。例如,目标用户由于其身份特征,可能会对某一些信息感兴趣,通过社交账号的挖掘可以实现有针对性的信息推广,例如广告发布。若目标对象为意见领袖,意见领袖的发布或编辑或关注的信息,有非常大的概率会被以其为意见领袖的其他用户所关注,故可以挖掘该社交账号发布的信息,再发布到其他平台或推广给其他社交账号,以实现信息的精准传播等。

在一些实施例中,所述定位单元110,具体用于利用所述属性信息,与备选社交群的群属性进行匹配;选择群属性与所述属性信息相匹配的社交群为所述目标社交群。例如,所述定位单元110可通过目标用户的属性信息与备选社交圈的群属性的匹配选择出所述目标社交群。所述群属性可包括群名称、群备注或群标签等各种能够反映社交群内群成员身份特征的信息。

在一些实施例中,所述服务器还包括构建单元、聚类单元以及过滤单元。所述构建单元,用于构建群社区;其中,所述群社区包括至少两个满足预定关联度的社交群;所述聚类单元,用于对所述社交群的属性信息进行信息聚类,确定聚类主题并确定出与所述属性信息满足预设匹配度的目标聚类主题;所述过滤单元,用于过滤与所述目标聚类主题不相关的所述群社区,获得与所述目标聚类主题相关的目标群社区;其中,位于所述目标群社区中的所述社交群为所述备选社交群。本实施例所述构建单元以、所述聚类单元及过滤单元都可对应于上述信息处理结构,利用上述信息处理结构的信息处理,定位出所述目标群社区,将目标群社区中的社交群确定备选社交群,显然大大的缩小了备选社交群的范围,简化了后续目标社交群的定位,提升了目标对象的社交账号的确定效率。

例如,所述构建单元,具体用于构建至少包括两个所述社交群的社区网络;所述社交群为所述社区网络中的结点;第一结点和第二结点包含有相同社交账号,则所述第一结点到所述第二结点之间设有有向边;所述有向边的边权重等于第一数值与第二数值的比值;所述第一数值为所述第一结点和第二结点包含有相同社交账号的数目;所述第二数值为第二结点包含的社交账号的数据;遍历社区网络,以每一个结点为目标结点,收集目标结点的相邻结点的结点标签及对应的入度边权重;其中,所述入度边权重为从所述相邻结点指向所述目标结点的有向边的边权重;所述目标结点为所述社区网络中的一个结点;所述结点标签的初始值为对应结点的结点标识;将结点标签相同的所述入度边权重相加;利用最大所述入度边权重对应的结点标签,替换所述目标结点的结点标签;当遍历完所述社区网络之后,将具有相同结点标签的社交群划分到一个群社区。

通过群社区的划分,方便后续根据目标用户的属性信息,第一次筛选出目标用户可能大致所在的社交群,从而以减少信息处理量,提升处理效率。

在一些实施例中,所述解析单元120,具体用于提取所述目标社交群中各所述社交账号的备注信息;其中,所述备注信息为对用户身份的进行备注的信息;从所述备注信息中提取所述第一身份信息。在本实施例中实施所述解析单元120会提取社交群各个社交账号的备注信息来获取身份信息。这里的标注信息可为指定字段或指定类型的信息,在这些指定字段或指定类的信息中可能出现用户收入的用户身份信息,故可以通过解析这些信息获取所述第一身份信息。

根据所述备注信息的来源,所述备注信息可包括好友备注信息、群备注信息及账号备注信息。故所述备注信息包括好友备注信息、群备注信息及账号备注信息的至少其中之一;所述好友备注信息为第一社交账号的好友账号对所述第一社交账号的备注信息;所述群备注信息为所述第一社交账号在所述社交群的备注信息;所述账号备注信息为所述第一社交账号自身对用户身份的备注信息。

由于网络信息可能会出现较为随意的现象,经常会将一个用户的名字写成同音字的现象,为了避免这种现象导致的匹配失败,在本实施例中,所述解析单元120,具体用于提取所述第一身份信息的发音信息;所述匹配单元130,具体用于将所述第一身份信息的发音信息与所述第二身份信息的发音信息进行匹配。通过发音信息的匹配,可以提升匹配的成功率,提升所述目标对象的社交账号确定的成功率。

此外,所述确定单元140,还用于当所述目标对象为多个且所述目标对象具有关联关系时,提取已确定社交账号的所述目标对象的好友账号;解析所述好友账号的所述预定信息,获得待与所述第一身份信息匹配的所述第二身份信息。为了再次提高目标用户的社交账号的定位成功率,在本实施中,不局限于目标社交群中的社交账号的匹配,还会通过已确定出社交账号的好友关系链来定位,以提升目标对象的社交账号的确定成功率。

如图4所示,本发明实施例还提供另一种服务器,所述服务器包括处理器402、存储介质404以及至少一个外部通信接口401;所述处理器402、存储介质404以及外部通信接口401均通过总线403连接。所述处理器402可为微处理器、中央处理器、数字信号处理器或可编程逻辑阵列等具有处理功能的电子元器件。

所述存储介质404上存储有计算机可执行指令;所述处理器402执行所述存储介质404中存储的所述计算机可执行指令可实现上述任意技术方案提供的目标对象的社交账号挖掘方法,具体可执行如图1所述的方法。

以下结合上述任意实施例提供几个示例:

示例一:

如图5所示,本示例中以微信作为社交工具,提供一种目标对象的微信账号挖掘方法,可包括5大步骤,分别是:

步骤S1:微信群社区发现;

步骤S2:微信群社区LDA主题聚类;

步骤S3:微信群文本挖掘;

步骤S4:用户实名文本挖掘;这的实名可包括用户在线下的社交生活中所使用的名字;

步骤S5:关系链扩散,以获得目标对象的社交账号。

所述步骤S1可包括:

步骤S11:微信群社区构建;

步骤S12:全量做社区发现,获取的社区。这里的全量做社区发现,包括对所有的社交群形成社区网络,通过社区网络的划分形成包括满足预设相关度多个社交群的群社区。

步骤S2可包括:

步骤S21:针对每一个群社区手机该社区中所有群名称;

步骤S22:把群社区看做文章,收集到的群名称看做文章内容,做LDA主题聚类。

步骤S3可包括:

步骤S31:通过主题模型过滤非相关主题的群社区;

步骤S32:获取需要挖掘高管对应的公司名称;

步骤S33:对于每一个群社区,用群名称匹配公司名称;

步骤S34:匹配成功次数大于3次的群社区留下,作为含有高管主体的群社区;

步骤S35:获取群成员及群成员的实名与需要挖掘高管匹配作为种子人物。

所述步骤S4可包括:

步骤S41:收集用户之前的备注信息;

步骤S42:收集用户本身的群备注信息;

步骤S43:挖掘用户实名;此处的所述用户实名对应于的前述的第一身份信息,可包括用户线下的名称或称呼或头衔等。

步骤S44:微信号实名挖掘数据。

步骤S5可包括:

步骤S51:拉取种子人物的好友以及对应的实名;这里的种子用户相当于前述实施例中已确定出社交账号的目标对象。

步骤S52:判断被挖掘高管与微信号是否匹配完毕,若未匹配完毕进入步骤S55,若匹配完成,进入步骤S53。

步骤S53:拉取高管的微信号信息;当然在具体的实现过程中,当社交账号还可以是QQ号、脸书账号、推特账号等各种社交账号。在拉取高管的微信号信息,可包括微信号本身,还可包括高管的微信好友等各种为信息。

步骤S54:根据网上资料判断匹配微信号是否正确。

示例二:

下面以查找M公司的首席执行官CEO为例说明,定位M公司CEO所用的微信账号。分析M公司CEO的属性信息,可知M公司CEO是目标用户的一个职业身份信息,M公司是一家互联网公司,可以首先通过互联网这一属性可以选择出与互联网相关联的微信群,利用乐视为属性信息,选择出与乐视相关的微信群,再利用乐视CEO的线下身份信息与微信中提取的身份信息进行匹配,确定出乐视CEO的微信号;例如,所述线下身份信息可包括乐视CEO的名字A。本示例的所述方法具体操作可如下:

首先,寻找M公司的微信群社区。

1)微信群社区主题过滤互联网相关行业后,再利用名称字符匹配含有“乐视”关键词的群名称;筛选出至少包含三个群名称匹配成功的群社区。此处的群社区的匹配采用模糊匹配,匹配的效果图可如图6所示。

2)继续过滤出高管主题的群社区。通过本次筛选的留下的社交群如图7所示;图7所示为基于图6所示的备选社交群进过再次筛选之后的目标社交群。

其次,通过备注信息的解析,获得各个微信账号对应的用户的第一身份信息。例如,用户基本信息查找;将查找后的基本信息进行验证。图8和图9为在确定微信账号之后,微信账号确定的第一身份信息。

再次,第一身份信息与其他途径获取的第二身份信息进行匹配,通过匹配确定出M公司CEO使用的微信账号。

图10所示的为:利用A对应的社交账号确定出的A参与的社交群。

微信群社区网络的构造:

图类型:有向图

图结点:一个微信群对应图的一个结点

图的边:存在共同的群成员的两个群结点

图的有向边权重:

EdgeWeightGroupY-GroupX=CommonUserCount(GroupY,GroupX)/UserCount(GroupX)

CommonUserCount(GroupY,GroupX)表示社交群GroupY和社交群GroupX的共同社交账号的数量。

UserCount(GroupX)表示社交群GroupY的社交账号的数量。

所述EdgeWeighGtroupY-GroupX为从社交群GroupY到社交群GroupX的图的边的有向边权重。

通过上述社区网络的构建,可以实现将成员数少的小社交群与成员数较多的大社交群。例如,当一个100人部门群与一个10人小组群有建立关系的时候,这个10人同时属于同于包括100个的部门中,则显然在进行上述社区网络构造中,会使得所述该140人小群组的结点标签会被提到成该100人部门群的结点标签。

关于社区发现的算法很多,可使用计算简单的标签传递算法(Label Propagation Algorithm,LPA),并利用收集应用扩散GAS(Gather Apply Scatter)方法进行构建,例如,采用分布式并行计算来进行社区网络的划分。

分布式有向图改进版LPA社区发现算法包括:

第一,初始化操作:将每一个结点的结点标签设置为该结点自身的结点标识。

第二,更新结点标签,更新结点标签包括:

收集操作:针对每个目标结点收集其入度邻居结点结点标识以及对应入度边权重。

应用操作:把收集到的邻居结点与入度边权重,分别对相同结点标签的入度边权重进行求和,最后选择最大求和值对应的结点标签作为本结点的结点标签。如果同时出现多个相同入度边权重时,则随机选择其中一个进行结点标签进行替换。

扩散操作:对比新计算的结点标签与上一轮计算的结点标签是否有变化,如果有变化,通知所有邻居结点,表明本结点的结点标签有更新,需要进行下一轮更新计算。

在本示例中,所述收集操作和所述扩散操作,可异步进行,每次收集操作首级到新的信息,则必然会导致应用操作和扩散操作的执行和结点标签的新一轮的更新。

身份信息挖掘

根据用户的备注信息,先转化成拼音,然后通过分别匹配统计高概率姓氏与名称最终确定用户姓名。这里的拼音即为上述发音信息的一种。

例如,如图11所示,包括:

步骤S61:收集用户被好友备注的备注信息;

步骤S62:收集用户本身的群备注信息;

步骤S63:拼音处理:对于相同拼音的名字都用最高频名称替代;

步骤S64:提取拼音;

步骤S65:获取形式列表;

步骤S66:匹配最有可能的姓氏;

步骤S67:微信号实名挖掘数据。在本示例中通过拼音的提取和姓氏的匹配,这样可以实现书写错误的校正,最后利用匹配出的姓氏进行第一身份信息和第二身份信息的匹配,能够提升匹配成功率。

迭代扩散

对于已经获取到的种子用户,通过拉取种子用户的社交账号的关系链,然后抽选出能同时加N个种子用户为好友的备选用户,拉取上一步挖掘实名信息,然后进行高管名字匹配。对于匹配正确的高管作为下一轮的种子用户迭代。

例如,如图12所示,包括:

步骤S71:匹配正确的高管作为下一轮好友扩散的种子人物;

步骤S72:拉取种子人物的好友以及对应好友的实名;

步骤S73:被挖掘高管是否匹配完毕,未匹配完毕返回步骤S71,否则停止。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1