一种社交网络用户虚实映射方法和系统的制作方法

文档序号:6537348阅读:357来源:国知局
一种社交网络用户虚实映射方法和系统的制作方法
【专利摘要】本发明提供一种社交网络用户虚实映射方法和系统,所述方法包括:根据社交网络用户的唯一标识获取该社交网络用户的地理位置信息,并且获取该地理位置信息对应的地理位置的周边单位名称列表;以及将所述周边单位名称列表中的每个单位名称与所述社交网络用户发布的消息内容进行匹配,根据匹配程度选择一个或多个单位名称。本发明可根据社交网络用户的唯一标识将该用户映射到一个或多个工作单位,提高了社交网络用户虚实映射的精确度。
【专利说明】一种社交网络用户虚实映射方法和系统
【技术领域】
[0001]本发明涉及计算机数据挖掘分析领域,尤其涉及一种社交网络用户虚实映射方法和系统。
【背景技术】
[0002]随着互联网的不断发展,社交网络在人们生活中扮演着重要的角色,微博、微信、人人网等已经成为人们获取信息、展示自我和营销推广的重要手段。通过社交网络,人们可以方便地以虚拟身份自由发表观点和意见,每个人都是信息的生产者和消费者,形成“自媒体”。匿名的社交网络在一定程度上保护了用户的隐私,但同样也带来了很多问题。比如,不易追踪网络虚假消息的发布者、不易定位危害国家治安言论的发布者、不易在网络中追查违法犯罪行为等。尽管我国推出了网络实名制注册政策,但面对无边界的网络社会,实名制需要全国统一,甚至需要与世界接轨,因此在实施过程中困难重重。此外,即使是采用了实名制注册也是后台实名,而前台显示仍使用昵称的匿名形式。因此,在网络的虚拟性、匿名性等特征下,根据用户在社交网络中的虚拟身份来识别用户的真实身份,即实现用户的虚实映射,具有积极的社会意义。
[0003]目前,针对社交网络中用户虚实映射的研究主要包括以下两个方面:一类是基于网络IP地址定位网络设备,如通过分析移动设备IP地址,网络设备IP地址及台式电脑IP地址等来获取设备所在的省市信息;另一类是通过人物特征属性对某个用户群体进行识别,用户的特征属性可以包括性别、年龄段、居住地、毕业院校、性格、星座、爱好、职业等,通过挖掘网络数据来识别用户特征属性,可以将拥有相同或相似特征属性的用户群挖掘出来,以便为网络营销、电商广告提供服务。
[0004]然而,由于实践中难以获得社交网络用户的IP信息,因此前一类方法的适用范围受到一定限制,不能满足IP缺失的社交网络用户的虚实映射需求;而第二类方法面向拥有相似特征的用户群,并不是面向个人用户,其偏向于挖掘用户的特征属性分类,并不能识别用户的真实身份。

【发明内容】

[0005]为解决现有技术中存在的问题,本发明提供一种社交网络用户虚实映射方法,所述方法包括:
[0006]步骤I)、根据社交网络用户的唯一标识获取该社交网络用户的地理位置信息,并且获取该地理位置信息对应的地理位置的周边单位名称列表;
[0007]步骤2)、将所述周边单位名称列表中的每个单位名称与所述社交网络用户发布的消息内容进行匹配,根据匹配程度选择一个或多个单位名称。
[0008]在一个实施例中,步骤I)还包括:对所述周边单位名称列表中的每个单位名称进行分词,得到该单位名称的分词结果。
[0009]在一个实施例中,在步骤2)中,将周边单位名称列表中的每个单位名称与社交网络用户发布的消息内容进行匹配包括:
[0010]步骤21)、将每个单位名称的全称与所述社交网络用户发布的消息内容进行匹配,如果匹配成功则使用下式计算该单位名称的近似度权重:
[0011]weight (str) = word, size (str) *factormatchtlme(sstr)
[0012]其中,str表示单位名称,weight (str)表示单位名称的近似度权重,word,size (str)表示单位名称的长度,factor表示乘数因子,matchtimes (str)表示单位名称与消息内容的匹配成功次数;
[0013]步骤22)、如果匹配不成功,则将该单位名称的分词结果中除该单位名称的全称外的每个分词与所述社交网络用户发布的消息内容进行匹配,将每个分词的匹配成功次数之和作为该单位名称的近似度权重。
[0014]在一个实施例中,步骤2 )还包括:
[0015]步骤23)、合并近似度权重相同且具有共同的最大前缀的单位名称,使得所述共同的最大前缀包含在前缀词库中或者其长度达到预定长度;其中,合并后的单位名称为所述共同的最大前缀且其近似度权重为所合并的单位名称的近似度权重之和,所述前缀词库用于存放指示地理位置的前缀词。
[0016]在进一步的实施例中,步骤23)包括:
[0017]步骤231)、对于一种近似度权重,新建一棵Trie树;
[0018]步骤232)、将具有该近似度权重的单位名称插入所述Trie树,得到具有共同的最大前缀的单位名称;
[0019]步骤233)、如果该共同的最大前缀包含在前缀词库中或者其长度达到预定长度,则合并具有该共同的最大前缀且具有该近似度权重的单位名称;其中,合并后的单位名称为该共同的最大前缀且其近似度权重为所合并的单位名称的近似度权重之和,所述前缀词库用于存放指示地理位置的前缀词;
[0020]步骤234)、销毁所述Trie树;
[0021]步骤235)、对于未处理的近似度权重,返回步骤231)进行处理。
[0022]在一个实施例中,步骤2 )还包括:
[0023]步骤24)、合并近似度权重不同且单位名称相同或者互为别名的单位名称;其中,合并后的单位名称为所合并的单位名称中的任何一个,其近似度权重为所合并的单位名称的近似度权重之和。
[0024]在一个实施例中,在步骤2)中,根据匹配程度选择一个或多个单位名称包括:将单位名称按照近似度权重进行降序排列,选择前N个单位名称并推送;其中N为正整数。
[0025]在一个实施例中,对周边单位名称列表中的每个单位名称进行分词包括:对所述周边单位名称列表中的每个单位名称进行中文分词,删除长度为一个字的分词;以及对所述周边单位名称列表中的每个单位名称进行二元组分词。
[0026]在一个实施例中,对周边单位名称列表中的每个单位名称进行分词还包括:如果对单位名称进行分词后得到的分词具有别名,则将该别名加入该单位名称的分词结果。
[0027]在一个实施例中,步骤I)包括:
[0028]步骤11)、根据社交网络用户的唯一标识从社交网络服务器获取关于该社交网络用户的返回信息,从中得到该社交网络用户发布的消息内容和地理位置信息;[0029]步骤12)、根据所述社交网络用户的地理位置信息从社交网络服务器获取该地理位置信息对应的地理位置的周边单位名称列表。其中社交网络用户的地理位置信息包括该社交网络用户发布消息的地理位置信息和该社交网络用户签到的地理位置信息。
[0030]在进一步的实施例中,步骤11)还包括:统一所述社交网络用户的地理位置信息的精确度;以及按照出现次数降序排序所述社交网络用户的地理位置信息,选择前M个地理位置信息;其中M为正整数。
[0031]在进一步的实施例中,步骤12)包括:根据所选择的M个地理位置信息,从社交网络服务器获取对应的地理位置的周边单位名称列表。
[0032]根据本发明的一个实施例,还提供一种社交网络用户虚实映射系统,包括:
[0033]社交网络用户地理特征获取设备,用于根据社交网络用户的唯一标识获取该社交网络用户的地理位置信息,并且获取该地理位置信息对应的地理位置的周边单位名称列表;以及
[0034]社交网络用户单位名称计算推送设备,用于将所述周边单位名称列表中的每个单位名称与所述社交网络用户发布的消息内容进行匹配,根据匹配程度选择一个或多个单位名称。
[0035]在一个实施例中,所述系统还包括:
[0036]社交网络用户地理信息处理设备,用于对所述周边单位名称列表中的每个单位名称进行分词,得到该单位名称的分词结果。
[0037]在一个实施例中,所述社交网络用户单位名称计算推送设备用于将每个单位名称的全称与所述社交网络用户发布的消息内容进行匹配,如果匹配成功则使用下式计算该单位名称的近似度权重:
[0038]weight (str) = word, size (str) *factormatchtlme(sstr)
[0039]其中,str表示单位名称,weight (str)表示单位名称的近似度权重,word,size (str)表示单位名称的长度,factor表示乘数因子,matchtimes (str)表示单位名称与消息内容的匹配成功次数;如果匹配不成功,则将该单位名称的分词结果中除该单位名称的全称外的每个分词与所述社交网络用户发布的消息内容进行匹配,将每个分词的匹配成功次数之和作为该单位名称的近似度权重。
[0040]在一个实施例中,所述社交网络用户单位名称计算推送设备还用于合并近似度权重相同且具有共同的最大前缀的单位名称,使得所述共同的最大前缀包含在前缀词库中或者其长度达到预定长度;其中,合并后的单位名称为所述共同的最大前缀且其近似度权重为所合并的单位名称的近似度权重之和,所述前缀词库用于存放指示地理位置的前缀词。[0041 ] 在一个实施例中,所述社交网络用户单位名称计算推送设备还用于合并近似度权重不同且单位名称相同或者互为别名的单位名称;其中,合并后的单位名称为所合并的单位名称中的任何一个,其近似度权重为所合并的单位名称的近似度权重之和。
[0042]采用本发明可以达到如下的有益效果:
[0043]本发明可根据社交网络用户的唯一标识将该社交网络用户映射到一个或多个工作单位,实现了社交网络用户到其工作单位的虚实映射。根据从社交网络用户地理位置信息得到的单位名称与该用户发布的消息内容的匹配程度来计算每个单位名称的可能性,提高了识别社交网络用户工作单位的准确性。对具有共同的最大前缀以及相同或互为别名的工作单位名称进行聚合,极大程度地减少了冗余重复,进一步提高了社交网络用户虚实映射的准确性。此外,地理位置信息除了考虑用户发布消息的位置,还考虑了用户的签到位置,同样提高了用户虚实映射的准确性。
【专利附图】

【附图说明】
[0044]图1是根据本发明一个实施例的社交网络用户虚实映射方法的流程图;
[0045]图2是根据本发明一个实施例的单位名称聚合方法的流程图;
[0046]图3是根据本发明一个实施例的构建前缀树的方法示意图;以及
[0047]图4是根据本发明一个实施例的社交网络用户虚实映射系统的框图。
【具体实施方式】
[0048]下面结合附图和【具体实施方式】对本发明进行说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0049]根据本发明的一个实施例,提供一种社交网络用户虚实映射方法。概括而言,该方法首先根据社交网络用户的唯一标识在社交网络服务器上获取该用户的地理位置信息,并且利用获取的地理位置信息在社交网络服务器上获取周边的单位名称列表;其次,根据所获取的每个单位名称与该用户发布的消息内容(例如,用户的发言内容、发表的博文内容等)的匹配程度得到每个单位名称的近似度权重;接着,对周边单位名称列表中的单位名称进行聚合,以基于聚合后的近似度权重来推送一个或多个工作单位名称。参考图1并以微博用户为例,该方法可使用以下步骤进行描述:
[0050]步骤SlOl:输入微博用户的唯一标识
[0051]步骤S102:获取该微博用户发布的消息内容(即发表的博文内容)和地理位置信息
[0052]在一个实施例中,可根据输入的微博用户唯一标识向社交网络服务器(在本实施例中为微博服务器)发出请求,获得批准后,在该微博服务器上抓取微博用户发表的博文内容和地理位置信息。如果没有抓取到关于该微博用户的博文内容或地理位置的信息,则虚实映射过程结束;如果抓取成功,则由微博服务器返回包括用户的博文内容、发表博文的地理位置以及用户签到的地理位置等返回信息,其中后面两种信息构成微博用户的地理位置信息。在进一步的实施例中,可以仅抓取特定时间区间内的信息,例如抓取工作时间段内的信息。
[0053]在一个实施例中,在抓取成功并获得返回信息后,可首先统一地理位置信息的精确度。例如,由于地理位置信息通常表示为经纬度,则可以统一经纬度数据的小数点后的位数。继而统计微博用户的每个地理位置信息出现的次数,将该出现次数作为指标对地理位置信息进行降序排序,选取前N个作为频繁地理位置信息。
[0054]步骤S103:获取周边单位名称列表
[0055]将上一步中获取的地理位置信息,逐条发送给微博服务器,定位该地理位置信息对应的地理位置并且获取该地理位置的周边单位名称列表。在另一个实施例中,可以将频繁地理位置信息逐条发送给微博服务器,并且获取对应的周边单位名称列表。
[0056]步骤S104:对获取到的周边单位名称列表进行分词
[0057]在一个实施例中,可采用本领域技术人员公知的分词方法对周边单位名称列表中的单位名称进行分词,得到每个单位名称对应的分词结果(包括一个或多个分词,其中分词可包括单位名称的全称)。举例来说,如果单位名称为Entity B,则其分词结果可包括:Entity B、Entity 以及 B。
[0058]在一个优选的实施例中,可首先对周边单位名称列表中的单位名称进行中文分词,在中文分词结束后再继续对这些单位名称进行二元组分词。其中,中文分词过程结束后,可移除长度为单个字的那些分词。
[0059]在一个实施例中,在中文分词过程中还可以参考用户词典,参考用户词典可使分词结果更符合客户需要。其中,用户词典是指用户维护的一个词典,参考该词典是指用户在分词过程中将特定的词分成一个分词,而不是按照默认的方法进行分词。
[0060]在另一个实施例中,如果在分词过程中发现得到的某个分词在别名词库中拥有别名(例如单位名称缩略词),则将该分词的所有别名也加入该单位名称对应的分词结果中。其中,别名词库是由用户维护的一个词库,用于保存多个单位名称的别名,其帮助识别分词和信息处理过程中拥有别名的实体和互为别名的实体,以达到提高匹配效率的目的。
[0061]步骤S105:计算每个单位名称的近似度权重
[0062]在周边单位名称列表的分词过程结束后,可计算该周边单位名称列表中的每个单位名称的近似度权重,即计算单位名称与微博用户发表的博文内容的匹配程度。
[0063]在一个实施例中,可首先将单位名称对应的分词结果与博文内容进行匹配,能够完全匹配的单位名称的近似度权重高,而基本匹配的单位名称的近似度权重低。其中,完全匹配表示单位名称的全称在博 文内容中得到匹配(如Entity B成功匹配);而基本匹配表示单位名称的分词结果中的分词(不包括单位名称的全称)在博文内容中得到匹配(如Entity或B成功匹配)。
[0064]在一个实施例中,可根据下式来计算完全匹配的单位名称的近似度权重:
[0065]weight (str) = word, size (str) *factormatchtlme(sstr) (I)
[0066]其中,str代表输入字符串,例如单位名称;weight (str)代表输入字符串的近似度权重,word, size (str)代表输入字符串的长度,factor代表乘数因子,matchtimes (str)代表输入字符串与博文内容的匹配次数。假定输入字符串为Entity B,则word, size等于8,设置乘数因子为1.1,如果完全匹配次数为10次,那么计算得到的近似度权重约为20。
[0067]在另一个实施例中,计算基本匹配的单位名称的近似度权重包括:计算该单位名称对应的分词结果中每个分词(不包括整个单位名称全称)与博文内容的匹配次数之和。
[0068]举例来说,假定输入的某微博用户的唯一标识为A,由A获取的周边单位名称列表中包括 Entity B、Entity C、Entity D 等,并且其中,
[0069]Entity B 的分词结果是 Entity B, Entity, B ;
[0070]Entity C 的分词结果是 Entity C, Entity, C ;
[0071]Entity D 的分词结果是 Entity D, Entity, D......[0072]则可采用如下算法来计算单位名称的近似度权重:
[0073]
算法: entityWeight
[0074]
【权利要求】
1.一种社交网络用户虚实映射方法,包括: 步骤I)、根据社交网络用户的唯一标识获取该社交网络用户的地理位置信息,并且获取该地理位置信息对应的地理位置的周边单位名称列表; 步骤2)、将所述周边单位名称列表中的每个单位名称与所述社交网络用户发布的消息内容进行匹配,根据匹配程度选择一个或多个单位名称。
2.根据权利要求1所述的方法,其中,步骤I)还包括: 对所述周边单位名称列表中的每个单位名称进行分词,得到该单位名称的分词结果。
3.根据权利要求2所述的方法,在步骤2)中,将周边单位名称列表中的每个单位名称与社交网络用户发布的消息内容进行匹配包括: 步骤21)、将每个单位名称的全称与所述社交网络用户发布的消息内容进行匹配,如果匹配成功则使用下式计算该单位名称的近似度权重:
weight (str) = word, size (str) *factormatchtlme(sstr) 其中,str表示单位名称,weight (str)表示单位名称的近似度权重,word, size (str)表示单位名称的长度,factor表示乘数因子,matchtimes (str)表示单位名称与消息内容的匹配成功次数; 步骤22)、如果匹配不成功,则将该单位名称的分词结果中除该单位名称的全称外的每个分词与所述社交网络用户发布的消息内容进行匹配,将每个分词的匹配成功次数之和作为该单位名称的近似度权重。
4.根据权利要求3所述的方法,其中,步骤2)还包括:` 步骤23)、合并近似度权重相同且具有共同的最大前缀的单位名称,使得所述共同的最大前缀包含在前缀词库中或者其长度达到预定长度;其中,合并后的单位名称为所述共同的最大前缀且其近似度权重为所合并的单位名称的近似度权重之和,所述前缀词库用于存放指示地理位置的前缀词。
5.根据权利要求4所述的方法,其中,步骤23)包括: 步骤231)、对于一种近似度权重,新建一棵Trie树; 步骤232)、将具有该近似度权重的单位名称插入所述Trie树,得到具有共同的最大前缀的单位名称; 步骤233)、如果该共同的最大前缀包含在前缀词库中或者其长度达到预定长度,则合并具有该共同的最大前缀且具有该近似度权重的单位名称;其中,合并后的单位名称为该共同的最大前缀且其近似度权重为所合并的单位名称的近似度权重之和,所述前缀词库用于存放指示地理位置的前缀词; 步骤234)、销毁所述Trie树; 步骤235)、对于未处理的近似度权重,返回步骤231)进行处理。
6.根据权利要求4所述的方法,其中,步骤2)还包括: 步骤24)、合并近似度权重不同且单位名称相同或者互为别名的单位名称;其中,合并后的单位名称为所合并的单位名称中的任何一个,其近似度权重为所合并的单位名称的近似度权重之和。
7.根据权利要求3-6中任何一个所述的方法,在步骤2)中,根据匹配程度选择一个或多个单位名称包括:将单位名称按照近似度权重进行降序排列,选择前N个单位名称并推送;其中N为正整数。
8.根据权利要求2-6中任何一个所述的方法,在步骤I)中,对周边单位名称列表中的每个单位名称进行分词包括: 对所述周边单位名称列表中的每个单位名称进行中文分词,删除长度为一个字的分词;以及 对所述周边单位名称列表中的每个单位名称进行二元组分词。
9.根据权利要求2-6中任何一个所述的方法,其中,步骤I)还包括: 如果对单位名称进行分词后得到的分词具有别名,则将该别名加入该单位名称的分词结果。
10.根据权利要求1所述的方法,其中,步骤I)包括: 步骤11)、根据社交网络用户的唯一标识从社交网络服务器获取关于该社交网络用户的返回信息,从中得到该社交网络用户发布的消息内容和地理位置信息; 步骤12)、根据所述社交网络用户的地理位置信息从社交网络服务器获取该地理位置信息对应的地理位置的周边单位名称列表。
11.根据权利要求10所述的方法,其中社交网络用户的地理位置信息包括该社交网络用户发布消息的地理位置信息和该社交网络用户签到的地理位置信息。
12.根据权利要求10或11所述的方法,其中,步骤11)还包括: 统一所述社交网络用户的地理位置信息的精确度;以及 按照出现次数降序排序所述社交网络用户的地理位置信息,选择前M个地理位置信息;其中M为正整数。
13.根据权利要求12所述的方法,其中,步骤12)包括: 根据所选择的M个地理位置信息,从社交网络服务器获取对应的地理位置的周边单位名称列表。
14.一种社交网络用户虚实映射系统(1),包括: 社交网络用户地理特征获取设备(11),用于根据社交网络用户的唯一标识获取该社交网络用户的地理位置信息,并且获取该地理位置信息对应的地理位置的周边单位名称列表;以及 社交网络用户单位名称计算推送设备(13),用于将所述周边单位名称列表中的每个单位名称与所述社交网络用户发布的消息内容进行匹配,根据匹配程度选择一个或多个单位名称。
15.根据权利要求14所述的系统(I),其中,所述系统还包括: 社交网络用户地理信息处理设备(12),用于对所述周边单位名称列表中的每个单位名称进行分词,得到该单位名称的分词结果。
16.根据权利要求15所述的系统(1),其中,所述社交网络用户单位名称计算推送设备(13)用于将每个单位名称的全称与所述社交网络用户发布的消息内容进行匹配,如果匹配成功则使用下式计算该单位名称的近似度权重:
weight (str) = word, size (str) *factormatchtlme(sstr) 其中,str表示单位名称,weight (str)表示单位名称的近似度权重,word, size (str)表示单位名称的长度,factor表示乘数因子,matchtimes (str)表示单位名称与消息内容的匹配成功次数;如果匹配不成功,则将该单位名称的分词结果中除该单位名称的全称外的每个分词与所述社交网络用户发布的消息内容进行匹配,将每个分词的匹配成功次数之和作为该单位名称的近似度权重。
17.根据权利要求16所述的系统(1),其中,所述社交网络用户单位名称计算推送设备(13)还用于合并近似度权重相同且具有共同的最大前缀的单位名称,使得所述共同的最大前缀包含在前缀词库中或者其长度达到预定长度;其中,合并后的单位名称为所述共同的最大前缀且其近似度权重为所合并的单位名称的近似度权重之和,所述前缀词库用于存放指示地理位置的前缀词。
18.根据权利要求16所述的系统(1),其中,所述社交网络用户单位名称计算推送设备(13)还用于合并近似度权重不同且单位名称相同或者互为别名的单位名称;其中,合并后的单位名称为所合并的单位名称中的任何一个,其近似度权重为所合并的单位名称的近似度权重之 和。
【文档编号】G06F17/30GK103745014SQ201410042782
【公开日】2014年4月23日 申请日期:2014年1月29日 优先权日:2014年1月29日
【发明者】梁英, 胡开先, 许洪波, 程学旗, 张国清 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1