社交网络中的领域专家发现方法和系统的制作方法

文档序号:6547016阅读:171来源:国知局
社交网络中的领域专家发现方法和系统的制作方法
【专利摘要】本发明公开了一种社交网络中的领域专家发现方法和系统,所述方法包括:针对所述社交网络中待识别用户的每篇博文,将该博文进行分词,得到该博文的分词结果,并针对所述社交网络中的每个领域,将该博文的分词结果与该领域的特征词库中的领域特征词进行匹配,并根据匹配结果,确定该博文与该领域的相关度;针对每个领域,统计与该领域的相关度超过设定阈值的该用户的博文的个数,并将统计出的博文的个数与所述用户的博文总数的比值,作为所述用户与该领域的相关度;若所述用户与该领域的相关度超过设定值,则确定所述用户为该领域的专家。应用本发明,可提高发现的领域专家的准确度。
【专利说明】社交网络中的领域专家发现方法和系统
【技术领域】
[0001]本发明涉及互联网【技术领域】,尤其涉及一种社交网络中的领域专家发现方法和系统。
【背景技术】
[0002]随着互联网技术的发展,通过社交网络软件来进行信息的分享、传播以及获取,已成为广大网民的主要社交方式之一。例如,通过微博或Twitter (推特)等社交网络软件,用户可以通过各种客户端组建个人社区,不断通过文字、图片等形式更新信息,实现自己的最新动态和想法的即时分享。
[0003]实际应用中,通过对微博等社交网络软件的观察和分析发现,在整个社交网络之上分布着大大小小的不同领域的社交圈,如何在整个社交网络中的全部人群中分析出不同领域的专家,对于后续的用户扩展、商业运营等都起着至关重要的作用。如果能够对于某个领域的专家进行准确的挖掘,则可以利用该挖掘结果为社交网络软件提供领域专家扩展服务、以及为垂直领域项目提供数据支撑。例如,为用户推荐其感兴趣的领域专家;或者,为专家搜索提供基础服务等。
[0004]现有存在一种人工发现社交网络中的领域专家的方法,其主要是让社交网络中的用户按照指定格式填写的标签、认证信息等用于确定用户相关领域的认证内容,继而,社交网络的运营人员可以根据用户填写的认证内容进行人工审查,判断该用户是否为某一领域的权威专家。实际应用中,填写认证内容的用户并不是很多,且用户填写的认证内容只能涉及部分领域,准确率低,导致上述领域专家发现方法的领域覆盖率低,且其发现的领域专家的准确度不高。而且,通过人工进行审核,存在工作量大、耗费时间长的不足。
[0005]为了减少发现领域专家的工作量及耗费时间,现有还提出了一种基于用户分组信息的领域专家发现方法,其主要是根据用户的粉丝或其他用户对该用户的分组名称,统计出该用户在各领域的权重,继而,根据该用户在各领域的权重及预置的判定条件,判断该用户是否为某一领域的专家。实际应用中,并不是所有用户都会对其关注的其他用户进行分组,且其对其他用户的分组主要基于主观了解,领域覆盖率低且准确度也不高,继而导致上述基于用户分组信息的领域专家发现方法存在用户召回率低、准确度不高的不足。
[0006]综上所述,现有的领域专家发现方法,存在领域覆盖率低、发现的领域专家的准确度不高的不足,因此,有必要提供一种提高领域覆盖率及准确度的社交网络中的领域专家发现方法。

【发明内容】

[0007]本发明实施例提供了一种社交网络中的领域专家发现方法和系统,提高了领域专家发现的准确度。
[0008]根据本发明的一个方面,提供了一种社交网络中的领域专家发现方法,包括:
[0009]针对所述社交网络中待识别用户的每篇博文,将该博文进行分词,得到该博文的分词结果,并针对所述社交网络中的每个领域,将该博文的分词结果与该领域的特征词库中的领域特征词进行匹配;根据匹配结果,确定该博文与该领域的相关度;
[0010]针对每个领域,统计与该领域的相关度超过设定阈值的该用户的博文的个数,并将统计出的博文的个数与所述用户的博文总数的比值,作为所述用户与该领域的相关度;若所述用户与该领域的相关度超过设定值,则确定所述用户为该领域的专家。
[0011]较佳地,所述领域的特征词库是预先构建的,具体包括:
[0012]将社交网络中已划分到所述领域中的若干个用户作为所述领域的种子用户,并将各种子用户的博文作为该领域的种子博文存储至博文语料集中;
[0013]对于博文语料集中该领域的每个种子博文,对该种子博文进行分词,统计出该种子博文的分词结果中各词汇的频率信息;并根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词;
[0014]针对该领域的每个特征候选词,统计博文语料集中各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率;
[0015]针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算出该特征候选词的特征得分;在判断该特征得分超过预先设定的特征阈值后,将该特征候选词作为该领域的领域特征词存储至所述领域的特征词库中,并在所述领域的特征词库中将该特征得分作为该领域特征词的权重与该领域特征词对应存储。
[0016]较佳地,所述根据匹配结果,确定该博文与该领域的相关度,具体包括:
[0017]将该博文的分词结果中与该领域的特征词库中的领域特征词相同的词汇作为该博文的特征词;
[0018]对于该博文的每个特征词,统计出该特征词在该博文中出现的频次,并将该特征词在所述特征词库中所对应的权重作为该特征词的领域权重;
[0019]根据该博文的特征词总数、该博文的各特征词的领域权重以及在该博文中出现的频次,计算出该博文与该领域的相关度。
[0020]较佳地,所述根据该博文的特征词总数、该博文的各特征词的领域权重以及在该博文中出现的频次,计算出该博文与该领域的相关度,具体包括:
[0021]根据如下公式1,计算出该博文与该领域的相关度St:
[0022]
【权利要求】
1.一种社交网络中的领域专家发现方法,其特征在于,包括: 针对所述社交网络中待识别用户的每篇博文,将该博文进行分词,得到该博文的分词结果,并针对所述社交网络中的每个领域,将该博文的分词结果与该领域的特征词库中的领域特征词进行匹配;根据匹配结果,确定该博文与该领域的相关度; 针对每个领域,统计与该领域的相关度超过设定阈值的该用户的博文的个数,并将统计出的博文的个数与所述用户的博文总数的比值,作为所述用户与该领域的相关度;若所述用户与该领域的相关度超过设定值,则确定所述用户为该领域的专家。
2.如权利要求1所述的方法,其特征在于,所述领域的特征词库是预先构建的,具体包括: 将社交网络中已划分到所述领域中的若干个用户作为所述领域的种子用户,并将各种子用户的博文作为该领域的种子博文存储至博文语料集中; 对于博文语料集中该领域的每个种子博文,对该种子博文进行分词,统计出该种子博文的分词结果中各词汇的频率信息;并根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词; 针对该领域的每个特征候选词,统计博文语料集中各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率; 针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算出该特征候选词的特征得分;在判断该特征得分超过预先设定的特征阈值后,将该特征候选词作为该领域的领域特征词存储至所述领域的特征词库中,并在所述领域的特征词库中将该特征得分作为该领域特征词的权重与该领域特征词对应存储。
3.如权利要求1所述的方法,其特征在于,所述根据匹配结果,确定该博文与该领域的相关度,具体包括: 将该博文的分词结果中与该领域的特征词库中的领域特征词相同的词汇作为该博文的特征词; 对于该博文的每个特征词,统计出该特征词在该博文中出现的频次,并将该特征词在所述特征词库中所对应的权重作为该特征词的领域权重; 根据该博文的特征词总数、该博文的各特征词的领域权重以及在该博文中出现的频次,计算出该博文与该领域的相关度。
4.如权利要求3所述的方法,其特征在于,所述根据该博文的特征词总数、该博文的各特征词的领域权重以及在该博文中出现的频次,计算出该博文与该领域的相关度,具体包括: 根据如下公式1,计算出该博文与该领域的相关度St:
5.如权利要求3所述的方法,其特征在于,所述将该博文的分词结果中与该领域的特征词库中的领域特征词相同的词汇作为该博文的特征词之后,还包括:对于该博文的每个特征词,将该特征词与该领域的共现特征词库中的领域共现特征词进行匹配;若所述共现特征词库中存在与该特征词相同的领域共现特征词,则将所述共现特征词库中与该领域共现特征词结对的词汇作为该博文的新的特征词;以及 将该特征词在该博文中出现的频次作为该新的特征词在该博文中出现的频次,并将该新的特征词在该领域的特征词库中所对应的权重作为该新的特征词的领域权重。
6.如权利要1-5任一所述的方法,其特征在于,所述博文具体是指待识别用户在所述社交网络上发布、评论、收藏、或转发的博文。
7.一种社交网络中的领域专家发现系统,其特征在于,包括: 博文分词模块,用于针对所述社交网络中待识别用户的每篇博文,将该博文进行分词,并输出该博文的分词结果; 领域特征词匹配模块,用于对于所述用户的每篇博文,针对所述社交网络中的每个领域,将所述博文分词模块输出的该博文的分词结果与该领域的特征词库中的领域特征词进行匹配,并输出该博文与该领域的匹配结果; 博文领域相关度计算模块,用于对于所述用户的每篇博文,针对所述社交网络中的每个领域,根据所述领域特征词匹配模块输出的该博文与该领域的匹配结果,确定该博文与该领域的相关度并输出; 用户领域相关度计算模块,用于对于所述用户的每篇博文,针对所述社交网络中的每个领域,根据所述博文领域相关度计算模块输出的该博文与该领域的相关度,统计与该领域的相关度超过设定阈值的所述用户的博文的个数,并将统计出的博文的个数与所述用户的博文总数的比值,作为所述用户与该领域的相关度并输出; 领域专家确定模块,用于针对所述社交网络中的每个领域,若所述用户领域相关度计算模块输出的所述用户与该领域的相关度超过设定值,则确定所述用户为该领域的专家。
8.如权利要求7所述的系统,其特征在于,还包括: 特征词库构建模块,用于将社交网络中已划分到所述领域中的若干个用户作为所述领域的种子用户,并将各种子用户的博文作为该领域的种子博文存储至博文语料集中;对于博文语料集中该领域的每个种子博文,对该种子博文进行分词,统计出该种子博文的分词结果中各词汇的频率信息,并根据各词汇的频率信息从该种子博文的分词结果中选择出的词汇作为该领域的特征候选词;针对该领域的每个特征候选词,统计博文语料集中各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率;针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算出该特征候选词的特征得分;在判断该特征得分超过预先设定的特征阈值后,将该特征候选词作为该领域的领域特征词存储至所述领域的特征词库中,并在所述领域的特征词库中将该特征得分作为该领域特征词的权重与该领域特征词对应存储。
9.如权利要求7所述的系统,其特征在于, 所述博文领域相关度计算模块具体用于将所述博文分词模块输出的该博文的分词结果中与该领域的特征词库中的领域特征词相同的词汇作为该博文的特征词;对于该博文的每个特征词,统计出该特征词在该博文中出现的频次,并将该特征词在所述特征词库中所对应的权重作为该特征词的领域权重;根据该博文的特征词总数、该博文的各特征词的领域权重以及在该博文中出现的频次,计算出该博文与该领域的相关度。
10.如权利要求9所述的系统,其特征在于,还包括: 领域共现特征词匹配模块,用于针对所述用户的每篇博文,对于所述博文领域相关度计算模块确定出的该博文的每个特征词,将该特征词与该领域的共现特征词库中的领域共现特征词进行匹配,并输出该博文与各领域的共现特征词库的匹配结果;以及 所述博文领域相关度计算模块还用于针对所述社交网络中的每个领域,对于博文的每个特征词,若所述领域共现特征词匹配模块输出的该博文与该领域的共现特征词库的匹配结果具体为:所述共现特征词库中存在与该特征词相同的领域共现特征词,则将所述共现特征词库中与该领域共现特征词结对的词汇作为该博文的新的特征词,并将该特征词在该博文中出现的频次作为该新的特征词在该博文中出现的频次,将该新的特征词在该领域的特征词库中所对应的权重作为该新的特征词的领域权重。
【文档编号】G06F17/27GK104035967SQ201410213795
【公开日】2014年9月10日 申请日期:2014年5月20日 优先权日:2014年5月20日
【发明者】李金奎, 谌贻荣 申请人:微梦创科网络科技(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1