用于对社交媒体的用户分类的方法、计算机程序和计算机的制作方法

文档序号:9620900阅读:344来源:国知局
用于对社交媒体的用户分类的方法、计算机程序和计算机的制作方法
【技术领域】
[0001] 本发明涉及信息处理技术,更具体来说,涉及更有效地识别社交媒体中的用户集 合的技术。
【背景技术】
[0002] 随着社交媒体的广泛使用,按"偏好和兴趣"为社交媒体用户分类,用于市场营销, 越来越广为人知。例如,这些分类被用来识别用户有可能购买的产品和服务,以及分割大型 用户集合(按照相似兴趣的分类)。已经有人尝试根据年龄和政治倾向相似的用户在社交 媒体上发布相似内容的假设来识别用户集合。例如,有人已经努力过用内容相似性来估计 用户的年龄和政治倾向(非专利文献1和非专利文献2),这些努力已经取得了一定的成功。 用类似的技术来估计具有共同偏好和兴趣的用户集合被认为在理论上是可能的。
[0003] 现有技术文献
[0004] 专利文献
[0005] 专利文献1 :特许4, 898, 938号公报
[0006] 专利文献2 :特开2000-148864号公报 [0007]非专利文献
[0008]非专利文献l:Pennacchiotti,M.、Popescu,A._M.,2011 年, ^Democrats,RepublicansandStarbucksAfficionados:UserClassificationin Twitter,',Proceedingsofthe17thACMSIGKDDInternationalConferenceon KnowledgeDiscoveryandDataMining(KDD2011),pp. 430-438, 2011.("民主党人、共和 党人和星巴克迷:推特中的用户分类",第17届ACMSIGKDD知识发现和数据挖掘国际研讨 会论文集,2011年,第430-438页)。
[0009] 非专利文献 2 :Rao,D.、Yarowsky,D.、Shreevats,A.、Gupta,M. (2010), "ClassifyingLatentUserAttributesinTwitter',Proceedingsofthe2nd InternationalWorkshoponSearchandMiningUser-GeneratedContents(SMUC 2010),pp. 37-44,2010.( "分类推特中的用户属性",第二届用户生成内容的检索和挖掘国 际研讨会论文集,2010年,第37-44页)。
[0010] 非专利文献 3 :Twitter,"GETstatuses/user_timeline",[online],2013-02-12 ,Twitter[2013-02-25 检索]。因特网URL〈https://dev.twitter,com/docs/api/1. 1/get/ statuses/user_timeline>〇
[0011]非专利文献 4:KritiPuniyani,JacobEisenstein,ShayCohen,和Eric P.Xing(2010),"SocialLinksfromLatentTopicsinMicroblogs',,Proceedingsof theNAACLHLT2010fforkshoponComputationalLinguisticsinaWorldofSocial Media(WSA' 10).AssociationforComputationalLinguistics,Stroudsburg,PA,USA, pp. 19-20,2010.( "来自微博的潜在主题的社交链接",2010年NAACLHLT社交媒体世界计 算语言学会议,(美国宾夕法尼亚州斯特劳斯堡,计算语言学协会,第19-20页)。

【发明内容】

[0012] 发明要解决的技术问题
[0013] 现有技术需要大量的内容,但是,鉴于社交媒体的广泛使用,对API查询传输的数 量有限制,并且,要确定大量(例如数以百万计的)用户之间的相似性,需要大量的时间来 获得足够数量的案例(见非专利文献3)。
[0014] 针对这一问题,本发明的目的是在无需获取大量的内容的情况下估计内容的相似 性,以把社交媒体的用户分类。
[0015] 本发明是发明人基于在研究这些问题时获得的对社交媒体的特点的深刻认识而 作出的。社交媒体的用户们,除了通过他们发布的内容,还通过个人简档(profile)发生联 系。个人简档是一种包括自我介绍的简短文本。已经观察到个人简档有包括与内容相关的 信息(喜好和兴趣、年龄、职业等)的趋势。此外,由于每个用户的简档相比于内容(通常是 每个用户一个)更少,许多用户的简档都可以在对发送和接收查询的限制范围内获得。然 而,因为个人简档部分的文字量通常有限,且个人简档通常包括与作为内容张贴的主题没 有直接关系的措辞,所以,单从个人简档信息,难以把用户们划归反映他们的内容的相似性 的类别。
[0016] 问题的解决方案
[0017] 本发明利用这些深刻认识来提供无需获得所有用户的内容就能根据内容的相似 性分类的手段。换言之,只从数量很少的用户获得内容,以首先把这些用户分类。然后,单 独利用个人简档来把大量的额外用户指派到先前分类的集合。这样,不用从所有的用户获 得大量的内容就能实现反映内容相似性的分类。
[0018] 本发明是一种用计算机把各个用户与一文本简档和文本内容相关联的社交媒体 中的多个用户划归入多个群集的方法,该方法包含下述步骤:根据与一部分用户相关联的 内容,为该部分用户的各个用户生成内容特征向量;根据内容特征向量,生成多个群集并且 映射该多个群集与该部分用户;根据与映射到各个群集的该部分用户相关联的简档为该多 个群集的各个群集生成第一简档特征向量;以及根据与除该部分用户以外的其他用户相关 联的简档和第一简档特征向量,把其他用户的各个用户划归入多个群集。
[0019] 这里,社交媒体可以是微博,以及各个用户发布到微博的多个帖子的内容。此外, 内容特征向量可以用多个帖子中包含的单词(word)作为元素。单词可以是帖子中包含的 名词、动词或相关的措辞(dependentexpression)。内容特征向量还可以向多个帖子中包 含的各个单词分配一个重要性程度(得分),诸如出现频率。在聚类过程中用得分来比较特 征向量。
[0020] 并且,在生成多个群集的步骤中,可以通过对与该部分用户相关联的内容应用潜 在狄利克雷分配(LatentDirichletAllocation)模型以及聚类在相同话题上可能使用的 单词而生成该多个群集。并且,在映射该多个群集与该部分用户的步骤中,可以用与该部分 用户相关联的内容中的聚类结果把该部分用户映射到各个群集。
[0021] 并且,在生成第一简档特征向量的步骤中,可以根据与映射到每个群集的部分用 户相关联的简档中的单词生成第一简档特征向量。单词可以是帖子中包含的名词、动词或 相关措辞。这里,可以根据该单词是否是与映射到其他群集的部分用户相关联的简档中的 单词相比而言可能出现的单词而生成第一简档特征向量。并且,该单词是与映射到其他群 集的部分用户相关联的简档中的单词相比而言第T最可能出现的单词(T是自然数)。并且, 在把其他用户的各个用户划归入多个类别的步骤中,根据第T最可能出现的单词是否出现 在与其他用户相关联的简档中而把其他用户的各个用户划归入多个类别。
[0022] 该方法也包含根据与除该部分用户以外的其他用户相关联的简档而为其他用户 的各个用户生成第二简档特征向量的步骤。这里,在把其他用户的各个用户划归入多个类 别的步骤中,根据第一简档特征向量和第二简档特征向量而把其他用户的各个用户划归入 多个类别。
[0023] 并且,可以根据第一简档特征向量和第二简档特征向量之间的相似度把一个用户 划归入对应于具有最高相似度的第一简档特征向量的群集。并且,在把其他用户的各个用 户划归该多个群集中的步骤中,可以允许把一个用户
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1