使用加权分析动态确定社交数据网络中影响者的系统和方法

文档序号:10494429阅读:569来源:国知局
使用加权分析动态确定社交数据网络中影响者的系统和方法
【专利摘要】本发明提供了通过服务器实施的、用于确定社交网络中的加权影响的系统和方法,包括:确定与话题相关的帖子;将每个帖子描述成以下各项中的一项或多项:回复帖子、提及帖子以及转帖;生成用户账户组,所述用户账户组中包括创作被回复的帖子、在所述提及帖子中被提及的帖子,发布被转帖的内容,以及/或者创作与所述话题相关的一个或多个帖子的任何用户账户;在相连图中将每个所述用户账户表示成所述组中的节点,并且在一个或多个节点对之间存在追随者?被追随者关系时,在所述节点之间建立边缘;以及对于节点之间的每个边缘,确定加权,所述加权是以下各项中的一项或多项的函数:提及帖子的数量、回复帖子的数量以及转帖的数量。
【专利说明】使用加权分析动态确定社交数据网络中影响者的系统和方法
相关申请的交叉引用:
[0001 ]本申请请求于2013年10月25日递交的、标题为“确定社交数据网络中的影响者的系统和方法,,(Systems and Methods for Determining Influencers in a Social DataNetwork)的第61/895,539号美国临时专利申请、于2013年11月22日递交的标题为“确定社交数据网络中的影响者及其社区的系统和方法”(Systems and Methods for IdentifyingInfluencers and Their Communities in a Social Data Network)的第61/907,878号美国临时专利申请,以及于2014年7月3日递交的标题为“使用加权分析动态地确定社交数据网络中的影响者的系统和方法”(Systems and Methods for Dynamically DeterminingInfluencers in a Social Data Network Using Weighted Analysis)的第62/020,833号美国临时专利申请的优先权,并且该专利申请以引用方式全文并入本文。
技术领域
[0002]以下内容总体上涉及分析社交网络数据。
背景
[0001]近年来,社交媒体已经成为个人和消费者在线(例如,在互联网上)交互的流行方式。社交媒体还影响企业目的在于和其客户、粉丝、和潜在客户在线交互的方式。
[0002]获得广泛关注的一些特定话题的博客被识别并且用于为特定产品提供支持或者赞助。例如,热门博客网站中的广告位被用于推广相关的产品和服务。
[0003]社交网络平台被用于影响用户群体。社交网络平台的示例包括脸谱网(Facebook)、推特(Twitter)、领英(LinkedIn)、汤博乐(Tumblr)和拼趣(Pinterest)等熟知的品牌。社交网络平台内的热门或者专家人士可用于向其他人进行推广。随着社交网络用户数量的增长,迅速识别热门或者有影响力的个人变得更加困难。此外,也难以识别特定话题的有影响力的个人。在本文中,社交网络中的专家或者热门用户均可替换地称为“影响者”。
附图简要说明
[0004]现在参考附图仅通过举例方式来描述实施例,在附图中:
[0005]图1是社交数据网络中的彼此关联的用户的图示。
[0006]图2是与计算装置通信的服务器的示意图。
[0007]图3是用于基于加权关系,确定指定话题的用户与影响者社区之间的加权关系的计算机可执行指令的示例性实施例的流程图。
[0008]图4是用于基于加权关系,确定影响者的社区的计算机可执行指令的另一个示例性实施例的流程图。
[0009]图5是用于基于加权关系,确定影响者的社区的计算机可执行指令的另一个示例性实施例的流程图。
[0010]图6是用于获取和存储社交网络数据的计算机可执行指令的示例性实施例的流程图。
[0011]图7是索引存储器中的示例性数据分量的框图。
[0012]图8是简档存储器中的示例性数据分量的框图。
[0013]图9是话题“麦咖啡”(McCafe)的示例性话题网络图的图解。
[0014]图10是图9中的话题网络图的图解,其示出了主集群和离群值集群的分解。
[0015]图11是用于基于社区的分解,识别和过滤话题网络中的离群值的计算机可执行指令的示例性实施例的流程图。
[0016]图12是用于从每个话题网络识别和提供社区集群的计算机可执行指令的示例性实施例的流程图。
[0017]图13A和13B示出了用于与显示话题网络内的影响者社区的GUI进行交互的示例性屏幕截图,其中图13A示出了不使用加权分析的结果,而图13B示出了使用加权分析的结果。
[0018]图14示出了用于使用加权分析与显示话题网络内的影响者社区的GUI进行交互的示例性屏幕截图。
[0019]图15A和15B示出了用于与显示话题网络内的影响者社区的GUI进行交互的示例性屏幕截图,其中图15A示出了不使用加权分析的结果,而图15B示出了使用加权分析的结果。
附图详细说明
[0020]应当认识的是,为了说明的简化和清晰,在认为适当时,参考数字可在图中被重复以指示相应或相似的元件。此外,陈述了许多特定细节,以提供对本文中所描述的实施例的透彻理解。然而,本领域的普通技术人员将理解的是,没有这些特定细节也可以实践本文中所描述的实施例。在其他情形下,没有详细描述公知方法、程序和部件,以不使本文中所描述的实施例难理解。并且,本说明不被认为是限制本文中所描述的实施例的范围。
[0021]社交联网平台包括(例如,经由通过与社交联网平台关联的网站通信的计算装置的网络)生成和发布内容供他人查看、收听等的用户。社交联网平台的非限定性实施例包括Facebook、Twitter、LinkedIn、Pinterest、Tumblr、博客空间、网站、协作性维基网站、在线新闻组、在线论坛、电子邮件和即时消息服务。当前已知和未来已知的社交联网平台适用于本说明书中所述的原理。社交联网平台可以用于向平台的用户进行市场营销和广告宣传。已经认识到,难以识别与指定话题相关的用户。这包括识别指定话题的具有影响力的用户。
[0022]此外,还认识到,社交网络为各品牌和公司提供了向该等品牌的影响者传达消息的巨大潜力。影响者是指对品牌感兴趣,并且他们的观点可以影响社交网络中的大量受众的人员。找到适当的影响者之后,这些影响者可以传播、支持,或者甚至拥护该等品牌的消息。
[0023]借助社交网络,影响者可以轻松地向其所有追随者(例如,使用Twitter转发推文或者提醒回复)或朋友(例如,使用Facebook分享)传递信息。但是,获得显著提醒的关键在于识别正确的影响者。一些图表分析方法使用关键字查询来识别在指定时间范围内就某品牌生成内容(例如,推文或者帖子)的影响者。该方法考虑个人之间的追随者-追随(或朋友)关系,同时还识别这些个人之间的群组。使用群组,品牌可向不同受众发送自定义消息。但是,并非所有追随者(或者朋友)都会重视并且传播某个人对于品牌的意见。计算机难以基于典型的数据度量来理解关注者与被关注者之间关系的重要性或者特性。
[0024]本文中还认识到,如果将网络中的所有链接视作同等重要,那么该等方法就无法抓住人类心理的一个重要方面。人的“信任”趋于随时间推移而变化。例如,Amy关注Ann和Zoe (图1)的同时,在指定时间范围内选择转发Ann的帖子,并且可能在未来的某一时候转发Zoe的帖子。因此,即便代表的是相同的关系,但是并非网络中的所有链接都具有同等重要性。
[0025]术语“帖子”或者“发帖”是指通过社交数据网络与他人共享的内容。帖子或者发帖可以通过向服务器或者网站或者网络提交内容以供他人访问来进行传输。帖子或者发帖还可以作为消息在两个装置之间传输。帖子或者发帖包括发送消息、电子邮件,在网站上发布评论,在博客上发布内容,在视频共享网络中发布内容,以及在联网应用程序中发布内容。帖子形式包括文本、图片、视频、音频及其组合。
[0026]如本文中所使用的,术语“影响者”是指主要产生并共享与话题相关的内容的用户账户并且被认为对社交数据网络中的其他用户是有影响的。更具体来说,影响者是指具备以下条件的社交数据网络中的个人或者实体:被视作对该话题感兴趣或者生成关于该话题的内容;拥有大量追随者(例如,或者读者、朋友或者订阅者),其中的大部分对该话题感兴趣,并且显著百分数的对该话题感兴趣的关注者重视影响者对于该话题的观点。话题的非限制性示例包括品牌、公司、产品、活动、位置和个人。
[0027]如本文中所使用的,术语“追随者”是指追随第二用户账户(例如,与第一用户账户的至少一个社交联网平台相关联并且经由计算装置访问的第二用户账户)的第一用户账户(例如,与一个或多个社交联网平台相关联的经由计算装置访问的第一用户账户),这样使得第二用户账户所发帖的内容被发布以供第一用户账户阅读、消费等。例如,当第一用户追随第二用户时,第一用户(即,追随者)将接收第二用户发布的内容。对特定话题“感兴趣”的用户在本文中是指追随特定话题的若干专家(例如,与社交联网平台相关联)的用户账户。在某些情况下,追随者与其他用户所发帖的内容交互(例如,通过分享或转帖该内容)。
[0028]公司需要识别关键影响者以便,例如,定位能够潜在地传播和支持某个品牌的消息的个人。与这些个人交互可实现控制某个品牌的在线消息,并且可以减少可能发生的潜在负面观点。谨慎地管理本过程可实现在线思维占有率的指数增长,例如,在病毒式营销活动的情况下。
[0029]确定影响者的大多数传统方法关注的是简便的可计算度量,例如追随者或者朋友的数量,或者帖子的数量。尽管追随者或者朋友总数可能近似于整个社交网络,但是就指示某个用户或者个人相对于公司或者品牌的影响的计算度量而言,它提供的数据极少。这导致影响者结果存在干扰,并且筛选大量潜在用户也较为耗时。
[0030]若干社交媒体分析公司声称为社交网络提供影响者分数。但是,本文中认识到,许多公司使用的度量并不是真实的影响者度量,而是追随者数量以及提及(例如,Twitter的“推文”、帖子、消息等)数量的代数公式。例如,一些已知方法使用这些数字的对数正态化,将大约80 %的权重分配给追随者数量,剩余的分配给提及的数量。
[0031]使用代数公式的原因在于追随者和提及的计数或者点数会在社交网络的用户简档中即时更新。因此,计算非常迅速并且易于汇报。这通常称为权威度量或者权威分数,以便从实际影响者分析中区分出来。
[0032]在示例性实施例中,权威分数,例如,是使用若干参数的线性组合计算的,包括用户发帖数量以及追随同一用户的追随者的数量。在示例性实施例中,该线性组合还可以基于同一用户追随的辅助用户的数量。
[0033]然而,权威分数方法存在若干显著缺点。本文中认识到,该权威分数是不易受情境的影响。这是与话题或者查询无关的静态度量。例如,不考虑话题,如纽约时报(New YorkTimes)或者美国有线电视新闻网(CNN)等大众媒体渠道将获得最高排名,因为它们就有数百万追随者。因此,权威分数不易受情境的影响。
[0034]本文中还认识到,该权威度量具有高的追随者计数偏向。如果存在特定领域中具有有限数量的追随者的定义明确的专家,但是这些追随者也全部都是专家,则由于追随者数量较小,他们不可能出现在100个结果中的前20个结果中,实际上,所有追随者均视作拥有相等的权重,这被证实是网络分析研究中的不当假设。
[0035]如本文所述,所提出的系统和方法可以相对于查询话题动态地计算影响者,并且可以说明其追随者的影响。
[0036]还认识到,影响者关系的递归性质是大范围实施影响者识别中的一项挑战。例如,考虑包括个人A、B和C的情境,其中:A追随B和C;B追随C和A;并且C仅追随A13A的影响取决于C,而C的影响又取决于A和B,等等。这样,影响者关系具有递归性质。
[0037]更一般地说,所提出的系统和方法提供了一种确定社交数据网络中的影响者的方式。在本发明的示例性系统和方法中,加权边缘或者连接被用于开发网络图,并且在社交数据网络中的不同用户节点(例如,用户账户)之间考虑了若干不同类型的边缘或连接。这些类型的边缘或者连接包括:(a)追随者关系,即用户追随另一个用户;(b)转帖关系,即用户重新发送或者转帖来自另一个用户的相同内容;(C)回复关系,即用户回复另一个用户发布或者发送的内容;以及(d)提及关系,即用户在发帖中提及另一个用户。
[0038]在品牌名Twitter旗下的社交网络的非限定性示例中,这些关系如下:
[0039]转推(RT):当一个用户分享了另一个用户的推文时发生。记作“RT”,后跟一个空格,后跟符号@,并且后跟Twitter用户句柄,例如“RTOABC",后跟ABC的推文。
[0040]提醒回复:用户明确回复另一个用户的推文时发生。记作符号后跟Twitter用户句柄,例如用户名”,后跟任何消息。
[0041]提醒提及:一个用户在推文中包括了另一个用户句柄,而不打算明确回复时发生。用户在其推文中的某个地方添加@,后跟某个Twitter用户句柄,例如“你好0ΧΥΖ,一起聚会吧@DEF@TUV”(H1XYZ let’s partyiDEFiTUV)ο
[0042]这些关系表明了源用户句柄对目标用户句柄的明确兴趣。源是转推或者提醒回复或者提醒提及的用户句柄,目标是消息中包含的用户句柄。
[0043]在使用加权边缘以识别排名最高影响者及其社区的示例中,对网络链接加权以创建链接重要性概念,并且进一步地,识别外部源并将其合并到社交数据网络中。外部源的示例包括用户及其转帖旧消息或内容发帖的活动、或用户及其参考或提及旧消息或内容发帖的活动。外部源的另一示例是用户及其提及社交数据网络中的话题的活动,但该话题源自另一个或辅助社交数据网络。
[0044]举例来讲,在图1考虑了特定话题的简化追随者网络。图1示出了具有若干类型的链接的社交网络:追随者-追随关系;转帖关系,并且另一个是回复关系。尽管图1中未示出具体示例,但是提及关系是适用的。如图所示,由于Ray在网络中具有最多数量的追随者,因此非常具有影响力。但是,由于Ray追随了Rick和Brie,因此他们也具有重要的影响力。在Rick与Brie之间,Rick可能是较强的影响者,因为Ray还转帖并且回复了Rick的帖子(例如,推文或者消息)。在指定的网络中,影响者可能是Rick和Ray。
[0045]如图1中所示,考虑转帖和回复关系(或者共享)以及追随者(或朋友)信息可提供真实影响者的更准确图像,并且也改善了所识别的群组。
[0046]可以认识到的是,图中的节点代表不同的用户账户,一个是Ray的用户账户,另一个是Rick的用户账户。箭头方向也用于指示谁是主用户(例如,作者、发起人、另一个人提及的人或者账户,被追随者等)以及谁是二级用户(例如,转帖者、追随者、回复者、进行提及操作的人等)。例如,箭头的头部代表主用户,并且箭头的尾部代表二级用户。
[0047]除了图1中的每个用户账户之外,提供了网页排名分数。网页排名算法是谷歌用来衡量网络中网页的重要性的一种已知算法并且还可以应用于衡量社交数据网络中的用户的重要性。
[0048]直觉是如果几个专家认为某人是专家,则她/他也是专家。然而,网页排名算法得出比仅对追随者的数量计数更好的影响力衡量。如将在下文描述的,本文中所描述的所提出的系统和方法可以使用网页排名算法和其他类似排名算法。
[0049]所提出的系统和方法还认识到,影响者可能来自外部源。“外部”源的概念可采用两种形式。首先,即便影响者最近可能未发布指定话题的推文,但鉴于她在该话题上的影响,推特圈(Twi tter-sphere)可能继续提及她,或者重新转推她的一篇旧帖子。例如,运动专家可能分享他/她对于超级足球杯(Super Bowl)的观点,并且该观点在实际比赛之后的数月被持续讨论。
[0050]第二,人们通常谈论完全来自网络外部的来源的话题。例如,YouTube上托管的视频可能被发推。在这两种情况下,所提出的系统和方法旨在捕获作为影响者的视频/观点源。
[0051]在一般性示例性实施例中,提供了一种加权网络分析方法,以通过(I)加权网络链接以构成“链接重要性”的概念,以及(2)识别并且将一些关键“外部”源并入网络中来识别社区及其排名最高影响者。此外,提供了所有社区的排名最高影响者的汇总列表,该列表用于帮助确定所有影响者的相对次序。社区和影响者的可视化使得最终用户能够了解每个影响者的规模和相对重要性以及这些影响者在其社区中的相互联系。
[0052]转到图2,其中示出了所提出的系统的示意图。服务器100通过网络102与计算装置101通信。服务器100获取和分析社交网络数据,并且通过网络将结果提供给计算装置101。计算装置101可以通过GUI接收用户输入以控制分析的参数。
[0053]可以认识到,社交网络数据包括关于社交网络平台的用户的数据,以及用户生成或整理,或用户生成并整理的内容。社交网络数据的非限定性示例包括用户账户ID或用户名、用户或者用户账户描述、用户发布的消息或者其他数据、用户与其他用户之间的联系、本地信息等。联系的示例是“用户列表”,本文中也称为“列表”,其包括列表名称、列表描述以及指定用户追随的一个或多个其他用户。该用户列表,例如,是由指定用户创建的。
[0054]继续图2,服务器100包括处理器103和存储装置104。在一个示例性实施例中,该服务器包括一个或多个处理器以及大量存储容量。在另一个示例性实施例中,存储装置104或者多个存储装置是用于更高读/写性能的固态驱动器。在另一个示例性实施例中,多个服务器被用于实施本文所描述的方法。换言之,在一个示例性实施例中,服务器100是指服务器系统。在另一个示例性实施例中,使用其他当前已知的计算硬件或者未来已知的计算硬件,或者使用这两者。
[0055]服务器100还包括通信装置105,用于通过网络102通信。网络102可以是有线或者无线网络,或者这两者。服务器100还包括GUI模块106,用于通过计算装置101显示并且接收数据。服务器还包括:社交联网数据模块107、索引器模块108、用户账户关系模块109、社区识别模块112以及特征识别模块113。如下所述,社区识别模块112被配置成基于网络图界定社区或者数据集群。
[0056]服务器100还包括若干数据库,包括数据存储器116、索引存储器117、社交图的数据库118、简档存储器119、用于存储社区图信息的数据库128,以及用于存储每个社区的热门特征的并且用于存储在每个社区中搜索的预定义特征的数据库129,这些社区由社区识别丰旲块112界定。
[0057]社交联网数据模块107被用于接收社交联网数据流。在一个示例性实施例中,数百万新消息每天实时地输送给社交联网数据模块107。社交联网数据模块107接收的社交联网数据存储在数据存储器116中。
[0058]索引器模块108对数据存储器116中的数据执行索引器进程,并且将索引的数据存储在索引存储器117中。在一个示例性实施例中,索引存储器117中的索引数据可以被更容易地搜索,并且索引存储器中的标识符可以用于检索实际数据(例如,全部消息)。
[0059]社交图也从社交联网平台服务器获取到(未图示),并且存储在社交图数据库118中。在指定作为查询的输入的用户时,社交图可被用于返回追随被查询用户的所有用户。
[0060]简档存储器119存储与用户简档相关的元数据。与简档相关的元数据的示例包括指定用户的追随者总数,指定用户自行公开的个人信息,指定用户的位置信息等。简档存储器119中的数据可以被查询。
[0061]在一个示例性的实施例中,用户账户关系模块109可以使用社交图118和简档存储器119来确定哪些用户正在追随特定用户。模块109还被配置成确定用户账户之间的关系,包括回复关系、提及关系以及转帖关系。
[0062]再次参见图2,服务器100进一步包括社区识别模块112,该社区识别模块被配置成识别话题网络内的社区(例如,话题A等被查询话题内的信息集群)以及相关的影响者。如下文关于图3所述,话题网络示出了有影响力用户及其关系(例如,如社交图118所定义)的图。社区识别模块112的输出包括集群(例如,编码的颜色)的视觉识别,这些集群被定义成包含共同特征并且/或者相对于另一个社区中的实体而言,更易于受同一社区中的其他实体(例如,影响者)影响(例如,被如追随者-被追随者关系影响)的话题网络的社区。服务器100进一步包括特征识别t吴块113。
[0063]特征识别模块113被配置成从社区识别模块112接收识别出的社区,并且提供社区成员中的热门特征(例如,谈话话题)的识别。特征识别模块113的结果可以与社区识别模块112中提供的社区的对应可视化在视觉上链接。如下所述,一方面,社区识别模块112(例如,多个社区)以及/或者特征识别模块113(例如,每个社区内的多个热门特征)的结果显示在显示屏125上,作为对计算装置101的输出。另一方面,GUI模块106被配置成从计算装置101接收输入,以选择社区识别模块112识别的特定社区。GUI模块106之后被配置成与特征识别模块113通信,以提供与所选社区(例如,对于所选社区内的所有有影响力的用户)关联的特定特征(例如,定义热门谈话)的结果的输出。特征识别模块112(例如,可视化地界定所选社区的用户中的热门谈话的关键字云)的结果可以与特定的所选社区以及/或者特定所选社区内的用户列表并排地显示在显示屏125上。
[0064]继续图2,计算装置101包括用于通过网络102与服务器100通信的通信装置122、处理器123、存储装置124、显示屏125以及互联网浏览器126。在一个示例性实施例中,服务器100提供的GUI由计算装置101通过互联网浏览器显示。在另一个示例性实施例中,计算装置101上具有可用的分析应用程序127,⑶I由计算装置通过分析应用程序127显示。可认识到,显示装置125可以是计算装置(例如,移动装置、平板设备、膝上型计算机)的一部分,或者可以与计算装置(例如,台式机等)相分离。
[0065]尽管未图示,但是各种用户输入装置(例如,触摸屏、滚动球、光学鼠标、按钮、键盘、麦克风等)可以用于促进用户与计算装置101之间的交互。
[0066]应认识到,在另一个示例性实施例中,系统包括多个服务器。在另一个示例性实施例中,有多个计算装置与一个或多个服务器通信。
[0067]应认识到,本文中例示的执行指令的任何模块或部件可以包括或以其他方式访问计算机可读介质,如存储介质、计算机存储介质、或如例如磁盘、光盘或磁带的数据存储装置(可移除和/或不可移除)。计算机存储介质可以包括在任何方法或技术中实现的用于存储信息(如计算机可读指令、数据结构、程序模块、或其他数据)的易失性和非易失性、可移除和不可移除的介质。计算机存储介质的示例包括RAM、R0M、EEPR0M、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储装置、或者能够用于存储所需信息且可以由应用程序、模块或两者访问的任何其他介质。任何这类计算机存储介质可以是服务器100或者计算装置101的一部分、或者可由其访问或与其连接。本文中所描述的任何应用程序或模块可以使用计算机可读/可执行指令来实现,这些指令可以由这类计算机可读介质存储或以其他方式保留。
[0068]转至图3,其中示出了计算机可执行指令的示例性实施例,用于确定指定话题的一个或多个影响者。图3中所示的过程假设社交网络数据可提供给服务器100,并且社交网络数据包括多个用户。在框301中,服务器100获取表示为T的话题。例如,用户可以通过显示在计算装置101处的GUI来进入话题,并且计算装置101将该话题发送到服务器100。在框302中,服务器使用该话题以识别与该话题相关的所有帖子。这些帖子集合共同地被表示为Pt。在示例实施例中,使用一个或多个附加搜索标准,如规定时期。换言之,服务器可以仅检查给定时段内与话题相关的帖子。查找与特定话题相关的帖子可以用不同的方式实施,并且将在下文进行详细讨论。
[0069]继续图3,服务器获取帖子Pt的作者,并且基于排名(框303)识别前N个作者。排名最高的作者的集合由At表示。在示例实施例中,使用权威分数识别前N个作者。其他方法和过程可以用于对作者进行排名。例如,服务器使用网页排名衡量话题网络内的用户的重要性并且基于该衡量对用户进行排名。可使用的排名算法的其他非限定性示例包括:特征向量中心性、加权度、中间状态、枢纽和权威度量。
[0070]应认识到,作者是在社交网络中创作帖子的用户。还应认识到,N是自然数。N的非限制性示例值包括在3,000至5,000范围内的那些值。可以使用N的其他值。
[0071]在框304中,服务器将每个帖子Pt表征为‘回复’、‘提及’、或‘转帖’,并且分别识别被回复的用户、被提及的用户、和首创的被转帖(例如,被分组为回复用户Ur、提及的用户Um、和内容被转帖的用户Urp)内容的用户。还可以记录每个回复、提及、转帖等的时间戳以便确定用户之间的交互是否是最近的、或确定‘最近的’分级。
[0072]在框305中,服务器生成被称为‘有兴趣的用户’的列表,该列表组合了前N个作者At和用户Ur、Um和Urp。‘有兴趣的用户’列表或组中的用户数量的非限制性不例包括在3,000至10,000范围内的那些数量。将认识到,‘有兴趣的用户’组或列表中的用户数量可以是其他值。
[0073]对于‘有兴趣的用户’列表中的每个用户,服务器识别了每个用户的追随者(框306)。在框307中,服务器去除没有列在该‘有兴趣的用户’列表中的追随者,同时仍然识别出作为‘有兴趣的用户’的一部分的那些用户之间的追随者关系。
[0074]在框306的非限定性示例实施中,发现当考虑与‘有兴趣的用户’相关联的所有追随者时,存在几百万条追随者连接或边缘。考虑所有这些追随者边缘可能耗费大量计算并且可能不揭示有影响力的交互。为了减少追随者边缘的数量,按照框307废弃不是‘有兴趣的用户’的一部分的那些追随者。
[0075]在框306和307的替代性实施例中,服务器识别局限于仅‘有兴趣的用户’组中列出的用户的追随者关系。
[0076]在框308中,服务器在‘有兴趣的用户’列表中的每个用户与其追随者之间创建链接。这样可创建所有链接均具有相同权重(例如,1.0的权重)的追随者-追随网络。
[0077]在框309中,在‘有兴趣的用户’列表中的每个用户对(例如,A、B)之间,服务器识别A提及B的实例数量,A回复B的实例数量,以及A转帖B的内容的实例数量。可认识到,用户对不是一定要具有追随者-被追随者关系。例如,用户A可以不追随用户B,但是用户A可以提及用户B,或者可以转帖用户B的内容,或者可以回复用户B的发帖。因此,用户对(A、B)之间可能存在边缘或者链接,即使一者不是另一者的追随者。
[0078]此外,在框310中,在每个用户对(例如,A,B)之间,服务器计算与用户对A、B之间的链接或边缘相关联的权重,其中权重是至少A提及B的实例的数量、A回复B的实例的数量,以及A转帖B的内容的实例的数量的函数。例如,实例数量越高,加权权重越大。
[0079]在示例实施例中,在框308,如果存在追随者-被追随者链接,则边缘的加权初始化于第一值(例如,1.0值),而如果没有追随者-被追随者链接,则该边缘初始化于第二值(例如,O值),其中第二值小于第一值。两个用户之间的每个附加活动(例如,回复、转帖、提及)将使边缘权重增加至最大加权值4.0。其他数量或者范围可以被用于表示加权。
[0080]在示例实施例中,活动或实例数量的增加与加权的增加之间的关系的特征在于指数下降规模。例如,对于用户对A、B,其中A追随B,如果存在2个转帖,则加权是2.0。如果有20个转帖,则加权为3.9 ο如果有400个转帖,则加权为4.0 ο应认识到,这些数量仅是示例,并且可以使用不同的数量和范围。
[0081 ]在一个示例性实施例中,加权也基于交互(例如,转帖、提及、回复等)发生的最近分级。可以通过确定进行查询的日期与发生交互的日期之间的时间差来计算‘最近’分级。例如,如果交互发生得更近,则例如加权更高。
[0082]继续图3,在框311中,服务器计算分别与‘有兴趣的用户’列表中的用户及其关系对应的节点和边缘的网络图,其中,对这些关系或边缘加权(例如,又称为话题网络)。可以认识到,本文应用了图论的原理。
[0083]在框312中,服务器在话题网络中的用户当中识别社区(例如,C^C2,...,(:?)。这些社区的识别可以取决于,与另一个社区内的节点相比较,一个社区内的节点之间的连通性程度。也就是,社区是由,相对于所定义的社区外部的实体,内部(例如,相对于同一社区中的其他节点)具有更高连通性程度的实体或节点定义的。如下定义,用于分离不同社区的连通性程度的值或阈值可以预定义(例如,社区图数据库128提供并且/或者从计算装置101进行用户定义)。该解决方案因此定义了社区内的节点的互连性密度。每个识别的社区图因此是每个社区节点和边缘(话题网络)的网络图的子集。一方面,社区图进一步显示了社区(例如,作为节点)内的用户的视觉表示(用社区图)和社区(例如,提供到图1中的显示屏125)内的用户的文本列表两者。另一方面,根据在社区内和/或在话题T(例如,提供到图1中的显示屏125)的所有社区内的影响度,对社区内的用户列表的显示进行排名。根据框312,用户Ut于是被分成其社区图类别,如Uq、Uc2、...Ucn。
[0084]在框313中,针对每个给定社区(例如,C1),服务器基于给定社区内的用户(例如,Uc1)的社交网络数据确定与该用户相关联的预定义特征(例如,以下各项中的一项或多项:常见的词和短语、谈话的话题、常见的位置、常见的图片、常见的元数据)的热门特征值。所选择的特征(例如,话题或位置)可以是用户定义的(例如,通过从计算装置101的输入)和/或自动生成的(例如,基于同一话题网络内的其他社区的特征、或基于同一话题T的之前使用的特征)。在框314中,服务器输出所识别的社区(例如,&Χ2、...Χη)以及与每个给定社区相关联的热门特征。所识别的社区可以作为与每个社区的预定义特征的特征值视觉关联的社区图输出(例如,通过服务器以显示在显示屏125上)。
[0085]转至图4,提供了计算机可执行指令或者处理器实施指令的另一个示例性实施例。执行框301到311。框311之后,在框401中,服务器随后对话题网络内的用户进行排名。例如,服务器使用网页排名衡量话题网络内的用户的重要性并且基于该衡量对用户进行排名。可使用的排名算法的其他非限定性示例包括:特征向量中心性、加权度、中间状态、枢纽和权威度量。
[0086]服务器识别并过滤掉话题网络内的离群值节点(框402)。离群值节点是被认为与话题网络中的较大的人群或用户集群分开的离群值用户。话题网络中的离群值用户或节点的集合被表示为Uo,其中Uo是‘有兴趣的用户’的子集。下文描述了关于识别和过滤离群值节点的更多的细节。
[0087]本过程继续执行框312到314,由此在去除离群值用户Uo之后形成社区。
[0088]转至图5,提供了计算机可执行指令或者处理器实施指令的另一个示例性实施例。执行框301到311。在框311之后,服务器使用第一排名方法(框501)对话题网络内的用户进行排名。第一排名方法可以与或可以不与框401中使用的排名方法相同。完成该排名以识别针对给定话题在给定话题网络中哪些用户最有影响力。
[0089]在框502,服务器识别并过滤掉话题网络内的离群值节点(用户Uo),其中Uo是‘有兴趣的用户’的子集。在框503,服务器使用基于在某一时期内来自用户的帖子的数量的第二排名方法来调整用户Uo被去除的用户的排名。例如,服务器确定如果与在同一时期内第二用户的帖子数量相比,第一用户在上两个月内具有更高的帖子数量,则第一用户的原始排名(从框501)可以提升,而第二用户的排名保持不变或降低。
[0090]应认识到,基于所有用户的网络图可以非常大。例如,可能存在数亿用户。分析用户的整个数据集可能造成计算量非常大且耗时。因此,使用以上方法找出与话题T相关的更小的用户集合减少了待分析的数据量。这也减少了处理时间。在示例实施例中,当分析推特的整个社交网络平台时,已经产生影响者的近实时结果。使用更小的用户集合及相关联的数据,计算新话题网络。该话题网络比包含所有用户的社交网络图更小(即,更少的节点和更少的边缘)。基于话题网络对用户进行排名比基于包括所有用户的社交网络图对用户排名快得多。
[0091]此外,识别和过滤话题网络中的离群值节点有助于进一步提高结果的品质。
[0092]在框504之后,执行框312到314。
[0093]图2到图5中所述的方法的更多细节如下所述。
[0094]获取社交网络数据:
[0095]对于获取社交网络数据,在一个示例性实施例中,尽管图3到图5中未图示,但是服务器100获取社交网络数据。社交网络数据可以使用各种方式获取。以下是获取社交网络数据的非限定示例实施例。
[0096]转至图5,示出了用于获取社交网络数据的计算机可执行指令的示例实施例。数据,包括消息和元数据,可以由服务器作为数据流实时(框600)地接收。例如,该数据使用压缩行格式(框601)存储在数据存储器116中。在一个非限定性示例实施例中,使用MySQL数据库。例如,框600和601由社交联网数据模块107实施。
[0097]在一个示例性实施例中,复制社交联网模块107接收的社交网络数据,并且社交网络数据的副本存储在多个服务器中。这有助于在分析社交网络数据时进行并行处理。换言之,一个服务器可以分析社交网络数据的一个方面,而另一个服务器可以分析社交网络数据的另一个方面。
[0098]服务器100使用索引器进程(框602)对消息编制索引。例如,索引器进程是独立于存储过程的单独过程,该存储过程包括消息在数据存储器116中具体化的同时扫描消息。在一个示例性实施例中,索引器进程自行在单独的服务器上运行。这有助于并行处理。例如,索引器进程是具体化每一天,或者其他指定时间段的索引数据表的多线程进程。索引数据输出并且存储在索引存储器117(框604)中。
[0099]简要地转向图7,其中示出了示例性索引存储器117,表中的每一行是唯一的用户账户标识符以及该天,或者该指定时间段内产生的所有消息标识符的对应列表。除了天之夕卜,还使用其他时间段。在一个示例性实施例中,索引存储器117中每天可读取和写入数百万数据行,并且该过程可以在新数据被具体化或者添加到数据存储器116中时发生。在一个示例性实施例中,索引存储器117中使用了压缩行格式。在另一个示例性实施例中,通过运行松弛的事物语义来避免死锁,因为这样可增加读写该表时多个线程的吞吐量。从背景因素来看,当两个或更多任务中的每个任务对其他任务尝试锁定的资源施加锁定,以此来永久地彼此封锁时,发生死锁。
[0100]转回图6,服务器100进一步获取关于哪些用户账户追随其他用户账户的信息(框603)。该过程包括识别与简档关联的元数据,以及将其存储在简档存储器中(块605)。
[0101]在图8中,简档存储器119的示例示出了对于每个用户账户,具有相关联的与简档相关联的元数据。例如,与简档相关的元数据包括用户追随者的总数、自我公开的个人信息、位置信息以及用户列表。
[0102]数据获取并且存储之后,例如,可以分析该数据,以识别专家和兴趣。
[0103]确定与话题相关的帖子:
[0104]对于确定话题相关的帖子,依据框302,应认识到,该操作可以以多种方式发生。以下是可用于确定话题相关帖子的非限定性示例实施例。
[0?05]在一个示例性实施例中,确定与话题(例如,框302)相关帖子的操作基于Sysomos搜索引擎,并且在2009年7月10日提交的标题为“信息发现和文本分析的方法和系统(Method and System for Informat1n Discovery and Text Analysis),,的第2009/0319518号美国专利申请公开案中有所描述,该专利申请以引用方式全文并入本文中。根据第2009/0319518号美国专利申请公开案中所述的过程,话题被用于识别特定时间间隔内的热门文件。具体来说,当向第2009/0319518号美国专利申请公开案的系统提供话题(例如,关键字)时,该系统返回与该话题相关且热门的相关文件(例如,帖子、推文、消息、文章等)。使用本文中所述的所提出的系统和方法,可执行指令包括确定热门文件的一个或多个作者的服务器100。这样,一个或多个作者被识别为与指定话题相关的排名最高用户。
[0106]对于框303,可以提供上限N以识别与指定话题相关联的前N个用户,其中N是自然数。在一个示例性实施例中,N是5000,但也可以使用其他数量。该前N个用户可以根据已知或者未来已知的排名算法确定,或者使用社交媒体分析的已知或者未来已知的权威记分算法。
[0107]应认识到,其他示例性实施例中可以使用其他已知的以及未来已知的方式来识别与话题相关的帖子。
[0108]识别和过滤话题网络中的离群值用户:
[0109]对于识别和过滤话题网络内的离群值节点(例如,用户),根据框402和502,应认识至|J,可以使用不同的计算。以下是实施框402和502的非限定示例实施例。
[0110]应认识到,可以通过去除有问题的离群值改进来自话题网络的数据。例如,也发生使用指麦当劳(McDonalds)咖啡品牌的话题“麦咖啡(McCafe)”的查询以将来自菲律宾的是具有相同名称的卡拉ok酒吧/咖啡馆的粉丝的一些用户召回。因为它们碰巧是紧密的社区,所以其影响者分数经常高到足以排名在关键的前十列表中。
[0111]转到图9,其中示出了展示未过滤的结果的话题网络901的示例实施例的图示。节点表示与话题McCafe相关的用户集合。一些节点902或用户来自菲律宾,是具有相同名称McCafe的卡拉ok酒吧/咖啡馆的粉丝。
[0112]这种现象有时在测试案例中发生,但不局限于话题McCafe的测试案例。在本文中应认识到,寻找McCafe的用户没有寻找McDonalds咖啡和菲律宾卡拉ok酒吧两者,并且因此这个子网络1302被认为有噪声。
[0113]为了实现降噪,在示例实施例中,服务器使用作为模块性算法的变型的网络社区检测算法来识别和过滤话题查询中的这些类型的离群值集群。在引用的纽曼M.E.J.(Newman,M.E.J.)(2006)的文章“网络中的模块性和社区结构(Modularity and communitystructure in networks)”(美国国家科学院论文集103(23):8577-8696)中描述模块性算法,其全部内容通过引用并入本文。具体来说,该变型是考虑每个边缘或者链接加权的模块性算法的加权版本。这提高了所检测社区的质量,因为它可将人分组成社区,不仅仅因为他们追随他人或者被社区中的人追随,还因为可能存在诸如回复、转帖和提及的其他交互。
[0114]将认识到,可以应用其他类型的集群和社区检测算法来确定话题网络中的离群值。过滤帮助去除寻找与话题相关联的影响者的用户无意的或寻求的结果。
[0115]如图10中所示,相对于话题网络901中的主要集群1002识别离群值集群1001。从话题网络中去除用户Uo离群值集群1001,并且主要集群1002中的剩余的用户用于形成所输出的影响者的排名列表。
[0116]在示例实施例中,服务器100计算以下指令以过滤掉离群值:
[0117]1.在话题网络上执行模块性算法。
[0118]2.模块性功能将话题网络分解成多个模块化社区或子网络,并且将每个节点加标至IJX个集群/社区之一中。在示例实施例中,X〈n/2,因为社区具有不只一个成员,并且η是用户数量,例如‘有兴趣的用户’列表中的用户数量。
[0119]3.按社区内的用户的数量对社区分类,并且接受人口最多的社区。
[0120]4.当节点人口的累积总和超过总数的80%时,从话题网络中去除剩余的最小的社区。
[0121]关于图11描述了用于识别并过滤话题网络的计算机可执行指令的一般示例实施例。可以认识到,这些指令可以用于执行框402和502。
[0122]在框1101中,服务器100将社区查找算法应用于话题网络从而将网络分解为多个社区。用于找出社区的算法的非限制性示例包括最小割除法、分级群聚、格文-纽曼算法(Girvan-Newman algorithm)、以上参考的模块性算法,以及基于团集(Clique-based)的方法。
[0123]在框1102中,服务器将每个节点(S卩,用户)加标到X个社区之一中,其中X〈n/2,并且η是话题网络中的节点的数量。
[0124]在框1103中,服务器识别每个社区内的节点的数量。
[0125]如果节点数量最大的社区还没有被添加至经过滤的话题网络(框1104),则服务器将该社区添加至经过滤的话题网络。可以认识到,首先,经过滤的话题网络包括零社区,并且添加至经过滤的话题网络的第一社区是最大的社区。来自未经过滤的话题网络的同一社区不能不止一次被添加至经过滤的话题网络。
[0126]在框1105中,服务器确定经过滤的话题网络的中的节点的数量是否超过或大于原始或未经过滤的话题网络中的节点的数量的Y %。在示例实施例中,Y %是80 %。Y的其他百分比值也是适用的。如果没有超过,则该过程环回到框1104。当框1105的条件是真的时,该过程前进到框1106。
[0127]通常,当经过滤的话题网络中的节点的数量达到或超过未经过滤的话题网络中的节点的总数的多数百分比时,则已经识别出主集群并且也识别出是离群值节点(例如,U0)的剩余节点。
[0128]在框1106中,输出不包括离群值用户Uo的经过滤的话题网络。
[0129]识别社区
[0130]转至图12,提供了用于从社交网络数据识别社区的计算机可执行指令的示例性实施例。
[0131]社交网络平台的特征是用户追随(或定义为朋友)另一个用户。如之前所描述的,话题网络内的多个节点和边缘图示的用户之间可存在其他类型的关系或互连性。在话题网络内,影响者可以在不同程度上影响不同的用户集群。也就是,基于关于图12所描述的用于识别社区的过程,服务器被配置成用于识别单个话题网络内的被称为社区的多个集群。由于影响在社交网络平台上不均匀,所以关于图12定义的社区识别过程是有利的,因为其识别每个影响者(例如,通过使一个社区与另一个社区相关联)在话题网络上的影响程度或深度。
[0132]如将在图12中定义的,服务器被配置成用于提供不同的社区集合(例如,Cl,…,Cn)以及每个社区内的排名最高影响者。在另一个优选方面,服务器被配置成用于提供所有社区上的排名最高影响者的汇总列表,从而提供所有影响者的相对顺序。
[0133]在框1201中,服务器被配置成用于从如之前描述的(例如,图3到图5)社交联网数据获取话题网络图信息。话题网络以视觉方式图示了节点,即‘有兴趣的用户’列表中的用户集合之间的关系,该用户集合各自被表示为话题网络图中的节点并且通过边缘连接以表明话题网络图中的两个用户之间的关系(例如,追随者关系、回复关系、提及关系、转帖关系等)。在框1202中,服务器获取内部和/或外部互连性(例如,分辨率)的预定义的程度或衡量值用于定义社区之间的边界。
[0134]在框1203中,服务器被配置成用于根据预定义的互连性程度(例如,分辨率)计算每个节点(例如,影响者)和边缘的得分。也就是,在一个示例中,每个用户句柄被分配一个模块性类别标识符(Mod ID)和一个页面等级分数(定义影响程度)。一方面,分辨率参数被配置成用于控制所识别的社区的密度和数量。在优选方面,服务器利用提供2到10个社区的默认分辨率值2。在另一方面,分辨率值是由用户定义的(例如,通过图2中的计算装置101),以根据社区信息的可视化需要生成更高或更低的社区粒度。
[0135]在框1204中,服务器被配置成用于定义并输出不同的社区集群(例如,C1J2,…,Cn),由此将用户分区成Ucr-Ucn,这样使得由网络中的节点定义的每个用户映射到相应的社区。在一个示例性方面,模块性分析用于定义社区,这样使得每个社区在社区内的节点集群之间具有稠密的连接(高连接性),但与不同的社区中的节点具有稀疏的连接(低连接性)。在一个示例性方面,可以利用模块性算法和/或密度算法(其衡量内部连接性)实施社区检测方法步骤1603-1606。此外,在一个方面,使用开源图分析包Gephi以及/或者Javascript库来实施结果的可视化。
[0136]在框1205中,服务器被配置成用于定义并输出所有社区上的排名最高影响者和/或每个社区内的排名最高影响者并且提供所有影响者的相对排序。在一个示例性方面,当选定特定社区时,排名最高影响者在视觉上与其社区并排显示。在又一个进一步示例性方面,在框1205中,服务器被配置成用于提供所有社区上的所有排名最高影响者的汇总列表,以提供所有影响者的相对顺序。
[0137]在框1206中,服务器被配置用于视觉上描绘并且区分每个社区集群(例如,通过颜色编码、相对位置或者用于区分不同社区的其他视觉识别方法)。在进一步方面,在框1206中,服务器被配置用于提供与对应社区视觉上关联的每个社区的排名最高影响者的集合。在又一个进一步方面,在框1206中,服务器被配置用于改变社区图的每个节点的大小以与对应响应者的分数(例如,影响分数)对应。作为框1206的输出,节点的边缘示出了每个用户在其社区以及在不同社区之间的连接。
[0138]因此,如图13到图15中所示,社区和影响者(例如,每个社区内排名的排名最高影响者以及/或者所有社区上的排名最高影响者的列表)的可视化可使得终端用户(例如,图2中的计算装置101的用户)能够可视化其相关社区中的每个影响者的规模和相对重要性。
[0139]识别指定社区内的热门特征
[0140]如相对于图3到图5所述,在又一个进一步方面,服务器被配置成用于,针对框1204提供的每个指定社区(例如,Cl),基于该指定社区(例如,C1)内的用户(例如,UCl)的社交网络数据,确定与其相关联的预定义特征(例如,常见的关键字和短语、谈话的话题、常见的位置、常见的图像、常见的元数据)的热门特征值。因此,可以通过检查每个社区&内的用户Uc1的预定义特征集合(例如,谈话的话题)来定义趋势或者共同性。在一个示例性方面,排名最高特征值的列表(例如,每个社区的所有用户中的排名最高谈话话题)在框1205中描绘,并且输出到计算装置101(如图2所示),用于与每个社区关联地显示。
[0141]显示社区和热门特征
[0142]参见图13到图15,其中示出了从服务器的GUI模块106提供并且输出到计算装置(如图2中所示)的显示屏125以可视化来自话题网络的社区集群并且可视化每个社区中的热门特征的屏幕截图。服务器提供了用于选择社区和/或话题网络/特定社区内的节点以可视化地展示每个节点(例如,用户、社区信息以及影响程度)的详情的交互式接口。因此,图13到图15示出了影响者社区及其特征(例如,在WordCloud可视化技术中的每个社区的谈话)的交互式可视化。同样如图13到图15中所示,每个社区(例如,由边缘和节点组成)被可视化地与另一个社区区分开来(例如,通过颜色编码),并且每个节点依据整个话题网络内的影响程序进行大小调整。例如,用户的影响程序对应于社区或者话题网络内的用户账户的排名。此外,通过选择特定社区(例如,使用鼠标或者指针视觉地选择话题网络中的社区),随之描绘了社区值(例如,高亮显示话题网络图内的社区,展示社区内的排名最高影响者,并且展示所选社区的排名最高谈话话题的热门特征)。在图13到图15中,显示屏(例如,图2中的计算装置101的屏幕)上热门特征值的可视化被显示成词云,该词云描绘了所选社区内的排名最高谈话话题以及特定社区的所有用户中对每个话题的使用频率指征。
[0143]例如,节点被进行颜色编码,以可视化地将其与其对应的社区关联,并且每个节点的大小与其社区(颜色编码)内相对于整个话题网络的影响者分数成比例。选择节点(例如,将鼠标指针悬停在节点上方)时,Twitter句柄弹出,并且该句柄的信息显示在屏幕上。
[0144]在另一个示例中,选择子图时,其可视化地高亮显示该所选社区中的排名最高影响者,并且在屏幕上提供可视化呈现(例如,该社区的谈话词云)。其示出对社区行为、正面/负面情绪的见解。
[0145]示例情境:个人护理品品牌
[0146]在一个示例性实施例中,向图3中所示的过程中输入个人护理品品牌的名称。图13b中示出了使用加权分析的展示了影响者的社区网络图形输出。个人护理品公司发布YouTube视频,作为其一个广告活动的一部分。该广告活动的成功在于数百人通过Twitter分享了该YouTube视频。图13a示出了针对未加权的影响者图获取的结果的比较分析,而图13b示出了使用加权分析的影响者图。加权分析能够将“YouTube”识别成重要影响者,而未加权分析无法识别Youtube。对于将YouTube看作影响者的个人护理品公司,立即显示该视频广告活动很受欢迎。
[0147]示例情境:制药公司
[0148]在一个示例性实施例中,向图3中所示的过程中输入制药公司的名称。图14中示出了使用加权分析的展示了影响者的社区网络图形输出。对于制药公司,当出现重大公共关系错误(例如,循环出现关于其一种药品的不当信息)时,该公司需要识别出能够帮助尽快处理该情况的影响者。例如,制药公司已经宣布该公司不再花钱雇佣医生或者其他保健专家来宣传该公司产品。关于该公司决定的文章出现在多个网站上:Dr.Merco Ia网站、纽约时报畅销书作家,以及时代杂志(TIME)、洛杉矶时报(LA Times)、美国有线电视新闻网络(CNN)、福克斯新闻(Fox News)、美国广播公司新闻网(ABC News)和今日秀(Today Show)特辑中。
[0149]在图14中,加权影响者过程将Omercola(该网站的推特句柄)视作该社区中谈论该话题的排名最高影响者之一。因此,在必要时,该制药公司可以将‘mercola’的网站或者网站平台视作传播任何重要信息的重要影响者。
[0150]示例情境:超级足球杯(Super Bowl)
[0151]在一个示例性实施例中,向图3中所示的过程中输入话题“超级足球杯”。图15b中示出了使用加权分析的展示了影响者的社区网络图形输出。从背景来看,超级足球杯是美国的热门体育事件。许多大品牌和电视频道想要通过组织与其关联的公共关系事件来利用超级足球杯。例如,在上一届超级足球杯之前,脱口秀节目“艾伦秀(Ellen show)”或者“艾伦.德杰尼勒斯秀(Ellen DeGeneres Show)”将为一些赛事的获胜者送出超级足球杯的免费门票。当该秀的官方推特句柄“Otheellenshow”作为排名最高影响者出现,并且存在谈论该公共关系活动的整个社区时,可以看到该赛事的成功。图15示出了未加权分析(图15a)和加权分析(图15b)获取的结果的比较分析。加权和未加权版本均识别了谈论赢得超级足球杯的免费门票的社区,但是加权分析还能够识别来源或者影响者“Otheellenshow”,如图15b中所示。
[0152]超级足球杯案例研究。(A)描绘了识别主要谈论超级足球杯、丹佛野马(Broncos)与西雅图海鹰(Seahawks)或者免费门票的影响者的旧方法。(B)描绘了除此之外还识别“theellenshow”的新方法的结果。
[0153]因此,提供了用于针对指定查询话题识别其社交社区(基于所获取的社交联网数据)内的影响者的系统和方法。可以了解到,影响者的特征不一,并且实际上,即便在指定的话题网络内,也存在影响者的社区。本文提供的系统和方法被用于在可视化于网络图中的计算装置(例如,计算装置101)上输出可视化以展示实体或者个人的相对影响者以及它们的对应社区。此外,热门特征值(例如,基于预定义的特征,例如谈话的话题)被可视化地描绘在展示排名最高的或者相关的话题的每个社区的计算装置的显示屏上。这些话题可以描绘成每个社区谈话的词云,以可视化地展示各个社区的行为特征。
[0154]以下描述了所提出的计算系统和方法的一般性示例实施例。
[0155]在一个示例性实施例中,提供了一种由服务器执行的、用于针对话题确定至少一个用户账户的加权影响的方法。在另一个示例性实施例中,提供了一种服务器系统或者服务器,用于针对话题确定至少一个用户账户的加权影响,该服务器系统包括处理器、存储器和存储在存储器上的可执行指令。所述方法或者指令,或者这两者,包括:所述服务器获取所述话题;确定一个或多个社交数据网络内与所述话题相关的帖子,所述服务器有权限访问来自一个或多个社交数据网络的数据;将每个帖子描述成以下各项中的一项或多项:另一个发帖的回复帖子,另一个用户账户的提及帖子,以及原始发帖的转帖;生成用户账户组,其中所述用户账户组包括创作在所述提及帖子中被提及的发帖,发布原始发帖,创作与所述话题相关的一个或多个帖子,或者其任何组合的用户账户;将所述组中的每个所述用户账户表示成相连图中的节点并且在一个或多个节点对之间建立边缘;对于指定节点对之间的每个边缘,确定加权,该加权是以下各项中的一项或多项的函数:是否存在追随者-被追随者关系,涉及指定节点对的提及帖子的数量、回复帖子的数量和转帖的数量;并且使用每个所述节点和所述边缘计算话题网络图,每个边缘与加权关联。
[0156]在一个示例性方面,当指定节点对之间存在追随者-被追随者关系,则将边缘的加权初始化成默认值,并且基于以下各项中的任一项或者更多项进一步调整加权:涉及指定节点对的提及帖子的数量、回复帖子的数量以及转帖的数量。
[0157]在一个示例性方面,所述方法或者指令,或者这两者,进一步包括:在话题网络图中对用户账户进行排名,以过滤掉话题网络图内的离群值节点;在经过滤的话题网络图内的用户账户之间识别出至少两个不同的社区,每个社区与用户账户的子集关联;识别与每个社区关联的属性;以及输出与对应属性关联的每个社区。
[0158]在一个示例性方面,所述方法或者指令或者这两者进一步包括:对每个社区内的用户账户进行排名;以及对于每个社区,提供映射到对应社区的用户账户的已排名列表。
[0159]在一个示例性方面,对用户账户进行排名进一步包括:将每个已排名的用户账户映射到对应的社区;以及输出至少两个社区的用户账户的已排名列表。
[0160]在一个示例性方面,所述属性与每个用户账户与社交数据网络的交互相关联。
[0161]在一个示例性方面,所述属性与用户账户的属性的组合频率关联地显示。
[0162]在一个示例性方面,所述属性是特定社区内的用户的谈话话题的频率。
[0163]在另一个示例性实施例中,方法由服务器实施,用于确定对话题具有影响力的至少一个用户账户。所述方法包括:获取所述话题;确定社交数据网络内与所述话题相关的多个用户账户;将每个所述用户账户表示成相连图中的节点,并且确定每个所述用户账户之间是否存在关系;通过将每个所述用户账户用作节点并且将对应关系用作每个所述节点之间的边缘,计算话题网络图;对话题网络图内的用户账户进行排名,以过滤掉所述话题网络图内的离群值节点;在经过滤的话题网络图内的用户账户中识别出至少两个不同的社区,每个社区与用户账户的子集关联;识别与每个社区关联的属性;以及输出与对应的属性关联的每个社区。
[0164]在一个示例性方面,所述方法进一步包括:对每个社区内的用户账户进行排名;以及对于每个社区,提供映射到对应社区的用户账户的已排名列表。
[0165]在一个示例性方面,其中对用户账户进行排名进一步包括:将每个已排名的用户账户映射到对应的社区;以及输出至少两个社区的用户账户的已排名列表。
[0166]在一个示例性方面,其中所述属性与每个用户账户与社交数据网络的交互相关联。
[0167]在一个示例性方面,其中所述属性与用户账户的属性的组合频率关联地显示。
[0168]在一个示例性方面,其中所述属性是特定社区内的用户的谈话话题的频率。
[0169]在一个示例性实施例中,所述方法进一步包括:在图形用户界面中显示至少两个不同的社区,这两个不同的社区包括颜色编码的节点和边缘,其中所述颜色编码的节点和边缘的至少第一部分是与第一社区关联的第一颜色,并且所述颜色编码的节点和边缘的至少第二部分是与第二社区关联的第二颜色。
[0170]在一个示例性方面,其中指定颜色编码的节点的大小与指定颜色编码的节点所代表的指定用户账户的影响程度相关联。
[0171]在一个示例性方面,所述方法进一步包括显示与指定社区关联的词语,这些词语与指定社区的属性相对应。
[0172]在一个示例性方面,所述方法进一步包括:在图形用户界面中检测与指定社区交互的用户控制的指针;以及以下各项中的至少一项:显示指定社区中的一个或多个排名最高的用户账户;可视化地高亮显示指定社区;以及显示与指定社区相关联的词语,这些词语与指定社区的属性相对应。
[0173]在另一个示例性实施例中,提供了一种用于确定对话题具有影响力的至少一个用户账户的计算系统。所述计算系统包括:通信装置;存储器;以及处理器,所述处理器被配置用于至少:获取所述话题;确定社交数据网络内与所述话题相关的多个用户账户;将每个所述用户账户表示成相连图中的节点,并且确定每个所述用户账户之间是否存在关系;通过将每个所述用户账户用作节点并且将对应关系用作每个所述节点之间的边缘,计算话题网络图;对话题网络图内的用户账户进行排名,以过滤掉所述话题网络图内的离群值节点;在经过滤的话题网络图内的用户账户中识别出至少两个不同的社区,每个社区与用户账户的子集关联;识别与每个社区关联的属性;以及输出与对应的属性关联的每个社区。
[0174]在另一个示例性实施例中,提供了一种由服务器实施、用于确定对话题具有影响力的一个或多个用户的方法。所述方法包括:获取话题;确定社交数据网络内与所述话题相关的用户;将每个所述用户建模成节点,并且确定每个所述用户之间的关系;通过将所述用户用作节点并且将所述关系用作边缘,计算话题网络图;对所述话题网络图内的用户进行排名;识别并且过滤掉所述话题网络图内的离群值节点;以及根据其关联的排名,输出所述话题网络图内剩余的用户。
[0175]在一个示例性方面,对包含所述话题的内容进行消耗以及生成中的至少一者的用户被视作与所述话题相关的用户。
[0176]在另一个示例性方面,在所述话题网络图中,至少两个用户之间定义的边缘代表所述至少两个用户之间的朋友连接。
[0177]在另一个示例性方面,在所述话题网络图中,至少两个用户之间定义的边缘代表所述至少两个用户之间的追随者-被追随者连接,并且其中所述至少两个用户中的一个用户是追随者,而所述至少两个用户中的另一个用户是被追随者。
[0178]在另一个示例性方面,在所述话题网络图中,至少两个用户之间定义的边缘代表所述至少两个用户之间的回复连接,并且其中所述至少两个用户中的一个用户对所述至少两个用户中的另一个用户的发帖做出回复。
[0179]在另一个示例性方面,在所述话题网络图中,至少两个用户之间定义的边缘代表所述至少两个用户之间的转帖连接,并且其中所述至少两个用户中的一个用户对所述至少两个用户中的另一个用户的发帖进行转帖。
[0180]在另一个示例性方面,所述排名包括使用页面等级算法衡量所述话题网络内的指定用户的重要性。
[0181]在另一个示例性方面,所述排名包括使用以下各项中的至少一项:特征向量中心性、加权度、中间状态、枢纽以及权威度量。
[0182]在另一个示例性方面,识别和过滤掉所述话题网络图内的离群值节点包括:对所述话题网络图应用集群算法、模块性算法以及社区检测算法中的至少一个,以输出多个社区;按照所述多个社区中的每个社区内的用户数量对所述多个社区进行排序;选择用户数量最大的数量η的社区,其中所述η数量的社区中的用户累加和至少满足所述话题网络图中的用户总数的百分数阈值;以及将未选择社区中的用户建立为离群值节点。
[0183]在另一个示例性实施例中,提供了一种用于确定对话题具有影响力的一个或多个用户的计算系统。所述计算系统包括:通信装置;存储器;以及处理器。所述处理器被配置用于至少:获取话题;确定社交数据网络内与所述话题相关的用户;将每个所述用户建模成节点,并且确定每个所述用户之间的关系;通过将所述用户用作节点并且将所述关系用作边缘,计算话题网络图;对所述话题网络图内的用户进行排名;识别并且过滤掉所述话题网络图内的离群值节点;以及根据其关联的排名,输出所述话题网络图内剩余的用户。
[0184]将认识到,本文中所描述的系统和方法的示例实施例的不同特征可以用不同的方式相互组合。换言之,尽管没有具体阐明,但根据其他示例实施例,不同的模块、操作和部件可以一起使用。
[0185]本文中描述的所流程图中的步骤或操作仅是示例。在不脱离本发明或这些发明的精神的情况下,这些步骤或操作可以有许多变化。例如,这些步骤可以按不同的顺序进行,或者可以添加、删除或修改步骤。
[0186]本文所述的GUI和屏幕截图仅用于示例说明。在不脱离本发明或这些发明的精神的情况下,图形和交互式元素可以有许多变化。例如,该等元素可以位于不同地方,或者可以添加、删除或者修改。
[0187]尽管已经参照某些特定实施例对以上内容进行了描述,但在不脱离所附权利要求书的范围的情况下,其各种修改对于本领域的技术人员而言将是明显的。
【主权项】
1.一种通过服务器执行的方法,所述方法用于针对话题确定至少一个用户账户的加权影响,所述方法包括: 所述服务器获取所述话题; 确定一个或多个社交数据网络内与所述话题相关的帖子,所述服务器有权限访问来自所述一个或多个社交数据网络的数据; 将每个帖子描述成以下各项中的一项或多项:另一个发帖的回复帖子、另一个用户账户的提及帖子,以及原始发帖的转帖; 生成用户账户组,所述用户账户组中包括创作在所述提及帖子中被提及的帖子、发布所述原始帖子、创作与所述话题相关的一个或多个帖子,或者其任何组合的任何用户账户; 将所述组中的每个所述用户账户表示成相连图中的节点,并且在一个或多个节点对之间建立边缘; 对于指定节点对之间的每个边缘,确定加权,所述加权是以下各项中的一项或多项的函数: 是否存在追随者-被追随者关系,涉及所述指定节点对的提及帖子的数量、回复帖子的数量以及转帖的数量;以及 计算利用每个所述节点和所述边缘的话题网络图,每个边缘与加权关联。2.根据权利要求1所述的方法,其中,如果所述指定节点对之间存在所述追随者-被追随者关系,则将所述边缘的所述加权初始化成默认值,并且基于以下各项中的任一项或者更多项进一步调整所述加权:涉及所述指定节点对的所述提及帖子的数量、所述回复帖子的数量以及所述转帖的数量。3.根据权利要求1所述的方法,其进一步包括: 对所述话题网络图内的所述用户账户进行排名,以过滤掉所述话题网络图内的离群值节点; 在经过滤的话题网络图内的所述用户账户中识别出至少两个不同的社区,每个社区与所述用户账户的子集关联; 识别与每个社区关联的属性;以及 输出与对应属性关联的每个社区。4.根据权利要求3所述的方法,其进一步包括:对每个社区内的所述用户账户进行排名;以及对于每个社区,提供映射到对应社区的所述用户账户的已排名列表。5.根据权利要求4所述的方法,其中对所述用户账户进行排名进一步包括:将每个已排名的用户账户映射到对应的社区;以及输出所述至少两个社区的所述用户账户的已排名列表。6.根据权利要求3所述的方法,其中所述属性与每个用户账户与所述社交数据网络的交互相关联。7.根据权利要求3所述的方法,其中所述属性与所述用户账户的所述属性的组合频率关联地显不。8.根据权利要求3所述的方法,其中所述属性是特定社区内的用户的谈话话题的频率。9.根据权利要求3所述的方法,其进一步包括:在图形用户界面中显示所述至少两个不同的社区,所述至少两个不同的社区包括颜色编码的节点和边缘,其中所述颜色编码的节点和边缘的至少第一部分是与第一社区关联的第一颜色,并且所述颜色编码的节点和边缘的至少第二部分是与第二社区关联的第二颜色。10.根据权利要求9所述的方法,其中指定颜色编码的节点的大小与所述指定颜色编码的节点所代表的指定用户账户的影响程度相关联。11.一种用于针对话题确定至少一个用户账户的加权影响的计算系统,所述计算系统包括: 通信装置; 存储器;以及 处理器,所述处理器被配置用于至少: 获取所述话题; 确定一个或多个社交数据网络内与所述话题相关的帖子,所述计算系统有权限访问来自所述一个或多个社交数据网络的数据; 将每个帖子描述成以下各项中的一项或多项:另一个发帖的回复帖子、另一个用户账户的提及帖子,以及原始发帖的转帖; 生成用户账户组,所述用户账户组中包括创作在所述提及帖子中被提及的帖子、发布所述原始帖子、创作与所述话题相关的一个或多个帖子,或者其任何组合的任何用户账户;将所述组中的每个所述用户账户表示成相连图中的节点,并且在一个或多个节点对之间建立边缘; 对于指定节点对之间的每个边缘,确定加权,所述加权是以下各项中的一项或多项的函数: 是否存在追随者-被追随者关系,涉及所述指定节点对的提及帖子的数量、回复帖子的数量以及转帖的数量;以及 计算利用每个所述节点和所述边缘的话题网络图,每个边缘与加权关联。12.根据权利要求11所述的计算系统,其中,如果所述指定节点对之间存在所述追随者-被追随者关系,则将所述边缘的所述加权初始化成默认值,并且基于以下各项中的任一项或者更多项进一步调整所述加权:涉及所述指定节点对的所述提及帖子的数量、所述回复帖子的数量以及所述转帖的数量。13.根据权利要求11所述的计算系统,其中所述处理器进一步被配置用于: 对所述话题网络图内的所述用户账户进行排名,以过滤掉所述话题网络图内的离群值节点; 在经过滤的话题网络图内的所述用户账户中识别出至少两个不同的社区,每个社区与所述用户账户的子集关联; 识别与每个社区关联的属性;以及 输出与对应属性关联的每个社区。14.根据权利要求13所述的计算系统,其中所述处理器进一步用于:对每个社区内的所述用户账户进行排名;以及对于每个社区,提供映射到对应社区的所述用户账户的已排名列表。15.根据权利要求14所述的计算系统,其中对所述用户账户进行排名进一步包括:将每个已排名的用户账户映射到对应的社区;以及输出所述至少两个社区的所述用户账户的已排名列表。16.根据权利要求13所述的计算系统,其中所述属性与每个用户账户与所述社交数据网络的交互相关联。17.根据权利要求13所述的计算系统,其中所述属性与所述用户账户的所述属性的组合频率关联地显不。18.根据权利要求13所述的计算系统,其中所述属性是特定社区内的用户的谈话话题的频率。19.根据权利要求13所述的计算系统,其进一步包括显示装置,并且其中所述处理器进一步被配置用于:在图形用户界面中显示所述至少两个不同的社区,所述至少两个不同的社区包括颜色编码的节点和边缘,其中所述颜色编码的节点和边缘的至少第一部分是与第一社区关联的第一颜色,并且所述颜色编码的节点和边缘的至少第二部分是与第二社区关联的第二颜色。20.根据权利要求19所述的计算系统,其中指定颜色编码的节点的大小与所述指定颜色编码的节点所代表的指定用户账户的影响程度相关联。
【文档编号】G06Q50/00GK105849763SQ201480070176
【公开日】2016年8月10日
【申请日】2014年10月23日
【发明人】爱德华·东晋·金, 布莱恩·佳利·耿, 干乍那·帕德马纳班
【申请人】西斯摩斯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1