用于识别社交数据网络中的影响者及其社区的系统和方法

文档序号:10494430阅读:405来源:国知局
用于识别社交数据网络中的影响者及其社区的系统和方法
【专利摘要】一种由服务器执行用于确定对于话题而言有影响力的至少一个用户账户的系统和方法,其包括:获取所述话题;确定社交数据网络内与所述话题相关的多个用户账户;将所述用户账户中的每个用户账户表示为连通图中的节点并且确定所述用户账户中的每个用户账户之间存在关系;将所述用户账户中的每个用户账户用作节点并且将相应的关系用作所述节点中的每个节点之间的边缘来计算话题网络图;将所述话题网络图内的所述用户账户进行排名以过滤所述话题网络图内的离群值节点;识别所述经过滤的话题网络图内的所述用户账户当中的至少两个不同的社区,每个社区与所述用户账户的子集相关联;识别与每个社区相关联的属性;输出与所述相应属性相关联的每个社区。
【专利说明】用于识别社交数据网络中的影响者及其社区的系统和方法 相关申请的交叉引用
[0001] 本申请要求20 13年10月25日提交的标题为"Sy s terns and Me thods for Determining Influencers in a Social Data Network(用于确定社交数据网络中的影响 者的系统和方法)"的61/895,539号美国临时专利申请、2013年11月22日提交的标题为 "Systems and Methods for Identifying Influencers and Their Communities in a Social Data Network(用于识别社交数据网络中的影响者及其社区的系统和方法)"的61/ 907,87号美国临时专利申请、和2014年7月3日提交的标题为"Systems and Methods for Dynamically Determining Influencers in a Social Data Network Using Weighted Analysis(用于使用加权分析动态地确定社交数据网络中的影响者的系统和方法)"的62/ 020,833号美国临时专利申请的优先权,并且其全部内容通过援引并入本文。
技术领域
[0002] 以下内容总体上涉及分析社交网络数据。 背景
[0001] 近年来,社交媒体已经成为个人和消费者在线(例如,在互联网上)交互的流行方 式。社交媒体还影响企业目的在于和其客户、粉丝、和潜在客户在线交互的方式。
[0002] 关于具体话题的、具有大量追随者的一些博客主被识别并且用于对特定产品代言 或赞助。例如,受欢迎的博客主的网站上的广告空间用于对相关产品和服务做广告。
[0003] 社交网络平台也用于影响人群。社交网络平台的示例包括以商标名脸书 (Facebook)、推特(Twitter)、领英(LinkedIn)、汤博乐(Tumblr)和拼趣(Pinterest)著称的 那些社交网络平台。社交网络平台内的受欢迎的或专家个人可以用于将向其他人进行营 销。当社交网络内的用户数量增长时,快速识别受欢迎或有影响力的个人变得更困难。此 外,准确识别受欢迎的话题内的有影响力的个人是困难的。专家或在社交网络内受欢迎的 那些用户在本文中可互换地称为"影响者"。 附图鉴于说明
[0004] 现在参考附图仅通过举例方式来描述实施例,在附图中:
[0005] 图1是展示了在社交数据网络中彼此连接的用户的图解。
[0006] 图2是与计算设备通信的服务器的示意图。
[0007] 图3是用于确定与话题相关联的影响者的计算机可执行指令的示例实施例的流程 图。
[0008] 图4是用于确定与话题相关联的影响者的计算机可执行指令的另一个示例实施例 的流程图。
[0009] 图5是用于获取并存储社交联网数据的计算机可执行指令的示例实施例的流程 图。
[0010] 图6是索引存储器中的示例数据部件的框图。
[0011] 图7是配置文件存储器中的示例数据部件的框图。
[0012] 图8是示例用户列表和用户在不同的用户列表内被列出的次数的记录的示意图。
[0013] 图9是用于确定话题的计算机可执行指令的示例实施例的流程图,在这些话题中, 认为给定的用户是专家。
[0014] 图10是用于确定给定用户感兴趣的话题的计算机可执行指令的示例实施例的流 程图。
[0015] 图11是用于确定在索引存储器中搜索被认为是话题专家的用户的计算机可执行 指令的示例实施例的流程图。
[0016] 图12是用于识别对话题感兴趣的用户的计算机可执行指令的示例实施例的流程 图。
[0017]图13是话题"麦咖啡(McCaf e)"的示例话题网络图的图示。
[0018] 图14是图13中的话题网络图的图示,展示了主聚类和离散值聚类的分解。
[0019] 图15是用于基于社区的分解来识别和过滤话题网络中的离群值的计算机可执行 指令的示例实施例的流程图。
[0020] 图16是用于识别并且提供每个话题网络的社区聚类的计算机可执行指令的示例 实施例的流程图。
[0021] 图17A至图17D示出了与显示话题网络内的影响者社区的GUI交互的示例性屏幕截 图。
[0022] 图18示出了示例性社区网络图。
[0023] 图19A至图19C展示了具体话题的示例性社区和特征。
[0024] 图20A至图20B展示了第二选择的话题的示例性社区和特征。 附图详细说明
[0025] 应当认识的是,为了说明的简化和清晰,在认为适当时,参考数字可在图中被重复 以指示相应或相似的元件。此外,陈述了许多特定细节,以提供对本文中所描述的实施例的 透彻理解。然而,本领域的普通技术人员将理解的是,没有这些特定细节也可以实践本文中 所描述的实施例。在其他情形下,没有详细描述公知方法、程序和部件,以不使本文中所描 述的实施例难理解。并且,本说明不被认为是限制本文中所描述的实施例的范围。
[0026] 社交联网平台包括生成并发帖其他用户的内容来观看、听取等的用户(例如,经由 通过与社交联网平板相关联的网站通信的计算设备网络)。社交联网平台的非限制性示例 是 Facebook、Twitter、LinkedIn、Pinterest、Tumblr、博客圈、网站、合作维基、网上新闻组、 网上论坛、电子邮件、和即时消息传送服务。目前已知的和未来认识的社交联网平台可以与 本文中所描述的原理一起使用。社交联网平台可以用于向平台的用户推销和做广告。应认 识到,难以识别与给定话题相关的用户。这包括识别关于给定话题的有影响力的用户。
[0027] 如本文中所使用的,术语"影响者"是指主要产生并共享与话题相关的内容的用户 账户并且被认为对社交数据网络中的其他用户是有影响的。如本文中所使用的,术语"追随 者"是指追随第二用户账户(例如,与第一用户账户的至少一个社交联网平台相关联并且经 由计算设备访问的第二用户账户)的第一用户账户(例如,与一个或多个经由计算设备访问 的社交联网平台相关联的第一用户账户),这样使得第二用户账户所发帖的内容被发布以 供第一用户账户阅读、消费等。例如,当第一用户追随第二用户,第一用户(即,追随者)将接 收第二用户所发帖的内容。对具体话题感"兴趣"的用户在本文中是指追随具体话题的许多 专家的用户账户(例如,与社交联网平台相关联)。在一些情况下,追随者与其他用户所发帖 的内容(例如,通过分享或转帖该内容)互动。
[0028] 识别关键影响者对于公司而言是可取的,以便例如将可能潜在地广播和支持品牌 消息的个人定为目标。雇佣这些个人能够控制品牌的在线消息和可以减少可能发生的潜在 负面情绪。这个过程的小心管理可以引起在线注意力份额呈指数增长,例如,在病毒式营销 活动情况下。
[0029] 大多数过去确定影响者的方法聚焦于可容易计算的度量,如追随者或朋友的数 量、帖子的数量。虽然总的追随者或朋友的计数可能接近于整个社交网络,但其关于指示用 户或个人对公司或品牌的影响的计算度量方面提供极少数据。这通过大量的潜在用户而引 起嘈杂的影响者结果和浪费的时间筛选。
[0030] 若干社交媒体分析公司要求提供为社交网络提供影响者分数。然而,本文中应认 识到许多公司使用不是真影响者度量、而是追随者和该提到的内容(例如,推特的"推文"帖 子、消息等)的数量的代数公式的度量。例如,一些已知的方法中使用这些数量的对数归一 化,该对数归一化向追随者计数分配权重的大致80 %并且向提到的内容的数量分配余数。
[0031] 使用代数公式的原因是追随者和提到的内容的计数或记录在社交网络的用户配 置文件中被立即更新。因此,计算非常快并且容易报告。这经常被称为权威度量或权威分数 以将其与真实影响者分析区分开。然而,权威分数方法有若干个显著缺点。
[0032] 本文中应认识到,这个权威分数与上下文不相关。这是静态度量,而不管话题或查 询如何。例如,不管话题如何,大众媒体机构像纽约时报(New York Times)或美国有线新闻 网络(CNN)会获得最高排名,因为它们具有数百万追随者。因此,其不与上下文相关。
[0033] 本文中还应认识到,这个权威度量具有高追随者计数偏差。如果在某个领域的定 义明确的专家有有线数量的追随者,但这些追随者全都是专家,由于其追随者计数低,它们 将绝不会出现在前20至100个结果中。有效地,所有追随者被视作具有相等的权重,这已经 被展示为网络分析研究中不正确的假设。
[0034] 本文中描述的所提出的系统和方法可以动态地计算关于查询话题的影响者,并且 可以对其追随者的影响做出解释。
[0035] 还应认识到,影响者关系的递归性质在大规模实施影响者识别时是一项挑战。举 例来讲,考虑存在个人A、B和C的情形:A追随B和C;B追随C和A;并且C仅追随A。然后,A的影响 取决于C,反过来C取决于A和B,等等。以此方式,影响者关系具有递归性质。
[0036] 更普遍地,所提出的系统和方法提供了一种确定社交数据网络中的影响者的方 式。
[0037] 举例来讲,在图1考虑了具体话题的简化追随者网络。显示每个用户(实际上是用 户账户,或与用户账户或用户数据地址相关联的用户名)与其他用户有关系。用户之间的线 (又称为边缘)表示用户之间的关系。例如,从用户账户"戴夫(Dave)"指向用户账户"卡罗尔 (Carol)"的箭头是指戴夫阅读卡罗尔发布的消息。换言之,戴夫追随卡罗尔。艾米(Amy)与 布莱恩(Brian)之间的双向箭头是指例如艾米追随戴夫而戴夫追随艾米。除了图1中的每个 用户账户,提供了网页排名分数。网页排名算法是谷歌用来测量网络中网页的重要性的一 种已知算法并且还可以应用于测量社交数据网络中的用户的重要性。
[0038]继续图1,用户艾米具有最大的追随者数量(即,戴夫、卡罗尔和埃迪(Eddie))并且 是这个网络中最有影响力的用户(即,网页排名分数为46.1%)。然而,仅具有一个追随者 (即艾米)的布莱恩比具有两个追随者(即,埃迪和戴夫)的卡罗尔更有影响力,主要是因为 布莱恩具有艾米的注意力份额的一大部分。换言之,使用本文中提出的系统和方法,尽管卡 罗尔比布莱恩具有更多的追随者,但她不一定比布莱恩具有更大的影响。因此,使用本文中 所描述的所提出的系统和方法,用户的追随者的数量并不是影响力的唯一确定因素。在示 例实施例中,识别谁是用户的追随者还可以被分解成影响的计算。
[0039] 表1中表示图1中的示例网络,但该表展示了网页排名可以如何显著不同于追随者 的数量。
衣i :囹1十衣不的杵小FJ瑨的惟苻坦隨有订数和FJ贝俳名甘数。
[0040] 艾米明显是具有最大数量追随者和最高网页排名分数的最高影响者。尽管卡罗尔 具有两个追随者,但她具有比具有一个追随者的布莱恩更低的网页排名度量。然而,布莱恩 的一个追随者是最有影响力的艾米(具有四个追随者),而卡罗尔的两个追随者是各自具有 〇追随者的低影响者。直觉是如果几个专家认为某人是专家,则她/他也是专家。然而,网页 排名算法得出比仅对追随者的数量计数更好的影响力测量。如将在下文描述的,本文中所 描述的所提出的系统和方法可以使用网页排名算法和其他类似排名算法。
[0041] 所提出的系统和方法可以用于确定社交数据网络中给定话题的关键影响者。
[0042] 在示例实施例中,所提出的系统和方法可以用于确定话题A的影响者还是一个或 多个其他话题(例如,话题A、话题B、话题C等)的影响者。
[0043] 转到图2,展示了所提出的系统的示意图。服务器100通过网络102与计算设备101 通信。服务器100获取并分析社交网络数据并通过网络向计算设备101提供结果。计算设备 101可以通过GUI接收用户输入以控制供分析的参数。
[0044] 可以认识到,社交网络数据包括关于社交网络平台的用户的数据、以及用户生成 或组织、或既生成也组织的内容。社交网络数据的非限制性示例包括用户账户ID或用户名、 对用户或用户账户的描述、用户发帖的消息或其他数据、用户与其他用户之间的连接、位置 信息等。连接的示例是在本文中又称为"列表"的"用户列表",该用户列表包括列表的名称、 对该列表的描述、和给定用户所追随的一个或多个其他用户。该用户列表是例如由给定用 户创建的。
[0045] 继续图2,服务器100包括处理器103和存储器设备104。在示例实施例中,该服务器 包括一个或多个处理器和大量存储器容量。在另一个示例实施例中,存储器设备104或多个 存储器设备是固态驱动器以便提高读出/写入性能。在另一个示例实施例中,多个服务器用 于实施本文中所描述的方法。换言之,在示例实施例中,服务器100是指服务器系统。在另一 个示例实施例中,使用其他目前已知的计算硬件或未来认识的计算硬件,或使用两者。 [0046] 服务器100还包括经由网络102通信的通信设备105。网络102可以是有线或无线网 络、或是两者。服务器100还包括用于经由计算设备101显示和接收数据的⑶I模块106。服务 器还包括社交联网数据模块107;索引器模块108;用户账户关系模块109;专家识别模块 110;兴趣识别模块111;查询模块114,用于识别对话题A(例如,给定话题)感兴趣的用户;社 区识别模块112和特征识别模块113。如将描述的,社区识别模块112被配置成用于基于专家 识别模块识别的关系网络图来定义社区或数据聚类。
[0047]服务器100还包括多个数据库,包括数据存储器116;索引存储器117;社交图数据 库118;配置文件存储器119;专业知识向量数据库120;兴趣向量数据库121、用于存储社区 图信息的数据库128、和用于存储每个社区的受欢迎的特征并且存储在每个社区(社区识别 模块112定义的社区)内搜索的预定义特征的数据库129。
[0048]社交联网数据模块107用于接收社交联网数据流。在示例实施例中,每天且实时向 社交联网数据模块107传递数百万条新消息。社交联网数据模块107接收的社交联网数据存 储在数据存储器116中。
[0049] 索引器模块108对数据存储器116中的数据执行索引器进程并且将索引的数据存 储在索引存储器117中。在示例实施例中,能够更容易搜索索引存储器117中的索引数据,并 且索引存储器中的识别符可以用于检索实际数据(例如,完整消息)。
[0050] 还从社交联网平台服务器(未示出)获取社交图,并且将其存储在社交图数据库 118中。当给定用户作为查询的输入时,社交图可以用于返回追随所查询的用户的所有用 户。
[0051] 配置文件存储器119存储与用户配置文件相关的元数据。配置文件相关元数据的 示例包括给定用户的追随者的总数、给定用户的自公开个人信息、给定用户的位置信息等。 可以查询配置文件存储器119中的数据。
[0052] 在示例实施例中,用户账户关系模块109可以使用社交图118和配置文件存储器 119以确定哪些用户追随具体用户。
[0053]专家识别模块110被配置成用于识别列出用户账户所在的所有用户列表的集合, 被称为专业知识向量。用户的专业知识向量存储在专业知识向量数据库120中。兴趣识别模 块111被配置成用于识别给定用户感兴趣的话题,被称为兴趣向量。用户的兴趣向量存储在 兴趣向量数据库121中。
[0054] 再次参照图2,服务器100进一步包括社区识别模块112,该社区识别模块被配置成 用于识别话题网络内的社区(例如,所查询的话题,如话题A,内的信息聚类)和由专家识别 模块110识别的相关联影响者。如将参照图3描述的,话题网络示出了有影响力的用户及其 关系(例如,专家识别模块110和/或社交图118所定义的)的图。社区识别模块112的输出包 括被定义为话题网络的包含共同特征和/或受同一社区中的其他实体(例如,影响者)比另 一个社区中的那些实体的影响程度更高的聚类的直观识别(例如,颜色编码)。服务器100进 一步包括特征识别t吴块113。
[0055] 特征识别模块113被配置成用于从社区识别模块112接收所识别的社区并提供在 社区成员之间受欢迎的特征(例如,谈话话题)的识别。特征识别模块113的结果可以可视地 与在社区识别模块112中提供的社区的相应可视化关联。如将描述的,一方面,社区识别模 块112(例如,多个社区)和/或特征识别模块113(例如,每个社区内多个受欢迎的特征)的结 果显示在显示屏125上,作为至计算设备101的输出。在另一方面,GUI模块106被配置成用于 从计算设备101接收输入以选择社区识别模块112识别的具体社区。然后,GUI模块106被配 置成用于与特征识别模块113通信,以提供与所选择的社区(例如,所选择的社区内的所有 有影响力的用户)相关联的具体特征(例如,定义受欢迎的谈话)的结果输出。特征识别模块 112的结果(例如,可视地定义所选择的社区中的用户之间的受欢迎的谈话的词云)可以和 具体选择的社区和/或具体选择的社区内的用户列表一起显示在显示屏125上。
[0056] 继续图2,计算设备101包括通过网络102与服务器100通信的通信设备122、处理器 123、存储器设备124、显示屏125、和互联网浏览器126。在示例实施例中,服务器100提供的 GUI通过互联网浏览器由计算设备101显示。在分析应用127可在计算设备101上使用的另一 个示例实施例中,GUI通过分析应用127由计算设备显示。可以认识到,显示设备125可以是 计算设备(例如,像移动设备、平板、膝上计算机等)的一部分或可以与计算设备(例如,像台 式计算机等等一样)分开。
[0057]尽管没有展示,但各种用户输入设备(例如,触摸屏、滚动球、光鼠标、按钮、键盘、 麦克风等)可以用于方便用户与计算设备101之间的交互。
[0058] 应认识到,本文中例示的执行指令的任何模块或部件可以包括或以其他方式访问 计算机可读介质,如存储介质、计算机存储介质、或如例如磁盘、光盘或磁带等数据存储设 备(可移除和/或不可移除)。计算机存储介质可以包括在任何方法或技术中实现的用于存 储信息(如计算机可读指令、数据结构、程序模块、或其他数据)的易失性和非易失性、可移 除和不可移除介质。计算机存储介质的示例包括RAM、ROM、EEPROM、闪存或其他存储器技术、 CD-ROM、数字多功能盘(DVD)或其他光存储设备、磁带盒、磁带、磁盘存储设备或其他磁性存 储设备、或者能够用于存储所需信息且可以由应用、模块或两者访问的任何其他介质。任何 这类计算机存储介质可以是服务器100、或计算设备101的一部分,或者是可访问的或可与 其连接。本文中所描述的任何应用或模块可以使用计算机可读/可执行指令来实现,这些指 令可以由这类计算机可读介质存储或以其他方式保留。
[0059] 转至图3,展示了计算机可执行指令的示例实施例,用于确定给定话题的一个或多 个影响者。图3中所示的过程假设社交网络数据可被服务器100获得,并且社交网络数据包 括被表示为集合U的多个用户。在框301,服务器100获取被表示为T的话题。例如,用户可以 经由显示在计算设备101处的GUI录入话题,并且计算设备101向服务器100发送该话题。在 框302,服务器使用该话题从社交网络数据中确定与该话题相关联的用户。这种确定可以用 不同的方式实施,并且将在下文进行详细的讨论。与话题相关联的用户集合被表示为Ut,其 中Ut是U的子集。
[0060] 继续图3,服务器将用户集合Ut中的每个用户模拟为节点并且确定用户Ut(框303) 之间的关系。服务器计算分别与用户Ut和用户Ut(框304)之间的关系相对应的节点和边缘的 网络。换言之,服务器创建分别与用户Ut及其关系相对应的节点和边缘的网络图。网络图被 称为"话题网络"。可以认识到,本文应用了图论的原理。定义了两个实体或用户Ut之间的边 缘或连通性的关系可以包括例如:具体社交联网平台内的两个实体之间的朋友连接和/或 追随者-被追随者连接。在附加方面,这些关系可以包括定义了两个实体(如朋友连接的朋 友)之间的社交媒体连通性的其他类型的关系。在另一方面,该关系可以包括在不同社交网 络平台(例如,Instagram和Facebook)上朋友或追随者连接。在另一方面,由边缘定义的用 户Ut之间的关系可以包括例如:经由一个用户转帖另一个用户(例如,推特上的转推)原始 发帖的消息连接的用户、和/或通过经由社交联网平台对一个用户发帖的并且被另一个用 户评论的消息的回复连接的用户。再次参照图3,两个实体之间存在边缘表明在一个或多个 社交联网平台中存在至少一种类型的关系或连通性(例如,两个用户之间的朋友或追随者 连接性)。
[0061] 然后,服务器对话题网络内的用户进行排名(框305)。例如,服务器使用网页排名 测量话题网络内的用户的重要性并且基于该测量对用户进行排名。可以使用的排名算法的 其他非限制性示例包括:特征向量中心性、加权度、中间状态、枢纽和权威度量。
[0062] 服务器识别并过滤掉话题网络内的离群值节点(框306)。离群值节点是被认为与 话题网络中的较大的人群或用户聚类分开的离群值用户。话题网络中的离群值用户或节点 的集合被表示为Uo,其中Uo是Ut的子集。下文描述了关于识别和过滤离群值节点的另外的细 -K- To
[0063] 在框307,根据排名,服务器输出用户Uo被去除的用户Ut。
[0064] 在替代示例实施例中,框306在框305之前执行。
[0065] 在框308,服务器识别用户Uo被去除的用户Ut当中的社区(例如,C1, C2,"_,Cn)。这些 社区的识别可以取决于与另一个社区内的节点相比较一个社区内的节点之间的连通性程 度。也就是,社区是由与所定义的社区外部的实体相比内部(例如,相对于同一社区中的其 他节点)具有更高连通性程度的实体或节点定义的。如将定义的,可以预定义(例如,由社区 图数据库128提供和/或从计算设备101由用户定义)用于将一个社区与另一个社区分开的 连通性程度的值和阈值。该解决方案因此定义了社区内的节点的互连性密度。每个识别的 社区图因此是在框304针对每个社区定义的节点和边缘(话题网络)的网络图的子集。一方 面,社区图进一步显示了社区内的用户(例如,作为节点)的视觉表示(用社区图)和社区(例 如,提供给图1的显示屏125)内的用户的文本列表两者。在另一方面,根据在社区内和/或在 话题T的所有社区内的影响度,对社区内的用户列表的显示进行排名(例如,提供给图1的显 示屏125)。根据框308,用户Ut于是被分成其社区图类别,如U C1、UC2、…UCn。
[0066] 在框309,针对每个给定社区(例如,C1),服务器基于给定社区内的用户(例如,Uc 1) 的社交网络数据确定与其相关联的预定义特征(例如,以下各项中的一项或多项:常见的词 和短语、谈话的话题、常见的位置、常见的图片、常见的元数据)的受欢迎特征值。所选择的 特征(例如,话题或位置)可以是用户定义的(例如,经由计算设备101的输入)和/或自动生 成的(例如,基于同一话题网络内的其他社区的特征、或基于同一话题T的之前使用的特 征)。在框310,服务器输出所识别的社区(例如,&χ 2、···χη)和与每个给定社区相关联的受 欢迎特征。可以作为与每个社区的预定义特征的特征值视觉相关联的社区图来输出(例如, 经由服务器以便显示在显示屏125上)所识别的社区。
[0067] 转至图4,展示了计算机可执行指令的另一个示例实施例,用于确定给定话题的一 个或多个影响者。框401至404与框301至304相对应。在框404之后,服务器100使用第一排名 方法对话题网络内的用户进行排名(框405)。第一排名方法可以与或可以不与框305中使用 的排名方法相同。完成该排名以识别针对给定话题在给定话题网络中哪些用户最有影响 力。
[0068]在框406,服务器识别并过滤掉话题网络内的离群值节点(用户Uo),其中Uo是Ut的 子集。在框407,服务器使用基于在某一时期内来自用户的帖子的数量的第二排名方法来调 整用户Uo被去除的用户Ut的排名。例如,服务器确定如果与在同一时期内第二用户的帖子数 量相比第一用户在上两个月内具有更高数量的帖子,则第一用户的原始排名(从框405)可 以提升,而第二用户的排名保持不变或降低。
[0069] 应认识到,基于所有用户U的网络图可以非常大。例如,在集合U中可能存在数以亿 计的用户。分析与U相关的整个数据集可能在计算上是昂贵的且耗时。因此,使用以上方法 找出与话题T相关的更小的用户集合Ut减少了待分析的数据量。这也减少了处理时间。在示 例实施例中,当分析推特的整个社交网络平台时,已经产生影响者的近实时结果。使用更小 的用户Ut集合和与用户Ut相关联的数据,计算新话题网络。该话题网络比包括所有用户U的 社交网络图更小(即,更少的节点和更少的边缘)。基于话题网络对用户进行排名比基于包 括所有用户U的社交网络图对用户排名快得多。
[0070] 此外,识别和过滤话题网络中的离群值节点帮助进一步提高结果的品质。
[0071] 在框409,服务器被配置成用于以与之前关于框308所描述的相似的方式识别用户 U0被去除的用户Ut当中的社区(例如,···,&〇(例如,利用图2的社区识别模块112)。在 框410,针对每个给定社区(例如,C 1),服务器被配置成用于基于给定社区(例如,C1)内的用 户(例如,Uci)的社交网络数据以与之前关于框309所描述的相似的方式确定与所述用户相 关联的预定义特征(例如,常见的关键字和短语、谈话的话题、常见的位置、常见的图片、常 见的元数据)的受欢迎特征值。在框411,服务器被配置成用于以与框310相似的方式输出所 识别的社区和与每个给定社区(例如,C 1-Cn)相关联的受欢迎特征的特征值(例如,经由与图 2中所示的服务器100和/或计算设备101相关联的显示屏)。
[0072] 以下描述了图3和图4中所描述的方法的另外细节。
[0073] 获取社交网络数据;
[0074] 关于获取社交网络数据,尽管没有在图3或图4中展示,但将认识到服务器100获取 社交网络数据。可以用各种方式获取社交网络数据。以下是获取社交网络数据的非限制示 例实施例。
[0075] 转至图5,展示了用于获取社交网络数据的计算机可执行指令的示例实施例。数据 可以作为数据流被实时接收,包括消息和元数据。例如使用压缩行格式将此数据存储在数 据存储器116中(框501)。在非限制性示例中,使用MySQL数据库。框500和501例如由社交联 网数据模块107实施。
[0076] 在示例实施例中,社交联网模块107接收的社交网络数据被拷贝,并且社交网络数 据的副本存储在多个服务器上。这方便在分析社交网络数据时并行处理。换言之,一个服务 器能够分析数据网络数据的一方面,而另一个服务器分析社交网络数据的另一方面。
[0077]服务器100使用索引器进程索引消息(框502)。例如,索引器进程是与存储过程分 开的过程,该过程包括当消息实体化在数据存储器116中时扫描这些消息。在示例实施例 中,索引器进程自己在单独的服务器上运行。这方便并行处理。索引器进程是例如使每天或 某个其他给定时期的索引数据表实体化的多线程进程。索引数据被输出并存储在索引存储 器117(框504)中。
[0078]简略转到图6,该图展示了示例索引存储器117,表格中的每行是唯一用户账户识 别符和那一天或那个给定时期产生的所有消息识别符的相应列表。在示例实施例中,每天 数百万行数据可以被读出和写入索引存储器117,并且可以当新数据被实体化或添加至数 据存储器116时进行这个进程。在示例实施例中,可以在索引存储器117中使用压缩后的行 格式。在另一个示例实施例中,通过运行松弛事务语义来避免死锁,因为当读出和写入表格 时,这增加了多个线程上的通量。通过背景的方式,由于每个任务可以锁住其他任务正尝试 锁住的资源,当两个或更多任务永久性地相互阻碍时发生死锁。
[0079] 转回到图5,服务器100进一步获取关于哪些用户账户追随其他用户账户的信息 (框503)。这个过程包括识别配置文件相关元数据并将其存储在配置文件存储器中(框 505) 〇
[0080] 在图7中,配置文件存储器119的示例展示了对于每个用户账户,存在相关联的配 置文件相关元数据。配置文件相关元数据包括例如用户的追随者的总数、自公开的个人信 息、位置信息、和用户列表。
[0081] 在获取并存储数据之后,可以对其进行分析以例如识别专家和兴趣。
[0082] 确定与话题相关的用户:
[0083] 关于确定与话题相关的用户,按照框302和402,将认识到可以用各种方式进行这 类操作。以下是可以用于确定与话题相关的用户的非限制性示例实施例。
[0084]在示例实施例中,确定与话题相关的用户的操作(例如,框302和框402)基于 Sysomos搜索引擎,并且在2009年7月10日提交的标题为"Method and System for Information Discovery and Text A nalysis(用于信息发现和文本分析的方法和系统)" 的公开号为2009/0319518的美国专利申请中进行了描述,该专利申请的全部内容通过援引 并入本文。根据公开号为2009/0319518的美国专利申请中所描述的方法,话题用于识别某 个时间间隔内的受欢迎的文件。本文中认识到这个过程可以用于识别与话题相关的用户。 特别地,当话题(例如,关键字)提供给公开号为2009/0319518的美国专利申请的系统时,该 系统返回与该话题相关的并且受欢迎的文件(例如,帖子、推文、消息、文章等)。使用本文中 描述的所提出的系统和方法,可执行指令包括服务器100确定受欢迎的文件的作者或多个 作者。以此方式,作者或多个作者被识别为与给定话题相关的顶端用户。可以提供上限η以 识别与给定话题相关的前η个用户,其中,η是整数。在示例实施例中,η是5000,尽管可以使 用其他数目。可以根据已知的或未来认识的排名算法、或将已知的或未来认识的权威评分 算法用于社交媒体分析来确定前η个用户。对于前η个用户中的每个用户,服务器确定追随 前η个用户中的每个用户的用户。不被认为是前η个用户的一部分、或不追随前η个用户的那 些用户不是话题网络中的用户Ut的一部分。在示例实施例中,用户Ut的集合包括前η个用户 及其追随者。
[0085]在进行确定与话题相关的用户的操作(例如,框302和框402)的另一个示例实施例 中,计算机可执行指令包括:确定与给定话题相关的文件(例如,帖子、文章、推文、消息等); 确定这些文件的作者或多个作者;并且将该作者或这些作者确立为与给定话题Ut相关联的 用户。
[0086]在进行确定与话题相关的用户的操作(例如,框302和框402)的另一个示例实施例 中,该操作包括识别用户的专业知识向量。使用图8至图11解释这个示例实施例。
[0087]举例来讲,并且转到图8,用户可以具有他或她可能追随的其他用户的列表。例如, 用户A具有包括用户A所追随的用户Β、用户C和用户D的列表。这些用户(例如,用户Β、用户C 和用户D)被分组在以列表A命名的列表下,并且该列表具有相关联的列表描述(例如,描述 A)。换言之,用户A认为用户B、用户C和用户D是话题A的专家或对该话题有渊博的知识。
[0088] 另一个用户,用户E,可以具有相同或相似的列表名和描述(例如,与列表A、描述A 相同或相似),但可以具有除了用户A列出的那些以外的不同用户。例如,用户E追随用户B、 用户C和用户D。换言之,用户E认为用户B、用户C和用户G是话题A的专家或对该话题有渊博 的知识。
[0089] 另一个用户,用户F,可以具有相同或相似的列表名和描述(例如,与列表A、描述A 相同或相似),但可以具有除了用户A列出的那些以外的不同用户。例如,用户F追随用户B、 用户H和用户I,因为用户F认为这些用户是话题A的专家或者对该话题有渊博的知识。
[0090] 基于以上示例情境,可以认识到,不同的用户可以具有相同或相似命名或相似描 述的列表,但每个列表中的用户可以不同。换言之,不同的用户可以认为其他不同用户是给 定话题的专家。
[0091] 继续图8中的示例,对于给定话题,基于用户在另一个用户的列表中被列出的次 数,服务器100可以确定其他用户是否认为该用户是专家。例如,用户B列出在与话题A相关 的三个不同列表上;用户C列出在两个不同的列表上;并且用户D、用户G、用户H和用户I中的 每一者仅列出在一个列表上。因此,在这个示例中,认为用户B是话题A的最前面的专家,后 面是用户C。
[0092] 转至图9,提供了计算机可执行指令的示例实施例用于确定给定用户被认为是其 专家的话题。在框901,服务器100获取其中列出了给定用户的一组列表。在框902,服务器 100使用该组列表确定与给定用户相关联的话题。在框903,服务器输出给定用户被认为是 其专家的话题。这些话题形成给定用户的专业知识向量。例如,如果在鲍勃(Bob)的钓鱼列 表,席琳(Celine)的艺术列表和大卫(David)的摄影列表中列出了用户爱丽丝(Alice),则 爱丽丝的专业知识向量包括:钓鱼、艺术和摄影。
[0093] 在示例实施例中,通过不断地抓取用户列表来获取用户列表,因为用户动态更新 用户列表,并且经常创建新列表。在示例实施例中,使用Apache Lucene(搜索引擎)索引处 理用户列表。使用Lucene算法处理给定用户的专业知识向量以填入与给定用户相关联的话 题的索引。这个索引支持例如全Lucene查询句法,包括短语查询和布尔逻辑(Boolean logic)。从背景来看,Apache Lucene是一种适合于全文索引和搜索的信息检索软件库。由 于其在实现互联网搜索引擎和本地单站点搜索中的用途,Lucene也是众所周知的。可以认 识到,可以使用其他当前已知的或未来认识的搜索和索引算法。
[0094] 在示例实施例中,图9的计算机可执行指令由模块110实施。
[0095] 转至图10,提供了计算机可执行指令的示例实施例,用于确定给定用户感兴趣的 话题。在框1001,服务器100获取给定用户追随的辅助用户。
[0096]在框1002,执行多个指令,但是特定于每个辅助用户。具体而言,在框1003,服务器 获取其中列出了辅助用户的一组列表(例如,辅助用户的专业知识向量)。在框1004,服务器 使用该组列表确定与辅助用户相关联的话题。框1004的输出是与辅助用户相关联的话题 (框1005)。在示例实施例中,框1002可以仅仅访问图9中介绍的算法,但应用于每个辅助用 户。
[0097]在示例实施例中,在框1006,服务器将来自所有辅助用户的话题组合。组合后的话 题形成给定用户的感兴趣的话题的输出1007(例如,给定用户的兴趣向量)。
[0098]在另一个示例实施例中,框1006和1007的替代方案是确定在辅助用户当中哪些话 题是常见的、或最常见的(框1008)。例如,给定用户爱丽丝(Alice)追随辅助用户鲍勃 (Bob)、席琳(Celine)和大卫(David)。鲍勃被认为是钓鱼和摄影专家(例如,鲍勃的专业知 识向量)。席琳被认为是钓鱼、摄影和艺术专家(例如,席琳的专业知识向量)。大卫被认为是 钓鱼和音乐专家(例如,大卫的专业知识向量)。因此,由于钓鱼话题在所有辅助用户当中是 常见的,所以识别出爱丽丝对钓鱼话题感兴趣。或者,由于摄影在辅助用户当中更常见(例 如,在钓鱼后面的第二最常见话题),则摄影话题也被识别为爱丽丝感兴趣的话题。由于艺 术和音乐在辅助用户当中不常见,所以不认为这些话题是爱丽丝感兴趣的话题。
[0099]在示例实施例中,模块111实施图10中呈现的计算机可执行指令。
[0100]在示例实施例中,来自专业知识向量的数据和来自兴趣向量的数据供应给Lucene 算法,用于索引。
[0101]转到图11,示例计算机可执行指令被提供用于在索引存储器117中搜索被认为是 话题的专家的用户。在框1101,服务器获取话题来进行查询。在框1102,服务器识别将话题A (例如,查询的话题)列入其专业知识向量中的用户。在框1103,在所识别的用户中,服务器 确定哪些用户出现在与话题A相关联的数量最高的列表中。在框1104,出现在数量最高的列 表上的前η个用户是话题A的专家。换言之,服务器将用户Ut的集合创建成包括前η个用户及 其追随者。
[0102]在确定用户的另一个实施例中,其包括图8至图11中所描述的原理,追随者最大达 到值可以用于识别前η个用户。达到最大值计算确定有多少唯一追随者与用户集合(例如, 专家、影响者)相关联。例如,如果第一专家和第二专家组合起来具有总计二百个唯一追随 者,并且第二专家和第三专家组合起来具有总计三百个唯一追随者,则与第一专家和第二 专家相比较,第二专家和第三专家具有更大的追随者"达到值"。转到图12,示例计算机可执 行指令用于识别对话题A有兴趣的用户,这些指令可以由模块114实施。在框1201,服务器 100例如通过GUI中的用户输入获取话题Α。在框1202,服务器搜索对话题A有兴趣的用户(例 如,通过分析每个用户的兴趣向量)。在框1203,输出从框1202识别的用户。
[0103] 为了确定对话题A感兴趣的用户的最大达到值,服务器确定η个用户的哪个组合提 供用户的数量最高的唯一追随者(框1204)。所确定的前η个用户与其追随者一起被输出(框 1205)。换言之,话题网络中的用户Ut包括前η个用户及其追随者。
[0104] 将认识到,识别与话题相关的用户的其他已知和未来认识的方式可以用于其他示 例实施例中。
[0105] 识别并过滤话题网络中的离群值用户:
[0106] 关于识别并过滤话题网络内的离群值节点(例如,用户),按照框306和406,将认识 到可以使用不同的计算。以下是实施框306和406的非限制示例实施例。
[0107] 应认识到,可以通过去除有问题的离群值改进来自话题网络的数据。例如,也发生 使用是指麦当劳咖啡品牌的话题"麦咖啡(McCafe)"的查询从而将来自菲律宾的是具有相 同名称的卡拉ok酒吧/咖啡馆的粉丝的一些用户带回。因为它们碰巧是紧密的社区,所以其 影响者分数经常高到足以排名在关键的前十列表中。
[0108] 转到图13,展示了话题网络1301的示例实施例的图示,展示了未经过滤的结果。节 点表示与话题McCafe相关的用户集合U T。一些节点1302或用户来自菲律宾,是具有相同名 称McCaf e的卡拉ok酒吧/咖啡馆的粉丝。
[0109] 这种现象有时在测试案例中发生,但不局限于话题McCafe的测试案例。在本文中 应认识到,寻找McCafe的用户没有寻找麦当劳咖啡和菲律宾卡拉ok酒吧两者,并且因此这 个子网络1302被认为有噪声。
[0110] 为了实现降噪,在示例实施例中,服务器使用被称为模块性的网络社区检测算法 来识别和过滤话题查询中的这些类型的离群值聚类。在纽曼M.E.J. (2006)引用的文章 "Modularity and community structure in networks(网络中的模块性和社区结构)"美 国国家科学院论文集103(23) :8577-8696中描述模块性算法,其全部内容通过引用并入本 文。
[0111] 将认识到,可以应用其他类型的聚类和社区检测算法来确定话题网络中的离群 值。过滤帮助去除正在寻找与话题相关联的影响者的用户无意的或寻求的结果。
[0112] 如图14中所示,相对于话题网络1301中的主要聚类1402识别离群值聚类1401。从 话题网络中去除用户Uo离群值聚类1401,并且主要聚类1402中的剩余的用户用于形成所输 出的影响者的排名列表。
[0113] 在示例实施例中,服务器100计算过滤掉离群值的以下指令:
[0114] 1.在话题网络上执行模块性算法。
[0115] 2.模块函数将话题网络分解成多个模块化社区或子网络,并且将每个节点加标到 X个聚类/社区之一中。在示例实施例中,X〈N/2,因为社区具有多于一个成员,并且N是集合 Ut中的用户数量。
[0116] 3.按社区内的用户的数量对社区排序,并且接受数量最大的社区。
[0117] 4.当节点数量的累积总和超过总数的80%时,从话题网络中去除剩余的最小的社 区。
[0118] 关于图15描述了用于识别并过滤话题网络的计算机可执行指令的一般示例实施 例。可以认识到,这些指令可以用于执行框306和406。
[0119] 在框1501,服务器100将找社区算法应用于话题网络从而将网络分解为多个社区。 用于找出社区的算法的非限制性示例包括最小割除法、层次聚类、格文-纽曼算法(Girvan-Newman algorithm)、以上参考的模块性算法、和基于团集(Clique-based)的方法。
[0120] 在框1502,服务器将每个节点(即,用户)加标到X个社区之一中,其中X〈N/2,并且N 是话题网络中的节点的数量。
[0121] 在框1503,服务器识别每个社区内的节点的数量。
[0122] 如果节点数量最大的社区还没有被添加至经过滤的话题网络,则服务器然后将那 个社区添加至经过滤的话题网络(框1504)。可以认识到,首先,经过滤的话题网络包括零社 区,并且添加至经过滤的话题网络的第一社区是最大的社区。来自未经过滤的话题网络的 同一社区不能不止一次被添加至经过滤的话题网络。
[0123] 在框1505,服务器确定经过滤的话题网络的中的节点的数量是否超过或大于原始 或未经过滤的话题网络中的节点的数量的Y%。在示例实施例中,Y%是80% 3其他百分比 值也是适用的。如果没有超过,则该过程环回到框1504。当框1505的条件是真的时,该过程 前进到框1506。
[0124] 通常,当经过滤的话题网络中的节点的数量达到或超过未经过滤的话题网络中的 节点的总数的多数百分比时,则已经识别出主聚类并且也识别出是离群值节点(例如,U0) 的剩余节点。
[0125] 在框1506,输出不包括离群值用户Uo的经过滤的话题网络。
[0126] 示例:McCafe案例研究
[0127] McCafe是麦当劳(McDonald)创建的咖啡屋式餐饮品牌。其包含各种各样的菜单 项,如咖啡、拿铁咖啡、浓咖啡、和冰沙。表2中展示了将本文中所描述的系统和方法用于 "McCafe"的影响者结果。社交网络数据来自推特。
表2.按话题查询"McCafe"的影响分数和权威分数排序的排名靠前的推特句柄。
[0128] 对这些结果有几点观察。
[0129] 影响分数准确列出了句柄McCafe作为查询的头名影响者,而权威分数是8。这没有 出现在权威分数的第一页上。
[0130] 许多本地/地区麦当劳句柄基于影响而评级较高,但具有的权威分数低于10。
[0131] 基于影响,具有低权威分数7的Rick Wion是评级第九高的用户。Rick Wion是麦当 劳的社交媒体互动VP,其明显是推特上的麦当劳影响者。
[0132] 权威分数列表中存在许多不适当的名字,这些名字可能已经提到McCafe和具有许 多追随者,但他们明显不是影响者。
[0133] 以上观察显示了当使用本文中所描述的系统和方法时影响者结果的更好质量。
[0134] 不例:Fanexpo案例石开究
[0135] Fanexpo是加拿大多伦多市举办的漫画、科幻小说和虚幻娱乐的年度大会。话题查 询"Fanexpo"的排名靠前的影响者展示在表3中的左侧,其中,在右侧展示了基于权威分数 的比较结果。使用本文中所描述的系统和方法确定影响者。
表3.按话题查询"Fanexpo"的影响分数和权威分数排序的排名靠前的推特句柄。
[0136] 当分析这些结果时,可以看到若干个有趣的观察。
[0137] 本文中所描述的影响者方法准确列出了句柄加拿大Fan Expo,作为查询的头名影 响者,而权威方法给出其分数为8。
[0138] 排名第二的影响者C.B. Cebulski是漫威漫画的著名作家,其被认为在这个领域中 非常有影响力。
[0139] 注意到,在靠前的权威排名中,以上两个影响者(即,加拿大Fan Expo和 C. B. Cebulski)没有出现在关键的第一页中。
[0140] 接下来的四个影响者SiIver Snail、SpaceChanneI、Torontoist和黑马漫画公司 是多伦多市中的漫画商店、科幻小说频道、多伦多市娱乐博客和漫画出版商。
[0141] 权威排名靠前的一般新闻媒体国家邮报、多伦多市CTV、CBC头条新闻是不适合这 个话题的用户账户。
[0142] 接下来一系列影响者(例如,推特账户名)是漫威漫画或DC漫画的作者,或科幻或 奇幻电影或电视连续剧中的演员。注意到,他们当中许多具有小于10的权威分数。
[0143] 再次,以上观察显示了当使用本文中所描述的系统和方法时影响者结果的更好质 量。
[0144] 示例:而f克Livestrong案例研究
[0145] Livestrong是现在名誉扫地的自行车运动员兰斯?阿姆斯特朗(Lance Armstrong)成立的为癌症研究谋福利的组织。在Armstrong关于兴奋剂丑闻而被控告之后, 耐克最近解除了与Livestrong的关系。使用来自推特的社交网络数据在表4中的右侧展示 了查询"耐克Livestrong"的影响者结果。在右侧展示了使用权威方法的结果。
表4.按话题查询"耐克Li vestrong"的影响分数和权威分数排序的排名靠前的推特句 柄。
[0146] 表4中存在若干个有趣点。
[0147] 权威分数为10的靠前的影响者许多是大篇幅编写Armstrong兴奋剂丑闻的体育新 闻句柄或体育记者。
[0148] 具体而言,基于影响,Juliet Macur排名第三,而她的权威分数是8。她是编写了书 "Cycle of Lies: the Fall of Lance Armstrong" 的纽约时报的体育记者。
[0149] Joseph Weisenthal是根据耐克Livestrong合作关系关于兴奋剂丑闻发推文的体 育商业内幕者。
[0150] 虽然可能难以根据权威分数10在所有推特用户账户之间进行区分,但影响排名对 影响者的相对排名给出了更大程度的特异性。
[0151] 以下描述了图3和图4中描述的方法步骤的具体与社区识别、每个社区内受欢迎的 特征及其值的识别、和结果的显示相关的进一步细节。
[0152] 识别社区
[0153] 转至图16,展示了用于从社交网络数据识别社区的计算机可执行指令的示例实施 例。
[0154] 社交网络平台的特征是用户追随(或定义为朋友)另一个用户。如之前所描述的, 话题网络内的多个节点和边缘图示的用户之间存在其他类型的关系或互连性。在话题网络 内,影响者可以在不同程度上影响不同的用户聚类。也就是,基于关于图16所描述的用于识 别社区的过程,服务器被配置成用于识别单个话题网络内的被称为社区的多个聚类。由于 影响在社交网络平台上不均匀,所以关于图16定义的社区识别过程是有利的,因为其识别 每个影响者在话题网络上的影响程度或深度(例如,通过使一个社区与另一个社区相关 联)。
[0155] 如将在图16中定义的,服务器被配置成用于提供不同的社区集合(例如,Cl,…, Cn)、和每个社区内的靠前的影响者。在另一个优选方面,服务器被配置成用于提供所有社 区上的靠前的高影响者的汇总列表,从而提供所有影响者的相对顺序。
[0156] 在步骤1601,服务器被配置成用于从如之前描述的(例如,图3和图4)社交联网数 据获取话题网络图信息。话题网络可视地图示了节点之间的关系,用户集合(Ut)各自被表 示为话题网络图中的节点并且通过边缘连接以表明话题网络图中的两个用户之间的关系 (例如,朋友或追随者-被追随者、或其他社交媒体互连性)。在框1602,服务器获取内部和/ 或外部互连性的预定义的程度或测量值(例如,分辨率)用于定义社区之间的边界。
[0157] 在框1603,服务器被配置成用于根据预定义的互连性程度(例如,分辨率)计算每 个节点(例如,影响者)和边缘的得分。也就是,在一个示例中,每个用户句柄被分配一个模 块性类别标识符(Mod ID)和一个网页排名分数(定义影响程度)。一方面,分辨率参数被配 置成用于控制所识别的社区的密度和数量。在优选方面,服务器利用提供2到10个社区的默 认分辨率值2。在另一方面,分辨率值是由使用者定义的(例如,经由图2中的计算设备101), 从而根据社区信息的可视化需要生成更高或更低的社区粒度。
[0158]在框1604,服务器被配置成用于定义并输出不同的社区聚类(例如,&,&,···,&〇, 由此将用户Ut分区成Ucr"UCn,使得由网络中的节点定义的每个用户映射到相应的社区。一 方面,模块性分析用于定义社区,这样使得每个社区在社区内的节点聚类之间具有稠密的 连接(高连接性)但与不同的社区中的节点具有稀疏的连接(低连接性)。一方面,可以利用 模块性算法和/或密度算法(其策略内部连接性)实施社区检测方法步骤1603-1606。此外, 在一方面,利用Gephi、开放源图形分析包、和/或java script库来实施结果的可视化。
[0159] 在框1605,服务器被配置成用于定义并输出所有社区上的靠前的影响者和/或每 个社区内的靠前的影响者并且提供所有影响者的相对排序。一方面,当选择具体社区时,靠 前的影响者和其社区一起可视地显示。在另一个方面,在框1605,服务器被配置成用于提供 所有社区上的靠前的影响者的汇总列表,从而提供所有影响者的相对顺序。
[0160] 在框1606,服务器被配置成用于可视地描绘和区分每个社区聚类(例如,通过颜色 编码或其他视觉识别以将一个社区与另一个社区区分开)。另外一方面,在框1606,服务器 被配置成用于提供可视地与相应社区关联的每个社区中的靠前的影响者的集合。在又另外 一方面,在框1606,服务器被配置为将社区图中的每个节点的大小改变成与相应的影响者 的分数(例如,影响分数)相对应。如从框1606输出的,来自节点的边缘展示了用户的社区内 和多个其他社区上的每个用户之间的连接。
[0161] 相应地,如将在图19A-19C和图20A-20B中展示的,社区和影响者(例如,每个社区 内排名靠前的影响者和/或所有社区上的靠前的影响者的列表)的可视化能够使最终用户 (例如,图2中的计算设备1的用户)可视化影响者的相关联社区中的每个影响者的尺度和相 对重要性。 识别给定社区内受欢迎的特征
[0162] 如关于图3和图4描述的,在又一方面,针对框1603提供的每个给定社区(例如, C1),服务器被配置成用于基于给定社区(例如,C1)内的用户(例如,Uci)的社交网络数据确 定与其相关联的预定义特征(例如,常见的关键字和短语、谈话的话题、常见的位置、常见的 图像、常见的元数据)的受欢迎特征值。相应地,可以定义每个社区(^内的用户U ci的通过检 查预定义的特征集合(例如,谈话的话题)的趋势或共同点。一方面,在框1605描绘了特征值 的靠前列表(例如,每个社区内的所有用户之间的靠前的谈话话题)并且将其输出至计算设 备101(图2中所示)以便联合每个社区来显示。 显示社区和受欢迎的特征
[0163] 参照图17A-17D,展示了从服务器的⑶I模块106提供并且输出至计算设备(图2)的 显示屏125的屏幕截图以便可视化来自话题网络的社区聚类和可视化每个社区中的受欢迎 的特征。如图17A-17D中所示,服务器提供交互界面用于选择社区和/或话题网络/具体社区 内的节点,以便可视地揭示每个节点的细节(例如,用户、社区信息和影响程度)。相应地,图 17A-17D显示了影响者社区及其特征(例如,词云可视化技术中每个社区的谈话)的交互式 可视化。还如图17A-17D所示,每个社区(例如,由边缘和节点组成)可视地与另一个社区不 同(例如,按照颜色编码)并且根据整个话题网络内的影响程度确定每个节点的大小。用户 的影响程度例如与社区或整个话题网络内的用户庄户的排名相对应。此外,通过选择具体 的社区(例如,使用鼠标或指针从话题网络选择社区),然后描绘社区值(例如,使话题网络 图内的社区高亮,揭示社区内的靠前的影响者,并且揭示所选择的社区的靠前的谈话话题 的受欢迎的特征值)。在图17A-17D中,显示屏(例如,图2中的计算设备101的屏幕)上的受欢 迎的特征值的可视化展示为词云,该词云描绘了所选择的社区内靠前的谈话话题以及具体 社区中的所有用户内的每个话题的使用频率指示。
[0164] 参照图17A,展示了(例如,图2中的计算设备101的)屏幕1701,显示了在话题搜索 (例如,搜索术语"阿迪达斯(adidas)")内,社交网络的若干个社区(聚类、段)内发生多个谈 话。
[0165] 参照图18,展示了屏幕,显示在另一个话题搜索内,优选地在整个话题网络内,话 题网络具有多个社区聚类(每个社区聚类可视地与另一个社区聚类不同)和多个节点,这些 节点大小被确定为反映影响程度。
[0166] 参照图17B,展示了屏幕1702,描绘了节点被颜色编码成可视地使它们与其相应的 社区相关联,并且相对于整体话题网络,每个节点的大小与其社区(颜色编码)内的影响者 分数成比例。图17B进一步说明了通过选择节点(例如,使鼠标指针悬停在节点之上),推特 句柄(例如,adidasrunning)弹出,并且那个句柄的信息显示在屏幕1702上(例如,在信息下 面的右手侧列表中)。
[0167] 参照图17C,展示了屏幕1703,并且选择子图,该子图可视地使那个选择的社区中 的靠前的影响者高亮,并且在屏幕1703上给出视觉表示(例如,那个社区中的谈话的词云)。 如图17中所示,展示了对社区行为的深刻见解;积极评论/消极评论。
[0168] 参照图17D,展示了屏幕1704,其中,选择(例如,通过经由图2的计算设备101的用 户输入选择)社区(例如,社区1),并且可视地描绘了社区内的靠前的影响者和被高亮以展 示所选择的社区的话题网络。图17D展示了用于社区检测(例如,模块性)和影响(使用网页 排名)的高级网络分析的示例性用途。图17A-17D中的方法是有利的,因为其能够大规模处 理社交联网数据(例如,整个推特、防火带(Firehose))而不是对漏掉少量但潜在地大量影 响者社区的社交网络数据进行采样。
[0169] 定义社区内的受欢迎的特征(例如,谈话话题)
[0170] 参照图19A-19C和图20A-20B,展示了两个不同话题网络(例如,分别是Adidas和 Dove)内的各影响者社区的示例性屏幕截图。如这些图中所示,虽然每个社区中的用户句柄 的身份能够给出对社区的人口统计的某种程度的深刻见解,但期望展示社区的更具体的描 述。相应地,一方面(例如,图3和图4的示例实施方式),识别了从话题搜索查询返回的推文 的示例,并且在相关项上生成频率计数以生成每个社区的谈话中受欢迎项的词云。根据这 种可视化,因此可以容易可视地识别每个社区的行为特征并且使用此信息来形成对每个社 区中的影响者的更具针对性的消息。
[0171] 图19A-19C和图20A-20B显不了用于确定和可视化话题网络内的社区聚类和每个 社区的相关联的受欢迎特征值的示例实施方式(例如,图3或图4中的示例实施方式)。根据 一个实施方式,图19A-19C和图20A-20B利用从Sysomos搜索引擎获得底层推特数据,在一个 实施方式中,该搜索引擎在一段指定的时期内由用户定义的布尔(Boolean)关键字搜索项 形成。
[0172] 不例:Adidas Running案例石开究-图 19A-19C
[0?73 ]图19A-19C中的较暗的阴影组分别对应于"Adidas Runn ing"话题中的三个最大的 社区。图19A中的高亮社区(蓝色)对应于最大的影响者集合。
[0174] 如可以从图19A看到的,词云和用户句柄显示这个社区中的谈话好像是围绕 Adidas运动鞋和鞋子。
[0175] 在图19B,第二大社区(橙色)具有围绕Adidas Micoach训练用智能手表的谈话。这 个社区中还有许多小配件审查句柄,如Engadget、CNET、Mashable、FastCompany、和 Gizmodo0
[0176] 在图19C中,主要的AdidasRunning句柄是这个较小的社区(绿色)的一部分,具有 重要跑步句柄,如YohanBlake、RunBlogRun、LondonMarathon (伦敦马拉松)、B_A_A(波士顿 运动协会)RunningNetwork 等。
[0177] 当审查图19A-19C中的社区及其特征的可视化屏幕时,可以看到AdidasRunning可 以良好连接至重要的跑步社区(绿色),但没有良好连接至运动鞋爱好者的较大的影响者社 区(蓝色)和小配件审查(橙色)社区。相应地,可以确定为有效的影响者营销, AdidasRunning应与其他社区中的关键影响者连接,并且其消息应为其他社区所定制,以便 于其他社区有更好的重叠和连接。
[0178] 示例:Dove案例研究
[0179] 图20A和图20B以较暗的阴影展示了Dove(肥皂)产品话题的两个最大社区。图20A 具有影响者相对低的最大社区(蓝色)。如可以从图20A和图20B的用户句柄和词云可视地揭 示的,用户句柄和词云可以反映影响/影响话题的用户好像是对节省、购物、中奖、奖品、克 罗格公司(Kroger)(超市)感兴趣的"妈妈博客主"。
[0180] 同样,Dove的"girlsunstoppable"活动在这个社区内有影响。
[0181]图20B描绘了具有正式Dove公司句柄(Dove加拿大、Dove英国、联合利华等)以及一 些有半影响力的美容博客主。
[0182] 因此,在审查图20A和图20B时,可以可视地揭示虽然Dove(作为话题查询)良好连 接在有影响力的美容博客主之间,但可以存在于妈妈博客主更强的连接,因为与美容博客 主相比较,它们是更大的社区。再次,可以为整个社区中的影响者有区别地定制消息而不疏 远其他影响者。
[0183] 因此,如参照图(例如,图2、图3-4、图16_20b)所讨论的,介绍了一种针对给定的查 询话题识别影响者的社交社区内的影响者的系统和方法(基于所获取的社交联网数据)。还 可以看到影响者不具有统一的特征,并且实际上甚至给定的话题网络内存在影响者社区。 本文中所介绍的系统和方法用于输出在计算设备(例如,计算设备101)输出以网络图可视 化的可视化以显示实体或个人及其各自的社区的相对影响者。此外,在用于每个社区的计 算设备的显示屏上可视地描绘了受欢迎的特征值(例如,基于预定义的特征,如谈话话题), 展示了靠前的或相关的话题。这些话题可以被描绘成每个社区的谈话的词语从而可视地揭 示单独社区的行为特征。
[0184] 以下提供了这些方法和系统的一般示例。
[0185] 在示例实施例中,一种由服务器执行用于确定对于话题而言有影响力的至少一个 用户账户的方法。所述方法包括:获取所述话题;确定社交数据网络内与所述话题相关的多 个用户账户;将所述用户账户中的每个用户账户表示为连通图中的节点并且确定所述用户 账户中的每个用户账户之间存在关系;将所述用户账户中的每个用户账户用作节点并且将 相应的关系用作所述节点中的每个节点之间的边缘来计算话题网络图;将所述话题网络图 内的所述用户账户进行排名以过滤所述话题网络图内的离群值节点;识别所述经过滤的话 题网络图内的所述用户账户当中的至少两个不同的社区,每个社区与所述用户账户的子集 相关联;识别与每个社区相关联的属性;并且输出与所述相应属性相关联的每个社区。
[0186] 在示例方面,所述方法进一步包括对每个社区内的用户账户进行排名并且为每个 社区提供映射到所述相应社区的所述用户账户的排名列表。
[0187] 在示例方面,其中,对所述用户账户进行排名进一步包括:将每个排名后的用户账 户映射到各自的社区并且输出所述至少两个社区的所述用户账户的排名列表。
[0188] 在示例方面,其中,所述属性与每个用户账户的与所述社交数据网络的交互相关 联。
[0189] 在示例方面,其中,所述属性联合所述用户账户的属性的组合频率一起显示。
[0190] 在示例方面,其中,所述属性是具体社区内的用户的谈话话题的频率。
[0191] 在示例方面,所述方法进一步包括在图形用户界面中显示所述至少两个不同的社 区,所述社区包括颜色编码的节点和边缘,其中,至少所述颜色编码的节点和边缘的第一部 分是与第一社区相关联的第一颜色,并且至少所述颜色编码的节点和边缘的第二部分是与 第二社区相关联的第二颜色。
[0192] 在示例方面,其中,给定的颜色编码的节点的大小与由所述给定的颜色编码的节 点所表示的给定用户账户的影响程度相关联。
[0193] 在示例方面,所述方法进一步包括显示与给定社区相关联的词,所述词对应于所 述给定社区的属性。
[0194] 在示例方面,所述方法进一步包括检测在所述图像用户界面中与给定社区交互的 用户控制指针、和以下各项中的至少一项:显示所述给定社区内的一个或多个排名靠前的 用户账户;可视地使所述给定社区高亮;并且显示与给定社区相关联的词,所述词对应于所 述给定社区的属性。
[0195] 在另一个示例实施例中,提供了一种计算系统用于确定对于话题而言有影响力的 至少一个用户账户。所述计算系统包括:通信设备;存储器;以及处理器,所述处理器被配置 成用于至少:获取所述话题;确定社交数据网络内与所述话题相关的多个用户账户;将所述 用户账户中的每个用户账户表示为连通图中的节点并且确定所述用户账户中的每个用户 账户之间存在关系;将所述用户账户中的每个用户账户用作节点并且将相应的关系用作所 述节点中的每个节点之间的边缘来计算话题网络图;将所述话题网络图内的所述用户账户 进行排名以过滤所述话题网络图内的离群值节点;识别所述经过滤的话题网络图内的所述 用户账户当中的至少两个不同的社区,每个社区与所述用户账户的子集相关联;识别与每 个社区相关联的属性;并且输出与所述相应属性相关联的每个社区。
[0196] 在另一个示例实施例中,提供了一种由服务器执行用于确定对于话题而言有影响 力的至少一个用户的方法。所述方法包括:获取话题;确定社交数据网络内与所述话题相关 的多个用户;将所述用户中的每个用户模拟为节点并且确定所述用户中的每个用户之间的 关系;通过将所述用户用作节点并且将所述关系用作边缘来计算话题网络图;对所述话题 网络图内的所述用户进行排名;识别并过滤所述话题网络中的离群值节点:并且根据所述 话题网络图内其余的用户的相关联排名输出所述用户。
[0197] 在示例方面,进行包括所述话题的内容的消费和生成中的至少一项的用户被认为 是与所述话题相关的用户。
[0198] 在另一个示例方面,在所述话题网络图中,在至少两个用户之间定义的边缘表示 所述两个用户之间的朋友连接。
[0199] 在另一个示例方面,在所述话题网络图中,在至少两个用户之间定义的边缘表示 所述至少两个用户之间的追随者-被追随者连接,并且其中,所述至少两个用户中的一个用 户是追随者而所述至少两个用户中的另一个用户是被追随者。
[0200] 在另一个示例方面,在所述话题网络图中,在至少两个用户之间定义的边缘表示 所述至少两个用户之间的答复连接,并且其中,所述至少两个用户中的一个用户答复所述 至少两个用户中的另一个用户进行的发帖。
[0201] 在另一个示例方面,在所述话题网络图中,在至少两个用户之间定义的边缘表示 所述至少两个用户之间的转帖连接,并且其中,所述至少两个用户中的一个用户转帖所述 至少两个用户中的另一个用户进行的发帖。
[0202] 在另一个示例方面,所述排名包括使用网页排名算法来测量所述话题网络图内的 给定用户的重要性。
[0203] 在另一个示例方面,所述排名包括使用特征向量中心性、加权度、中间状态、和枢 纽和权威度量中的至少一者。
[0204] 在另一个示例方面,识别并过滤话题网络图内的离群值节点包括:将聚类算法、模 块性算法和社区检测算法中的至少一者应用在所述话题网络图上以输出多个社区;按照所 述多个社区中的每个社区内的用户数量对所述多个社区进行排序;选择具有最大用户数量 的η个社区,其中,所述η个社区中的用户的累积和至少满足所述话题网络图中的用户总数 的百分比阈值;并且将未选择的社区中的用户设立为离群值节点。
[0205]在另一个示例实施例中,提供了一种计算系统用于确定对于话题而言有影响力的 一个或多个用户。所述计算系统包括:通信设备;存储器以及一个处理器。所述处理器被配 置成用于至少:获取话题;确定社交数据网络内与所述话题相关的多个用户;将所述用户中 的每个用户建模为节点并且确定所述用户中的每个用户之间的关系;通过将所述用户用作 节点并且将所述关系用作边缘来计算话题网络图;对所述话题网络图内的所述用户进行排 名;识别并过滤所述话题网络内的离群值节点:并且根据所述话题网络图内其余的用户的 相关联排名输出所述用户。
[0206] 将认识到,本文中所描述的系统和方法的示例实施例的不同特征可以用不同的方 式相互组合。换言之,尽管没有具体阐明,但根据其他示例实施例,不同的模块、操作和部件 可以一起使用。
[0207] 本文中描述的所流程图中的步骤或操作仅是示例。在不脱离本发明或这些发明的 精神的情况下,这些步骤或操作可以有许多变化。例如,这些步骤可以按不同的顺序进行, 或者可以添加、删除或修改。
[0208] 本文中所描述的GUI和屏幕截图仅是示例。在不脱离本发明或这些发明的精神的 情况下,图形元件和交互元件可以有多个变化。例如,这类元件可以定位在不同的位置、或 被添加、删除、或修改。
[0209] 尽管已经参照某些特定实施例对以上内容进行了描述,但在不脱离所附权利要求 书的范围的情况下,其各种修改对于本领域的技术人员而言将是明显的。
【主权项】
1. 一种由服务器执行用于确定对于话题而言有影响力的至少一个用户账户的方法,所 述方法包括: 获取所述话题; 确定社交数据网络内与所述话题相关的多个用户账户; 将所述用户账户中的每个用户账户表示为连通图中的节点并且确定所述用户账户中 的每个用户账户之间存在关系; 将所述用户账户中的每个用户账户用作节点并且将相应的关系用作所述节点中的每 个节点之间的边缘来计算话题网络图; 将所述话题网络图内的所述用户账户进行排名以过滤所述话题网络图内的离群值节 占 . 识别所述经过滤的话题网络图内的所述用户账户当中的至少两个不同的社区,每个社 区与所述用户账户的子集相关联; 识别与每个社区相关联的属性;并且 输出与所述相应属性相关联的每个社区。2. 根据权利要求1所述方法,进一步包括:对每个社区内的用户账户进行排名并且为每 个社区提供映射到所述相应社区的所述用户账户的排名列表。3. 根据权利要求1所述的方法,其中,对所述用户账户进行排名进一步包括:将每个排 名后的用户账户映射到各自的社区并且输出所述至少两个社区的所述用户账户的排名列 表。4. 根据权利要求1所述的方法,其中,所述属性与每个用户账户的与所述社交数据网络 的交互相关联。5. 根据权利要求4所述的方法,其中,所述属性联合所述用户账户的属性的组合频率一 起显示。6. 根据权利要求1所述的方法,其中,所述属性是具体社区内的用户的谈话话题的频 率。7. 根据权利要求1所述的方法,进一步包括在图形用户界面中显示所述至少两个不同 的社区,所述社区包括颜色编码的节点和边缘,其中,至少所述颜色编码的节点和边缘的第 一部分是与第一社区相关联的第一颜色,并且至少所述颜色编码的节点和边缘的第二部分 是与第二社区相关联的第二颜色。8. 根据权利要求7所述的方法,其中,给定的颜色编码的节点的大小与由所述给定的颜 色编码的节点所表示的给定用户账户的影响程度相关联。9. 根据权利要求7所述的方法,进一步包括显示与给定社区相关联的词,所述词对应于 所述给定社区的属性。10. 根据权利要求7所述的方法,进一步包括检测在所述图像用户界面中与给定社区交 互的用户控制指针、和以下各项中的至少一项:显示所述给定社区内的一个或多个排名靠 前的用户账户;可视地使所述给定社区高亮;并且显示与给定社区相关联的词,所述词对应 于所述给定社区的属性。11. 一种用于确定对于话题而言有影响力的至少一个用户账户的计算系统,所述计算 系统包括: 通信设备; 存储器;以及 处理器,所述处理器被配置成用于至少: 获取所述话题; 确定社交数据网络内与所述话题相关的多个用户账户; 将所述用户账户中的每个用户账户表示为连通图中的节点并且确定所述用户账户中 的每个用户账户之间存在关系; 将所述用户账户中的每个用户账户用作节点并且将相应的关系用作所述节点中的每 个节点之间的边缘来计算话题网络图; 将所述话题网络图内的所述用户账户进行排名以过滤所述话题网络图内的离群值节 占 . 识别所述经过滤的话题网络图内的所述用户账户当中的至少两个不同的社区,每个社 区与所述用户账户的子集相关联; 识别与每个社区相关联的属性;并且 输出与所述相应属性相关联的每个社区。12. 根据权利要求11所述计算系统,其中,所述处理器被进一步配置成用于:对每个社 区内的用户账户进行排名并且为每个社区提供映射到所述相应社区的所述用户账户的排 名列表。13. 根据权利要求11所述计算系统,其中,对所述用户账户进行排名进一步包括:将每 个排名后的用户账户映射到各自的社区并且输出所述至少两个社区的所述用户账户的排 名列表。14. 根据权利要求11所述计算系统,其中,所述属性与每个用户账户的与所述社交数据 网络的交互相关联。15. 根据权利要求14所述计算系统,进一步包括显示器,并且其中,所述属性联合所述 用户账户的属性的组合频率一起显示。16. 根据权利要求11所述的计算系统,其中,所述属性是具体社区内的用户的谈话话题 的频率。17. 根据权利要求11所述的计算系统,进一步包括显示器,并且所述处理被进一步配置 成用于在图形用户界面中显示所述至少两个不同的社区,所述社区包括颜色编码的节点和 边缘,其中,至少所述颜色编码的节点和边缘的第一部分是与第一社区相关联的第一颜色, 并且至少所述颜色编码的节点和边缘的第二部分是与第二社区相关联的第二颜色。18. 根据权利要求17所述的计算系统,其中,给定的颜色编码的节点的大小与由所述给 定的颜色编码的节点所表示的给定用户账户的影响程度相关联。19. 根据权利要求17所述的计算系统,进一步包括显示与给定社区相关联的词,所述词 对应于所述给定社区的属性。20. 根据权利要求17所述的计算系统,其中,所述处理器被进一步配置成用于检测在所 述图像用户界面中与给定社区交互的用户控制指针、和以下各项中的至少一项:显示所述 给定社区内的一个或多个排名靠前的用户账户;可视地使所述给定社区高亮;并且显示与 给定社区相关联的词,所述词对应于所述给定社区的属性。
【文档编号】G06Q50/00GK105849764SQ201480070204
【公开日】2016年8月10日
【申请日】2014年10月23日
【发明人】爱德华·东晋·金, 布莱恩·佳利·耿
【申请人】西斯摩斯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1