用于社交数据网络用户行为细分的系统和方法

文档序号:10518115阅读:313来源:国知局
用于社交数据网络用户行为细分的系统和方法
【专利摘要】提供了用于分析来自社交网络平台上的多个用户的数据的方法和系统,所述方法包括:接收与所述社交网络平台相关的话题的查询;确定在所述社交网络平台上具有与所述话题相关的至少一个社交网络行为的一组用户;针对这组用户的每个用户选择预定数量的帖子并且使所述预定数量的帖子的每个与各个用户相关;针对每个用户细分选择的帖子以确定在这组用户中选择的帖子的每个的似然;并且针对每个用户的选择的帖子进行聚类以限定多个聚类并且确定从每个用户到所述多个聚类的至少一个的映射,每个聚类包括表示这组用户之间的预定数量的帖子的聚类内频繁使用的话题的代表性话题。
【专利说明】
用于社交数据网络用户行为细分的系统和方法
技术领域
[0001 ]本发明总体上设及分析社交网络数据。
【背景技术】
[0002] 近年来,社交媒体已经成为个人和消费者在线(例如,在互联网上)交互的流行方 式。社交媒体还影响企业旨在和其客户、粉丝、和潜在客户在线交互的方式。
[0003] 具有众多跟帖的特定话题的许多博主被识别并用于支持或赞助特定的产品。例 如,人气博主网站上的广告空间用于广告相关产品和服务。
[0004] 社交网络平台还用于影响人群。社交网络平台的示例示例包括商标名称为脸书 (化。日13〇〇1〇、推特(Twitter)、领英(Xinkedin)、汤博乐(Tumblr)和拼趣(Pinterest)的社交 网络。社交网络平台上的人气或专业个人可W用于向其他人推广。当社交网络上的用户和 对话数量增长时,快速识别人气或有影响力的个人和对话变得更加重要。此外,很难精确地 识别特定话题中有影响力的个人。由于社交网络上分享的每个用户缺乏信息并且简介缺乏 信息的真实性,因此很难确定共同偏好和兴趣。
【附图说明】
[0005] 现在参照附图仅示例性地描述实施例,其中:
[0006] 图1是与计算设备通信的服务器的示意图,该计算设备被配置成用于对社交网络 平台用户进行行为细分。
[0007] 图2是用于确定与特定话题相关的片段的计算机可执行的指令的示例的实施例的 流程图。
[0008] 图3是用于确定与Twitter的社交网络平台上的特定话题相关的片段的计算机可 执行的指令的另一个示例的实施例的流程图。
[0009] 图4示出了一个示例的细分结果。
[0010] 图5示出了被图示为词云的图4的示例的细分结果。
[0011] 图6示出了另一个示例的细分结果。
[0012] 图7示出了被图示为词云的图5的示例的细分结果。
[OOU]图8示出了又另一个示例的细分结果。
[0014] 图9示出了被图示为词云的图8的示例的细分结果。
[0015] 图10示出了另一个示例的细分结果。
[0016] 图11示出了被图示为词云的图10的示例的细分结果。
[0017] 图12是用于获得并存储社交网络数据的计算机可执行的指令的示例的实施例的 流程图。
[0018] 图13是与图1的服务器的用户识别模块、预处理模块、文本处理模块、聚类模块和 片段标记模块相关的计算机可执行的指令的示例的实施例的流程图。
【具体实施方式】
[0019] 应当认识的是,为了图示的简化和清晰,在认为适当时,参考编号可在图中被重复 W指示相应或相似的元件。此外,陈述了许多特定细节,W提供对本文中所描述的实施例的 透彻理解。然而,本领域的普通技术人员将理解的是,没有运些特定细节也可W实践本文中 所描述的示例的实施例。在其他情形下,没有详细描述公知方法、程序和部件,W不使本文 中所描述的示例的实施例难W理解。并且,本说明不被认为是限制本文中所描述的示例的 实施例的范围。
[0020] 社交网络平台包括经由社交网络网站和网页生成并发布供他人看、听等的内容的 用户。用户张贴的内容可W经由访问特定的社交网络网站来看到(例如,作为示例示例说明 但不限于:新闻订阅、最新动态、评论和聊天帖)。社交网络平台的非限制性示例示例是 Facebook、Twitte;r、LinkedIn、Pinterest、Tumbl;r、博客圈(blogospheres)、网站、维基协 作、在线新闻组、网上论坛、电子邮件和即时通讯服务。目前已知并且未来已知的社交网络 平台可W与本文所述的原理一起使用。社交网络平台可W用于向用户推广并广告平台。已 经认识到难W识别与给定话题相关的用户。运些包括识别给定话题的有影响力的用户。
[0021] 当前的社交媒体分析学使用常规营销中使用的许多相同尺度,例如,人口统计(性 另IJ、地理)和顾客输入偏好及简介特征。运些尺度基于与建立并生成用户的社交网络简介相 关的用户输入信息。将描述的是,由于运些尺度基于用于输入的用户真实性W及已经提供 信息的程度,所W它们也会导致不准确的结果。也就是说,提供不正确的或缺乏与用户简介 的多个方面(例如,性别、地理、偏好)相关的输入信息将导致不正确的分析统计。
[0022] 其他媒体分析追踪与跟贴者/好友、参与和提及的统计资料。然而,运些统计资料 设及跟贴者数量和提及数量的代数公式(例如,Twitter的推文、帖子、消息等)。
[0023] 然而,现有的尺度都没有追踪用户细分和行为。如本文所用,术语"用户细分"可W 指的是例如将目标市场数据划分成消费者的子集,称为具有共同属性或需求的区段。一般 来讲,如本文所述的行为细分指的是基于顾客在与社交网络平台如社交网络网站互动(例 如,通过社交媒体会话内容、"推文"和/或帖子和/或评论和/或聊天会话)时表现出的特定 行为模式和活动动态追踪顾客和/或用户并将其分组的计算机实施的方法和系统。
[0024] 如本文所述的提出的系统和方法动态地确定并计算与社交网络平台设及到的用 户活动相关的用户行为细分模式。此信息可W随后用于设计并实施策略W瞄准各个"细分 市场"的具体需求。
[0025] 识别相关数据W用于社交网络平台中的社交细分和行为细分存在许多挑战,例 如,下面列出了少量示例性挑战:
[0026] 数据可用性:由于大量数据和访问的高昂费用,从社交网络平台(例如,网站和/或 服务器)提取数据会很困难。社交媒体网站,例如,煞费苦屯、地保护他们的数据,仅允许访问 公开数据。另外,他们对于访问他们的私人数据收费并且仅允许分配运些私人数据的有限 子集供公众使用。
[0027] 用户匿名性:许多在线用户有意地输入错误信息或省略不需要的字段W保持匿 名。运导致稀少的或不准确的一组数据(例如,与简介建立有关),运使得难W得出有关用户 基础的具体结论。
[0028] 非结构化&半结构化数据:社交数据通常采用非结构化文本数据的形式。好友/跟 贴者数据也采用半结构化图表或网络的形式。社交数据通常未格式化成现有的商业智能应 用能够使用的结构化关系表。
[0029] 在本发明的一方面,公司希望用于动态识别与一个或多个社交网络平台相关的社 交网络用户的行为细分模式(例如,对于推特用户,分析用户的"推文历史"形式的用户行 为)的方法和系统,W便例如瞄准能够潜在地广播并推广品牌消息的个人和个人群。
[0030] 若干社交媒体分析公司声称将提供社交媒体分析。然而,运些公司都基于稀少且 不准确的数据(例如,与社交网络网站相关的不准确的用户简介信息)。运些分析仅对于自 愿提供他们的用户简介的数据(例如,地理位置或性别)的用户进行报告。否则,从用户简介 无法捜集到信息。运使得难W用运么多缺失且可能不准确的字段执行细分。它们还直接依 赖于用户的输入信息。在一个示例示例中,用户可W填写了他们的履历域,但是他们的位置 可能缺失。运些示例示例使得难W从运些数据提取有意义的片段。此外,提取的信息不可靠 并且由于用户自己报告的简介数据不准确而很可能成为杂音。使用运种稀少且不可靠的数 据实际上可能使细分出现偏差。
[0031] 然而,在运里认识到,许多公司使用并不是限定与共同属性有关的用户行为模式 的真实的用户细分尺度的尺度,而仅仅是跟贴者的数量或提及的数量的代数公式。
[0032] 更一般地说,提出的系统和方法提供了计算机实施的方法和系统W对于社交网络 平台的用户数量确定并分析用户行为(例如,有关对话的内容或特定的共同话题或与社交 网络平台相关的"推文")。该系统和方法进一步包括确定用户的行为模式的其他重复或共 性(例如,对于分享共同话题或对话的运些用户)。结果提供了与社交网络行为(例如,帖子) 有关的用户细分模式的分析。
[0033] 在本发明的一方面,提供了用于分析来自社交网络平台上的多个用户的数据的计 算机实施的方法,所述方法包括:接收与所述社交网络平台相关的话题的查询;确定在所述 社交网络平台上具有与所述话题相关的至少一个社交网络行为的一组用户;针对运组用户 的每个用户选择预定数量的帖子并且使所述预定数量的帖子的每个与各个用户相关;针对 每个用户细分选择的帖子W确定在运组用户中选择的帖子的每个的似然;并且针对每个用 户的选择的帖子进行聚类W限定多个聚类并且确定从每个用户到所述多个聚类的至少一 个的映射,每个聚类包括表示运组用户之间的预定数量的帖子的聚类内频繁使用的话题的 代表性话题。
[0034] 参见图1,已示出用于社交数据网络的用户的行为细分的系统的示意图。服务器 100通过网络102与计算设备101通信。服务器100获得并分析社交网络数据(例如,通过一个 或多个社交网络服务器200提供,运些社交网络服务器通过网络202上的计算设备202、204 和206与多个社交网络用户通信),并且通过网络102将结果提供给计算设备101。计算设备 101可W通过GUI接收用户输入W控制用于分析的参数。
[0035] 可W认识到,社交网络数据包括有关社交网络平台的用户的数据和/或设及与社 交网络平台互动的用户的活动(例如,评论、帖子、"推文"并且更新新闻订阅或更新屏幕)W 及用户生成的内容或组织的内容或兼而有之的数据。社交网络数据的非限制性示例包括: 用户帐号ID或用户名,用户或用户帐号的描述,用户发布的消息或其他数据,用户与其他用 户之间的关系,位置信息等。关系的示例是"用户列表",在运里也称为"列表",其包括列表 名称,列表的描述w及给定用户跟随的一个或多个其他的用户。用户列表,例如,由给定用 户建立。
[0036] 继续图1,服务器100包括处理器103和存储设备104。在示例的实施例中,服务器包 括一个或多个处理器W及大量存储容量。在另一个示例的实施例中,存储设备104或多个存 储设备是用于提高读取/写入性能的固态驱动器。在另一个示例的实施例中,多个服务器用 于实施本文所述的方法。换句话讲,在示例的实施例中,服务器100指的是服务器系统。在另 一个示例的实施例中,使用其他当前已知的计算软件或未来已知的计算软件或两者。
[0037] 服务器100还包括通信设备105W便通过网络102通信。网络102可W是有线网络或 无线网络或兼而有之。服务器100还包括GUI模块106,用于通过计算设备101显示并接收数 据。服务器还包括:社交网络数据模块107;索引器模块108;用户帐号关系模块109;兴趣识 别模块111和查询模块,用于识别与话题A(例如,给定话题)114相关的用户行为细分模式 (例如,W集群的形式)。
[0038] 服务器100还包括多个数据库,包括数据存储116;索引存储117;社交图谱的数据 库118;简介存储119;和兴趣矢量数据库121。
[0039] 社交网络数据模块107用于接收社交网络数据的流。在示例的实施例中,社交网络 数据经由例如互联网202的网络通过一个或多个社交网络服务器200接收,运些社交网络服 务器与社交网络平台(例如,FacebooKTwitter)相关并且与一个或多个社交网络用户通过 他们各自的计算设备204-208相关。在示例的实施例中,上百万条新消息每天并且实时地传 递到社交网络数据模块107。社交网络数据模块107接收的社交网络数据存储在数据存储 116 中。
[0040] 索引器模块108对数据存储116中的数据执行索引器处理并且将索引的数据存储 在索引存储117中。在示例的实施例中,更容易捜索索引存储117中索引的数据,并且索引存 储中的标识符可W用于检索实际数据(例如,有用的消息)。
[0041] 在一个方面,社交图谱还得自社交网络平台服务器(未示出),并且存储在社交图 谱数据库118中。当用户被给定为查询输入时,社交图谱可W用于返回跟随查询的用户的所 有用户。
[0042] 简介存储119存储与用户简介相关的元数据(例如,与计算设备204、206和208相关 的用户)。与简介相关的元数据的示例包括给定用户的跟贴者的总数,给定用户自己公开的 个人信息,给定用户的位置信息等。可W查询简介存储119中的数据。
[0043] 在示例的实施例中,用户帐号关系模块109可W使用社交图谱118和简介存储119 W确定哪些用户跟随特定用户。
[0044] 兴趣识别模块111被配置成识别给定用户感兴趣的话题,称为兴趣矢量。用户的兴 趣矢量存储在兴趣矢量数据库121中。
[0045] 再次参见图1,服务器100进一步包括用户识别模块128、预处理模块129、文本处理 模块130、聚类模块131和片段标记模块132。用户识别模块128被配置成收集并编译表现出 设及特定话题(例如,话题A)的社交网络活动的用户列表。运可W包括在社交网络平台中发 布有关从数据存储116查询的给定捜索项查询(例如,话题A)的推文或者发表评论的用户。 预处理模块129被配置成接收来自用户识别模块128关于与特定的话题相关的用户的数据, 并且对于每个用户编译对各个话题特定的他们的社交网络活动(例如,推文或帖子或评论) 列表,从而提供与每个用户管理的话题列表(例如,映射到或者另外连接关系数据库)。结果 可W包括,例如,与特定话题(话题A)相关的每个用户的"推文"历史。
[0046] 在一方面,文本处理模块130被配置成分析并归类与每个用户相关的话题列表,例 如,W使用词干来限定话题之间的共性和重复,例如,从而识别用户之间的共同话题(例如, 即使话题并非严格地文字上相同,相似的百分比可W限定某些话题在用户之间相似,例如, IPhone和IPhoneS)。文本处理模块130的示例是n-gram处理模型,该模型将社交网络帖子的 对话的每个话题(例如,推文)拆分成片段并且提供每个片段的相似性的评估。
[0047] 在一个方面,文本处理模块130,将从预处理模块129和/或用户识别模块128接收 的与社交网络平台相关的每个用户的每个话题拆分或分段成具有预定大小的文本片段。在 一个方面,使用n-gram处理将每个用户的每个话题分段成预定的n-gram(例如,trigram)。 对于所有用户(例如,如用户识别模块中限定的用户)重复此过程,例如,W提供所有用户的 所有n-gram的列表。对于每个用户和每个相关片段(例如,n-gram),文本处理模块130计算 发生的似然,定义为TF-IDF值。因此,TF-IDF值提供了 W每个用户W为基础(例如,对于每个 用户)的所有话题的所有n-gram中的n-gram的发生似然的统计值。在优选的方面,文本处理 模块130,随后过滤具有最高和最低似然频率的片段(例如,n-gram)(例如,最高频率井号标 签片段或最低频率井号标签片段被过滤),因为它们很可能不相关。文本处理模块的结果包 括与每个相应的用户对应的多个矢量W及对于每个话题的每个片段(例如,n-gram)的各个 用户的统计似然值(例如,TF-IDF值)。每个用户(例如,用户化-Ut-1 )分解的片段(例如,n- gram)和似然值(例如,TF-IDF值)被提供给聚类模块,该聚类模炔基于每个用户的每个片段 的片段似然提供聚类。
[0048] 聚类模块131被配置成接收n-gram处理模块的输出并且将数据(例如,用户和相关 话题)聚类成在每个聚类中具有共同特性或属性的特定聚类。每个用户被映射到输出聚类 之一。片段标记模块132被配置成根据预定数量的排名最高的话题(例如,每个聚类的头十 个话题)标记每个聚类。每个聚类与用户相关。结果被提供给查询模块114,该查询模块提供 一组k片段,该片段用表示片段中用户的兴趣的一组识别话题标签(例如,一组井号标签)标 记。
[0049] 继续图1,计算设备101包括通信设备122,用于经由网络102、处理器123、存储设备 124、显示屏125和互联网浏览器126与服务器100通信。在示例的实施例中,服务器100提供 的GUI通过互联网浏览器由计算设备101显示。在另一个示例的实施例中,其中分析应用127 可用于计算设备101,计算设备通过分析应用127显示GUI。可W认识到的是,显示设备125可 W是计算设备(例如,如同移动设备、平板电脑、笔记本电脑等)的一部分,或者可W与计算 设备(例如,如同台式电脑等)分开。
[0050] 尽管图未示出,各种用户输入设备(例如,触摸屏,滚动球,光电鼠标,按钮,键盘, 麦克风)可W用于便于用户与计算设备101的互动。
[0051] 应当理解,执行指令的本文例示的任何模块或部件可W包括或者另外访问计算机 可读的介质,例如,存储介质、计算机存储介质或数据存储设备(可移除的和/或不可移除 的),例如,磁盘、光盘或磁带。计算机存储介质可W包括用于存储例如计算机可读指令、数 据结构、程序模块或其他数据的、W任何方法或技术实施的易失性和非易失性、移动或非移 动的介质。计算机存储介质的示例包括341、1?01、66?1?01、闪速存储器或其他存储技术^0- ROM、数字通用光盘(DVD)或其他光学存储器、磁带盒、磁带、磁盘存储器或其他磁性存储设 备,或者能够用于存储所需的信息并且能够被应用、模块或两者访问的任何其他的介质。任 何运种计算机存储介质可W是服务器100或计算设备101的一部分或者可通过其访问或与 之连接。本文描述的任何应用或模块可W使用运种计算机可读介质保存或者另外保持的计 算机可读的/可执行的指令来实施。
[0052] 转到图2,计算机可执行的指令的示例的实施例由与用户识别模块128、预处理模 块129、文本处理模块130、聚类模块131和片段标记模块132通信的服务器100和处理器103 实施。参见图2,图示的计算机可执行的指令被配置成由处理器103执行,该处理器用于基于 感兴趣的特定话题(话题T)确定多个社交网络用户的一个或多个动态行为片段。图2所示的 方法假设服务器100可使用社交网络数据,并且社交网络数据包括表示成一组U的多个用 户。在方框301,服务器100获得表示成T的话题。例如,用户可W通过计算设备101显示的GUI 进入话题,并且计算设备101将话题发送到服务器100。在方框302,服务器使用话题W从与 话题相关的社交网络数据确定用户。运种确定可多种方式实施并且W下将进行详细讨 论。与话题相关的运组用户表示成化,其中化是U的子集。方框302的计算机可执行的指令由 用户识别模块来128实施。
[0053] 继续图2,在方框303,服务器100将一组用户化中的每个用户作为结点建模,并且 基于社交网络活动确定每个用户(例如,用户化)的样本话题列表(例如,Τι(化)-Tn化1)))), 并且与各个用户(例如,化)相关。如参照图3所示,在一个示例中,运设及收集具有预定样本 大小(例如,预定数量的最近或随机选择的帖子,和/或特定时间段期间的帖子)的社交网络 帖子(例如,Twitter用户的推文)的样本。在方框304,服务器100通过对于每个用户的话题 列表执行文本处理来识别并滤掉无关话题(例如,对于用于化,提供过滤的话题(Τι(化)-Tm (Ui)),其中Μ是N的子集)。如参照图3所述,在一个示例中,此步骤包括从帖子(例如,推文、 评论、聊天和其他社交网络帖子)提取文本W确定所有用于化的话题列表,并且在滤掉被预 定为无关的话题时使提取的文本规范化。此步骤还包括每个文本话题(例如,井号标签)与 发布此话题的对应用户之间的关系映射。
[0054] 预处理模块129实施方框303和304的计算机可执行指令。
[0055] 再次参见图2,在方框305,服务器100执行文本处理(例如,n-gram处理)W确定每 个用户(例如,用户化)与其他用户(例如,用户化-Ut-1)的话题之间的关系。运些关系描述对 于每个话题(或通过将话题拆分成n-gram提供的话题的词干)在用户之间的统计重复,如W 下示例性图表所示。
[0056] 在n-gram处理的情况下,结果是一个维度表示用户(例如,U1、U2),另一个维度表 示对于每个用户拆分成n-grams(例如,"iph"、"pho"、"hon"、"one"、"the")的每个话题并且 每个单元值表示TF-IDF统计数值的图表。
[0057] -般来讲,TF-IDF统计值是词条频率比文件频率(term frequency inverse doc皿ent frequency),它是数值统计数值,并且提供有关对于多个拆分的话题片段中的每 个话题的话题单词(例如,拆分成其n-gram的话题)的每个拆分的片段的重要性的信息。也 就是说,话题单词的片段(例如,"iph")的tf-idf反映了基于片段(例如,"iph")在用户的所 有话题列表中出现的次数的统计值。也就是说,对于用户1,分段的话题(例如,"iph")可W 具有对于特定用户(用户1)的所有话题(例如,话题Τι化i)-Tm化1),如图2所示)中X的统计概 率。n-gram TF-IDF提供了特定用户发生n-gram的统计概率。因此,对于每个用户,TF-IDF的 列表是与各个n-gram相关的输出。在方框306,n-gram TF-IDF的矢量因此供给到聚类模块。
[0058] 文本处理模块130实施方框305的计算机可执行指令(图1)。
[0059] 参见图2,在方框306,服务器100执行文本处理话题的聚类(例如,接收各个用户的 每个n-gram的TF-IDF的矢量似提供与话题相关的所有用户(用户Ut)的相关片段分组。聚 类模块131实施方框306的计算机可执行指令(图1)。
[0060] 参见图2,在方框307,服务器100确定每个聚类中的一组代表性话题(Tl-Tx)并且 用代表性话题标记每个聚类。运方面的示例如图4、图6、图8和图10所示。方框307的计算机 可执行的指令由片段标记模块132实施,该片段标记模块与查询模块114通信用于提供输出 结果给计算设备101。
[0061] 在一个实施例中,图2中未示出,在方框305所示的步骤之后,文本处理模块130(例 如,n-gram处理)识别并滤掉话题网络中的离群结点。离群结点是被认为与话题网络中的大 部分或聚类的用户分开的离群用户。也就是说,它们可W设及具有与其他用户没有足够的 共性度量的话题的用户(例如,由n-gram处理所确定),用于的特定话题的子集与其他用户 的每个话题的子集在统计上并不重复预定的阔值。话题网络内的运组离群用户或结点表示 成U0,其中U0是UT的子集。在一个方面,文本处理模块130输出用户UT,而去除用户U0。
[0062] 参见图3,示出了图2中方框301-307的示例的实施方式,用于执行特别设及 Twitter用户的数据的动态细分。图3所示的示例性方法由图1的服务器100实施(例如,用户 识别模块128、预处理模块129、文本处理模块130、聚类模块131和片段标记模块132)。
[006引 Twitter用户和话题的动态行为细分过程的示例(例如,由服务器100实施)
[0064] 图3示出了细分方法的示例,因此细分的方法使用运些示例性步骤:
[0065] 1.收集特定查询或话题的用户列表。例如通过收集已经发布有关给定的捜索项查 询的推文(在过去的6个月内在他们的推文中使用"iPhone"的用户的推文)的所有用户或仅 仅是具体的品牌处理的所有跟贴者可W编译此列表。此步骤可W由图1中的用户识别模块 128来实施。
[0066] 2.对于每个用户,收集他们的推文历史的随机样本列表(例如,有关具体的社交网 络平台Twitter的帖子)。在一个方面,样本将取自他们最近的推文W获得他们目前的兴趣 和偏好的准确的情况。在优选的方面,优选500至1000个推文之间的样本大小W提取可使用 的足够的井号标签。
[0067] 3.从用户的每篇历史推文提取井号标签,并且使每个井号标签与对应的用户关联 上。结果应当是从用户到井号标签列表的映射。
[0068] 4.对每个用户的井号标签列表执行文本处理,使文本标准化为小写,并且去除无 含义的共同井号标签,例如,"#RT"(即,去除停止词(stopword))。图1的预处理模块129可W 实施步骤2-4。
[0069] 5.从井号标签的全列表开始,使用字符n-gram模型W通过使用词条频率比文件频 率(TF-IDF)来表示井号标签。此过程的结果是文件-词条矩阵,其中列代表用户,行代表n- gram,并且每个单元代表TF-IDF统计数值。图1中的文本处理模块130可W实施此步骤。
[0070] 在优选的方面,n-gram处理的化igram(n = 3)得到处理速度与细分质量之间的最 佳平衡。
[0071] 6.对于预定数量的聚类,使用非监督式机器学习聚类方法,例如,在一方面,k = [5,9]得到高相关片段。在优选的方面,球形k-means聚类算法在聚类高维文本数据中特别 有效。此算法的最终结果是从每个用户到k聚类之一的映射。图1的聚类模块131可W实施此 步骤。
[0072] 然而,聚类分析的多个方面之一是标记聚类。为了解决运个问题,增加额外的步骤 来标记聚类(例如,由图1的片段标记模块132实施):1.对于每个聚类,收集该聚类中与每个 用户相关的所有标签;2.对于每个井号标签,统计已经使用该聚类中的标签的用户数量;3. 对于每个聚类,用顶部井号标签标记该聚类。在优选实施例中,顶部大约十个井号标签提供 聚类的良好标记。
[0073] 参见图3,示例被图示为服务器100(例如,模块128、129、130、131、132)所实施的用 于分析Twitter的社交网络用户行为的动态细分过程。再次参见图3,根据本示例的步骤提 供的最终结果是用表示片段中用户的兴趣的一组井号标签标记的一组k片段。在优选的方 面,运种类型的行为细分对于市场营销者和CRM应用非常有力。
[0074] 细分案例研究的示例:
[0075] 在此分段中,针对"Starbucks"和"BBC"话题查询详细呈现了两种案例研究(可由 图1的系统和服务器100实施),并且针对ッbox One"和"Mccafe"另外呈现结果。如所讨论 的,运些片段提供可行动的信息,例如:1.识别兴趣不同的用户的片段;2.识别每个片段的 相对大小;3.瞄准社交媒体活动W匹配你的用户最感兴趣的具体话题;4.与最重要的片段 中的各个用户接洽;5.测量你的用户基础随时间的变化。
[0076] 动态细分分析的选择的话题的示例:S化;rbucks
[0077] 第一案例研究示出了在2013年5月至2013年7月之间发布与"S化rbucks"有关的推 文的Twitter用户的行为细分的结果。图4示出了关于每个片段的顶部井号标签的结果。每 个片段后的圆括号中的数字示出了片段的大小。类似地,井号标签后的数字示出了该片段 中使用对应的井号标签的用户的频率。
[007引转到图4,发布有关"Starbucks"的推文的Twitter用户化=5)的细分的顶部井号 标签(例如,如图1的服务器100所输出的,和/或图2-3的过程步骤)。圆括号中的数字表示井 号标签的频率。
[0079] 参见图5,示出了相同细分结果(例如,发布有关"Starbucks"的Twitter用户化= 5)的细分)的分段的词云(word cloud)。不同颜色的词云表示不同的片段,而每个词的字体 大小表示其相对大小。可W使用本领域的技术人员设想到的其他视觉表示指标。
[0080] 词云允许便捷地可视化有关每个片段的特性。例如,从词云可W直接看出W下几 占 . y ?、、· ?深蓝色和鲜绿色区段表示发布包括"# inmiddle school "、"#direct i oners "(One Direction乐迷)和"机)elievetou;r"(Justin Bieber音乐巡演)的推文话题的年轻用户的区 段。 ?深红色区段由使用例如"#cancionesperfectas"(西班牙语的"perfect songs" )、"# avaliando"(葡萄牙语的"evaluating")和"#enunmundodonde"(西班牙语的"in a world where")的短语的非英语用语组成。 ?淡蓝色区段表示例如"#r〇yalbaby" (Kate Middleton的婴儿)和"# ripcorymonteith"(已故演员Coiy Monteith)的热点问题的用户。 ?最后的澄色区段由兴趣包括对井号标签表示的技术、时尚、咖啡和旅行的用户组成, 例女曰,"# 邑 00 邑 le"、"#android"、"#fashion"、"#traver'^R"#coffee"。
[0081] 另外,由于文本字体大小表示词语的相对频率,所W可W总结出淡蓝色和深红色 区段最小,而鲜绿色区段最大。
[0082] 运种类型的细分研究(如图1的系统所示)是有利的,因为输出行为细分数据允许 公司瞄准他们的社交媒体活动。例如,或许只有发布有关"#coffee"和"壯ashion"的推文的 用户的澄色区段对特定的公司很重要,所W在一方面,提供进一步分析W关注运些用户并 且分析他们的兴趣。可替代地,或许公司希望推出非英语口语活动,深红色区段的用户是西 班牙语或葡萄牙语活动作为选择语言的主要目标。
[0083] 从此区段词云开始,可W快速获得不同区段的概览,W便挑选并选择进一步分析 哪些区段。
[0084] 设及用于确定社交网络动态细分的话题("BBC')的示例(例如,Twitter用户)
[0085] 第二案例研究示出了在2013年5月至2013年7月之间的行为细分结果(例如,如图1 的服务器100所实施的W及图2和图3针对发布有关"BBC'(英国广播公司)的推文的Twitter 用户的过程)。图6示出了针对每个区段的顶部井号标签的结果。图7示出了对应的词云 (word cloud)。
[00化]"BBC"的用户明显不同于Starbucks的用户。另外,从细分产生了一些不明显的结 果:
[0087] 深红色区段表示发布除普通话题如"抽msic"和"壯acebook"之外的有关例如"# usa"、"#israel"、"#syria"的世界热点的推文的用户。
[0088] 英国的Twitter用户用带井号标签的淡绿色区段表示,例如,"#wimbleton"(英国 网球公开赛)、"#nhs"(英国国民健康服务)和"#;roya化aby"。
[0089] 感兴趣的用户群似乎来自日本,他们的推文话题包括:"#n化"(日本广播公司)、"# niconews"(日本新闻组织)、"#nhk24"。
[0090] 最后两个区段由发布有关具体的世界热点的推文的用户组成。淡蓝色区段设及"# direngazipark"(d;^^其人在Diren Gezi公园抗议)的井号标签,并且深蓝色区段设及有关 中东热点的井号标签,例如,"抽lor S i "、"#saud i "和"#ca iro "。
[0091] 运些不同的聚类允许公司用比其他类型的社交媒体分析更精确地修改其Twitter 展示。
[0092] 额外的细分结果
[0093] 我们提出了在2013年7月与2013年8月之间发布有关"Xbox化e"和"Mccafe"的推 文的Twitter用户的两个另外的细分结果。图8和图low及图9-11示出了运些结果(例如,如 图1的服务器100可实施的)。具体地讲,图8示出了图1的系统的示例的结果,其中顶部井号 标签用于细分发布有关ッbox化e"的推文的Twitter用户化= 5)。圆括号中的数字表示井 号标签的频率。图9示出了在词云取向中发布有关ッbox化e"的推文的Twitter用户的示例 的细分,其中不同颜色或其他视觉标识符代表不同的区段,而字体大小代表相对大小。图10 示出了顶部井号标签的示例的结果,而顶部井号标签用于细分发布有关"Mccafe"的推文的 Twitter用户(k = 5),并且圆括号中的数字表示井号标签的频率。图11示出了发布有关 "Mccafe"的推文的Twitter用户的示例的细分,并且其他视觉标识符可W代表不同的区段, 而字体大小代表相对大小。
[0094] 获得社交网络数据:
[00%]相对于获得社交网络数据,尽管图1或图2中未示出,将认识到服务器100获得社交 网络数据。社交网络数据可W通过多种方式获得。W下是获得社交网络数据的非限制性示 例的实施例。
[0096] 转到图12,示出了用于获得社交网络数据的计算机可执行的指令的示例的实施 例。数据可W实时接收作为数据流,包括消息和元数据。此数据存储在数据存储116中,例 如,使用压缩行格式(方框501)。在非限制性示例的实施例中,使用MyS化数据库。例如,由社 交网络数据模块107实施方框500和501。
[0097] 在示例的实施例中,社交网络模块107接收的社交网络数据被复制,并且社交网络 数据的副本存储在多个服务器上。运在分析社交网络数据时有利于并行处理。换句话讲,一 个服务器能够分析社交网络数据的一方面,而另一个服务器可W分析社交网络数据的另一 方面。
[0098] 服务器100使用索引器过程索引数据(方框502)。例如,索引器过程是与存储过程 分离的过程,该存储过程包括扫描它们在数据存储116中具体化的消息。在示例的实施例 中,索引器过程在单独的服务器上自己运行。运便于并行处理。索引器过程,例如,是使每天 或一些其他给定的时间段的索引数据的表格具体化的多线程过程。索引的数据被输出并存 储在索引存储117中(方框504)。
[0099] 返回到图5,服务器100进一步获得有关哪些用户帐号跟随其他用户帐号的信息 (方框503)。此过程包括识别与简介相关的元数据并且将其存储在简介存储中(方框505)。
[0100] 在获得并存储数据之后,可W分析数据例如W识别话题和行为兴趣。
[0101] 确定与话题相关的用户:
[0102] 关于确定与话题相关的用户,就图2的方框302而言,应当认识到运种操作可 多种方式进行。W下是可W用于确定与话题相关的用户的非线性示例的实施例。
[0103] 在示例的实施例中,确定与话题相关的用户的操作(例如方框302和方框402)基于 Sysomos捜索引擎,并且在2009年7月10日提交的题为"用于信息发现和文本分析的方法和 系统"的每个专利申请公开号2009/0319518中有描述,该专利申请的整个内容通过引用的 方式并入本文中。根据每个专利申请公开号2009/0319518中描述的过程,话题用于表示某 个时间间隔内的流行文件。在本文中认识到,此过程还可W用于识别与话题相关的用户。具 体地讲,当话题(例如,关键词)提供给美国专利申请公开号2009/0319518的系统时,系统返 回与话题相关且流行的文件(例如,帖子、推文、消息、文章等)。通过使用本文描述的提出的 系统和方法,可执行的指令包括确定文件的一个或多个作者的服务器100。
[0104] 在执行确定与话题相关的用户的操作的另一个示例的实施例中(例如,方框302和 方框402),计算机可执行的指令包括:确定与给定话题相关的文件(例如,帖子、文章、推文、 消息等);确定文件的一个或多个作者;并且确立一个或多个作者为与给定话题相关的用户 Uto
[0105] 应当认识到,其他类型的聚类和社区检测算法可W用于通过聚类模块131执行聚 类。聚类模块可W利用k-means聚类、球形k-means聚类、主成分分析(PCA)、均值漂移聚类的 一种或多种,并且聚类模块131可W利用其他类型的数据聚类技术W处理高维数据。
[0106] 参见图13,示出了与图1的服务器的计算机实施的用户识别模块、预处理模块、文 本处理模块、聚类模块和片段标记模块的每个W及每个模块的示例性输出相关的计算机可 执行的指令的示例的实施例的流程图。如图所示,用户识别模块128接收与多个用户UW及 他们相关的社交网络帖子/消息(例如,推文)相关的数据。用户识别模块128然后提取具有 设及预定话题T的社交网络帖子/消息的用户化的列表,并且将用户化的列表作为输出1301 提供。
[0107] 随后,在输出1302,预处理模块129被配置成从每个用户提供映射到与各个用户相 关的多个话题列表。
[0108] 文本处理模块130然后被配置成接收话题列表W及与每个用户化的关联,例如,W 基于在文本处理模块130限定预定片段大小计算n-gram概率矩阵。也就是说,在一方面,文 本处理模块130被配置成:对于每个用户化T),提供拆分成X个片段Τι-〉Τι1、Τι2、ΤιΧ的每个话 题;过滤重复的n-gramW限定用于所有用户(化)的Ti 1…Tif n-gram;并且输出限定每个用户 和所有用户的所有n-gram中的每个n-gram的概率的n-gram概率矩阵(输出1303)。示例的输 出 1303 定义为:用户 l:{Prob(Ui,Tii)…口'〇6化1,,1'1:)};用户2:化'〇6(化,1'1:)^..用户1'-1: {Prob Wt-1,Til),.. .Prob Wt-1,Tif)}。
[0109] 聚类模块131因此接收每个用户化的n-gram TF-IDF的矢量。聚类模块131然后被 配置成将每个用户化映射到K个聚类之一(例如,用户1-乂 1;用户2-乂 1;…用户T-1-〉Ck)。
[0110] 片段标记模块132然后被配置成在输出1305提供输出1305:每个聚类的标记片段 (例如,Cl-〉#interest 1、#interest2…化-〉#interestk)。
[0111] 将认识到,本文中所描述的系统和方法的示例实施例的不同特征可W用不同的方 式相互组合。换言之,尽管没有具体阐明,但根据其他示例实施例,不同的模块、操作和部件 可W-起使用。
[0112] 本文中描述的所流程图中的步骤或操作仅是示例。在不脱离本发明或运些发明的 精神的情况下,运些步骤或操作可W有许多变化。例如,运些步骤可W按不同的顺序进行, 或者可W添加、删除或修改步骤。
[0113] 本文中描述的GUI和屏幕仅仅是示例。在不脱离一个或多个发明的精神的情况下 图形和互动元素可W有变型。例如,运些要素可W定位在不同的位置,或者可W添加、删除 或修改运些要素。
[0114] 尽管已经参照某些特定实施例对W上内容进行了描述,但在不脱离所附权利要求 书的范围的情况下,其各种修改对于本领域的技术人员而言将是明显的。
【主权项】
1. 一种用于分析来自社交网络平台上的多个用户的数据的计算机实施的方法,包括: 接收与所述社交网络平台相关的话题的查询; 确定在所述社交网络平台上具有与所述话题相关的至少一个社交网络行为的一组用 户; 针对这组用户的每个用户选择预定数量的帖子并且使所述预定数量的帖子的每个与 各个用户相关; 针对每个用户细分选择的帖子以确定在这组用户中选择的帖子的每个的似然;并且 针对每个用户的选择的帖子进行聚类以限定多个聚类并且确定从每个用户到所述多 个聚类的至少一个的映射,每个聚类包括表示这组用户之间的预定数量的帖子的聚类内频 繁使用的话题的代表性话题。2. 根据权利要求1所述的方法,其中所述至少一个社交网络行为包括以下各项的至少 一种:与所述社交网络平台上的话题相关的推文、帖子、评论。3. 根据权利要求1所述的方法,其中确定一组用户还包括根据与所述话题相关的所述 社交网络行为的至少一个共同属性从所述多个用户细分这组用户。4. 根据权利要求1所述的方法,其中确定具有所述至少一个社交网络行为的片段内的 这组用户还包括动态追踪每个用户的社交媒体活动并且当所述活动满足与所述话题相关 的预定行为模式时确定这组用户。5. 根据权利要求4所述的方法,还包括相比于现有区段从与至少一个用户的话题相关 的当前和过去的活动的至少一个选择的社交媒体活动的重复共性,并且更新所述区段以包 括具有所述重复共性的所述至少一个用户。6. 根据权利要求1所述的方法,其中针对每个用户选择预定数量的帖子并且与各个用 户相关还包括: 将这组用户中的每个用户建模为结点并且基于所述社交网络平台上的社交网络活动 确定每个用户的话题列表并且与所述各个用户相关; 从所述社交网络活动提取文本并且通过针对与每个用户相关的每个话题执行文本处 理来滤掉无关话题;并且 提供每个提取的话题和与所述话题相关的对应的用户之间的关系映射。7. 根据权利要求6所述的方法,还包括: 执行文本处理以确定来自与每个用户相关的所述话题的文本的至少一个预定子集与 这组用户的其他用户的关系;并且 生产针对文本的每个子集的用户之间的统计重复以及针对每个所述用户的文本的所 述至少子集的发生似然。8. 根据权利要求7所述的方法,还包括:利用所述生产的重复以及发生似然用于聚类所 述选择的帖子。9. 根据权利要求1所述的方法,还包括根据预定数量的排名最高的话题标记每个聚类。10. 根据权利要求7所述的方法,其中生成所述统计重复进一步包括:基于预定片段大 小生成n-gram概率矩阵。11. 根据权利要求1所述的方法,其中聚类还包括利用k-means聚类、球形k-means聚类、 主成分分析(PCA)、均值漂移聚类的至少一种。12. 根据权利要求1所述的方法,还包括: 针对每个用户的所述预定数量的帖子的每个将其中包含的话题细分成预定数量的片 段; 针对所述这组用户的每个将重复片段过滤成限定的过滤的组的片段;并且 生成限定每个用户以及所述这组用户的所有片段中的每个片段的概率的基于片段的 概率矩阵。13. 根据权利要求12所述的方法,还包括: 接收这组用户中每个用户的片段概率的矢量;并且 将每个用户映射到预定数量的聚类之一中。14. 一种非临时性计算机可读介质,包括在由一个或多个处理器执行时被配置成分析 来自社交网络平台上的多个通信者的数据的计算机可执行的指令,所述计算机可执行的指 令被配置成用于: 接收与所述社交网络平台相关的话题的查询; 确定在所述社交网络平台上具有与所述话题相关的至少一个社交网络行为的一组通 信者; 针对这组通信者的每个通信者选择预定数量的帖子并且使所述预定数量的帖子的每 个与各个通信者相关; 针对每个通信者细分选择的帖子以确定在这组通信者中选择的帖子的每个的似然;并 且 针对每个通信者的选择的帖子进行聚类以限定多个聚类并且确定从每个通信者到所 述多个聚类的至少一个的映射,每个聚类包括表示这组通信者之间的预定数量的帖子的聚 类内频繁使用的话题的代表性话题。15. 根据权利要求14所述的计算机可读介质,其中所述至少一个社交网络行为包括以 下各项的至少一种:与所述社交网络平台上的话题相关的推文、帖子、评论。16. 根据权利要求14所述的计算机可读介质,其中确定一组用户还包括根据与所述话 题相关的所述社交网络行为的至少一个共同属性从所述多个用户细分这组用户。17. 根据权利要求14所述的计算机可读介质,其中确定具有所述至少一个社交网络行 为的片段内的这组用户还包括动态追踪每个用户的社交媒体活动并且当所述活动满足与 所述话题相关的预定行为模式时确定这组用户。18. 根据权利要求17所述的计算机可读介质,还包括相比于现有区段从与至少一个用 户的话题相关的当前和过去的活动的至少一个选择的社交媒体活动的重复共性,并且更新 所述区段以包括具有所述重复共性的所述至少一个用户。19. 根据权利要求14所述的计算机可读介质,其中针对每个用户选择预定数量的帖子 并且与各个用户相关还包括: 将这组用户中的每个用户建模为结点并且基于所述社交网络平台上的社交网络活动 确定每个用户的话题列表并且与所述各个用户相关; 从所述社交网络活动提取文本并且通过针对与每个用户相关的每个话题执行文本处 理来滤掉无关话题;并且 提供每个提取的话题和与所述话题相关的对应的用户之间的关系映射。20.根据权利要求19所述的计算机可读介质,进一步包括: 执行文本处理以确定来自与每个用户相关的所述话题的文本的至少一个预定子集与 这组用户的其他用户的关系;并且 生产针对文本的每个子集的用户之间的统计重复以及针对每个所述用户的文本的所 述至少子集的发生似然。
【文档编号】G06Q30/02GK105874753SQ201480071719
【公开日】2016年8月17日
【申请日】2014年11月4日
【发明人】布莱恩·佳利·耿, 爱德华·东晋·金
【申请人】西斯摩斯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1