监测感兴趣主题的方法和系统的制作方法

文档序号:6504719阅读:185来源:国知局
监测感兴趣主题的方法和系统的制作方法
【专利摘要】本发明公开了一种监测感兴趣主题的方法和系统,该方法包括:基于感兴趣主题的第一集合,选择参与所述第一集合中的一个或多个感兴趣主题的至少一个关键节点组成的关键节点的组;以及监视所述组中的一个或多个关键节点所发布的内容,以找到感兴趣主题的第二集合。根据本发明的各个实施例,通过基于感兴趣主题的第一集合,选择参与第一集合中的一个或多个感兴趣主题的关键节点的组,作为要监视的对象,从而相比于监视所有用户节点而减少了要监视的节点所发布的内容的数量,使得能够高效、低成本和实时地找到诸如热点新闻或热点事件的感兴趣主题。
【专利说明】监测感兴趣主题的方法和系统

【技术领域】
[0001] 本发明涉及监测感兴趣主题的方法和系统,更具体地,涉及一种在社交网络中通 过选择关键节点来监测感兴趣主题的方法和系统。

【背景技术】
[0002] 随着诸如Twitter、微博等社交网络的出现,人与人之间的信息分享和交流变得越 来越方便。人们可以在社交网络上发表帖子、转发或评论别人发表的帖子,从而与他人分享 新闻或实时事件的信息,并交换他们的看法。据称,Twitter具有超过约5亿的活跃用户, 且每天广生超过约3. 4亿的tweet帖子,而新浪微博也具有超过约3亿的注册用户,且每天 产生约1亿条微博。监测这些帖子或微博中的热点新闻或事件可以帮助决策者更好地了解 公众意愿和商业趋势等等,但是,如何在如此巨大的帖子或微博量中监测诸如热点新闻或 事件的感兴趣主题成为难题。传统的感兴趣主题的监测是通过提取全部用户节点的全部帖 子或微博,从所有帖子或微博中进行内容处理、例如关键字检测等,来找到诸如热点新闻或 事件的感兴趣主题,然而,这样的大数量的内容处理耗时且低效。


【发明内容】

[0003] 根据本发明的一个方面,提供了一种监测感兴趣主题的方法,包括:基于感兴趣主 题的第一集合,选择参与所述第一集合中的一个或多个感兴趣主题的至少一个关键节点来 组成关键节点的组;以及监视所述组中的一个或多个关键节点所发布的内容,以找到感兴 趣主题的第二集合。
[0004]根据本发明的另一个方面,提供了一种监测感兴趣主题的系统,包括:选择装置, 被配置为基于感兴趣主题的第一集合,选择参与所述第一集合中的一个或多个感兴趣主题 的至少一个关键节点来组成关键节点的组;以及监视装置,被配置为监视所述组中的一个 或多个关键节点所发布的内容,以找到感兴趣主题的第二集合。
[0005]根据本发明的各个方面,通过基于感兴趣主题的第一集合,选择参与第一集合中 的一个或多个感兴趣主题的至少一个关键节点来组成关键节点的组,作为要监视的对象, 从而相比于监视所有用户节点而减少了要监视的节点所发布的内容的数量,使得能够高 效、低成本和实时地找到诸如热点新闻或热点事件的感兴趣主题。

【专利附图】

【附图说明】
[0006]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其 它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号 通常代表相同部件。
[0007]图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框 图。
[000S]图2示出了根据本发明的一个实施例的监测感兴趣主题的方法的流程图。
[0009]图3示出了应用图2所示的监测感兴趣主题的方法的框架示意例子。 _〇]图4示出了应用图2所示的监测感兴趣主题的方法的时序示意例子。
[0011]图5示出了根据本发明的另一个实施例的监测感兴趣主题的系统的方框图。

【具体实施方式】
[0012] &下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开 的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方 式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的 泡围兀1整地传达给本领域的技术人员。
[0013]所属【技术领域】的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。 因此,本公开可以具体实现为以下形式,g卩:可以是完全的硬件、也可以是完全的软件(包括 固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为"电路"、"模 块"或"系统"。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质 中的计算机程^产品的形式,该计算机可读介质中包含计算机可读的程序代码。
[00M]可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计 算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是--但不限 于-电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算 机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便 携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(R0M)、可擦式可编程只读存储 器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器( CD_R〇M)、光存储器件、磁存储器件、 或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程 序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0015]计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号, 其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括--但 不限于-电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是 计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者 传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0016] 计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括--但不限 于--无线、电线、光缆、RF等等,或者上述的任意合适的组合。
[0017]可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机 程序代码,所述程序设计语言包括面向对象的程序设计语言一诸如Java、Smalltalk、C++, 还包括常规的过程式程序设计语言一诸如" C"语言或类似的程序设计语言。程序代码可以 完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部 分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在 涉及远程计算机的情形中,远程计算机可以通过任意种类的网络-包括局域网(LAN)或 广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提 供商来通过因特网连接)。
[0018] 下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或 框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方 框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专 用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指 令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中 规定的功能/操作的装置。
[0019] 也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置 以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一 个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品(manufacture)。
[0020] 也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备 上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计 算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图 和/或框图中的方框中规定的功能/操作的过程。
[0021] 图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框 图。图1显示的计算机系统/服务器I 2仅仅是一个示例,不应对本发明实施例的功能和使 用范围带来任何限制。
[0022] 如图1所示,计算机系统/服务器I2以通用计算设备的形式表现。计算机系统 /服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器 28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
[0023] 总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器, 外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举 例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(ma C) 总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
[0024] 计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是 任何能够被计算机系统/服务器I 2访问的可用介质,包括易失性和非易失性介质,可移动 的和不可移动的介质。
[0025] 系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存 取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其 它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统^ 可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为"硬盘驱动器")。尽管图 1中未不出,可以提供用于对可移动非易失性磁盘(例如"软盘")读写的磁盘驱动器,以及& 可移动非易失性光盘(例如⑶-ROM, DVD-ROM或者其它光介质)读写的光盘驱动器。在这胜 情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以 包括至少一个程序产品,该程序广品具有一组(例如至少一个)程序模块,这些程序模块被 配置以执行本发明各实施例的功能。 ' ^
[0026]具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器 28中,这样的程序模块42包括--但不限于--操作系统、一个或者多个应用程序其它 程序模块以及程序数据,这些示例中的每一个或某种组合中可能包栝网络环境的实现。'程 序模块42通常执行本发明所描述的实施例中的功能和/或方法。 ° $
[0027]计算机系统/服务器I2也可以与一个或多个外部设备14 (例如键盘、指向设备、 显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设 备通彳曰,和/或与使得该计算机系统/服务器I2能与一个或多个其它计算设备进行通信的 任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口 22 进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如 局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20 通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以 结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱 动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。 [0028]现在参考图2。图2示出了根据本发明的一个实施例的监测感兴趣主题的方法200 的流程图。图2中的监测感兴趣主题的方法200包括:步骤S201,基于感兴趣主题的第一 集合,选择参与所述第一集合中的一个或多个感兴趣主题的至少一个关键节点来组成关键 节点的组;以及步骤S202,监视所述组中的一个或多个关键节点所发布的内容,以找到感 兴趣主题的第二集合。
[0029] 根据本发明的该实施例,通过基于感兴趣主题的第一集合,选择参与第一集合中 的一个或多个感兴趣主题的至少一个关键节点来组成关键节点的组,作为要监视的对象, 从而相比于监视所有用户节点而减少了要监视的节点所发布的内容的数量,使得能够高 效、低成本和实时地找到诸如热点新闻或热点事件的感兴趣主题。
[0030] 注意,在一个实施例中,感兴趣主题的第一集合可以是在第一特定时间段1\内的 已知感兴趣主题的集合,其可以通过多种已知方式从以下信息源获取:例如,在第一特定时 间段?\内(例如,在星期六和星期日两天中)累积的来自诸如央视等新闻节目的已知的新 闻、来自诸如新浪、搜狐等新闻门户网站的已知的热点新闻排名信息等、来自诸如百度、谷 歌等搜索引擎网站的已知的搜索关键字排名信息等、来自新浪微博、腾讯微博、Twitter、开 心网等社交网站的已知的热点关注新闻事件排名信息等等。即,在第一特定时间段?\内的 己知感兴趣主题的第一集合可以包括在第一特定时间段内的媒体的热点新闻、搜索网站 的搜索排名事件、社交网站的热点事件中的一种或多种。当然,该感兴趣主题的第一集合还 可以通过其他外来的导向性信息来获得。如此,这样的该感兴趣主题的第一集合可以作为 在所有用户节点中选择少量关键用户节点的基础。作为一个例子,假设,该感兴趣主题的第 -集合是1〇个感兴趣主题,{&,S 2……S10}。
[0031] 在一个实施例中,所述感兴趣主题的第二集合可以是在不同于所述第一特定时间 段1\的第二特定时间段T 2内找到的感兴趣主题的集合。这只是示例,而感兴趣主题的第二 集合可以是在时间上与感兴趣主题的第一集合不同的集合(如上所述),也可以是在同一时 段(和τ 2相同)内的在包含的主题上与感兴趣主题的第一集合不同的集合。例如,在通过 在第一特定时间段I中收集到的感兴趣主题的第一集合得到关键节点的组的情况下,可以 通过在第一特定时间段之后的一段时间(例如,第二特定时间段Τ 2)内监视该关键节点的 组发布的内容,来找到在第一特定时间段L之后的一段时间(例如,第二特定时间段V内 的新的热点新闻事件的感兴趣主题的第二集合。或者例如,在通过在第一特定时间段 Τι中 收集到的感兴趣主题的第一集合得到关键节点的组的情况下,可以仍然通过监视该关键节 点的组在该第一特定时间段(?\和T 2相问)内发布的内各,来找到在所包含的主過上与 该感兴趣主题的第一集合不同的第二集合。总之,术语"感兴趣主题的第二集合"不限于在 时间上与第一集合不同的第二集合(由于例如某些热点新闻事件持续受到广泛关注等,第 一集合和第二集合在所包含的主题上可能相同),还可以包括在所包含的主题上与第一集 合不同的第二集合(例如,第一集合和第二集合在时间上可能相同)。当然,在本公开的各个 实施例中,以该"感兴趣主题的第二集合"是在时间上比第一集合更新的第二集合作为例子 来进行描述,但本发明不限于此。
[0032] 在一个实施例中,还可以基于如下中的一种或多种来进行该步骤S201 :要选择的 所述组中的关键节点的个数Nn。&的限制L1;以及要选择的所述组中的关键节点所发布的内 容的总数N p()St的限制L2。也就是说,在选择关键节点的组的选择步骤中,可以限制这些关 键节点的个数和其所发布的内容总数,从而减少监视这些关键节点和其发布的内容的工作 量,降低成本,加快找到感兴趣主题的速度。当然这种限制也不是必要的,可以根据实际情 况来决定是否进行限制、进行何种程度的限制等等。
[0033] 注意,本公开中提到的节点"发布"内容可以包括用户节点发表新内容、转发其他 用户节点发表的内容、评论其他用户节点发布的内容等等,但该"发布"不限于此,"发布"内 容还可以包括例如参加某个热点活动讨论(例如,某个明星的专访)、发表帖子时添加例如 涉及某个热点事件新闻的关键字标识(例如"#以色列游客拍到美人鱼#"等)、以及未来可 能出现的其他与"产生"内容相关的方式等等。
[0034] 这样,通过已知的各个热点新闻事件作为感兴趣主题的第一集合,可以基于已知 的感兴趣主题来选择参与这些已知的感兴趣主题的少量关键用户节点,从而假定如此选择 的这些少量关键用户节点可能是参与已知的热点新闻事件的活跃用户,那么也可以推测这 样的活跃用户同样也可能会持续地关注新的热点新闻事件。在该情况下,监视活跃的少量 关键用户节点发布的内容,可以更快速有效且低成本地找到新的热点新闻事件的感兴趣主 题的第二集合。
[0035] 在一个实施例中,该基于感兴趣主题的第一集合,选择参与所述第一集合中的一 个或多个感兴趣主题的至少一个关键节点来组成关键节点的组的步骤S201可以包括:步 骤S2011(未示出),获取参与所述第一集合中的一个或多个感兴趣主题的多个参与节点;以 及步骤S2012(未示出),从所述多个参与节点中,选择由满足第一特定条件的至少一个参与 节点组成的组作为所述关键节点的组。
[0036] 如上所述,参与某一感兴趣主题的参与节点可以是在从首次发布该感兴趣主题开 始的第三特定时间段T 3内、发布与该感兴趣主题相关的内容的节点。例如,一个参与节点 在首次发布感兴趣主题Si开始的例如较短时间段内发表、转发或评论等该感兴趣主题Sp 这可以一定程度上说明该参与节点对于该感兴趣主题Si是活跃的。当然,对于该第三特定 时间段τ3的长短的设置可以调整该参与节点的活跃性程度,例如,τ 3越短,所获得的参与节 点越活跃。当然,本发明不限于此,还可以通过其他方式来获取参与所述感兴趣主题的参与 节点,例如检查节点发布的内容中是否涉及感兴趣主题的关键字、检查用户节点是否参加 了例如社交网络上组织的该感兴趣主题的热点活动讨论、未来可能出现的其他参与方式等 等。另外,参与所述感兴趣主题的参与节点还可以通过其他时间段来获取,例如参与节点还 可以是在对该感兴趣主题讨论得较为活跃或最活跃的一段时间内发布与该感兴趣主题相 关的内容的节点,等等。当然,该参与节点也可以与时间无关,只要该节点参与过感兴趣主 题的讨论即可。本领域技术人员还可以构想很多其他的实施方式来限定和获取该参与节 点。 C〇〇37]该步骤S2012可以进一步减少所要监视的节点所发布的内容的数量。具体地,在 该步骤S2012中,从参与感兴趣主题的第一集合的所有参与节点中,选择满足第一特定条 件的参与节点的一个组(一般少于所有参与节点)作为关键节点的组,因此通过监视该少于 所有参与节点的一个组,可以减少所要监视的内容的数量。
[0038]当然,该步骤S2012并非必要步骤,而该步骤S201也可以仅包括选择参与感兴趣 主题的第一集合的所有参与节点的步骤S2011,因为这样选择的所有参与节点也比全部注 册的用户节点的数量少,在一定程度上可以实现减少监视的内容的数量的效果。
[0039]在一个实施例中,该步骤S2012中的第一特定条件可以包括使得所述参与节点组 成的组覆盖所述第一集合的覆盖效益满足如下中的一种:所述覆盖效益大于第一特定阈 值;和所述覆盖效益最大。在这里,所述覆盖效益可以表示所述参与节点组成的组所发布的 内容覆盖感兴趣主题的第一集合的程度。该覆盖效益越大,则可以表示所述参与节点组成 的组所发布的内容覆盖感兴趣主题的第一集合的程度越广(g卩,监视该参与节点的组所发 布的内容可以得到更全面的感兴趣主题)。
[0040] 在一个实施例中,在步骤S2012中,所述参与节点的组覆盖所述第一集合的覆盖 效益可以通过如下公式计算,其中,G是覆盖效益,α、β分别是权 重常数,是与所述组所覆盖的感兴趣主题相关的发布内容的数量有关的效率系数,而 是与所述组未覆盖的感兴趣主题相关的发布内容的数量有关的广度系数。在此,上 述公式所计算得到的所述参与节点的组覆盖所述第一集合的覆盖效益G可以反映所述参 与节点组成的组所发布的内容覆盖感兴趣主题的第一集合的程度,该覆盖效益越大,则表 示所述参与节点组成的组所发布的内容覆盖感兴趣主题的第一集合的程度越广(即,监视 该参与T·点的组可以得到更全面的感兴趣王题)。当然,上述公式G=Cl 仅 是示例,本领域技术人员还可以构思其他方式来反映参与节点组成的组所发布的内容覆盖 感兴趣主题的第一集合的程度,例如G可以等于与所述组所覆盖的感兴趣主题相关的发布 内容的数量、与所述组未覆盖的感兴趣主题相关的发布内容的数量、或与感兴趣主题的第 一集合中所有感测器主题相关的发布内容的数量等等。
[0041] 在一个实施例中,在步骤S2012中,"所述组所覆盖的感兴趣主题"可以是在所述组 中参与所述感兴趣主题的参与节点的数量大于第二特定阈值U 2的感兴趣主题。例如,如上 所述,假设存在1〇个已知的感兴趣主题,s2,……Si。。假设,在参与所有这些感兴趣主 题s P s2,……Si。的所有参与节点中选择的某一组中,参与感兴趣主题Si的参与节点的数 量为Ai,参与感兴趣主题S 2的参与节点的数量为A2,……参与感兴趣主题S1Q的参与节点 的数量为A 1()。其中,,因此,可以确定感兴趣主题Si和Si。是该组所覆盖的感兴 趣主题。相反,"所述组未覆盖的感兴趣主题"可以是在所述组中参与所述感兴趣主题的参 与节点的数量小于或等于第二特定阈值U 2的感兴趣主题,在该例中,是感兴趣主题S2…… S9〇
[0042] 在一个实施例中,可以通过下列公式来计算上述效率系数和广度系数 Runcovered · Λ _fk ^ -碌,一
[0043] jirt ffl]1 immverea v?/ * ^T? iy posi, i¥_f iV,
[0044] 其中,表示所述组所覆盖的感兴趣主题相关的发布内容的数量,表示所 述组所发布的所有内容的数量,斤丨.f表示所述组未覆盖的感兴趣主题相关的发布内容的数 量,Nu表示所述组未覆盖的感兴趣主题的数量。当然,这些公式仅是示例,还可以构思其他 公式来体现所述组所覆盖的感兴趣主题相关的发布内容的数量和所述组未覆盖的感兴趣 主题相关的发布内容的数量对覆盖效益的影响。
[0045] 可见,RMveral越大,则可以表示该组中的参与节点对于感兴趣主题的第一集合的关 注效率越高,也就是说,该组中的参与节点能够较集中地关注感兴趣主题的第一集合中的 所覆盖的感兴趣主题,而Run__ d越大,则可以表示该组中的参与节点对于感兴趣主题的第 一集合的关注广度越大,也就是说,该组中的参与节点能够更广泛地关注在第一集合中除 了覆盖的感兴趣主题以外的其他感兴趣主题。因此,可以根据关注效率和关注广度的不同 侧重,来选择权重α、β的大小。
[0046] 在一个实施例中,监视所述组中的一个或多个关键节点所发布的内容,以找到感 兴趣主题的第二集合的步骤S2〇2可以包括:步骤S2021 (未示出),获取所述组中的一个或 多个关键节点在第二特定时间段T2内所发布的内容;步骤S2022 (未示出)比较所述所发 布的一个或多个内容所包含的一个或多个主题的各自的内容数量;步骤S2〇23(未示出),从 所述一个或多个主题中,添加如下的至少一个主题到所述感兴趣主题的第二集合中:内容 数量大于第三特定阈值U 3的主题;以及内容数量从大到小排列的排名靠前的特定数量的主 题。
[0047] 在此,术语"发布的内容所包含的一个或多个主题"可以指的是从一些发布的内容 中提取的一个或多个主题(例如,一些内容都包含某一主题的关键字、或一些内容都包含某 一主题的完整信息等等)。例如,从包含关键字"#以色列游客拍到美人鱼#"的内容、包含该 以色列游客拍到美人鱼的主题的完整新闻全文的内容、包含该以色列游客拍到美人鱼的主 题的视频的内容等等中提取主题"以色列游客拍到美人鱼"。也就是说,涉及某一主题的内 容可以相互不完全逐字相同,而是只要这些内容在某种程度上涉及了该主题即可。从而,可 以从众多发布的内容中提取所包含的一个或多个主题,例如"以色列游客拍到美人鱼"、"美 国河流鲤鱼泛滥成灾#中国新声代#10岁女孩唱麻全场"等等。
[0048] 通过上述步骤S202US2022和S2023,可以找到被涉及的内容数量较多(大于某一 阈值或从大到小排列的前几名)的某一或某些主题(作为感兴趣主题的第二集合),而这样 的某一或某些主题可以被认为是较为热点的感兴趣主题,从而这样的热点的感兴趣主题的 第二集合可以通过监视少量的关键节点和其所发布的内容来高效、低成本地来找到。
[0049] 在一个实施例中,可选地,方法200还可以包括:步骤S203 (未示出),基于所述感 兴趣主题的第二集合,更新所述关键节点的组。具体地,随着时间的推移,在某个时间段(例 如,在上述提到的第二特定时间段T 2)内,通过监视关键节点的组找到感兴趣主题的第二集 合,但例如在该时间段(例如,第二特定时间段τ2)之后,有些曾经积极参与感兴趣主题的第 一集合的关键节点可能不再是积极参与该感兴趣主题的第二集合的活跃用户了,因此,通 过基于所述感兴趣主题的第二集合来更新所述关键节点的组,可以保持该关键节点的组的 活跃性。注意,该更新步骤S203可以在上述第二特定时间段T2之后进行。当然,更新的基 础也不限于该感兴趣主题的第二集合,更新的基础也可以是当前的从新闻门户网站、新闻 媒体、社交网站、搜索网站等已知信息源获得的某个己知的感兴趣主题的集合,本发明不限 于此。
[0050] 在一个实施例中,该基于所述感兴趣主题的第二集合,更新所述关键节点的组的 步骤S203可以包括以下中的一种或多种:删除满足第二特定条件的节点;以及增加参与所 述第二集合中的一个或多个感兴趣主题的新的关键节点。在步骤S203中的该增加新的关 键节点的【具体实施方式】可以与步骤S201的选择关键节点的【具体实施方式】相类似,例如通 过计算覆盖效益等等。当然,更新关键节点的组的步骤S 2〇3也不限于此,本领域技术人员 还可以构思更新关键节点的组的其他具体步骤,例如但不限于删除水军节点(以下还将讨 论),删除僵尸节点(以下还将讨论)等。
[0051] 在一个实施例中,在该步骤S203中的上述第二特定条件可以包括以下中的一种 或多种:节点的节点质量小于第四特定阈值;以及节点的节点质量从小到大排列的排名靠 前。所述节点的节点质量可以表示通过监视该节点发布的内容能找到一个或多个感兴趣主 题的效率。节点质量越好,则该监视该节点能找到一个或多个期望的感兴趣主题的效率越 高,即通过监视该节点发布的越少的内容可以找到越多的感兴趣主题。当然,该第二特定条 件还可以是其他条件,例如,发帖很少的节点可以考虑被删除,例如,"水军节点"或"僵尸节 点"(以下还将描述)可以考虑被删除,等等。本领域技术人员可以构想其他条件作为该第 二特定条件来删除一些不必要的节点。

【权利要求】
1. 一种监测感兴趣主题的方法,包括: 基于感兴趣主题的第一集合,选择参与所述第一集合中的一个或多个感兴趣主题的至 少一个关键节点来组成关键节点的组;以及 监视所述组中的一个或多个关键节点所发布的内容,以找到感兴趣主题的第二集合。
2. 根据权利要求1所述的方法,其中,所述选择还基于如下中的一种或多种来进行:要 选择的所述组中的关键节点的个数限制;和要选择的所述组中的关键节点所发布的内容的 总数限制。
3. 根据权利要求1所述的方法,其中,所述感兴趣主题的第一集合是在第一特定时间 段内的已知感兴趣主题的集合,且所述感兴趣主题的第二集合是在不同于所述第一特定时 间段的第二特定时间段内找到的感兴趣主题的集合。
4. 根据权利要求1所述的方法,其中,所述基于感兴趣主题的第一集合,选择参与所述 第一集合中的一个或多个感兴趣主题的至少一个关键节点来组成关键节点的组的步骤包 括: 获取参与所述第一集合中的一个或多个感兴趣主题的多个参与节点;以及 从所述多个参与节点中,选择由满足第一特定条件的至少一个参与节点组成的组作为 所述关键节点的组。
5. 根据权利要求4所述的方法,其中,所述参与所述感兴趣主题的参与节点包括在从 首次发布所述感兴趣主题开始的第三特定时间段内、发布与所述感兴趣主题相关的内容的 节点。
6. 根据权利要求4所述的方法,其中,所述第一特定条件包括使得所述参与节点组成 的组覆盖所述第一集合的覆盖效益满足如下中的一种:所述覆盖效益大于第一特定阈值; 和所述覆盖效益最大, 其中,所述覆盖效益表示所述参与节点组成的组所发布的内容覆盖感兴趣主题的第一 集合的程度。
7. 根据权利要求6所述的方法,其中,所述组覆盖所述第一集合的覆盖效益是通过如 下公式计算的: Z-' - a D _|_ Q D U '-covered ^ ?l'-uncovered, 其中,G是覆盖效益,α、β分别是权重常数, 是与所述组所覆盖的感兴趣主题相关的发布内容的数量有关的效率系数, Runc^W是与所述组未覆盖的感兴趣主题相关的发布内容的数量有关的广度系数, 所述组所覆盖的感兴趣主题是在所述组中参与所述感兴趣主题的参与节点的数量大 于第二特定阈值的感兴趣主题, 所述组未覆盖的感兴趣主题是在所述组中参与所述感兴趣主题的参与节点的数量小 于或等于第二特定阈值的感兴趣主题。
8. 根据权利要求7所述的方法,其中,
其中, #!_表示所述组所覆盖的感兴趣主题相关的发布内容的数量,表示所述组所发布的 所有内容的数量,I;*表示所述组未覆盖的感兴趣主题相关的发布内容的数量,Nu表示所 述组未覆盖的感兴趣主题的数量。
9. 根据权利要求1中的所述的方法,其中,所述监视所述组中的一个或多个关键节点 所发布的内容,以找到感兴趣主题的第二集合的步骤包括: 获取所述组中的一个或多个关键节点在第二特定时间段内所发布的一个或多个内 容; 比较所述所发布的一个或多个内容所包含的一个或多个主题的各自的内容数量; 从所述一个或多个主题中,添加如下的至少一个主题到所述感兴趣主题的第二集合 中: 内容数量大于第三特定阈值的主题;以及 内容数量从大到小排列的排名靠前的特定数量的主题。
10. 根据权利要求1中的所述的方法,还包括: 基于所述感兴趣主题的第二集合,更新所述关键节点的组。
11. 根据权利要求10所述的方法,所述基于所述感兴趣主题的第二集合,更新所述关 键节点的组的步骤包括以下中的一种或多种: 删除满足第二特定条件的节点;以及 增加参与所述第二集合中的一个或多个感兴趣主题的新的关键节点。
12. 根据权利要求11所述的方法,其中,所述第二特定条件包括以下中的一种或多种: 节点的节点质量小于第四特定阈值;以及 节点的节点质量从小到大排列的排名靠前, 其中,所述节点的节点质量表示通过监视该节点发布的内容能找到一个或多个感兴趣 主题的效率。
13. 根据权利要求12所述的方法,其中,所述节点质量通过如下公式来计算:
其中,Q(i)表示关键节点i的节点质量,a、b是常数权重, 表示关键节点i发布的与所述第二集合中的一个或多个感兴趣主题S相关的 内容的数量, #=(?//)表示所述关键节点的组中所有关键节点所发布的与所述第二集合中的一个 或多个感兴趣主题S相关的内容的数量, ^=(0表示该关键节点i所发布的所有内容的总数量。
14. 一种监测感兴趣主题的系统,包括: 选择装置,被配置为基于感兴趣主题的第一集合,选择参与所述第一集合中的一个或 多个感兴趣主题的至少一个关键节点来组成关键节点的组;以及 监视装置,被配置为监视所述组中的一个或多个关键节点所发布的内容,以找到感兴 趣主题的第二集合。
15. 根据权利要求14所述的系统,其中,所述选择装置还基于如下中的一种或多种来 进行所述选择:要选择的所述组中的关键节点的个数限制;和要选择的所述组中的关键节 点所发布的内容的总数限制。
16. 根据权利要求14所述的系统,其中,所述感兴趣主题的第一集合是在第一特定时 间段内的已知感兴趣主题的集合,且所述感兴趣主题的第二集合是在不同于所述第一特定 时间段的第二特定时间段内找到的感兴趣主题的集合。
17. 根据权利要求14所述的系统,其中,所述选择装置包括: 获取参与所述第一集合中的一个或多个感兴趣主题的多个参与节点的装置;以及 从所述多个参与节点中,选择由满足第一特定条件的至少一个参与节点组成的组作为 所述关键节点的组。
18. 根据权利要求17所述的系统,其中,所述第一特定条件包括使得所述参与节点组 成的组覆盖所述第一集合的覆盖效益满足如下中的一种:所述覆盖效益大于第一特定阈 值;和所述覆盖效益最大, 其中,所述覆盖效益表示所述参与节点组成的组所发布的内容覆盖感兴趣主题的第一 集合的程度。
19. 根据权利要求14中的所述的系统,其中,所述监视装置包括: 获取所述组中的一个或多个关键节点在第二特定时间段内所发布的一个或多个内容 的装置; 比较所述所发布的一个或多个内容所包含的一个或多个主题的各自的内容数量的装 置; 从所述一个或多个主题中,添加如下的至少一个主题到所述感兴趣主题的第二集合中 的装置: 内容数量大于第三特定阈值的主题;以及 内容数量从大到小排列的排名靠前的特定数量的主题。
20. 根据权利要求14中的所述的系统,还包括: 更新装置,被配置为基于所述感兴趣主题的第二集合,更新所述关键节点的组。
【文档编号】G06F17/30GK104252461SQ201310257892
【公开日】2014年12月31日 申请日期:2013年6月26日 优先权日:2013年6月26日
【发明者】严骏驰, 王俞, 龚旻, 胡国强, 齐轶 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1