热点聚合方法及装置制造方法

文档序号:6648960阅读:190来源:国知局
热点聚合方法及装置制造方法
【专利摘要】本发明公开了一种热点聚合方法及装置。该方法包括:抓取互联网上的网络资源;采用最长公共子序列LCS算法对网络资源进行匹配,获取匹配结果;根据匹配结果生成热点词组。借助于本发明的技术方案,能够降低运维成本和热点聚合计算的复杂度,提高了热点聚合的速度,能够实时采集,实时计算,快速发现热点事件,基本没有滞后。
【专利说明】热点聚合方法及装置
[0001] 本发明专利申请是申请日为2012年06月20日、申请号为201210210038. 2、名称 为"热点聚合方法及装置"的中国发明专利申请的分案申请。

【技术领域】
[0002] 本发明涉及计算机【技术领域】,特别是涉及一种热点聚合方法及装置。

【背景技术】
[0003] 在现有技术中,热点聚合方法可以应用在电子布告栏系统(Bulletin Board System,简称为BBS)和博客(BLOG)上,也可以应用在网页、新闻、以及微博等数据上。
[0004] 目前,各搜索引擎都会提供热榜之类的产品,例如,百度的搜索风云榜,搜搜的热 榜等,在现有技术中,热点聚合的实现方法基本有两种:
[0005] 方法1,利用用户的查询日志,按周期进行统计,对查询串进行分词,提取关键词, 根据查询次数排序得到热词榜。
[0006] 方法2,对网页标题或内容进行中心词的抽取,按中心词进行聚合,计算出热点事 件。
[0007] 方法1是基于统计进行热点事件计算的,因而会有一定的滞后性,不能及时发现 热点事件。此外,上述两种方法都基于分词技术,而分词是基于词典的,而利用分词技术 本身就会对新词的发现有一定的滞后性,从而会导致一些新的热词及热门事件不能及时发 现,此外,上述两种方法的效果太过依赖于分词技术,需要进行词典维护,还具有一定的运 维成本。


【发明内容】

[0008] 本发明提供一种热点聚合方法及装置,以解决现有技术中通过分词技术进行热点 聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题。
[0009] 本发明提供一种热点聚合方法,包括:抓取互联网上的网络资源;采用最长公共 子序列(Longest Common Subsequence,简称为LCS)算法对网络资源进行匹配,获取匹配结 果;根据匹配结果生成热点词组。
[0010] 优选地,根据匹配结果生成热点词组具体包括:设置采用LCS算法进行匹配时生 成匹配结果所涉及网络资源的最少个数;获取所涉及网络资源的个数大于最少个数的匹配 结果,并根据该匹配结果生成热点词组。
[0011] 优选地,抓取互联网上的网络资源具体包括:从分布式文件系统中获取以预定时 间周期分割后的网络资源。
[0012] 优选地,抓取互联网上的网络资源之后,上述方法还包括:对网络资源进行过滤。
[0013] 优选地,对网络资源进行过滤的处理具体包括以下至少之一:根据预先配置的域 名列表,滤除非重点域名的网络资源;根据预先配置的网络白名单,保留与网络白名单相应 的网络资源;根据网页的浏览数对网络资源进行过滤;根据网页的发布日期对网络资源进 行过滤;根据新闻、博客、或者帖子的回复数对网络资源进行过滤;对网络资源的标题中的 无用信息进行过滤;对网络资源中的常用词进行过滤。
[0014] 优选地,根据匹配结果生成热点词组之后,上述方法还包括:获取与各个热点词组 相关的网络资源的标识,并将每个热点词组以及与该热点词组相关的网络资源的标识作为 一个热点组进行聚合存储。
[0015] 优选地,采用LCS算法对网络资源进行匹配,获取匹配结果具体包括:通过LCS算 法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算矩阵中对 角线最长的匹配序列,根据匹配序列在矩阵中的位置,获取最长匹配子串的位置;
[0016] 优选地,根据匹配结果生成热点词组具体包括:根据最长匹配子串的位置生成热 点词组。
[0017] 优选地,根据匹配结果生成热点词组之后,上述方法还包括:采用LCS算法对热点 词组再次进行匹配,生成关键词组;将每个热点词组以及与该热点词组相关的网络资源的 标识作为一个热点组进行存储具体包括:将每个关键词组、与关键词组相对应的热点词组、 以及与热点词组相关的网络资源的标识作为一个热点组进行存储。
[0018] 优选地,在将热点组进行存储之后,上述方法还包括:对存储的热点组中的热点数 据进行统计分析、展现、和/或查询。
[0019] 本发明还提供了一种热点聚合装置,包括:网络抓取模块,用于抓取互联网上的网 络资源;匹配模块,用于采用最长公共子序列LCS算法对网络资源进行匹配,获取匹配结 果;生成模块,用于根据匹配结果生成热点词组。
[0020] 优选地,生成模块具体用于:设置采用LCS算法进行匹配时生成匹配结果所涉及 网络资源的最少个数;获取所涉及网络资源的个数大于最少个数的匹配结果,并根据该匹 配结果生成热点词组。
[0021] 优选地,获取模块具体用于:从分布式文件系统中获取以预定时间周期分割后的 网络资源。
[0022] 优选地,上述装置还包括:过滤模块,用于在网络抓取模块抓取互联网上的网络资 源之后,对网络资源进行过滤。
[0023] 优选地,过滤模块具体包括以下至少之一:域名过滤子模块,用于根据预先配置的 域名列表,滤除非重点域名的网络资源;白名单过滤子模块,用于根据预先配置的网络白名 单,保留与网络白名单相应的网络资源;浏览数过滤子模块,用于根据网页的浏览数对网络 资源进行过滤;发布日期过滤子模块,用于根据网页的发布日期对网络资源进行过滤;回 复数过滤子模块,用于根据新闻、博客、或者帖子的回复数对网络资源进行过滤;标题过滤 子模块,用于对网络资源的标题中的无用信息进行过滤;常用词过滤子模块,用于对网络资 源中的常用词进行过滤。
[0024] 优选地,上述装置还包括:存储模块,用于获取与各个热点词组相关的网络资源 的标识,将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存 储。
[0025] 优选地,匹配模块具体用于:通过LCS算法,采用矩阵记录两个字符串中相应位置 上的两个字符之间的匹配关系,并计算矩阵中对角线最长的匹配序列,根据匹配序列在矩 阵中的位置,获取最长匹配子串的位置;生成模块具体用于:根据最长匹配子串的位置生 成热点词组。
[0026] 优选地,匹配模块还用于:采用LCS算法对热点词组再次进行匹配,生成关键词 组;存储模块具体用于:将每个关键词组、与关键词组相对应的热点词组、以及与热点词组 相关的网络资源的标识作为一个热点组进行存储。
[0027] 优选地,上述装置还包括:统计分析模块,用于对存储的热点组中的热点数据进行 统计分析、展现、和/或查询。
[0028] 本发明有益效果如下:
[0029] 通过利用LCS算法对网络资源进行热点聚合,解决了现有技术中通过分词技术进 行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题,能够降低 运维成本和热点聚合计算的复杂度,提高了热点聚合的速度,能够实时采集,实时计算,快 速发现热点事件,基本没有滞后。

【专利附图】

【附图说明】
[0030] 图1是本发明实施例的热点聚合方法的流程图;
[0031] 图2是本发明实施例的热点聚合装置的结构示意图;
[0032] 图3是本发明实施例的热点聚合装置的详细结构示意图。

【具体实施方式】
[0033] 为了解决现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及 进行词典维护的运维成本高的问题,本发明提供了一种热点聚合方法及装置,根据本发明 实施例的无词典热点聚合方法,通过采用LCS技术对互联网上网页的主题在一定周期内进 行聚合,可以快速发现本周期内发生的热点事件。以下结合附图以及实施例,对本发明进行 进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发 明。
[0034] 根据本发明的实施例,提供了一种热点聚合方法,图1是本发明实施例的热点聚 合方法的流程图,如图1所示,根据本发明实施例的热点聚合方法包括如下处理:
[0035] 步骤101,抓取互联网上的网络资源;其中,上述网络资源包括:网页、帖子、微博、 博客等。
[0036] 优选地,在实际应用中,需要从文件系统中获取以预定时间周期分割后的网络资 源,其中,该文件系统可以为分布式文件系统(moosefs),也可以为普通的文件系统。在步 骤101中,可以从moosefs上采集按一定切分周期(即上述预定时间周期)切分好的网络 资源。在实际应用中,切分周期可以根据网络资源的种类(或者网络资源更新的速度)的 不同进行不同的配置,以控制计算的周期。例如,由于BBS的网络资源更新较快,因此,BBS 可以按小时对网络资源进行切分(即切分周期为一小时),由于BLOG的网络资源更新较慢, 因此,BLOG可以按天对相关网络资源进行切分(即切分周期为一天24小时)。
[0037] 此外,在抓取互联网上的网络资源之后,还可以对网络资源进行过滤。
[0038] 具体地,对网络资源进行过滤的处理具体包括以下至少之一:
[0039] 1、filter_host过滤域名:根据预先配置的域名列表,滤除非重点域名的网络资 源,可以减少垃圾数据;
[0040] 2、filter_blog_list blog白名单过滤:根据预先配置的网络白名单,保留与网络 白名单相应的网络资源,例如,根据博客白名单,保留重点博客的数据;
[0041] 3、filter_viewC0Unt浏览数过滤:根据网页的浏览数对网络资源进行过滤;例 如,根据对网页或帖子的浏览数的多少,过滤出浏览数低于一定门限的网页或帖子,还需要 过滤出浏览数高于一定门限的网页或帖子。例如,对浏览数为0或1的过滤掉;对浏览数为 10000以上的过滤掉,浏览数为10000以上的大多为抓错或旧帖;
[0042] 4、filter_replycount回复数过滤:根据新闻、博客、或者帖子的回复数对网络资 源进行过滤;例如,如果对某个帖子的回复数大于10000以上的帖子进行过滤,大多为抓错 或旧帖;
[0043] 5、filter_pUbliCtime发帖日期过滤:根据网页的发布日期对网络资源进行过 滤;例如,将一天前的帖子进行过滤。
[0044] 6、过滤掉题目里的版块名称、说明、以及求助等无用前缀信息:即, 对网络资源的标题中的无用信息进行过滤;
[0045] 7、filter_comm_word常用词过滤:对网络资源中的常用词进行过滤,例如,对一 些常用的、无意义的词进行过滤。
[0046] 通过上述网络资源的过滤处理,能够过滤掉网络资源中大部分的干扰网络资源和 垃圾网络资源,为下一步匹配打下良好的基础。
[0047] 步骤102,采用LCS算法对网络资源进行匹配,获取匹配结果;
[0048] 具体地,在步骤201中,采用LCS算法对网络资源进行匹配,获取匹配结果具体包 括如下处理:通过LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹 配关系,并计算矩阵中对角线最长的匹配序列,根据匹配序列在矩阵中的位置,获取最长匹 配子串的位置(即上述匹配结果);
[0049] 例如,LCS算法使用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹 配情况,若是匹配则为1,否则为0。然后求出对角线最长的1序列,其对应的位置就是最长 匹配子串的位置。需要说明的是,LCS是计算两个字符串相似程度的一种方法:LCS计算出 的最长匹配子串越长,两个字符串越相似。所以,用它可以对相似主题进行聚集,用来达到 发现相同主题的目的。
[0050] 步骤103,根据匹配结果生成热点词组。
[0051] 具体地,在步骤103中,根据步骤102中获取的最长匹配子串的位置(S卩,匹配结 果)生成热点词组。
[0052] 为了能够获取更准确的热点词组,在本发明实施例中,可以设置采用LCS算法进 行匹配时生成匹配结果所涉及网络资源的最少个数,获取所涉及网络资源的个数大于最少 个数的匹配结果,并根据该匹配结果生成热点词组。当然,判断是否构成热点词组的维度还 有很多,例如,可以按照所涉及的网络资源数量的多少对热点词组进行排序等等。
[0053] 优选地,在本发明实施例中,根据匹配结果生成热点词组之后,还可以获取与各个 热点词组相关的网络资源的标识,并将每个热点词组以及与该热点词组相关的网络资源的 标识作为一个热点组进行聚合存储。其中,网络资源的标识可以为网络资源的链接、或者网 络资源的统一资源定位符(Uniform/Universal Resource Locator,简称为URL)地址。当 然,在本发明实施例中,也可以直接对相关的网络资源进行存储。
[0054] 为了进一步对热点词组进行聚合,在本发明实施例中,优选地,在根据匹配结果生 成热点词组之后,可以采用LCS算法对热点词组再次进行匹配,生成关键词组;随后,将每 个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为 一个热点组进行存储。
[0055] 也就是说,将LCS算法计算出的最长匹配子串,做为分组词组,对同一组中的词组 再使用LCS算法计算出关键词组,并将关键词组、与关键词组对应的所有热点词组、以及对 应网络资源(网站、帖子、博客、以及微博等)的标识归为一个热点,作为一个热点组。
[0056] 在实际应用中,将每个关键词组、与关键词组相对应的热点词组、以及与热点词组 相关的网络资源的标识作为一个热点组进行存储时,需要存储的关键词组的字段如表1所 示,包括:热点组ID、关键词组、状态(用于标识关键词组是否有效)、入库存储时间、修改时 间、以及扩展字段。
[0057] 表 1

【权利要求】
1. 一种网络热点聚合方法,其特征在于,包括: 抓取互联网上的网络资源; 采用最长公共子序列LCS算法对所述网络资源进行匹配,获取匹配结果; 根据所述匹配结果生成热点词组。
2. 如权利要求1所述的方法,其特征在于,根据所述匹配结果生成热点词组具体包括: 设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数; 获取所涉及网络资源的个数大于所述最少个数的匹配结果,并根据该匹配结果生成热 点词组。
3. 如权利要求1-2任一项所述的方法,其特征在于,所述抓取互联网上的网络资源具 体包括: 从分布式文件系统中获取W预定时间周期分割后的网络资源。
4. 如权利要求1-3任一项所述的方法,其特征在于,抓取互联网上的网络资源之后,所 述方法还包括: 对所述网络资源进行过滤。
5. 如权利要求1-4任一项所述的方法,其特征在于,对所述网络资源进行过滤的处理 具体包括W下至少之一: 根据预先配置的域名列表,滤除指定域名的网络资源; 根据预先配置的网络白名单,保留与所述网络白名单相应的网络资源; 根据网页的浏览数对所述网络资源进行过滤; 根据网页的发布日期对所述网络资源进行过滤; 根据新闻、博客、或者帖子的回复数对所述网络资源进行过滤; 对所述网络资源的标题中的无用信息进行过滤; 对所述网络资源中的常用词进行过滤。
6. 如权利要求1-5任一项所述的方法,其特征在于,根据所述匹配结果生成热点词组 之后,所述方法还包括: 获取与各个热点词组相关的网络资源的标识,并将每个热点词组W及与该热点词组相 关的网络资源的标识作为一个热点组进行聚合存储。
7. 如权利要求1-6任一项所述的方法,其特征在于,根据所述匹配结果生成热点词组 之后,所述方法还包括: 采用LCS算法对所述热点词组再次进行匹配,生成关键词组; 将每个热点词组W及与该热点词组相关的网络资源的标识作为一个热点组进行存储 具体包括: 将每个关键词组、与所述关键词组相对应的热点词组、W及与所述热点词组相关的网 络资源的标识作为一个热点组进行存储。
8. 如权利要求1-7任一项所述的方法,其特征在于, 采用LCS算法对所述网络资源进行匹配,获取匹配结果具体包括: 通过所述LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关 系,并计算所述矩阵中对角线最长的匹配序列,根据所述匹配序列在所述矩阵中的位置,获 取最长匹配子串的位置; 根据所述匹配结果生成热点词组具体包括: 根据所述最长匹配子串的位置生成热点词组。
9. 如权利要求1-8任一项所述的方法,其特征在于,在将所述热点组进行存储之后,所 述方法还包括: 对存储的所述热点组中的热点数据进行统计分析、展现、和/或查询。
10. -种热点聚合装置,其特征在于,包括: 网络抓取模块,用于抓取互联网上的网络资源; 匹配模块,用于采用最长公共子序列LCS算法对所述网络资源进行匹配,获取匹配结 果; 生成模块,用于根据所述匹配结果生成热点词组。
【文档编号】G06F17/30GK104462613SQ201510007096
【公开日】2015年3月25日 申请日期:2012年6月20日 优先权日:2012年6月20日
【发明者】马良 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1