热点聚合方法及装置制造方法

文档序号：6648960阅读：190来源：国知局

热点聚合方法及装置制造方法
【专利摘要】本发明公开了一种热点聚合方法及装置。该方法包括：抓取互联网上的网络资源；采用最长公共子序列LCS算法对网络资源进行匹配，获取匹配结果；根据匹配结果生成热点词组。借助于本发明的技术方案，能够降低运维成本和热点聚合计算的复杂度，提高了热点聚合的速度，能够实时采集，实时计算，快速发现热点事件，基本没有滞后。
【专利说明】热点聚合方法及装置
[0001] 本发明专利申请是申请日为2012年06月20日、申请号为201210210038. 2、名称为"热点聚合方法及装置"的中国发明专利申请的分案申请。

【技术领域】
[0002] 本发明涉及计算机【技术领域】，特别是涉及一种热点聚合方法及装置。

【背景技术】
[0003] 在现有技术中，热点聚合方法可以应用在电子布告栏系统（Bulletin Board System，简称为BBS)和博客（BLOG)上，也可以应用在网页、新闻、以及微博等数据上。
[0004] 目前，各搜索引擎都会提供热榜之类的产品，例如，百度的搜索风云榜，搜搜的热榜等，在现有技术中，热点聚合的实现方法基本有两种：
[0005] 方法1，利用用户的查询日志，按周期进行统计，对查询串进行分词，提取关键词，根据查询次数排序得到热词榜。
[0006] 方法2,对网页标题或内容进行中心词的抽取，按中心词进行聚合，计算出热点事件。
[0007] 方法1是基于统计进行热点事件计算的，因而会有一定的滞后性，不能及时发现热点事件。此外，上述两种方法都基于分词技术，而分词是基于词典的，而利用分词技术本身就会对新词的发现有一定的滞后性，从而会导致一些新的热词及热门事件不能及时发现，此外，上述两种方法的效果太过依赖于分词技术，需要进行词典维护，还具有一定的运维成本。

【发明内容】

[0008] 本发明提供一种热点聚合方法及装置，以解决现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题。
[0009] 本发明提供一种热点聚合方法，包括：抓取互联网上的网络资源；采用最长公共子序列（Longest Common Subsequence,简称为LCS)算法对网络资源进行匹配，获取匹配结果；根据匹配结果生成热点词组。
[0010] 优选地，根据匹配结果生成热点词组具体包括：设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数；获取所涉及网络资源的个数大于最少个数的匹配结果，并根据该匹配结果生成热点词组。
[0011] 优选地，抓取互联网上的网络资源具体包括：从分布式文件系统中获取以预定时间周期分割后的网络资源。
[0012] 优选地，抓取互联网上的网络资源之后，上述方法还包括：对网络资源进行过滤。
[0013] 优选地，对网络资源进行过滤的处理具体包括以下至少之一：根据预先配置的域名列表，滤除非重点域名的网络资源；根据预先配置的网络白名单，保留与网络白名单相应的网络资源；根据网页的浏览数对网络资源进行过滤；根据网页的发布日期对网络资源进行过滤；根据新闻、博客、或者帖子的回复数对网络资源进行过滤；对网络资源的标题中的无用信息进行过滤；对网络资源中的常用词进行过滤。
[0014] 优选地，根据匹配结果生成热点词组之后，上述方法还包括：获取与各个热点词组相关的网络资源的标识，并将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行聚合存储。
[0015] 优选地，采用LCS算法对网络资源进行匹配，获取匹配结果具体包括：通过LCS算法，采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系，并计算矩阵中对角线最长的匹配序列，根据匹配序列在矩阵中的位置，获取最长匹配子串的位置；
[0016] 优选地，根据匹配结果生成热点词组具体包括：根据最长匹配子串的位置生成热点词组。
[0017] 优选地，根据匹配结果生成热点词组之后，上述方法还包括：采用LCS算法对热点词组再次进行匹配，生成关键词组；将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储具体包括：将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。
[0018] 优选地,在将热点组进行存储之后,上述方法还包括：对存储的热点组中的热点数据进行统计分析、展现、和/或查询。
[0019] 本发明还提供了一种热点聚合装置，包括：网络抓取模块，用于抓取互联网上的网络资源；匹配模块，用于采用最长公共子序列LCS算法对网络资源进行匹配，获取匹配结果；生成模块，用于根据匹配结果生成热点词组。
[0020] 优选地，生成模块具体用于：设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数；获取所涉及网络资源的个数大于最少个数的匹配结果，并根据该匹配结果生成热点词组。
[0021] 优选地，获取模块具体用于：从分布式文件系统中获取以预定时间周期分割后的网络资源。
[0022] 优选地，上述装置还包括：过滤模块，用于在网络抓取模块抓取互联网上的网络资源之后，对网络资源进行过滤。
[0023] 优选地，过滤模块具体包括以下至少之一：域名过滤子模块，用于根据预先配置的域名列表，滤除非重点域名的网络资源；白名单过滤子模块，用于根据预先配置的网络白名单，保留与网络白名单相应的网络资源；浏览数过滤子模块，用于根据网页的浏览数对网络资源进行过滤；发布日期过滤子模块，用于根据网页的发布日期对网络资源进行过滤；回复数过滤子模块，用于根据新闻、博客、或者帖子的回复数对网络资源进行过滤；标题过滤子模块，用于对网络资源的标题中的无用信息进行过滤；常用词过滤子模块，用于对网络资源中的常用词进行过滤。
[0024] 优选地，上述装置还包括：存储模块，用于获取与各个热点词组相关的网络资源的标识，将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储。
[0025] 优选地，匹配模块具体用于：通过LCS算法，采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系，并计算矩阵中对角线最长的匹配序列，根据匹配序列在矩阵中的位置，获取最长匹配子串的位置；生成模块具体用于：根据最长匹配子串的位置生成热点词组。
[0026] 优选地，匹配模块还用于：采用LCS算法对热点词组再次进行匹配，生成关键词组；存储模块具体用于：将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。
[0027] 优选地，上述装置还包括：统计分析模块，用于对存储的热点组中的热点数据进行统计分析、展现、和/或查询。
[0028] 本发明有益效果如下：
[0029] 通过利用LCS算法对网络资源进行热点聚合，解决了现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题，能够降低运维成本和热点聚合计算的复杂度，提高了热点聚合的速度，能够实时采集，实时计算，快速发现热点事件，基本没有滞后。

【专利附图】

【附图说明】
[0030] 图1是本发明实施例的热点聚合方法的流程图；
[0031] 图2是本发明实施例的热点聚合装置的结构示意图；
[0032] 图3是本发明实施例的热点聚合装置的详细结构示意图。

【具体实施方式】
[0033] 为了解决现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题，本发明提供了一种热点聚合方法及装置，根据本发明实施例的无词典热点聚合方法，通过采用LCS技术对互联网上网页的主题在一定周期内进行聚合，可以快速发现本周期内发生的热点事件。以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。
[0034] 根据本发明的实施例，提供了一种热点聚合方法，图1是本发明实施例的热点聚合方法的流程图，如图1所示，根据本发明实施例的热点聚合方法包括如下处理：
[0035] 步骤101，抓取互联网上的网络资源；其中，上述网络资源包括：网页、帖子、微博、博客等。
[0036] 优选地，在实际应用中，需要从文件系统中获取以预定时间周期分割后的网络资源，其中，该文件系统可以为分布式文件系统（moosefs)，也可以为普通的文件系统。在步骤101中，可以从moosefs上采集按一定切分周期（即上述预定时间周期）切分好的网络资源。在实际应用中，切分周期可以根据网络资源的种类（或者网络资源更新的速度）的不同进行不同的配置，以控制计算的周期。例如，由于BBS的网络资源更新较快，因此，BBS 可以按小时对网络资源进行切分（即切分周期为一小时），由于BLOG的网络资源更新较慢，因此，BLOG可以按天对相关网络资源进行切分（即切分周期为一天24小时）。
[0037] 此外，在抓取互联网上的网络资源之后，还可以对网络资源进行过滤。
[0038] 具体地，对网络资源进行过滤的处理具体包括以下至少之一：
[0039] 1、filter_host过滤域名：根据预先配置的域名列表，滤除非重点域名的网络资源，可以减少垃圾数据；
[0040] 2、filter_blog_list blog白名单过滤：根据预先配置的网络白名单，保留与网络白名单相应的网络资源，例如，根据博客白名单，保留重点博客的数据；
[0041] 3、filter_viewC0Unt浏览数过滤：根据网页的浏览数对网络资源进行过滤；例如，根据对网页或帖子的浏览数的多少，过滤出浏览数低于一定门限的网页或帖子，还需要过滤出浏览数高于一定门限的网页或帖子。例如，对浏览数为0或1的过滤掉；对浏览数为 10000以上的过滤掉，浏览数为10000以上的大多为抓错或旧帖；
[0042] 4、filter_replycount回复数过滤：根据新闻、博客、或者帖子的回复数对网络资源进行过滤；例如，如果对某个帖子的回复数大于10000以上的帖子进行过滤，大多为抓错或旧帖；
[0043] 5、filter_pUbliCtime发帖日期过滤：根据网页的发布日期对网络资源进行过滤；例如，将一天前的帖子进行过滤。
[0044] 6、过滤掉题目里的版块名称、说明、以及求助等无用前缀信息：即，对网络资源的标题中的无用信息进行过滤；
[0045] 7、filter_comm_word常用词过滤：对网络资源中的常用词进行过滤，例如，对一些常用的、无意义的词进行过滤。
[0046] 通过上述网络资源的过滤处理，能够过滤掉网络资源中大部分的干扰网络资源和垃圾网络资源，为下一步匹配打下良好的基础。
[0047] 步骤102,采用LCS算法对网络资源进行匹配，获取匹配结果；
[0048] 具体地，在步骤201中，采用LCS算法对网络资源进行匹配，获取匹配结果具体包括如下处理：通过LCS算法，采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系，并计算矩阵中对角线最长的匹配序列，根据匹配序列在矩阵中的位置，获取最长匹配子串的位置（即上述匹配结果）；
[0049] 例如，LCS算法使用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况，若是匹配则为1，否则为0。然后求出对角线最长的1序列，其对应的位置就是最长匹配子串的位置。需要说明的是，LCS是计算两个字符串相似程度的一种方法：LCS计算出的最长匹配子串越长，两个字符串越相似。所以，用它可以对相似主题进行聚集，用来达到发现相同主题的目的。
[0050] 步骤103,根据匹配结果生成热点词组。
[0051] 具体地，在步骤103中，根据步骤102中获取的最长匹配子串的位置（S卩，匹配结果）生成热点词组。
[0052] 为了能够获取更准确的热点词组，在本发明实施例中，可以设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数，获取所涉及网络资源的个数大于最少个数的匹配结果，并根据该匹配结果生成热点词组。当然，判断是否构成热点词组的维度还有很多，例如，可以按照所涉及的网络资源数量的多少对热点词组进行排序等等。
[0053] 优选地，在本发明实施例中，根据匹配结果生成热点词组之后，还可以获取与各个热点词组相关的网络资源的标识，并将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行聚合存储。其中，网络资源的标识可以为网络资源的链接、或者网络资源的统一资源定位符（Uniform/Universal Resource Locator,简称为URL)地址。当然，在本发明实施例中，也可以直接对相关的网络资源进行存储。
[0054] 为了进一步对热点词组进行聚合，在本发明实施例中，优选地，在根据匹配结果生成热点词组之后，可以采用LCS算法对热点词组再次进行匹配，生成关键词组；随后，将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。
[0055] 也就是说，将LCS算法计算出的最长匹配子串，做为分组词组，对同一组中的词组再使用LCS算法计算出关键词组，并将关键词组、与关键词组对应的所有热点词组、以及对应网络资源（网站、帖子、博客、以及微博等）的标识归为一个热点，作为一个热点组。
[0056] 在实际应用中，将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储时，需要存储的关键词组的字段如表1所示，包括：热点组ID、关键词组、状态（用于标识关键词组是否有效）、入库存储时间、修改时间、以及扩展字段。
[0057] 表 1

【权利要求】
1. 一种网络热点聚合方法，其特征在于，包括：抓取互联网上的网络资源；采用最长公共子序列LCS算法对所述网络资源进行匹配，获取匹配结果；根据所述匹配结果生成热点词组。
2. 如权利要求1所述的方法，其特征在于，根据所述匹配结果生成热点词组具体包括：设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数；获取所涉及网络资源的个数大于所述最少个数的匹配结果，并根据该匹配结果生成热点词组。
3. 如权利要求1-2任一项所述的方法，其特征在于，所述抓取互联网上的网络资源具体包括：从分布式文件系统中获取W预定时间周期分割后的网络资源。
4. 如权利要求1-3任一项所述的方法，其特征在于，抓取互联网上的网络资源之后，所述方法还包括：对所述网络资源进行过滤。
5. 如权利要求1-4任一项所述的方法，其特征在于，对所述网络资源进行过滤的处理具体包括W下至少之一：根据预先配置的域名列表，滤除指定域名的网络资源；根据预先配置的网络白名单，保留与所述网络白名单相应的网络资源；根据网页的浏览数对所述网络资源进行过滤；根据网页的发布日期对所述网络资源进行过滤；根据新闻、博客、或者帖子的回复数对所述网络资源进行过滤；对所述网络资源的标题中的无用信息进行过滤；对所述网络资源中的常用词进行过滤。
6. 如权利要求1-5任一项所述的方法，其特征在于，根据所述匹配结果生成热点词组之后，所述方法还包括：获取与各个热点词组相关的网络资源的标识，并将每个热点词组W及与该热点词组相关的网络资源的标识作为一个热点组进行聚合存储。
7. 如权利要求1-6任一项所述的方法，其特征在于，根据所述匹配结果生成热点词组之后，所述方法还包括：采用LCS算法对所述热点词组再次进行匹配，生成关键词组；将每个热点词组W及与该热点词组相关的网络资源的标识作为一个热点组进行存储具体包括：将每个关键词组、与所述关键词组相对应的热点词组、W及与所述热点词组相关的网络资源的标识作为一个热点组进行存储。
8. 如权利要求1-7任一项所述的方法，其特征在于，采用LCS算法对所述网络资源进行匹配，获取匹配结果具体包括：通过所述LCS算法，采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系，并计算所述矩阵中对角线最长的匹配序列，根据所述匹配序列在所述矩阵中的位置，获取最长匹配子串的位置；根据所述匹配结果生成热点词组具体包括：根据所述最长匹配子串的位置生成热点词组。
9. 如权利要求1-8任一项所述的方法，其特征在于，在将所述热点组进行存储之后，所述方法还包括：对存储的所述热点组中的热点数据进行统计分析、展现、和/或查询。
10. -种热点聚合装置，其特征在于，包括：网络抓取模块，用于抓取互联网上的网络资源；匹配模块，用于采用最长公共子序列LCS算法对所述网络资源进行匹配，获取匹配结果；生成模块，用于根据所述匹配结果生成热点词组。
【文档编号】G06F17/30GK104462613SQ201510007096
【公开日】2015年3月25日申请日期:2012年6月20日优先权日:2012年6月20日
【发明者】马良申请人:北京奇虎科技有限公司, 奇智软件（北京）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马良;
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。