网络热点挖掘方法及装置的制作方法

文档序号:6377133阅读:122来源:国知局
专利名称:网络热点挖掘方法及装置的制作方法
技术领域
本发明涉及互联网通信领域,特别是涉及ー种网络热点挖掘方法及装置。
背景技术
在现有技术中,随着互联网的发展,越来越多的网站引入了用户生成内容(UserGenerated Content,简称为UGC)功能,大量的网民涌入论坛、博客、微博中发表自己的意见和爆料各类新闻,每天有成千上万的话题从互联网上产生,如何更快速的从互联网海量信息中获取网络热点,将对了解社会发展形势、掌握舆论动态起到指导性作用。目前,现有技术中普遍采用的热点挖掘方法是通过对特定时间段内的文本的转发量、点击量、回复量进行预定条件的加权计算得到文本热值,通过热值排序得到最热文本。但是,现有技术的技术方案存在以下问题1、由于仅对单一文本自身属性进行统计,获取的热点话题仅能反映微观上某一文章的热度情况,而无法反映宏观上对某ー网民关注点的热 度情況;2、由于统计的样本集为全量数据,且未从文本内容着手做相应统计分析,因此产生的结果没有针对性,不能分领域反映针对此领域的热点情況;3、现有技术中的技术方案仅能统计特征完全相同的同一内容的文本,所得结果重复性大、可读性差。

发明内容
本发明提供一种网络热点挖掘方法及装置,以解决现有技术中网络热点挖掘结果不宏观、不能分领域反映针对此领域的热点情况、以及重复性大、可读性差的问题。本发明提供一种网络热点挖掘方法,包括采集网络数据,对网络数据进行分类和分类存储;根据预先设置的过滤规则分别对各类别下的网络数据进行过滤,井分别从各类别下过滤后的网络数据中提取中心词;对从同一网络数据中提取的中心词进行排序,并将同一网络数据的排序后的中心词进行组合,获得各类别下的各个网路数据的中心词组;统计中心词组在所属类别下的出现次数,分别获取各类别下的网络热点词组并进行分类展
/Jn ο可选地,网络数据包括文本标题、与文本标题相对应的文章内容、以及与文本标题相对应的文本属性。可选地,文本属性进ー步包括以下至少之ー文本对应的统ー资源定位符URL、文本的来源论坛/博客、文本的来源版块、文本的发布时间、文本作者、文本的回复数、以及文本的浏览数。可选地,对网络数据进行分类和分类存储进ー步包括利用文本自动分类技术根据文章内容对网络数据进行文本分类,获取与网络数据对应的分类标签,并将对应的文本标题、对应的分类标签、以及对应的文本属性存储到引擎中;每隔预定时间对引擎进行一次网络数据采集,并按照分类标签将采集到的网络数据分类存放于指定服务器的不同XML文件中。可选地,过滤规则进一歩包括以下至少之ー对文本标题不符合预定字数的网络数据进行删除;对发布时间不符合规定的网络数据进行删除JiURL中含有预定域名的网络数据进行删除,其中,预定域名为预先设置的域名黑名单中的域名;或者,对URL中含有预定域名的网络数据进行保留;对来源版块为预定版块的网络数据进行删除,其中,预定版块为预先设置的版块黑名单中的版块;或者,对来源版块为预定版块的网络数据进行保留;对来源不符合规定的网络数据进行删除,其中,来源包括论坛、博客、或者全部帖子;对回复数不符规定的网络数据进行删除;对浏览数不符合规定的网络数据进行删除;对作者不符合规定的网络数据进行删除;以及对网络数据进行消重处理。可选地,采用分词技术分别从各类别下过滤后的网络数据中提取中心词之前,上述方法还包括根据预先设置的前缀词库对文本标题进行前缀过滤。可选地,采用分词技术分别从各类别下过滤后的网络数据中提取中心词进一歩包括采用分词技术分别对各类别下过滤后的文本标题进行分词,获取分词结果,并将分词结果作为中心词。可选地,对从同一网络数据中提取的中心词进行排序之前,方法还包括根据预先 设置的常用词库对提取的中心词中的常用词进行过滤。可选地,将同一网络数据的排序后的中心词进行组合进一歩包括根据将属于同ー个文本标题的排序后的中心词进行组合,其中,η为属于同ー个文本标题的中心词的总个数,:且 2く1*く 5。可选地,将同一网络数据的排序后的中心词进行组合,获得各类别下的各个网路数据的中心词组之后,上述方法还包括根据预先设置的垃圾词库对中心词组中的垃圾词组进行过滤。可选地,统计中心词组在所属类别下的出现次数,分别获取各类别下的网络热点词组进一歩包括统计中心词组在所属类别下不同文本标题中的出现次数,将出现次数大于预定阈值的中心词组按照预定顺序进行排列,分别获取各类别下的网络热点词组。可选地,分别获取各类别下的网络热点词组之后,上述方法还包括对同一类别下相同的网络热点词组进行合并;计算各类别下的网络热点词组所对应的热度值;搜索各类别下网络热点词组所对应的热点事件的链接。可选地,进行分类展示进ー步包括向用户展示热点报告,其中,热点报告包括网络热点词组的所属类别、预定时间段内各类别下的网络热点词组、各类别下的网络热点词组所对应的热度值、以及各类别下网络热点词组所对应的热点事件的链接,预定时间段包括以下至少之ー每小时、毎日、每周、以及每月。本发明还提供了一种网络热点挖掘装置,包括分类存储模块,适于采集网络数据,对网络数据进行分类和分类存储;过滤提取模块,适于根据预先设置的过滤规则分别对各类别下的网络数据进行过滤,并从各类别下过滤后的网络数据中提取中心词;排序组合模块,适于对从同一网络数据中提取的中心词进行排序,并将同一网络数据的排序后的中心词进行组合,获得各类别下的各个网路数据的中心词组;热点统计模块,适于统计中心词组在所属类别下的出现次数,分别获取各类别下的网络热点词组并进行分类展示。可选地,网络数据还包括文本标题、与文本标题相对应的文章内容、以及与文本标题相对应的文本属性。可选地,文本属性进ー步包括以下至少之ー文本对应的统ー资源定位符URL、文本的来源论坛/博客、文本的来源版块、文本的发布时间、文本作者、文本的回复数、以及文本的浏览数。可选地,分类存储模块进一步适于利用文本自动分类技术根据文章内容对网络数据进行文本分类,获取与网络数据对应的分类标签,并将对应的文本标题、对应的分类标签、以及对应的文本属性存储到引擎中;每隔预定时间对引擎进行一次网络数据采集,并按照分类标签将采集到的网络数据分类存放于指定服务器的不同XML文件中。可选地,过滤规则进一歩包括以下至少之ー对文本标题不符合预定字数的网络数据进行删除;对发布时间不符合规定的网络数据进行删除JiURL中含有预定域名的网络数据进行删除,其中,预定域名为预先设置的域名黑名单中的域名;或者,对URL中含有预定域名的网络数据进行保留;对来源版块为预定版块的网络数据进行删除,其中,预定版块为预先设置的版块黑名单中的版块;或者,对来源版块为预定版块的网络数据进行保留;对来源不符合规定的网络数据进行删除,其中,来源包括论坛、博客、或者全部帖子;对回复数不符规定的网络数据进行删除;对浏览数不符合规定的网络数据进行删除;对作者不符合规定的网络数据进行删除;以及对网络数据进行消重处理。
可选地,过滤提取模块进一步适于采用分词技术分别从各类别下过滤后的网络数据中提取中心词之前,根据预先设置的前缀词库对文本标题进行前缀过滤。可选地,过滤提取模块进一步适于采用分词技术分别对各类别下过滤后的文本标题进行分词,获取分词结果,并将分词结果作为中心词。可选地,排序组合模块进一步适于对从同一网络数据中提取的中心词进行排序之前,根据预先设置的常用词库对提取的中心词中的常用词进行过滤。可选地,排序组合模块进一步适于根据C〗将属于同一个文本标题的排序后的中心词进行组合,其中,η为属于同一个文本标题的中心词的总个数,!■彡η且2彡!■彡5。可选地,排序组合模块进一步适于将同一网络数据的排序后的中心词进行组合,获得各类别下的各个网路数据的中心词组之后,根据预先设置的垃圾词库对中心词组中的垃圾词组进行过滤。可选地,热点统计模块进ー步适于统计中心词组在所属类别下不同文本标题中的出现次数,将出现次数大于预定阈值的中心词组按照预定顺序进行排列,分别获取各类别下的网络热点词组。可选地,热点统计模块进ー步适于对同一类别下相同的网络热点词组进行合并;计算各类别下的网络热点词组所对应的热度值;捜索各类别下网络热点词组所对应的热点事件的链接。可选地,热点统计模块进ー步适于向用户展示热点报告,其中,热点报告包括网络热点词组的所属类别、预定时间段内各类别下的网络热点词组、各类别下的网络热点词组所对应的热度值、以及各类别下网络热点词组所对应的热点事件的链接,预定时间段包括以下至少之ー每小时、毎日、每周、以及每月。本发明有益效果如下通过利用热词计算原理实现热点挖掘,并将文本分类技术与热点挖掘技术相结合,解决了现有技术中网络热点挖掘结果不宏观、不能分领域反映针对此领域的热点情況、以及重复性大、可读性差的问题;能够更加宏观的挖掘网络热点,反映宏观上对某ー网民关注点的热度情况,使挖掘结果更能反映互联网舆论的客观事实,更容易归并重复出现的相同内容文章,并且能够更有针对性的反映某ー领域的热点。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式



通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的參考符号表示相同的部件。在附图中图I是本发明实施例的网络热点挖掘方法的流程图;图2是本发明实施例的过滤规则的示意图; 图3是本发明实施例的网络热点挖掘方法的详细处理示意图;图4是本发明实施例的网络热点挖掘装置的结构示意图。
具体实施例方式下面将參照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为了解决现有技术中网络热点挖掘结果不宏观、不能分领域反映针对此领域的热点情况、以及重复性大、可读性差的问题,本发明提供了一种网络热点挖掘方法及装置,本发明实施例的网络热点挖掘方法及装置采用文本自动分类技术、以及热词计算技术实现。以下结合附图以及实施例,对本发明进行进一歩详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。根据本发明的实施例,提供了一种网络热点挖掘方法,图I是本发明实施例的网络热点挖掘方法的流程图,如图I所示,根据本发明实施例的网络热点挖掘方法包括如下处理步骤101,采集网络数据,对网络数据进行分类和分类存储;其中,步骤101中所述的网络数据具体包括文本标题、与文本标题相对应的文章内容、以及与文本标题相对应的文本属性。其中,文本属性具体包括以下至少之ー文本对应的统一资源定位符(Uniform/Universal Resource Locator,简称为URL)、文本的来源论坛/博客、文本的来源版块、文本的发布时间、文本作者、文本的回复数、以及文本的浏览数。在步骤101中,对网络数据进行分类和分类存储具体包括步骤1,利用文本自动分类技术根据文章内容对网络数据进行文本分类,获取与网络数据对应的分类标签,并将对应的文本标题、对应的分类标签、以及对应的文本属性存储到引擎中;其中,文本自动分类技术是指利用机器学习的原理依靠小样本学习后的模型參数对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。
步骤2,每隔预定时间对引擎进行一次网络数据采集,并按照分类标签将采集到的网络数据分类存放于指定服务器的不同XML文件中。其中,预定时间可以为I小吋、6小吋、I天,在本发明实施例中,预定时间可以根据采集的数据特点(例如,更新速度)进行灵活设置。步骤102,根据预先设置的过滤规则分别对各类别下的网络数据进行过滤,井分别从各类别下过滤后的网络数据中提取中心词;优选地,图2是本发明实施例的过滤规则的示意图,如图2所示,在本发明实施例中,过滤规则具体包括以下至少之ー 1、对文本标题不符合预定字数的网络数据进行删除;
2、对发布时间不符合规定的网络数据进行删除;3、对URL中含有预定域名的网络数据进行删除,其中,预定域名为预先设置的域名黑名单中的域名;或者,对URL中含有预定域名的网络数据进行保留;4、对来源版块为预定版块的网络数据进行删除,其中,预定版块为预先 设置的版块黑名单中的版块;或者,对来源版块为预定版块的网络数据进行保留;5、对来源不符合规定的网络数据进行删除,其中,来源包括论坛、博客、或者全部帖子;6、对回复数不符规定的网络数据进行删除、对浏览数不符合规定的网络数据进行删除;8、对作者不符合规定的网络数据进行删除;9、对网络数据进行消重处理。需要说明的是,本发明实施例中的过滤规则并不限于上面列出的9个规则,在本发明实施例中,过滤规则可以根据需要进行设置,例如,将过滤规则设置为对文章的字数没有超过预定字数阈值的网络数据进行删等等。此外,在步骤102中,在提取中心词之前,为了更好地提取到需要的中心词,可以根据预先设置的前缀词库对文本标题进行前缀过滤,例如,将猫扑大学生基地、天涯杂谈等这类不需要的前缀进行过滤。这些前缀不參加中心词的提取。并且,在本发明实施例中,可以采用分词技术分别从各类别下过滤后的网络数据中提取中心词;具体地,可以采用分词技术分别对各类别下过滤后的文本标题进行分词,获取分词结果,并将分词结果作为中心词。需要说明的是,上述分词技术为现有技术中成熟的中心词提取技术,本发明实施例还可以使用其他技术进行中心词的提取。步骤103,对从同一网络数据中提取的中心词进行排序,并将同一网络数据的排序后的中心词进行组合,获得各类别下的各个网路数据的中心词组;步骤103是通过热词计算技术来实现的,热词计算技术是指自动对实时采集的网页文本进行分词、分组归并,计算高频热点关键词,并按照预定义的词库和预设规则进行过滤,输出实时互联网热点词汇。在步骤103中,对从同一网络数据中提取的中心词进行排序之前,可以根据预先设置的常用词库对提取的中心词中的常用词进行过滤,上述的常用词是指例如原创、转载、图组等词汇,需要将这些词汇过滤掉。并且,在步骤103中,进行中心词组合是指根据Q将属于同一个文本标题的排序后的中心词进行组合,其中,η为属于同一个文本标题的中心词的总个数,r < η且2彡r彡5。在执行了步骤103之后,在本发明实施例中,优选地,可以根据预先设置的垃圾词库对中心词组中的垃圾词组进行过滤。步骤104,统计中心词组在所属类别下的出现次数,分别获取各类别下的网络热点词组并进行分类展示。步骤104具体包括如下处理统计中心词组在所属类别下不同文本标题中的出现次数,将出现次数大于预定阈值的中心词组按照预定顺序进行排列,分别获取各类别下的网络热点词组。其中,上述预定顺序可以是按出现次数由多到少进行排列。在获取了各类别下的网络热点词组之后,可以对同一类别下相同的网络热点词组进行合并;计算各类别下的网络热点词组所对应的热度值;并搜索各类别下网络热点词组所对应的热点事件的链接。以为用户提供更全方面的热点信息。在步骤104中,分类展示是指向用户展示热点报告,其中,热点报告包括网络热点词组的所属类别、预定时间段内各类别下的网络热点词组、各类别下的网络热点词组所对应的热度值、以及各类别下网络热点词组所对应的热点事件的链接,预定时间段包括以下至少之ー每小时、毎日、每周、以及每月。下面结合附图,对本发明实施例的技术方案进行举例说明。
图3是本发明实施例的网络热点挖掘方法的详细处理示意图,如图3所示,根据本发明实施例的网络热点挖掘方法具体包括如下处理步骤301,利用自定义语料通过机器学习模块生成分类模型,通过分类模型对采集到的网络数据进行文本分类,并将分类标签连同文本属性一同存放入引擎中。步骤302,每小时对引擎进行一次数据采集,并将数据按分类存放于指定服务器的不同可扩展标记语言(Extensible Markup Language,简称为XML)文件中。步骤303,按以下过滤规则过滤数据,并将过滤后的数据保留到数据库中,其中,用户可以通过数据过滤规则管理后台对过滤规则进行管理。具体地,根据本发明实施例的过滤规则包括I、标题过滤将标题的字数在5-30个字之间的数据过滤进来;2、发帖时间过滤,将发帖时间是当天的帖子过滤进来;3、域名过滤(I)采取模糊匹配,可以将帖子的URL中有相应域名或单词的帖子过滤进来;或者,(2)按域名将30家时事论坛、20家汽车论坛、和帖子的URL中带auto的帖子过滤进来;或者,满足(I)、(2)这两种规则的都要过滤进来。4、版块过滤根据板块种子的URL进行过滤;也可以将版块名称带某个汉字的帖子过滤进来;例如,过滤出版块名称带娱乐或八卦字样的帖子;5、域名黑名单过滤对上面过滤出的结果进行删除操作,将某个ニ级域名或ニ级URL中带某个单词的帖子过滤掉;并在,在顶级域名为xinhuanet. com的结果中,将域名是120ask. xinhuanet. com 的过滤掉;6、版块黑名単对上面过滤出的结果进行删除操作,把某个种子或版块名中带某个单词的帖子过滤掉;并且,将版块名是新人报道的过滤掉;7、来源过滤将符合过滤来源的数据过滤进来,其中,过滤来源是指论坛、博客还是全部帖子;8、回复数点击数过滤将回复数在0-1000之内的数据过滤进来;将点击数在0-10000之内的数据过滤进来;9、消重处理根据帖子的URL进行消重,顶级域名相同的都算ー个帖子;10、过滤字段包括标题、URL、来源论坛、来源板块、发帖时间、作者、回复数、浏览数等。11、过滤逻辑顺序上述第3条过滤规则和第4条过滤规则是“或”的关系,其他过滤规则之间是“和”的关系。步骤304,对所有文本标题抽取中心词,一个标题可能有多个中心词,通过分词技术对标题进行分词,分词结果即为标题中心词。优选地,分词前先对标题进行前缀过滤,这些前缀不參与分词,例如,“猫扑大学生基地”、“天涯杂谈”等这类的前綴。其中,用户可以通过前缀管理后台对需要过滤的前缀进行管理;步骤305,热点词组计算 步骤1,将分词结果中的常用词(例如,“原创”、“转载”、“组图”等词汇)进行过滤;其中,用户可以通过常用词管理后台对需要过滤的常用词进行管理;步骤2,将过滤后的中心词进行词组排序(例如,一个标题抽出的中心词为bca,排序后变为abc);步骤3,将每个标题的中心词进行组合,每个标题的中心词G组合,组合公式Q2 +Cf+C +C,只保留2-5个词的词组;下面,结合实例对中心词进行词组排序组合进行举例说明。标题一抽出中心词b、a、c,排序后a、b、c,形成词组ab、be、ac、abc标题ニ抽出中心词C、b、d,排序后b、C、d,形成词组be、cd、bd、bed标题三抽出中心词b、c,形成词组be那么这三个标题形成的词组排行就是be (3)、ab (l)、ac (l)、cd (l)、bd (I)、abc (I)> bed (I)。步骤4,过滤垃圾词组,去掉如查询###中奖、###电话、###咨询、手机###中奖之
类的垃圾词组;其中,用户可以通过垃圾词组管理后台对需要过滤的垃圾词组进行管理;步骤306,形成热点词组排行榜,统计每个热点词组背后的标题数量并按标题数量降序排列,保留标题数量2以上的词组,这个參数可根据实际数据做调整;综上所述,借助于本发明实施例的技术方案,通过利用热词计算原理实现热点挖掘,并将文本分类技术与热点挖掘技术相结合,解决了现有技术中网络热点挖掘结果不宏观、不能分领域反映针对此领域的热点情况、以及重复性大、可读性差的问题;能够更加宏观的挖掘网络热点,反映宏观上对某ー网民关注点的热度情况,使挖掘结果更能反映互联网舆论的客观事实,更容易归并重复出现的相同内容文章,并且能够更有针对性的反映某ー领域的热点。根据本发明的实施例,提供了一种网络热点挖掘装置,图4是本发明实施例的网络热点挖掘装置的结构示意图,如图4所示,根据本发明实施例的网络热点挖掘装置包括分类存储模块40、过滤提取模块42、排序组合模块44、以及热点统计模块46,以下对本发明实施例的各个模块进行详细的说明。分类存储模块40,适于采集网络数据,对网络数据进行分类和分类存储;其中,上述网络数据具体包括文本标题、与文本标题相对应的文章内容、以及与文本标题相对应的文本属性。其中,上述文本属性具体包括以下至少之ー文本对应的URL、文本的来源论坛/博客、文本的来源版块、文本的发布时间、文本作者、文本的回复数、以及文本的浏览数。
分类存储模块40具体适于1、利用文本自动分类技术根据文章内容对网络数据进行文本分类,获取与网络数据对应的分类标签,并将对应的文本标题、对应的分类标签、以及对应的文本属性存储到引擎中;其中,文本自动分类技术是指利用机器学习的原理依靠小样本学习后的模型參数对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。2、每隔预定时间对引擎进行一次网络数据采集,并按照分类标签将采集到的网络数据分类存放于指定服务器的不同XML文件中。其中,预定时间可以为I小吋、6小吋、I天,在本发明实施例中,预定时间可以根据采集的数据特点(例如,更新速度)进行灵活设置。过滤提取模块42,适于根据预先设置的过滤规则分别对各类别下的网络数据进行过滤,并从各类别下过滤后的网络数据中提取中心词;在本发明实施例中,图2是本发明实施例的过滤规则的示意图,如图2所示,过滤规则具体包括以下至少之ー 1、对文本标题不符合预定字数的网络数据进行删除;2、对发布时间不符合规定的网络数据进行删除;3、对URL中含有预定域名的网络数据进行删除,其中,预定域名为预先设置的域名黑名单中的域名;或者,对URL中含有预定域名的网络数 据进行保留;4、对来源版块为预定版块的网络数据进行删除,其中,预定版块为预先设置的版块黑名单中的版块;或者,对来源版块为预定版块的网络数据进行保留;5、对来源不符合规定的网络数据进行删除,其中,来源包括论坛、博客、或者全部帖子;6、对回复数不符规定的网络数据进行删除;7、对浏览数不符合规定的网络数据进行删除;8、对作者不符合规定的网络数据进行删除;9、对网络数据进行消重处理。需要说明的是,本发明实施例中的过滤规则并不限于上面列出的9个规则,在本发明实施例中,过滤规则可以根据需要进行设置,例如,将过滤规则设置为对文章的字数没有超过预定字数阈值的网络数据进行删等等。此外,在提取中心词之前,为了更好地提取到需要的中心词,过滤提取模块42进一步适于可以根据预先设置的前缀词库对文本标题进行前缀过滤,例如,将猫扑大学生基地、天涯杂谈等这类不需要的前缀进行过滤。这些前缀不參加中心词的提取。并且,在本发明实施例中,过滤提取模块42可以采用分词技术分别从各类别下过滤后的网络数据中提取中心词;具体地,过滤提取模块42可以采用分词技术分别对各类别下过滤后的文本标题进行分词,获取分词结果,并将分词结果作为中心词。需要说明的是,上述分词技术为现有技术中成熟的中心词提取技术,本发明实施例还可以使用其他技术进行中心词的提取。排序组合模块44,适于对从同一网络数据中提取的中心词进行排序,并将同一网络数据的排序后的中心词进行组合,获得各类别下的各个网路数据的中心词组;排序组合模块44是通过热词计算技术来实现的上述处理的,热词计算技术是指自动对实时采集的网页文本进行分词、分组归并,计算高频热点关键词,并按照预定义的词库和预设规则进行过滤,输出实时互联网热点词汇。对从同一网络数据中提取的中心词进行排序之前,排序组合模块44可以根据预先设置的常用词库对提取的中心词中的常用词进行过滤。上述的常用词是指例如原创、转载、图组等词汇,需要将这些词汇过滤掉。排序组合模块44进行中心词组合是指排序组合模块44根据q·将属于同一个文本标题的排序后的中心词进行组合,其中,η为属于同一个文本标题的中心词的总个数,r<n 且 2<r<5。优选地,在将同一网络数据的排序后的中心词进行组合,获得各类别下的各个网路数据的中心词组之后,排序组合模块44进ー步适于根据预先设置的垃圾词库对中心词组中的垃圾词组进行过滤。热点统计模块46,适于统计中心词组在所属类别下的出现次数,分别获取各类别下的网络热点词组并进行分类展示。热点统计模块46具体适于统计中心词组在所属类别下不同文本标题中的出现次数,将出现次数大于预定阈值的中心词组按照预定顺序进行排列,分别获取各类别下的网络热点词组。在获取了各类别下的网络热点词组之后,热点统计模块46进ー步适于对同一类别下相同的网络热点词组进行合并;计算各类别下的网络热点词组所对应的热度值;搜索各类别下网络热点词组所对应的热点事件的链接。
热点统计模块46分类展示是指向用户展示热点报告,其中,热点报告包括网络热点词组的所属类别、预定时间段内各类别下的网络热点词组、各类别下的网络热点词组所对应的热度值、以及各类别下网络热点词组所对应的热点事件的链接,预定时间段包括以下至少之ー每小时、毎日、每周、以及每月。下面结合附图,对本发明实施例的技术方案进行举例说明。图3是本发明实施例的网络热点挖掘方法的详细处理示意图,如图3所示,根据本发明实施例的网络热点挖掘方法具体包括如下处理步骤301,利用自定义语料通过机器学习模块生成分类模型,分类存储模块40通过分类模型对采集到的网络数据进行文本分类,并将分类标签连同文本属性一同存放入引擎中。步骤302,分类存储模块40每小时对引擎进行一次数据采集,并将数据按分类存放于指定服务器的不同可扩展标记语言(Extensible Markup Language,简称为XML)文件中。步骤303,过滤提取模块42按以下过滤规则过滤数据,并将过滤后的数据保留到数据库中,其中,用户可以通过数据过滤规则管理后台对过滤规则进行管理。具体地,图3是本发明实施例的过滤规则的优选示意图,如图3所示,根据本发明实施例的过滤规则包括I、标题过滤将标题的字数在5-30个字之间的数据过滤进来;2、发帖时间过滤,将发帖时间是当天的帖子过滤进来;3、域名过滤(I)采取模糊匹配,可以将帖子的URL中有相应域名或单词的帖子过滤进来;或者,(2)按域名将30家时事论坛、20家汽车论坛、和帖子的URL中带auto的帖子过滤进来;或者,满足(I)、(2)这两种规则的都要过滤进来。4、版块过滤根据板块种子的URL进行过滤;也可以将版块名称带某个汉字的帖子过滤进来;例如,过滤出版块名称带娱乐或八卦字样的帖子;5、域名黑名单过滤对上面过滤出的结果进行删除操作,将某个ニ级域名或ニ级URL中带某个单词的帖子过滤掉;并在,在顶级域名为xinhuanet. com的结果中,将域名是120ask. xinhuanet. com 的过滤掉;
6、版块黑名単对上面过滤出的结果进行删除操作,把某个种子或版块名中带某个单词的帖子过滤掉;并且,将版块名是新人报道的过滤掉;7、来源过滤将符合过滤来源的数据过滤进来,其中,过滤来源是指论坛、博客还是全部帖子;8、回复数点击数过滤将回复数在0-1000之内的数据过滤进来;将点击数在0-10000之内的数据过滤进来;9、消重处理根据帖子的URL进行消重,顶级域名相同的都算ー个帖子;10、过滤字段包括标题、URL、来源论坛、来源板块、发帖时间、作者、回复数、浏览数等。
11、过滤逻辑顺序上述第3条过滤规则和第4条过滤规则是“或”的关系,其他过滤规则之间是“和”的关系。步骤304,过滤提取模块42对所有文本标题抽取中心词,一个标题可能有多个中心词,通过分词技术对标题进行分词,分词结果即为标题中心词。优选地,分词前先对标题进行前缀过滤,这些前缀不參与分词,例如,“猫扑大学生基地”、“天涯杂谈”等这类的前綴。其中,用户可以通过前缀管理后台对需要过滤的前缀进行管理;步骤305,排序组合模块44进行热点词组计算步骤1,将分词结果中的常用词(例如,“原创”、“转载”、“组图”等词汇)进行过滤;其中,用户可以通过常用词管理后台对需要过滤的常用词进行管理;步骤2,将过滤后的中心词进行词组排序(例如,一个标题抽出的中心词为bca,排序后变为abc);步骤3,将每个标题的中心词进行组合,每个标题的中心词C组合,组合公式Cl +Cl+C4n+C-l,只保留2-5个词的词组;下面,结合实例对中心词进行词组排序组合进行举例说明。标题一抽出中心词b、a、c,排序后a、b、c,形成词组ab、be、ac、abc标题ニ抽出中心词C、b、d,排序后b、C、d,形成词组be、cd、bd、bed标题三抽出中心词b、c,形成词组be那么这三个标题形成的词组排行就是be (3)、ab (l)、ac (l)、cd (l)、bd (I)、abc (I)> bed (I)。步骤4,过滤垃圾词组,去掉如查询###中奖、###电话、###咨询、手机###中奖之
类的垃圾词组;其中,用户可以通过垃圾词组管理后台对需要过滤的垃圾词组进行管理;步骤306,热点统计模块46形成热点词组排行榜,统计每个热点词组背后的标题数量并按标题数量降序排列,保留标题数量2以上的词组,这个參数可根据实际数据做调整;综上所述,借助于本发明实施例的技术方案,通过利用热词计算原理实现热点挖掘,并将文本分类技术与热点挖掘技术相结合,解决了现有技术中网络热点挖掘结果不宏观、不能分领域反映针对此领域的热点情况、以及重复性大、可读性差的问题;能够更加宏观的挖掘网络热点,反映宏观上对某ー网民关注点的热度情况,使挖掘结果更能反映互联网舆论的客观事实,更容易归并重复出现的相同内容文章,并且能够更有针对性的反映某ー领域的热点。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技木,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的ー个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式
的权利要求书由此明确地并入该具体实施方式
,其中每个权利要求本身都作为本发明的单独实施例。 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成ー个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者単元中的至少ー些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或単元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。本发明的各个部件实施例可以以硬件实现,或者以在ー个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网络热点挖掘装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有ー个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何參考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“ー个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为 名称。
权利要求
1.一种网络热点挖掘装置,其特征在于,包括 分类存储模块,适于采集网络数据,对所述网络数据进行分类和分类存储; 过滤提取模块,适于根据预先设置的过滤规则分别对各类别下的网络数据进行过滤,并从各类别下过滤后的网络数据中提取中心词; 排序组合模块,适于对从同一网络数据中提取的所述中心词进行排序,并将同一网络数据的排序后的中心词进行组合,获得各类别下的各个网路数据的中心词组; 热点统计模块,适于统计所述中心词组在所属类别下的出现次数,分别获取各类别下的网络热点词组并进行分类展示。
2.如权利要求I所述的装置,其特征在于,所述网络数据进一歩包括文本标题、与所述文本标题相对应的文章内容、以及与所述文本标题相对应的文本属性。
3.如权利要求I或2所述的装置,其特征在于,所述文本属性进ー步包括以下至少之一文本对应的统ー资源定位符URL、文本的来源论坛/博客、文本的来源版块、文本的发布时间、文本作者、文本的回复数、以及文本的浏览数。
4.如权利要求I至3中任一项所述的装置,其特征在于,所述分类存储模块进ー步适于 利用文本自动分类技术根据所述文章内容对所述网络数据进行文本分类,获取与所述网络数据对应的分类标签,并将对应的文本标题、对应的分类标签、以及对应的文本属性存储到引擎中; 每隔预定时间对所述引擎进行一次网络数据采集,并按照所述分类标签将采集到的网络数据分类存放于指定服务器的不同XML文件中。
5.如权利要求I至4中任一项所述的装置,其特征在于,所述过滤规则进一歩包括以下至少之ー 对文本标题不符合预定字数的网络数据进行删除; 对发布时间不符合规定的网络数据进行删除; 对URL中含有预定域名的网络数据进行删除,其中,所述预定域名为预先设置的域名黑名单中的域名;或者,对URL中含有预定域名的网络数据进行保留; 对来源版块为预定版块的网络数据进行删除,其中,所述预定版块为预先设置的版块黑名单中的版块;或者,对来源版块为预定版块的网络数据进行保留; 对来源不符合规定的网络数据进行删除,其中,所述来源包括论坛、博客、或者全部帖子; 对回复数不符规定的网络数据进行删除; 对浏览数不符合规定的网络数据进行删除; 对作者不符合规定的网络数据进行删除;以及 对网络数据进行消重处理。
6.如权利要求I至5中任一项所述的装置,其特征在于,所述过滤提取模块进ー步适于采用分词技术分别从各类别下过滤后的网络数据中提取中心词之前,根据预先设置的前缀词库对所述文本标题进行前缀过滤。
7.如权利要求I至6中任一项所述的装置,其特征在于,所述过滤提取模块进ー步适于采用分词技术分别对各类别下过滤后的文本标题进行分词,获取分词结果,并将所述分词结果作为所述中心词。
8.如权利要求I至7中任一项所述的装置,其特征在于,所述排序组合模块进ー步适干对从同一网络数据中提取的所述中心词进行排序之前,根据预先设置的常用词库对提取的所述中心词中的常用词进行过滤。
9.如权利要求I至8中任一项所述的装置,其特征在于,所述排序组合模块进ー步适于根据将属于同一个文本标题的排序后的中心词进行组合,其中,η为属于同一个文本标题的中心词的总个数,r≤η且2≤r<5。
10.如权利要求I至8中任一项所述的装置,其特征在于,所述排序组合模块进ー步适于将同一网络数据的排序后的中心词进行组合,获得各类别下的各个网路数据的中心词组之后,根据预先设置的垃圾词库对所述中心词组中的垃圾词组进行过滤。
11.如权利要求I至10中任一项所述的装置,其特征在于,所述热点统计模块进ー步适干统计所述中心词组在所属类别下不同文本标题中的出现次数,将所述出现次数大于预定阈值的中心词组按照预定顺序进行排列,分别获取各类别下的网络热点词组。
12.如权利要求I至11中任一项所述的装置,其特征在于,所述热点统计模块进ー步适于对同一类别下相同的网络热点词组进行合并;计算各类别下的网络热点词组所对应的热度值;搜索各类别下网络热点词组所对应的热点事件的链接。
13.如权利要求I至12中任一项所述的装置,其特征在于,所述热点统计模块进一歩适于向用户展示热点报告,其中,所述热点报告包括网络热点词组的所属类别、预定时间段内各类别下的网络热点词组、各类别下的网络热点词组所对应的热度值、以及各类别下网络热点词组所对应的热点事件的链接,所述预定时间段包括以下至少之ー每小时、每日、每周、以及每月。
14.一种网络热点挖掘方法,其特征在于,包括 采集网络数据,对所述网络数据进行分类和分类存储; 根据预先设置的过滤规则分别对各类别下的网络数据进行过滤,井分别从各类别下过滤后的网络数据中提取中心词; 对从同一网络数据中提取的所述中心词进行排序,并将同一网络数据的排序后的中心词进行组合,获得各类别下的各个网路数据的中心词组; 统计所述中心词组在所属类别下的出现次数,分别获取各类别下的网络热点词组并进行分类展示。
15.如权利要求14所述的方法,其特征在于,所述网络数据包括文本标题、与所述文本标题相对应的文章内容、以及与所述文本标题相对应的文本属性。
16.如权利要求14或15所述的方法,其特征在于,所述文本属性进ー步包括以下至少之一文本对应的统ー资源定位符URL、文本的来源论坛/博客、文本的来源版块、文本的发布时间、文本作者、文本的回复数、以及文本的浏览数。
17.如权利要求14至16中任一项所述的方法,其特征在于,对所述网络数据进行分类和分类存储进ー步包括 利用文本自动分类技术根据所述文章内容对所述网络数据进行文本分类,获取与所述网络数据对应的分类标签,并将对应的文本标题、对应的分类标签、以及对应的文本属性存储到引擎中;每隔预定时间对所述引擎进行一次网络数据采集,并按照所述分类标签将采集到的网络数据分类存放于指定服务器的不同XML文件中。
18.如权利要求14至17中任一项所述的方法,其特征在于,所述过滤规则进一歩包括以下至少之ー 对文本标题不符合预定字数的网络数据进行删除; 对发布时间不符合规定的网络数据进行删除; 对URL中含有预定域名的网络数据进行删除,其中,所述预定域名为预先设置的域名黑名单中的域名;或者,对URL中含有预定域名的网络数据进行保留; 对来源版块为预定版块的网络数据进行删除,其中,所述预定版块为预先设置的版块黑名单中的版块;或者,对来源版块为预定版块的网络数据进行保留;对来源不符合规定的网络数据进行删除,其中,所述来源包括论坛、博客、或者全部帖子; 对回复数不符规定的网络数据进行删除; 对浏览数不符合规定的网络数据进行删除; 对作者不符合规定的网络数据进行删除;以及 对网络数据进行消重处理。
19.如权利要求14至18中任一项所述的方法,其特征在于,所述分别从各类别下过滤后的网络数据中提取中心词之前,所述方法还包括 根据预先设置的前缀词库对所述文本标题进行前缀过滤。
20.如权利要求14至19中任一项所述的方法,其特征在于,分别从各类别下过滤后的网络数据中提取中心词进一歩包括 采用分词技术分别对各类别下过滤后的文本标题进行分词,获取分词结果,并将所述分词结果作为所述中心词。
21.如权利要求14至20中任一项所述的方法,其特征在于,对从同一网络数据中提取的所述中心词进行排序之前,所述方法还包括 根据预先设置的常用词库对提取的所述中心词中的常用词进行过滤。
22.如权利要求14至21中任一项所述的方法,其特征在于,将同一网络数据的排序后的中心词进行组合进ー步包括 根据将属于同ー个文本标题的排序后的中心词进行组合,其中,η为属于同一个文本标题的中心词的总个数,r彡η且2彡r<5。
23.如权利要去14至22中任一项所述的方法,其特征在于,所述将同一网络数据的排序后的中心词进行组合,获得各类别下的各个网路数据的中心词组之后,所述方法还包括 根据预先设置的垃圾词库对所述中心词组中的垃圾词组进行过滤。
24.如权利要求14至23中任一项所述的方法,其特征在于,统计所述中心词组在所属类别下的出现次数,分别获取各类别下的网络热点词组进一歩包括 统计所述中心词组在所属类别下不同文本标题中的出现次数,将所述出现次数大于预定阈值的中心词组按照预定顺序进行排列,分别获取各类别下的网络热点词组。
25.如权利要求14至24中任一项所述的方法,其特征在于,分别获取各类别下的网络热点词组之后,所述方法还包括 对同一类别下相同的网络热点词组进行合并; 计算各类别下的网络热点词组所对应的热度值; 捜索各类别下网络热点词组所对应的热点事件的链接。
26.如权利要求14至25中任一项所述的方法,其特征在于,所述进行分类展示进ー步包括 向用户展示热点报告,其中,所述热点报告包括网络热点词组的所属类别、预定时间段内各类别下的网络热点词组、各类别下的网络热点词组所对应的热度值、以及各类别下网络热点词组所对应的热点事件的链接,所述预定时间段包括以下至少之一每小时、每日、每周、以及每月。
全文摘要
本发明公开了一种网络热点挖掘方法及装置。该装置包括分类存储模块,适于采集网络数据,对网络数据进行分类和分类存储;过滤提取模块,适于根据预先设置的过滤规则分别对各类别下的网络数据进行过滤,并从各类别下过滤后的网络数据中提取中心词;排序组合模块,适于对从同一网络数据中提取的中心词进行排序,并将同一网络数据的排序后的中心词进行组合,获得各类别下的各个网路数据的中心词组;热点统计模块,适于统计中心词组在所属类别下的出现次数,分别获取各类别下的网络热点词组并进行分类展示。借助于本发明的技术方案,能够更宏观的挖掘网络热点,使挖掘结果更能反映互联网舆论的客观事实,能够更有针对性的反映某一领域的热点。
文档编号G06F17/30GK102831248SQ20121034682
公开日2012年12月19日 申请日期2012年9月18日 优先权日2012年9月18日
发明者林英杰, 马良, 陈强 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1