一种基于大数据的话题检测方法及装置的制作方法

文档序号:6400150阅读:167来源:国知局
专利名称:一种基于大数据的话题检测方法及装置的制作方法
技术领域
本发明涉及互联网信息处理技术领域,特别是涉及一种基于大数据的话题检测方法及装置。
背景技术
随着互联网的高速发展,网络上的信息越来越多元和丰富,与此同时,网络舆情的社会影响力不断增强,很多社会热点事件都是在网络中第一时间披露和传播,网络话题检测因而愈发显现出其重要价值。在互联网环境中,存在大量自然语言形式的网页文本,其类型包括新闻、博客、论坛帖子以及新兴的微博等,这些网页文本为发现热点话题提供了最基本的数据来源。美国国防部开展的TDT (话题检测与跟踪,Topic Detection and Tracking)项目最早展开了话题检测方面的研究,并取得了一定的进展。根据话题检测进行的时间,目前的话题检测方法可以分为回溯检测和在线检测两种。其中,回溯检测首先获取全部的网页,然后对获取的网页文本利用传统的文本聚类算法进行聚类,以发现其中包含的话题;在线检测则以在线的形式从实时获取到的网页文本流中标识新话题的开始位置,并将新话题加入到已有的话题中去。上述两种话题检测方法各有其优劣。其中,回溯检测方法的优势在于可以选择一些效果较佳的文本挖掘算法对收集到的网页数据进行离线处理,故能够得到较为优化的结果,但由于其以离线的方式处理网页数据,故其最大的缺点是时效性差;在线检测方法目前受到越来越多的关注,其能满足热点话题实时检测的需求,但由于受到处理时间的约束,其所使用的算法一般比较简单,故跟回溯检测方法相比检测效果还存在一定差距。总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够解决在互联网环境中大量网页文本快速更新的情况下,话题检测面临的检测效果准确性与时效性的尖锐矛盾。

发明内容
本发明所要解决的技术问题是提供一种基于大数据的话题检测方法及装置,能够在互联网环境中大量网页文本快速更新的情况下,同时保证检测效果的准确性和时效性。为了解决上述问题,本发明公开了一种基于大数据的话题检测方法,包括:依据用户网络行为数据抽取热点网页;采集所述热点网页的内容;依据所述热点网页的内容,提取得到所述热点网页的网页特征向量;依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类;以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页包括在线网页;
针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。可选的,所述用户网络行为数据包括用户访问行为数据和用户搜索行为数据中的一项或多项;则所述依据用户网络行为数据抽取热点网页的步骤,包括:依据所述用户访问行为数据,获取用户访问量或用户访问频率符合第一预置条件的网页,作为热点网页;和/或,依据所述用户搜索行为数据,获取用户搜索量或用户搜索频率符合第二预置条件的关键词所关联的网页,作为热点网页。可选的,所述针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类的步骤,包括:当增量聚类后的某潜在热点话题类对应的用户关注度参数的加权处理结果与增量聚类后的所有潜在热点话题类对应的用户关注度参数的加权处理结果的比值大于第一阈值时,判定该潜在热点话题类为热点话题类。可选的,所述以所述潜在热点话题类作为种子类,对新增网页进行增量聚类的步骤,包括:计算新增网页的网页特征向量与各潜在热点话题类的质心向量的相似度;在某新增网页的网页特征向量与某潜在热点话题类的质心向量的相似度大于等于第一相似度阈值时,将该新增网页加入至该潜在热点话题类。可选的,所述潜在热点话题类的质心向量为对潜在热点话题类所包括的热点网页的网页特征向量进行加权处理得到,其中,某热点网页的网页特征向量的权重为依据该热点网页的用户访问量与该热点网页所属潜在热点话题类中所有热点网页的总用户访问量的比率确定。可选的,还包括:针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数在以往时段内的变化,预测其是否为下一时段的热点话题类。可选的,还包括:对所判定或预测的热点话题类进行提示,相应的提示内容包括:相应热点话题类的描述关键词。可选的,所述描述关键词包括:相应热点话题类的所有网页的中共现度最高的若干个特征词。可选的,所述用户关注度参数包括网页文档数量和用户网络行为数量。相应的,本发明还公开了一种基于大数据的话题检测装置,包括:抽取模块,用于依据用户网络行为数据抽取热点网页;采集模块,用于采集所述热点网页的内容;提取模块,用于依据所述热点网页的内容,提取得到所述热点网页的网页特征向量;聚类模块,用于依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类;增量聚类模块,用于以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页包括在线网页;及判定模块,用于针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。与现有技术相比,本发明实施例具有以下优点:本发明实施例的检测流程所使用的数据既可以包括热点网页这样的历史网页数据,又可以包括在线网页数据,故本发明实施例可以同时具备回溯检测与在线检测各自的优点,既具备回溯检测的效果,又具备在线检测的时效性;另外,由于本发明实施例检测所使用的热点网页为依据用户网络行为数据抽取得到,其数据量不大,故能够保证检测效率;因此,本发明实施例能够在互联网环境中大量网页文本快速更新的情况下,同时保证检测效果的准确性、时效性和高效性。


图1是本发明实施例一种基于大数据的话题检测方法实施例的流程图;图2是本发明实施例一种基于大数据的话题检测装置实施例的结构图。
具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯,其经常用于社会情绪统计领域如社会舆情中或者民意统计,用以发现热点话题。其中,热点话题往往是受到众多用户关注的话题,即用户关注度高的话题,其产生与广大用户的关注是密不可分的,因此,用户行为在热点话题的检测过程中有着重要的作用。用户网络行为主要包括用户访问行为和用户搜索行为。其中,用户访问行为能够体现用户的行为习惯或个人兴趣,而从全局上看,多个用户的访问行为则能够体现出用户对某些或类网页的关注度。而用户搜索行为是用户在搜索引擎中输入关键字进行搜索的动作,它能够准确表达用户的意图,且用户搜索行为后往往将对搜索结果中页面产生访问行为。在一次搜索和关联的页面访问行为中,用户的搜索关键词可以用于对所访问页面的主题特征描述,故从全局上看,多个用户的搜索行为也能够体现用户对某些关键词的关注。因此,本发明实施例以用户网络行为数据作为话题检测的重要依据,对应的检测流程具体可以包括:首先依据用户网络行为数据抽取热点网页(所述热点网页可用于表示用户关注度高的网页),然后对这些热点网页进行聚类,得到相应的潜在热点话题类(所述潜在热点话题类可能具有热点性),并且以所述潜在热点话题类作为种子类,对新增网页进行增量聚类,最后针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。由于所述新增网页既可以包括历史网页也可以包括在线网页,可见,本发明实施例的检测流程所使用的数据既可以包括热点网页这样的历史网页数据,又可以包括在线网页数据,故本发明实施例可以同时具备回溯检测与在线检测各自的优点,既具备回溯检测的效果,又具备在线检测的时效性;另外,由于本发明实施例检测所使用的热点网页为依据用户网络行为数据抽取得到,其数据量不大,故能够保证检测效率;因此,本发明实施例能够在互联网环境中大量网页文本快速更新的情况下,同时保证检测效果的准确性、时效性和高效性。参照图1,示出了本发明实施例一种基于大数据的话题检测方法实施例的流程图,具体可以包括:步骤101、依据用户网络行为数据抽取热点网页;本技术领域中,用户网络行为数据可用于表征用户网络行为的主要数据,其可以来自运营商或网站的网络服务器中的日志文件集,这些日志文件集即可视为本文所述的大数据。这些日志文件集包含了运营商用户或网站用户的HTTP(超文本传输协议,Hypertexttransfer protocol)事务的执行记录,可以通过利用类似于网络数据包嗅探技术的这种技术从日志文件集中获取用于表征用户网络行为的数据。具体而言,日志文件集中的用户行为数据主要包含用户搜索行为数据和用户访问行为数据。其中,所述用户搜索行为数据记录有用户的搜索关键词和相应的搜索结果页面,所述用户访问行为数据记录有用户的访问页面,所述搜索结果页面和访问页面通常以URL(统一资源定位符,Uniform Resource Locator)的形式记录。具体的,有些运营商或网站的用户访问行为数据还会记录有用户物理地址和搜索跳转信息,有些运营商或网站的用户搜索行为数据还会记录有用户物理地址和搜索结果页面中网页的超链接信息;这里,用户物理地址主要可以包括用户IP ((网络之间互连的协议,Internet Protocol)地址,搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,还会记录有搜索结果页面的信息(如页面地址等)。在本发明的一种优选实施例中,所述用户网络行为数据具体可以包括用户访问行为数据和用户搜索行为数据中的一项或多项;则所述依据用户网络行为数据抽取热点网页的步骤,具体可以包括:子步骤S111、依据所述用户访问行为数据,获取用户访问量或用户访问频率符合第一预置条件的网页,作为热点网页;和/或子步骤S112、依据所述用户搜索行为数据,获取用户搜索量或用户搜索频率符合第二预置条件的关键词所关联的网页,作为热点网页。其中,所述第一预置条件可以为用户访问量或用户访问频率排在前Kl位,所述第二预置条件可以为用户搜索量或用户搜索频率排在前K2位;本领域技术人员可以依据实际需求预置所述Kl和K2,本发明实施例对具体的Kl和K2的数值不加以限制。在本发明实施例的一种应用示例中,用户访问行为数据可以表示
为:< (timel, urll), (time2, url2),..., (timen, urln) >,其中 time 1......timen 和
urll......urln分别表示访问的时间及URL ;在实际应用中,通过对大量用户访问行为
数据的分析,可以得到排名前Kl的网页URL,可表示为(ti,〈(urll, visitorsl),….,(urlkl, visitorskl) 。用户搜索行为数据可以表示为:〈(timel,sel, keywordl), (time2, se2, keywo
rd2)…(timen, sen, keywordn) >,其中,timel......timen 表不搜索时间,sel......sen 表
示使用的搜索引擎,keywordl......keywordn表示搜索关键词;通过对大量用户搜索行
为数据的分析,可以得到排名前K2的搜索关键词,可表示为ti, < (keywordsI, numl),…,(keywordsk2, numk2) 。上述参数中,ti表示指定时间段,urll和visitorl分别表示urll及其访问量,keywords I和numl分别表示搜索关键词及其搜索量。
在获得Top K2搜索关键词的基础上,可以进一步分析获得各个Top K2搜索关键词关联的网页 URL,可以表示为(keywords, < (urll, visitorsl),…,(urlk, visitk) 。步骤102、采集所述热点网页的内容;在实际应用中,可以采用网络爬虫等技术采集所述热点网页的内容,本发明实施例对具体的采集方法不加以限制。步骤103、依据所述热点网页的内容,提取得到所述热点网页的网页特征向量;在本发明的一种应用示例中,所述依据所述热点网页的内容,提取得到所述热点网页的网页特征向量的步骤,具体可以包括:子步骤S131、依据采集到的内容,提取所述热点网页的网页内容特征;子步骤S131可以对采集到的网页内容进行解析,获取网页标题、网页正文、网页描述等特征信息。子步骤S132、依据所述网页内容特征构建所述热点网页的网页特征向量。子步骤S132可以根据网页内容特征的获取初步结果,进行分词和词性标注等工作,进行停用词过滤等处理,处理后的内容词汇集合可以作为构建网页特征向量的依据。在本发明的一种优选实施例中,可以采用VSM型(向量空间模,Vector SpaceModel)作为文本特征表不,VSM将文档表不成一个向量,向量的每一维表不一个特征词;其具体可通过TF*IDF (词频-逆向文件频率,term frequency -1nverse documentfrequency)来定义特征词的权重:Wi = tfsjX log(N/rij) (I)
其中,wi表示词项ti的权重,tfsi表示词项ti在当前网页中的重要程度,N表示所述热点网页对应背景语料库所包括的网页文档数量,ni表示背景语料库中包含ti的网页文档数量。在本发明的一种优选实施例中,可以分别考虑词项ti在网页标题、网页内容和网页表述中出现的次数,并按重要性求加权和,以得到tfsi,相应的计算公式如下:tfsj = Pi X a +Ini X β +Ci X Y (2)其中,pi, mi, ci分别表示词项ti在网页标题、网页内容和网页表述中中出现的次数,α,β,Y则分别表示各自的权重。为降低特征维数,简化计算,以及防止过拟合等现象,在本发明的一种优选实施例中,可以按照权重值的大小对某热点网页的词项ti进行排序,并选取权重值大于指定阈值w的词项ti作为特征词,某热点网页的所有特征词构成相应的网页特征向量。其中的指定阈值W可由本领域技术人员依据实际需求预置,本发明实施例对具体的指定阈值W不加以限制。需要说明的是,上述VSM只是作为本发明一种构建所述热点网页的网页特征向量的优选实施例,并不作为本发明实施例的应用限制。步骤104、依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类;用户关注度高是热点话题的一个重要特征,因此,本发明实施例通过聚类获取用户关注度高的潜在热点话题类。需要说明的是,所述潜在热点话题类可能具有热点性,也可能不具有热点性,需要在后续的检测流程中进一步判定。聚类的可以描述为:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。传统的聚类方法具体可以包括:划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法、传递闭包法、布尔矩阵法、直接聚类法、相关性分析聚类法和基于统计的聚类方法等等。在本发明的一种优选实施例中,可以采用划分方法中的K均值(K-Means)聚类方法,K均值聚类的基本思想为:接受输入量K;然后将η个数据对象划分为K个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。在本发明的一种应用示例中,K均值聚类的实现过程具体可以包括:首先从所有热点网页中选择K个作为K个初始聚类的中心;对于其它热点网页,则根据它们与初始聚类的中心的相似度,分别将它们分配给其最相近的初始聚类;然后再重新计算每个新聚类的聚类中心(相应聚类中所有热点网页的均值);不断重复这一过程直到标准测度函数(例如均方差)开始收敛为止。在具体实现中,K值可由本领域技术人员依据实际需要进行设置;可利用VSM计算某热点网页Dl与某聚类的中心D2的相似度sim(Dl,D2),当该相似度大于某一相似度阈值时,可将该热点网页分配给该聚类,本发明实施例对具体的该相似度阈值不加以限制。,在本发明的一种应用示例中,sim(Dl,D2)可以表示为:
权利要求
1.一种基于大数据的话题检测方法,其特征在于,包括: 依据用户网络行为数据抽取热点网页; 采集所述热点网页的内容; 依据所述热点网页的内容,提取得到所述热点网页的网页特征向量; 依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类; 以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页包括在线网页; 针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。
2.如权利要求1所述的方法,其特征在于,所述用户网络行为数据包括用户访问行为数据和用户搜索行为数据中的一项或多项; 则所述依据用户网络行为数据抽取热点网页的步骤,包括: 依据所述用户访问行为数据,获取用户访问量或用户访问频率符合第一预置条件的网页,作为热点网页;和/或 依据所述用户搜索行为数据,获取用户搜索量或用户搜索频率符合第二预置条件的关键词所关联的网页,作为热点网页。
3.如权利要求1所述的方法,其特征在于,所述针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类的步骤,包括: 当增量聚类后的某潜在热点话题类对应的用户关注度参数的加权处理结果与增量聚类后的所有潜在热点话题类对应的用户关注度参数的加权处理结果的比值大于第一阈值时,判定该潜在热点话题类为热点话题类。
4.如权利要求1所述的方法,其特征在于,所述以所述潜在热点话题类作为种子类,对新增网页进行增量聚类的步骤,包括: 计算新增网页的网页特征向量与各潜在热点话题类的质心向量的相似度; 在某新增网页的网页特征向量与某潜在热点话题类的质心向量的相似度大于等于第一相似度阈值时,将该新增网页加入至该潜在热点话题类。
5.如权利要求4所述的方法,其特征在于,所述潜在热点话题类的质心向量为对潜在热点话题类所包括的热点网页的网页特征向量进行加权处理得到,其中,某热点网页的网页特征向量的权重为依据该热点网页的用户访问量与该热点网页所属潜在热点话题类中所有热点网页的总用户访问量的比率确定。
6.如权利要求1所述的方法,其特征在于,还包括: 针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数在以往时段内的变化,预测其是否为下一时段的热点话题类。
7.如权利要求1至6中任一项所述的方法,其特征在于,还包括: 对所判定或预测的热点话题类进行提示,相应的提示内容包括:相应热点话题类的描述关键词。
8.如权利要求7所述的方法,其特征在于,所述描述关键词包括:相应热点话题类的所有网页的中共现度最高的若干个特征词。
9.如权利要求1至6中任一项所述的方法,其特征在于,所述用户关注度参数包括网页文档数量和用户网络行为数量。
10.一种基于大数据的话题检测装置,其特征在于,包括: 抽取模块,用于依据用户网络行为数据抽取热点网页; 采集模块,用于采集所述热点网页的内容; 提取模块,用于依据所述热点网页的内容,提取得到所述热点网页的网页特征向量; 聚类模块,用于依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类; 增量聚类模块,用于以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页包括在线 网页;及 判定模块,用于针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。
全文摘要
本发明提供了一种基于大数据的话题检测方法及装置,能够在互联网环境中大量网页文本快速更新的情况下,同时保证检测效果的准确性和时效性。所述的方法包括依据用户网络行为数据抽取热点网页;采集所述热点网页的内容;依据所述热点网页的内容,提取得到所述热点网页的网页特征向量;依据所述热点网页的网页特征向量对所述热点网页进行聚类,得到相应的潜在热点话题类;以所述潜在热点话题类作为种子类,对新增网页进行增量聚类;所述新增网页包括在线网页;针对增量聚类后的潜在热点话题类,通过分析其对应的用户关注度参数,判定其是否为热点话题类。
文档编号G06F17/30GK103177090SQ201310075129
公开日2013年6月26日 申请日期2013年3月8日 优先权日2013年3月8日
发明者罗峰, 黄苏支, 李娜 申请人:亿赞普(北京)科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1