基于极大团发现的网络热点话题检测方法及装置的制作方法

文档序号:6433519阅读:108来源:国知局
专利名称:基于极大团发现的网络热点话题检测方法及装置的制作方法
技术领域
本发明涉及文本信息处理范畴中的网络信息分析与数据挖掘技术,尤其涉及一种基于极大团发现的热点话题检测方法及装置。
背景技术
互联网日渐成为舆情产生和传播的主要场所,很多人在网络上主动表达自己的观点和看法。由于网络本身具有虚拟性、隐藏性、渗透性和随意性等特点,使得网络舆情的社会影响力越来越大,甚至会影响国家重大决策。因此,各国政府与军队都高度关注网络舆情的研究,以便及时对热点、焦点与敏感话题做出反应。网络热点话题发现是网络舆论管理需要解决的首要问题,最早在该领域展开研究的是由美国国防部先进研究项目局支持的话题检测与跟踪(Topic detection and tracking,简称TDT)项目,该项目在话题检测方面致力于新事件检测以及事件跟踪方面的研究。互联网中的Web信息资源,如新闻网站、论坛、博客及微博,汇集了各类事件和新闻的报道和舆论评价,是热点话题检测的重要信息平台。随着TDT项目的研究进展,国内外关于话题发现的相应研究成果逐渐丰富起来。 热点话题检测本质上属于热点话题聚类。目前话题聚类的方法主要有两大类,一类是通过向量空间模型,计算各个新闻或帖子的距离,或潜在的主题模型进行聚类,另一类是直接通过统计词频产生热点词集合,再进行合理聚类,产生的不同热点词集合来表示不同的热点话题。第一类聚类方法在处理长文本时比较有效,但不能保证话题发现的实时性。由于互联网信息很多是短文本,包含的词很少,因此数据具有稀疏性。针对这类数据采用聚类方法效果不尽人意。第二类话题检测方法则是直接统计词或重复串的出现次数,用频繁词集合来表达热点话题,因此该类方法对文本长度不敏感,但查准率有待改善。此外,也有研究者提出了不同于以上两类方法的检测技术。例如,有人提出了采用拓扑势的方法进行热点话题聚类,通过评价结点的重要性来判别网络热点及演化趋势。 也有研究提出采用演化理论来研究热点话题聚类,首先通过增量单边聚类方法获得候选话题,然后使用演化理论计算话题热度,最后根据定义参数进行排序,得到BBS热点话题。这些方法对于长短不一的互联网信息,效果较差。

发明内容
针对现有技术存在的问题,本发明的目的是提供一种基于极大团发现的热点话题检测方法及装置。为达到上述目的,本发明提出的基于极大团发现的网络热点话题检测方法包括下列步骤数据采集步骤实时采集网络新闻网站、论坛、博客、微博数据;
热点词对集合构建步骤对采集的数据进行分词、词频统计等处理,发现所有的热点词对,构建热点词对集合;热点词编号步骤将每个热点词用唯一的编号进行表示;极大团挖掘步骤将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团;热点话题表示步骤将每个极大团变换为一个词组合,代表一个热点话题。数据采集步骤中,实时采集网络数据包括新闻网站中每条新闻的标题、正文、发布时间;论坛中每条帖子的标题,正文、发布时间;博客中每篇博客文章的标题、正文、关键字和发布时间;微博中用户的每条博文内容和发布时间。采集步骤进一步包含以下子步骤 配置步骤,即设置进行采集的种子URL和每个种子匹配采集数据用的正则表达式;下载步骤,即通过http协议应用多线程并行采集种子URL对应的html网页;匹配步骤,对采集到的网页通过配置到正则表达式获得标题文本、正文文本、关键字、发布时间等数据,构成结构化的数据;过滤步骤,删除先前已经采集过的数据,保存本时间段采集的数据,以供后续步骤使用;上述步骤完成后,等待设置的时间间隔后,重复下载步骤、匹配步骤和过滤步骤。热点词对集合构建步骤完成对采集的数据进行分词、词频统计等处理,进一步包含以下子步骤构建动词与名词库步骤;构建命名实体名称词库步骤;构建动态词库步骤; 分词操作步骤;词频统计步骤;热点词集合构建步骤;词对共现频度统计步骤;热点词对生成步骤。热点词编号步骤中将每个热点词用唯一编号表示,编号可以是阿拉伯数字,或其他编号形式。极大团挖掘步骤中将热点词对集合中的每个热点词编号作为顶点,词对作为两顶点的边,将热点词对集合构成无向图。对该图进行极大团挖掘,挖掘步骤包含以下子步骤连通分量生成步骤遍历无向图,产生图的所有连通分量。初始化步骤初始化最终极大团集合T为空集。选取步骤取该图中的第一个连通分量。挖掘步骤对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合 T。跳转步骤判断该图中是否存在下一个连通分量,若存在,跳转到挖掘步骤;否则,继续执行输出步骤。输出步骤输出最终极大团集合T中的所有极大团。其中,上述挖掘步骤完成从连通分量中挖掘所有极大团,具体过程如下1)取连通分量的第一个顶点作为一个当前的极大团,设置当前极大团集合51仅包含该极大团。2)判断连通分量中是否存在下一个顶点。若不存在,则跳转到步骤16);若存在, 继续执行步骤3)。3)设该顶点为第k个顶点,初始化加入顶点k后的新极大团集合&为空集。4)取当前极大团集合Slri中的第一个团。5)判断该团的所有顶点是否都是顶点k的邻接点。若是,则继续执行步骤6);否则,则跳转到步骤9)。
6)将k加入到该团中形成新团P。7)判断P的超集是否在集合&中。若在集合&中,说明以前的操作已经产生了该团,不需要再加入,跳转到步骤4415 ;否则,说明P为新产生的团,应该加入到&中,继续执行步骤8)。8)将P加入到集合Sk。此时,仅考虑了前k个顶点的极大团全部存储到集合&中, 跳转到步骤15)。9)将该团加入到集合&。10)将k加入到顶点k的邻接点集合L(k)与该团的交集中,构成新团Q。11)判断Q的子集是否在新极大团集合&中存在。若存在,则需要将其删除,继续执行步骤12);否则,跳转到步骤13)。12)则将Q的子集从新极大团集合中删除。13)判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中,继续执行步骤14);否则,跳转到步骤15)。14)将Q加入到新极大团集合中。15)判断集合Slri中是否存在下一个极大团。若存在,则跳转到步骤5);否则,跳转到步骤2)。16)将产生的集合&中的所有极大团输出到最终极大团集合中。热点话题表示步骤中,将每个极大团中的数字变换为对应词,极大团变换为词组合,代表一个热点话题并输出。本发明提出的基于极大团发现的网络热点话题检测装置,包括以下模块数据采集模块完成实时采集网络新闻网站、论坛、博客、微博数据;热点词对集合构建模块完成对采集的数据进行分词,词频统计等处理,发现所有的热点词对,构建热点词对集合;热点词编号模块将每个热点词用唯一的编号进行表示;极大团挖掘模块将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团;热点话题表示模块将每个极大团变换为一个词组合,代表一个热点话题。数据采集模块中,实时采集网络数据包括新闻网站中每条新闻的标题、正文、发布时间;论坛中每条帖子的标题,正文、发布时间;博客中每篇博客文章的标题、正文、关键字和发布时间;微博中用户的每条博文内容和发布时间。采集模块进一步包含以下子模块 配置模块;下载模块;匹配模块;过滤模块;上述模块完成后,等待设置的时间间隔后,重复执行下载模块、匹配模块和过滤模块。热点词对集合构建模块进一步包含以下子模块构建动词与名词库模块;构建命名实体名称词库模块;构建动态词库模块;分词操作模块;词频统计模块;热点词集合构建模块;词对共现频度统计模块;热点词对生成模块。热点词编号模块将每个热点词用唯一编号表示,编号可以是阿拉伯数字,或其他编号形式。极大团挖掘模块将热点词对集合中的每个热点词编号作为顶点,词对作为两顶点的边,将热点词对集合构成无向图。对该图进行极大团挖掘,挖掘模块包含以下子模块
连通分量生成模块遍历无向图,产生图的所有连通分量。初始化模块初始化最终极大团集合T为空集。选取模块取该图中的第一个连通分量。挖掘模块对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合 T。跳转模块判断该图中是否存在下一个连通分量,若存在,跳转到挖掘模块;否则,继续执行输出模块。输出模块输出最终极大团集合T中的所有极大团。其中,上述挖掘模块完成从连通分量中挖掘所有极大团,具体过程如下1)取连通分量的第一个顶点作为一个当前的极大团,设置当前极大团集合51仅包含该极大团。2)判断连通分量中是否存在下一个顶点。若不存在,则跳转到步骤16);若存在, 继续执行步骤3)。3)设该顶点为第k个顶点,初始化加入顶点k后的新极大团集合&为空集。4)取当前极大团集合Slri中的第一个团。5)判断该团的所有顶点是否都是顶点k的邻接点。若是,则继续执行步骤6);否则,则跳转到步骤9)。6)将k加入到该团中形成新团P。7)判断P的超集是否在集合&中。若在集合&中,说明以前的操作已经产生了该团,不需要再加入,跳转到步骤15);否则,说明P为新产生的团,应该加入到&中,继续执行步骤8)。8)将P加入到集合Sk。此时,仅考虑了前k个顶点的极大团全部存储到集合&中, 跳转到步骤15)。9)将该团加入到集合&。10)将k加入到顶点k的邻接点集合L(k)与该团的交集中,构成新团Q。11)判断Q的子集是否在新极大团集合&中存在。若存在,则需要将其删除,继续执行步骤12);否则,跳转到步骤13)。12)则将Q的子集从新极大团集合中删除。13)判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中,继续执行步骤14);否则,跳转到步骤15)。14)将Q加入到新极大团集合中。15)判断集合Slri中是否存在下一个极大团。若存在,则跳转到步骤5);否则,跳转到步骤2)。16)将产生的集合&中的所有极大团输出到最终极大团集合中。热点话题表示模块中,将每个极大团中的数字变换为对应词,极大团变换为词组合,代表一个热点话题并输出。本发明的有益效果在于,相对于现有技术而言,本发明为了满足用户实时发现互联网中突发性热点话题的需求,面向互联网新闻、论坛、博客、微博中的信息,综合利用话题检测与跟踪算法和极大团发现技术,对文本信息进行分析与数据挖掘,对热点话题进行检测。实验结果验证了本发明的有效性和准确性,具有很大实用性。


图1为本发明基于极大团发现的网络热点话题检测方法的步骤流程图;图2为数据采集方法的步骤流程图;图3为热点词对集合构建方法的步骤流程图;图4为从无向图中生成极大团的工作原理图;图5为从连通分量中生成极大团的详细流程图;图6为本发明基于极大团发现的网络热点话题检测装置的结构框图。
具体实施例方式下面将结合附图对本发明具体实施方式
进行详细说明。图1是本发明的一个实施方式的流程图,包括以下步骤步骤Sl 数据采集,完成网络新闻网站、论坛、博客、微博数据实时采集。步骤S2 热点词对集合构建,对采集的数据进行处理,构建热点词对集合。步骤S3 热点词编号,将每个热点词用唯一编号表示。步骤S4:极大团挖掘,将热点词对集合看作无向图形式,图中每个顶点为相应热点词对应的编号。对该图进行挖掘,得到所有的极大团。步骤S5 热点话题表示,将各极大团的顶点编号用对应的热点词表示,将每个极大团变换为一个词组合,每个词组合代表一个热点话题。下面将对每个步骤进行具体的说明步骤Sl完成网络新闻网站、论坛、博客、微博数据实时采集。本发明设计了基于 http协议下载及对网页内容进行正则表达式匹配的采集方法。图2给出了该方法的具体实施流程图,具体步骤如下步骤11,设置种子URL和每个种子匹配用的正则表达式,种子URL可以是多个。种子设置为4类,分别为网络新闻网站的新闻列表页、论坛列表页、博客的博文列表页,微博用户的首页。对于网络新闻网站的新闻列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于论坛列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于博客的博文列表页,分别设置获取标题文本、正文文本、关键字、发布时间的正则表达式;对于微博用户的首页,分别设置获取博文内容文本、发布时间的正则表达式。步骤12,通过http协议应用多线程并行采集种子URL对应的html网页。步骤13,对采集到的网页通过配置到正则表达式获得标题文本、正文文本、关键字、发布时间等数据,构成结构化的数据。步骤14,删除先前已经采集过的数据,保存本时间段采集的数据,以供步骤S2使用。步骤15,等待设置的时间间隔后,跳转到步骤12,重复步骤12 步骤15,采集下一个时间段的数据。步骤S2完成对采集数据的处理,构建热点词对集合。图3给出了该方法的实施过程流程图,具体操作步骤如下
步骤21,构建动词与名词静态词库。词库包含中文动词和中文名词。步骤22,构建命名实体名称词库。词库包括地理名称、组织机构名称、常用人名。步骤23,构建动态词库。词库包含从百度搜索风雨榜、等网站实时采集的热点搜索词。步骤M,对采集的各类文本,包括标题文本、正文文本、博文文本、关键词等,采用逆向最大匹配法,利用三类词库进行分词,将各类文本都变为词的集合。若某词在某文档向量中出现多次,算作一次。关键词有时也是2或多个词构成,因此也需要进行分词操作。最终每个文本都变为由词构成的文档向量。步骤25,统计每个词在每个文档向量中出现的词频。步骤沈,删除词频小于给定阈值的词,保留下来的词构成热点词集合。步骤27,统计任意两个热点词同时出现在一个文档向量中的次数,即共现频度。步骤观,删除共现频度小于给定阈值的词对,保留下来的词对构成热点词对集合。步骤S3完成对热点词的编号。将每个热点词用唯一编号表示,编号可以是阿拉伯数字,或其他编号形式。例如一共保留100个热点词,则对应的编号为1,2,...,100。将热点词对集合看作无向图形式,图中每个顶点的编号为相应热点词对应的数字,图中的边表示两顶点对应的词构成了热点词对。图4给出了图1中步骤S4,即从无向图中生成极大团的工作原理流程。具体步骤如下步骤41,遍历无向图,产生图的所有连通分量。步骤42,初始化最终极大团集合T为空集。步骤43,取该图中的第一个连通分量。步骤44,对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合T。步骤45,判断该图中是否存在下一个连通分量,若存在,跳转到步骤44;否则,继续执行步骤46。步骤46,输出最终极大团集合T中的所有极大团。图5给出了图4中步骤44,即从连通分量中产生所有极大团的详细流程。具体步骤如下步骤4401,取连通分量的第一个顶点(k= 1)作为一个当前的极大团,即{1},设置当前极大团集合S1= {{1}}。显然,此时连通分量中仅考虑第一个顶点,构成的极大团只有该顶点。步骤4402,判断连通分量中是否存在下一个顶点。若不存在,则跳转到步骤16 ;若存在,继续执行步骤4403。步骤4403,设该顶点为第k个顶点,称为顶点k,初始化加入顶点k后的新极大团集合&为空集。则原来的当前极大团集合变为了 Sm。步骤4404,取当前极大团集合Slri中的第一个团。步骤4405,设该团为C,判断该团的所有顶点是否都是顶点k的邻接点。若是,则继续执行步骤4406 ;否则,则跳转到步骤4409。步骤4406,将k加入到该团中形成新团P。步骤4407,判断P的超集是否在集合&中。若在集合&中,说明以前的操作已经产生了该团,不需要再加入了,跳转到步骤4415 ;否则,说明P为新产生的团,应该加入到& 中,继续执行步骤4408。步骤4408,将P加入到集合&。此时,仅考虑了前k个顶点的极大团全部存储到集合&中,跳转到步骤4415。步骤4409,将该团加入到集合&。步骤4410,将k加入到顶点k的邻接点集合L (k)与该团的交集中,构成新团Q,即 Q = (L (k) Π C) U {k}。步骤4411,判断Q的子集是否在新极大团集合&中存在。若存在,则需要将其删除,继续执行步骤4412 ;否则,跳转到步骤4413。步骤4412,则将Q的子集从新极大团集合中删除。步骤4413,判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中,继续执行步骤4414 ;否则,跳转到步骤4415。步骤4414,将Q加入到新极大团集合中。步骤4415,判断集合Slri中是否存在下一个极大团。若存在,则跳转到步骤4405, 重复执行步骤4405 步骤4415 ;否则,说明由集合Slrl产生集合&的过程已经完成,需要考虑再加入一个新顶点的处理,即跳转到步骤4402,重复执行如上步骤,直至连通分量中所有的顶点都处理完。步骤4416,将产生的集合&中的所有极大团输出到最终极大团集合中。通过步骤4,将可将无向图中的所有极大团找出。下面给出了一个极大团发现的实例。设图中共有10个顶点,顶点编号分别为1至10,图中的边有11条,分别为{1,3}, {1, 5},{1,9}, {2,8}, {3,5}, {3,9}, {4,6}, {4,8}, {5,9}, {6,8}, {7,10},则该无向图可分解为四个极大团,分别为{1,3,5,9}, {4,6,8}, {7,10},{2,8} 0步骤S5完成了热点话题的表示。将各极大团的顶点编号用对应的热点词表示,将每个极大团变换为一个词组合,每个词组合代表一个热点话题。例如,假设日本、地震、福岛、核事故对应的编号分别为1,3,5,9,则极大团{1,3,5,9}代表的热点话题为{日本,地
震,福岛,核事故}。以上结合附图对基于极大团发现的网络热点话题检测方法各模块的具体实施方式
进行了阐述。另一方面,本发明还公开了一种基于极大团发现的网络热点话题检测装置。参照图6,该装置包括如下模块数据采集模块,完成网络新闻网站、论坛、博客、微博数据实时采集。热点词对集合构建模块,完成对采集数据的处理,构建热点词对集合。热点词编号模块,将每个热点词进行唯一编号。极大团挖掘模块,将热点词对集合看作无向图形式,图中每个顶点为相应热点词对应的编号。完成对无向图的挖掘,得到所有的极大团。热点话题表示模块。将各极大团的顶点编号用对应的热点词表示,将每个极大团变换为一个词组合,每个词组合表示为一个热点话题。上述基于极大团发现的网络热点话题检测装置各模块的实施例具有与方法实施例相同的技术效果,在此不再重复阐述。
通过以上实施方式的描述,所属领域的一般技术人员可以清楚的了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现,但前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现,该软件产品存储在一个存储介质中,包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。以上所述的本发明实施方式,并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种网络热点话题检测方法,其特征在于,包括以下步骤 数据采集步骤实时采集网络新闻网站、论坛、博客、微博数据;热点词对集合构建步骤对采集的数据进行分词,词频统计等处理,发现所有的热点词对,构建热点词对集合;热点词编号步骤将每个热点词用唯一的编号进行表示;极大团挖掘步骤将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团; 热点话题表示步骤将每个极大团变换为一个词组合,代表一个热点话题。
2.如权利要求1所述的方法,其特征在于,数据采集步骤中,实时采集网络数据包括 新闻网站中每条新闻的标题、正文、发布时间;论坛中每条帖子的标题,正文、发布时间;博客中每篇博客文章的标题、正文、关键字和发布时间;微博中用户的每条博文内容和发布时间。数据采集步骤进一步包含以下子步骤配置步骤设置进行采集的种子URL和每个种子匹配采集数据用的正则表达式。对于网络新闻网站的新闻列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式; 对于论坛列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于博客的博文列表页,分别设置获取标题文本、正文文本、关键字、发布时间的正则表达式;对于微博用户的首页,分别设置获取博文内容文本、发布时间的正则表达式。下载步骤通过http协议应用多线程并行采集种子URL对应的html网页。 匹配步骤通过配置的正则表达式,对采集到的网页进行匹配,获得标题文本、正文文本、关键字、发布时间等数据,构成结构化的数据。过滤步骤删除先前已经采集过的数据,保存本时间段新采集的数据,以供后续步骤使用。上述步骤完成后,等待设置的时间间隔后,重复下载步骤、匹配步骤和过滤步骤。
3.如权利要求2所述的方法,其特征在于,热点词对集合构建步骤进一步包含以下子步骤 构建动词与名词库步骤将所有的中文动词和中文名词存储到该词库中。 构建命名实体名称词库步骤将常见的地理名称、组织机构名称、常用人名存储到该词库中。构建动态词库步骤从百度搜索风雨榜等网站实时采集热点搜索词,存储到该词库中。 分词操作步骤对采集的各类文本,包括标题文本、正文文本、博文文本、关键词等,采用逆向最大匹配法,利用构建好的上述三类词库进行分词。若某词在某文档中出现多次,算作一次。最终每个文本都变为由词构成的文档向量。词频统计步骤统计每个词在每个文档向量中出现的词频。 热点词集合构建步骤删除词频小于给定阈值的词,保留下来的词构成热点词集合。 词对共现频度统计步骤统计任意两个热点词同时出现在一个文档向量中的次数,即词对的共现频度。热点词对生成步骤删除共现频度小于给定阈值的词对,保留下来的词对构成热点词对集合。
4.如权利要求3所述的方法,其特征在于,极大团挖掘步骤中将热点词对集合中的每个热点词编号作为顶点,词对作为两顶点的边,将热点词对集合构成无向图。对该图进行极大团挖掘,挖掘步骤包含以下子步骤连通分量生成步骤遍历无向图,产生图的所有连通分量。 初始化步骤初始化最终极大团集合T为空集。 选取步骤取该图中的第一个连通分量。挖掘步骤对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合T。 跳转步骤判断该图中是否存在下一个连通分量,若存在,跳转到挖掘步骤;否则,继续执行输出步骤。输出步骤输出最终极大团集合T中的所有极大团。 其中,上述挖掘步骤完成从连通分量中挖掘所有极大团,具体过程如下1)取连通分量的第一个顶点作为一个当前的极大团,设置当前极大团集合S1仅包含该极大团。2)判断连通分量中是否存在下一个顶点。若不存在,则跳转到步骤16);若存在,继续执行步骤3)。3)设该顶点为第k个顶点,初始化加入顶点k后的新极大团集合&为空集。4)取当前极大团集合Slri中的第一个团。5)判断该团的所有顶点是否都是顶点k的邻接点。若是,则继续执行步骤6);否则,则跳转到步骤9)。6)将k加入到该团中形成新团P。7)判断P的超集是否在集合&中。若在集合&中,说明以前的操作已经产生了该团, 不需要再加入,跳转到步骤15);否则,说明P为新产生的团,应该加入到&中,继续执行步骤8)。8)将P加入到集合&。此时,仅考虑了前k个顶点的极大团全部存储到集合&中,跳转到步骤15)。9)将该团加入到集合&。10)将k加入到顶点k的邻接点集合L(k)与该团的交集中,构成新团Q。11)判断Q的子集是否在新极大团集合&中存在。若存在,则需要将其删除,继续执行步骤12);否则,跳转到步骤13)。12)将Q的子集从新极大团集合中删除。13)判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中, 继续执行步骤14);否则,跳转到步骤15)。14)将Q加入到新极大团集合中。15)判断集合Slri中是否存在下一个极大团。若存在,则跳转到步骤5);否则,跳转到步骤2)。16)将产生的集合&中的所有极大团输出到最终极大团集合T中。
5.如权利要求4所述的方法,其特征在于,热点话题表示步骤中,将每个极大团中的数字变换为对应词,极大团变换为词组合,代表一个热点话题并输出。
6.一种网络热点话题检测装置,其特征在于,包括以下模块 数据采集模块完成实时采集网络新闻网站、论坛、博客、微博数据;热点词对集合构建模块完成对采集的数据进行分词,词频统计等操作,发现所有的热点词对,构建热点词对集合;热点词编号模块将每个热点词用唯一的编号进行表示;极大团挖掘模块将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团; 热点话题表示模块将每个极大团变换为一个词组合,代表一个热点话题。
7.如权利要求6所述的方法,其特征在于,数据采集模块中,实时采集网络数据包括 新闻网站中每条新闻的标题、正文、发布时间;论坛中每条帖子的标题,正文、发布时间;博客中每篇博客文章的标题、正文、关键字和发布时间;微博中用户的每条博文内容和发布时间。数据采集模块进一步包含以下子模块配置模块设置进行采集的种子URL和每个种子匹配采集数据用的正则表达式。对于网络新闻网站的新闻列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式; 对于论坛列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于博客的博文列表页,分别设置获取标题文本、正文文本、关键字、发布时间的正则表达式;对于微博用户的首页,分别设置获取博文内容文本、发布时间的正则表达式。下载模块通过http协议应用多线程并行采集种子URL对应的html网页。 匹配模块对采集到的网页通过配置的正则表达式获得标题文本、正文文本、关键字、 发布时间等数据,构成结构化的数据。过滤模块删除先前已经采集过的数据,保存本时间段采集的数据,以供后续模块使用。上述模块完成后,等待设置的时间间隔后,重复执行下载模块、匹配模块和过滤模块。
8.如权利要求7所述的方法,其特征在于,热点词对集合构建模块进一步包含以下子模块构建动词与名词库模块将所有的中文动词和中文名词存储到该词库中。 构建命名实体名称词库模块将常见的地理名称、组织机构名称、常用人名存储到该词库中。构建动态词库模块从百度搜索风雨榜等网站实时采集热点搜索词,存储到该词库中。 分词操作模块对采集的各类文本,包括标题文本、正文文本、博文文本、关键词等,采用逆向最大匹配法,利用构建好的三类词库进行分词。若某词在某文档中出现多次,算作一次。最终每个文本都变为由词构成的文档向量。词频统计模块统计每个词在每个文档向量中出现的词频。 热点词集合构建模块删除词频小于给定阈值的词,保留下来的词构成热点词集合。 词对共现频度统计模块统计任意两个热点词同时出现在一个文档向量中的次数,即词对的共现频度。热点词对生成模块删除共现频度小于给定阈值的词对,保留下来的词对构成热点词对集合。
9.如权利要求8所述的方法,其特征在于,极大团挖掘模块将热点词对集合中的每个热点词编号作为顶点,词对作为两顶点的边,将热点词对集合构成无向图。对该图进行极大团挖掘,挖掘模块包含以下子模块连通分量生成模块遍历无向图,产生图的所有连通分量。 初始化模块初始化最终极大团集合T为空集。选取模块取该图中的第一个连通分量。挖掘模块对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合T。跳转模块判断该图中是否存在下一个连通分量,若存在,跳转到挖掘模块;否则,继续执行输出模块。输出模块输出最终极大团集合T中的所有极大团。其中,上述挖掘模块完成从连通分量中挖掘所有极大团,具体过程如下1)取连通分量的第一个顶点作为一个当前的极大团,设置当前极大团集合S1仅包含该极大团。2)判断连通分量中是否存在下一个顶点。若不存在,则跳转到步骤16);若存在,继续执行步骤3)。3)设该顶点为第k个顶点,初始化加入顶点k后的新极大团集合&为空集。4)取当前极大团集合Slri中的第一个团。5)判断该团的所有顶点是否都是顶点k的邻接点。若是,则继续执行步骤6);否则,则跳转到步骤9)。6)将k加入到该团中形成新团P。7)判断P的超集是否在集合&中。若在集合&中,说明以前的操作已经产生了该团, 不需要再加入,跳转到步骤15);否则,说明P为新产生的团,应该加入到&中,继续执行步骤8)。8)将P加入到集合&。此时,仅考虑了前k个顶点的极大团全部存储到集合&中,跳转到步骤15)。9)将该团加入到集合&。10)将k加入到顶点k的邻接点集合L(k)与该团的交集中,构成新团Q。11)判断Q的子集是否在新极大团集合&中存在。若存在,则需要将其删除,继续执行步骤12);否则,跳转到步骤13)。12)将Q的子集从新极大团集合中删除。13)判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中, 继续执行步骤14);否则,跳转到步骤15)。14)将Q加入到新极大团集合中。15)判断集合Slri中是否存在下一个极大团。若存在,则跳转到步骤5);否则,跳转到步骤2)。16)将产生的集合&中的所有极大团输出到最终极大团集合中。
10.如权利要求9所述的方法,其特征在于,热点话题表示模块中,将每个极大团中的数字变换为对应词,极大团变换为词组合,代表一个热点话题并输出。
全文摘要
本发明实施例公开了一种基于极大团发现的网络热点话题检测方法及装置。其中,该方法包括如下步骤实时采集网络新闻网站、论坛、博客、微博数据;对采集的数据进行分词、词频统计等处理,发现所有的热点词对,构建热点词对集合;将每个热点词用唯一的编号进行表示;将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团;将每个极大团变换为一个词组合,代表一个热点话题。还公开了一种网络热点话题检测装置,利用本发明实施例,能够及时准确地发现网络中的热点话题,提高热点话题检测的速度和精度,具有很大的实用价值。
文档编号G06F17/30GK102346766SQ201110278619
公开日2012年2月8日 申请日期2011年9月20日 优先权日2011年9月20日
发明者肖波, 蔺志青, 郭军 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1