网络热点和舆情的检测方法

文档序号:6587601阅读:217来源:国知局

专利名称::网络热点和舆情的检测方法
技术领域
:本发明涉及的是一种网络信息处理
技术领域
的方法,具体是一种网络热点和舆情的检测方法。
背景技术
:互联网已成为人们获取和交流信息的最重要的平台之一。互联网与传统媒体相比,最大的特点之一是自由、开放、及时,任何人都可以通过博客、论坛系统在互联网上发布观点和评论。这就使得互联网上容易散布不良信息,如欺骗性的言论或是危害国家安全的言论,严重的会引发群体性事件。同时,博客、论坛系统的文本中包含了大量反映民意的舆情信息,有必要对这些舆情信息进行分析、监控和预测,从中发现热点信息。目前习惯的做法是使用人工对互联网舆情信息进行监控并分析热点信息。但这样做有两个问题,一是面对海量的信息,需要耗费大量的人力、物力,且人工处理速度慢,实效性差;二是每个人通常只能监控某几个互联网站点的文本信息,信息汇总、整理困难,容易忽略某些热点信息。还有一种做法是利用计算机对特定互联网站点的文本进行关键词提取,提取出热点关键词,再由人工分析出与这些热点关键词相对应的热点信息。但是单个关键词包含的信息太少,且包含不同信息的文本可能包含相同的关键词,影响对热点信息的判断。经过对现有技术的文献检索发现,中国专利公开号为CN101408883,
专利名称:为一种网络舆情观点收集方法,该申请案中实现舆情信息的发现是基于计算热点词词频和词频变化的方法,以关键句中的动词和名词作为特征值进行聚类。其具体方法是在网络论坛中根据词频和词频的变化情况来提取热点词,根据热点词从爬虫数据库中提取相关的信息文档,搜索出其中含有热点词的句子形成关键句集,并以关键句中的动词和名词作为特征词,以每个特征值为特征向量的一维。如果关键句中含有该特征词,则该维特征值取l;否则取0。再通过计算各关键句特征向量间的余弦相似度对关键句进行聚类,得到多个观点主题句集。最后采用带权重的情感词库和手工判别相结合的方法来计算各个观点主题句网络情感倾向,从而得到网络的舆情观点。但这种方法以词为单位进行热点词提取和关键句聚类,遇到一词多义或多词一义的情况会影响准确率,且运算复杂。同时,这种方法没有考虑到互联网上除了众多主题文档外,关于这些主题文档的评论文档也包含了网民的观点,也是网络舆情倾向的重要组成部分。
发明内容本发明针对上述现有技术的不足,提供了一种网络热点和舆情的检测方法,通过在文档的特征概念空间内进行聚类,解决了一词多义和多词一义情况下热点的分析,并综合主题文档的评论文本进行舆情分析。本发明是通过如下技术方案实现的,本发明包括如下步骤第一步,从网络论坛和博客中抓取指定时间范围内的网页,将其信息文档及相应的评论文档保存到数据库中。所述的信息文档包括网络论坛的主贴和博客的网络日志正文,该文档是纯文本格式的文档。所述的评论文档包括网络论坛的回帖和博客的评论内容,该文档是纯文本格式的文档第二步,对数据库中的文档进行概念映射和概念消歧处理,最终使得每个词语映射成唯一的概念。所述的文档包括信息文档及相应的评论文档。所述的处理,是将文档分解成为词序列,并且对词序列中每一个词语进行词性标注。所述的概念映射,就是将分好的每个词的概念用《知网》中若干个义元的组合表示出来所述的《知网》,是一个以汉语和英语的词语所代表的概念的数据库,其描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,知识库包括1500多个义元,每个概念就是由若干个义元的组合标注的,其中所述的义元分为基本义元和关系义元。所述的概念消歧,是在含有一词多义词语的句子中,根据一词多义词语的每个概念与该句中其他词语的概念相似度,选取概念相似度之和最大的概念作为该一词多义词语在该句中的概念。第三步,对每篇信息文档基于概念网提取本征特征,并利用提取出的本征特征对这些信息文档进行聚类,形成多个信息文档集,取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集。所述的本征特征,就是能反映整篇信息文档的概念且定义于《知网》中的一组义元。所述的提取本征特征是,在去除每篇信息文档的虚词后,将信息文档中所有义元各自的权重值与权重阈值进行比较,其中权重值大于权重阈值的义元就是信息文档的本征特征。所述的聚类,具体为将待聚类的信息文档的所有不同的本征特征义元作为特征向量的一维,如果信息文档中含有该本征特征义元,则该维特征值取l,否则取0,由此得到每篇信息文档的特征向量,根据待聚类的任意两篇信息文档的特征向量间的余弦值得到这两篇信息文档间的相似度,相似度大于相似度阈值的两篇文档就被归属于同一个信息文档集中,取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集。第四步,建立网络用语库,对每个热点事件进行褒贬倾向分析,得到每个热点事件的网络舆情倾向。所述的网络用语库,包括网络指代词表和网络评论词表,其中网络评论词表包含网络评论文档中带感情色彩的词语及其词性和褒贬倾向性。所述的褒贬倾向分析,包括信息文档对热点事件的褒贬倾向分析和相应的评论文档的褒贬倾向分析及其褒贬对象分析。所述的网络舆情倾向是结合了热点事件信息文档集中的信息文档对热点事件的褒贬倾向分析和相应的评论文档的褒贬倾向分析及其褒贬对象分析,根据评论文档对信息文档热点事件的褒贬倾向得到的各个热点事件信息文档集中所有信息文档的相应评论文档对热点事件的褒贬倾向。与现有技术相比,本发明具有如下有益效果使用概念作为文档的本征特征,可以很好处理一词多义和多词一义的情况,运算简单;以整篇文档为单位进行网络热点发现和舆情分析,且充分考虑了评论文档包含的舆情信息,提高了网络热点发现和舆情分析的准确率。图l是本发明的流程示意框图。具体实施例方式下面结合附图对本发明的实施例作详细说明本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。本实施例包括步骤如下第一步,从网络论坛和博客中抓取指定时间范围内的网页,将其信息文档及相应的评论文档保存到数据库中。所述的从网络论坛中抓取网页,具体为通过链接分析的方式,获得指定的网络论坛的所有板块的网络地址,再通过链接分析方式用HTTP协议下载所有板块在指定时间范围内发表7的主贴以及主贴对应的回贴,同时记录主贴作者的网络名和回贴作者的网络名,以及主贴和回贴间的对应关系。所述的从博客中抓取网页,具体为通过网络爬虫的方式,获得包含有指定博客系统的一定数量用户的网络名的数据库。通过网络名,可以得到相应用户博客空间的网络日志列表页面的地址。对网络日志列表页面进行链接分析,用HTTP协议下载网络名数据库中所有用户在指定时间范围内发表的网络日志正文以及网络日志对应的评论,同时记录网络日志正文作者的网络名和评论作者的网络名,以及网络日志正文和评论间的对应关系。所述的文档包括信息文档及相应的评论文档。所述的信息文档包括网络论坛的主贴和博客的网络日志正文,该文档是纯文本格式的文档。所述的评论文档包括网络论坛的回帖和博客的评论内容,该文档是纯文本格式的文档通过HTTP协议下载到的文档一般是超文本标记语言(HTML)的文档,需要过滤转换为纯文本格式的文档。本实施例从搜狐博客(blog.sohu.com)、新浪博客(blog.sina.com.cn)以及上海交通大学BBS系统(bbs.sjtu.edu.cn)抓取了2009年10月1日到2009年10月5日之间共8314篇信息文档及相应的评论文档保存到数据库中。本实施例使用boost库中的正则表达模块从抓取到的文档中过滤HTML标签,以提取纯文本内容,具体的正则表达式为"〈[">]+>"。文档保存到数据库中;第二步,对数据库中的文档进行概念映射和概念消歧处理,最终使得每个词语映射成唯一的概念。所述的处理,是将文档分解成为词序列,并且对词序列中每一个词语进行词性标注,本实施例使用了中科院计算所的ICTCLAS分词系统对信息文档进行分词。所述的概念映射,就是将分好的每个词的概念用《知网》中若干个义元的组合表示出来所述的《知网》,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,知识库包括1500多个义元,每个概念就是由若干个义元的组合标注的,其中所述的义元包括基本义元和关系义元。所述的概念消歧,是在含有一词多义词语的句子中,根据一词多义词语的每个概念与该句中其他词语的概念相似度,选取概念相似度之和最大的概念作为该一词多义词语在该句中的概念。所述的概念相似度,具体公式为W,(K,2)=^附単6,2)+/2扁尺2)+/3>附朋)其中W附,d,2)是概念^和概念w2的概念相似度,《"必(^,万尸2)是概念¥1的基本义元和概念W2的基本义元的相似度,是概念Wi的关系义元和概念W2的关系义元的相似度,""'"^w(s^,^)是概念w^n概念W2的基本义元和关系义元的相似度,A、^和A分别为扁,W'^)、扁万(^,万尸2)和^柳朋(,,iP)的权重系数,且"|+^+^=1。设概念W!有nu个基本义元,概念W2有ni2个基本义元,概念W!有m个关系义元,概念沐2有!12个关系义元,7'£^,"^"1,ye"2,dij表示概念W说第i个基本义元和概念W2的第j个基本义元在义元树上的距离,dxy表示概念W^勺第x个关系义元和概念W2的第y个关系义元在义元树上的距离,diy表示概念W^勺第i个基本义元和概念W2的第y个关系义元在义元树上的距离,dxj表示概念W^勺第x个关系义元和概念W2的第j个基本义元在义元树上的距离,a是一个调节参数,且在各种义元相似度计算时取同一值。贝!J:所述的W"^(^^5^的计算方法为a'/附丑CB^,丑只)=maxotw(^A,.,£^,)其中^"(^^UA》是概念&的第i个基本义元和概念W2的第j个基本义元的相似度,'一"7a+《■所述的扁^^,朋。的计算方法为:5/7^(7^,2)=2二">m,ip2,v)其中"是概念Wi的第X个关系义元和概念W2的第y个关系义的相似度,,—'.a+《,,。所述的W"^W(^3,^)的计算方法为=max(W"!朋OSA,朋2),w'附朋阿,S尸2))其中W'^i(^^iP2)是概念&的基本义元和概念W2的关系义元的相似度,^",(^',2)是概念W说关系义元和概念W2的基本义元的相似度,且一Z柳(《,恥,)其中、"^是概念Wi的第i个基本义元和概念W2的第y个关系义元的相似度,^m(^"B7^)是概念W的第x个关系义元和概念W2的第j个基本义元的相似度,且扁(《,万尸2;):aa+义当句子中含有两个或者多个一词多义的词语时,分别计算该句中每个一词多义的词语的每一个概念与其它词语的概念的相似度,在处理一词多义词语的一个概念与另一个一词多义的词语的概念相似度时,将后者一词多义词语的概念取为该词语在《知网》中第一个概念来计算。第三步,对每篇信息文档基于概念网提取本征特征,并利用提取出的本征特征对这些信息文档进行聚类,形成多个信息文档集,取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集。所述的本征特征,就是能反映整篇信息文档的概念且定义于《知网》中的一组义元。所述的提取本征特征是,在去除每篇信息文档的虚词后,将信息文档中所有不同的义元各自的权重值与权重阈值进行比较,其中权重值大于权重阈值的义元就是信息文档的本征特征。对于整篇信息文档中只出现一次的义元的权重值是该义元与该信息文档中其它所有义元的相似度之和;对于整篇信息文档中出现N次的义元的权重值是该义元与该信息文档中其它所有不同义元的相似度之和的N倍,其中计算基本义元和关系义元间的相似度时,由于它们之间并不是直接的相似而是通过联系相互关联的,因此在计算相似度后要乘上可调节的参数£再累加到待计算的义元的权重值中。所述的聚类,具体为将待聚类的信息文档的所有不同的本征特征义元作为特征向量的一维,如果信息文档中含有该本征特征义元,则该维特征值取i,否则取o,由此得到每篇信息文档的特征向量,根据待聚类的任意两篇信息文档的特征向量间的余弦值得到这两篇信息文档间的相似度&"CJ),相似度大于相似度阈值的两篇文档就被归属于同一个信息文档集中,取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集,其中<formula>formulaseeoriginaldocumentpage11</formula>其中7和7分别表示第i篇信息文档和第j篇信息文档的特征向量。两篇信息文档间的相似度越大,说明这两篇信息文档属于同一个热点事件的可能性就越大。通过控制相似度阈值",可以尽量保证同一个热点事件信息文档集中的信息文档都是关于同一个事件或同一个观点的。本实施例提取本征特征后,进行聚类,形成的信息文档数目最多的信息文档集共包含873篇信息文档,从这些信息文档中提取出的本征特征义元大多包含"timel时间,day|日,congratulateI祝贺,ttco皿tryl国家,factl事情,check|査,ttarmyl军队,military|军"。这个信息文档集的主题是2009年中国国庆节阅兵式。第四步,建立网络用语库,对每个热点事件信息文档集中所有信息文档的相应评论文档进行褒贬倾向分析,综合每个热点事件信息文档集内所有评论的褒贬倾向,得到该热点事件信息文档集所代表的事件的网络舆情倾向。所述网络用语库,包括网络指代词表和网络评论词表,其中网络评论词表包含网络评论文档中带感情色彩的词语及其词性和褒贬倾向性。所述的褒贬倾向分析,包括信息文档对热点事件的褒贬倾向分析和相应的评论文档的褒贬倾向分析及其褒贬对象分析。所述的信息文档对热点事件的褒贬倾向分析,具体为利用网络评论词表的词分别在热点事件信息文档集中的信息文档中搜索,将搜索到的词性相符的网络评论词所在的句子称为信息文档中心句,该网络评论词称为信息关键词,所有信息文档中心句称为信息文档中心句集,根据信息文档中心句集中每个信息文档中心句的信息关键词所对应的义元组合,得到该义元组合与该句子所在的信息文档的本征特征义元的相似度^"0,将^"G与信息文档褒贬倾向阈值相比较,若^"0大于信息文档褒贬倾向阈值,则认为该句子对信息文档热点事件的褒贬倾向与该句子的关键词的褒贬倾向相同,该句子称为褒贬倾向相同的信息文档中心句;否则该句子称为褒贬倾向相反的信息文档中心句。当信息文档中心句集中褒贬倾向相同的信息文档中心句与褒贬倾向相反的信息文档中心句的个数之比超过了信息文档褒贬一致性阈值,则认为该信息文档热点事件的褒贬倾向与多数信息文档中心句相同;否则就需要人工进行判别。所述的信息关键词的褒贬倾向从网络评论词表中査出。所述的相应的评论文档的褒贬倾向分析及其褒贬对象分析,具体为利用网络评论词表的词分别在热点事件信息文档集信息文档相应的评论文档中搜索,将搜索到的词性相符的网11络评论词所在的句子称为评论文档中心句集,该网络评论语称为评论关键词,所有评论文档中心句称为评论文档中心句集。若评论文档中心句只有评论关键词,则认为该评论关键词的褒贬倾向就是发表该评论的网民对该信息文档的褒贬倾向。若评论文档中心句包括评论关键词以外的评论指代词语,若网络指代此表中包括该评论指代词语,则可得到评论褒贬的对象;否则,得到该评论文档中心句中表示对象的词语所对应的义元组合,进而得到该义元组合与信息文档的本征特征的相似度sim'0,若sim'O大于评论文档褒贬对象阈值,则认为该评论文档中心句中的评论关键词的褒贬对象是相应的信息文档热点事件,否则褒贬对象就是信息文档本身。所述的评论关键词的褒贬倾向从网络评论词表中査出。所述的网络舆情分析是结合了热点事件信息文档集中的信息文档对热点事件的褒贬倾向分析和相应的评论文档的褒贬倾向分析及其褒贬对象分析,得到评论文档对信息文档热点事件的褒贬倾向,通过统计各个热点事件信息文档集中所有信息文档的相应评论文档对热点事件的褒贬倾向,就是网络对该热点事件的舆情倾向,具体如表l所示。<table>tableseeoriginaldocumentpage12</column></row><table>本实施例对关于2009年中国国庆节阅兵式的信息文档集中的873篇信息文档的相应评论文档进行处理,结果表明,包括信息文档在内,共有96.37%的网民对2009年中国国庆节阅兵式持褒奖、肯定的态度;有0.83%的网民对2009年中国国庆节阅兵式持批评、否定态度;另有2.80%的网民没有表达明显的褒贬倾向。本实施例使用概念作为文档的本征特征,可以很好处理一词多义和多词一义的情况,运算简单;以整篇文档为单位进行网络热点发现和舆情分析,且充分考虑了评论文档包含的舆情信息,提高了网络热点发现和舆情分析的准确率。权利要求1.一种网络热点和舆情的检测方法,其特征在于,包括如下步骤第一步,从网络论坛和博客中抓取指定时间范围内的网页,将其信息文档及相应的评论文档保存到数据库中;第二步,对数据库中的文档进行概念映射和概念消歧处理,使得每个词语映射成唯一的概念;第三步,对每篇信息文档基于概念网提取本征特征,并利用提取出的本征特征对这些信息文档进行聚类,形成多个信息文档集,取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集;第四步,建立网络用语库,对每个热点事件信息文档集中所有信息文档的相应评论文档进行褒贬倾向分析,综合每个热点事件信息文档集内所有评论的褒贬倾向,得到该热点事件信息文档集所代表的事件的网络舆情倾向。2根据权利要求l所述的网络热点和舆情的检测方法,其特征是,第二步中所述的概念映射,就是将分好的每个词的概念用《知网》中若干个义元的组合表示出来。3根据权利要求l所述的网络热点和舆情的检测方法,其特征是,第二步中所述的概念消歧,是在含有一词多义词语的句子中,根据一词多义词语的每个概念与该句中其他词语的概念相似度,选取概念相似度之和最大的概念作为该一词多义词语在该句中的概念。4根据权利要求3所述的网络热点和舆情的检测方法,其特征是,所述的概念相似度,具体公式为W,(K,2)=^附単6,2)+/2扁尺2)+/3>附朋)其中扁,dW)是概念W和概念K的概念相似度,扁万(糾,2)是概念^的基本义元和概念,2的基本义元的相似度,W"'W^'^)是概念'W的关系义元和概念,2的关系义元的相似度,W'"^W(SP'^)是概念'W和概念,2的基本义元和关系义元的相似度,A、A和A分别为扁,W,眠).、扁万(^,,2)和^柳朋(,,iP)的权重系数,且设概念'^有^^个基本义元,概念,2有^2个基本义元,概念'^有巧个关系义元,概念^有^个关系义元,^,""2,《表示概念^的第i个基本义元和概念,2的第j个基本义元在义元树上的距离,《'表示概念^的第x个关系义元和概念,2的第y个关系义元在义元树上的距离,《表示概念'^的第i个基本义元和概念^2的第y个关系义元在义元树上的距离,""表示概念'^的第x个关系义元和概念,2的第j个基本义元在义元树上的距离,a是一个调节参数,且在各种义元相似度计算时取同一值,贝IJ:所述的'""^(^^,^^的计算方法为扁,S,朋2)=max扁(气.,朋2j)其中^"(^^',2'》是概念^的第i个基本义元和概念,2的第j个基本义元的相似度—万化.,朋2,)<formula>formulaseeoriginaldocumentpage3</formula>所述的W滅(M,2)的计算方法为:X*少'其中""《^"^^^》是概念W的第x个关系义元和概念^的第y个关系义的相似度,^附(气,^丄a+义所述的'W"^W^P,^)的计算方法为w力必/(8尸.^P)=max(,w附fii(S^,iP2),'w附万W(/^,5尸2))其中WW^H^'^^是概念K。的基本义元和概念"2的关系义元的相似度,概念^的关i',."'d.'《,)^"Bi(i^'^)是概念^的关系义元和概念,2的基本义元的相似度,且其中w^(S^l'^^")是概念'W的第i个基本义元和概念^2的第y个关系义元的相似度,wm(M"B^)是概念W的第x个关系义元和概念^的第j个基本义元的相似度,且<formula>formulaseeoriginaldocumentpage4</formula>5.根据权利要求l所述的网络热点和舆情的检测方法,其特征是,第三步中所述的提取本征特征是,在去除每篇信息文档的虚词后,将信息文档中所有义元各自的权重值与权重阈值进行比较,其中权重值大于权重阈值的义元就是信息文档的本征特征。6.根据权利要求l所述的网络热点和舆情的检测方法,其特征是,第三步中所述的聚类,具体为将待聚类的信息文档的所有不同的本征特征义元作为特征向量的一维,如果信息文档中含有该本征特征义元,则该维特征值取i,否则取o,由此得到每篇信息文档的特征向量,根据待聚类的任意两篇信息文档的特征向量间的余弦值得到这两篇信息文档间的相似度,相似度大于相似度阈值的两篇文档就被归属于同一个信息文档集中,取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集。全文摘要本发明提供了网络信息处理
技术领域
的一种网络热点和舆情的检测方法,通过搜集指定时间范围内的网络论坛、博客系统的正文信息文档和评论信息文档,并进行分词、概念映射、概念消歧,再提取出能够表达正文信息文档内容的本征特征,利用这些本征特征进行聚类,形成若干个包含不等数量的信息文档的信息文档集,根据各信息文档集中信息文档的数目可以知道指定时间范围内网络上讨论的热点事件,再对热点事件信息文档集进行褒贬倾向分析,从而获知网民对该热点事件的舆情观点。本发明消除了以往舆情系统以词为单位、不够灵活的不足,同时增强了对评论文本进行舆情分析的能力。文档编号G06F17/30GK101661513SQ20091030854公开日2010年3月3日申请日期2009年10月21日优先权日2009年10月21日发明者张月国,李生红,昆梁,铭陈申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1