一种网络舆情分析方法

文档序号:6400034阅读:240来源:国知局
专利名称:一种网络舆情分析方法
技术领域
本发明属于网络信息处理技术领域,具体涉及一种网络舆情分析方法。
背景技术
随着互联网技术的不断发展,网络已经成为人们相互交流的重要的平台之一。由于互联网的自由和开放性,任何人均可以在论坛、博客、微博等新兴媒体上发布言论,同时也带来了互联网舆情和不良信息传播等一系列问题,一旦某条信息没有及时被监测到,就很容易引发谣言散播,甚至引发群体性事件,从而为社会带来不稳定因素。因而,有必要提出一种快速、有效的方法,对海量规模的网页进行有针对性的舆情判定。CN101408883公开了 一种网络舆情观点收集方法,该方案主要包括以下步骤:
(I)、从爬虫数据库中的信息文档中提取出热点词,根据热点词,提取热点词相关的信息文档,构成该热点词相关的热点事件文档集;(2)、在热点事件文档集中,提取信息文档中的关键句,构成关键句集,在提取关键句过程中,在该关键句句末添加网民的身份标记,以标记该关键句的所属用户;(3)、对关键句集中的关键句进行聚类,对聚类结果按每类句子数对其排序,取句子数最高的前M类,形成M类观点主题句集;(4)、建立不同类别的情感词库,情感词库中的每一个词语对应一个权值,对M类观点主题句集分别标注其对应的情感词库,然后依据情感词库,分别对M类观点主题句集中的关键句的情感词进行情感标记,然后根据情感标记计算出每个关键句的情感倾向值,再依据关键句的网民的身份标记,计算出每个网民在该观点主题下的情感倾向值,从而得到某一热点事件的网络舆情观点。此该方案虽然能够解决舆情判定的问题,但是仍存在以下问题:1、由于使用聚类和情感分析方法需要分词和词性标注,耗时较长,同时聚类本身也是较为耗时的过程;2、非新闻页面的标点使用不正规,经常出现以空格代替标点、错用标点等情况,难以准确提取主题句,而微博因为文字长度较短,更无法以主题句为基本单位进行分析;3、无法根据用户需求进一步筛选特定舆情信息,如按地区进行筛选、按内容进行筛选等。

发明内容
本发明的目的是为了解决上述方案中舆情分析耗时较长且准确度不足这一技术问题,提出了 一种网络舆情分析方法。本发明的技术方案为:一种网络舆情分析方法,具体包括如下步骤:S1:参数初始化:待匹配的关键词表,包含若干个用于描述舆情信息的关键词,以及该关键词对应的主题编号;待匹配的关键句式表,包含若干个描述舆情信息的句式的正则表达式,以及该关键句式的所述主题编号;主题编号到主题性质与主题权值的映射表;S2:从待匹配的关键词表中读入每个要匹配的关键词,并将每个词语加入到AC自动机的词语树前缀中,完成词语树构建;S3:从待匹配的关键句式表中读入每种句式对应的正则表达式;
S4:读入待分析页面,提取待分析页面的正文部分;S5:遍历正文,匹配正文中出现的关键词并计算出每一个关键词出现的次数,同时根据待匹配的关键词表查询出每个关键词对应的主题编号;S6:将正文部分中的内容根据标点或者空格划分为若干句,删去其中字数小于Θ s的句子,对于剩余的句子,进行关键句式匹配,其中,Θ s为预先设置的最小句子长度阈值;S7:根据步骤S5和S6匹配结果,确定正文部分的主题组合;S8:根据映射表,以及步骤S7得到的正文部分的主题组合,按如下公式计算正文的舆情指数:R=A1 Ss +A2Sn_A3Sp_A4S1 -A5Sf ;其中,Ss为正文中出现的敏感类问题的权值和,Sn为负面情感主题的权值和,Sp为正面情感主题的权值和,S1为非舆情类主题的权值和,Sf为描述国外情形主题的权值和,VA2> A3> A4, A5为预先设置的经验参数;S9:根据步骤S7和S8结果,若R > Tr且正文中不包含用户设定的过滤关键字,同时正文描述内容涉及地区与用户设定的关注地区一致,则认定该正文为用户关心的舆情信息,其中,Tr为预先设置的认定某一页面为舆情的最小门限值。上述步骤S4提取待分析页面的正文部分的具体过程如下:S401:利用正则表达式匹配方法,根据页面的原始URL地址,以及页面HTML代码中包含的关键代码,判断出页面的所述类型;S402:如果页面属于某一新闻网站或者博客,则提取所有页面段落,并将页面的标题以单独段落计入正文;如果页面属于某一论坛,对于每个讨论帖,将发帖人的主帖部分和该讨论帖内发帖人字数大于Θ f的回帖合并作为正文,并将其他字数大于2 Θ f的跟帖作为单独的正文进行分析,其中,Qf为预先设置的一个论坛回帖可以被分析所需的最小字数;如果页面属于某一微博客,将每条字数大于的言看作正文并进行单独分析,其中,0m为预先设置的微博跟帖可以被分析所需的最小字数。上述步骤S6进行关键句式匹配的具体过程如下:S601:读出待匹配的关键句式表中的一个正则表达式,用该正则表达式匹配该句子;S602:若S601所述正则表达式匹配成功,则认定该句子为正则表达式对应的关键句式,记录该句式对应的主题编号,并将该句式出现次数增加I ;若S601所述正则匹配不成功,则继续执行步骤S601,直到所有正则表达式匹配完毕。上述步骤S7中确定正文部分的主题组合具体为:对于长文本,某一主题内包含的主题词或者关键句要在文中出现的次数不小于θ zl次,则认为正文部分涉及该主题;对于短文本,某一主题内包含的主题词或者关键句在文中出现的次数不小于θ z2,则认为正文部分涉及该主题,其中,θζ1、θζ2为预先设置的阈值。进一步的,上述长文本具体为新闻、博客和论坛正文;所述的短文本具体为论坛回帖或者微博。本发明的有益效果为:本发明的方法通过使用AC自动机和正则表达式匹配出正文中的关键词和关键句式,并根据匹配的结果将文章表示为若干主题,通过为每种主题设定权值并计算页面的权值和,从而快速、准确的分析并判断页面是否属于舆情。本发明的方法以主题匹配代替简单舆情分析中的词语匹配,同时免去了聚类、分类等复杂步骤,能够在保证一定准确度的情况下能综合各种指标,对各种页面进行高速舆情分析,达到最快的分析速度。


图1为本发明网络舆情分析方法实施过程流程示意图。
具体实施例方式下面结合附图和具体实施例对本发明做进一步的说明。本发明网络舆情分析方法实施过程流程示意图如图1所示,具体包括如下步骤:S1:初始化参数:待匹配的关键词表Tw如表I所不,该关键词表使用LDA对20000个训练文本进打自动分析后得到,总共200个主题,其中每个主题包含30个关键词,以及该关键词的所述主题编号,一个关键词可以同时属于多个主题;待匹配的关键句式表Ts如表2所示,其中包含若干关键句式的正则表达式描述,以及该关键句式对应的主题编号;主题编号到主题性质与主题权值的映射表Tm如表3所示,其中,主题性质取:S-敏感话题,N-负面描写,P-正面描写,F-国外内容,1-与舆情无关。这里的主题为一组相关词语或者句式的组合,出自论文“Probabilistic TopicModels, Signal Processing Magazine,第 27 卷,55-65, David M.Blei 等”标题中 topic 一词的翻译,具体描述一类事物或者事物的某一种特征,如颜色、形状等,在本实施例中也可以用来表示情感、地区等特征。

本实施过程中 用到的其它参数初始化如下:一个论坛回帖或者微博跟帖可以被分析所需的最小字数0f=3O和θπ=10;最小句子长度0s=6个中文汉字长度;认定一篇新闻或者博客或者论坛的主贴部分涉及某一主题所需要出现的最小主题词个数或者次数θ zl=4,认定一个论文跟帖或者微博发言涉及某一主题所需出现的最小主题词个数或者次数Θ z2=l A1-A5S计算舆情指数R时所需要的经验参数,取值分别为1.8、8、10、5、8 ;Tr=200为认定一篇文章为舆情的最小门限值;用户关注所有地区,且没有设定任何屏蔽关键字。LDA 出自论文 “Latent Dirichlet Allocation, Journal of Machine LearningResearch,第三卷,993-1022页,David M.Blei等”,用于分析大量文本中出现的主题,并提取每个主题包含的词语。表I
权利要求
1.一种网络舆情分析方法,具体包括如下步骤: 51:参数初始化: 待匹配的关键词表,包含若干个用于描述舆情信息的关键词,以及该关键词对应的主题编号;待匹配的关键句式表,包含若干个描述舆情信息的句式的正则表达式,以及该关键句式的所述主题编号;主题编号到主题性质与主题权值的映射表; 52:从待匹配的关键词表中读入每个要匹配的关键词,并将每个词语加入到AC自动机的词语树前缀中,完成词语树构建; 53:从待匹配的关键句式表中读入每种句式对应的正则表达式; 54:读入待分析页面,提取待分析页面的正文部分; 55:遍历正文,匹配正文中出现的关键词并计算出每一个关键词出现的次数,同时根据待匹配的关键词表查询出每个关键词对应的主题编号; 56:将正文部分中的内容根据标点或者空格划分为若干句,删去其中字数小于Θ s的句子,对于剩余的句子,进行关键句式匹配,其中,es为预先设置的最小句子长度阈值; 57:根据步骤S5和S6匹配结果,确定正文部分的主题组合; 58:根据映射表,以及步骤S7得到的正文部分的主题组合,按如下公式计算正文的舆情指数:R=A1SjA2Sn-A3Sp-A4S1-A5Sf ; 其中,Ss为文章中出现的 敏感类问题的权值和,Sn为负面情感主题的权值和,Sp为正面情感主题的权值和,S1为非舆情类主题的权值和,Sf为描述国外情形主题的权值和,“A3、A4、A5为预先设置的经验参数; 59:根据步骤S7和S8结果,若R > Tr且文章中不包含用户设定的过滤关键字,同时文章描述内容涉及地区与用户设定的关注地区一致,则认定该正文为用户关心的舆情信息,其中,Tr为预先设置的认定一篇文章为舆情的最小门限值。
2.根据权利要求1所述的网络舆情分析方法,其特征在于,所述步骤S4提取待分析页面的正文部分的具体过程如下: 5401:利用正则表达式匹配方法,根据页面的原始URL地址,以及页面HTML代码中包含的关键代码,判断出页面的所述类型; 5402:如果页面属于某一新闻网站或者博客,则提取所有文章段落,并将文章的标题以单独段落计入正文;如果页面属于某一论坛,对于每个讨论帖,将发帖人的主帖部分和该讨论帖内发帖人字数大于Θ f的回帖合并作为正文,并将其他字数大于2 Θ f的跟帖作为单独的正文进行分析,其中,Qf为预先设置的一个论坛回帖可以被分析所需的最小字数;如果页面属于某一微博客,将每条字数大于的言看作正文并进行单独分析,其中,θπ为预先设置的微博跟帖可以被分析所需的最小字数。
3.根据权利要求1所述的网络舆情分析方法,其特征在于,所述步骤S6进行关键句式匹配的具体过程如下: 5601:读出待匹配的关键句式表中的一个正则表达式,用该正则表达式匹配该句子; 5602:若S601所述正则表达式匹配成功,则认定该句子为正则表达式对应的关键句式,记录该句式对应的主题编号,并将该句式出现次数增加I ;gS601所述正则匹配不成功,则继续执行步骤S601,直到所有正则表达式匹配完毕。
4.根据权利要求1所述的网络舆情分析方法,其特征在于,所述步骤S7中确定正文部分的主题组合具体为:对于长文本,某一主题内包含的主题词或者关键句要在文中出现的次数不小于θ zl次,则认为正文部分涉及该主题;对于短文本,某一主题内包含的主题词或者关键句在文中出现的次数不小于θζ2,则认为正文部分涉及该主题,其中,θζ1、θζ2为预先设置的阈值。
5.根据权利要求1所述的网络舆情分析方法,其特征在于,所述的长文本具体为新闻、博客和论坛正文;所述的 短文本具体为论坛回帖或者微博。
全文摘要
本发明公开了一种网络舆情分析方法,具体通过使用AC自动机和正则表达式匹配出正文中的关键词和关键句式,并根据匹配的结果将文章表示为若干主题,通过为每种主题设定权值并计算页面的权值和,从而快速、准确的分析并判断页面是否属于舆情。本发明的方法以主题匹配代替简单舆情分析中的词语匹配,同时免去了聚类、分类等复杂步骤,能够在保证一定准确度的情况下能综合各种指标,对各种页面进行高速舆情分析,达到最快的分析速度。
文档编号G06F17/50GK103150432SQ20131007213
公开日2013年6月12日 申请日期2013年3月7日 优先权日2013年3月7日
发明者高云棋, 田丹, 郭成林, 刘红玉, 刘丹, 彭春林 申请人:宁波成电泰克电子信息技术发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1