一种基于文本相似度的舆情地域热点发现方法与流程

文档序号:12667765阅读:549来源:国知局

本发明涉及网络技术领域,特别是涉及一种基于文本相似度的舆情地域热点发现方法。



背景技术:

随着互联网的大力普及,网络媒体在社会传播中趋于主流化,各类互联网应用在信息传播中的优势凸显,吸引了社会众多各类群体的参与,互联网向社会各界加速渗透。随着其功能的不断拓展和深化,互联网越来越成为当今社会重要的舆情载体。网络舆情已经对社会的稳定和众多上网的人们产生了重大的影响,它发生的范围广,传播速度快,以及它的爆发点具有不易发现和控制等特点,这使得对网络中舆情的有效的发现与监控变得非常重要。而新闻和微博已成为网络舆情中热点事件发布和推动的新阵地。如何快速有效地从网络舆情文本中挖掘热点话题并追踪话题演变、预测话题倾向,从而分析挖掘网络舆情动态,为商业决策提供有价值的信息,是当前研究面临的一个热点。然而当前大多舆情分析主要针对网络行为开展,忽略了网络舆情的地域信息,将舆情在网络上的传播与其地理位置联系起来分析是网络舆情的研究趋势。可见,构建不同地域的热门话题,可以及时为用户提供所关注的某个地域热门话题的产生背景和发展趋势,从而减少负面话题所带来的影响。

目前国内的舆情监控系统中的热点话题发现的实现方法通常采用关键词匹配、统计词频的方式,或者一般的文本聚类方式,识别出热门话题。基于关键词匹配、统计词频的方法通常需要大量的在线计算,而且得到的热点话题并不是特别准确;而基于一般的文本聚类的热点话题发现方法计算复杂度过高,直接导致系统热点话题的延迟性。可见如何准确、及时地发现热点话题是当前亟待解决的问题。

另外,现有的热点事件发现方法是从网络中获取海量信息,然后从海量信息中发现热点事件,但是,由于缺乏地域的针对性,通过这种方法挖掘出的热点事件有时并不是用户所关心的。



技术实现要素:

为解决上述问题,本发明提供了一种基于文本相似度的舆情地域热点发现方法,包括如下步骤:

步骤一:预先建立地理数据库。

步骤二:识别出待识别文档中的地域词,然后根据地理数据库匹配出该地域词对应的地理数据。

步骤三:指定待识别文档中准备进行分词的内容,对该部分内容进行分词,提取特征词,并计算各个特征词的词频,将文档向量化。

步骤四:计算被分词内容与各个已有话题类别中的中心向量的余弦相似度,获取与被分词内容具有相似度的话题并得到余弦相似度值,若余弦相似度值小于或等于预先设定的阈值,则将被分词内容置为一个新的话题,并加入其对应的文档涉及的地域信息。若余弦相似度值大于阈值,则将被分词内容归为已知的话题类别中,并更新该话题类别的中心向量,加入其对应的文档涉及的地域信息。

步骤五:对重复执行步骤二至四,直到完成所有待识别文档的

地域热点分析。

步骤六:选择文档数符合规定的话题,统计其地域信息。

进一步的,步骤一中所述的地理数据库包括中国的省、市、县三级地理数据。

进一步的,步骤二中采用ICTCLAS汉语词法分析系统筛选出词性为地域名称的词语。

进一步的,步骤三中,文档标题或者规定长度的内容作为准备分词的内容。

进一步的,步骤三中,选择规定长度的内容前,待识别文档的内容会被预先过滤。

进一步的,待识别文档中被过滤掉的内容包括用户名和/或英文字符和/或数字和/或数学字符和/或标点符号/或语气助词和/或标点符号和/或url标签。

进一步的,步骤四中,计算被分词内容与各个已有话题类别的中心向量的公式为:

其中,cos(θ)代表余弦相似度,A=(A1,…,An),A表示被分词内容的向量,Ai(1,2,…,n)表示各个特征词的词频。B=(B1,…,Bn),表示进行比较时所选中的已有话题类别的中心向量,Bi(1,2,…,n)表示各个特征词的词频。n表示A、B特征词并集元素的个数。

进一步的,步骤四中,更新话题类别的中心向量的公式为:

其中Wnew表示该话题类别中新的中心向量,Wold表示该话题类别原来的中心向量,Wd表示被分词内容的中心向量,n表示该话题类别中的文档数目。

进一步的,所述待识别文档为网页信息文档,其形成方式为:网络爬虫从互联网中采集网页,对所爬取的网页进行解析预处理,将获取到网页的标题、信息正文信息组装成网页信息文档。

本发明的有益效果为:

本发明提供了一种基于文本相似度的舆情地域热点发现方法,涉及到自然语言处理领域。本发明采用增量文档聚类模型,能减少在线时间计算,实时向用户提供其所关心的地域下的热点事件。

附图说明

图1为本发明的流程示意图。

具体实施方式

本发明的设计构思为:针对传统舆情处理技术的不足,提供了一种基于文本相似度的舆情地域热点发现方法,该方法通过尽量减少在线时间计算,采用增量文档聚类模型,实时向用户提供其所关心的地域下的热点事件。

如图1所示,本发明主要包括如下步骤:

步骤一:预先建立地理数据库。

所述地理数据库包括所想要包含的地域的行政区划信息。例如,建立一个中国地理数据库,该数据库可包含各省、各市、各县的名称信息,例如:四川,成都,高新区。

地理数据库的建立是为后续的地域识别服务。

步骤二:识别待识别文档的地域词,然后根据地理数据库对待检测文本信息进行地理位置识别。

本发明通过网络爬虫从互联网中采集网页,对所爬取的网页进行解析预处理,获取到网页的标题、正文等信息组装成网页信息文档并保存到网页数据库。各个网页信息文档即为待识别文档。

本步骤利用汉语词法分析系统ICTCLAS对待识别文档进行分词,从中筛选出代表具有地域名称属性的词语(例如“成都”)或者词语组合(例如“四川成都”)。再根据地理数据库匹配出地域名称对应的地理数据。某些情况下,如,地域名称与某些其他属性的词重合,则需要人工再次挑拣出地域名,并制定相应规则,对挑拣出来的地域名再匹配地理数据。

地域名的识别是在整个待识别文档中进行的,可以采用ICTCLAS汉语词法分析系统筛选。

步骤三:指定待识别文档中准备进行分词的内容,对该部分内容进行分词,提取特征词,并计算各个特征词的词频,将文档向量化,构造文档的向量空间模型。

本步骤可以指定文档全部内容,但是计算量很大,因此本实施例优选对待识别文档中的特定文本进行分词,以减少不必要的工作量。如对于新闻直接取标题进行分词,而微博则可以取指定长度的内容进行分词。更优选的,从文档中指定长度的内容前,先对文档某些无意义内容进行过滤,这些无意义内容是人为预先规定的,其可以为用户名和或英文字符和/或数字和/或数学字符和/或标点符号和/或语气助词和/或标点符号和/或url标签等。指定长度的内容就从被过滤掉上述内容的文档中指定。

步骤四:计算被分词内容与各个已有话题类别中的中心向量的余弦相似度,获取与被分词内容具有相似度的话题并得到余弦相似度值,若余弦相似度值小于或等于预先设定的阈值,则将被分词内容置为一个新的话题,并加入其对应的文档涉及的地域信息;若余弦相似度值大于阈值,则将被分词内容归为已知的话题类别中,并更新该话题类别的中心向量,加入其对应的文档涉及的地域信息。

本发明采用Single-pass聚类算法实现对热点话题的发现,该算法采用增量聚类方式将文档向量化与已有话题相比较,计算余弦相似度,进行匹配。若与某个话题类别匹配成功,则将此文档归为该话题,并更新该话题的地域信息和地理位置;若与所有话题类别都小于或等于人工设定的阈值(本发明中取值为0.45),则该文档成为一个新的种子话题。

更具体的,Single-pass聚类算法步骤如下:

1)输入被分词内容,提取特征词,并向量化。

2)分别计算被分词内容的中心向量与已有话题类别中的中心向量的余弦相似度值即(cosθ),获取与d最大相似度的话题并得到相似度值。

cos(θ)代表余弦相似度,A=(A1,…,An),A表示被分词内容的向量,Ai(i=1、2.....n)表示各个特征词的词频;B=(B1,…,Bn),B表示进行比较时所选中的已有话题类别的中心向量,Bi(i=1、2.....n)表示各个特征词的词频,n表示A、B特征词并集元素的个数。

3)将cos(θ)与余弦相似度阈值进行比较,若cos(θ)值小于或等于相似度阈值,则将该被分词内容置为一个新的话题;若cos(θ)值大于相似度阈值(本实施例设置相似度阈值为0.45),则将被分词内容归为已知的话题类别中,并按照以下公式更新该话题类别的中心向量:

其中Wnew表示该话题类别中新的中心向量,Wold表示该话题类别原中心向量,wd表示被分词内容的中心向量,n表示该话题类别中的文档数目。

优选的,为减少计算复杂度,对于新的中心向量,过滤其中特征词权重小于0.001的词语。并且更新该话题涉及到的地域信息,若该话题包含待识别文档中的地域信息,且共有m篇文档包含此地域信息,则该话题中该地域信息数目为m+1;若该话题不包含待识别文档中的地域信息,则将待识别文档中的地域信息增加到该话题类别中。

步骤五:对重复执行步骤二至四,直到完成所有待识别文档的

地域热点分析。

步骤六:选择文档数符合规定的话题,统计其地域信息。

步骤五-六可举例为:取一天24小时的网页数据,结合Hadoop框架,每个周期(如一小时)实时增量聚类,得到热点话题,然后将所有话题按文档数目排序,取其文档数目最多的前1000个话题存入mysql数据库,分别统计1000个话题地域信息数目,并将其存入数据库。热点话题的热度由每个话题文档数目来判定,文档数目最多的话题为最热。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1