一种基于改进的文本空间向量表示的热点发现方法

文档序号:6340957阅读:195来源:国知局
专利名称:一种基于改进的文本空间向量表示的热点发现方法
技术领域
本发明涉及文本挖掘技术,自然语言处理特别涉及一种基于改进的文本空间向量表示的热点发现方法和舆情控制系统。
背景技术
数据挖掘是从巨量数据中发现有效的、新颖的、潜在有用的并且最终可理解的模式的非平凡过程。数据挖掘就是为了解决当今拥有大量数据,但缺乏有效分析手段的困境而出现的研究领域。目前,已经在包括生物信息学,自然语言处理等许多方面发挥了巨大的作用。互联网舆情分析,主要是基于网络上发布的文本信息内容进行,因此离不开文本挖掘技术。在文本挖掘技术中主要关注文本特征提取和文本分类技术。特征提取是文本分类的基础,好的特征提取方法不仅能改变文本处理的正确率,更重要的是能缩小处理文本的向量维数,增加效率,提高系统的整体性能。但是,目前在中文处理系统中并没有把特征的提取和优化作为重点来研究,只是试图从处理(分类或聚类)算法着手来提高分类的正确性,虽然有些系统达到了比较好的效果,但是,它们必须是建立在大量训练样本的条件下实现的,而对于网络上大量的随机信息并不太适合。近几年,特征提取系统和方法在文本处理中得到了广泛的应用,加快了文本处理的发展。、在目前所采用的文档表示方法中,存在一个共同的不合人意的地方是文档特征向量具有惊人的维数,使特征子集的选取成为文本挖掘过程中必不可少的一个环节。特征提取即进行维数压缩的工作,这样做的目的主要是提高程序效率和运行速度,同时提高分类精度,快速筛选出针对该类的特征项集合。特征提取的主要方法有两种一是独立评估方法,基于词间关系相互独立的基本假设(正交假设),对特征进行权值调整有多种标准互信息、期望交叉熵、信息增益等。基本思想是对特征集中的每个特征进行独立的评估。通过构造一个算法,对每个特征进行权值调整,然后按权值大小排序,根据权阀值或预定的特征数目选取最佳特征子集作为特征提取的结果。二是综合评估方法,文本中出现的词往往存在一定的相关性,即出现斜交情况,在某种程度上会影响计算的结果。因此,可以采用一种综合评估方法对这些高维的、彼此间不独立的原始特征集中进行变换,得到较少的描述这些特征的综合指标。综合评估方法是从高维的、彼此间不独立的原始特征集中找出较少的描述这些特征的综合指标。这些综合指标之间相互独立,并且可用得到的综合指标对特征集进行选择。90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣。目前在国内也已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。近年来文本分类技术取得了很大的进展,提出了多种特征抽取方法和分类方法,如回归模型、支持向量机、最大熵模型等,研究了一些相当成功的分类系统,建立了 OHSUMED,Reuters等开放的分类语料库。分类是重要的数据挖掘方法,在文本分类中,几乎存在着和一般分类同样多的方法。在众多的文本分类算法中,比较常用的有Rocchio算法、朴素贝叶斯分类算法、K-近邻算法、决策树算法、神经网络算法和支持向量机算法。采用文本挖掘技术,能够实现互联网文本的相似搜索与消重、热点发现与追踪和关联分析与趋势分析。其中,热点发现是指在各种信息来源中追踪那些讨论目标热点的相关信息片段,发现信息片断集合中的各个未知热点,并能在线检测出新热点。关联分析是从海量数据中挖掘关联规则,同时,利用趋势分析技术,分析网络舆论等随时间的发展趋势情况,以便实现对舆论环境的监测与不良倾向的预警。

发明内容
提供一种基于改进的文本空间向量表示的热点发现方法,该方法包括对文本信息构建特征向量模型以及一种使用了改进的文本空间向量表示方法。其中文本信息构建特征向量模型方法具体包括对数据库结构化数据进行分词处理,以词为一维,文档为一维建立二维空间向量并计算每个词在文档中的词频放入二维空间向量中。改进的文本空间向量表示方法
其中,表示第i个特征词的权重,表示词t在文档d中的出现频率,N表示总的文档数,表示包含t的文档数。本发明提供了一个实现热点发现的舆情监控系统,该装置包括
舆情获取模块,用于获取网络上了的大量舆情信息,收集到数据库,以便后期处理。包括配置模块,用于设定爬虫抓取网页的范围,通过设定网站入口列表,爬取深度,轮询爬取时间来确定爬虫爬取的范围,以及爬取模块,用于与指定网站建立连接,按照配置模块中的爬取深度及轮询爬取时间来抓取网页,保存到服务器数据库中;
预处理模块,包括网页去噪模块,用于对网页进行有用信息提取,使用正则表达式对网页内容进行匹配,提取出结构化信息保存至数据库,以及去重模块,对抓取到的网页进行排重处理;
分词模块,用于对中文文本的自然语言处理,把文本分为一个个带词性的词,从而使得系统以词为最小识别单位进行处理;
聚类模块,用于在构建完特征向量库之后,对具有相同特征的文档进行归类,从而实现热点发现。


图1为舆情获取模块示意图; 图2为预处理模块示意图3为聚类模块示意图。
权利要求
1.一种基于改进的文本空间向量表示的热点发现方法,其特征在于,该方法包括 对文本信息构建特征向量模型;使用了改进的文本空间向量表示方法。
2.如权利要求1所述的方法,其特征在于,所述对文本信息构建特征向量模型方法具体包括对数据库结构化数据进行分词处理,以词为一维,文档为一维建立二维空间向量; 计算每个词在文档中的词频放入二维空间向量中。
3.一个实现热点发现的舆情监控系统,其特征在于,该装置包括舆情获取模块,用于获取网络上了的大量舆情信息,收集到数据库,以便后期处理; 预处理模块,用于对数据库中的大量网页进行去噪音处理,去重,并且存入结构化数据库;分词模块,用于对中文文本的自然语言处理,把文本分为一个个带词性的词,从而使得系统以词为最小识别单位进行处理;聚类模块,用于在构建完特征向量库之后,对具有相同特征的文档进行归类,从而实现热点发现。
4.如权利要求4所述的装置,其特征在于,所述舆情获取模块包括配置模块,用于设定爬虫抓取网页的范围,通过设定网站入口列表,爬取深度,轮询爬取时间来确定爬虫爬取的范围;爬取模块,用于与指定网站建立连接,按照配置模块中的爬取深度及轮询爬取时间来抓取网页,保存到服务器数据库中。
5.如权利要求4所述的装置,其特征在于,所述预处理模块包括网页去噪模块,用于对网页进行有用信息提取,使用正则表达式对网页内容进行匹配, 提取出结构化信息保存至数据库;去重模块,对抓取到的网页进行排重处理。
6.如权利要求4所述的装置,其特征在于,所述分词模块包括使用分词系统对中文文本进行文本拆分,以词为最小单位,为后续自然语言处理做准备工作。
7.如权利要求4所述的装置,其特征在于,所述聚类模块包括使用聚类算法对特征向量库中的特征向量进行处理,把相似度高的文本聚为一类,从而实现热点发现。
全文摘要
本发明公开了一种基于改进的文本空间向量表示的热点发现方法一种基于改进的文本空间向量表示的热点发现方法,该方法包括使用改进的文本空间向量表示方法来搭建向量模型,使得网络文本变成可以被计算机识别和处理的向量模型,从而可以进一步进行热点发现。同时提供了一个实现热点发现的舆情监控系统。
文档编号G06F17/27GK102567405SQ201010618099
公开日2012年7月11日 申请日期2010年12月31日 优先权日2010年12月31日
发明者宫哲, 蒋琴琴, 贺智明 申请人:北京安码科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1